欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Selenium+Tesseract-OCR智能識別驗證碼爬取網頁數據的實例

 更新時間:2021年09月27日 11:42:59   作者:大數據智工廠  
本文主要介紹了Selenium+Tesseract-OCR智能識別驗證碼爬取網頁數據,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下

1.項目需求描述

通過訂單號獲取某系統(tǒng)內訂單的詳細數據,不需要賬號密碼的登錄驗證,但有圖片驗證碼的動態(tài)識別,將獲取到的數據存到數據庫。

2.整體思路

  1.通過Selenium技術,無窗口模式打開瀏覽器

  2.在輸入框中動態(tài)輸入訂單號

  3.將圖片驗證碼截圖保存到本地

  4.通過Tesseract-OCR技術去本地識別驗證碼轉化為文字

  5.將獲取的驗證碼輸入輸入框

  6.點擊查詢獲取列表數據

3.功能實現

1.下載并安裝Google瀏覽器,安裝Google驅動chromedriver.exe,獲取安裝路徑,配置在項目中

2.使用Selenium進行瀏覽器操作

System.setProperty(瀏覽器驅動, 瀏覽器驅動安裝位置);
ChromeOptions options = new ChromeOptions();
options.addArguments("--headless");                            // 無窗口模式
options.addArguments("--disable-infobars");                    // 禁言消息條
options.addArguments("--disable-extensions");                  // 禁用插件
options.addArguments("--disable-gpu");                         // 禁用GPU
options.addArguments("--no-sandbox");                          // 禁用沙盒模式
options.addArguments("--disable-dev-shm-usage");
options.addArguments("--hide-scrollbars");                     // 隱藏滾動條

WebDriver driver = new ChromeDriver(options);
driver.get(爬取網站URL);
driver.manage().window().setSize(new Dimension(450, 260));     // 設置游覽器打開后調整大小
try {
    // 保存IMG圖片到本地
    saveImgToLocal(driver);
    Thread.sleep(2000);
    // OCR智能識別驗證碼
    String codeByOCR = getCodeByOCR();
    if (codeByOCR != null) {
        try {
            WebElement input1 = driver.findElement(By.id(TEXTBOX1));
            input1.sendKeys(code);
            WebElement input2 = driver.findElement(By.id(TEXTBOX2));
            input2.sendKeys(codeByOCR);
            // 獲取table數據
            WebElement addButton = driver.findElement(By.id(SELECT_BUTTON));
            addButton.click();
            List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr"));
            for (int t = 1; t < tRCollection.size(); t++) {
                List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td"));
                VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo();
                minHangDetailVo.setLogistics_number(code);
                for (int i = 0; i < tDCollection.size(); i++) {
                    String text = tDCollection.get(i).getText();
                    switch (i) {
                        case 0:
                            minHangDetailVo.setTime(text);
                        case 1:
                            minHangDetailVo.setOutlet(text);
                        case 2:
                            minHangDetailVo.setOrganization(text);
                        case 3:
                            minHangDetailVo.setEvent(text);
                        case 4:
                            minHangDetailVo.setDetail(text);
                    }
                }
                list.add(minHangDetailVo);
            }
            log.info("驗證碼識別成功!");
        } catch (Exception e) {
            if (e.toString().contains("錯誤提示:驗證碼錯誤或已過期!")) {
                log.error("驗證碼識別錯誤!" + e.toString());
            } else if (e.toString().contains("錯誤提示:請輸入驗證碼!")) {
                log.error("未輸入驗證碼!:" + e.toString());
            } else {
                log.error("其他異常:" + e.toString());
            }
        }
    }
    driver.quit();
} catch (Exception e) {
    e.printStackTrace();
}

3.將圖片驗證碼截圖保存到本地(截屏法)

private void saveImgToLocal(WebDriver driver) {
    WebElement element = driver.findElement(By.id(img元素ID));
    //創(chuàng)建全屏截圖
    WrapsDriver wrapsDriver = (WrapsDriver) element;
    File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE);
    try {
        BufferedImage image = ImageIO.read(screen);
        //創(chuàng)建一個矩形使用上面的高度,和寬度
        Point p = element.getLocation();
        //元素坐標
        BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight());
        ImageIO.write(img, "png", screen);

        FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png"));
    } catch (IOException e) {
        e.printStackTrace();
    }
}

4.將圖片驗證碼保存到本地(鼠標法)

private static void saveImgToLocal1(WebDriver driver) {
    Actions action = new Actions(driver);
    action.contextClick(driver.findElement(By.id(img元素ID))).build().perform();
    try {
        Robot robot = new Robot();
        Thread.sleep(1000);

        robot.keyPress(KeyEvent.VK_DOWN);
        Thread.sleep(1000);

        robot.keyPress(KeyEvent.VK_DOWN);
        Thread.sleep(1000);

        robot.keyPress(KeyEvent.VK_ENTER);
        Thread.sleep(1000);
        //釋放向下鍵,不然在此之前的條目將起作用
        robot.keyRelease(KeyEvent.VK_DOWN);
        Thread.sleep(1000);
        //運行保存
        Runtime.getRuntime().exec(SAVE_IMG_EXE);
        Thread.sleep(10000);
    } catch (Exception e) {
        e.printStackTrace();
    }
}

5.對本地驗證碼進行OCR識別

private String getCodeByOCR() {
    String result = null;
    File file = new File(本地圖片地址);
    if (!file.exists()) {
        if (systemFalg != 1) {
            file.setWritable(true, false);
        }
        file.mkdirs();
    }
    File imageFile = new File(本地圖片地址 + "imgname.png");
    if (imageFile.exists()) {
        ITesseract instance = new Tesseract();
        instance.setDatapath(tessdata存放地址);
        try {
            String doOCR = instance.doOCR(imageFile);
            result = replaceBlank(doOCR);
            log.info("解析的驗證碼為:{}", result != null ? result : "為空!");
        } catch (Exception e) {
            e.printStackTrace();
            log.error("解析驗證碼異常!");
        }
    } else {
        log.error("解析驗證碼的文件不存在!");
    }
    return result;
}

綜上,該網頁的數據就可以獲取了。

到此這篇關于Selenium+Tesseract-OCR智能識別驗證碼爬取網頁數據的實例的文章就介紹到這了,更多相關Selenium+Tesseract-OCR智能識別驗證碼爬取 內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • 快速解決idea打開某個項目卡住的問題

    快速解決idea打開某個項目卡住的問題

    這篇文章主要介紹了解決idea打開某個項目卡住的問題,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-08-08
  • Spring Cloud Gateway 如何修改HTTP響應信息

    Spring Cloud Gateway 如何修改HTTP響應信息

    這篇文章主要介紹了Spring Cloud Gateway 修改HTTP響應信息的方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-07-07
  • 一文帶你看懂SpringBoot中的全局配置文件

    一文帶你看懂SpringBoot中的全局配置文件

    這篇文章主要介紹了一文帶你看懂SpringBoot中的全局配置文件,全局配置文件能夠對一些默認配置值進行修改,Spring Boot使用一個application.properties或者application.yaml的文件作為全局配置文件,需要的朋友可以參考下
    2023-08-08
  • Android?Studio?中Gradle配置sonarqube插件(推薦)

    Android?Studio?中Gradle配置sonarqube插件(推薦)

    Sonarqube作為一個很實用的靜態(tài)代碼分析工具,在很多項目中都使用,本文重點給大家介紹Android?Studio?中Gradle配置sonarqube插件的相關知識,感興趣的朋友跟隨小編一起看看吧
    2022-03-03
  • 使用JAVA8 filter對List多條件篩選的實現

    使用JAVA8 filter對List多條件篩選的實現

    這篇文章主要介紹了使用JAVA8 filter對List多條件篩選的實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-03-03
  • ConcurrentHashMap原理及使用詳解

    ConcurrentHashMap原理及使用詳解

    ConcurrentHashMap是Java中的一種線程安全的哈希表實現,它提供了與Hashtable和HashMap類似的API,是一個高效且可靠的多線程環(huán)境下的哈希表實現,非常適合在并發(fā)場景中使用,本文就簡單介紹一下ConcurrentHashMap原理及使用,需要的朋友可以參考下
    2023-06-06
  • PageHelper插件實現一對多查詢時的分頁問題

    PageHelper插件實現一對多查詢時的分頁問題

    這篇文章主要介紹了PageHelper插件實現一對多查詢時的分頁問題,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-04-04
  • SpringBoot實現對超大文件進行異步壓縮下載的使用示例

    SpringBoot實現對超大文件進行異步壓縮下載的使用示例

    在Web應用中,文件下載功能是一個常見的需求,本文介紹了SpringBoot實現對超大文件進行異步壓縮下載的使用示例,具有一定的參考價值,感興趣的可以了解一下,
    2023-09-09
  • springboot組件初始化后的4種啟動方式及常用方法

    springboot組件初始化后的4種啟動方式及常用方法

    在Spring Boot中,您可以通過幾種方式在組件初始化后執(zhí)行啟動任務,下面小編給大家分享springboot組件初始化后的4種啟動方式及常用方法,感興趣的朋友一起看看吧
    2024-06-06
  • Fluent Mybatis零xml配置實現復雜嵌套查詢

    Fluent Mybatis零xml配置實現復雜嵌套查詢

    本文主要介紹了Fluent Mybatis零xml配置實現復雜嵌套查詢,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-08-08

最新評論