Selenium+Tesseract-OCR智能識(shí)別驗(yàn)證碼爬取網(wǎng)頁(yè)數(shù)據(jù)的實(shí)例
1.項(xiàng)目需求描述
通過(guò)訂單號(hào)獲取某系統(tǒng)內(nèi)訂單的詳細(xì)數(shù)據(jù),不需要賬號(hào)密碼的登錄驗(yàn)證,但有圖片驗(yàn)證碼的動(dòng)態(tài)識(shí)別,將獲取到的數(shù)據(jù)存到數(shù)據(jù)庫(kù)。
2.整體思路
1.通過(guò)Selenium技術(shù),無(wú)窗口模式打開瀏覽器
2.在輸入框中動(dòng)態(tài)輸入訂單號(hào)
3.將圖片驗(yàn)證碼截圖保存到本地
4.通過(guò)Tesseract-OCR技術(shù)去本地識(shí)別驗(yàn)證碼轉(zhuǎn)化為文字
5.將獲取的驗(yàn)證碼輸入輸入框
6.點(diǎn)擊查詢獲取列表數(shù)據(jù)
3.功能實(shí)現(xiàn)
1.下載并安裝Google瀏覽器,安裝Google驅(qū)動(dòng)chromedriver.exe,獲取安裝路徑,配置在項(xiàng)目中
2.使用Selenium進(jìn)行瀏覽器操作
System.setProperty(瀏覽器驅(qū)動(dòng), 瀏覽器驅(qū)動(dòng)安裝位置); ChromeOptions options = new ChromeOptions(); options.addArguments("--headless"); // 無(wú)窗口模式 options.addArguments("--disable-infobars"); // 禁言消息條 options.addArguments("--disable-extensions"); // 禁用插件 options.addArguments("--disable-gpu"); // 禁用GPU options.addArguments("--no-sandbox"); // 禁用沙盒模式 options.addArguments("--disable-dev-shm-usage"); options.addArguments("--hide-scrollbars"); // 隱藏滾動(dòng)條 WebDriver driver = new ChromeDriver(options); driver.get(爬取網(wǎng)站URL); driver.manage().window().setSize(new Dimension(450, 260)); // 設(shè)置游覽器打開后調(diào)整大小 try { // 保存IMG圖片到本地 saveImgToLocal(driver); Thread.sleep(2000); // OCR智能識(shí)別驗(yàn)證碼 String codeByOCR = getCodeByOCR(); if (codeByOCR != null) { try { WebElement input1 = driver.findElement(By.id(TEXTBOX1)); input1.sendKeys(code); WebElement input2 = driver.findElement(By.id(TEXTBOX2)); input2.sendKeys(codeByOCR); // 獲取table數(shù)據(jù) WebElement addButton = driver.findElement(By.id(SELECT_BUTTON)); addButton.click(); List<WebElement> tRCollection = driver.findElement(By.id(TABLE_ID)).findElements(By.tagName("tr")); for (int t = 1; t < tRCollection.size(); t++) { List<WebElement> tDCollection = tRCollection.get(t).findElements(By.tagName("td")); VipLogisticsMinHangDetailVo minHangDetailVo = new VipLogisticsMinHangDetailVo(); minHangDetailVo.setLogistics_number(code); for (int i = 0; i < tDCollection.size(); i++) { String text = tDCollection.get(i).getText(); switch (i) { case 0: minHangDetailVo.setTime(text); case 1: minHangDetailVo.setOutlet(text); case 2: minHangDetailVo.setOrganization(text); case 3: minHangDetailVo.setEvent(text); case 4: minHangDetailVo.setDetail(text); } } list.add(minHangDetailVo); } log.info("驗(yàn)證碼識(shí)別成功!"); } catch (Exception e) { if (e.toString().contains("錯(cuò)誤提示:驗(yàn)證碼錯(cuò)誤或已過(guò)期!")) { log.error("驗(yàn)證碼識(shí)別錯(cuò)誤!" + e.toString()); } else if (e.toString().contains("錯(cuò)誤提示:請(qǐng)輸入驗(yàn)證碼!")) { log.error("未輸入驗(yàn)證碼!:" + e.toString()); } else { log.error("其他異常:" + e.toString()); } } } driver.quit(); } catch (Exception e) { e.printStackTrace(); }
3.將圖片驗(yàn)證碼截圖保存到本地(截屏法)
private void saveImgToLocal(WebDriver driver) { WebElement element = driver.findElement(By.id(img元素ID)); //創(chuàng)建全屏截圖 WrapsDriver wrapsDriver = (WrapsDriver) element; File screen = ((TakesScreenshot) wrapsDriver.getWrappedDriver()).getScreenshotAs(OutputType.FILE); try { BufferedImage image = ImageIO.read(screen); //創(chuàng)建一個(gè)矩形使用上面的高度,和寬度 Point p = element.getLocation(); //元素坐標(biāo) BufferedImage img = image.getSubimage(p.getX(), p.getY(), element.getSize().getWidth(), element.getSize().getHeight()); ImageIO.write(img, "png", screen); FileUtils.copyFile(screen, new File(保存本地地址 + "imgname.png")); } catch (IOException e) { e.printStackTrace(); } }
4.將圖片驗(yàn)證碼保存到本地(鼠標(biāo)法)
private static void saveImgToLocal1(WebDriver driver) { Actions action = new Actions(driver); action.contextClick(driver.findElement(By.id(img元素ID))).build().perform(); try { Robot robot = new Robot(); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_DOWN); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_DOWN); Thread.sleep(1000); robot.keyPress(KeyEvent.VK_ENTER); Thread.sleep(1000); //釋放向下鍵,不然在此之前的條目將起作用 robot.keyRelease(KeyEvent.VK_DOWN); Thread.sleep(1000); //運(yùn)行保存 Runtime.getRuntime().exec(SAVE_IMG_EXE); Thread.sleep(10000); } catch (Exception e) { e.printStackTrace(); } }
5.對(duì)本地驗(yàn)證碼進(jìn)行OCR識(shí)別
private String getCodeByOCR() { String result = null; File file = new File(本地圖片地址); if (!file.exists()) { if (systemFalg != 1) { file.setWritable(true, false); } file.mkdirs(); } File imageFile = new File(本地圖片地址 + "imgname.png"); if (imageFile.exists()) { ITesseract instance = new Tesseract(); instance.setDatapath(tessdata存放地址); try { String doOCR = instance.doOCR(imageFile); result = replaceBlank(doOCR); log.info("解析的驗(yàn)證碼為:{}", result != null ? result : "為空!"); } catch (Exception e) { e.printStackTrace(); log.error("解析驗(yàn)證碼異常!"); } } else { log.error("解析驗(yàn)證碼的文件不存在!"); } return result; }
綜上,該網(wǎng)頁(yè)的數(shù)據(jù)就可以獲取了。
到此這篇關(guān)于Selenium+Tesseract-OCR智能識(shí)別驗(yàn)證碼爬取網(wǎng)頁(yè)數(shù)據(jù)的實(shí)例的文章就介紹到這了,更多相關(guān)Selenium+Tesseract-OCR智能識(shí)別驗(yàn)證碼爬取 內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- Java使用Tesseract-Ocr識(shí)別數(shù)字
- python3使用Pillow、tesseract-ocr與pytesseract模塊的圖片識(shí)別的方法
- Python識(shí)別快遞條形碼及Tesseract-OCR使用詳解
- Python3.6使用tesseract-ocr的正確方法
- Perl使用Tesseract-OCR實(shí)現(xiàn)驗(yàn)證碼識(shí)別教程
- python利用 pytesseract快速識(shí)別提取圖片中的文字((圖片識(shí)別)
- 使用Python中的pytesseract模塊實(shí)現(xiàn)抓取圖片中文字
- opencv+tesseract實(shí)現(xiàn)驗(yàn)證碼識(shí)別的示例
- C#使用Tesseract進(jìn)行Ocr識(shí)別的方法實(shí)現(xiàn)
- tesseract-ocr使用以及訓(xùn)練方法
相關(guān)文章
快速解決idea打開某個(gè)項(xiàng)目卡住的問(wèn)題
這篇文章主要介紹了解決idea打開某個(gè)項(xiàng)目卡住的問(wèn)題,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-08-08Spring Cloud Gateway 如何修改HTTP響應(yīng)信息
這篇文章主要介紹了Spring Cloud Gateway 修改HTTP響應(yīng)信息的方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-07-07Android?Studio?中Gradle配置sonarqube插件(推薦)
Sonarqube作為一個(gè)很實(shí)用的靜態(tài)代碼分析工具,在很多項(xiàng)目中都使用,本文重點(diǎn)給大家介紹Android?Studio?中Gradle配置sonarqube插件的相關(guān)知識(shí),感興趣的朋友跟隨小編一起看看吧2022-03-03使用JAVA8 filter對(duì)List多條件篩選的實(shí)現(xiàn)
這篇文章主要介紹了使用JAVA8 filter對(duì)List多條件篩選的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03PageHelper插件實(shí)現(xiàn)一對(duì)多查詢時(shí)的分頁(yè)問(wèn)題
這篇文章主要介紹了PageHelper插件實(shí)現(xiàn)一對(duì)多查詢時(shí)的分頁(yè)問(wèn)題,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-04-04SpringBoot實(shí)現(xiàn)對(duì)超大文件進(jìn)行異步壓縮下載的使用示例
在Web應(yīng)用中,文件下載功能是一個(gè)常見的需求,本文介紹了SpringBoot實(shí)現(xiàn)對(duì)超大文件進(jìn)行異步壓縮下載的使用示例,具有一定的參考價(jià)值,感興趣的可以了解一下,2023-09-09springboot組件初始化后的4種啟動(dòng)方式及常用方法
在Spring Boot中,您可以通過(guò)幾種方式在組件初始化后執(zhí)行啟動(dòng)任務(wù),下面小編給大家分享springboot組件初始化后的4種啟動(dòng)方式及常用方法,感興趣的朋友一起看看吧2024-06-06Fluent Mybatis零xml配置實(shí)現(xiàn)復(fù)雜嵌套查詢
本文主要介紹了Fluent Mybatis零xml配置實(shí)現(xiàn)復(fù)雜嵌套查詢,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-08-08