欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

JAVA使用HtmlUnit爬蟲工具模擬登陸CSDN案例

 更新時(shí)間:2018年12月07日 14:37:32   作者:執(zhí)筆記憶的空白  
今天小編就為大家分享一篇關(guān)于JAVA使用HtmlUnit爬蟲工具模擬登陸CSDN案例,小編覺得內(nèi)容挺不錯(cuò)的,現(xiàn)在分享給大家,具有很好的參考價(jià)值,需要的朋友一起跟隨小編來看看吧

最近要弄一個(gè)爬蟲程序,想著先來個(gè)簡(jiǎn)單的模擬登陸, 在權(quán)衡JxBrowserHtmlUnit 兩種技術(shù),  JxBowser有界面呈現(xiàn)效果,但是對(duì)于某些js跳轉(zhuǎn)之后的效果獲取比較繁瑣。

隨后考慮用HtmlUnit, 想著借用咱們CSND的登陸練練手。誰知道CSDN的登陸,js加載時(shí)間超長(zhǎng),不設(shè)置長(zhǎng)一點(diǎn)的加載時(shí)間,按鈕提交根本沒效果,js沒生效。 具體看代碼注釋吧。 奉勸做爬蟲的同志們,千萬別用CSDN登陸練手,坑死我了。

maven配置如下:

 <dependencies>
 <!-- https://mvnrepository.com/artifact/net.sourceforge.htmlunit/htmlunit -->
 <dependency>
 <groupId>net.sourceforge.htmlunit</groupId>
 <artifactId>htmlunit</artifactId>
 <version>2.18</version>
 </dependency>
 <!-- https://mvnrepository.com/artifact/org.jsoup/jsoup -->
 <dependency>
 <groupId>org.jsoup</groupId>
 <artifactId>jsoup</artifactId>
 <version>1.9.2</version>
 </dependency>
 </dependencies>

代碼如下:

package com.test;
import java.io.IOException;
import java.net.MalformedURLException;
import java.util.HashMap;
import java.util.Map;
import java.util.Set;
import com.gargoylesoftware.htmlunit.BrowserVersion;
import com.gargoylesoftware.htmlunit.FailingHttpStatusCodeException;
import com.gargoylesoftware.htmlunit.NicelyResynchronizingAjaxController;
import com.gargoylesoftware.htmlunit.SilentCssErrorHandler;
import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlButtonInput;
import com.gargoylesoftware.htmlunit.html.HtmlForm;
import com.gargoylesoftware.htmlunit.html.HtmlPage;
import com.gargoylesoftware.htmlunit.html.HtmlPasswordInput;
import com.gargoylesoftware.htmlunit.html.HtmlTextInput;
import com.gargoylesoftware.htmlunit.util.Cookie;
public class SimulateLogin
{
 //訪問的目標(biāo)網(wǎng)址(CSDN)
 private static String TARGET_URL = "https://passport.csdn.net/account/login?from=http://www.csdn.net";
 public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException
 {
  // 模擬一個(gè)瀏覽器
  WebClient webClient = new WebClient(BrowserVersion.CHROME);
  // 設(shè)置webClient的相關(guān)參數(shù)
  webClient.setCssErrorHandler(new SilentCssErrorHandler()); 
  //設(shè)置ajax
  webClient.setAjaxController(new NicelyResynchronizingAjaxController());
  //設(shè)置支持js
  webClient.getOptions().setJavaScriptEnabled(true);
  //CSS渲染禁止
  webClient.getOptions().setCssEnabled(false);
  //超時(shí)時(shí)間
  webClient.getOptions().setTimeout(50000);
  //設(shè)置js拋出異常:false
  webClient.getOptions().setThrowExceptionOnScriptError(false);
  //允許重定向
  webClient.getOptions().setRedirectEnabled(true); 
  //允許cookie
  webClient.getCookieManager().setCookiesEnabled(true); 
  // 模擬瀏覽器打開一個(gè)目標(biāo)網(wǎng)址
  HtmlPage page = webClient.getPage(TARGET_URL);
  /**等待js加載完全,CSDN這點(diǎn) 特別坑,js加載時(shí)間超長(zhǎng)?。。。。。?! 后人切記不要用CSDN模擬登陸?。。。。。?!**/
  webClient.waitForBackgroundJavaScript(10000*3);
  // 根據(jù)form的名字獲取頁(yè)面表單,也可以通過索引來獲?。簆age.getForms().get(0)  
  HtmlForm form = (HtmlForm) page.getElementById("fm1");   
  HtmlTextInput username = (HtmlTextInput) form.getInputByName("username"); 
  HtmlPasswordInput password = (HtmlPasswordInput) form.getInputByName("password"); 
  username.setValueAttribute("********"); //用戶名
  password.setValueAttribute("********"); //密碼
  HtmlButtonInput button = (HtmlButtonInput) page.getByXPath("http://input[contains(@class, 'logging')]").get(0);
//  ScriptResult result = page.executeJavaScript("javascript:document.getElementsByClassName('logging')[0].click()");
//  HtmlPage retPage = (HtmlPage) result.getNewPage();
  HtmlPage retPage = button.click();
  // 等待JS驅(qū)動(dòng)dom完成獲得還原后的網(wǎng)頁(yè) 
  webClient.waitForBackgroundJavaScript(1000); 
  //輸出跳轉(zhuǎn)網(wǎng)頁(yè)的地址
  System.out.println(retPage.getUrl().toString()); 
  //輸出跳轉(zhuǎn)網(wǎng)頁(yè)的內(nèi)容
  System.out.println(retPage.asXml());
  //獲取cookie 
  Set<Cookie> cookies = webClient.getCookieManager().getCookies();
  Map<String, String> responseCookies = new HashMap<String, String>(); 
  for (Cookie c : cookies) { 
   responseCookies.put(c.getName(), c.getValue()); 
   System.out.print(c.getName()+":"+c.getValue()); 
  } 
  webClient.close();
  System.out.println("Success!");
 }
}

另外,CSDN的JS總是莫名其妙的報(bào)一堆錯(cuò),如果不想看,想忽略的話,在創(chuàng)建WebClient前加上如下代碼:

  //設(shè)置日志級(jí)別,原頁(yè)面js異常不打印
  LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log", "org.apache.commons.logging.impl.NoOpLog"); 
  
  java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit") 
   .setLevel(Level.OFF); 
 
  java.util.logging.Logger.getLogger("org.apache.commons.httpclient") 
   .setLevel(Level.OFF); 

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,謝謝大家對(duì)腳本之家的支持。如果你想了解更多相關(guān)內(nèi)容請(qǐng)查看下面相關(guān)鏈接

相關(guān)文章

  • 智能手表開發(fā)API接口

    智能手表開發(fā)API接口

    這篇文章主要介紹了智能手表開發(fā)API接口,使用圖靈機(jī)器人平臺(tái)接口實(shí)現(xiàn)天氣預(yù)報(bào),非常簡(jiǎn)單實(shí)用,這里推薦給大家。
    2015-03-03
  • 基于logback.xml不生效問題的解決

    基于logback.xml不生效問題的解決

    這篇文章主要介紹了基于logback.xml不生效問題的解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • 詳解基于java的Socket聊天程序——客戶端(附demo)

    詳解基于java的Socket聊天程序——客戶端(附demo)

    這篇文章主要介紹了詳解基于java的Socket聊天程序——客戶端(附demo),客戶端設(shè)計(jì)主要分成兩個(gè)部分,分別是socket通訊模塊設(shè)計(jì)和UI相關(guān)設(shè)計(jì)。有興趣的可以了解一下。
    2016-12-12
  • Springboot接收文件與發(fā)送文件實(shí)例教程

    Springboot接收文件與發(fā)送文件實(shí)例教程

    最近工作中遇到個(gè)需求,springboot簡(jiǎn)單的上傳文檔或者圖片,并且進(jìn)行操作,操作完后進(jìn)行保存指定路徑,下面這篇文章主要給大家介紹了關(guān)于Springboot接收文件與發(fā)送文件的相關(guān)資料,需要的朋友可以參考下
    2023-05-05
  • JAVA基于SnakeYAML實(shí)現(xiàn)解析與序列化YAML

    JAVA基于SnakeYAML實(shí)現(xiàn)解析與序列化YAML

    這篇文章主要介紹了JAVA基于SnakeYAML實(shí)現(xiàn)解析與序列化YAML,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12
  • Java預(yù)覽PDF時(shí)的文件名稱問題及解決

    Java預(yù)覽PDF時(shí)的文件名稱問題及解決

    這篇文章主要介紹了Java預(yù)覽PDF時(shí)的文件名稱問題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-01-01
  • maven下載jar包改用阿里云maven庫(kù)的方法

    maven下載jar包改用阿里云maven庫(kù)的方法

    這篇文章主要介紹了maven下載jar包改用阿里云maven庫(kù)的方法,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2018-01-01
  • 一文探索Java文件讀寫更高效方式

    一文探索Java文件讀寫更高效方式

    這篇文章主要介紹了一文探索Java文件讀寫更高效方式,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值需要的小伙伴可以參考一下
    2022-07-07
  • Java面向?qū)ο蟪绦蛟O(shè)計(jì):繼承,多態(tài)用法實(shí)例分析

    Java面向?qū)ο蟪绦蛟O(shè)計(jì):繼承,多態(tài)用法實(shí)例分析

    這篇文章主要介紹了Java面向?qū)ο蟪绦蛟O(shè)計(jì):繼承,多態(tài)用法,結(jié)合實(shí)例形式分析了java繼承與多態(tài)的相關(guān)概念、原理、實(shí)現(xiàn)方法與操作注意事項(xiàng),需要的朋友可以參考下
    2020-04-04
  • 20個(gè)非常實(shí)用的Java程序代碼片段

    20個(gè)非常實(shí)用的Java程序代碼片段

    這篇文章主要為大家分享了20個(gè)非常實(shí)用的Java程序片段,對(duì)java開發(fā)項(xiàng)目有所幫助,感興趣的小伙伴們可以參考一下
    2016-02-02

最新評(píng)論