欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java獲取網(wǎng)頁(yè)數(shù)據(jù)步驟方法詳解

 更新時(shí)間:2020年03月25日 14:33:28   作者:摘星族  
這篇文章主要介紹了Java獲取網(wǎng)頁(yè)數(shù)據(jù)步驟方法詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下

在很多行業(yè)當(dāng)中,我們需要對(duì)行業(yè)進(jìn)行分析,就需要對(duì)這個(gè)行業(yè)的數(shù)據(jù)進(jìn)行分類,匯總,及時(shí)分析行業(yè)的數(shù)據(jù),對(duì)于公司未來的發(fā)展,有很好的參照和橫向?qū)Ρ?。面前通過網(wǎng)絡(luò)進(jìn)行數(shù)據(jù)獲取是一個(gè)很有效而且快捷的方式。
首先我們來簡(jiǎn)單的介紹一下,利用java對(duì)網(wǎng)頁(yè)數(shù)據(jù)進(jìn)行抓取的一些步驟,有不足的地方,還望指正,哈哈。屁話不多說了。

其實(shí)一般分為以下步驟:

1:通過HttpClient請(qǐng)求到達(dá)某網(wǎng)頁(yè)的url訪問地址(特別需要注意的是請(qǐng)求方式)

2:獲取網(wǎng)頁(yè)源碼

3:查看源碼是否有我們需要提取的數(shù)據(jù)

4:對(duì)源碼進(jìn)行拆解,一般使用分割,正則或者第三方j(luò)ar包

5:獲取需要的數(shù)據(jù)對(duì)自己創(chuàng)建的對(duì)象賦值

6:數(shù)據(jù)提取保存

下面簡(jiǎn)單的說一下在提取數(shù)據(jù)中的部分源碼,以及用途:

/**
   * 向指定URL發(fā)送GET方法的請(qǐng)求
   *
   * @param url
   *      發(fā)送請(qǐng)求的URL
   * @param param
   *      請(qǐng)求參數(shù),請(qǐng)求參數(shù)應(yīng)該是 name1=value1&name2=value2 的形式。
   * @return URL 所代表遠(yuǎn)程資源的響應(yīng)結(jié)果
   */
  public static String sendGet(String url, String param) {
    String result = "";
    BufferedReader in = null;
    try {
      String urlNameString = url;
      URL realUrl = new URL(urlNameString);
      // 打開和URL之間的連接
      URLConnection connection = realUrl.openConnection();
      // 設(shè)置通用的請(qǐng)求屬性
      connection.setRequestProperty("accept", "*/*");
      connection.setRequestProperty("connection", "Keep-Alive");
      connection.setRequestProperty("user-agent",
          "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)");
      // 建立實(shí)際的連接
      connection.connect();
      // 獲取所有響應(yīng)頭字段
      Map<String, List<String>> map = connection.getHeaderFields();

      // 定義 BufferedReader輸入流來讀取URL的響應(yīng)
      in = new BufferedReader(new InputStreamReader(
          connection.getInputStream())); //這里如果出現(xiàn)亂碼,請(qǐng)使用帶編碼的InputStreamReader構(gòu)造方法,將需要的編碼設(shè)置進(jìn)去
      String line;
      while ((line = in.readLine()) != null) {
        result += line;
      }
    } catch (Exception e) {
      System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
      e.printStackTrace();
    }
    // 使用finally塊來關(guān)閉輸入流
    finally {
      try {
        if (in != null) {
          in.close();
        }
      } catch (Exception e2) {
        e2.printStackTrace();
      }
    }
    return result;
  }

解析存儲(chǔ)數(shù)據(jù)

public Bid getData(String html) throws Exception {
    //獲取的數(shù)據(jù),存放在到Bid的對(duì)象中,自己可以重新建立一個(gè)對(duì)象存儲(chǔ)
    Bid bid = new Bid();
    //采用Jsoup解析
    Document doc = Jsoup.parse(html);
    // System.out.println("doc內(nèi)容" + doc.text());
    //獲取html標(biāo)簽中的內(nèi)容tr
    Elements elements = doc.select("tr");
    System.out.println(elements.size() + "****條");
    //循環(huán)遍歷數(shù)據(jù)
    for (Element element : elements) {
      if (element.select("td").first() == null){
        continue;
      }
      Elements tdes = element.select("td");
      for(int i = 0; i < tdes.size(); i++){
        this.relation(tdes,tdes.get(i).text(),bid,i+1);
      }
    }
    return bid;
  }

得到的數(shù)據(jù)

Bid {
  h2 = '詳見內(nèi)容', 
   itemName = '訴訟服務(wù)中心設(shè)備采購(gòu)',
   item = '貨物/辦公消耗用品及類似物品/其他辦公消耗用品及類似物品', 
   itemUnit = '詳見內(nèi)容', 
   areaName = '港北區(qū)', 
   noticeTime = '2018年10月22日 18:41',
   itemNoticeTime = 'null',
   itemTime = 'null',
   kaibiaoTime = '2018年10月26日 09:00', 
   winTime = 'null',
   kaibiaoDiDian = 'null', 
   yusuanMoney = '¥67.00元(人民幣)', 
   allMoney = 'null', 
   money = 'null', 
   text = ''
}

以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

  • 詳解Java中異步轉(zhuǎn)同步的六種方法

    詳解Java中異步轉(zhuǎn)同步的六種方法

    針對(duì)應(yīng)用中異步調(diào)用,能不能像同步調(diào)用一樣立刻獲取到命令的執(zhí)行結(jié)果,如何實(shí)現(xiàn)異步轉(zhuǎn)同步?不要擔(dān)心,本文就來為大家詳細(xì)講講Java中異步轉(zhuǎn)同步的六種方法,感興趣的可以了解一下
    2022-06-06
  • 盤點(diǎn)SpringBoot中@Async注解的遇到的坑點(diǎn)及解決辦法

    盤點(diǎn)SpringBoot中@Async注解的遇到的坑點(diǎn)及解決辦法

    SpringBoot是一個(gè)流行的Java開發(fā)框架,在異步編程方面,Spring Boot提供了@Async注解,它能夠讓方法異步執(zhí)行,然而,在使用@Async注解時(shí),有一些潛在的坑需要注意,本文將深入探討Spring Boot中使用@Async注解時(shí)可能遇到的8大坑點(diǎn),并提供相應(yīng)的解決方案
    2024-03-03
  • SpringBoot整合Swagger接口文檔工具的流程步驟

    SpringBoot整合Swagger接口文檔工具的流程步驟

    我們?cè)陂_發(fā)接口的時(shí)候,會(huì)將接口文檔給前端的開發(fā)者進(jìn)行對(duì)接,我們可以通過Postman或者Yapi等接口管理工具進(jìn)行編寫管理,實(shí)際開發(fā)中,接口的管理確實(shí)也應(yīng)該通過專業(yè)的工具管理,本文,我們就來談?wù)勗趺丛赟pringBoot整合Swagger接口文檔工具
    2023-08-08
  • Java9新特性Module模塊化編程示例演繹

    Java9新特性Module模塊化編程示例演繹

    這篇文章主要為大家介紹了Java9新特性Module模塊化編程的示例演繹,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步早日升職加薪
    2022-03-03
  • Java創(chuàng)建類模式_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理

    Java創(chuàng)建類模式_動(dòng)力節(jié)點(diǎn)Java學(xué)院整理

    這篇文章主要為大家詳細(xì)介紹了Java創(chuàng)建類模式的相關(guān)方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-08-08
  • Java異或運(yùn)算應(yīng)用場(chǎng)景詳解

    Java異或運(yùn)算應(yīng)用場(chǎng)景詳解

    這篇文章主要給大家介紹了關(guān)于Java異或運(yùn)算應(yīng)用場(chǎng)景的相關(guān)資料,異或運(yùn)算會(huì)應(yīng)用在很多算法題中,這里整理了幾個(gè)最常見的應(yīng)用場(chǎng)景,文中通過代碼示例介紹的非常詳細(xì),需要的朋友可以參考下
    2023-07-07
  • SpringCloud學(xué)習(xí)筆記之Feign遠(yuǎn)程調(diào)用

    SpringCloud學(xué)習(xí)筆記之Feign遠(yuǎn)程調(diào)用

    Feign是一個(gè)聲明式的http客戶端。其作用就是幫助我們優(yōu)雅的實(shí)現(xiàn)http請(qǐng)求的發(fā)送。本文將具體為大家介紹一下Feign的遠(yuǎn)程調(diào)用,感興趣的可以了解一下
    2021-12-12
  • idea中如何使用(Undo Commit...)

    idea中如何使用(Undo Commit...)

    這篇文章主要介紹了idea中如何使用(Undo Commit...)問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • Java通過百度API實(shí)現(xiàn)圖片車牌號(hào)識(shí)別

    Java通過百度API實(shí)現(xiàn)圖片車牌號(hào)識(shí)別

    這段時(shí)間做項(xiàng)目需要用java程序進(jìn)行車牌識(shí)別,因此嘗試做了下這個(gè)程序,本代碼功能是通過調(diào)用百度API實(shí)現(xiàn)的,感興趣的可以了解一下
    2021-06-06
  • 圖文詳解Java中的序列化機(jī)制

    圖文詳解Java中的序列化機(jī)制

    java中的序列化可能大家像我一樣都停留在實(shí)現(xiàn)Serializable接口上,對(duì)于它里面的一些核心機(jī)制沒有深入了解過。本文將通過示例帶大家深入了解Java中的序列化機(jī)制,需要的可以參考一下
    2022-10-10

最新評(píng)論