欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Java使用httpRequest+Jsoup爬取紅藍(lán)球號(hào)碼

 更新時(shí)間:2021年07月01日 15:59:54   作者:一路發(fā)  
本文將結(jié)合實(shí)例代碼,介紹Java使用httpRequest+Jsoup爬取紅藍(lán)球號(hào)碼,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

1、Jsoup介紹

1.1、簡(jiǎn)介

jsoup 是一款Java 的HTML解析器,可直接解析某個(gè)URL地址、HTML文本內(nèi)容。它提供了一套非常省力的API,可通過(guò)DOM,CSS以及類似于jQuery的操作方法來(lái)取出和操作數(shù)據(jù)。

1.2、Jsoup的主要功能

1、從一個(gè)URL,文件或字符串中解析HTML
2、使用DOM或CSS選擇器來(lái)查找、取出數(shù)據(jù)
3、可操作HTML元素、屬性、文本
注意:jsoup是基于MIT協(xié)議發(fā)布的,可放心使用于商業(yè)項(xiàng)目。

2、源網(wǎng)站及頁(yè)面元素分析

2.1、號(hào)碼源

首先,這里我選擇近年來(lái)比較穩(wěn)定的數(shù)據(jù)源地址【某網(wǎng)站】截圖如下

2.2、dom元素分析

2.2.1、開獎(jiǎng)號(hào)碼主體分析

先打開開發(fā)者工具,找到每條開獎(jiǎng)號(hào)碼對(duì)應(yīng)的dom元素

可以看到每一期號(hào)碼信息主體在一個(gè)<tr>標(biāo)簽中,其中第一個(gè)<td>是開獎(jiǎng)日期,第二個(gè)<td>是開獎(jiǎng)期號(hào),第三個(gè)<td>是開獎(jiǎng)號(hào)碼,每個(gè)獎(jiǎng)號(hào)是單獨(dú)的標(biāo)簽,紅球的class=rr,籃球沒(méi)有設(shè)置樣式

        <tr>
          <td align="center">2021-06-13</td>
          <td align="center">2021065</td>
          <td align="center" style="padding-left:10px;">          
          <em class="rr">01</em>          
          <em class="rr">04</em>          
          <em class="rr">08</em>          
          <em class="rr">19</em>          
          <em class="rr">29</em>          
          <em class="rr">33</em>                    
          <em>16</em></td>
          <td><strong>362,527,724</strong></td>
          <td align="left" style="color:#999;"><strong>3</strong></td>
          <td align="center"><strong class="rc">82</strong></td>
          <td align="center">
              <a  rel="external nofollow"  target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_42.jpg" width="16" height="16" align="absmiddle" title="詳細(xì)信息"></a>
              <a  rel="external nofollow"  target="_blank"><img src="http://images.zhcw.com/zhcw2010/kaijiang/zhcw/ssqpd_43.jpg" width="16" height="16" align="absmiddle" title="開獎(jiǎng)視頻"></a>
          </td>
        </tr>

2.2.2、頁(yè)碼區(qū)域分析

由于我們爬取數(shù)據(jù)的時(shí)候,需要進(jìn)行翻頁(yè)操作,所以這里還需要分析翻頁(yè)部分的內(nèi)容,繼續(xù)在開發(fā)者工具中,定位頁(yè)碼區(qū)域

可以看到頁(yè)碼部分是<tbody>中的最后一個(gè)<tr>中,翻頁(yè)操作的內(nèi)容再class=pg的 <p> 標(biāo)簽中
可以拆分為多個(gè)<storage>標(biāo)簽數(shù)組,可以分析得出翻頁(yè)鏈接的規(guī)律。
/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=頁(yè)碼

/zhcw/html/ssq/list_頁(yè)碼.html

元素 含義
0 總頁(yè)數(shù)
1 總記錄數(shù)
2 第一頁(yè)的連接
3 上一頁(yè)的鏈接
4 下一頁(yè)的鏈接
5 最后一頁(yè)的連接
6 當(dāng)前頁(yè)數(shù)

<tr>
    <td colspan="7" align="center" style="background:#fdf2e3;">
        <p class="zhu"></p>
        <p class="pg">
            共<strong>136</strong> 頁(yè) /<strong>2709 </strong>條記錄 
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp" rel="external nofollow" >首頁(yè)</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=1" rel="external nofollow" >上一頁(yè)</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=2" rel="external nofollow" >下一頁(yè)</a></strong>
            <strong><a href="/zhcw/inc/ssq/ssq_wqhg.jsp?pageNum=136" rel="external nofollow" >末頁(yè)</a></strong>
            當(dāng)前第<strong> 1 </strong>頁(yè)</p>
     </td>
 </tr>

3、代碼實(shí)現(xiàn)

maven引用,這里使用的是Jsoup1.13.1版本

  <dependency>
      <groupId>org.jsoup</groupId>
      <artifactId>jsoup</artifactId>
      <version>1.13.1</version>
  </dependency>

這使用的是基于jeecg開發(fā)的Job,搭建過(guò)程不贅述了,直接看主體代碼。

 public void execute(JobExecutionContext arg0) throws JobExecutionException {
  Integer maxPage=getMaxPage();//獲取總頁(yè)數(shù)
  for(int pageNo=0;pageNo<maxPage;pageNo++){//循環(huán)處理每一頁(yè)的數(shù)據(jù)
   String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list_"+(pageNo+1)+".html";//拼訪問(wèn)地址
      String strDateFormat = "yyyy-MM-dd";
         SimpleDateFormat sdf = new SimpleDateFormat(strDateFormat);
   String html = JwtHttpUtil.httpRequest(url, "GET",null);//訪問(wèn)對(duì)應(yīng)的頁(yè)面
   Document doc =  Jsoup.parse(html);//用Jsoup解析頁(yè)面內(nèi)容并且解析為Document
   Document doc1= Jsoup.parse(doc.getElementsByClass("wqhgt").toString());//wqhgt是table標(biāo)簽的class,這里獲取到開獎(jiǎng)號(hào)碼的table的內(nèi)容并且解析為Document
   Elements trs= doc1.getElementsByTag("tr");//根據(jù)tag獲取到所有的tr標(biāo)簽,這里獲取到的是一個(gè)Element數(shù)組
   logger.info("當(dāng)前頁(yè)碼---"+(pageNo+1)+"----"+trs.size());
   for(int i=2;i<trs.size()-1;i++){//這里是根據(jù)頁(yè)面內(nèi)容確定開獎(jiǎng)內(nèi)容是從第三個(gè)tr開始到倒數(shù)第二個(gè)tr結(jié)束,最后一個(gè)tr是翻頁(yè)按鈕
    try {
     Elements tds=trs.get(i).getElementsByTag("td");
     String kjrq=tds.get(0).text();
     String kjqh=tds.get(1).text();
     //這里是為了防止重復(fù)拉取,所以做了判斷,如果已存在當(dāng)前期的獎(jiǎng)號(hào),就直接跳過(guò)
     Long count=lotterySsqKjjlService.getCountForJdbc("select count(*) from lottery_ssq_kjjl where SSQ_KJQH='"+ kjqh + "'");
     //下面的內(nèi)容很容易理解,就是可以對(duì)照頁(yè)面分析部分內(nèi)容看,就不贅述了
     if(count>0)break;
     LotterySsqKjjlEntity kjhmEntiry=new LotterySsqKjjlEntity();
        Elements kjhm=tds.get(2).getElementsByTag("em");
     kjhmEntiry.setSsqKjrq(sdf.parse(kjrq));
     kjhmEntiry.setSsqKjqh(kjqh);
        kjhmEntiry.setSsqR1(Integer.parseInt(kjhm.get(0).text()));
        kjhmEntiry.setSsqR2(Integer.parseInt(kjhm.get(1).text()));
        kjhmEntiry.setSsqR3(Integer.parseInt(kjhm.get(2).text()));
        kjhmEntiry.setSsqR4(Integer.parseInt(kjhm.get(3).text()));
        kjhmEntiry.setSsqR5(Integer.parseInt(kjhm.get(4).text()));
        kjhmEntiry.setSsqR6(Integer.parseInt(kjhm.get(5).text()));
        kjhmEntiry.setSsqB1(Integer.parseInt(kjhm.get(6).text()));
        lotterySsqKjjlService.save(kjhmEntiry);
    } catch (ParseException e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    } catch (Exception e) {
     // TODO Auto-generated catch block
     e.printStackTrace();
    }
   }
  }
  
 }
 
 private Integer getMaxPage(){
  String url = "http://kaijiang.zhcw.com/zhcw/html/ssq/list.html";
  String html = JwtHttpUtil.httpRequest(url, "GET",null);
  Document doc =  Jsoup.parse(html);
  Document docPageBar= Jsoup.parse(doc.getElementsByClass("pg").toString());
  Elements elePageBar = docPageBar.getElementsByTag("strong");
  Integer maxPageNo=Integer.parseInt(elePageBar.get(0).text());
  return maxPageNo;
 }

以下是執(zhí)行完成的部分?jǐn)?shù)據(jù)截圖

拉取到基礎(chǔ)數(shù)據(jù)后,我們可以再寫一個(gè)job,去計(jì)算出每期開獎(jiǎng)號(hào)碼的指標(biāo),可以進(jìn)行獎(jiǎng)號(hào)分析,預(yù)測(cè)等。
這里簡(jiǎn)單實(shí)現(xiàn)了部分分析指標(biāo)的計(jì)算,以下是主體代碼。

 public void run(){
  List<LotterySsqKjjlEntity> list= lotterySsqKjjlService.findByQueryString("from LotterySsqKjjlEntity t");
  for(int i=0;i<list.size();i++){
   LotterySsqKjjlEntity kjjg=list.get(i);
   logger.info("正在處理:"+kjjg.getSsqKjqh());
   kjjg.setSsqMin(kjjg.getSsqR1());//最小號(hào)
   kjjg.setSsqMax(kjjg.getSsqR6());//最大號(hào)
   kjjg.setSsqKd(kjjg.getSsqR6()-kjjg.getSsqR1());//號(hào)碼跨度
   kjjg.setSsqJsCnt(ssqKjjgUtils(kjjg, "jsCnt"));//奇數(shù)個(gè)數(shù)
   kjjg.setSsqOsCnt(ssqKjjgUtils(kjjg, "osCnt"));//偶數(shù)個(gè)數(shù)
   kjjg.setSsqSum(ssqKjjgUtils(kjjg, "sum"));//號(hào)碼和
   lotterySsqKjjlService.updateEntitie(kjjg);
   
  }
  logger.info("結(jié)果數(shù)據(jù)條數(shù)"+list.size());
 }
 /**
  * 
  * @param kjjg
  * @param opType jsgs=奇數(shù)個(gè)數(shù)
  * @return
  */
 private Integer ssqKjjgUtils(LotterySsqKjjlEntity kjjg,String opType){
  List<Integer> t =new ArrayList<Integer>();
  t.add(kjjg.getSsqR1());
  t.add(kjjg.getSsqR2());
  t.add(kjjg.getSsqR3());
  t.add(kjjg.getSsqR4());
  t.add(kjjg.getSsqR5());
  t.add(kjjg.getSsqR6());
  Integer result=0;
  switch (opType) {
  case "jsCnt":
  case "osCnt":
   int jsgs=0;
   int osgs=0;
   for(int i=0;i<t.size();i++){
    if(t.get(i)%2==0){
     osgs++;
    }else{
     jsgs++;
    }
   }
   if("jsCnt".equals(opType)){
    result=jsgs;
   }else{
    result=osgs;
   }
   break;
  case "sum":
   int sum=0;
   for(int i=0;i<t.size();i++){
    sum+=t.get(i);
   }
   result=sum;
   break;
  default:
   break;
  }
  return result;
 }

至此,這個(gè)簡(jiǎn)單的爬蟲就寫完了,可以利用爬過(guò)來(lái)的這些基礎(chǔ)數(shù)據(jù),進(jìn)行一些數(shù)據(jù)分析,預(yù)測(cè)。

到此這篇關(guān)于Java使用httpRequest+Jsoup爬取紅藍(lán)球號(hào)碼的文章就介紹到這了,更多相關(guān)Java 爬取紅藍(lán)球號(hào)碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 基于RocketMQ推拉模式詳解

    基于RocketMQ推拉模式詳解

    這篇文章主要介紹了RocketMQ推拉模式的使用,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-07-07
  • 使用postman傳遞list集合后臺(tái)springmvc接收

    使用postman傳遞list集合后臺(tái)springmvc接收

    這篇文章主要介紹了使用postman傳遞list集合后臺(tái)springmvc接收的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-08-08
  • 淺談JDK、JRE、JVM三者之間的關(guān)系

    淺談JDK、JRE、JVM三者之間的關(guān)系

    本文主要介紹了淺談JDK、JRE、JVM三者之間的關(guān)系,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-07-07
  • ZooKeeper官方文檔之Java客戶端開發(fā)案例翻譯

    ZooKeeper官方文檔之Java客戶端開發(fā)案例翻譯

    網(wǎng)上有很多ZooKeeper的java客戶端例子,我也看過(guò)很多,不過(guò)大部分寫的都不好,有各種問(wèn)題。兜兜轉(zhuǎn)轉(zhuǎn)還是覺(jué)得官方給的例子最為經(jīng)典,在學(xué)習(xí)之余翻譯下來(lái),供朋友們參考
    2022-01-01
  • PowerJob的HashedWheelTimer工作流程源碼解讀

    PowerJob的HashedWheelTimer工作流程源碼解讀

    這篇文章主要為大家介紹了PowerJob的HashedWheelTimer工作流程源碼解讀,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • IDEA下從零開始搭建SpringBoot工程的方法步驟

    IDEA下從零開始搭建SpringBoot工程的方法步驟

    這篇文章主要介紹了IDEA下從零開始搭建SpringBoot工程的方法步驟,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2019-01-01
  • redis深入淺出分布式鎖實(shí)現(xiàn)下篇

    redis深入淺出分布式鎖實(shí)現(xiàn)下篇

    在單體應(yīng)用中,如果我們對(duì)共享數(shù)據(jù)不進(jìn)行加鎖操作,會(huì)出現(xiàn)數(shù)據(jù)一致性問(wèn)題,我們的解決辦法通常是加鎖。下面我們一起聊聊使用redis來(lái)實(shí)現(xiàn)分布式鎖
    2022-08-08
  • java中Ajax與Axios的使用小結(jié)

    java中Ajax與Axios的使用小結(jié)

    在項(xiàng)目中我們經(jīng)常會(huì)遇到需要向請(qǐng)求頭中添加消息的場(chǎng)景,本文主要介紹了java中Ajax與Axios的使用小結(jié),文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2024-02-02
  • Java使用Validation自定義Double類型屬性校驗(yàn)

    Java使用Validation自定義Double類型屬性校驗(yàn)

    這篇文章主要為大家詳細(xì)介紹了Java如何使用Validation自定義Double類型屬性校驗(yàn),文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解下
    2024-11-11
  • spring解決循環(huán)依賴的方案示例

    spring解決循環(huán)依賴的方案示例

    這篇文章主要介紹spring如何解決循環(huán)依賴,文中有相關(guān)的代碼示例給大家參考,對(duì)我們的學(xué)習(xí)或工作有一定的幫助,感興趣的同學(xué)可以借鑒閱讀
    2023-05-05

最新評(píng)論