欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

零基礎(chǔ)寫(xiě)Java知乎爬蟲(chóng)之先拿百度首頁(yè)練練手

 更新時(shí)間:2014年11月07日 10:11:17   投稿:hebedich  
本來(lái)打算這篇文章直接抓取知乎的,但是想想還是先來(lái)個(gè)簡(jiǎn)單的吧,初級(jí)文章適合初學(xué)者,高手們請(qǐng)直接略過(guò)

上一集中我們說(shuō)到需要用Java來(lái)制作一個(gè)知乎爬蟲(chóng),那么這一次,我們就來(lái)研究一下如何使用代碼獲取到網(wǎng)頁(yè)的內(nèi)容。

首先,沒(méi)有HTML和CSS和JS和AJAX經(jīng)驗(yàn)的建議先去W3C(點(diǎn)我點(diǎn)我)小小的了解一下。

說(shuō)到HTML,這里就涉及到一個(gè)GET訪問(wèn)和POST訪問(wèn)的問(wèn)題。

如果對(duì)這個(gè)方面缺乏了解可以閱讀W3C的這篇:《GET對(duì)比POST》。

啊哈,在此不再贅述。

然后咧,接下來(lái)我們需要用Java來(lái)爬取一個(gè)網(wǎng)頁(yè)的內(nèi)容。

這時(shí)候,我們的百度就要派上用場(chǎng)了。

沒(méi)錯(cuò),他不再是那個(gè)默默無(wú)聞的網(wǎng)速測(cè)試器了,他即將成為我們的爬蟲(chóng)小白鼠!~

我們先來(lái)看看百度的首頁(yè):

相信大家都知道,現(xiàn)在這樣的一個(gè)頁(yè)面,是HTML和CSS共同工作的結(jié)果。

我們?cè)跒g覽器中右擊頁(yè)面,選擇“查看頁(yè)面源代碼”:

沒(méi)錯(cuò),就是這一坨翔一樣的東西。這就是百度頁(yè)面的源代碼。

接下來(lái)我們的任務(wù),就是使用我們的爬蟲(chóng)也獲取到一樣的東西。

先來(lái)看一段簡(jiǎn)單的源碼:

import java.io.*;
import java.net.*;
public class Main {
 public static void main(String[] args) {
  // 定義即將訪問(wèn)的鏈接
  String url = "  // 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開(kāi)始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    //遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來(lái)關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  System.out.println(result);
 }
}

以上就是Java模擬Get訪問(wèn)百度的Main方法,

可以運(yùn)行一下看看結(jié)果:


啊哈,和我們前面用瀏覽器看到的一模一樣。至此,一個(gè)最最簡(jiǎn)單的爬蟲(chóng)就算是做好了。

但是這么一大坨東西未必都是我想要的啊,怎么從中抓取出我想要的東西呢?

以百度的大爪子Logo為例。

臨時(shí)需求:

獲取百度Logo的大爪子的圖片鏈接。

先說(shuō)一下瀏覽器的查看方法。

鼠標(biāo)對(duì)圖片右擊,選擇審查元素(火狐,谷歌,IE11,均有此功能,只是名字不太一樣):

啊哈,可以看到在一大堆div的圍攻下的可憐的img標(biāo)簽。

這個(gè)src就是圖像的鏈接了。

那么在java中我們?cè)趺锤隳兀?/p>

事先說(shuō)明,為了方便演示代碼,所有代碼均未作類(lèi)封裝,還請(qǐng)諒解。

我們先把前面的代碼封裝成一個(gè)sendGet函數(shù):

import java.io.*;
import java.net.*;
public class Main {
 static String sendGet(String url) {
  // 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開(kāi)始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來(lái)關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 public static void main(String[] args) {
  // 定義即將訪問(wèn)的鏈接
  String url = "
  // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
  String result = sendGet(url);
  System.out.println(result);
 }
}

這樣看起來(lái)稍微整潔了一點(diǎn),請(qǐng)?jiān)徫疫@個(gè)強(qiáng)迫癥。

接下來(lái)的任務(wù),就是從獲取到的一大堆東西里面找到那個(gè)圖片的鏈接。

我們首先可以想到的方法,是對(duì)頁(yè)面源碼的字符串result使用indexof函數(shù)進(jìn)行String的子串搜索。

沒(méi)錯(cuò)這個(gè)方法是可以慢慢解決這個(gè)問(wèn)題,比如直接indexOf("src")找到開(kāi)始的序號(hào),然后再稀里嘩啦的搞到結(jié)束的序號(hào)。

不過(guò)我們不能一直使用這種方法,畢竟草鞋只適合出門(mén)走走,后期還是需要切假腿來(lái)拿人頭的。

請(qǐng)?jiān)徫业膩y入,繼續(xù)。

那么我們用什么方式來(lái)尋找這張圖片的src呢?

沒(méi)錯(cuò),正如下面觀眾所說(shuō),正則匹配。

如果有同學(xué)不太清楚正則,可以參照這篇文章:[Python]網(wǎng)絡(luò)爬蟲(chóng)(七):Python中的正則表達(dá)式教程。

簡(jiǎn)單來(lái)說(shuō),正則就像是匹配。

比如三個(gè)胖子站在這里,分別穿著紅衣服,藍(lán)衣服,綠衣服。

正則就是:抓住那個(gè)穿綠衣服的!

然后把綠胖子單獨(dú)抓了出來(lái)。

就是這么簡(jiǎn)單。

但是正則的語(yǔ)法卻還是博大精深的,剛接觸的時(shí)候難免有點(diǎn)摸不著頭腦,

向大家推薦一個(gè)正則的在線測(cè)試工具:正則表達(dá)式在線測(cè)試。

有了正則這個(gè)神兵利器,那么怎么在java里面使用正則呢?

先來(lái)看個(gè)簡(jiǎn)單的小李子吧。

啊錯(cuò)了,小栗子。

  // 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile("href=\"(.+?)\"");
  // 定義一個(gè)matcher用來(lái)做匹配
  Matcher matcher = pattern.matcher("<a href=\"index.html\">我的主頁(yè)</a>");
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   System.out.println(matcher.group(1));
  }

運(yùn)行結(jié)果:

index.html

沒(méi)錯(cuò),這就是我們的第一個(gè)正則代碼。

這樣應(yīng)用的抓取圖片的鏈接想必也是信手拈來(lái)了。

我們將正則匹配封裝成一個(gè)函數(shù),然后將代碼作如下修改:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開(kāi)始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來(lái)關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個(gè)matcher用來(lái)做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   return matcher.group(1);
  }
  return "";
 }
 public static void main(String[] args) {
  // 定義即將訪問(wèn)的鏈接
  String url = "
  // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內(nèi)容
  String imgSrc = RegexString(result, "即將的正則語(yǔ)法");
  // 打印結(jié)果
  System.out.println(imgSrc);
 }
}

好的,現(xiàn)在萬(wàn)事俱備,只差一個(gè)正則語(yǔ)法了!

那么用什么正則語(yǔ)句比較合適呢?

我們發(fā)現(xiàn)只要抓住了src="xxxxxx"這個(gè)字符串,就能抓出整個(gè)src鏈接,

所以簡(jiǎn)單的正則語(yǔ)句:src=\"(.+?)\"

完整代碼如下:

import java.io.*;
import java.net.*;
import java.util.regex.*;
public class Main {
 static String SendGet(String url) {
  // 定義一個(gè)字符串用來(lái)存儲(chǔ)網(wǎng)頁(yè)內(nèi)容
  String result = "";
  // 定義一個(gè)緩沖字符輸入流
  BufferedReader in = null;
  try {
   // 將string轉(zhuǎn)成url對(duì)象
   URL realUrl = new URL(url);
   // 初始化一個(gè)鏈接到那個(gè)url的連接
   URLConnection connection = realUrl.openConnection();
   // 開(kāi)始實(shí)際的連接
   connection.connect();
   // 初始化 BufferedReader輸入流來(lái)讀取URL的響應(yīng)
   in = new BufferedReader(new InputStreamReader(
     connection.getInputStream()));
   // 用來(lái)臨時(shí)存儲(chǔ)抓取到的每一行的數(shù)據(jù)
   String line;
   while ((line = in.readLine()) != null) {
    // 遍歷抓取到的每一行并將其存儲(chǔ)到result里面
    result += line;
   }
  } catch (Exception e) {
   System.out.println("發(fā)送GET請(qǐng)求出現(xiàn)異常!" + e);
   e.printStackTrace();
  }
  // 使用finally來(lái)關(guān)閉輸入流
  finally {
   try {
    if (in != null) {
     in.close();
    }
   } catch (Exception e2) {
    e2.printStackTrace();
   }
  }
  return result;
 }
 static String RegexString(String targetStr, String patternStr) {
  // 定義一個(gè)樣式模板,此中使用正則表達(dá)式,括號(hào)中是要抓的內(nèi)容
  // 相當(dāng)于埋好了陷阱匹配的地方就會(huì)掉下去
  Pattern pattern = Pattern.compile(patternStr);
  // 定義一個(gè)matcher用來(lái)做匹配
  Matcher matcher = pattern.matcher(targetStr);
  // 如果找到了
  if (matcher.find()) {
   // 打印出結(jié)果
   return matcher.group(1);
  }
  return "Nothing";
 }
 public static void main(String[] args) {
  // 定義即將訪問(wèn)的鏈接
  String url = "
  // 訪問(wèn)鏈接并獲取頁(yè)面內(nèi)容
  String result = SendGet(url);
  // 使用正則匹配圖片的src內(nèi)容
  String imgSrc = RegexString(result, "src=\"(.+?)\"");
  // 打印結(jié)果
  System.out.println(imgSrc);
 }
}

這樣我們就能用java抓出百度LOGO的鏈接了。

好吧雖然花了很多時(shí)間講百度,但是基礎(chǔ)要打扎實(shí)啦,下次我們正式開(kāi)始抓知乎咯!~

相關(guān)文章

  • java中的String定義的字面量最大長(zhǎng)度是多少

    java中的String定義的字面量最大長(zhǎng)度是多少

    這篇文章主要介紹了java中的String定義的字面量最大長(zhǎng)度是多少,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-12-12
  • 淺析Java中的set集合類(lèi)型及其接口的用法

    淺析Java中的set集合類(lèi)型及其接口的用法

    Java本身對(duì)set集合提供了一個(gè)接口,一般的實(shí)現(xiàn)類(lèi)是HastSet和 TreeSet,這里我們先來(lái)簡(jiǎn)要淺析Java中的set集合類(lèi)型及其接口的用法:
    2016-05-05
  • java實(shí)體類(lèi)轉(zhuǎn)json時(shí)null值不要轉(zhuǎn)為"null"問(wèn)題

    java實(shí)體類(lèi)轉(zhuǎn)json時(shí)null值不要轉(zhuǎn)為"null"問(wèn)題

    這篇文章主要介紹了java實(shí)體類(lèi)轉(zhuǎn)json時(shí)null值不要轉(zhuǎn)為“null”問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-11-11
  • Spring整合redis(jedis)實(shí)現(xiàn)Session共享的過(guò)程

    Spring整合redis(jedis)實(shí)現(xiàn)Session共享的過(guò)程

    這篇文章主要介紹了Spring整合redis(jedis)實(shí)現(xiàn)Session共享,需要的朋友可以參考下
    2018-06-06
  • Swagger2配置方式(解決404報(bào)錯(cuò))

    Swagger2配置方式(解決404報(bào)錯(cuò))

    這篇文章主要介紹了Swagger2配置方式(解決404報(bào)錯(cuò)),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2021-11-11
  • Java判斷閏年的2種方法示例

    Java判斷閏年的2種方法示例

    這篇文章主要給大家介紹了關(guān)于Java判斷閏年的2種方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家學(xué)習(xí)或者使用Java具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-09-09
  • Mybatis中resultMap的使用總結(jié)

    Mybatis中resultMap的使用總結(jié)

    resultmap是mybatis中最復(fù)雜的元素之一,它描述如何從結(jié)果集中加載對(duì)象,主要作用是定義映射規(guī)則、級(jí)聯(lián)的更新、定制類(lèi)型轉(zhuǎn)化器。今天通過(guò)本文給大家介紹Mybatis中resultMap的使用,感興趣的朋友參考下吧
    2021-06-06
  • 淺析SpringBoot中常見(jiàn)的底層注解

    淺析SpringBoot中常見(jiàn)的底層注解

    Spring?Boot?是一個(gè)用于創(chuàng)建獨(dú)立的、基于Spring框架的Java應(yīng)用程序的框架,它提供了許多注解,下面小編就來(lái)和大家介紹一些常見(jiàn)的底層注解吧
    2023-08-08
  • 在java中使用SPI創(chuàng)建可擴(kuò)展的應(yīng)用程序操作

    在java中使用SPI創(chuàng)建可擴(kuò)展的應(yīng)用程序操作

    這篇文章主要介紹了在java中使用SPI創(chuàng)建可擴(kuò)展的應(yīng)用程序操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-09-09
  • 詳解Spring Boot最核心的27個(gè)注解,你了解多少?

    詳解Spring Boot最核心的27個(gè)注解,你了解多少?

    這篇文章主要介紹了詳解Spring Boot最核心的27個(gè)注解,你了解多少?文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-08-08

最新評(píng)論