欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

java編程實現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程

 更新時間:2021年10月15日 08:52:07   作者:spring小楊  
這篇文章主要為大家介紹了如何使用java編程實現(xiàn)一個簡單的網(wǎng)絡(luò)爬蟲示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步

本項目中需要用到兩個第三方j(luò)ar包,分別為 jsoup 和 commons-io。

jsoup的作用是為了解析網(wǎng)頁, commons-io 是為了把數(shù)據(jù)保存到本地。

1.爬取貼吧

第一步,打開eclipse,新建一個java項目,名字就叫做 pachong:

然后,新建一個類,作為我們程序的入口。

這個作為入口類,里面就寫一個main方法即可。

public class StartUp {
	public static void main(String[] args) {
		
	}
}

第二步,導(dǎo)入我們的依賴,兩個jar包:

右鍵jar包,Build path , add to Build path

接著,我們試著搜索一下動漫吧的數(shù)據(jù):

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

public class StartUp {

	public static void main(String[] args) {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
	}
}

如果能夠成功打印出來鏈接,說明我們的連接測試是成功的!

然后,我們調(diào)用connect的get方法,獲取鏈接到的數(shù)據(jù):

Document document = connect.get(); 

這邊需要拋出一個異常,而且是強制性的,因為有可能會獲取失敗。這邊我們直接拋出去,不去捕獲。

public class StartUp {

	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
		
		Document document = connect.get(); 
		System.out.println(document);
	}
}

打印出來的結(jié)果:

可見,document對象裝的就是一個完整HTML頁面。

在這里,我們想要拿到的第一個數(shù)據(jù),就是所有帖子的標(biāo)題:

我們發(fā)現(xiàn),每一個標(biāo)題都是一個a連接,class為j_th_tit 。

下一步我們就考慮獲取所有class為 j_th_tit 的元素。

我們發(fā)現(xiàn),document對象給我們提供了 getElementsByClass 的方法,顧名思義,就是獲取class為 XXX 的元素。

Elements titles = document.getElementsByClass("j_th_tit");

接著,遍歷titles,打印出每一個標(biāo)題的名稱:

for (int i = 0; i < titles.size(); i++) {
	System.out.println(titles.get(i).attr("title"));
}

當(dāng)前代碼:

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class StartUp {
	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);		
		Document document = connect.get(); 		
		Elements titles = document.getElementsByClass("j_th_tit");		
		for (int i = 0; i < titles.size(); i++) {
			System.out.println(titles.get(i).attr("title"));
		}		
	}
}

以上就是java編程實現(xiàn)簡單的網(wǎng)絡(luò)爬蟲示例過程的詳細內(nèi)容,更多關(guān)于java實現(xiàn)網(wǎng)絡(luò)爬蟲的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • java正則替換img標(biāo)簽中src值的方法

    java正則替換img標(biāo)簽中src值的方法

    今天小編就為大家分享一篇java正則替換img標(biāo)簽中src值的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-06-06
  • Java查看線程運行狀態(tài)的方法詳解

    Java查看線程運行狀態(tài)的方法詳解

    這篇文章主要為大家詳細介紹了Java語言如何查看線程運行狀態(tài)的方法,文中的示例代碼講解詳細,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下
    2022-08-08
  • Java的Spring框架中DAO數(shù)據(jù)訪問對象的使用示例

    Java的Spring框架中DAO數(shù)據(jù)訪問對象的使用示例

    這篇文章主要介紹了Java的Spring框架中DAO數(shù)據(jù)訪問對象的使用示例,分為在Spring中DOA與JDBC以及與Hibernate的配合使用兩種情況來進行演示,需要的朋友可以參考下
    2016-03-03
  • 圖解Eclipse j2ee開發(fā)環(huán)境的搭建過程

    圖解Eclipse j2ee開發(fā)環(huán)境的搭建過程

    這篇文章以圖文結(jié)合的方式介紹了Eclipse j2ee開發(fā)環(huán)境的搭建過程,內(nèi)容很詳細,每一個步驟都有對應(yīng)的操作截圖,需要的朋友可以參考下
    2015-08-08
  • Springboot-admin整合Quartz實現(xiàn)動態(tài)管理定時任務(wù)的過程詳解

    Springboot-admin整合Quartz實現(xiàn)動態(tài)管理定時任務(wù)的過程詳解

    Quartz是一款Java編寫的開源任務(wù)調(diào)度框架,同時它也是Spring默認(rèn)的任務(wù)調(diào)度框架,它的作用其實類似于Timer定時器以及ScheduledExecutorService調(diào)度線程池,這篇文章主要介紹了Springboot-admin整合Quartz實現(xiàn)動態(tài)管理定時任務(wù),需要的朋友可以參考下
    2023-04-04
  • java實現(xiàn)開根號的運算方式

    java實現(xiàn)開根號的運算方式

    這篇文章主要介紹了java實現(xiàn)開根號的運算方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-07-07
  • java讀寫二進制文件的解決方法

    java讀寫二進制文件的解決方法

    本篇文章是對java讀寫二進制文件的方法進行了詳細的分析介紹,需要的朋友參考下
    2013-05-05
  • 解決springboot?druid數(shù)據(jù)庫連接池連接失敗后一直重連問題

    解決springboot?druid數(shù)據(jù)庫連接池連接失敗后一直重連問題

    這篇文章主要介紹了解決springboot?druid數(shù)據(jù)庫連接池連接失敗后一直重連問題,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-11-11
  • Java 反射機制的實例詳解

    Java 反射機制的實例詳解

    這篇文章主要介紹了Java 反射機制的實例詳解的相關(guān)資料,希望通過本文能幫助到大家,讓大家理解掌握反射機制,需要的朋友可以參考下
    2017-10-10
  • Java多線程按指定順序同步執(zhí)行

    Java多線程按指定順序同步執(zhí)行

    這篇文章主要介紹了java多線程如何按指定順序同步執(zhí)行,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-10-10

最新評論