腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開發(fā)工具 python Photoshop 必備軟件

java編程實(shí)現(xiàn)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲示例過程

更新時(shí)間：2021年10月15日 08:52:07 作者：spring小楊

這篇文章主要為大家介紹了如何使用java編程實(shí)現(xiàn)一個(gè)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲示例，有需要的朋友可以借鑒參考下，希望能夠有所幫助，祝大家多多進(jìn)步

本項(xiàng)目中需要用到兩個(gè)第三方j(luò)ar包，分別為 jsoup 和 commons-io。

jsoup的作用是為了解析網(wǎng)頁(yè)， commons-io 是為了把數(shù)據(jù)保存到本地。

1.爬取貼吧

第一步，打開eclipse，新建一個(gè)java項(xiàng)目，名字就叫做 pachong：

然后，新建一個(gè)類，作為我們程序的入口。

這個(gè)作為入口類，里面就寫一個(gè)main方法即可。

public class StartUp {
	public static void main(String[] args) {
		
	}
}

第二步，導(dǎo)入我們的依賴，兩個(gè)jar包：

右鍵jar包，Build path , add to Build path

接著，我們?cè)囍阉饕幌聞?dòng)漫吧的數(shù)據(jù)：

https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5

public class StartUp {

	public static void main(String[] args) {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
	}
}

如果能夠成功打印出來(lái)鏈接，說(shuō)明我們的連接測(cè)試是成功的！

然后，我們調(diào)用connect的get方法，獲取鏈接到的數(shù)據(jù)：

Document document = connect.get();

這邊需要拋出一個(gè)異常，而且是強(qiáng)制性的，因?yàn)橛锌赡軙?huì)獲取失敗。這邊我們直接拋出去，不去捕獲。

public class StartUp {

	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);
		System.out.println(connect);
		
		Document document = connect.get(); 
		System.out.println(document);
	}
}

打印出來(lái)的結(jié)果：

可見，document對(duì)象裝的就是一個(gè)完整HTML頁(yè)面。

在這里，我們想要拿到的第一個(gè)數(shù)據(jù)，就是所有帖子的標(biāo)題：

我們發(fā)現(xiàn)，每一個(gè)標(biāo)題都是一個(gè)a連接，class為j_th_tit 。

下一步我們就考慮獲取所有class為 j_th_tit 的元素。

我們發(fā)現(xiàn)，document對(duì)象給我們提供了 getElementsByClass 的方法，顧名思義，就是獲取class為 XXX 的元素。

Elements titles = document.getElementsByClass("j_th_tit");

接著，遍歷titles，打印出每一個(gè)標(biāo)題的名稱：

for (int i = 0; i < titles.size(); i++) {
	System.out.println(titles.get(i).attr("title"));
}

當(dāng)前代碼：

import java.io.IOException;
import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.select.Elements;
public class StartUp {
	public static void main(String[] args) throws IOException {
		String url = "https://tieba.baidu.com/f?kw=%B6%AF%C2%FE&tpl=5";
		Connection connect = Jsoup.connect(url);		
		Document document = connect.get(); 		
		Elements titles = document.getElementsByClass("j_th_tit");		
		for (int i = 0; i < titles.size(); i++) {
			System.out.println(titles.get(i).attr("title"));
		}		
	}
}

以上就是java編程實(shí)現(xiàn)簡(jiǎn)單的網(wǎng)絡(luò)爬蟲示例過程的詳細(xì)內(nèi)容，更多關(guān)于java實(shí)現(xiàn)網(wǎng)絡(luò)爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: