java抓取網(wǎng)頁數(shù)據(jù)示例
更新時(shí)間:2014年03月02日 16:10:50 作者:
要通java獲取整個(gè)網(wǎng)頁的html內(nèi)容,或者某個(gè)網(wǎng)絡(luò)文件的內(nèi)容,可以使用java提供的HttpURLConnection類來實(shí)現(xiàn)對(duì)網(wǎng)頁內(nèi)容的抓取
下面舉例說明:
抓取百度首頁的內(nèi)容:
復(fù)制代碼 代碼如下:
URL url = new URL("http://www.baidu.com");
HttpURLConnection urlCon=(HttpURLConnection)url.openConnection();
urlCon.setConnectTimeout(50000);
urlCon.setReadTimeout(300000);
DataInputStream fIn;
byte[] content = new byte[MAX_FILE_SIZE];
fIn = new DataInputStream(urlCon.getInputStream());
int size = 0,f_size = 0;
while((size = fIn.read(content,f_size,2048))> 0){
f_size += size;
}
在代碼中我們將百度首頁的內(nèi)容存儲(chǔ)到了一個(gè)byte數(shù)組中,當(dāng)然我們有了 IO流以后還可以存儲(chǔ)到文件中去了。
您可能感興趣的文章:
- JAVA使用爬蟲抓取網(wǎng)站網(wǎng)頁內(nèi)容的方法
- java抓取網(wǎng)頁數(shù)據(jù)獲取網(wǎng)頁中所有的鏈接實(shí)例分享
- java正則表達(dá)式匹配網(wǎng)頁所有網(wǎng)址和鏈接文字的示例
- java簡單網(wǎng)頁抓取的實(shí)現(xiàn)方法
- Java中使用正則表達(dá)式獲取網(wǎng)頁中所有圖片的路徑
- java 抓取網(wǎng)頁內(nèi)容實(shí)現(xiàn)代碼
- Java用正則表達(dá)式如何讀取網(wǎng)頁內(nèi)容
- java實(shí)現(xiàn)網(wǎng)頁解析示例
- 用javascrpt將指定網(wǎng)頁保存為Excel的代碼
- Java獲取任意http網(wǎng)頁源代碼的方法
相關(guān)文章
idea下如何設(shè)置項(xiàng)目啟動(dòng)的JVM運(yùn)行內(nèi)存大小
這篇文章主要介紹了idea下如何設(shè)置項(xiàng)目啟動(dòng)的JVM運(yùn)行內(nèi)存大小問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-12-12
如何通過Java實(shí)現(xiàn)時(shí)間軸過程解析
這篇文章主要介紹了如何通過Java實(shí)現(xiàn)時(shí)間軸過程解析,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-02-02
spring cglib 與 jdk 動(dòng)態(tài)代理
本篇文章主要介紹了spring cglib與jdk動(dòng)態(tài)代理的相關(guān)知識(shí),具有很好的參考價(jià)值。下面跟著小編一起來看下吧2017-05-05
java讀取文件內(nèi)容的三種方法代碼片斷分享(java文件操作)
本文介紹java讀取文件內(nèi)容的三種方法,代碼可以直接放到程序中使用,大家參考使用吧2014-01-01
使用SpringBoot項(xiàng)目導(dǎo)入openfeign版本的問題
這篇文章主要介紹了使用SpringBoot項(xiàng)目導(dǎo)入openfeign版本的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-03-03

