java利用url實(shí)現(xiàn)網(wǎng)頁(yè)內(nèi)容的抓取
閑來(lái)無(wú)事,剛學(xué)會(huì)把git部署到遠(yuǎn)程服務(wù)器,沒(méi)事做,所以簡(jiǎn)單做了一個(gè)抓取網(wǎng)頁(yè)信息的小工具,里面的一些數(shù)值如果設(shè)成參數(shù)的話(huà)可能擴(kuò)展性能會(huì)更好!希望這是一個(gè)好的開(kāi)始把,也讓我對(duì)字符串的讀取掌握的更加熟練了,值得注意的是JAVA1.8 里面在使用String拼接字符串的時(shí)候,會(huì)自動(dòng)把你要拼接的字符串用StringBulider來(lái)處理,大大優(yōu)化了String 的性能,閑話(huà)不多說(shuō),show my XXX code~
運(yùn)行效果:

首先打開(kāi)百度百科,搜索詞條,比如“演員”,再按F12查看源碼

然后抓取你想要的標(biāo)簽,注入LinkedHashMap里面就ok了,很簡(jiǎn)單是吧!看看代碼羅
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.net.HttpURLConnection;
import java.net.URL;
import java.util.*;
/**
* Created by chunmiao on 17-3-10.
*/
public class ReadBaiduSearch {
//儲(chǔ)存返回結(jié)果
private LinkedHashMap<String,String> mapOfBaike;
//獲取搜索信息
public LinkedHashMap<String,String> getInfomationOfBaike(String infomationWords) throws IOException {
mapOfBaike = getResult(infomationWords);
return mapOfBaike;
}
//通過(guò)網(wǎng)絡(luò)鏈接獲取信息
private static LinkedHashMap<String, String> getResult(String keywords) throws IOException {
//搜索的url
String keyUrl = "http://baike.baidu.com/search?word=" + keywords;
//搜索詞條的節(jié)點(diǎn)
String startNode = "<dl class=\"search-list\">";
//詞條的鏈接關(guān)鍵字
String keyOfHref = "href=\"";
//詞條的標(biāo)題關(guān)鍵字
String keyOfTitle = "target=\"_blank\">";
String endNode = "</dl>";
boolean isNode = false;
String title;
String href;
String rLine;
LinkedHashMap<String,String> keyMap = new LinkedHashMap<String,String>();
//開(kāi)始網(wǎng)絡(luò)請(qǐng)求
URL url = new URL(keyUrl);
HttpURLConnection urlConnection = (HttpURLConnection) url.openConnection();
InputStreamReader inputStreamReader = new InputStreamReader(urlConnection.getInputStream(),"utf-8");
BufferedReader bufferedReader = new BufferedReader(inputStreamReader);
//讀取網(wǎng)頁(yè)內(nèi)容
while ((rLine = bufferedReader.readLine()) != null){
//判斷目標(biāo)節(jié)點(diǎn)是否出現(xiàn)
if(rLine.contains(startNode)){
isNode = true;
}
//若目標(biāo)節(jié)點(diǎn)出現(xiàn),則開(kāi)始抓取數(shù)據(jù)
if (isNode){
//若目標(biāo)結(jié)束節(jié)點(diǎn)出現(xiàn),則結(jié)束讀取,節(jié)省讀取時(shí)間
if (rLine.contains(endNode)) {
//關(guān)閉讀取流
bufferedReader.close();
inputStreamReader.close();
break;
}
//若值為空則不讀取
if (((title = getName(rLine,keyOfTitle)) != "") && ((href = getHref(rLine,keyOfHref)) != "")){
keyMap.put(title,href);
}
}
}
return keyMap;
}
//獲取詞條對(duì)應(yīng)的url
private static String getHref(String rLine,String keyOfHref){
String baikeUrl = "http://baike.baidu.com";
String result = "";
if(rLine.contains(keyOfHref)){
//獲取url
for (int j = rLine.indexOf(keyOfHref) + keyOfHref.length();j < rLine.length()&&(rLine.charAt(j) != '\"');j ++){
result += rLine.charAt(j);
}
//獲取的url中可能不含baikeUrl,如果沒(méi)有則在頭部添加一個(gè)
if(!result.contains(baikeUrl)){
result = baikeUrl + result;
}
}
return result;
}
//獲取詞條對(duì)應(yīng)的名稱(chēng)
private static String getName(String rLine,String keyOfTitle){
String result = "";
//獲取標(biāo)題內(nèi)容
if(rLine.contains(keyOfTitle)){
result = rLine.substring(rLine.indexOf(keyOfTitle) + keyOfTitle.length(),rLine.length());
//將標(biāo)題中的內(nèi)容含有的標(biāo)簽去掉
result = result.replaceAll("<em>|</em>|</a>|<a>","");
}
return result;
}
}
以上就是本文的全部?jī)?nèi)容,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作能帶來(lái)一定的幫助,同時(shí)也希望多多支持腳本之家!
- JavaWeb項(xiàng)目打開(kāi)網(wǎng)頁(yè)出現(xiàn)Session Error的異常解決方案
- java通過(guò)Jsoup爬取網(wǎng)頁(yè)過(guò)程詳解
- 詳解java實(shí)現(xiàn)簡(jiǎn)單掃碼登錄功能(模仿微信網(wǎng)頁(yè)版掃碼)
- java調(diào)用微信接口實(shí)現(xiàn)網(wǎng)頁(yè)分享小功能
- Java實(shí)現(xiàn)微信網(wǎng)頁(yè)授權(quán)的示例代碼
- Java實(shí)現(xiàn)的簡(jiǎn)單網(wǎng)頁(yè)截屏功能示例
- 詳解JAVA抓取網(wǎng)頁(yè)的圖片,JAVA利用正則表達(dá)式抓取網(wǎng)站圖片
- Java導(dǎo)出網(wǎng)頁(yè)表格Excel過(guò)程詳解
相關(guān)文章
一篇文章帶你了解JAVA面對(duì)對(duì)象應(yīng)用
Java是一門(mén)面向?qū)ο蟮恼Z(yǔ)言。對(duì)象是Java程序中的基本實(shí)體。除了對(duì)象之外Java程序同樣處理基本數(shù)據(jù)。下面這篇文章主要給大家總結(jié)了關(guān)于Java中面向?qū)ο蟮闹R(shí)點(diǎn),需要的朋友可以參考借鑒,下面來(lái)一起看看吧2021-08-08
java:java.lang.ExceptionInInitializerError報(bào)錯(cuò)解決過(guò)程
這篇文章主要給大家介紹了關(guān)于java:java.lang.ExceptionInInitializerError報(bào)錯(cuò)的解決過(guò)程,java.lang.ExceptionInInitializerError 是一個(gè)異常,表示在初始化一個(gè)類(lèi)的靜態(tài)變量或靜態(tài)塊時(shí)發(fā)生了錯(cuò)誤,需要的朋友可以參考下2023-10-10
手?jǐn)]一個(gè)Spring?Boot?Starter并上傳到Maven中央倉(cāng)庫(kù)
本文主要介紹了手?jǐn)]一個(gè)Spring?Boot?Starter并上傳到Maven中央倉(cāng)庫(kù),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2022-05-05
使用Springboot實(shí)現(xiàn)OAuth服務(wù)的示例詳解
OAuth(Open Authorization)是一個(gè)開(kāi)放標(biāo)準(zhǔn),用于授權(quán)第三方應(yīng)用程序訪(fǎng)問(wèn)用戶(hù)資源,而不需要共享用戶(hù)憑證。本文主要介紹了如何使用Springboot實(shí)現(xiàn)一個(gè)OAuth服務(wù),需要的可以參考一下2023-05-05
Java技能點(diǎn)之SimpleDateFormat進(jìn)行日期格式化問(wèn)題
這篇文章主要介紹了Java技能點(diǎn)之SimpleDateFormat進(jìn)行日期格式化問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-04-04
java 中多線(xiàn)程生產(chǎn)者消費(fèi)者問(wèn)題詳細(xì)介紹
這篇文章主要介紹了java 中多線(xiàn)程生產(chǎn)者消費(fèi)者問(wèn)題詳細(xì)介紹的相關(guān)資料,希望通過(guò)本文能幫助到大家,需要的朋友可以參考下2017-09-09
Spring 依賴(lài)注入實(shí)現(xiàn)示例
這篇文章主要介紹了Spring 依賴(lài)注入實(shí)現(xiàn)示例的相關(guān)資料,幫助大家更好的理解和使用spring框架,感興趣的朋友可以了解下2020-11-11

