Java獲取網(wǎng)頁數(shù)據(jù)步驟方法詳解
在很多行業(yè)當中,我們需要對行業(yè)進行分析,就需要對這個行業(yè)的數(shù)據(jù)進行分類,匯總,及時分析行業(yè)的數(shù)據(jù),對于公司未來的發(fā)展,有很好的參照和橫向?qū)Ρ?。面前通過網(wǎng)絡(luò)進行數(shù)據(jù)獲取是一個很有效而且快捷的方式。
首先我們來簡單的介紹一下,利用java對網(wǎng)頁數(shù)據(jù)進行抓取的一些步驟,有不足的地方,還望指正,哈哈。屁話不多說了。
其實一般分為以下步驟:
1:通過HttpClient請求到達某網(wǎng)頁的url訪問地址(特別需要注意的是請求方式)
2:獲取網(wǎng)頁源碼
3:查看源碼是否有我們需要提取的數(shù)據(jù)
4:對源碼進行拆解,一般使用分割,正則或者第三方j(luò)ar包
5:獲取需要的數(shù)據(jù)對自己創(chuàng)建的對象賦值
6:數(shù)據(jù)提取保存
下面簡單的說一下在提取數(shù)據(jù)中的部分源碼,以及用途:
/** * 向指定URL發(fā)送GET方法的請求 * * @param url * 發(fā)送請求的URL * @param param * 請求參數(shù),請求參數(shù)應(yīng)該是 name1=value1&name2=value2 的形式。 * @return URL 所代表遠程資源的響應(yīng)結(jié)果 */ public static String sendGet(String url, String param) { String result = ""; BufferedReader in = null; try { String urlNameString = url; URL realUrl = new URL(urlNameString); // 打開和URL之間的連接 URLConnection connection = realUrl.openConnection(); // 設(shè)置通用的請求屬性 connection.setRequestProperty("accept", "*/*"); connection.setRequestProperty("connection", "Keep-Alive"); connection.setRequestProperty("user-agent", "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1;SV1)"); // 建立實際的連接 connection.connect(); // 獲取所有響應(yīng)頭字段 Map<String, List<String>> map = connection.getHeaderFields(); // 定義 BufferedReader輸入流來讀取URL的響應(yīng) in = new BufferedReader(new InputStreamReader( connection.getInputStream())); //這里如果出現(xiàn)亂碼,請使用帶編碼的InputStreamReader構(gòu)造方法,將需要的編碼設(shè)置進去 String line; while ((line = in.readLine()) != null) { result += line; } } catch (Exception e) { System.out.println("發(fā)送GET請求出現(xiàn)異常!" + e); e.printStackTrace(); } // 使用finally塊來關(guān)閉輸入流 finally { try { if (in != null) { in.close(); } } catch (Exception e2) { e2.printStackTrace(); } } return result; }
解析存儲數(shù)據(jù)
public Bid getData(String html) throws Exception { //獲取的數(shù)據(jù),存放在到Bid的對象中,自己可以重新建立一個對象存儲 Bid bid = new Bid(); //采用Jsoup解析 Document doc = Jsoup.parse(html); // System.out.println("doc內(nèi)容" + doc.text()); //獲取html標簽中的內(nèi)容tr Elements elements = doc.select("tr"); System.out.println(elements.size() + "****條"); //循環(huán)遍歷數(shù)據(jù) for (Element element : elements) { if (element.select("td").first() == null){ continue; } Elements tdes = element.select("td"); for(int i = 0; i < tdes.size(); i++){ this.relation(tdes,tdes.get(i).text(),bid,i+1); } } return bid; }
得到的數(shù)據(jù)
Bid { h2 = '詳見內(nèi)容', itemName = '訴訟服務(wù)中心設(shè)備采購', item = '貨物/辦公消耗用品及類似物品/其他辦公消耗用品及類似物品', itemUnit = '詳見內(nèi)容', areaName = '港北區(qū)', noticeTime = '2018年10月22日 18:41', itemNoticeTime = 'null', itemTime = 'null', kaibiaoTime = '2018年10月26日 09:00', winTime = 'null', kaibiaoDiDian = 'null', yusuanMoney = '¥67.00元(人民幣)', allMoney = 'null', money = 'null', text = '' }
以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
盤點SpringBoot中@Async注解的遇到的坑點及解決辦法
SpringBoot是一個流行的Java開發(fā)框架,在異步編程方面,Spring Boot提供了@Async注解,它能夠讓方法異步執(zhí)行,然而,在使用@Async注解時,有一些潛在的坑需要注意,本文將深入探討Spring Boot中使用@Async注解時可能遇到的8大坑點,并提供相應(yīng)的解決方案2024-03-03SpringBoot整合Swagger接口文檔工具的流程步驟
我們在開發(fā)接口的時候,會將接口文檔給前端的開發(fā)者進行對接,我們可以通過Postman或者Yapi等接口管理工具進行編寫管理,實際開發(fā)中,接口的管理確實也應(yīng)該通過專業(yè)的工具管理,本文,我們就來談?wù)勗趺丛赟pringBoot整合Swagger接口文檔工具2023-08-08Java創(chuàng)建類模式_動力節(jié)點Java學院整理
這篇文章主要為大家詳細介紹了Java創(chuàng)建類模式的相關(guān)方法,具有一定的參考價值,感興趣的小伙伴們可以參考一下2017-08-08SpringCloud學習筆記之Feign遠程調(diào)用
Feign是一個聲明式的http客戶端。其作用就是幫助我們優(yōu)雅的實現(xiàn)http請求的發(fā)送。本文將具體為大家介紹一下Feign的遠程調(diào)用,感興趣的可以了解一下2021-12-12