零基礎(chǔ)寫Java知乎爬蟲之準備工作
開篇我們還是和原來一樣,講一講做爬蟲的思路以及需要準備的知識吧,高手們請直接忽略。
首先我們來縷一縷思緒,想想到底要做什么,列個簡單的需求。
需求如下:
1.模擬訪問知乎官網(wǎng)(http://www.zhihu.com/)
2.下載指定的頁面內(nèi)容,包括:今日最熱,本月最熱,編輯推薦
3.下載指定分類中的所有問答,比如:投資,編程,掛科
4.下載指定回答者的所有回答
5.最好有個一鍵點贊的變態(tài)功能(這樣我就可以一下子給雷倫的所有回答都點贊了我真是太機智了!)
那么需要解決的技術(shù)問題簡單羅列如下:
1.模擬瀏覽器訪問網(wǎng)頁
2.抓取關(guān)鍵數(shù)據(jù)并保存到本地
3.解決網(wǎng)頁瀏覽中的動態(tài)加載問題
4.使用樹狀結(jié)構(gòu)海量抓取知乎的所有內(nèi)容
好的,目前就想了這些。
接下來就是準備工作了。
1.確定爬蟲語言:由于以前寫過一系列爬蟲教程(點擊這里),百度貼吧,糗事百科,山東大學(xué)的績點查詢等都是用python寫的,所以這次決定使用Java來寫(喂完全沒有半毛錢聯(lián)系好嗎)。
2.科普爬蟲知識:網(wǎng)絡(luò)爬蟲,即Web Spider,是一個很形象的名字。把互聯(lián)網(wǎng)比喻成一個蜘蛛網(wǎng),那么Spider就是在網(wǎng)上爬來爬去的蜘蛛。網(wǎng)絡(luò)蜘蛛通過網(wǎng)頁的鏈接地址來尋找網(wǎng)頁。具體的入門介紹請(點擊這里)。
3.準備爬蟲環(huán)境:Jdk和Eclipse的安裝和配置就不多說啦。這里啰嗦一句,一個好用的瀏覽器對于爬蟲來說非常重要,因為首先你需要自己瀏覽網(wǎng)頁知道你需要的東西在哪里,你才能告訴你的爬蟲們?nèi)ツ睦镌趺磁?。個人推薦火狐瀏覽器,或者谷歌瀏覽器,它們的右鍵審查元素和查看源代碼的功能都非常強大。
下面我們開始正式的爬蟲之旅!~具體講些什么呢,恩,這是個問題,讓我好好想想,別急^_^
相關(guān)文章
Java Socket聊天室編程(一)之利用socket實現(xiàn)聊天之消息推送
這篇文章主要介紹了Java Socket聊天室編程(一)之利用socket實現(xiàn)聊天之消息推送的相關(guān)資料,非常不錯,具有參考借鑒價值,需要的朋友可以參考下2016-09-09Java利用遞歸實現(xiàn)樹形結(jié)構(gòu)的工具類
有時候,我們的數(shù)據(jù)是帶有層級的,比如常見的省市區(qū)三級聯(lián)動,就是一層套著一層。而我們在數(shù)據(jù)庫存放數(shù)據(jù)的時候,往往是列表形式的,這個時候可能就需要遞歸處理為樹形結(jié)構(gòu)了。本文就為大家介紹了Java利用遞歸實現(xiàn)樹形結(jié)構(gòu)的工具類,希望對大家有所幫助2023-03-03Spring?Cloud?通過?Gateway?webflux實現(xiàn)網(wǎng)關(guān)異常處理
在某一個服務(wù)中出現(xiàn)異常,通過@ControllerAdvice?+?@ExceptionHandler?統(tǒng)一異常處理,即使在微服務(wù)架構(gòu)中,也可以將上述統(tǒng)一異常處理放入到公共的微服務(wù)中,這樣哪一個微服務(wù)需要,直接引入模塊,本文重點介紹Spring?Cloud?通過?Gateway?webflux實現(xiàn)網(wǎng)關(guān)異常處理,一起看看吧2023-11-11簡單談?wù)凧ava遍歷樹深度優(yōu)先和廣度優(yōu)先的操作方式
這篇文章主要介紹了簡單談?wù)凧ava遍歷樹深度優(yōu)先和廣度優(yōu)先的操作方式的相關(guān)資料,需要的朋友可以參考下2023-03-03SpringBoot3整合mybatis-plus的實現(xiàn)
MyBatis-Plus是一個MyBatis的增強工具,在MyBatis的基礎(chǔ)上只做增強不做改變,本文主要介紹了Mybatis-Plus3.x的具體使用,具有一定的參考價值,感興趣的可以了解一下2023-10-10