Node.js環(huán)境下編寫爬蟲爬取維基百科內(nèi)容的實例分享
基本思路
思路一(origin:master):從維基百科的某個分類(比如:航空母艦(key))頁面開始,找出鏈接的title屬性中包含key(航空母艦)的所有目標,加入到待抓取隊列中。這樣,抓一個頁面的代碼及其圖片的同時,也獲取這個網(wǎng)頁上所有與key相關(guān)的其它網(wǎng)頁的地址,采取一個類廣度優(yōu)先遍歷的算法來完成此任務(wù)。
思路二(origin:cat):按分類進行抓取。注意到,維基百科上,分類都以Category:開頭,由于維基百科有很好的文檔結(jié)構(gòu),很容易從任一個分類,開始,一直把其下的所有分類全都抓取下來。這個算法對分類頁面,提取子分類,且并行抓取其下所有頁面,速度快,可以把分類結(jié)構(gòu)保存下來,但其實有很多的重復(fù)頁面,不過這個可以后期寫個腳本就能很容易的處理。
庫的選擇
開始想用jsdom,雖然感覺它功能強大,但也比較“重”,最要命的是說明文檔不夠好,只說了它的優(yōu)勢,沒一個全面的說明。因此,換成cheerio,輕量級,功能比較全,至少文檔一看就能有一個整體概念。其實做到后來,才發(fā)現(xiàn)根本不需要庫,用正則表達式就能搞定一切!用庫只是少寫了一點正則而矣。
關(guān)鍵點
全局變量設(shè)定:
var regKey = ['航空母艦','航空母艦','航母']; //鏈接中若包含此中關(guān)鍵詞,即為目標 var allKeys = []; //鏈接的title,也是頁面標識,避免重復(fù)抓取 var keys = ['Category:%E8%88%AA%E7%A9%BA%E6%AF%8D%E8%88%B0']; //等待隊列,起始頁
圖片下載
使用request庫的流式操作,讓每一個下載操作形成閉包。注意異步操作可能帶來的副作用。另外,圖片名字要重新設(shè)定,開始我取原名,不知道為什么,有的圖明明存在,就是顯示不出來;并且要把srcset屬性清理掉,不然本面顯示不出來。
$ = cheer.load(downHtml); var rsHtml = $.html(); var imgs = $('#bodyContent .image'); //圖片都由這個樣式修飾 for(img in imgs){ if(typeof imgs[img].attribs === 'undefined' || typeof imgs[img].attribs.href === 'undefined') {continue;} //結(jié)構(gòu)為鏈接下的圖片,鏈接不存在,跳過 else { var picUrl = imgs[img].children[0].attribs.src; //圖片地址 var dirs = picUrl.split('.'); var filename = baseDir+uuid.v1()+'.'+dirs[dirs.length -1]; //重新命名 request("https:"+picUrl).pipe(fs.createWriteStream('pages/'+filename)); //下載 rsHtml = rsHtml.replace(picUrl,filename); //換成本地路徑 // console.log(picUrl); } }
廣度優(yōu)先遍歷
開始沒能完全理解異步的概念,以循環(huán)方式來做,以為使用了Promise,就已經(jīng)全轉(zhuǎn)化為同步了,但其實只是能保證交給promise的操作會有序進行,并不能讓這些操作與其它的操作有序化!如,下面的代碼就是不正確的。
var keys = ['航空母艦']; var key = keys.shift(); while(key){ data.get({ url:encodeURI(key), qs:null }).then(function(downHtml){ ... keys.push(key); //(1) } }); key = keys.shift(); //(2) }
上面的操作看試很正常,但其實(2)會在(1)之間被運行!哪怎么辦?
我使用遞歸來解決這個問題。如下示例代碼:
var key = keys.shift(); (function doNext(key){ data.get({ url:key, qs:null }).then(function(downHtml){ ... keys.push(href); ... key = keys.shift(); if(key){ doNext(key); }else{ console.log('抓取任務(wù)順利完成。') } }) })(key);
正則清理
使用正則表達式清理無用的頁面代碼,因為有很多模式需要處理,寫了一個循環(huán)統(tǒng)一處理。
var regs = [/<link rel=\"stylesheet\" href=\"?[^\"]*\">/g, /<script>?[^<]*<\/script>/g, /<style>?[^<]*<\/style>/g, /<a ?[^>]*>/g, /<\/a>/g, /srcset=(\"?[^\"]*\")/g ] regs.forEach(function(rs){ var mactches = rsHtml.match(rs); for (var i=0;i < mactches.length ; i++) { rsHtml = rsHtml.replace(mactches[i],mactches[i].indexOf('stylesheet')>-1?'<link rel="stylesheet" href="wiki'+(i+1)+'.css"':''); } })
運行效果
上維基中文是需要FQ的,試運行了一下,抓取 航空母艦 分類,運行過程中,發(fā)現(xiàn)了三百左右的相關(guān)鏈接(包括分類頁面,這些頁面我是只取有效鏈接,不下載),最終正確的下載了209個,手工測試了一些出錯鏈接,發(fā)現(xiàn)都為無效鏈接,顯示該詞條還未建立,整個過程大概花了不到十五分鐘,壓縮后近三十M,感覺效果還不錯。
源代碼
https://github.com/zhoutk/wikiSpider
小結(jié)
到昨晚基本完成任務(wù),思路一能夠抓取內(nèi)容比較準確的頁面,而且頁面不重復(fù),但抓取效率不高,分類信息無法準確獲得;思路二能夠按維基百科的分類,自動抓取并分門別類的把文件存儲到本地,效率高(實測,抓取【軍艦】類,共抓取頁面近六千個,費時五十來分鐘,每分鐘能抓取超過一百個頁面),能準確的保存分類信息。
最大的收獲在于深刻的理解了異步編程的整體流程控制。
相關(guān)文章
輕松創(chuàng)建nodejs服務(wù)器(3):代碼模塊化
這篇文章主要介紹了輕松創(chuàng)建nodejs服務(wù)器(3):代碼模塊化,本文是對第一節(jié)的例子作了封裝,需要的朋友可以參考下2014-12-12nodejs提示:cross-device link not permitted, rename錯誤的解決方法
這篇文章主要給大家介紹了關(guān)于nodejs提示:cross-device link not permitted, rename錯誤的解決方法,文中通過示例代碼介紹的非常詳細,對大家學(xué)習或者使用nodejs具有一定的參考學(xué)習價值,需要的朋友們下面來一起學(xué)習學(xué)習吧2019-06-06NestJS核心概念之Middleware中間件創(chuàng)建使用示例
這篇文章主要為大家介紹了NestJS核心概念之Middleware中間件創(chuàng)建使用示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-08-08