快捷導(dǎo)航

python爬蟲之遍歷單個域名

更新時間：2019年11月20日 15:00:17 投稿：laozhang

在本篇文章里小編給大家整理的是一篇關(guān)于python遍歷單個域名的知識點和操作方法，有需要的朋友們學(xué)習(xí)下。

即使你沒聽說過“維基百科六度分隔理論”，也很可能聽過“凱文 • 貝肯（Kevin Bacon）的六度分隔值游戲”。在這兩個游戲中，目標(biāo)都是把兩個不相干的主題（在前一種情況中是相互鏈接的維基百科詞條，而在后一種情況中是出現(xiàn)在同一部電影中的演員）用一個鏈條（至多包含 6 個主題，包括原來的兩個主題）連接起來。

比如，埃里克 • 艾德爾和布蘭登 • 弗雷澤都出現(xiàn)在電影《騎警杜德雷》里，布蘭登 • 弗雷澤又和凱文 • 貝肯都出現(xiàn)在電影《我呼吸的空氣》里。因此，根據(jù)這兩個條件，從埃里克 • 艾德爾到凱文 • 貝肯的鏈條長度只有 3 個主題。

感謝 The Oracle of Bacon 的存在，滿足了我對這類關(guān)系鏈的好奇心。

我們將在本節(jié)創(chuàng)建一個項目來實現(xiàn)“維基百科六度分隔理論”的查找方法。也就是說，我們要實現(xiàn)從埃里克 • 艾德爾的詞條頁面（https://en.wikipedia.org/wiki/Eric_Idle）開始，經(jīng)過最少的鏈接點擊次數(shù)找到凱文 • 貝肯的詞條頁面（https://en.wikipedia.org/wiki/Kevin_Bacon）。

這么做對維基百科的服務(wù)器負載有多大影響？

根據(jù)維基媒體基金會（維基百科所屬的組織）的統(tǒng)計，該網(wǎng)站每秒會收到大約2500次點擊，其中超過 99% 的點擊都指向維基百科域名［詳情請見“維基媒體統(tǒng)計圖”（Wikimedia in Figures）里的“流量數(shù)據(jù)”（Traffic Volume）部分內(nèi)容］。因為網(wǎng)站流量很大，所以你的網(wǎng)絡(luò)爬蟲不可能對維基百科的服務(wù)器負載產(chǎn)生顯著影響。不過，如果你頻繁地運行本書的代碼示例，或者自己創(chuàng)建項目來抓取維基百科的詞條，那么希望你能夠向維基媒體基金會提供一點捐贈—— 不只是為了抵消你占用的服務(wù)器資源，也是為了其他人能夠利用維基百科這個教育資源。

還需要注意的是，如果你準(zhǔn)備利用維基百科的數(shù)據(jù)做一個大型項目，應(yīng)該確認該數(shù)據(jù)是不能夠通過維基百科 API 獲取的。維基百科網(wǎng)站經(jīng)常被用于演示爬蟲，因為它的 HTML 結(jié)構(gòu)簡單并且相對穩(wěn)定。但是它的 API 往往會使得數(shù)據(jù)獲取更加高效。你應(yīng)該已經(jīng)知道如何寫一段 Python 代碼，來獲取維基百科網(wǎng)站的任何頁面并提取該頁面中的鏈接了。

from urllib.request import urlopen from bs4 import BeautifulSoup
html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon') 
bs = BeautifulSoup(html, 'html.parser') 
for link in bs.find_all('a'):  
if 'href' in link.attrs:    
print(link.attrs['href'])

如果你觀察生成的一列鏈接，會看到你想要的所有詞條鏈接都在里面：“Apollo 13”“Philadelphia”“Primetime Emmy Award”，等等。但是，也有一些你不需要的鏈接：

//wikimediafoundation.org/wiki/Privacy_policy
//en.wikipedia.org/wiki/Wikipedia:Contact_us

其實，維基百科的每個頁面都充滿了側(cè)邊欄、頁眉和頁腳鏈接，以及連接到分類頁面、對話頁面和其他不包含詞條的頁面的鏈接：

/wiki/Category:Articles_with_unsourced_statements_from_April_2014 
/wiki/Talk:Kevin_Bacon

最近我有個朋友在做一個類似的維基百科抓取項目，他說，為了判斷一個維基百科內(nèi)鏈?zhǔn)欠矜溄拥揭粋€詞條頁面，他寫了一個很大的過濾函數(shù)，代碼超過了 100 行。不幸的是，他沒有提前花很多時間去尋找“詞條鏈接”和“其他鏈接”之間的模式，也可能他后來發(fā)現(xiàn)了。如果你仔細觀察那些指向詞條頁面（不是指向其他內(nèi)部頁面）的鏈接，會發(fā)現(xiàn)它們都有 3 個共同點：

它們都在 id 是 bodyContent 的 div 標(biāo)簽里
URL 不包含冒號
URL 都以 /wiki/ 開頭

我們可以利用這些規(guī)則稍微調(diào)整一下代碼來僅獲取詞條鏈接，使用的正則表達式為 ^(/wiki/)((?!:).)*$")：

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import re
html = urlopen('http://en.wikipedia.org/wiki/Kevin_Bacon') 
bs = BeautifulSoup(html, 'html.parser') 
for link in bs.find('div', {'id':'bodyContent'}).find_all(  
'a', href=re.compile('^(/wiki/)((?!:).)*$')):  
if 'href' in link.attrs:    
print(link.attrs['href'])

如果你運行以上代碼，就會看到維基百科上凱文 • 貝肯詞條里所有指向其他詞條的鏈接。

當(dāng)然，寫程序來找出這個靜態(tài)的維基百科詞條里所有的詞條鏈接很有趣，不過沒什么實際用處。你需要讓這段程序更像下面的形式。

一個函數(shù) getLinks，可以用一個 /wiki/< 詞條名稱 > 形式的維基百科詞條 URL 作為參數(shù)，然后以同樣的形式返回一個列表，里面包含所有的詞條 URL。
一個主函數(shù)，以某個起始詞條為參數(shù)調(diào)用 getLinks，然后從返回的 URL 列表里隨機選擇一個詞條鏈接，再次調(diào)用 getLinks，直到你主動停止程序，或者在新的頁面上沒有詞條鏈接了。

完整的代碼如下所示：

from urllib.request import urlopen 
from bs4 import BeautifulSoup 
import datetime 
import random 
import re

random.seed(datetime.datetime.now()) 
def getLinks(articleUrl):  html = urlopen('http://en.wikipedia.org{}'.format(articleUrl))  
bs = BeautifulSoup(html, 'html.parser')  
return bs.find('div', {'id':'bodyContent'}).find_all('a',    
href=re.compile('^(/wiki/)((?!:).)*$'))
links = getLinks('/wiki/Kevin_Bacon') 
while len(links) > 0:
newArticle = links[random.randint(0, len(links)-1)].attrs['href']  
print(newArticle)  
links = getLinks(newArticle)

導(dǎo)入需要的 Python 庫之后，程序首先做的是用系統(tǒng)當(dāng)前時間設(shè)置隨機數(shù)生成器的種子。這樣可以保證每次程序運行的時候，維基百科詞條的選擇都是一個全新的隨機路徑。

偽隨機數(shù)和隨機數(shù)種子

在前面的示例中，為了能夠連續(xù)地隨機遍歷維基百科，我用 Python 的隨機數(shù)生成器在每個頁面上隨機選擇一個詞條鏈接。但是，用隨機數(shù)的時候需要格外小心。

雖然計算機很擅長做精確計算，但是它們處理隨機事件時非常不靠譜。因此，隨機數(shù)是一個難題。大多數(shù)隨機數(shù)算法都努力生成一個呈均勻分布且難以預(yù)測的數(shù)字序列，但是在算法初始化階段都需要提供一個隨機數(shù)“種子”（random seed）。而完全相同的種子每次將生成同樣的“隨機”數(shù)序列，因此我將系統(tǒng)時間作為生成新隨機數(shù)序列（和新隨機詞條序列）的起點。這樣做會讓程序運行的時候更具有隨機性。

其實，Python 的偽隨機數(shù)生成器用的是梅森旋轉(zhuǎn)（Mersenne Twister）算法，它生成的隨機數(shù)很難預(yù)測且呈均勻分布，就是有點兒耗費 CPU 資源。真正好的隨機數(shù)可不便宜！然后，程序定義 getLinks 函數(shù)，它接收一個 /wiki/< 詞條名稱 > 形式的維基百科詞條 URL 作為參數(shù)，在前面加上維基百科的域名 http://en.wikipedia.org，再用該域名的 HTML 獲得一個 BeautifulSoup 對象。之后，基于前面介紹過的參數(shù)，抽取一列詞條鏈接所在的標(biāo)簽 a 并返回它們。程序的主函數(shù)首先把起始頁面 https://en.wikipedia.org/wiki/Kevin_Bacon 里的詞條鏈接列表設(shè)置成鏈接標(biāo)簽列表（links 變量）。然后用一個循環(huán)，從頁面中隨機找一個詞條鏈接標(biāo)簽并抽取 href 屬性，打印這個頁面，再把這個鏈接傳入 getLinks 函數(shù)，重新獲取新的鏈接列表。

當(dāng)然，這里只是簡單地構(gòu)建一個從一個頁面到另一個頁面的爬蟲，要解決“維基百科六度分隔理論”問題還需要再做一點兒工作。我們還應(yīng)該存儲 URL 鏈接數(shù)據(jù)并分析數(shù)據(jù)。

以上就是關(guān)于python爬蟲之遍歷單個域名的全部知識點，感謝大家的學(xué)習(xí)和對腳本之家的支持。

您可能感興趣的文章: