欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲爬取筆趣網(wǎng)小說網(wǎng)站過程圖解

 更新時間:2019年11月18日 08:25:44   作者:老魚的故事  
這篇文章主要介紹了python爬蟲爬取筆趣網(wǎng)小說網(wǎng)站過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下

首先:文章用到的解析庫介紹

BeautifulSoup:

Beautiful Soup提供一些簡單的、python式的函數(shù)用來處理導(dǎo)航、搜索、修改分析樹等功能。

它是一個工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),因為簡單,所以不需要多少代碼就可以寫出一個完整的應(yīng)用程序。

Beautiful Soup自動將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。

你不需要考慮編碼方式,除非文檔沒有指定一個編碼方式,這時,Beautiful Soup就不能自動識別編碼方式了。然后,你僅僅需要說明一下原始編碼方式就可以了。

Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強勁的速度。

爬取小說原因背景:

以前很喜歡看起點網(wǎng)上面的小說,但是很多都要錢,窮學(xué)生沒多少錢,就發(fā)現(xiàn)了筆趣網(wǎng)。

筆趣看是一個小說網(wǎng)站,這里有很多起點中文網(wǎng)的免費小說,而且這個網(wǎng)站只能在線瀏覽,不支持小說打包下載。

所以本次爬取呢,就是從該網(wǎng)站爬取并保存一個名為《一念永恒》的小說。

另外本次爬取只是做例子演示,請支持正版資源?。。。。。。。。。。?/p>

那么簡單的爬取開始:

①打開url鏈接,按F12或者右鍵- 檢查 進入開發(fā)者工具

② 在開發(fā)者工具中,捕獲我們要找到的請求條目信息

選擇主文章的一部分內(nèi)容,選擇復(fù)制粘貼那一部分,

然后再打開開發(fā)者工具欄:

“network—選擇放大鏡圖標sreach—然后再搜索欄粘貼我們要搜索的內(nèi)容”

然后會在下方得到條目信息,點擊,頁面會跳轉(zhuǎn)到加載正文的請求響應(yīng)條目中。

我們可以看到:

正文部分是處于 id 為 content 和 class 為 showtxt 的 div 中。

③ 構(gòu)造url請求

上面的信息是不夠的,因為現(xiàn)在的網(wǎng)站都有了反爬能力,我們所需要是模擬一條正常從瀏覽器中發(fā)出的url請求鏈接。

這里我們會用到: User-Agent(瀏覽器標識)

還是開發(fā)者工具,點擊Headers,就可以看到Request-Response條目明細。

④ 發(fā)出請求:

有了字段的詳細內(nèi)容,我們就可以編寫出請求網(wǎng)頁的代碼

⑤ 獲得相應(yīng)內(nèi)容,然后運行,得到內(nèi)容如下:

解析響應(yīng)數(shù)據(jù)

下面,我們使用BeautifulSoup進行解析 運行….代碼結(jié)果如圖:

到這里,小說就爬取完成了。

以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。

相關(guān)文章

最新評論