python爬蟲爬取筆趣網(wǎng)小說(shuō)網(wǎng)站過程圖解
首先:文章用到的解析庫(kù)介紹
BeautifulSoup:
Beautiful Soup提供一些簡(jiǎn)單的、python式的函數(shù)用來(lái)處理導(dǎo)航、搜索、修改分析樹等功能。
它是一個(gè)工具箱,通過解析文檔為用戶提供需要抓取的數(shù)據(jù),因?yàn)楹?jiǎn)單,所以不需要多少代碼就可以寫出一個(gè)完整的應(yīng)用程序。
Beautiful Soup自動(dòng)將輸入文檔轉(zhuǎn)換為Unicode編碼,輸出文檔轉(zhuǎn)換為utf-8編碼。
你不需要考慮編碼方式,除非文檔沒有指定一個(gè)編碼方式,這時(shí),Beautiful Soup就不能自動(dòng)識(shí)別編碼方式了。然后,你僅僅需要說(shuō)明一下原始編碼方式就可以了。
Beautiful Soup已成為和lxml、html6lib一樣出色的python解釋器,為用戶靈活地提供不同的解析策略或強(qiáng)勁的速度。
爬取小說(shuō)原因背景:
以前很喜歡看起點(diǎn)網(wǎng)上面的小說(shuō),但是很多都要錢,窮學(xué)生沒多少錢,就發(fā)現(xiàn)了筆趣網(wǎng)。
筆趣看是一個(gè)小說(shuō)網(wǎng)站,這里有很多起點(diǎn)中文網(wǎng)的免費(fèi)小說(shuō),而且這個(gè)網(wǎng)站只能在線瀏覽,不支持小說(shuō)打包下載。
所以本次爬取呢,就是從該網(wǎng)站爬取并保存一個(gè)名為《一念永恒》的小說(shuō)。
另外本次爬取只是做例子演示,請(qǐng)支持正版資源?。。。。。。。。。?!
那么簡(jiǎn)單的爬取開始:
①打開url鏈接,按F12或者右鍵- 檢查 進(jìn)入開發(fā)者工具
② 在開發(fā)者工具中,捕獲我們要找到的請(qǐng)求條目信息
選擇主文章的一部分內(nèi)容,選擇復(fù)制粘貼那一部分,
然后再打開開發(fā)者工具欄:
“network—選擇放大鏡圖標(biāo)sreach—然后再搜索欄粘貼我們要搜索的內(nèi)容”
然后會(huì)在下方得到條目信息,點(diǎn)擊,頁(yè)面會(huì)跳轉(zhuǎn)到加載正文的請(qǐng)求響應(yīng)條目中。
我們可以看到:
正文部分是處于 id 為 content 和 class 為 showtxt 的 div 中。
③ 構(gòu)造url請(qǐng)求
上面的信息是不夠的,因?yàn)楝F(xiàn)在的網(wǎng)站都有了反爬能力,我們所需要是模擬一條正常從瀏覽器中發(fā)出的url請(qǐng)求鏈接。
這里我們會(huì)用到: User-Agent(瀏覽器標(biāo)識(shí))
還是開發(fā)者工具,點(diǎn)擊Headers,就可以看到Request-Response條目明細(xì)。
④ 發(fā)出請(qǐng)求:
有了字段的詳細(xì)內(nèi)容,我們就可以編寫出請(qǐng)求網(wǎng)頁(yè)的代碼
⑤ 獲得相應(yīng)內(nèi)容,然后運(yùn)行,得到內(nèi)容如下:
解析響應(yīng)數(shù)據(jù)
下面,我們使用BeautifulSoup進(jìn)行解析 運(yùn)行….代碼結(jié)果如圖:
到這里,小說(shuō)就爬取完成了。
以上就是本文的全部?jī)?nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
python實(shí)現(xiàn)將中文日期轉(zhuǎn)換為數(shù)字日期
這篇文章主要介紹了python實(shí)現(xiàn)將中文日期轉(zhuǎn)換為數(shù)字日期,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧2020-07-07如何利用pandas工具輸出每行的索引值、及其對(duì)應(yīng)的行數(shù)據(jù)
這篇文章主要介紹了如何利用pandas工具輸出每行的索引值、及其對(duì)應(yīng)的行數(shù)據(jù),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-03-03python的簡(jiǎn)單web框架flask快速實(shí)現(xiàn)詳解
這篇文章主要為大家介紹了python的簡(jiǎn)單web框架flask快速實(shí)現(xiàn)詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-02-02在PyTorch中實(shí)現(xiàn)可解釋的神經(jīng)網(wǎng)絡(luò)模型的方法詳解
這篇文章主要為大家介紹在PyTorch如何中實(shí)現(xiàn)可解釋的神經(jīng)網(wǎng)絡(luò)模型,并為您提供使用簡(jiǎn)單的 PyTorch 接口實(shí)現(xiàn)最先進(jìn)的基于概念的模型的工具,需要的朋友可以參考下2023-06-06Python使用qrcode二維碼庫(kù)生成二維碼方法詳解
這篇文章主要介紹了Python使用qrcode二維碼庫(kù)生成二維碼方法詳解,需要的朋友可以參考下2020-02-02python對(duì) MySQL 數(shù)據(jù)庫(kù)進(jìn)行增刪改查的腳本
這篇文章主要介紹了python對(duì) MySQL 數(shù)據(jù)庫(kù)進(jìn)行增刪改查的腳本,幫助大家更好的利用python處理數(shù)據(jù)庫(kù),感興趣的朋友可以了解下2020-10-10