python爬蟲獲取多頁天涯帖子
今天練習(xí)了抓取多頁天涯帖子,重點(diǎn)復(fù)習(xí)的知識(shí)包括
- soup.find_all和soup.selcet兩個(gè)篩選方式對(duì)應(yīng)不同的參數(shù);
- 希望將獲取到的多個(gè)內(nèi)容組合在一起返回的時(shí)候,要用'zip()'的代碼來實(shí)現(xiàn);
- 兩層代碼結(jié)構(gòu)之間的關(guān)系如何構(gòu)造;
這里有一個(gè)疑問:有時(shí)候一個(gè)標(biāo)簽可以有多個(gè)屬性,不知道soup.find_all()能不能接受不止一個(gè)屬性以縮小查找的范圍。
# 引入庫和請(qǐng)求頭文件 import requests from bs4 import BeautifulSoup headers = { 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36' } # 定義主體函數(shù)。函數(shù)主體由四部分組成: #1.請(qǐng)求網(wǎng)址 #2.解析網(wǎng)頁,形成可查找的html格式 #3.通過soup.select或者sopu.find_all查找需要的標(biāo)簽 #4.通過zip()代碼將多個(gè)內(nèi)容合并在一起 def get_content(url): res = requests.get(url,headers = headers) res.encoding = 'utf-8' soup = BeautifulSoup(res.text,'html.parser') contents = soup.find_all('div','bbs-content') authors = soup.find_all('a','js-vip-check') for author,content in zip(authors,contents): data = { 'author':author.get_text().strip(), 'content': content.get_text().strip() } print(data) # 在這里構(gòu)造一個(gè)兩層鏈接結(jié)構(gòu):帖子的1、2、3、4頁和帖子的詳情頁的關(guān)系在這里實(shí)現(xiàn) if __name__ == '__main__': urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意,這里的‘5'是不包括在范圍里的 for url in urls: get_content(url)
- python爬蟲爬取淘寶商品信息
- Python爬蟲使用Selenium+PhantomJS抓取Ajax和動(dòng)態(tài)HTML內(nèi)容
- Python即時(shí)網(wǎng)絡(luò)爬蟲項(xiàng)目啟動(dòng)說明詳解
- 淺談python爬蟲使用Selenium模擬瀏覽器行為
- python中數(shù)據(jù)爬蟲requests庫使用方法詳解
- python爬蟲中g(shù)et和post方法介紹以及cookie作用
- 淺析Python3爬蟲登錄模擬
- python爬蟲爬取某站上海租房圖片
- Python爬蟲實(shí)現(xiàn)百度圖片自動(dòng)下載
- python爬蟲獲取淘寶天貓商品詳細(xì)參數(shù)
相關(guān)文章
Pycharm設(shè)置utf-8自動(dòng)顯示方法
今天小編就為大家分享一篇Pycharm設(shè)置utf-8自動(dòng)顯示方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01Python動(dòng)力系統(tǒng)驗(yàn)證三體人是否真的存在
這篇文章主要介紹了Python動(dòng)力系統(tǒng)驗(yàn)證三體人是否真的存在,文中含有詳細(xì)的圖文示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助2021-10-10推薦值得學(xué)習(xí)的12款python-web開發(fā)框架
這篇文章主要介紹了值得學(xué)習(xí)的12款python-web開發(fā)框架,幫助大家更好的理解和學(xué)習(xí)Python web開發(fā),感興趣的朋友可以了解下2020-08-08Python+Empyrical實(shí)現(xiàn)計(jì)算風(fēng)險(xiǎn)指標(biāo)
Empyrical 是一個(gè)知名的金融風(fēng)險(xiǎn)指標(biāo)庫。它能夠用于計(jì)算年平均回報(bào)、最大回撤、Alpha值等。下面就教你如何使用 Empyrical 這個(gè)風(fēng)險(xiǎn)指標(biāo)計(jì)算神器2022-05-05Python標(biāo)準(zhǔn)庫之sqlite3使用實(shí)例
這篇文章主要介紹了Python標(biāo)準(zhǔn)庫之sqlite3使用實(shí)例,本文講解了創(chuàng)建數(shù)據(jù)庫、插入數(shù)據(jù)、查詢數(shù)據(jù)、更新與刪除數(shù)據(jù)操作實(shí)例,需要的朋友可以參考下2014-11-11django第一個(gè)項(xiàng)目127.0.0.1:8000不能訪問的解決方案詳析
django項(xiàng)目服務(wù)啟動(dòng)后無法通過127.0.0.1訪問,下面這篇文章主要給大家介紹了關(guān)于django第一個(gè)項(xiàng)目127.0.0.1:8000不能訪問的解決方案,需要的朋友可以參考下2022-10-10Python實(shí)現(xiàn)迷宮自動(dòng)尋路實(shí)例
大家好,本篇文章主要講的是Python實(shí)現(xiàn)迷宮自動(dòng)尋路實(shí)例,感興趣的同學(xué)趕快來看一看吧,對(duì)你有幫助的話記得收藏一下2022-02-02