快捷導(dǎo)航

python爬蟲(chóng)獲取多頁(yè)天涯帖子

更新時(shí)間：2018年02月23日 14:18:40 作者：zengdamo

本篇文章通過(guò)爬取多頁(yè)天涯帖子內(nèi)容來(lái)教給大家深入理解python爬蟲(chóng)相關(guān)知識(shí)，有興趣的參考學(xué)習(xí)下。

今天練習(xí)了抓取多頁(yè)天涯帖子，重點(diǎn)復(fù)習(xí)的知識(shí)包括

soup.find_all和soup.selcet兩個(gè)篩選方式對(duì)應(yīng)不同的參數(shù)；
希望將獲取到的多個(gè)內(nèi)容組合在一起返回的時(shí)候，要用'zip()'的代碼來(lái)實(shí)現(xiàn)；
兩層代碼結(jié)構(gòu)之間的關(guān)系如何構(gòu)造；

這里有一個(gè)疑問(wèn)：有時(shí)候一個(gè)標(biāo)簽可以有多個(gè)屬性，不知道soup.find_all()能不能接受不止一個(gè)屬性以縮小查找的范圍。

# 引入庫(kù)和請(qǐng)求頭文件
import requests
from bs4 import BeautifulSoup
headers = {
  'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_0) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36'
}

# 定義主體函數(shù)。函數(shù)主體由四部分組成：
#1.請(qǐng)求網(wǎng)址
#2.解析網(wǎng)頁(yè)，形成可查找的html格式
#3.通過(guò)soup.select或者sopu.find_all查找需要的標(biāo)簽
#4.通過(guò)zip()代碼將多個(gè)內(nèi)容合并在一起

def get_content(url):
  res = requests.get(url,headers = headers)
  res.encoding = 'utf-8'
  soup = BeautifulSoup(res.text,'html.parser')
  contents = soup.find_all('div','bbs-content')
  authors = soup.find_all('a','js-vip-check')
  for author,content in zip(authors,contents):
    data = {
    'author':author.get_text().strip(),
    'content': content.get_text().strip()
  }
    print(data)
# 在這里構(gòu)造一個(gè)兩層鏈接結(jié)構(gòu)：帖子的1、2、3、4頁(yè)和帖子的詳情頁(yè)的關(guān)系在這里實(shí)現(xiàn)
if __name__ == '__main__':
  urls = ['http://bbs.tianya.cn/post-develop-2271894-{}.shtml'.format(str(i)) for i in range (1,5)] # 要注意，這里的‘5'是不包括在范圍里的
  for url in urls:
    get_content(url)

您可能感興趣的文章:

相關(guān)文章

python爬蟲(chóng)中多線程的使用詳解
queue是python的標(biāo)準(zhǔn)庫(kù)，俗稱隊(duì)列.可以直接import引用,在python2.x中,模塊名為Queue。這篇文章主要介紹了python爬蟲(chóng)中多線程的使用,需要的朋友可以參考下
2019-09-09
Pycharm設(shè)置utf-8自動(dòng)顯示方法
今天小編就為大家分享一篇Pycharm設(shè)置utf-8自動(dòng)顯示方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2019-01-01
Python動(dòng)力系統(tǒng)驗(yàn)證三體人是否真的存在
這篇文章主要介紹了Python動(dòng)力系統(tǒng)驗(yàn)證三體人是否真的存在，文中含有詳細(xì)的圖文示例，有需要的朋友可以借鑒參考下，希望能夠有所幫助
2021-10-10
基于CUDA out of memory的一種神奇解決方式
這篇文章主要介紹了基于CUDA out of memory的一種神奇解決方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-02-02
推薦值得學(xué)習(xí)的12款python-web開(kāi)發(fā)框架
這篇文章主要介紹了值得學(xué)習(xí)的12款python-web開(kāi)發(fā)框架，幫助大家更好的理解和學(xué)習(xí)Python web開(kāi)發(fā)，感興趣的朋友可以了解下
2020-08-08
Python+Empyrical實(shí)現(xiàn)計(jì)算風(fēng)險(xiǎn)指標(biāo)
Empyrical 是一個(gè)知名的金融風(fēng)險(xiǎn)指標(biāo)庫(kù)。它能夠用于計(jì)算年平均回報(bào)、最大回撤、Alpha值等。下面就教你如何使用 Empyrical 這個(gè)風(fēng)險(xiǎn)指標(biāo)計(jì)算神器
2022-05-05
Python標(biāo)準(zhǔn)庫(kù)之sqlite3使用實(shí)例
這篇文章主要介紹了Python標(biāo)準(zhǔn)庫(kù)之sqlite3使用實(shí)例,本文講解了創(chuàng)建數(shù)據(jù)庫(kù)、插入數(shù)據(jù)、查詢數(shù)據(jù)、更新與刪除數(shù)據(jù)操作實(shí)例,需要的朋友可以參考下
2014-11-11
django第一個(gè)項(xiàng)目127.0.0.1:8000不能訪問(wèn)的解決方案詳析
django項(xiàng)目服務(wù)啟動(dòng)后無(wú)法通過(guò)127.0.0.1訪問(wèn),下面這篇文章主要給大家介紹了關(guān)于django第一個(gè)項(xiàng)目127.0.0.1:8000不能訪問(wèn)的解決方案,需要的朋友可以參考下
2022-10-10
Python實(shí)現(xiàn)迷宮自動(dòng)尋路實(shí)例
大家好，本篇文章主要講的是Python實(shí)現(xiàn)迷宮自動(dòng)尋路實(shí)例，感興趣的同學(xué)趕快來(lái)看一看吧，對(duì)你有幫助的話記得收藏一下
2022-02-02
解決python中使用plot畫圖,圖不顯示的問(wèn)題
今天小編就為大家分享一篇解決python中使用plot畫圖,圖不顯示的問(wèn)題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-07-07