Python使用requests及BeautifulSoup構(gòu)建爬蟲實例代碼

更新時間：2018年01月24日 11:11:13 作者：sober_qianyang

這篇文章主要介紹了Python使用requests及BeautifulSoup構(gòu)建爬蟲，介紹了具體操作步驟和實例代碼等相關(guān)內(nèi)容，小編覺得還是挺不錯的，這里分享給大家，需要的朋友可以參考下

本文研究的主要是Python使用requests及BeautifulSoup構(gòu)建一個網(wǎng)絡(luò)爬蟲，具體步驟如下。

功能說明

在Python下面可使用requests模塊請求某個url獲取響應(yīng)的html文件，接著使用BeautifulSoup解析某個html。

案例

假設(shè)我要http://maoyan.com/board/4貓眼電影的top100電影的相關(guān)信息，如下截圖：

獲取電影的標(biāo)題及url。

安裝requests和BeautifulSoup

使用pip工具安裝這兩個工具。

pip install requests

pip install beautifulsoup4

程序

__author__ = 'Qian Yang'
# -*- coding:utf-8 -*-
import requests
from bs4 import BeautifulSoup
def get_one_page(url):
  response= requests.get(url)
  if response.status_code == 200:
    return response.content.decode("utf8","ignore").encode("gbk","ignore")
#采用BeautifulSoup解析
def bs4_paraser(html):
  all_value = []
  value = {}
  soup = BeautifulSoup(html,'html.parser')
  # 獲取每一個電影
  all_div_item = soup.find_all('div', attrs={'class': 'movie-item-info'})
  for r in all_div_item:
    # 獲取電影的名稱和url
    title = r.find_all(name="p",attrs={"class":"name"})[0].string
    movie_url = r.find_all('p', attrs={'class': 'name'})[0].a['href']
    value['title'] = title
    value['movie_url'] = movie_url
    all_value.append(value)
    value = {}
  return all_value

def main():
  url = 'http://maoyan.com/board/4'
  html = get_one_page(url)
  all_value = bs4_paraser(html)
  print(all_value)

if __name__ == '__main__':
  main()

代碼測試可用，實現(xiàn)效果：

總結(jié)

以上就是本文關(guān)于Python使用requests及BeautifulSoup構(gòu)建爬蟲實例代碼的全部內(nèi)容，希望對大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站其他相關(guān)專題，如有不足之處，歡迎留言指出。感謝朋友們對本站的支持！

您可能感興趣的文章:

相關(guān)文章

python等差數(shù)列求和公式前 100 項的和實例
今天小編就為大家分享一篇python等差數(shù)列求和公式前 100 項的和實例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
python添加模塊搜索路徑和包的導(dǎo)入方法
今天小編就為大家分享一篇python添加模塊搜索路徑和包的導(dǎo)入方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-01-01
Python?input輸入超時選擇默認(rèn)值自動跳過問題
這篇文章主要介紹了Python?input輸入超時選擇默認(rèn)值自動跳過問題，具有很好的參考價值，希望對大家有所幫助。如有錯誤或未考慮完全的地方，望不吝賜教
2023-02-02
python實現(xiàn)串口通信的示例代碼
python實現(xiàn)串口通信是一件簡單的事情,只要通過pyserial模塊就可以實現(xiàn),本文主要介紹了python實現(xiàn)串口通信的示例代碼,感興趣的可以了解一下
2023-10-10
python如何設(shè)置靜態(tài)變量
在本篇內(nèi)容里小編給大家整理的是一篇關(guān)于python如何設(shè)置靜態(tài)變量的相關(guān)文章，有興趣的朋友們可以參考下。
2020-09-09
如何驗證python安裝成功
在本篇文章中小編給大家整理的是關(guān)于python安裝成功檢驗方法，需要的朋友們可以參考下。
2020-07-07
Python matplotlib 繪制雙Y軸曲線圖的示例代碼
Matplotlib是非常強大的python畫圖工具，這篇文章主要介紹了Python matplotlib 繪制雙Y軸曲線圖,本文給大家介紹的非常詳細，對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值，需要的朋友可以參考下
2020-06-06
pandas的qcut()方法詳解
這篇文章主要介紹了pandas的qcut()方法詳解，文中通過示例代碼介紹的非常詳細，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
python的pygal模塊繪制反正切函數(shù)圖像方法
在本篇文章中我們給大家整理了關(guān)于如何用python的pygal模塊繪制反正切函數(shù)圖像的知識點內(nèi)容，有需要的朋友們可以學(xué)習(xí)下。
2019-07-07
python從子線程中獲得返回值的方法
今天小編就為大家分享一篇python從子線程中獲得返回值的方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-01-01