欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python 通過requests實(shí)現(xiàn)騰訊新聞抓取爬蟲的方法

 更新時(shí)間:2019年02月22日 10:49:10   作者:無緣浪子  
今天小編就為大家分享一篇Python 通過requests實(shí)現(xiàn)騰訊新聞抓取爬蟲的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

最近也是學(xué)習(xí)了一些爬蟲方面的知識(shí)。以我自己的理解,通常我們用瀏覽器查看網(wǎng)頁時(shí),是通過瀏覽器向服務(wù)器發(fā)送請(qǐng)求,然后服務(wù)器響應(yīng)以后返回一些代碼數(shù)據(jù),再經(jīng)過瀏覽器解析后呈現(xiàn)出來。而爬蟲則是通過程序向服務(wù)器發(fā)送請(qǐng)求,并且將服務(wù)器返回的信息,通過一些處理后,就能得到我們想要的數(shù)據(jù)了。

以下是前段時(shí)間我用python寫的一個(gè)爬取TX新聞標(biāo)題及其網(wǎng)址的一個(gè)簡單爬蟲:

首先需要用到python中requests(方便全面的http請(qǐng)求庫)和 BeautifulSoup(html解析庫)。

通過pip來安裝這兩個(gè)庫,命令分別是:pip install requests 和 pip install bs4 (如下圖)

Python requests實(shí)現(xiàn)騰訊新聞抓取爬蟲

先放上完整的代碼

# coding:utf-8
import requests
from bs4 import BeautifulSoup
 
url = "http://news.qq.com/"
# 請(qǐng)求騰訊新聞的URL,獲取其text文本
wbdata = requests.get(url).text
# 對(duì)獲取到的文本進(jìn)行解析
soup = BeautifulSoup(wbdata,'lxml')
# 從解析文件中通過select選擇器定位指定的元素,返回一個(gè)列表
news_titles = soup.select("div.text > em.f14 > a.linkto")
 
# 對(duì)返回的列表進(jìn)行遍歷
for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標(biāo)題':title,
    '鏈接':link
  }
  print(data)

首先引入上述兩個(gè)庫

import requests
from bs4 import BeautifulSoup

然后get請(qǐng)求騰訊新聞網(wǎng)url,返回的字符串實(shí)質(zhì)上就是我們手動(dòng)打開這個(gè)網(wǎng)站,然后查看網(wǎng)頁源代碼所看到的html代碼。

wbdata = requests.get(url).text

我們需要的僅僅是某些特定標(biāo)簽里的內(nèi)容:

Python requests實(shí)現(xiàn)騰訊新聞抓取爬蟲

Python requests實(shí)現(xiàn)騰訊新聞抓取爬蟲

可以看出,每條新聞鏈接、標(biāo)題都在<div class="text">標(biāo)簽的<em class="f14 124">標(biāo)簽下

之后我們將剛剛請(qǐng)求得到的html代碼進(jìn)行處理,這時(shí)候就需要用到BeautifulSoap庫了

soup = BeautifulSoup(wbdata,'lxml')

這一行的意思是對(duì)獲取的信息進(jìn)行解析處理,也可以將lxml庫換成html.parser庫,效果是相同的

news_titles = soup.select("div.text > em.f14 > a.linkto")

這一行是利用剛剛經(jīng)過解析獲取的soup對(duì)象,選擇我們需要的標(biāo)簽,返回值是一個(gè)列表。列表中存放了我們需要的所有標(biāo)簽內(nèi)容。也可以使用BeautifulSoup中的find()方法或findall()方法來對(duì)標(biāo)簽進(jìn)行選擇。

最后用 for in 對(duì)列表進(jìn)行遍歷,分別取出標(biāo)簽中的內(nèi)容(新聞標(biāo)題)和標(biāo)簽中href的值(新聞網(wǎng)址),存放在data字典中

for n in news_titles:
  title = n.get_text()
  link = n.get("href")
  data = {
    '標(biāo)題':title,
    '鏈接':link
  }

data存放的就是所有的新聞標(biāo)題和鏈接了,下圖是部分結(jié)果

Python requests實(shí)現(xiàn)騰訊新聞抓取爬蟲

這樣一個(gè)爬蟲就完成了,當(dāng)然這只是一個(gè)最簡單的爬蟲。深入爬蟲的話還有許多模擬瀏覽器行為、安全問題、效率優(yōu)化、多線程等等需要考慮,不得不說爬蟲是一個(gè)很深的坑。

python中爬蟲可以通過各種庫或者框架來完成,requests只是比較常用的一種而已。其他語言中也會(huì)有許多爬蟲方面的庫,例如php可以使用curl庫。爬蟲的原理都是一樣的,只是用不同語言、不同庫來實(shí)現(xiàn)的方法不一樣。

以上這篇Python 通過requests實(shí)現(xiàn)騰訊新聞抓取爬蟲的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python使用matplotlib繪制三維參數(shù)曲線操作示例

    Python使用matplotlib繪制三維參數(shù)曲線操作示例

    這篇文章主要介紹了Python使用matplotlib繪制三維參數(shù)曲線操作,結(jié)合實(shí)例形式分析了Python使用matplotlib的數(shù)值計(jì)算與圖形繪制相關(guān)操作技巧,需要的朋友可以參考下
    2019-09-09
  • TensorFlow模型保存和提取的方法

    TensorFlow模型保存和提取的方法

    這篇文章主要為大家詳細(xì)介紹了TensorFlow模型保存和提取的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • python工具——Mimesis的簡單使用教程

    python工具——Mimesis的簡單使用教程

    這篇文章主要介紹了python工具——Mimesis的簡單使用教程,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2021-01-01
  • python爬取網(wǎng)易云音樂熱歌榜實(shí)例代碼

    python爬取網(wǎng)易云音樂熱歌榜實(shí)例代碼

    在本篇文章里小編給大家整理的是關(guān)于python爬取網(wǎng)易云音樂熱歌榜實(shí)例代碼,需要的朋友們可以學(xué)習(xí)下。
    2020-08-08
  • Python使用tkinter寫一個(gè)本地密碼管理器

    Python使用tkinter寫一個(gè)本地密碼管理器

    閑來無事,看到自己有很多網(wǎng)站的賬戶密碼,有些網(wǎng)站可能打開一兩次也就忘記了,下一次在輸入賬戶密碼就想不起來,這樣很容易丟失賬號(hào)。所以本文就來用Python和tkinter寫一個(gè)本地密碼管理器吧
    2023-05-05
  • Python?turtle編寫簡單的球類小游戲

    Python?turtle編寫簡單的球類小游戲

    turtle?(小海龜)?是?Python?內(nèi)置的一個(gè)繪圖模塊,其實(shí)它不僅可以用來繪圖,還可以制作簡單的小游戲。本文將利用Turtle制作一個(gè)簡單的球類小游戲,感興趣的可以學(xué)習(xí)一下
    2022-03-03
  • Python高級(jí)過濾器之filter函數(shù)詳解

    Python高級(jí)過濾器之filter函數(shù)詳解

    在Python中,filter()是一個(gè)非常有用的內(nèi)置函數(shù),它能夠根據(jù)指定的函數(shù)來篩選出可迭代對(duì)象中滿足條件的元素,本文將從入門到精通,全面介紹filter()函數(shù)的用法和相關(guān)知識(shí)點(diǎn)
    2023-08-08
  • Python實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn)?和人人對(duì)戰(zhàn)

    Python實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn)?和人人對(duì)戰(zhàn)

    這篇文章主要介紹了Python實(shí)現(xiàn)五子棋人機(jī)對(duì)戰(zhàn)?和人人對(duì)戰(zhàn),通過定義黑白子,落子位置以及獲勝規(guī)則展開詳細(xì)內(nèi)容,需要的小伙伴可以參考一下
    2022-05-05
  • Python MySQLdb 使用utf-8 編碼插入中文數(shù)據(jù)問題

    Python MySQLdb 使用utf-8 編碼插入中文數(shù)據(jù)問題

    這篇文章主要介紹了Python MySQLdb 使用utf-8 編碼插入中文數(shù)據(jù)問題,需要的朋友可以參考下
    2018-03-03
  • Python字符集和字符編碼詳情

    Python字符集和字符編碼詳情

    這篇文章主要介紹了Python字符集和字符編碼詳情,Python中的字符串是通過unicode來表示的,在底層對(duì)應(yīng)的結(jié)構(gòu)體是PyUnicodeObject,但是具體為什么呢?帶著疑問一起學(xué)習(xí)下面文章內(nèi)容吧
    2022-05-05

最新評(píng)論