Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法
最近也是學習了一些爬蟲方面的知識。以我自己的理解,通常我們用瀏覽器查看網(wǎng)頁時,是通過瀏覽器向服務器發(fā)送請求,然后服務器響應以后返回一些代碼數(shù)據(jù),再經(jīng)過瀏覽器解析后呈現(xiàn)出來。而爬蟲則是通過程序向服務器發(fā)送請求,并且將服務器返回的信息,通過一些處理后,就能得到我們想要的數(shù)據(jù)了。
以下是前段時間我用python寫的一個爬取TX新聞標題及其網(wǎng)址的一個簡單爬蟲:
首先需要用到python中requests(方便全面的http請求庫)和 BeautifulSoup(html解析庫)。
通過pip來安裝這兩個庫,命令分別是:pip install requests 和 pip install bs4 (如下圖)
先放上完整的代碼
# coding:utf-8 import requests from bs4 import BeautifulSoup url = "http://news.qq.com/" # 請求騰訊新聞的URL,獲取其text文本 wbdata = requests.get(url).text # 對獲取到的文本進行解析 soup = BeautifulSoup(wbdata,'lxml') # 從解析文件中通過select選擇器定位指定的元素,返回一個列表 news_titles = soup.select("div.text > em.f14 > a.linkto") # 對返回的列表進行遍歷 for n in news_titles: title = n.get_text() link = n.get("href") data = { '標題':title, '鏈接':link } print(data)
首先引入上述兩個庫
import requests from bs4 import BeautifulSoup
然后get請求騰訊新聞網(wǎng)url,返回的字符串實質(zhì)上就是我們手動打開這個網(wǎng)站,然后查看網(wǎng)頁源代碼所看到的html代碼。
wbdata = requests.get(url).text
我們需要的僅僅是某些特定標簽里的內(nèi)容:
可以看出,每條新聞鏈接、標題都在<div class="text">標簽的<em class="f14 124">標簽下
之后我們將剛剛請求得到的html代碼進行處理,這時候就需要用到BeautifulSoap庫了
soup = BeautifulSoup(wbdata,'lxml')
這一行的意思是對獲取的信息進行解析處理,也可以將lxml庫換成html.parser庫,效果是相同的
news_titles = soup.select("div.text > em.f14 > a.linkto")
這一行是利用剛剛經(jīng)過解析獲取的soup對象,選擇我們需要的標簽,返回值是一個列表。列表中存放了我們需要的所有標簽內(nèi)容。也可以使用BeautifulSoup中的find()方法或findall()方法來對標簽進行選擇。
最后用 for in 對列表進行遍歷,分別取出標簽中的內(nèi)容(新聞標題)和標簽中href的值(新聞網(wǎng)址),存放在data字典中
for n in news_titles: title = n.get_text() link = n.get("href") data = { '標題':title, '鏈接':link }
data存放的就是所有的新聞標題和鏈接了,下圖是部分結(jié)果
這樣一個爬蟲就完成了,當然這只是一個最簡單的爬蟲。深入爬蟲的話還有許多模擬瀏覽器行為、安全問題、效率優(yōu)化、多線程等等需要考慮,不得不說爬蟲是一個很深的坑。
python中爬蟲可以通過各種庫或者框架來完成,requests只是比較常用的一種而已。其他語言中也會有許多爬蟲方面的庫,例如php可以使用curl庫。爬蟲的原理都是一樣的,只是用不同語言、不同庫來實現(xiàn)的方法不一樣。
以上這篇Python 通過requests實現(xiàn)騰訊新聞抓取爬蟲的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python使用matplotlib繪制三維參數(shù)曲線操作示例
這篇文章主要介紹了Python使用matplotlib繪制三維參數(shù)曲線操作,結(jié)合實例形式分析了Python使用matplotlib的數(shù)值計算與圖形繪制相關操作技巧,需要的朋友可以參考下2019-09-09Python實現(xiàn)五子棋人機對戰(zhàn)?和人人對戰(zhàn)
這篇文章主要介紹了Python實現(xiàn)五子棋人機對戰(zhàn)?和人人對戰(zhàn),通過定義黑白子,落子位置以及獲勝規(guī)則展開詳細內(nèi)容,需要的小伙伴可以參考一下2022-05-05Python MySQLdb 使用utf-8 編碼插入中文數(shù)據(jù)問題
這篇文章主要介紹了Python MySQLdb 使用utf-8 編碼插入中文數(shù)據(jù)問題,需要的朋友可以參考下2018-03-03