python數(shù)據(jù)抓取3種方法總結(jié)
三種數(shù)據(jù)抓取的方法
- 正則表達(dá)式(re庫(kù))
- BeautifulSoup(bs4)
- lxml
*利用之前構(gòu)建的下載網(wǎng)頁(yè)函數(shù),獲取目標(biāo)網(wǎng)頁(yè)的html,我們以https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/為例,獲取html。
from get_html import download url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/' page_content = download(url)
*假設(shè)我們需要爬取該網(wǎng)頁(yè)中的國(guó)家名稱和概況,我們依次使用這三種數(shù)據(jù)抓取的方法實(shí)現(xiàn)數(shù)據(jù)抓取。
1.正則表達(dá)式
from get_html import download import re url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/' page_content = download(url) country = re.findall('class="h2dabiaoti">(.*?)</h2>', page_content) #注意返回的是list survey_data = re.findall('<tr><td bgcolor="#FFFFFF" id="wzneirong">(.*?)</td></tr>', page_content) survey_info_list = re.findall('<p> (.*?)</p>', survey_data[0]) survey_info = ''.join(survey_info_list) print(country[0],survey_info)
2.BeautifulSoup(bs4)
from get_html import download from bs4 import BeautifulSoup url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/' html = download(url) #創(chuàng)建 beautifulsoup 對(duì)象 soup = BeautifulSoup(html,"html.parser") #搜索 country = soup.find(attrs={'class':'h2dabiaoti'}).text survey_info = soup.find(attrs={'id':'wzneirong'}).text print(country,survey_info)
3.lxml
from get_html import download from lxml import etree #解析樹(shù) url = 'https://guojiadiqu.bmcx.com/AFG__guojiayudiqu/' page_content = download(url) selector = etree.HTML(page_content)#可進(jìn)行xpath解析 country_select = selector.xpath('//*[@id="main_content"]/h2') #返回列表 for country in country_select: print(country.text) survey_select = selector.xpath('//*[@id="wzneirong"]/p') for survey_content in survey_select: print(survey_content.text,end='')
運(yùn)行結(jié)果:
最后,引用《用python寫網(wǎng)絡(luò)爬蟲》中對(duì)三種方法的性能對(duì)比,如下圖:
僅供參考。
總結(jié)
到此這篇關(guān)于python數(shù)據(jù)抓取3種方法的文章就介紹到這了,更多相關(guān)python數(shù)據(jù)抓取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
- python采用requests庫(kù)模擬登錄和抓取數(shù)據(jù)的簡(jiǎn)單示例
- Python爬蟲抓取手機(jī)APP的傳輸數(shù)據(jù)
- 通過(guò)抓取淘寶評(píng)論為例講解Python爬取ajax動(dòng)態(tài)生成的數(shù)據(jù)(經(jīng)典)
- python抓取某汽車網(wǎng)數(shù)據(jù)解析html存入excel示例
- Python實(shí)現(xiàn)并行抓取整站40萬(wàn)條房?jī)r(jià)數(shù)據(jù)(可更換抓取城市)
- Python基于多線程實(shí)現(xiàn)抓取數(shù)據(jù)存入數(shù)據(jù)庫(kù)的方法
- 對(duì)python抓取需要登錄網(wǎng)站數(shù)據(jù)的方法詳解
- 在Python3中使用asyncio庫(kù)進(jìn)行快速數(shù)據(jù)抓取的教程
- Python抓取京東圖書評(píng)論數(shù)據(jù)
- 使用Python抓取豆瓣影評(píng)數(shù)據(jù)的方法
相關(guān)文章
python操作攝像頭截圖實(shí)現(xiàn)遠(yuǎn)程監(jiān)控的例子
這篇文章主要介紹了python操作攝像頭截圖實(shí)現(xiàn)遠(yuǎn)程監(jiān)控的例子,例子中包含了控制攝像頭、寫入Windows注冊(cè)表方法等,需要的朋友可以參考下2014-03-03python中print的不換行即時(shí)輸出的快速解決方法
下面小編就為大家?guī)?lái)一篇python中print的不換行即時(shí)輸出的快速解決方法。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考2016-07-07Python logging模塊進(jìn)行封裝實(shí)現(xiàn)原理解析
這篇文章主要介紹了Python logging模塊進(jìn)行封裝實(shí)現(xiàn)原理解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-08-08Pandas實(shí)現(xiàn)一列數(shù)據(jù)分隔為兩列
這篇文章主要介紹了Pandas實(shí)現(xiàn)一列數(shù)據(jù)分隔為兩列,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-05-05Python更新數(shù)據(jù)庫(kù)腳本兩種方法及對(duì)比介紹
這篇文章給大家介紹了Python更新數(shù)據(jù)庫(kù)腳本兩種方法及數(shù)據(jù)庫(kù)查詢?nèi)N方式,然后在文章下面給大家介紹了兩種方式對(duì)比介紹,非常不錯(cuò),感興趣的朋友參考下吧2017-07-07python實(shí)現(xiàn)計(jì)算資源圖標(biāo)crc值的方法
這篇文章主要介紹了python實(shí)現(xiàn)計(jì)算資源圖標(biāo)crc值的方法,通過(guò)解析資源文件找到icon的數(shù)據(jù),從而實(shí)現(xiàn)該功能,需要的朋友可以參考下2014-10-10