Python數(shù)據(jù)解析bs4庫(kù)使用BeautifulSoup方法示例
1. 安裝bs4庫(kù)
pip install bs4
2. 使用beautiful soup
用法如下:
find_all:find_all找到所有符合條件的節(jié)點(diǎn)
find:find指的是找第一個(gè)符合條件的節(jié)點(diǎn)
calss_:因?yàn)楹蚿ython中的關(guān)鍵字class重合,因此在后面加個(gè)_加以區(qū)分
attrs={"":""}:attrs的對(duì)象存儲(chǔ)條件,此時(shí)的class無(wú)需加_
import requests from bs4 import BeautifulSoup import re url = "http://www.crazyant.net/" r = requests.get(url) if r.status_code != 200: raise Exception() html_doc = r.text # 創(chuàng)建beautiful soup,將爬取的內(nèi)容通過(guò)BeautifulSoup解析,這里告訴BeautifulSoup這個(gè)是爬取到的html頁(yè)面,默認(rèn)也是這個(gè),但是會(huì)發(fā)出警告 soup = BeautifulSoup(html_doc,"html.parser") # find_all找到所有符合條件的節(jié)點(diǎn),find指的是找第一個(gè) h2_nodes = soup.find_all("h2",class_="entry-title")
3. 使用bs4爬取優(yōu)美圖庫(kù)的圖片
from bs4 import BeautifulSoup import requests import time url = "https://www.umei.cc/weimeitupian/oumeitupian/nvsheng.htm" resp = requests.get(url) resp.encoding = 'utf-8' page = resp.text soup = BeautifulSoup(page,'html.parser') oAs = soup.find("div",class_='pic-list').find_all('a') aLinks = [] for a in oAs: aLinks.append("https://www.umei.cc"+str(a.get("href"))) print(aLinks) for link in aLinks: content = requests.get(link) content.encoding = 'utf-8' img = BeautifulSoup(content.text,'html.parser').find("div",class_='big-pic').find('img') src = img.get("src") print(img) print(src) img_name = src.split('/')[-1] img_resp = requests.get(src) with open('img/'+img_name,mode = "wb") as f: f.write(img_resp.content) time.sleep(1) f.close() resp.close() img_resp.close()
結(jié)果:
以上就是Python數(shù)據(jù)解析bs4庫(kù)使用BeautifulSoup方法示例的詳細(xì)內(nèi)容,更多關(guān)于Python bs4 BeautifulSoup的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
如何使用?profile?進(jìn)行python代碼性能分析
對(duì)代碼優(yōu)化的前提是需要了解性能瓶頸在什么地方,程序運(yùn)行的主要時(shí)間是消耗在哪里,對(duì)于比較復(fù)雜的代碼可以借助一些工具來(lái)定位,python?內(nèi)置了豐富的性能分析工具,本文介紹如何使用profile進(jìn)行python代碼性能分析,感興趣的朋友一起看看吧2024-12-12Python如何從txt文件中提取特定數(shù)據(jù)
這篇文章主要給大家介紹了關(guān)于Python如何從txt文件中提取特定數(shù)據(jù)的相關(guān)資料,有時(shí)我們會(huì)遇到需要按行讀取文本的情況,我們要讀取txt文件獲得數(shù)據(jù),需要的朋友可以參考下2023-08-08使用Django搭建web服務(wù)器的例子(最最正確的方式)
今天小編就為大家分享一篇使用Django搭建web服務(wù)器的例子(最最正確的方式),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-08-08python Jieba分詞處理詳解【模式,詞庫(kù)的添加、刪除,自定義詞庫(kù),失敗處理等】
這篇文章主要介紹了python Jieba分詞處理,結(jié)合實(shí)例形式詳細(xì)分析了python 使用jieba分詞的模式,詞庫(kù)的添加、刪除,自定義詞庫(kù),失敗處理等相關(guān)操作技巧,需要的朋友可以參考下2023-07-07Python裝飾器入門(mén)學(xué)習(xí)教程(九步學(xué)習(xí))
裝飾器(decorator)是一種高級(jí)Python語(yǔ)法。裝飾器可以對(duì)一個(gè)函數(shù)、方法或者類(lèi)進(jìn)行加工。本文給大家介紹Python裝飾器入門(mén)學(xué)習(xí)教程(九步學(xué)習(xí)),對(duì)python裝飾器相關(guān)知識(shí)感興趣的朋友一起學(xué)習(xí)吧2016-01-01python matlibplot繪制多條曲線(xiàn)圖
這篇文章主要為大家詳細(xì)介紹了python matlibplot繪制多條曲線(xiàn)圖,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-07-07python包相關(guān)知識(shí)點(diǎn)之包的導(dǎo)入、相對(duì)路徑以及絕對(duì)路徑
Python的好處在于你不需要懂很多概念,你就有機(jī)會(huì)投入工作,同樣問(wèn)題也有機(jī)會(huì)隨時(shí)發(fā)生,下面這篇文章主要給大家介紹了關(guān)于python包相關(guān)知識(shí)點(diǎn)之包的導(dǎo)入、相對(duì)路徑以及絕對(duì)路徑的相關(guān)資料,需要的朋友可以參考下2022-04-04