python3爬蟲(chóng)獲取html內(nèi)容及各屬性值的方法
今天用到BeautifulSoup解析爬下來(lái)的網(wǎng)頁(yè)數(shù)據(jù)
首先導(dǎo)入包from bs4 import BeautifulSoup
然后可以利用urllib請(qǐng)求數(shù)據(jù)
記得要導(dǎo)包
import urllib.request
然后調(diào)用urlopen,讀取數(shù)據(jù)
f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) response=f.read()
這里我們就不請(qǐng)求數(shù)據(jù)了,直接用本地的html代碼,如下
注意:”'xxx”'是多行注釋
#python3 from bs4 import BeautifulSoup html='''<html> <head> <title class='ceshi'>super 哈哈 star</title> </head> <body> 天下第一帥 <p class='sister'> 是不是 </p> </body> </html>''' #用BeautifulSoup解析數(shù)據(jù) python3 必須傳入?yún)?shù)二'html.parser' 得到一個(gè)對(duì)象,接下來(lái)獲取對(duì)象的相關(guān)屬性 html=BeautifulSoup(html,'html.parser') # 讀取title內(nèi)容 print(html.title) # 讀取title屬性 attrs=html.title.attrs print(attrs) # 獲取屬性attrs['class'] ---->['ceshi'] 這是一個(gè)list 通過(guò)下標(biāo)可以獲取值 print(attrs['class'][0]) # 讀取body print(html.body) 讀取數(shù)據(jù)還可以通過(guò)BeautifulSoup的select方法 html.select() #按標(biāo)簽名查找 soup.select('title') soup.select('body') # 按類名查找 soup.select('.sister') # 按id名查找 # p標(biāo)簽中id為link的標(biāo)簽 soup.select('p #link') #取標(biāo)簽里面的值 soup.p.string #取標(biāo)簽里屬性值 通過(guò)href獲取 html['href']
以上這篇python3爬蟲(chóng)獲取html內(nèi)容及各屬性值的方法就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- python通過(guò)ElementTree操作XML獲取結(jié)點(diǎn)讀取屬性美化XML
- 利用python實(shí)現(xiàn)xml與數(shù)據(jù)庫(kù)讀取轉(zhuǎn)換的方法
- python selenium 獲取標(biāo)簽的屬性值、內(nèi)容、狀態(tài)方法
- Python+selenium 獲取一組元素屬性值的實(shí)例
- Python實(shí)現(xiàn)的讀取/更改/寫入xml文件操作示例
- Python 讀取xml數(shù)據(jù),cv2裁剪圖片實(shí)例
- Python讀取VOC中的xml目標(biāo)框?qū)嵗?/a>
- python讀取配置文件方式(ini、yaml、xml)
- python讀取xml文件方法解析
- Python練習(xí)之讀取XML節(jié)點(diǎn)和屬性值的方法
相關(guān)文章
python實(shí)現(xiàn)LBP方法提取圖像紋理特征實(shí)現(xiàn)分類的步驟
這篇文章主要介紹了python實(shí)現(xiàn)LBP方法提取圖像紋理特征實(shí)現(xiàn)分類的步驟,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07pyinstaller參數(shù)介紹以及總結(jié)詳解
這篇文章主要介紹了pyinstaller參數(shù)介紹以及總結(jié)詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07python django使用haystack:全文檢索的框架(實(shí)例講解)
下面小編就為大家?guī)?lái)一篇python django使用haystack:全文檢索的框架(實(shí)例講解)。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2017-09-09基于Python實(shí)現(xiàn)剪切板實(shí)時(shí)監(jiān)控方法解析
這篇文章主要介紹了基于Python實(shí)現(xiàn)剪切板實(shí)時(shí)監(jiān)控方法解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-09-09PyCharm新建.py文件時(shí)默認(rèn)添加信息的實(shí)現(xiàn)
這篇文章主要介紹了PyCharm新建.py文件時(shí)默認(rèn)添加信息的實(shí)現(xiàn)方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07