python3爬蟲獲取html內(nèi)容及各屬性值的方法

更新時(shí)間：2018年12月17日 14:36:31 作者：android-李志強(qiáng)

今天小編就為大家分享一篇python3爬蟲獲取html內(nèi)容及各屬性值的方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧

今天用到BeautifulSoup解析爬下來的網(wǎng)頁(yè)數(shù)據(jù)

首先導(dǎo)入包from bs4 import BeautifulSoup

然后可以利用urllib請(qǐng)求數(shù)據(jù)

記得要導(dǎo)包

import urllib.request

然后調(diào)用urlopen，讀取數(shù)據(jù)

f=urllib.request.urlopen(‘http://jingyan.baidu.com/article/455a9950bc94b8a166277898.html‘) 
response=f.read()

這里我們就不請(qǐng)求數(shù)據(jù)了，直接用本地的html代碼，如下

注意：”'xxx”'是多行注釋

#python3
from bs4 import BeautifulSoup
html='''<html>
<head>
 <title class='ceshi'>super 哈哈 star</title>
</head>
<body>
 天下第一帥
 <p class='sister'>

  是不是
 </p>
</body>
</html>'''
#用BeautifulSoup解析數(shù)據(jù) python3 必須傳入?yún)?shù)二'html.parser' 得到一個(gè)對(duì)象，接下來獲取對(duì)象的相關(guān)屬性
html=BeautifulSoup(html,'html.parser')
# 讀取title內(nèi)容
print(html.title)
# 讀取title屬性
attrs=html.title.attrs
print(attrs)
# 獲取屬性attrs['class'] ---->['ceshi'] 這是一個(gè)list 通過下標(biāo)可以獲取值
print(attrs['class'][0])
# 讀取body
print(html.body)
讀取數(shù)據(jù)還可以通過BeautifulSoup的select方法
html.select()
#按標(biāo)簽名查找 
soup.select('title')
soup.select('body')
# 按類名查找
soup.select('.sister')
# 按id名查找
# p標(biāo)簽中id為link的標(biāo)簽
soup.select('p #link')
#取標(biāo)簽里面的值
soup.p.string
#取標(biāo)簽里屬性值 通過href獲取
html['href']

以上這篇python3爬蟲獲取html內(nèi)容及各屬性值的方法就是小編分享給大家的全部?jī)?nèi)容了，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python中的閉包
這篇文章主要介紹了Python中的閉包，閉包在函數(shù)中提出的概念，簡(jiǎn)單來說就是一個(gè)函數(shù)定義中引用了函數(shù)外定義的變量，并且該函數(shù)可以在其定義環(huán)境外被執(zhí)行。這樣的一個(gè)函數(shù)我們稱之為閉包，下面我們一起來看看文章內(nèi)容的具體介紹
2021-11-11
python實(shí)現(xiàn)LBP方法提取圖像紋理特征實(shí)現(xiàn)分類的步驟
這篇文章主要介紹了python實(shí)現(xiàn)LBP方法提取圖像紋理特征實(shí)現(xiàn)分類的步驟，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
pyinstaller參數(shù)介紹以及總結(jié)詳解
這篇文章主要介紹了pyinstaller參數(shù)介紹以及總結(jié)詳解，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-07-07
python django使用haystack:全文檢索的框架(實(shí)例講解)
下面小編就為大家?guī)硪黄猵ython django使用haystack:全文檢索的框架(實(shí)例講解)。小編覺得挺不錯(cuò)的，現(xiàn)在就分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-09-09
django主動(dòng)拋出403異常的方法詳解
這篇文章主要給大家介紹了關(guān)于django主動(dòng)拋出403異常的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2019-01-01
python獲取從命令行輸入數(shù)字的方法
這篇文章主要介紹了python獲取從命令行輸入數(shù)字的方法,涉及Python操作命令行輸入的相關(guān)技巧,需要的朋友可以參考下
2015-04-04
基于Python實(shí)現(xiàn)剪切板實(shí)時(shí)監(jiān)控方法解析
這篇文章主要介紹了基于Python實(shí)現(xiàn)剪切板實(shí)時(shí)監(jiān)控方法解析,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-09-09
PyCharm新建.py文件時(shí)默認(rèn)添加信息的實(shí)現(xiàn)
這篇文章主要介紹了PyCharm新建.py文件時(shí)默認(rèn)添加信息的實(shí)現(xiàn)方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2022-07-07
Django的CVB實(shí)例詳解
在本篇文章小編給大家整理的是關(guān)于Django的CVB實(shí)例詳解內(nèi)容，有需要的朋友們可以跟著學(xué)習(xí)下。
2020-02-02
Python中pygame游戲模塊的用法詳解
Pygame是一組用來開發(fā)游戲軟件的 Python 程序模塊,Pygame 在 SDL（Simple DirectMedia Layer）的基礎(chǔ)上開發(fā)而成,它提供了諸多操作模塊,本文給大家介紹了Python中pygame游戲模塊的用法,需要的朋友可以參考下
2024-01-01