腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

軟件下載

android MAC 驅(qū)動(dòng)下載字體下載 DLL

源碼下載

PHP ASP.NET ASP JSP

軟件編程

C# JAVA C 語(yǔ)言 Delphi Android

網(wǎng)絡(luò)編程

PHP ASP.NET ASP JavaScript

在線工具

CSS格式化 JS格式化 Html轉(zhuǎn)化為Js

數(shù)據(jù)庫(kù)

MYSQL MSSQL oracle DB2 MARIADB

CMS

PHPCMS DEDECMS 帝國(guó)CMS WordPress

常用工具

PHP開(kāi)發(fā)工具 python Photoshop 必備軟件

python爬蟲(chóng)教程之bs4解析和xpath解析詳解

更新時(shí)間：2022年02月28日 10:32:56 作者：A.way30

這篇文章主要給大家介紹了關(guān)于python爬蟲(chóng)教程之bs4解析和xpath解析的相關(guān)資料,bs4、xpath比較容易上手但是功能有限,正則比較晦澀難懂但是功能超級(jí)強(qiáng)大,需要的朋友可以參考下

bs4解析

原理:

1.實(shí)例化一個(gè)BeautifulSoup對(duì)象，并且將頁(yè)面源碼數(shù)據(jù)加載到該對(duì)象中

2.通過(guò)調(diào)用BeautifulSoup對(duì)象中相關(guān)的屬性或者方法進(jìn)行標(biāo)簽定位和數(shù)據(jù)提取

如何實(shí)例化BeautifulSoup對(duì)象:

from bs4 import BeautifulSoup

BeautifulSoup(參數(shù)一,參數(shù)二)

參數(shù)一為文件描述符，參數(shù)二為解析器，一般為’lxml’

一對(duì)象的實(shí)例化:

1.將本地的html文檔中的數(shù)據(jù)加載到該對(duì)象中

fp = open( './test.html','r',encoding='utf-8')
soup=BeautifulSoup(fp,'lxml')

2.將互聯(lián)網(wǎng)上獲取的頁(yè)面源碼加載到該對(duì)象中

page_text =response.text
soup=BeatifulSoup(page_text,'lxml')

soup指初始化的BeautifulSoup對(duì)象

用于數(shù)據(jù)解析的方法和屬性:

1.soup.tagName:返回的是文檔中第一次出現(xiàn)的tagName對(duì)應(yīng)的標(biāo)簽

2.soup.find():

(1).find( ‘tagName’):等同于soup.tagName

(2).屬性定位:soup.find(‘div’,class_/id/或者其他屬性=‘song’)

定位到< div class=“song”>/< div id=“song”>的標(biāo)簽下

class如果沒(méi)有加_則代表關(guān)鍵字

3.soup.find_all(‘tagName’):返回符合要求的所有標(biāo)簽(列表)

soup對(duì)象:

<div class="tang">
    <ul>
        <li><a  rel="external nofollow"  title= "ging">清明時(shí)節(jié)雨紛紛,路上行人欲斷魂,借問(wèn)酒家何處有,牧童遙指杏花村</a></1i>
        <li><a  rel="external nofollow"  title="qin">秦時(shí)明月漢時(shí)關(guān)，萬(wàn)里長(zhǎng)征人未還,但使龍城飛將在，不教胡馬度陰山</a></1i>
        <li><a href=" http://ww.126.com" rel="external nofollow" alt="qi ">歧王宅里尋常見(jiàn)，崔九堂前幾度聞，正是江南好風(fēng)景,落花時(shí)節(jié)又逢君</a></li>
        <li><a href="http: //www.sina.com" rel="external nofollow"  class="du">杜甫</a></li>
        <li><a  rel="external nofollow"  class="du">杜牧</a></li>
        <li><b>杜小月</b></li>
        <li><i>度蜜月</i></li>
        <li><a  rel="external nofollow" feng">鳳凰臺(tái)上鳳凰游，鳳去臺(tái)空江自流，吳宮花草埋幽徑，晉代衣冠成古丘</a></li>
    </ul>
</div>

4.select:

- select(‘某種選擇器(id,class，標(biāo)簽…選擇器)’),返回的是一個(gè)列表。

標(biāo)簽什么都不加，class前面加. id前面加#

層級(jí)選擇器:

>表示的是一個(gè)層級(jí)；空格表示的多個(gè)層級(jí)

     soup.select( '.tang > ul > li > a') 
     soup.select( '.tang >ul a')
     結(jié)果為：[<a  title= "ging">清明時(shí)節(jié)雨紛紛,路上行人欲斷魂,借問(wèn)酒家何處有,牧童遙指杏花村</a>,
     <a  title="qin">秦時(shí)明月漢時(shí)關(guān)，萬(wàn)里長(zhǎng)征人未還,但使龍城飛將在，不教胡馬度陰山</a>,
     <a href=" http://ww.126.com"alt="qi ">歧王宅里尋常見(jiàn)，崔九堂前幾度聞，正是江南好風(fēng)景,落花時(shí)節(jié)又逢君</a>,
     <a href="http: //www.sina.com" class="du">杜甫</a>,
     <a  class="du">杜牧</a>,
    <a >鳳凰臺(tái)上鳳凰游，鳳去臺(tái)空江自流，吳宮花草埋幽徑，晉代衣冠成古丘</a>]

5.獲取標(biāo)簽之間的文本數(shù)據(jù):

-soup.a.text/string/get_text()

-text/get_text():可以獲取某一個(gè)標(biāo)簽中所有的文本內(nèi)容

-string:只可以獲取該標(biāo)簽下面直系的文本內(nèi)容

6.獲取標(biāo)簽中屬性值:

soup.a[‘屬性值’]

print(soup.select( '.tang > ul > li > a') [0]['href'])
結(jié)果：
www.baidu.com

xpath解析

最常用且最便捷高效的一種解析方式。通用性。

xpath解析原理:

1.實(shí)例化一個(gè)etree的對(duì)象，且需要將被解析的頁(yè)面源碼數(shù)據(jù)加載到該對(duì)象中。

2調(diào)用etree對(duì)象中的xpath方法結(jié)合著xpath表達(dá)式實(shí)現(xiàn)標(biāo)簽的定位和內(nèi)容的捕獲。

實(shí)例化一個(gè)etree對(duì)象:

from lxml import etree

-1.將本地的html文檔中的源碼數(shù)據(jù)加載到etree對(duì)象中:

etree.parse(filePath)

-2.可以將從互聯(lián)網(wǎng)上獲取的源碼數(shù)據(jù)加載到該對(duì)象中

etree.HTML( 'page_text')

xpath( ‘xpath表達(dá)式’)

xpath表達(dá)式:(返回一個(gè)列表)

-/:表示的是從根節(jié)點(diǎn)開(kāi)始定位。表示的是一個(gè)層級(jí)。

-//:表示的是多個(gè)層級(jí)?？梢员硎緩娜我馕恢瞄_(kāi)始定位。

-屬性定位://div[@class=‘song’] tag[@attrname=‘attrvalue’]

-索引定位：//div[@class=‘song’]/p[3]

索引從1開(kāi)始的

取文本:

/text(）獲取的是標(biāo)簽中直系的文本內(nèi)容
//text(標(biāo)簽中非直系的文本內(nèi)容(所有的文本內(nèi)容)

取屬性:

/@attrName
eg:/img/@src
./表示定位到當(dāng)前位置（局部解析）

多個(gè)xpath之間用|分割:

tree.xpath(’//div[@class=‘song’]/p[3] | //div[@class=‘song’]’)

總結(jié)

到此這篇關(guān)于python爬蟲(chóng)教程之bs4解析和xpath解析的文章就介紹到這了,更多相關(guān)python bs4和xpath解析內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片