Python Beautiful Soup 使用示例詳解

更新時(shí)間：2024年05月27日 10:24:06 作者：寒秋丶

Beautiful Soup 是一個(gè) Python 庫(kù),用于解析 HTML 和 XML 文檔,并提供簡(jiǎn)單而直觀的 API 來(lái)遍歷文檔樹(shù)、搜索元素、提取內(nèi)容等,這篇文章主要介紹了Python Beautiful Soup 使用示例詳解,需要的朋友可以參考下

大家好，在網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)抓取的領(lǐng)域中，Beautiful Soup 是一個(gè)備受推崇的 Python 庫(kù)，它提供了強(qiáng)大而靈活的工具，幫助開(kāi)發(fā)者輕松地解析 HTML 和 XML 文檔，并從中提取所需的數(shù)據(jù)。本文將深入探討 Beautiful Soup 的使用方法和各種功能，希望能給大家?guī)?lái)一些幫助。

一、Beautiful Soup介紹

Beautiful Soup 是一個(gè) Python 庫(kù)，用于解析 HTML 和 XML 文檔，并提供簡(jiǎn)單而直觀的 API 來(lái)遍歷文檔樹(shù)、搜索元素、提取內(nèi)容等。它的名字取自于《愛(ài)麗絲夢(mèng)游仙境》中的一段描寫(xiě)：“來(lái)吧，讓我們到美麗的湯中一起吃面包吧！”正如這句話所暗示的那樣，Beautiful Soup 讓我們可以輕松地“吃掉”網(wǎng)頁(yè)中的內(nèi)容。

應(yīng)用場(chǎng)景：

網(wǎng)絡(luò)爬蟲(chóng)和數(shù)據(jù)抓取：Beautiful Soup 可以輕松地解析網(wǎng)頁(yè) HTML 或 XML 文檔，并從中提取所需的數(shù)據(jù)，用于構(gòu)建網(wǎng)絡(luò)爬蟲(chóng)和進(jìn)行數(shù)據(jù)抓取。
數(shù)據(jù)分析和挖掘：通過(guò)解析網(wǎng)頁(yè)中的結(jié)構(gòu)化數(shù)據(jù)，Beautiful Soup 可以幫助開(kāi)發(fā)者進(jìn)行數(shù)據(jù)分析和挖掘，發(fā)現(xiàn)數(shù)據(jù)之間的關(guān)系和規(guī)律。
網(wǎng)頁(yè)內(nèi)容提取：Beautiful Soup 可以提取網(wǎng)頁(yè)中的各種內(nèi)容，包括文本、鏈接、圖片、表格等，用于構(gòu)建內(nèi)容提取系統(tǒng)和網(wǎng)頁(yè)分析工具。
自動(dòng)化測(cè)試：Beautiful Soup 可以用于自動(dòng)化測(cè)試框架中，幫助測(cè)試人員解析網(wǎng)頁(yè)內(nèi)容、驗(yàn)證數(shù)據(jù)正確性，進(jìn)行網(wǎng)頁(yè)元素抓取等操作。
網(wǎng)頁(yè)數(shù)據(jù)轉(zhuǎn)換：通過(guò)解析網(wǎng)頁(yè)內(nèi)容，Beautiful Soup 可以將網(wǎng)頁(yè)數(shù)據(jù)轉(zhuǎn)換為其他格式，如 JSON、CSV 等，用于數(shù)據(jù)導(dǎo)出和數(shù)據(jù)轉(zhuǎn)換。

優(yōu)點(diǎn)：

簡(jiǎn)單易用：Beautiful Soup 提供了簡(jiǎn)單而直觀的 API，易于學(xué)習(xí)和使用，不需要深入了解 HTML 和 XML 的結(jié)構(gòu)。
功能豐富：Beautiful Soup 支持解析 HTML 和 XML 文檔、文檔樹(shù)遍歷、元素搜索、內(nèi)容提取等功能，滿足各種數(shù)據(jù)抓取和分析需求。
解析速度快：使用第三方解析器（如 lxml）可以提高解析速度，適用于大規(guī)模數(shù)據(jù)抓取和分析。
靈活性強(qiáng)：Beautiful Soup 支持多種解析器和定制化配置，可以根據(jù)具體需求進(jìn)行靈活選擇和調(diào)整。

缺點(diǎn)：

解析效率低：相比于一些專門(mén)的解析庫(kù)（如 scrapy），Beautiful Soup 的解析效率相對(duì)較低，不適合處理大規(guī)模的數(shù)據(jù)抓取任務(wù)。
不支持異步解析：Beautiful Soup 不支持異步解析，無(wú)法充分利用異步編程模型的優(yōu)勢(shì)，可能影響程序的性能和并發(fā)能力。
功能相對(duì)有限：雖然 Beautiful Soup 提供了豐富的功能和 API，但相比于一些專門(mén)的數(shù)據(jù)分析工具（如 pandas），其功能相對(duì)有限，不適合進(jìn)行復(fù)雜的數(shù)據(jù)處理和分析。

總的來(lái)說(shuō)，Beautiful Soup 是一個(gè)功能強(qiáng)大、簡(jiǎn)單易用的 HTML 和 XML 解析庫(kù)，適用于各種數(shù)據(jù)抓取和數(shù)據(jù)分析場(chǎng)景，但在處理大規(guī)模數(shù)據(jù)和需要高性能的場(chǎng)景下可能存在一些限制。

二、安裝 Beautiful Soup

可以使用 pip 命令來(lái)安裝 Beautiful Soup：

pip install beautifulsoup4

三、解析器

解析器是 Beautiful Soup 中用于解析 HTML 或 XML 文檔的核心組件。Beautiful Soup 支持多種解析器，包括 Python 標(biāo)準(zhǔn)庫(kù)的解析器以及第三方解析器，如 lxml 和 html5lib。每種解析器都有其特點(diǎn)和適用場(chǎng)景，可以根據(jù)自己的需求選擇合適的解析器。

1、Python 標(biāo)準(zhǔn)庫(kù)解析器（html.parser）

Python 標(biāo)準(zhǔn)庫(kù)中的 html.parser 是一個(gè)基于 Python 實(shí)現(xiàn)的簡(jiǎn)單解析器，速度適中，解析速度不如 lxml，但通常足夠應(yīng)付一般的解析任務(wù)。它不需要安裝額外的庫(kù)，是 Beautiful Soup 的默認(rèn)解析器。

from bs4 import BeautifulSoup
# 使用 Python 標(biāo)準(zhǔn)庫(kù)解析器
soup = BeautifulSoup(html_doc, 'html.parser')

2、第三方解析器（lxml）

lxml 是一個(gè)非?？焖偾夜δ軓?qiáng)大的 XML 解析器，它基于 libxml2 和 libxslt 庫(kù)，支持 XPath 查詢和 CSS 選擇器，解析速度比 Python 標(biāo)準(zhǔn)庫(kù)的解析器更快，通常推薦在性能要求較高的場(chǎng)景中使用。

from bs4 import BeautifulSoup
# 使用 lxml 解析器
soup = BeautifulSoup(html_doc, 'lxml')

3、第三方解析器（html5lib）

html5lib 是一個(gè)基于 HTML5 規(guī)范的解析器，它會(huì)根據(jù) HTML5 規(guī)范解析文檔，支持最新的 HTML5 元素和屬性，解析結(jié)果更加準(zhǔn)確和穩(wěn)定。但是，html5lib 的解析速度比較慢，通常在需要最高準(zhǔn)確性和穩(wěn)定性的情況下使用。

from bs4 import BeautifulSoup
# 使用 html5lib 解析器
soup = BeautifulSoup(html_doc, 'html5lib')

4、如何選擇解析器

我們?cè)谶x擇解析器時(shí)，需要考慮解析速度、內(nèi)存占用、準(zhǔn)確性和穩(wěn)定性等因素。一般來(lái)說(shuō)，如果對(duì)解析速度要求較高，可以選擇 lxml 解析器；如果對(duì)準(zhǔn)確性和穩(wěn)定性要求較高，可以選擇 html5lib 解析器；如果只是進(jìn)行簡(jiǎn)單的數(shù)據(jù)抓取，可以使用 Python 標(biāo)準(zhǔn)庫(kù)解析器。

四、文檔樹(shù)遍歷

文檔樹(shù)遍歷是 Beautiful Soup 中常用的操作之一，它允許以樹(shù)形結(jié)構(gòu)遍歷 HTML 或 XML 文檔，訪問(wèn)文檔中的各個(gè)節(jié)點(diǎn)、子節(jié)點(diǎn)、父節(jié)點(diǎn)等。

1、訪問(wèn)節(jié)點(diǎn)

文檔樹(shù)中的每個(gè)元素都是一個(gè)節(jié)點(diǎn)，可以通過(guò)直接訪問(wèn)節(jié)點(diǎn)來(lái)獲取元素的標(biāo)簽名、屬性等信息。

# 獲取文檔樹(shù)的根節(jié)點(diǎn)
root = soup.html
# 獲取節(jié)點(diǎn)的標(biāo)簽名
print("Tag name:", root.name)
# 獲取節(jié)點(diǎn)的屬性
print("Attributes:", root.attrs)

2、遍歷子節(jié)點(diǎn)

可以使用 .children 屬性來(lái)遍歷節(jié)點(diǎn)的子節(jié)點(diǎn)，它返回一個(gè)生成器，用于逐個(gè)訪問(wèn)子節(jié)點(diǎn)。

# 遍歷子節(jié)點(diǎn)
for child in root.children:
    print(child)

3、遍歷子孫節(jié)點(diǎn)

可以使用 .descendants 屬性來(lái)遍歷節(jié)點(diǎn)的所有子孫節(jié)點(diǎn)，包括子節(jié)點(diǎn)、子節(jié)點(diǎn)的子節(jié)點(diǎn)等。

# 遍歷子孫節(jié)點(diǎn)
for descendant in root.descendants:
    print(descendant)

4、訪問(wèn)父節(jié)點(diǎn)和祖先節(jié)點(diǎn)

可以使用 .parent 屬性來(lái)訪問(wèn)節(jié)點(diǎn)的父節(jié)點(diǎn)，使用 .parents 屬性來(lái)遍歷節(jié)點(diǎn)的所有祖先節(jié)點(diǎn)。

# 訪問(wèn)父節(jié)點(diǎn)
parent = root.parent
# 遍歷祖先節(jié)點(diǎn)
for ancestor in root.parents:
    print(ancestor)

5、查找兄弟節(jié)點(diǎn)

可以使用 .next_sibling 和 .previous_sibling 屬性來(lái)訪問(wèn)節(jié)點(diǎn)的下一個(gè)兄弟節(jié)點(diǎn)和上一個(gè)兄弟節(jié)點(diǎn)。

# 訪問(wèn)下一個(gè)兄弟節(jié)點(diǎn)
next_sibling = root.next_sibling
# 訪問(wèn)上一個(gè)兄弟節(jié)點(diǎn)
previous_sibling = root.previous_sibling

五、搜索元素

搜索元素是 Beautiful Soup 中非常常用的功能之一，它允許根據(jù)特定的條件來(lái)查找文檔中的元素，并提取所需的內(nèi)容。

1、使用標(biāo)簽名搜索

可以使用標(biāo)簽名來(lái)搜索文檔中的元素，通過(guò)指定標(biāo)簽名，可以獲取所有匹配的元素。

# 使用標(biāo)簽名搜索
soup.find_all('div')  # 查找所有 div 元素

2、使用 CSS 類(lèi)名搜索

可以使用 CSS 類(lèi)名來(lái)搜索文檔中的元素，通過(guò)指定類(lèi)名，可以獲取所有具有指定類(lèi)名的元素。

# 使用 CSS 類(lèi)名搜索
soup.find_all(class_='class-name')  # 查找所有具有指定類(lèi)名的元素

3、使用 id 搜索

可以使用 id 來(lái)搜索文檔中的元素，通過(guò)指定 id，可以獲取具有指定 id 的元素。

# 使用 id 搜索
soup.find_all(id='content')  # 查找具有指定 id 的元素

4、使用正則表達(dá)式搜索

Beautiful Soup 還支持使用正則表達(dá)式來(lái)搜索文檔中的元素，通過(guò)指定正則表達(dá)式，可以匹配符合條件的元素。

import re
# 使用正則表達(dá)式搜索
soup.find_all(re.compile('^b'))  # 查找所有以 'b' 開(kāi)頭的元素

5、搜索嵌套元素

可以通過(guò)在搜索方法中傳入多個(gè)條件來(lái)搜索嵌套元素，這樣可以更精確地定位到目標(biāo)元素。

# 搜索嵌套元素
soup.find_all('div', class_='class-name')  # 查找所有 class 為 class-name 的 div 元素

6、限制搜索結(jié)果數(shù)量

可以通過(guò) limit 參數(shù)來(lái)限制搜索結(jié)果的數(shù)量，這樣可以節(jié)省內(nèi)存和提高搜索速度。

# 限制搜索結(jié)果數(shù)量
soup.find_all('a', limit=10)  # 查找前 10 個(gè) a 元素

六、提取內(nèi)容

提取內(nèi)容是 Beautiful Soup 中的核心功能之一，它允許從 HTML 或 XML 文檔中提取出所需的信息和內(nèi)容。

1、提取文本內(nèi)容

可以使用 .get_text() 方法來(lái)提取元素的文本內(nèi)容，這將返回元素及其子孫節(jié)點(diǎn)中的所有文本內(nèi)容，并將它們合并為一個(gè)字符串。

# 提取文本內(nèi)容
text_content = soup.get_text()
print(text_content)

2、提取鏈接

可以使用 .get('href') 方法來(lái)提取鏈接元素（如 <a> 標(biāo)簽）的鏈接地址。

# 提取鏈接
for link in soup.find_all('a'):
    print(link.get('href'))

3、提取圖片鏈接

可以使用 .get('src') 方法來(lái)提取圖片元素（如 <img> 標(biāo)簽）的鏈接地址。

# 提取圖片鏈接
for img in soup.find_all('img'):
    print(img.get('src'))

4、提取屬性值

可以使用 .get() 方法來(lái)提取元素的任意屬性值，包括標(biāo)簽的 class、id 等屬性。

# 提取屬性值
for element in soup.find_all('div'):
    print(element.get('class'))

5、提取特定標(biāo)簽的內(nèi)容

可以通過(guò)搜索特定的標(biāo)簽來(lái)提取其內(nèi)容，例如提取所有 <p> 標(biāo)簽的文本內(nèi)容。

# 提取特定標(biāo)簽的內(nèi)容
for paragraph in soup.find_all('p'):
    print(paragraph.get_text())

6、提取表格內(nèi)容

可以通過(guò)搜索 <table> 標(biāo)簽并遍歷其中的 <tr> 和 <td> 標(biāo)簽來(lái)提取表格中的內(nèi)容。

# 提取表格內(nèi)容
for table in soup.find_all('table'):
    for row in table.find_all('tr'):
        for cell in row.find_all('td'):
            print(cell.get_text())

七、修改文檔

修改文檔是 Beautiful Soup 中的重要功能之一，它允許對(duì)解析后的文檔樹(shù)進(jìn)行各種修改操作，包括添加、刪除、修改元素和屬性等。

1、添加元素

可以使用 .new_tag() 方法創(chuàng)建一個(gè)新的元素，然后使用 .append() 方法將其添加到文檔中。

# 創(chuàng)建新的元素
new_tag = soup.new_tag('div')
new_tag.string = 'New content'
# 將新元素添加到文檔中
soup.body.append(new_tag)

2、刪除元素

可以使用 .decompose() 方法來(lái)刪除文檔中的元素，將其從文檔樹(shù)中移除。

# 查找需要?jiǎng)h除的元素
tag_to_delete = soup.find(id='content')
# 刪除元素
tag_to_delete.decompose()

3、修改屬性

可以通過(guò)修改元素的屬性來(lái)改變?cè)氐耐庥^和行為，例如修改元素的 class、id 等屬性。

# 查找需要修改屬性的元素
tag_to_modify = soup.find('a')
# 修改屬性
tag_to_modify['href'] = 'http://www.example.com'

4、替換元素

可以使用 .replace_with() 方法來(lái)替換文檔中的元素，將一個(gè)元素替換為另一個(gè)元素。

# 創(chuàng)建新的元素
new_tag = soup.new_tag('span')
new_tag.string = 'Replacement content'
# 查找需要替換的元素
tag_to_replace = soup.find(id='old-content')
# 替換元素
tag_to_replace.replace_with(new_tag)

5、插入元素

可以使用 .insert() 方法在文檔中插入元素，將新元素插入到指定位置。

# 創(chuàng)建新的元素
new_tag = soup.new_tag('div')
new_tag.string = 'Inserted content'
# 查找需要插入元素的位置
target_tag = soup.find(class_='container')
# 插入元素
target_tag.insert(0, new_tag)  # 在指定位置插入元素

八、示例

from bs4 import BeautifulSoup
# HTML 文檔內(nèi)容
html_doc = """
<html>
<head>
    <title>Example HTML Page</title>
</head>
<body>
    <h1 class="heading">Beautiful Soup Example</h1>
    <p>Welcome to <strong>Beautiful Soup</strong>!</p>
    <a  rel="external nofollow" >Example Link</a>
    <a  rel="external nofollow" >Page 1</a>
    <a  rel="external nofollow" >Page 2</a>
    <div id="content">
        <p>This is some content.</p>
    </div>
</body>
</html>
"""
# 創(chuàng)建 Beautiful Soup 對(duì)象并指定解析器
soup = BeautifulSoup(html_doc, 'html.parser')
# 1. 解析器
print("解析器:", soup.builder.NAME)
# 2. 文檔樹(shù)遍歷
print("\n文檔樹(shù)遍歷:")
# 遍歷子節(jié)點(diǎn)
for child in soup.body.children:
    print(child)
# 遍歷子孫節(jié)點(diǎn)
for descendant in soup.body.descendants:
    print(descendant)
# 3. 搜索元素
print("\n搜索元素:")
# 使用標(biāo)簽名搜索
heading = soup.find('h1')
print("標(biāo)簽名:", heading.name)
# 使用 CSS 類(lèi)名搜索
heading = soup.find(class_='heading')
print("CSS 類(lèi)名:", heading.name)
# 使用 id 搜索
content_div = soup.find(id='content')
print("id:", content_div.name)
# 使用正則表達(dá)式搜索
for tag in soup.find_all(re.compile('^a')):
    print("正則表達(dá)式:", tag.name)
# 4. 提取內(nèi)容
print("\n提取內(nèi)容:")
# 提取文本內(nèi)容
text_content = soup.get_text()
print("文本內(nèi)容:", text_content)
# 提取鏈接
for link in soup.find_all('a'):
    print("鏈接:", link.get_text(), link.get('href'))
# 提取圖片鏈接
for img in soup.find_all('img'):
    print("圖片鏈接:", img.get('src'))
# 5. 修改文檔
print("\n修改文檔:")
# 添加元素
new_tag = soup.new_tag('div')
new_tag.string = 'New content'
soup.body.append(new_tag)
print("添加元素后的文檔:", soup)
# 刪除元素
tag_to_delete = soup.find(id='content')
tag_to_delete.decompose()
print("刪除元素后的文檔:", soup)
# 修改屬性
heading = soup.find('h1')
heading['class'] = 'header'
print("修改屬性后的文檔:", soup)
# 替換元素
new_tag = soup.new_tag('span')
new_tag.string = 'Replacement content'
tag_to_replace = soup.find(id='old-content')
tag_to_replace.replace_with(new_tag)
print("替換元素后的文檔:", soup)
# 插入元素
new_tag = soup.new_tag('div')
new_tag.string = 'Inserted content'
target_tag = soup.find(class_='container')
target_tag.insert(0, new_tag)
print("插入元素后的文檔:", soup)

這個(gè)示例代碼涵蓋了 Beautiful Soup 的解析、搜索、提取、修改等功能，包括了解析器的選擇、文檔樹(shù)的遍歷、搜索元素、提取內(nèi)容和修改文檔等方面。大家可以根據(jù)需要修改示例代碼，并嘗試在實(shí)際項(xiàng)目中應(yīng)用 Beautiful Soup 進(jìn)行數(shù)據(jù)抓取和分析。

到此這篇關(guān)于Python Beautiful Soup 使用詳解的文章就介紹到這了,更多相關(guān)Python Beautiful Soup 使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python Beautiful Soup 使用示例詳解

目錄

一、Beautiful Soup介紹

二、安裝 Beautiful Soup

三、解析器

1、Python 標(biāo)準(zhǔn)庫(kù)解析器（html.parser）

2、第三方解析器（lxml）

3、第三方解析器（html5lib）

4、如何選擇解析器

四、文檔樹(shù)遍歷

1、訪問(wèn)節(jié)點(diǎn)

2、遍歷子節(jié)點(diǎn)

3、遍歷子孫節(jié)點(diǎn)

4、訪問(wèn)父節(jié)點(diǎn)和祖先節(jié)點(diǎn)

5、查找兄弟節(jié)點(diǎn)

五、搜索元素

1、使用標(biāo)簽名搜索

2、使用 CSS 類(lèi)名搜索

3、使用 id 搜索

4、使用正則表達(dá)式搜索

5、搜索嵌套元素

6、限制搜索結(jié)果數(shù)量

六、提取內(nèi)容

1、提取文本內(nèi)容

2、提取鏈接

3、提取圖片鏈接

4、提取屬性值

5、提取特定標(biāo)簽的內(nèi)容

6、提取表格內(nèi)容

七、修改文檔

1、添加元素

2、刪除元素

3、修改屬性

4、替換元素

5、插入元素

八、示例

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具