Python?HTML解析：BeautifulSoup，Lxml，XPath使用教程

更新時間：2025年06月21日 16:02:10 作者：碼農老何

文章介紹Python中HTML解析工具BeautifulSoup,lxml,XPath的使用,對比其優(yōu)缺點,通過網頁提取小工具示例展示數據抓取方法,并探討結合智能技術提取摘要、關鍵詞的可能及后續(xù)學習方向

想要精找到數據卻不知從何下手？這篇文章將帶你了解 Python 中進行 HTML 解析的常用工具，還會通過一個【網頁提取小工具】的例子，看看如何將這些技術應用起來，并簡單探討一下結合智能技術自動提取正文、生成摘要和關鍵詞的可能性。

告別手動復制粘貼：用CSS選擇器與XPath高效提取網頁數據

不管怎么說，先睹為快

工具效果圖：

在這里插入圖片描述

工具簡單流程圖

在這里插入圖片描述

為什么需要專門的HTML解析庫？只用正則表達式不夠嗎？

想象一下，你需要從好幾個競爭對手的網站上快速抓取產品介紹，或者想從新聞網站提取最新的科技動態(tài)標題和鏈接。

我們拿到的網頁源碼，通常是類似下面這樣的 HTML 結構：

<html>
<head><title>最新新聞</title></head>
<body>
  <div class="news-list">
    <article><h2><a href="/news/1" rel="external nofollow" >標題一</a></h2><p>摘要...</p></article>
    <article><h2><a href="/news/2" rel="external nofollow" >標題二</a></h2><p>摘要...</p></article>
    </div>
</body>
</html>

如果直接用正則表達式來提取這些信息，你可能會發(fā)現一些麻煩：

容易失效：網站稍微調整一下頁面結構，寫好的正則表達式可能就用不了了，維護起來比較頭疼。
寫起來復雜：對于層層嵌套或者結構比較亂的 HTML，編寫和調試正則表達式本身就挺花時間的。
功能有限：正則表達式不太擅長處理標簽之間的層級關系，比如找到某個元素的父元素或兄弟元素。

小結： 網頁越來越復雜，只靠正則表達式來提取數據，往往效率不高，而且不夠穩(wěn)定。這時候，我們就需要更專業(yè)的工具了。

HTML解析庫就是為此而生的。它們能理解 HTML 的文檔結構（也就是 DOM，文檔對象模型），把源碼解析成一個樹狀的對象。這樣，我們就能用更可靠、更方便的方式來找到并拿出我們想要的東西。

在這里插入圖片描述

在 Python 里，比較常用的 HTML 解析庫有這么幾個：

BeautifulSoup (BS4)：它的接口設計得比較友好，學起來相對容易，適合新手入門和快速做一些小工具。
lxml：它是基于 C 語言庫構建的，解析速度通常更快，處理不規(guī)范 HTML 的能力也比較強（容錯性好），還支持 XPath 這種強大的查詢語言。適合處理大型或者結構復雜的文檔，或者對性能要求比較高的場景。

其他選擇：

html.parser: Python 自帶的，不用額外安裝，但速度和容錯性一般。
html5lib: 據說最接近瀏覽器的解析方式，容錯性最好，但相應地，速度會慢一些。

怎么選呢？

入門或者大部分情況：推薦試試 BeautifulSoup 結合 lxml 解析器。這樣既能利用 BeautifulSoup 的易用性，也能獲得不錯的性能。
追求更好的性能或需要處理復雜查詢：可以直接上手 lxml。

接下來，咱們先從 BeautifulSoup 開始，看看怎么用它來解析 HTML。

BeautifulSoup：上手簡單的HTML解析

BeautifulSoup (我們常叫它 BS4) 的設計初衷就是讓 HTML 解析這事兒變得簡單明了。

1. 安裝和準備

# 安裝 BS4 和推薦搭配使用的 lxml 解析器
pip install beautifulsoup4 lxml

在 Python 代碼里這么用：

from bs4 import BeautifulSoup
import requests # 用于獲取網頁內容

# 示例 HTML (實際通常來自 requests 獲取的 response.text)
html_doc = """
<html><head><title>一個簡單的例子</title></head>
<body>
<p class="title"><b>加粗標題</b></p>
<p class="story">這是一個段落...
<a  rel="external nofollow"  class="sister" id="link1">鏈接1</a>,
<a  rel="external nofollow"  class="sister" id="link2">鏈接2</a> and
<a  rel="external nofollow"  class="sister" id="link3">鏈接3</a>;
開始了新的故事.</p>
<p class="data">...</p>
</body></html>
"""

# 初始化 BeautifulSoup 對象，告訴它我們想用 'lxml' 這個解析器
soup = BeautifulSoup(html_doc, 'lxml')

2. 按標簽名訪問

如果 HTML 結構比較簡單，可以直接用點 (.) 加上標簽名來訪問第一個匹配到的標簽：

print(soup.title)       # 輸出: <title>一個簡單的例子</title>
print(soup.title.name)  # 輸出: 'title' (標簽名)
print(soup.title.string) # 輸出: '一個簡單的例子' (標簽內文本)
print(soup.p)           # 輸出: <p class="title"><b>加粗標題</b></p> (找到的第一個 p 標簽)

3. 用 find() 和 find_all() 精確查找 (常用方法)

這是最常用的查找方式了，可以根據標簽名、CSS 類名、ID、甚至其他屬性來找。

find('tag', class_='css_class', id='id_val', attrs={'attr': 'value'}): 查找第一個符合條件的標簽，找到就返回那個標簽對象，找不到就返回 None。
find_all(...): 查找所有符合條件的標簽，返回一個列表（這個列表可能是空的）。還可以用 limit=N 來限制最多找多少個。

舉個例子： 假設我們要提取所有 CSS 類是 product-title 的 h2 標簽里的文字。

# 查找所有 class='product-title' 的 h2 標簽
product_titles = soup.find_all('h2', class_='product-title')
# 遍歷結果列表
for title in product_titles:
    # 使用 .get_text(strip=True) 獲取純文本，更穩(wěn)妥
    print(title.get_text(strip=True))

注意一個小細節(jié)：class vs class_
因為 class 在 Python 里是個關鍵字（用來定義類），所以在 find 或 find_all 里按 CSS 類名查找時，參數名叫 class_ (后面多了個下劃線)。當然，你也可以用 attrs 字典來指定：soup.find_all('a', attrs={'class': 'sister'})。

4. 用 CSS 選擇器 select() (簡潔又強大)

如果你熟悉 CSS，那 select() 方法會讓你感覺很親切。它的語法和 CSS 選擇器幾乎一樣。

標簽名: select('p')
類名: select('.product-title')
ID: select('#main-content')
子元素: select('div.article > h2') (找 div 下直接的 h2 子元素)
后代元素: select('div#news-list article') (找 div 下所有層級的 article 元素)
屬性: select('a[target="_blank"]') (找 target 屬性是 _blank 的 a 標簽)

舉個例子： 提取新聞列表（假設是 div.news-list）里所有文章標題（在 h2 里的鏈接 a）。

# 使用 CSS 選擇器定位
news_links = soup.select('div.news-list h2 a')
for link in news_links:
    # link.string 獲取文本, link['href'] 獲取 href 屬性
    print(f"標題: {link.string.strip()}, 鏈接: {link['href']}")

在這里插入圖片描述

5. 提取文本和屬性

找到目標標簽后，我們通常關心的是里面的文字內容，或者是它的某個屬性值（比如鏈接的 href）。

獲取文本:
- .string: 這個屬性比較"挑剔"，只有當標簽里沒有其他嵌套標簽，純粹是文本時才好用，否則可能返回 None。
- .get_text(): (推薦使用) 這個方法能獲取標簽內所有的文本內容，包括所有子標簽里的。
  - strip=True: 參數設為 True 可以去掉文本開頭和結尾的空白字符（像空格、換行符）。
  - separator='sep': 如果標簽內有多段文本（比如被 <br> 分隔），可以用這個參數指定一個分隔符把它們連接起來。
獲取屬性:
- tag['attr_name']: 像訪問字典一樣用方括號加屬性名。但如果這個屬性不存在，代碼會報錯。
- tag.get('attr_name'): (推薦使用) 這個方法更安全，如果屬性不存在，它會返回 None，而不是報錯。

舉個例子： 獲取頁面上所有鏈接的文字和 URL。

all_links = soup.find_all('a')
for link in all_links:
    link_text = link.get_text(strip=True)
    link_url = link.get('href') # 用 get() 好處是，萬一這個 a 標簽沒有 href 屬性也不會出錯
    if link_url: # 最好判斷一下確實拿到了 URL 再打印
        print(f"鏈接文字: {link_text}, URL: {link_url}")

6. 在節(jié)點間導航 (遍歷DOM樹)

有時候，我們找到了一個節(jié)點，還需要找它的父節(jié)點、子節(jié)點或者旁邊的兄弟節(jié)點。

.contents / .children: 獲取直接子節(jié)點的列表 / 迭代器。
.descendants: 獲取所有后代節(jié)點（包括文字節(jié)點）的迭代器。
.parent / .parents: 獲取直接父節(jié)點 / 所有祖先節(jié)點的迭代器。
.next_sibling / .previous_sibling: 獲取下一個/上一個兄弟節(jié)點。注意，這可能拿到的是兩個標簽之間的空白文本節(jié)點，不一定是標簽。
.next_siblings / .previous_siblings: 獲取后面/前面所有兄弟節(jié)點的迭代器。
.find_next_sibling(s)() / .find_previous_sibling(s)(): (比較實用) 這組方法可以查找符合條件的下一個/上一個標簽兄弟，能幫你跳過那些文本節(jié)點。

舉個例子： 找到標題標簽后，想找它后面緊跟著的價格標簽（假設是個 span）。

# 假設 title_tag 是已找到的標題標簽
# 查找其后第一個 class='price' 的 span 兄弟標簽
price_tag = title_tag.find_next_sibling('span', class_='price')
if price_tag:
    print(f"價格是: {price_tag.get_text(strip=True)}")

一個參數 recursive=False:
在用 find_all() 等查找方法時，可以加上 recursive=False 這個參數。它的意思是只查找當前標簽的直接子節(jié)點，不再往更深層級的后代節(jié)點里查找。

lxml：追求速度和 XPath 的選擇

lxml 這個庫以速度快和解析能力強而出名，特別適合處理那些很大或者結構很復雜的 HTML/XML 文檔。

1. 安裝和基本使用

pip install lxml

from lxml import etree

# 直接解析 HTML 字符串，lxml 會嘗試修復不規(guī)范的 HTML
tree = etree.HTML(html_doc) # html_doc 是之前的示例

# 也可以從文件或網絡響應解析
# tree = etree.HTML(response.text)
# parser = etree.HTMLParser(encoding='utf-8') # 指定編碼
# tree = etree.parse('your_page.html', parser)

2. XPath：一種強大的節(jié)點選擇語言

XPath 提供了一套靈活的語法規(guī)則，讓你可以在文檔樹里精確地定位到想要的節(jié)點。

常用的語法規(guī)則：

/: 從根節(jié)點開始選。
//: 從文檔中任意位置開始查找（這個最常用）。比如 //div 就是找所有的 div 元素。
.: 代表當前節(jié)點。
..: 代表父節(jié)點。
tag_name: 選擇指定標簽名的節(jié)點。比如 a 就是找所有 a 標簽。
@attr_name: 選擇屬性。比如 //@href 就是找所有 href 屬性。
*: 通配符，匹配任何元素節(jié)點。
[@attr='value']: 根據屬性值精確匹配。比如 //a[@id='link1'] 就是找 id 等于 ‘link1’ 的 a 標簽。
[contains(@attr, 'substr')]: 檢查屬性值是否包含某個子字符串。比如 //div[contains(@class, 'article')] 找 class 包含 ‘article’ 的 div。
[starts-with(@attr, 'prefix')]: 檢查屬性值是否以某個前綴開頭。
[N]: 選擇第 N 個匹配的元素（注意：XPath 的索引是從 1 開始算的，不是 0！）。比如 //ul/li[1] 找 ul 下的第一個 li。
text(): 獲取節(jié)點的文本內容。比如 //p/text() 獲取 p 標簽直接包含的文本。
|: 表示"或"邏輯，可以合并多個路徑的結果。比如 //h2/text() | //h3/text() 同時獲取 h2 和 h3 的文本。

在這里插入圖片描述

用 XPath 試試（還是用前面的 html_doc）：

# 獲取 class='story' 的 p 下面第一個 a 標簽的文本
first_link_text = tree.xpath('//p[@class="story"]/a[1]/text()') # a[1] 指的是第一個 a 標簽
print(first_link_text[0])

XPath 的一些優(yōu)點：

軸（Axis）選擇: 能支持更復雜的節(jié)點關系定位，比如找前面的兄弟節(jié)點、祖先節(jié)點等等，比 CSS 選擇器更靈活。
內置函數: 提供了一些有用的函數，像 count() 計數, sum() 求和, contains() 判斷包含, normalize-space() 清理空白字符等。

3. lxml 其實也支持 CSS 選擇器

lxml 借助一個叫 cssselect 的庫，也提供了對 CSS 選擇器的支持。你需要先安裝它：pip install cssselect。

# 使用 .cssselect() 方法
link1_css_lxml = tree.cssselect('a#link1')
print(link1_css_lxml[0].text) # Element 對象有 .text 屬性

story_links_css_lxml = tree.cssselect('p.story a.sister')
print(f"CSS 選擇器找到 {len(story_links_css_lxml)} 個 sister 鏈接")

XPath 和 CSS 選擇器怎么選？

學習難度: 一般認為 CSS 選擇器更容易上手。
功能: XPath 功能更強大，特別是在處理復雜的路徑、條件判斷或者需要利用軸選擇的時候。
性能 (在 lxml 內部): 兩者性能通常差不多，有時候 XPath 甚至可能更快一點。

建議： 先掌握好 CSS 選擇器，它能搞定大部分場景。如果遇到 CSS 選擇器處理起來很麻煩或者實現不了的需求，再考慮用 XPath。

組合與比較：BeautifulSoup + lxml 是個好搭檔嗎？

把 BeautifulSoup 相對友好的接口和 lxml 的高速解析能力結合起來，確實是個常見的做法，能在開發(fā)效率和運行速度之間取得不錯的平衡。

# 指定 lxml 作為 BS4 的解析器
soup = BeautifulSoup(html_doc, 'lxml')
# 然后就可以照常使用 soup.find, soup.select 這些 BS4 的方法了

性能特點大概是這樣：

在這里插入圖片描述

速度: 通常情況下，直接用 lxml 最快 > BS4 + lxml 組合 > BS4 + html.parser (Python自帶)。處理大文件時，lxml 的速度優(yōu)勢會更明顯。
內存: lxml 通常也更節(jié)省內存。
易用性: BeautifulSoup 的 API 設計更符合 Python 的習慣，學起來感覺更順手一些。
容錯性: lxml 和 html5lib 在處理不太規(guī)范的 HTML 代碼時，表現比較好，不容易出錯。

怎么選比較合適？

寫一些日常腳本、教學演示、或者快速搭個原型: 用 BeautifulSoup + lxml 這個組合挺好，開發(fā)體驗不錯，性能也足夠用了。
開發(fā)大規(guī)模爬蟲、或者對性能要求比較高的應用: 可以優(yōu)先考慮直接使用 lxml。
需要處理非常不規(guī)范、甚至可以說是"臟"的 HTML: 可以試試 BeautifulSoup + html5lib 這個組合，它的容錯性最好。

動手試試：一個簡單的【網頁提取小工具】

現在，咱們把前面學到的東西用起來，做一個簡單的【網頁提取小工具】。

這個小工具有啥用？

學習研究： 比如快速扒某個網頁的主要文字內容，或者看看文獻摘要。
信息收集： 從一些報告、資訊網站抓取文本，做初步的摘要和關鍵詞提取。
內容輔助： 找資料時，快速獲取網頁主體內容，幫助提煉重點。

核心功能（可以考慮后續(xù)擴展）：

輸入一個網址（URL），嘗試提取出頁面的主要文本內容。
生成一個簡單的摘要（比如就提取前幾句話）。
提取一些關鍵詞（比如基于詞頻統(tǒng)計）。
(擴展思路：可以對接外部的智能處理服務，做得更智能)

技術選型： Python + Flask (做個簡單的網頁界面) + requests (獲取網頁) + BeautifulSoup/lxml (解析HTML) + （可選的智能接口）

界面大概長這樣：
一個簡單的頁面，有個輸入框讓你填網址，一個提交按鈕，下面顯示提取結果（比如原文預覽、摘要、關鍵詞）。

在這里插入圖片描述

核心代碼邏輯 (用 Flask + BeautifulSoup 舉例，并標注了可擴展的地方):

# --- codes/web_content_extractor/app.py ---
# (代碼和之前版本差不多，這里重點看邏輯和注釋)
# ... Flask 初始化和模板渲染設置 ...
# ... 可以先定義簡單的摘要和關鍵詞提取函數 (simple_summarizer, simple_keyword_extractor) ...

@app.route('/', methods=['GET', 'POST'])
def index():
    result = None
    error = None
    if request.method == 'POST':
        url = request.form.get('url')
        if url:
            # 模擬瀏覽器發(fā)請求，加個 User-Agent 通常是個好習慣
            headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
            try:
                response = requests.get(url, headers=headers, timeout=10) # 設置超時防止卡死
                response.raise_for_status() # 如果請求失敗 (例如 404, 500)，這里會拋出異常
                # 嘗試讓 requests 自動檢測編碼，或者根據情況手動指定 response.encoding = 'utf-8'
                response.encoding = response.apparent_encoding

                soup = BeautifulSoup(response.text, 'lxml') # 用 lxml 解析器

                # --- 提取主要內容的邏輯 ---
                # 這部分是難點，沒有完美通用的方法，通常需要嘗試多種策略
                main_content_html = None
                # 策略1: 嘗試查找常見的表示主要內容的標簽或類名
                # (這些選擇器是經驗性的，可能需要根據目標網站調整)
                content_selectors = ['article', 'main', '.content', '#main', '.post-body', '.entry-content', '.article-content']
                for selector in content_selectors:
                    content_element = soup.select_one(selector) # select_one 找到第一個匹配的
                    if content_element:
                        # 簡單判斷下內容長度，避免選中一個空標簽或無關的小區(qū)域
                        if len(content_element.get_text(strip=True)) > 100: # 閾值可以調整
                            main_content_html = content_element
                            print(f"策略1命中: {selector}")
                            break

                # 策略2: 如果策略1沒找到，嘗試清理掉干擾元素（導航、頁腳、廣告等），然后用 body
                if not main_content_html:
                    print("嘗試策略2: 清理通用模塊...")
                    # 創(chuàng)建一個副本進行清理操作，以免影響原始 soup 對象
                    soup_for_cleaning = BeautifulSoup(str(soup), 'lxml')
                    # 要移除的元素選擇器列表 (根據常見情況列出，可能需要補充)
                    elements_to_remove = ['script', 'style', 'header', 'footer', 'nav', '.sidebar', '.ads', '.comment', '#comments', '.related-posts']
                    for selector in elements_to_remove:
                        try:
                            for tag in soup_for_cleaning.select(selector):
                                tag.decompose() # decompose() 會將標簽及其內容從樹中移除
                        except Exception as e:
                            # select 找不到元素不會報錯，但其他操作可能出錯
                            print(f"清理 {selector} 時可能出錯: {e}") # 記錄下日志或打印出來

                    # 清理后，假設 body 里剩下的主要是正文
                    if soup_for_cleaning.body:
                         main_content_html = soup_for_cleaning.body
                    else:
                         # 如果連 body 都沒有，那就沒辦法了
                         main_content_html = soup_for_cleaning # 退而求其次


                # 從選中的 HTML 塊中提取純文本
                main_text = "未能有效提取內容。"
                if main_content_html:
                    # get_text 獲取所有文本，用換行符分隔，并去除首尾空白
                    raw_text = main_content_html.get_text(separator='\n', strip=True)
                    # 清理多余的空行
                    main_text = re.sub(r'\n\s*\n+', '\n', raw_text)

                # --- 擴展點：對接外部智能處理服務 ---
                # 如果有條件，可以在這里把提取到的 main_text 發(fā)送給外部 API
                # 比如：
                # summary = call_external_summary_api(main_text)
                # keywords = call_external_keyword_api(main_text)

                # 目前，我們先用之前定義的簡單版本
                summary = simple_summarizer(main_text) # 假設有這個函數
                keywords = simple_keyword_extractor(main_text) # 假設有這個函數

                result = {
                    'url': url,
                    # 只顯示部分內容作為預覽，避免頁面過長
                    'content': main_text[:1000] + "... (預覽)" if len(main_text) > 1000 else main_text,
                    'summary': summary,
                    'keywords': keywords
                }

            except requests.exceptions.Timeout:
                error = "請求超時，目標網站可能響應慢或無法訪問。"
            except requests.exceptions.RequestException as e:
                error = f"請求網頁時出錯: {e}"
            except Exception as e:
                 error = f"處理過程中發(fā)生錯誤: {type(e).__name__} - {e}"
                 # 最好在后臺記錄詳細錯誤日志
                 app.logger.error(f"處理 URL {url} 出錯: {e}", exc_info=True)
        else:
            error = "請輸入一個網址。"

    # 把結果傳給 HTML 模板去顯示
    return render_template('index.html', result=result, error=error)

# ... Flask 應用的啟動代碼 ...

(其他相關文件如 index.html, requirements.txt, README.md 的內容也需要相應調整，這里重點展示了 app.py 的核心邏輯和思考過程)

探索更智能的處理：從提取到理解

上面這個代碼只是搭了個基礎架子，更有意思的地方在于，它可以作為一個起點，去對接各種文本處理的 API 服務：

更好的摘要: 不再是簡單取前幾句，而是調用專門的摘要服務，傳入 main_text 和要求（比如"請將這段文字總結為150字左右的核心觀點"）。
更準的關鍵詞: 同樣，調用關鍵詞提取服務，讓它從 main_text 中找出最相關的幾個詞。
還能做什么:
- 情感判斷：分析提取出來的評論是好評還是差評。
- 內容分類：自動判斷文章屬于哪個領域（科技、體育、娛樂等）。
- 內容改寫/生成：基于提取的內容，進行二次創(chuàng)作。
- 信息問答：針對提取出來的長篇內容，回答用戶提出的相關問題。

安全提醒：API 密鑰要放好

如果你調用的服務需要 API Key（訪問憑證），千萬別直接寫在代碼里。推薦用 .env 文件來管理：

安裝 python-dotenv 庫: pip install python-dotenv
在項目根目錄下創(chuàng)建一個名為 .env 的文件，里面寫 YOUR_API_KEY='你的密鑰'
在 Python 代碼里加載：

import os
from dotenv import load_dotenv
load_dotenv() # 加載 .env 文件中的環(huán)境變量
api_key = os.getenv('YOUR_API_KEY') # 從環(huán)境變量讀取
# 然后用 api_key 去調用服務

記得把 .env 文件添加到 .gitignore 里，避免上傳到代碼倉庫。

運行和測試：

按照 README.md 文件里的說明（如果還沒有，需要創(chuàng)建一個），在你的電腦上把這個小工具跑起來（通常是運行 python app.py），然后在瀏覽器里打開 http://127.0.0.1:5000 (或者 Flask 啟動時提示的地址)，輸入一些不同的網頁鏈接試試看效果。

注意： 這個工具僅用于學習，請勿用于非法用途。
本次代碼未傳倉庫，想要學習，請評論區(qū)交流

總結：HTML解析是處理網頁數據的基礎

通過這篇文章，我們一起了解了 Python 里常用的 HTML 解析庫 BeautifulSoup 和 lxml，熟悉了 CSS 選擇器和 XPath 這兩種定位元素的方法，還動手嘗試做了一個簡單的【網頁提取小工具】，并探討了結合外部智能服務提升功能的可能性。

接下來可以學點啥？

處理動態(tài)加載的網頁： 很多網頁內容是用 JavaScript 渲染出來的，只用 requests 拿不到?？梢粤私庀?Selenium、Playwright 這些可以模擬瀏覽器行為的工具。
更高級的選擇器技巧： 深入學習 XPath 的軸（axis）、函數，以及 CSS 的一些高級用法。
爬蟲框架： 如果需要做更復雜的爬蟲項目，可以了解下 Scrapy 這樣的專業(yè)框架。
反爬蟲和應對： 網站會有各種反爬措施，需要學習如何偽裝 User-Agent、使用代理 IP、處理 Cookie、識別驗證碼等。
異步爬蟲： 為了提高爬取效率，可以研究下用 asyncio 配合 aiohttp 來實現異步并發(fā)請求。

n 里常用的 HTML 解析庫 BeautifulSoup 和 lxml，熟悉了 CSS 選擇器和 XPath 這兩種定位元素的方法，還動手嘗試做了一個簡單的【網頁提取小工具】，并探討了結合外部智能服務提升功能的可能性。

接下來可以學點啥？

處理動態(tài)加載的網頁： 很多網頁內容是用 JavaScript 渲染出來的，只用 requests 拿不到?？梢粤私庀?Selenium、Playwright 這些可以模擬瀏覽器行為的工具。
更高級的選擇器技巧： 深入學習 XPath 的軸（axis）、函數，以及 CSS 的一些高級用法。
爬蟲框架： 如果需要做更復雜的爬蟲項目，可以了解下 Scrapy 這樣的專業(yè)框架。
反爬蟲和應對： 網站會有各種反爬措施，需要學習如何偽裝 User-Agent、使用代理 IP、處理 Cookie、識別驗證碼等。
異步爬蟲： 為了提高爬取效率，可以研究下用 asyncio 配合 aiohttp 來實現異步并發(fā)請求。

到此這篇關于Python HTML解析：BeautifulSoup，Lxml，XPath使用教程的文章就介紹到這了,更多相關Python HTML解析：BeautifulSoup，Lxml，XPath內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家！

您可能感興趣的文章:

python?pygame實現打磚塊游戲
這篇文章主要為大家詳細介紹了python?pygame實現打磚塊游戲，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2022-05-05
Python Tricks 使用 pywinrm 遠程控制 Windows 主機的方法
這篇文章主要介紹了Python Tricks 使用 pywinrm 遠程控制 Windows 主機的方法，本文給大家介紹的非常詳細，對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
2020-07-07
pandas DataFrame map方法的實現
pandas.DataFrame.map()方法用于對 DataFrame 的每個元素應用一個函數,返回一個新的 DataFrame,其形狀與原 DataFrame 相同,下面就來介紹一下,感興趣的可以了解一下
2025-05-05
用Python實現服務器中只重載被修改的進程的方法
這篇文章主要介紹了用Python實現服務器中只重載被修改的進程的方法,包括用watchdog來檢測文件的變化等,實現起來充分體現了Python作為動態(tài)語言的靈活性,強烈推薦!需要的朋友可以參考下
2015-04-04
Python單元測試unittest模塊使用終極指南
本文將詳細介紹unittest模塊的各個方面，包括測試用例、斷言、測試套件、setUp和tearDown方法、跳過和期望異常、測試覆蓋率、持續(xù)集成等內容，我們將提供豐富的示例代碼，以便讀者更好地理解如何使用unittest進行單元測試
2023-12-12
python實現的自動發(fā)送消息功能詳解
這篇文章主要介紹了python實現的自動發(fā)送消息功能,涉及Python基于requests、itchat庫的數據請求與信息處理相關操作技巧,需要的朋友可以參考下
2019-08-08
Python如何聲明以管理員方式運行(附實戰(zhàn)案例)
由于Windows的安全機制,Python寫的腳本缺少了管理員權限,運行就會受到一些限制,這篇文章主要介紹了Python如何聲明以管理員方式運行的相關資料,文中通過代碼介紹的非常詳細,需要的朋友可以參考下
2025-04-04
從入門到精通：玩轉Python?Fire庫
想快速打造屬于你的Python?GUI應用嗎？拋開復雜的代碼,用Python?Fire庫就能輕松實現！本指南將引領你從零起步,駕馭Python?Fire的強大功能,讓編程既簡單又高效,準備好了嗎？讓我們開始玩轉Python?Fire,開啟你的編程冒險吧！
2024-02-02
HTML中使用python屏蔽一些基本功能的方法
這篇文章主要介紹了HTML中使用python屏蔽一些基本功能的方法,需要的朋友可以參考下
2017-07-07
Python經驗總結:兩種Type?Error問題
這篇文章主要介紹了Python經驗總結:兩種Type?Error問題,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
2023-09-09

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?HTML解析：BeautifulSoup，Lxml，XPath使用教程

目錄

不管怎么說，先睹為快

工具效果圖：

工具簡單流程圖

為什么需要專門的HTML解析庫？只用正則表達式不夠嗎？

BeautifulSoup：上手簡單的HTML解析

1. 安裝和準備

2. 按標簽名訪問

3. 用 find() 和 find_all() 精確查找 (常用方法)

4. 用 CSS 選擇器 select() (簡潔又強大)

5. 提取文本和屬性

6. 在節(jié)點間導航 (遍歷DOM樹)

lxml：追求速度和 XPath 的選擇

1. 安裝和基本使用

2. XPath：一種強大的節(jié)點選擇語言

組合與比較：BeautifulSoup + lxml 是個好搭檔嗎？

動手試試：一個簡單的【網頁提取小工具】

總結：HTML解析是處理網頁數據的基礎

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python?HTML解析：BeautifulSoup，Lxml，XPath使用教程

目錄

不管怎么說，先睹為快

工具效果圖：

工具簡單流程圖

為什么需要專門的HTML解析庫？只用正則表達式不夠嗎？

BeautifulSoup：上手簡單的HTML解析

1. 安裝和準備

2. 按標簽名訪問

3. 用 find() 和 find_all() 精確查找 (常用方法)

4. 用 CSS 選擇器 select() (簡潔又強大)

5. 提取文本和屬性

6. 在節(jié)點間導航 (遍歷DOM樹)

lxml：追求速度和 XPath 的選擇

1. 安裝和基本使用

2. XPath：一種強大的節(jié)點選擇語言

組合與比較：BeautifulSoup + lxml 是個好搭檔嗎？

動手試試：一個簡單的【網頁提取小工具】

總結：HTML解析是處理網頁數據的基礎

相關文章

最新評論

大家感興趣的內容

最近更新的內容

常用在線小工具

Python?HTML解析：BeautifulSoup，Lxml，XPath使用教程

不管怎么說，先睹為快

為什么需要專門的HTML解析庫？只用正則表達式不夠嗎？