Python?HTML解析:BeautifulSoup,Lxml,XPath使用教程
想要精找到數據卻不知從何下手?這篇文章將帶你了解 Python 中進行 HTML 解析的常用工具,還會通過一個【網頁提取小工具】的例子,看看如何將這些技術應用起來,并簡單探討一下結合智能技術自動提取正文、生成摘要和關鍵詞的可能性。
告別手動復制粘貼:用CSS選擇器與XPath高效提取網頁數據
不管怎么說,先睹為快
工具效果圖:
工具簡單流程圖
為什么需要專門的HTML解析庫?只用正則表達式不夠嗎?
想象一下,你需要從好幾個競爭對手的網站上快速抓取產品介紹,或者想從新聞網站提取最新的科技動態(tài)標題和鏈接。
我們拿到的網頁源碼,通常是類似下面這樣的 HTML 結構:
<html> <head><title>最新新聞</title></head> <body> <div class="news-list"> <article><h2><a href="/news/1" rel="external nofollow" >標題一</a></h2><p>摘要...</p></article> <article><h2><a href="/news/2" rel="external nofollow" >標題二</a></h2><p>摘要...</p></article> </div> </body> </html>
如果直接用正則表達式來提取這些信息,你可能會發(fā)現一些麻煩:
- 容易失效:網站稍微調整一下頁面結構,寫好的正則表達式可能就用不了了,維護起來比較頭疼。
- 寫起來復雜:對于層層嵌套或者結構比較亂的 HTML,編寫和調試正則表達式本身就挺花時間的。
- 功能有限:正則表達式不太擅長處理標簽之間的層級關系,比如找到某個元素的父元素或兄弟元素。
小結: 網頁越來越復雜,只靠正則表達式來提取數據,往往效率不高,而且不夠穩(wěn)定。這時候,我們就需要更專業(yè)的工具了。
HTML解析庫就是為此而生的。它們能理解 HTML 的文檔結構(也就是 DOM,文檔對象模型),把源碼解析成一個樹狀的對象。這樣,我們就能用更可靠、更方便的方式來找到并拿出我們想要的東西。
在 Python 里,比較常用的 HTML 解析庫有這么幾個:
BeautifulSoup
(BS4):它的接口設計得比較友好,學起來相對容易,適合新手入門和快速做一些小工具。lxml
:它是基于 C 語言庫構建的,解析速度通常更快,處理不規(guī)范 HTML 的能力也比較強(容錯性好),還支持 XPath 這種強大的查詢語言。適合處理大型或者結構復雜的文檔,或者對性能要求比較高的場景。
其他選擇:
html.parser
: Python 自帶的,不用額外安裝,但速度和容錯性一般。html5lib
: 據說最接近瀏覽器的解析方式,容錯性最好,但相應地,速度會慢一些。
怎么選呢?
- 入門或者大部分情況:推薦試試
BeautifulSoup
結合lxml
解析器。這樣既能利用BeautifulSoup
的易用性,也能獲得不錯的性能。 - 追求更好的性能或需要處理復雜查詢:可以直接上手
lxml
。
接下來,咱們先從 BeautifulSoup
開始,看看怎么用它來解析 HTML。
BeautifulSoup:上手簡單的HTML解析
BeautifulSoup
(我們常叫它 BS4) 的設計初衷就是讓 HTML 解析這事兒變得簡單明了。
1. 安裝和準備
# 安裝 BS4 和推薦搭配使用的 lxml 解析器 pip install beautifulsoup4 lxml
在 Python 代碼里這么用:
from bs4 import BeautifulSoup import requests # 用于獲取網頁內容 # 示例 HTML (實際通常來自 requests 獲取的 response.text) html_doc = """ <html><head><title>一個簡單的例子</title></head> <body> <p class="title"><b>加粗標題</b></p> <p class="story">這是一個段落... <a rel="external nofollow" class="sister" id="link1">鏈接1</a>, <a rel="external nofollow" class="sister" id="link2">鏈接2</a> and <a rel="external nofollow" class="sister" id="link3">鏈接3</a>; 開始了新的故事.</p> <p class="data">...</p> </body></html> """ # 初始化 BeautifulSoup 對象,告訴它我們想用 'lxml' 這個解析器 soup = BeautifulSoup(html_doc, 'lxml')
2. 按標簽名訪問
如果 HTML 結構比較簡單,可以直接用點 (.
) 加上標簽名來訪問第一個匹配到的標簽:
print(soup.title) # 輸出: <title>一個簡單的例子</title> print(soup.title.name) # 輸出: 'title' (標簽名) print(soup.title.string) # 輸出: '一個簡單的例子' (標簽內文本) print(soup.p) # 輸出: <p class="title"><b>加粗標題</b></p> (找到的第一個 p 標簽)
3. 用 find() 和 find_all() 精確查找 (常用方法)
這是最常用的查找方式了,可以根據標簽名、CSS 類名、ID、甚至其他屬性來找。
find('tag', class_='css_class', id='id_val', attrs={'attr': 'value'})
: 查找第一個符合條件的標簽,找到就返回那個標簽對象,找不到就返回None
。find_all(...)
: 查找所有符合條件的標簽,返回一個列表(這個列表可能是空的)。還可以用limit=N
來限制最多找多少個。
舉個例子: 假設我們要提取所有 CSS 類是 product-title
的 h2
標簽里的文字。
# 查找所有 class='product-title' 的 h2 標簽 product_titles = soup.find_all('h2', class_='product-title') # 遍歷結果列表 for title in product_titles: # 使用 .get_text(strip=True) 獲取純文本,更穩(wěn)妥 print(title.get_text(strip=True))
注意一個小細節(jié):class
vs class_
因為 class
在 Python 里是個關鍵字(用來定義類),所以在 find
或 find_all
里按 CSS 類名查找時,參數名叫 class_
(后面多了個下劃線)。當然,你也可以用 attrs
字典來指定:soup.find_all('a', attrs={'class': 'sister'})
。
4. 用 CSS 選擇器 select() (簡潔又強大)
如果你熟悉 CSS,那 select()
方法會讓你感覺很親切。它的語法和 CSS 選擇器幾乎一樣。
- 標簽名:
select('p')
- 類名:
select('.product-title')
- ID:
select('#main-content')
- 子元素:
select('div.article > h2')
(找div
下直接的h2
子元素) - 后代元素:
select('div#news-list article')
(找div
下所有層級的article
元素) - 屬性:
select('a[target="_blank"]')
(找target
屬性是_blank
的a
標簽)
舉個例子: 提取新聞列表(假設是 div.news-list
)里所有文章標題(在 h2
里的鏈接 a
)。
# 使用 CSS 選擇器定位 news_links = soup.select('div.news-list h2 a') for link in news_links: # link.string 獲取文本, link['href'] 獲取 href 屬性 print(f"標題: {link.string.strip()}, 鏈接: {link['href']}")
5. 提取文本和屬性
找到目標標簽后,我們通常關心的是里面的文字內容,或者是它的某個屬性值(比如鏈接的 href
)。
獲取文本:
.string
: 這個屬性比較"挑剔",只有當標簽里沒有其他嵌套標簽,純粹是文本時才好用,否則可能返回None
。.get_text()
: (推薦使用) 這個方法能獲取標簽內所有的文本內容,包括所有子標簽里的。strip=True
: 參數設為True
可以去掉文本開頭和結尾的空白字符(像空格、換行符)。separator='sep'
: 如果標簽內有多段文本(比如被<br>
分隔),可以用這個參數指定一個分隔符把它們連接起來。
獲取屬性:
tag['attr_name']
: 像訪問字典一樣用方括號加屬性名。但如果這個屬性不存在,代碼會報錯。tag.get('attr_name')
: (推薦使用) 這個方法更安全,如果屬性不存在,它會返回None
,而不是報錯。
舉個例子: 獲取頁面上所有鏈接的文字和 URL。
all_links = soup.find_all('a') for link in all_links: link_text = link.get_text(strip=True) link_url = link.get('href') # 用 get() 好處是,萬一這個 a 標簽沒有 href 屬性也不會出錯 if link_url: # 最好判斷一下確實拿到了 URL 再打印 print(f"鏈接文字: {link_text}, URL: {link_url}")
6. 在節(jié)點間導航 (遍歷DOM樹)
有時候,我們找到了一個節(jié)點,還需要找它的父節(jié)點、子節(jié)點或者旁邊的兄弟節(jié)點。
.contents
/.children
: 獲取直接子節(jié)點的列表 / 迭代器。.descendants
: 獲取所有后代節(jié)點(包括文字節(jié)點)的迭代器。.parent
/.parents
: 獲取直接父節(jié)點 / 所有祖先節(jié)點的迭代器。.next_sibling
/.previous_sibling
: 獲取下一個/上一個兄弟節(jié)點。注意,這可能拿到的是兩個標簽之間的空白文本節(jié)點,不一定是標簽。.next_siblings
/.previous_siblings
: 獲取后面/前面所有兄弟節(jié)點的迭代器。.find_next_sibling(s)()
/.find_previous_sibling(s)()
: (比較實用) 這組方法可以查找符合條件的下一個/上一個標簽兄弟,能幫你跳過那些文本節(jié)點。
舉個例子: 找到標題標簽后,想找它后面緊跟著的價格標簽(假設是個 span)。
# 假設 title_tag 是已找到的標題標簽 # 查找其后第一個 class='price' 的 span 兄弟標簽 price_tag = title_tag.find_next_sibling('span', class_='price') if price_tag: print(f"價格是: {price_tag.get_text(strip=True)}")
一個參數 recursive=False
:
在用 find_all()
等查找方法時,可以加上 recursive=False
這個參數。它的意思是只查找當前標簽的直接子節(jié)點,不再往更深層級的后代節(jié)點里查找。
lxml:追求速度和 XPath 的選擇
lxml
這個庫以速度快和解析能力強而出名,特別適合處理那些很大或者結構很復雜的 HTML/XML 文檔。
1. 安裝和基本使用
pip install lxml from lxml import etree # 直接解析 HTML 字符串,lxml 會嘗試修復不規(guī)范的 HTML tree = etree.HTML(html_doc) # html_doc 是之前的示例 # 也可以從文件或網絡響應解析 # tree = etree.HTML(response.text) # parser = etree.HTMLParser(encoding='utf-8') # 指定編碼 # tree = etree.parse('your_page.html', parser)
2. XPath:一種強大的節(jié)點選擇語言
XPath 提供了一套靈活的語法規(guī)則,讓你可以在文檔樹里精確地定位到想要的節(jié)點。
常用的語法規(guī)則:
/
: 從根節(jié)點開始選。//
: 從文檔中任意位置開始查找(這個最常用)。 比如//div
就是找所有的 div 元素。.
: 代表當前節(jié)點。..
: 代表父節(jié)點。tag_name
: 選擇指定標簽名的節(jié)點。 比如a
就是找所有 a 標簽。@attr_name
: 選擇屬性。 比如//@href
就是找所有 href 屬性。*
: 通配符,匹配任何元素節(jié)點。[@attr='value']
: 根據屬性值精確匹配。 比如//a[@id='link1']
就是找 id 等于 ‘link1’ 的 a 標簽。[contains(@attr, 'substr')]
: 檢查屬性值是否包含某個子字符串。 比如//div[contains(@class, 'article')]
找 class 包含 ‘article’ 的 div。[starts-with(@attr, 'prefix')]
: 檢查屬性值是否以某個前綴開頭。[N]
: 選擇第 N 個匹配的元素(注意:XPath 的索引是從 1 開始算的,不是 0!)。 比如//ul/li[1]
找 ul 下的第一個 li。text()
: 獲取節(jié)點的文本內容。 比如//p/text()
獲取 p 標簽直接包含的文本。|
: 表示"或"邏輯,可以合并多個路徑的結果。 比如//h2/text() | //h3/text()
同時獲取 h2 和 h3 的文本。
用 XPath 試試(還是用前面的 html_doc
):
# 獲取 class='story' 的 p 下面第一個 a 標簽的文本 first_link_text = tree.xpath('//p[@class="story"]/a[1]/text()') # a[1] 指的是第一個 a 標簽 print(first_link_text[0])
XPath 的一些優(yōu)點:
- 軸(Axis)選擇: 能支持更復雜的節(jié)點關系定位,比如找前面的兄弟節(jié)點、祖先節(jié)點等等,比 CSS 選擇器更靈活。
- 內置函數: 提供了一些有用的函數,像
count()
計數,sum()
求和,contains()
判斷包含,normalize-space()
清理空白字符等。
3. lxml
其實也支持 CSS 選擇器
lxml
借助一個叫 cssselect
的庫,也提供了對 CSS 選擇器的支持。你需要先安裝它:pip install cssselect
。
# 使用 .cssselect() 方法 link1_css_lxml = tree.cssselect('a#link1') print(link1_css_lxml[0].text) # Element 對象有 .text 屬性 story_links_css_lxml = tree.cssselect('p.story a.sister') print(f"CSS 選擇器找到 {len(story_links_css_lxml)} 個 sister 鏈接")
XPath 和 CSS 選擇器怎么選?
- 學習難度: 一般認為 CSS 選擇器更容易上手。
- 功能: XPath 功能更強大,特別是在處理復雜的路徑、條件判斷或者需要利用軸選擇的時候。
- 性能 (在 lxml 內部): 兩者性能通常差不多,有時候 XPath 甚至可能更快一點。
建議: 先掌握好 CSS 選擇器,它能搞定大部分場景。如果遇到 CSS 選擇器處理起來很麻煩或者實現不了的需求,再考慮用 XPath。
組合與比較:BeautifulSoup + lxml 是個好搭檔嗎?
把 BeautifulSoup
相對友好的接口和 lxml
的高速解析能力結合起來,確實是個常見的做法,能在開發(fā)效率和運行速度之間取得不錯的平衡。
# 指定 lxml 作為 BS4 的解析器 soup = BeautifulSoup(html_doc, 'lxml') # 然后就可以照常使用 soup.find, soup.select 這些 BS4 的方法了
性能特點大概是這樣:
- 速度: 通常情況下,直接用
lxml
最快 >BS4
+lxml
組合 >BS4
+html.parser
(Python自帶)。處理大文件時,lxml
的速度優(yōu)勢會更明顯。 - 內存:
lxml
通常也更節(jié)省內存。 - 易用性:
BeautifulSoup
的 API 設計更符合 Python 的習慣,學起來感覺更順手一些。 - 容錯性:
lxml
和html5lib
在處理不太規(guī)范的 HTML 代碼時,表現比較好,不容易出錯。
怎么選比較合適?
- 寫一些日常腳本、教學演示、或者快速搭個原型: 用
BeautifulSoup
+lxml
這個組合挺好,開發(fā)體驗不錯,性能也足夠用了。 - 開發(fā)大規(guī)模爬蟲、或者對性能要求比較高的應用: 可以優(yōu)先考慮直接使用
lxml
。 - 需要處理非常不規(guī)范、甚至可以說是"臟"的 HTML: 可以試試
BeautifulSoup
+html5lib
這個組合,它的容錯性最好。
動手試試:一個簡單的【網頁提取小工具】
現在,咱們把前面學到的東西用起來,做一個簡單的【網頁提取小工具】。
這個小工具有啥用?
- 學習研究: 比如快速扒某個網頁的主要文字內容,或者看看文獻摘要。
- 信息收集: 從一些報告、資訊網站抓取文本,做初步的摘要和關鍵詞提取。
- 內容輔助: 找資料時,快速獲取網頁主體內容,幫助提煉重點。
核心功能(可以考慮后續(xù)擴展):
- 輸入一個網址(URL),嘗試提取出頁面的主要文本內容。
- 生成一個簡單的摘要(比如就提取前幾句話)。
- 提取一些關鍵詞(比如基于詞頻統(tǒng)計)。
- (擴展思路:可以對接外部的智能處理服務,做得更智能)
技術選型: Python + Flask (做個簡單的網頁界面) + requests (獲取網頁) + BeautifulSoup/lxml (解析HTML) + (可選的智能接口)
界面大概長這樣:
一個簡單的頁面,有個輸入框讓你填網址,一個提交按鈕,下面顯示提取結果(比如原文預覽、摘要、關鍵詞)。
核心代碼邏輯 (用 Flask + BeautifulSoup 舉例,并標注了可擴展的地方):
# --- codes/web_content_extractor/app.py --- # (代碼和之前版本差不多,這里重點看邏輯和注釋) # ... Flask 初始化和模板渲染設置 ... # ... 可以先定義簡單的摘要和關鍵詞提取函數 (simple_summarizer, simple_keyword_extractor) ... @app.route('/', methods=['GET', 'POST']) def index(): result = None error = None if request.method == 'POST': url = request.form.get('url') if url: # 模擬瀏覽器發(fā)請求,加個 User-Agent 通常是個好習慣 headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'} try: response = requests.get(url, headers=headers, timeout=10) # 設置超時防止卡死 response.raise_for_status() # 如果請求失敗 (例如 404, 500),這里會拋出異常 # 嘗試讓 requests 自動檢測編碼,或者根據情況手動指定 response.encoding = 'utf-8' response.encoding = response.apparent_encoding soup = BeautifulSoup(response.text, 'lxml') # 用 lxml 解析器 # --- 提取主要內容的邏輯 --- # 這部分是難點,沒有完美通用的方法,通常需要嘗試多種策略 main_content_html = None # 策略1: 嘗試查找常見的表示主要內容的標簽或類名 # (這些選擇器是經驗性的,可能需要根據目標網站調整) content_selectors = ['article', 'main', '.content', '#main', '.post-body', '.entry-content', '.article-content'] for selector in content_selectors: content_element = soup.select_one(selector) # select_one 找到第一個匹配的 if content_element: # 簡單判斷下內容長度,避免選中一個空標簽或無關的小區(qū)域 if len(content_element.get_text(strip=True)) > 100: # 閾值可以調整 main_content_html = content_element print(f"策略1命中: {selector}") break # 策略2: 如果策略1沒找到,嘗試清理掉干擾元素(導航、頁腳、廣告等),然后用 body if not main_content_html: print("嘗試策略2: 清理通用模塊...") # 創(chuàng)建一個副本進行清理操作,以免影響原始 soup 對象 soup_for_cleaning = BeautifulSoup(str(soup), 'lxml') # 要移除的元素選擇器列表 (根據常見情況列出,可能需要補充) elements_to_remove = ['script', 'style', 'header', 'footer', 'nav', '.sidebar', '.ads', '.comment', '#comments', '.related-posts'] for selector in elements_to_remove: try: for tag in soup_for_cleaning.select(selector): tag.decompose() # decompose() 會將標簽及其內容從樹中移除 except Exception as e: # select 找不到元素不會報錯,但其他操作可能出錯 print(f"清理 {selector} 時可能出錯: {e}") # 記錄下日志或打印出來 # 清理后,假設 body 里剩下的主要是正文 if soup_for_cleaning.body: main_content_html = soup_for_cleaning.body else: # 如果連 body 都沒有,那就沒辦法了 main_content_html = soup_for_cleaning # 退而求其次 # 從選中的 HTML 塊中提取純文本 main_text = "未能有效提取內容。" if main_content_html: # get_text 獲取所有文本,用換行符分隔,并去除首尾空白 raw_text = main_content_html.get_text(separator='\n', strip=True) # 清理多余的空行 main_text = re.sub(r'\n\s*\n+', '\n', raw_text) # --- 擴展點:對接外部智能處理服務 --- # 如果有條件,可以在這里把提取到的 main_text 發(fā)送給外部 API # 比如: # summary = call_external_summary_api(main_text) # keywords = call_external_keyword_api(main_text) # 目前,我們先用之前定義的簡單版本 summary = simple_summarizer(main_text) # 假設有這個函數 keywords = simple_keyword_extractor(main_text) # 假設有這個函數 result = { 'url': url, # 只顯示部分內容作為預覽,避免頁面過長 'content': main_text[:1000] + "... (預覽)" if len(main_text) > 1000 else main_text, 'summary': summary, 'keywords': keywords } except requests.exceptions.Timeout: error = "請求超時,目標網站可能響應慢或無法訪問。" except requests.exceptions.RequestException as e: error = f"請求網頁時出錯: {e}" except Exception as e: error = f"處理過程中發(fā)生錯誤: {type(e).__name__} - {e}" # 最好在后臺記錄詳細錯誤日志 app.logger.error(f"處理 URL {url} 出錯: {e}", exc_info=True) else: error = "請輸入一個網址。" # 把結果傳給 HTML 模板去顯示 return render_template('index.html', result=result, error=error) # ... Flask 應用的啟動代碼 ...
(其他相關文件如 index.html
, requirements.txt
, README.md
的內容也需要相應調整,這里重點展示了 app.py
的核心邏輯和思考過程)
探索更智能的處理:從提取到理解
上面這個代碼只是搭了個基礎架子,更有意思的地方在于,它可以作為一個起點,去對接各種文本處理的 API 服務:
- 更好的摘要: 不再是簡單取前幾句,而是調用專門的摘要服務,傳入
main_text
和要求(比如"請將這段文字總結為150字左右的核心觀點")。 - 更準的關鍵詞: 同樣,調用關鍵詞提取服務,讓它從
main_text
中找出最相關的幾個詞。 - 還能做什么:
- 情感判斷:分析提取出來的評論是好評還是差評。
- 內容分類:自動判斷文章屬于哪個領域(科技、體育、娛樂等)。
- 內容改寫/生成:基于提取的內容,進行二次創(chuàng)作。
- 信息問答:針對提取出來的長篇內容,回答用戶提出的相關問題。
安全提醒:API 密鑰要放好
如果你調用的服務需要 API Key(訪問憑證),千萬別直接寫在代碼里。推薦用 .env
文件來管理:
- 安裝
python-dotenv
庫:pip install python-dotenv
- 在項目根目錄下創(chuàng)建一個名為
.env
的文件,里面寫YOUR_API_KEY='你的密鑰'
- 在 Python 代碼里加載:
import os from dotenv import load_dotenv load_dotenv() # 加載 .env 文件中的環(huán)境變量 api_key = os.getenv('YOUR_API_KEY') # 從環(huán)境變量讀取 # 然后用 api_key 去調用服務
- 記得把
.env
文件添加到.gitignore
里,避免上傳到代碼倉庫。
運行和測試:
按照 README.md
文件里的說明(如果還沒有,需要創(chuàng)建一個),在你的電腦上把這個小工具跑起來(通常是運行 python app.py
),然后在瀏覽器里打開 http://127.0.0.1:5000
(或者 Flask 啟動時提示的地址),輸入一些不同的網頁鏈接試試看效果。
注意: 這個工具僅用于學習,請勿用于非法用途。
本次代碼未傳倉庫,想要學習,請評論區(qū)交流
總結:HTML解析是處理網頁數據的基礎
通過這篇文章,我們一起了解了 Python 里常用的 HTML 解析庫 BeautifulSoup
和 lxml
,熟悉了 CSS 選擇器和 XPath 這兩種定位元素的方法,還動手嘗試做了一個簡單的【網頁提取小工具】,并探討了結合外部智能服務提升功能的可能性。
接下來可以學點啥?
- 處理動態(tài)加載的網頁: 很多網頁內容是用 JavaScript 渲染出來的,只用
requests
拿不到??梢粤私庀?Selenium、Playwright 這些可以模擬瀏覽器行為的工具。 - 更高級的選擇器技巧: 深入學習 XPath 的軸(axis)、函數,以及 CSS 的一些高級用法。
- 爬蟲框架: 如果需要做更復雜的爬蟲項目,可以了解下 Scrapy 這樣的專業(yè)框架。
- 反爬蟲和應對: 網站會有各種反爬措施,需要學習如何偽裝 User-Agent、使用代理 IP、處理 Cookie、識別驗證碼等。
- 異步爬蟲: 為了提高爬取效率,可以研究下用
asyncio
配合aiohttp
來實現異步并發(fā)請求。
n 里常用的 HTML 解析庫 BeautifulSoup
和 lxml
,熟悉了 CSS 選擇器和 XPath 這兩種定位元素的方法,還動手嘗試做了一個簡單的【網頁提取小工具】,并探討了結合外部智能服務提升功能的可能性。
接下來可以學點啥?
- 處理動態(tài)加載的網頁: 很多網頁內容是用 JavaScript 渲染出來的,只用
requests
拿不到??梢粤私庀?Selenium、Playwright 這些可以模擬瀏覽器行為的工具。 - 更高級的選擇器技巧: 深入學習 XPath 的軸(axis)、函數,以及 CSS 的一些高級用法。
- 爬蟲框架: 如果需要做更復雜的爬蟲項目,可以了解下 Scrapy 這樣的專業(yè)框架。
- 反爬蟲和應對: 網站會有各種反爬措施,需要學習如何偽裝 User-Agent、使用代理 IP、處理 Cookie、識別驗證碼等。
- 異步爬蟲: 為了提高爬取效率,可以研究下用
asyncio
配合aiohttp
來實現異步并發(fā)請求。
到此這篇關于Python HTML解析:BeautifulSoup,Lxml,XPath使用教程的文章就介紹到這了,更多相關Python HTML解析:BeautifulSoup,Lxml,XPath內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python Tricks 使用 pywinrm 遠程控制 Windows 主機的方法
這篇文章主要介紹了Python Tricks 使用 pywinrm 遠程控制 Windows 主機的方法,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-07-07Python如何聲明以管理員方式運行(附實戰(zhàn)案例)
由于Windows的安全機制,Python寫的腳本缺少了管理員權限,運行就會受到一些限制,這篇文章主要介紹了Python如何聲明以管理員方式運行的相關資料,文中通過代碼介紹的非常詳細,需要的朋友可以參考下2025-04-04