快捷導(dǎo)航

Python用requests-html爬取網(wǎng)頁(yè)的實(shí)現(xiàn)

更新時(shí)間：2022年07月20日 09:25:21 作者：和牛

本文主要介紹了Python用requests-html爬取網(wǎng)頁(yè)的實(shí)現(xiàn)，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

1. 開始

Python 中可以進(jìn)行網(wǎng)頁(yè)解析的庫(kù)有很多，常見的有 BeautifulSoup 和 lxml 等。在網(wǎng)上玩爬蟲的文章通常都是介紹 BeautifulSoup 這個(gè)庫(kù)，我平常也是常用這個(gè)庫(kù)，最近用 Xpath 用得比較多，使用 BeautifulSoup 就不大習(xí)慣，很久之前就知道 Reitz 大神出了一個(gè)叫 Requests-HTML 的庫(kù)，一直沒有興趣看，這回可算歹著機(jī)會(huì)用一下了。

使用 pip install requests-html安裝，上手和 Reitz 的其他庫(kù)一樣，輕松簡(jiǎn)單：

from requests_html import HTMLSession
session = HTMLSession()

r = session.get('https://www.python.org/jobs/')

這個(gè)庫(kù)是在 requests 庫(kù)上實(shí)現(xiàn)的，r 得到的結(jié)果是 Response 對(duì)象下面的一個(gè)子類，多個(gè)一個(gè) html 的屬性。所以 requests 庫(kù)的響應(yīng)對(duì)象可以進(jìn)行什么操作，這個(gè) r 也都可以。如果需要解析網(wǎng)頁(yè)，直接獲取響應(yīng)對(duì)象的 html 屬性：

r.html

2. 原理

不得不膜拜 Reitz 大神太會(huì)組裝技術(shù)了。實(shí)際上 HTMLSession 是繼承自 requests.Session 這個(gè)核心類，然后將 requests.Session 類里的 requests 方法改寫，返回自己的一個(gè) HTMLResponse 對(duì)象，這個(gè)類又是繼承自 requests.Response,只是多加了一個(gè) _from_response 的方法來(lái)構(gòu)造實(shí)例：

class HTMLSession(requests.Session):
    # 重寫 request 方法，返回 HTMLResponse 構(gòu)造
    def request(self, *args, **kwargs) -> HTMLResponse:
        r = super(HTMLSession, self).request(*args, **kwargs)
        return HTMLResponse._from_response(r, self)

class HTMLResponse(requests.Response):
	# 構(gòu)造器
    @classmethod
    def _from_response(cls, response, session: Union['HTMLSession', 'AsyncHTMLSession']):
        html_r = cls(session=session)
        html_r.__dict__.update(response.__dict__)
        return html_r

之后在 HTMLResponse 里定義屬性方法 html，就可以通過(guò) html 屬性訪問(wèn)了,實(shí)現(xiàn)也就是組裝 PyQuery 來(lái)干。核心的解析類也大多是使用 PyQuery 和 lxml 來(lái)做解析，簡(jiǎn)化了名稱，挺討巧的。

3. 元素定位

元素定位可以選擇兩種方式：

css 選擇器

css選擇器
xpath

# css 獲取有多少個(gè)職位
jobs = r.html.find("h1.call-to-action")
# xpath 獲取
jobs = r.html.xpath("http://h1[@class='call-to-action']")

方法名非常簡(jiǎn)單，符合 Python 優(yōu)雅的風(fēng)格，這里不妨對(duì)這兩種方式簡(jiǎn)單的說(shuō)明：

4. CSS 簡(jiǎn)單規(guī)則

標(biāo)簽名 h1
id 使用 #id 表示
class 使用 .class_name 表示
謂語(yǔ)表示：h1[prop=value]

5. Xpath簡(jiǎn)單規(guī)則

路徑 // 或者 /
標(biāo)簽名
謂語(yǔ) [@prop=value]
軸定位 名稱::元素名[謂語(yǔ)]

定位到元素以后勢(shì)必要獲取元素里面的內(nèi)容和屬性相關(guān)數(shù)據(jù)，獲取文本：

jobs.text
jobs.full_text

獲取元素的屬性：

attrs = jobs.attrs
value = attrs.get("key")

還可以通過(guò)模式來(lái)匹配對(duì)應(yīng)的內(nèi)容：

## 找某些內(nèi)容匹配
r.html.search("Python {}")
r.html.search_all()

這個(gè)功能看起來(lái)比較雞肋，可以深入研究?jī)?yōu)化一下，說(shuō)不定能在 github 上混個(gè)提交。

6. 人性化操作

除了一些基礎(chǔ)操作，這個(gè)庫(kù)還提供了一些人性化的操作。比如一鍵獲取網(wǎng)頁(yè)的所有超鏈接，這對(duì)于整站爬蟲應(yīng)該是個(gè)福音，URL 管理比較方便：

r.html.absolute_links
r.html.links

內(nèi)容頁(yè)面通常都是分頁(yè)的，一次抓取不了太多，這個(gè)庫(kù)可以獲取分頁(yè)信息：

print(r.html)
# 比較一下
for url in r.html:
    print(url)

結(jié)果如下：

# print(r.html)
<HTML url='https://www.python.org/jobs/'>
# for
<HTML url='https://www.python.org/jobs/'>
<HTML url='https://www.python.org/jobs/?page=2'>
<HTML url='https://www.python.org/jobs/?page=3'>
<HTML url='https://www.python.org/jobs/?page=4'>
<HTML url='https://www.python.org/jobs/?page=5'>

通過(guò)迭代器實(shí)現(xiàn)了智能發(fā)現(xiàn)分頁(yè)，這個(gè)迭代器里面會(huì)用一個(gè)叫 _next 的方法，貼一段源碼感受下：

def get_next():
	candidates = self.find('a', containing=next_symbol)

	for candidate in candidates:
		if candidate.attrs.get('href'):
			# Support 'next' rel (e.g. reddit).
			if 'next' in candidate.attrs.get('rel', []):
				return candidate.attrs['href']

通過(guò)查找 a 標(biāo)簽里面是否含有指定的文本來(lái)判斷是不是有下一頁(yè)，通常我們的下一頁(yè)都會(huì)通過(guò) 下一頁(yè) 或者 加載更多 來(lái)引導(dǎo)，他就是利用這個(gè)標(biāo)志來(lái)進(jìn)行判斷。默認(rèn)的以列表形式存在全局：['next', 'more', 'older']。我個(gè)人認(rèn)為這種方式非常不靈活，幾乎沒有擴(kuò)展性。感興趣的可以往 github 上提交代碼優(yōu)化。

7. 加載 js

也許是考慮到了現(xiàn)在 js 的一些異步加載，這個(gè)庫(kù)支持 js 運(yùn)行時(shí)，官方說(shuō)明如下：

Reloads the response in Chromium, and replaces HTML content
with an updated version, with JavaScript executed.

使用非常簡(jiǎn)單，直接調(diào)用以下方法：

r.html.render()

第一次使用的時(shí)候會(huì)下載 Chromium，不過(guò)國(guó)內(nèi)你懂的，自己想辦法去下吧，就不要等它自己下載了。render 函數(shù)可以使用 js 腳本來(lái)操作頁(yè)面，滾動(dòng)操作單獨(dú)做了參數(shù)。這對(duì)于上拉加載等新式頁(yè)面是非常友好的。

8. 總結(jié)

Reitz 大神設(shè)計(jì)出來(lái)的東西還是一如既往的簡(jiǎn)單好用，自己不多做，大多用別人的東西組裝，簡(jiǎn)化 api。真是夠人性。不過(guò)有的地方還是優(yōu)化空間，希望有興趣和精力的童鞋去 github 上關(guān)注一下這個(gè)項(xiàng)目。

到此這篇關(guān)于Python用requests-html爬取網(wǎng)頁(yè)的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Python requests-html爬取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: