快捷導(dǎo)航

詳解用Python處理HTML轉(zhuǎn)義字符的5種方式

更新時(shí)間：2017年12月27日 08:35:32 作者：liuzhijun

本文介紹了詳解用Python處理HTML轉(zhuǎn)義字符的5種方式，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧

寫爬蟲是一個(gè)發(fā)送請(qǐng)求，提取數(shù)據(jù)，清洗數(shù)據(jù)，存儲(chǔ)數(shù)據(jù)的過(guò)程。在這個(gè)過(guò)程中，不同的數(shù)據(jù)源返回的數(shù)據(jù)格式各不相同，有 JSON 格式，有 XML 文檔，不過(guò)大部分還是 HTML 文檔，HTML 經(jīng)常會(huì)混雜有轉(zhuǎn)移字符，這些字符我們需要把它轉(zhuǎn)義成真正的字符。

什么是轉(zhuǎn)義字符

在 HTML 中 <、>、& 等字符有特殊含義（<，> 用于標(biāo)簽中，& 用于轉(zhuǎn)義），他們不能在 HTML 代碼中直接使用，如果要在網(wǎng)頁(yè)中顯示這些符號(hào)，就需要使用 HTML 的轉(zhuǎn)義字符串（Escape Sequence），例如 < 的轉(zhuǎn)義字符是 <，瀏覽器渲染 HTML 頁(yè)面時(shí)，會(huì)自動(dòng)把轉(zhuǎn)移字符串換成真實(shí)字符。

轉(zhuǎn)義字符（Escape Sequence）由三部分組成：第一部分是一個(gè) & 符號(hào)，第二部分是實(shí)體（Entity）名字，第三部分是一個(gè)分號(hào)。比如，要顯示小于號(hào)（<），就可以寫< 。

顯示字符	說(shuō)明	轉(zhuǎn)義字符
<	小于	<
	空格
<	小于	<
>	大于	>
&	&符號(hào)	&
"	雙引號(hào)	"
©	版權(quán)	©
®	已注冊(cè)商標(biāo)	®

Python 反轉(zhuǎn)義字符串

用 Python 來(lái)處理轉(zhuǎn)義字符串有多種方式，而且 py2 和 py3 中處理方式不一樣，在 python2 中，反轉(zhuǎn)義串的模塊是 HTMLParser。

# python2
import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

Python3 HTMLParser 模塊遷移到了 html.parser

# python3
>>> from html.parser import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

到 python3.4 以后的版本，在 html 模塊新增了 unescape 方法。

# python3.4
>>> import html
>>> html.unescape('a=1&b=2')
'a=1&b=2'

推薦最后一種寫法，因?yàn)?HTMLParser.unescape 方法在 Python3.4 就已經(jīng)被廢棄掉不推薦使用了，意味著之后的版本會(huì)被徹底移除。

另外，sax 模塊也有支持反轉(zhuǎn)義的函數(shù)

>>> from xml.sax.saxutils import unescape
>>> unescape('a=1&b=2')
'a=1&b=2'

當(dāng)然，你完全可以實(shí)現(xiàn)自己的反轉(zhuǎn)義功能，也不復(fù)雜，當(dāng)然，我們崇尚不重復(fù)造輪子。

以上就是本文的全部?jī)?nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Notepad 輕量級(jí)文本編輯器的安裝及基本使用
notepad–是一個(gè)國(guó)產(chǎn)跨平臺(tái)、輕量級(jí)的文本編輯器,是替換notepad++的一種選擇,notepad特點(diǎn)支持Window/Mac/Linux操作系統(tǒng)平臺(tái),支持其他notepad競(jìng)品的常用功能,這篇文章給大家介紹Notepad 輕量級(jí)文本編輯器的安裝及基本使用,感興趣的朋友一起看看吧
2024-01-01
Matplotlib使用字符串代替變量繪制散點(diǎn)圖的方法
這篇文章主要介紹了Matplotlib使用字符串代替變量繪制散點(diǎn)圖的方法，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-02-02
Python PyInstaller庫(kù)基本使用方法分析
這篇文章主要介紹了Python PyInstaller庫(kù)基本使用方法,結(jié)合實(shí)例形式分析了Python PyInstaller庫(kù)的功能、安裝及相關(guān)使用注意事項(xiàng),需要的朋友可以參考下
2019-12-12
如何利用python的tkinter實(shí)現(xiàn)一個(gè)簡(jiǎn)單的計(jì)算器
這篇文章主要給大家介紹了關(guān)于如何利用python的tkinter實(shí)現(xiàn)一個(gè)簡(jiǎn)單的計(jì)算器的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2021-04-04
Django-xadmin后臺(tái)導(dǎo)入json數(shù)據(jù)及后臺(tái)顯示信息圖標(biāo)和主題更改方式
這篇文章主要介紹了Django-xadmin后臺(tái)導(dǎo)入json數(shù)據(jù)及后臺(tái)顯示信息圖標(biāo)和主題更改方式，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2020-03-03
python3 實(shí)現(xiàn)驗(yàn)證碼圖片切割的方法
今天小編就為大家分享一篇python3 實(shí)現(xiàn)驗(yàn)證碼圖片切割的方法，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
2018-12-12
springboot aop方式實(shí)現(xiàn)接口入?yún)⑿ｒ?yàn)的示例代碼
在實(shí)際開(kāi)發(fā)項(xiàng)目中,我們常常需要對(duì)接口入?yún)⑦M(jìn)行校驗(yàn),本文主要介紹了springboot aop方式實(shí)現(xiàn)接口入?yún)⑿ｒ?yàn)的示例代碼,具有一定的參考價(jià)值,感興趣的可以了解一下
2023-08-08
Python實(shí)現(xiàn)如何根據(jù)文件后綴進(jìn)行分類
本文主要為大家詳細(xì)介紹了如何通過(guò)python實(shí)現(xiàn)根據(jù)文件后綴實(shí)現(xiàn)分類，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以關(guān)注一下
2021-12-12
python 實(shí)現(xiàn)簡(jiǎn)易的記事本
這篇文章主要介紹了python 實(shí)現(xiàn)簡(jiǎn)易的記事本的示例代碼，幫助大家更好的理解和學(xué)習(xí)python，感興趣的朋友可以了解下
2020-11-11
Python 解決空列表.append() 輸出為None的問(wèn)題
在本篇文章里小編給大家整理了一篇關(guān)于Python 解決空列表.append() 輸出為None的問(wèn)題的相關(guān)內(nèi)容，有興趣的朋友們可以學(xué)習(xí)下。
2021-05-05