欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

詳解用Python處理HTML轉義字符的5種方式

 更新時間:2017年12月27日 08:35:32   作者:liuzhijun  
本文介紹了詳解用Python處理HTML轉義字符的5種方式,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧

寫爬蟲是一個發(fā)送請求,提取數(shù)據(jù),清洗數(shù)據(jù),存儲數(shù)據(jù)的過程。在這個過程中,不同的數(shù)據(jù)源返回的數(shù)據(jù)格式各不相同,有 JSON 格式,有 XML 文檔,不過大部分還是 HTML 文檔,HTML 經(jīng)常會混雜有轉移字符,這些字符我們需要把它轉義成真正的字符。

什么是轉義字符

在 HTML 中 <、>、& 等字符有特殊含義(<,> 用于標簽中,& 用于轉義),他們不能在 HTML 代碼中直接使用,如果要在網(wǎng)頁中顯示這些符號,就需要使用 HTML 的轉義字符串(Escape Sequence),例如 < 的轉義字符是 <,瀏覽器渲染 HTML 頁面時,會自動把轉移字符串換成真實字符。

轉義字符(Escape Sequence)由三部分組成:第一部分是一個 & 符號,第二部分是實體(Entity)名字,第三部分是一個分號。 比如,要顯示小于號(<),就可以寫< 。

顯示字符 說明 轉義字符
< 小于 <
空格
< 小于 <
> 大于 >
& &符號 &
" 雙引號 "
© 版權 ©
® 已注冊商標 ®

Python 反轉義字符串

用 Python 來處理轉義字符串有多種方式,而且 py2 和 py3 中處理方式不一樣,在 python2 中,反轉義串的模塊是 HTMLParser。

# python2
import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

Python3 HTMLParser 模塊遷移到了 html.parser

# python3
>>> from html.parser import HTMLParser
>>> HTMLParser().unescape('a=1&b=2')
'a=1&b=2'

到 python3.4 以后的版本,在 html 模塊新增了 unescape 方法。

# python3.4
>>> import html
>>> html.unescape('a=1&b=2')
'a=1&b=2'

推薦最后一種寫法,因為 HTMLParser.unescape 方法在 Python3.4 就已經(jīng)被廢棄掉不推薦使用了,意味著之后的版本會被徹底移除。

另外,sax 模塊也有支持反轉義的函數(shù)

>>> from xml.sax.saxutils import unescape
>>> unescape('a=1&b=2')
'a=1&b=2'

當然,你完全可以實現(xiàn)自己的反轉義功能,也不復雜,當然,我們崇尚不重復造輪子。

以上就是本文的全部內(nèi)容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • Notepad 輕量級文本編輯器的安裝及基本使用

    Notepad 輕量級文本編輯器的安裝及基本使用

    notepad–是一個國產(chǎn)跨平臺、輕量級的文本編輯器,是替換notepad++的一種選擇,notepad特點支持Window/Mac/Linux操作系統(tǒng)平臺,支持其他notepad競品的常用功能,這篇文章給大家介紹Notepad 輕量級文本編輯器的安裝及基本使用,感興趣的朋友一起看看吧
    2024-01-01
  • Matplotlib使用字符串代替變量繪制散點圖的方法

    Matplotlib使用字符串代替變量繪制散點圖的方法

    這篇文章主要介紹了Matplotlib使用字符串代替變量繪制散點圖的方法,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-02-02
  • Python PyInstaller庫基本使用方法分析

    Python PyInstaller庫基本使用方法分析

    這篇文章主要介紹了Python PyInstaller庫基本使用方法,結合實例形式分析了Python PyInstaller庫的功能、安裝及相關使用注意事項,需要的朋友可以參考下
    2019-12-12
  • 如何利用python的tkinter實現(xiàn)一個簡單的計算器

    如何利用python的tkinter實現(xiàn)一個簡單的計算器

    這篇文章主要給大家介紹了關于如何利用python的tkinter實現(xiàn)一個簡單的計算器的相關資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-04-04
  • Django-xadmin后臺導入json數(shù)據(jù)及后臺顯示信息圖標和主題更改方式

    Django-xadmin后臺導入json數(shù)據(jù)及后臺顯示信息圖標和主題更改方式

    這篇文章主要介紹了Django-xadmin后臺導入json數(shù)據(jù)及后臺顯示信息圖標和主題更改方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • python3 實現(xiàn)驗證碼圖片切割的方法

    python3 實現(xiàn)驗證碼圖片切割的方法

    今天小編就為大家分享一篇python3 實現(xiàn)驗證碼圖片切割的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-12-12
  • springboot aop方式實現(xiàn)接口入?yún)⑿r灥氖纠a

    springboot aop方式實現(xiàn)接口入?yún)⑿r灥氖纠a

    在實際開發(fā)項目中,我們常常需要對接口入?yún)⑦M行校驗,本文主要介紹了springboot aop方式實現(xiàn)接口入?yún)⑿r灥氖纠a,具有一定的參考價值,感興趣的可以了解一下
    2023-08-08
  • Python實現(xiàn)如何根據(jù)文件后綴進行分類

    Python實現(xiàn)如何根據(jù)文件后綴進行分類

    本文主要為大家詳細介紹了如何通過python實現(xiàn)根據(jù)文件后綴實現(xiàn)分類,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以關注一下
    2021-12-12
  • python 實現(xiàn)簡易的記事本

    python 實現(xiàn)簡易的記事本

    這篇文章主要介紹了python 實現(xiàn)簡易的記事本的示例代碼,幫助大家更好的理解和學習python,感興趣的朋友可以了解下
    2020-11-11
  • Python 解決空列表.append() 輸出為None的問題

    Python 解決空列表.append() 輸出為None的問題

    在本篇文章里小編給大家整理了一篇關于Python 解決空列表.append() 輸出為None的問題的相關內(nèi)容,有興趣的朋友們可以學習下。
    2021-05-05

最新評論