欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python轉(zhuǎn)換HTML到Text純文本的方法

 更新時間:2015年01月15日 10:27:37   投稿:shichen2014  
這篇文章主要介紹了Python轉(zhuǎn)換HTML到Text純文本的方法,分析了常用的兩種方法,非常具有實用價值,需要的朋友可以參考下

本文實例講述了Python轉(zhuǎn)換HTML到Text純文本的方法。分享給大家供大家參考。具體分析如下:

今天項目需要將HTML轉(zhuǎn)換為純文本,去網(wǎng)上搜了一下,發(fā)現(xiàn)Python果然是神通廣大,無所不能,方法是五花八門。

拿今天親自試的兩個方法舉例,以方便后人:

方法一:

1. 安裝nltk,可以去pipy裝

(注:需要依賴以下包:numpy, PyYAML)

2.測試代碼:

復(fù)制代碼 代碼如下:
>>> import nltk 
>>> aa = r'''''
<html>
    <body>
 <b>Project:</b> DeHTML<br>
 <b>Description</b>:<br>
 This small script is intended to allow conversion from HTML markup to 
 plain text.
    </body>
</html>
'''
>>> aa 
'\n<html>\n            <body>\n                <b>Project:</b> DeHTML<br>\n                <b>Description</b>:<br>\n                This small script is intended to allow conversion from HTML markup to \n                plain text.\n            </body>\n        </html>\n        ' 
>>> <strong>print nltk.clean_html(aa)</strong> 
Project: DeHTML  
     Description :  
    This small script is intended to allow conversion from HTML markup to  
    plain text.

方法二:

如果覺得nltk太笨重,大材小用的話,可以自己寫代碼,代碼如下:

復(fù)制代碼 代碼如下:
from HTMLParser import HTMLParser 
from re import sub 
from sys import stderr 
from traceback import print_exc 
 
class _DeHTMLParser(HTMLParser): 
    def __init__(self): 
        HTMLParser.__init__(self) 
        self.__text = [] 
 
    def handle_data(self, data): 
        text = data.strip() 
        if len(text) > 0: 
            text = sub('[ \t\r\n]+', ' ', text) 
            self.__text.append(text + ' ') 
 
    def handle_starttag(self, tag, attrs): 
        if tag == 'p': 
            self.__text.append('\n\n') 
        elif tag == 'br': 
            self.__text.append('\n') 
 
    def handle_startendtag(self, tag, attrs): 
        if tag == 'br': 
            self.__text.append('\n\n') 
 
    def text(self): 
        return ''.join(self.__text).strip() 
 
 
def dehtml(text): 
    try: 
        parser = _DeHTMLParser() 
        parser.feed(text) 
        parser.close() 
        return parser.text() 
    except: 
        print_exc(file=stderr) 
        return text 
 
 
def main(): 
    text = r'''''
        <html>
            <body>
                <b>Project:</b> DeHTML<br>
                <b>Description</b>:<br>
                This small script is intended to allow conversion from HTML markup to 
                plain text.
            </body>
        </html>
    ''' 
    print(dehtml(text)) 
 
 
if __name__ == '__main__': 
    main()

運行結(jié)果:

>>> ================================ RESTART ================================ 
>>>  
Project: DeHTML  
Description :  
This small script is intended to allow conversion from HTML markup to plain text. 

希望本文所述對大家的Python程序設(shè)計有所幫助。

相關(guān)文章

  • Python使用xlrd和xlwt批量讀寫excel文件的示例代碼

    Python使用xlrd和xlwt批量讀寫excel文件的示例代碼

    這篇文章主要介紹了Python使用xlrd和xlwt批量讀寫excel文件,本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-03-03
  • 解決PyQt5 無邊框后窗口的移動問題

    解決PyQt5 無邊框后窗口的移動問題

    這篇文章主要介紹了解決PyQt5 無邊框后窗口的移動問題,具有很好的參考價值,希望對大家有所幫助,一起跟隨小編過來看看吧
    2021-03-03
  • python中time包實例詳解

    python中time包實例詳解

    在本篇文章里小編給大家整理的是一篇關(guān)于python中time包實例詳解內(nèi)容,對此有興趣的朋友們可以學(xué)習(xí)下。
    2021-02-02
  • python3實現(xiàn)點餐系統(tǒng)

    python3實現(xiàn)點餐系統(tǒng)

    這篇文章主要為大家詳細(xì)介紹了python3實現(xiàn)點餐系統(tǒng),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-01-01
  • python循環(huán)輸出三角形圖案的例子

    python循環(huán)輸出三角形圖案的例子

    今天小編就為大家分享一篇python循環(huán)輸出三角形圖案的例子,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-11-11
  • Python 將pdf轉(zhuǎn)成圖片的方法

    Python 將pdf轉(zhuǎn)成圖片的方法

    下面小編就為大家分享一篇Python 將pdf轉(zhuǎn)成圖片的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Python如何對文件進(jìn)行重命名

    Python如何對文件進(jìn)行重命名

    這篇文章主要介紹了Python如何對文件進(jìn)行重命名,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-06-06
  • Python命令啟動Web服務(wù)器實例詳解

    Python命令啟動Web服務(wù)器實例詳解

    這篇文章主要介紹了Python命令啟動Web服務(wù)器實例詳解的相關(guān)資料,需要的朋友可以參考下
    2017-02-02
  • python dict 相同key 合并value的實例

    python dict 相同key 合并value的實例

    今天小編就為大家分享一篇python dict 相同key 合并value的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Sphinx環(huán)境配置及VScode編寫Rst文檔轉(zhuǎn)html的步驟

    Sphinx環(huán)境配置及VScode編寫Rst文檔轉(zhuǎn)html的步驟

    sphinx主要用于編寫 reStructuredText 和 Markdown 格式技術(shù)文檔,編寫此類技術(shù)文檔時Sphinx工具可將其轉(zhuǎn)為html、pdf、ePub等格式,這篇文章主要介紹了Sphinx環(huán)境配置及VScode編寫Rst文檔轉(zhuǎn)html,需要的朋友可以參考下
    2023-03-03

最新評論