欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python去除html標(biāo)簽的幾種方法總結(jié)

 更新時間:2023年01月03日 15:25:42   作者:一行書辭  
這篇文章主要介紹了Python去除html標(biāo)簽的幾種方法總結(jié),具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教

Python去除html標(biāo)簽的方法

最近小說看得比較多,但是很多小說網(wǎng)站都存在各種小廣告,看起來很不方便,所以就自己寫了個小程序,把小說都爬下來,然后搭個自己喜歡web頁面來看。

在爬取過程中沒有出現(xiàn)太大的問題,只有在清洗數(shù)據(jù)時,發(fā)現(xiàn)小說文本中混雜HTML標(biāo)簽,所以就需要對標(biāo)簽進(jìn)行清洗。

我自己嘗試了字符串的處理方式,正則,還有l(wèi)xml等方式來處理這個問題,現(xiàn)在記錄一下使用方式。

我們使用下面這個字符串舉例說明,內(nèi)容為一段html代碼。需要對這段字符串進(jìn)行處理,提取文本

html = '<p>你好</p><br/><font>哈哈</font><b>大家好</b>'

1. 使用正則來處理

import re

pattern = re.compile(r'<[^>]+>',re.S)
result = pattern.sub('', html)
print(result)

輸出結(jié)果:

你好哈哈大家好

2. 使用BeautifulSoup來處理

from bs4 import BeautifulSoup

soup = BeautifulSoup(html,'html.parser')
print(soup.get_text())

輸出結(jié)果:

你好哈哈大家好

3. 使用lxml來出來

from lxml import etree

response = etree.HTML(text=html)
# print(dir(response))
print(response.xpath('string(.)'))

輸出結(jié)果:

你好哈哈大家好

python正則表達(dá)式去除html標(biāo)簽的屬性

import re
test='<p class="pictext" align="center">陳細(xì)妹</p>'
test=re.sub(r'(<[^>\s]+)\s[^>]+?(>)', r'\1\2', test)
print(test)

輸出

<p>陳細(xì)妹</p>

總結(jié)

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Django Serializer HiddenField隱藏字段實例

    Django Serializer HiddenField隱藏字段實例

    這篇文章主要介紹了Django Serializer HiddenField隱藏字段實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • python打開隱藏控制臺方法詳解

    python打開隱藏控制臺方法詳解

    這篇文章主要為大家介紹了python打開隱藏控制臺方法詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-10-10
  • 基于python實現(xiàn)對文件進(jìn)行切分行

    基于python實現(xiàn)對文件進(jìn)行切分行

    這篇文章主要介紹了基于python實現(xiàn)對文件進(jìn)行切分行,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-04-04
  • Python字符串常規(guī)操作小結(jié)

    Python字符串常規(guī)操作小結(jié)

    本文主要介紹了Python字符串常規(guī)操作小結(jié),如拼接字符串、截取字符串、格式化字符串等,下面將對Python中常用字符串操作方法進(jìn)行介紹,感興趣的可以了解一下
    2022-04-04
  • 使用python制作九九乘法表的四種方法小結(jié)

    使用python制作九九乘法表的四種方法小結(jié)

    九九乘法表是初學(xué)者學(xué)習(xí)編程的必要練手題目之一,因此各種語言都有對應(yīng)的實現(xiàn)方式,而 Python 也不例外,在 Python 中,我們可以使用多種方式來生成一個簡單的九九乘法表,本文給大家總結(jié)了使用python制作九九乘法表的四種方法,需要的朋友可以參考下
    2024-03-03
  • python函數(shù)與方法的區(qū)別總結(jié)

    python函數(shù)與方法的區(qū)別總結(jié)

    在本篇文章里小編給大家整理了關(guān)于python函數(shù)與方法的區(qū)別的相關(guān)知識點代碼內(nèi)容,需要的朋友們學(xué)習(xí)下。
    2019-06-06
  • python文本進(jìn)度條實例

    python文本進(jìn)度條實例

    這篇文章主要為大家介紹了python文本進(jìn)度條,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2021-12-12
  • 利用pandas進(jìn)行數(shù)據(jù)清洗的7種方式

    利用pandas進(jìn)行數(shù)據(jù)清洗的7種方式

    采集到原始的數(shù)據(jù)中會存在一些噪點數(shù)據(jù),噪點數(shù)據(jù)是對分析無意義或者對分析起到偏執(zhí)作用的數(shù)據(jù),所以這篇文章給大家介紹了利用pandas進(jìn)行數(shù)據(jù)清洗的7種方式,需要的朋友可以參考下
    2024-03-03
  • Django中Cookie搭配Session使用實踐

    Django中Cookie搭配Session使用實踐

    session和cookie功能差不多,同樣是用來記錄用戶信息和維持會話狀態(tài)的,但是session是依賴cookie的,本文主要介紹了Django中Cookie搭配Session使用實踐,感興趣的可以了解一下
    2021-09-09
  • python如何統(tǒng)計代碼運行的時長

    python如何統(tǒng)計代碼運行的時長

    這篇文章主要介紹了python如何統(tǒng)計代碼運行的時長,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-07-07

最新評論