欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中使用HTMLParser解析html實例

 更新時間:2015年02月08日 09:35:18   投稿:junjie  
這篇文章主要介紹了Python中使用HTMLParser解析html實例,本文直接給出使用示例,并總結(jié)出HTMLParser含有的方法分為兩類,一類是需要顯式調(diào)用的,而另一類不需顯示調(diào)用,需要的朋友可以參考下

前幾天遇到一個問題,需要把網(wǎng)頁中的一部分內(nèi)容挑出來,于是找到了urllib和HTMLParser兩個庫.urllib可以將網(wǎng)頁爬下來,然后交由HTMLParser解析,初次使用這個庫,在查官方文檔時也遇到了一些問題,在這里寫下來與大家分享.

一個例子

復(fù)制代碼 代碼如下:

from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
  def handle_starttag(self, tag, attrs):
    print "a start tag:",tag,self.getpos()
parser=MyHTMLParser()
parser.feed('<div><p>"hello"</p></div>')

這個例子里HTMLParser是基類,重載了他的handle_starttag方法,輸出了一些信息.parser是MyHTMLParser的實例,調(diào)用feed方法開始解析函數(shù).值得注意的是,不需要顯示調(diào)用handle_starttag方法就會執(zhí)行.

HTMLParser方法的調(diào)用方式困惑了我很長時間,看了很多博文才恍然大悟,HTMLParser含有的方法分為兩類,一類是需要顯式調(diào)用的,而另一類不需顯示調(diào)用.

不需顯式調(diào)用的方法

下面的這些函數(shù)在解析的過程中會觸發(fā),但是默認情況下不會產(chǎn)生任何副作用,因而我們要根據(jù)自己的需求重載.

1.HTMLParser.handle_starttag(tag,attrs): 解析時遇到開始標(biāo)簽調(diào)用,如<p class='para'>,參數(shù)tag是標(biāo)簽名,這里是'p',attrs為標(biāo)簽所有屬性(name,value)列表,這里是[('class','para')]

2.HTMLParser.handle_endtag(tag): 遇到結(jié)束標(biāo)簽時調(diào)用,tag是標(biāo)簽名

3.HTMLPars.handle_data(data): 遇到標(biāo)簽中間的內(nèi)容時調(diào)用,如<style> p {color: blue; }</style>,參數(shù)data為開閉標(biāo)簽間的內(nèi)容.值得注意的是在形如<div><p>...</p></div>的位置,并不會在div處調(diào)用,而是只在p處調(diào)用

當(dāng)然還有其他函數(shù),這里不做介紹

顯式調(diào)用的方法

1.HTMLParser.feed(data): 參數(shù)為需要解析的html字符串,調(diào)用后字符串開始被解析

2.HTMLParser.getpos(): 返回當(dāng)前的行號和偏移位置,如(23,5)

3.HTMLParser.get_starttag_text(): 返回當(dāng)前位置最近的開始標(biāo)簽的內(nèi)容

所有的內(nèi)容寫完了,最后還有一點注意事項,HTMLParser只是一個簡單的模塊,解析html的功能并不完善,例如不能準(zhǔn)確的分別開標(biāo)簽和"自閉標(biāo)簽",看下面代碼:

復(fù)制代碼 代碼如下:

from HTMLParser import HTMLParser
class MyHTMLParser(HTMLParser):
  def handle_starttag(self,tag,attrs):
    print 'begin tag',tag
  def handle_startendtag(self,tag,attrs):
    print 'begin end tag',tag

str1='<br>'
str2='<br/>'
parser=MyHTMLParser()

parser.feed(str1)    # 輸出 "begin tag br"
parser.feed(str2)    # 輸出 "begin end br"

相關(guān)文章

  • python中namedtuple函數(shù)的用法解析

    python中namedtuple函數(shù)的用法解析

    這篇文章主要介紹了python中namedtuple函數(shù)的用法解析,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,感興趣的小伙伴可以參考一下
    2022-08-08
  • Python列表與元組操作技巧分享

    Python列表與元組操作技巧分享

    Python 中的列表(List)和元組(Tuple)是兩種常用的數(shù)據(jù)結(jié)構(gòu),它們都可以用來存儲一系列的元素,在本文中,我們將分享一些 Python 中列表和元組的操作技巧,幫助您更好地理解它們的用法和特性,需要的朋友可以參考下
    2024-05-05
  • Django模板之基本的 for 循環(huán) 和 List內(nèi)容的顯示方式

    Django模板之基本的 for 循環(huán) 和 List內(nèi)容的顯示方式

    這篇文章主要介紹了Django模板之基本的 for 循環(huán) 和 List內(nèi)容的顯示方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-03-03
  • Python寫的Discuz7.2版faq.php注入漏洞工具

    Python寫的Discuz7.2版faq.php注入漏洞工具

    這篇文章主要介紹了Python寫的Discuz7.2版faq.php注入漏洞工具,全自動的一款注入工具,針對Discuz7.2版,需要的朋友可以參考下
    2014-08-08
  • Pytorch基礎(chǔ)之torch.randperm的使用

    Pytorch基礎(chǔ)之torch.randperm的使用

    這篇文章主要介紹了Pytorch基礎(chǔ)之torch.randperm的使用方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-02-02
  • python3+mysql查詢數(shù)據(jù)并通過郵件群發(fā)excel附件

    python3+mysql查詢數(shù)據(jù)并通過郵件群發(fā)excel附件

    這篇文章主要為大家詳細介紹了python3+mysql查詢數(shù)據(jù),并通過郵件群發(fā)excel附件,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • Python實現(xiàn)向好友發(fā)送微信消息優(yōu)化篇

    Python實現(xiàn)向好友發(fā)送微信消息優(yōu)化篇

    利用python可以實現(xiàn)微信消息發(fā)送功能,怎么實現(xiàn)呢?你肯定會想著很復(fù)雜,但是python的好處就是很多人已經(jīng)把接口打包做好了,只需要調(diào)用即可,今天通過本文給大家分享使用?Python?實現(xiàn)微信消息發(fā)送的思路代碼,一起看看吧
    2022-06-06
  • python+selenium+chrome批量文件下載并自動創(chuàng)建文件夾實例

    python+selenium+chrome批量文件下載并自動創(chuàng)建文件夾實例

    這篇文章主要介紹了python+selenium+chrome批量文件下載并自動創(chuàng)建文件夾實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-04-04
  • Python AutoCAD 系統(tǒng)設(shè)置的實現(xiàn)方法

    Python AutoCAD 系統(tǒng)設(shè)置的實現(xiàn)方法

    這篇文章主要介紹了Python AutoCAD 系統(tǒng)設(shè)置的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-04-04
  • PyTorch?device與cuda.device用法介紹

    PyTorch?device與cuda.device用法介紹

    這篇文章主要介紹了PyTorch?device與cuda.device用法,本文給大家介紹的非常詳細,對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2022-04-04

最新評論