欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹

 更新時間:2015年03月17日 09:14:28   投稿:junjie  
這篇文章主要介紹了Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹,本文用一個完整示例一步一步安裝了BeautifulSoup的安裝和使用過程,需要的朋友可以參考下

python解析網(wǎng)頁,無出BeautifulSoup左右,此是序言

安裝

BeautifulSoup4以后的安裝需要用eazy_install,如果不需要最新的功能,安裝版本3就夠了,千萬別以為老版本就怎么怎么不好,想當初也是千萬人在用的啊。安裝很簡單

復(fù)制代碼 代碼如下:

然后把里面的BeautifulSoup.py這個文件放到你python安裝目錄下的site-packages目錄下

site-packages是存放Python第三方包的地方,至于這個目錄在什么地方呢,每個系統(tǒng)不一樣,可以用下面的方式找一下,基本上都能找到

復(fù)制代碼 代碼如下:

$ sudo find / -name "site-packages" -maxdepth 5 -type d 
$ find ~ -name "site-packages" -maxdepth 5 

當然如果沒有root權(quán)限就查找當前用戶的根目錄
復(fù)制代碼 代碼如下:

$ find ~ -name "site-packages" -maxdepth 5 -type d 

如果你用的是Mac,哈哈,你有福了,我可以直接告訴你,Mac的這個目錄在/Library/Python/下,這個下面可能會有多個版本的目錄,沒關(guān)系,放在最新的一個版本下的site-packages就行了。使用之前先import一下
復(fù)制代碼 代碼如下:

from BeautifulSoup import BeautifulSoup 

使用

在使用之前我們先來看一個實例
現(xiàn)在給你這樣一個頁面

復(fù)制代碼 代碼如下:

它是豆瓣電影分類下的喜劇電影,如果讓你找出里面評分最高的100部,該怎么做呢
好了,我先曬一下我做的,鑒于本人在CSS方面處于小白階段以及天生沒有美術(shù)細菌,界面做的也就將就能看下,別吐

接下來我們開始學(xué)習(xí)BeautifulSoup的一些基本方法,做出上面那個頁面就易如反掌了

鑒于豆瓣那個頁面比較復(fù)雜,我們先以一個簡單樣例來舉例,假設(shè)我們處理如下的網(wǎng)頁代碼

復(fù)制代碼 代碼如下:

<html> 
<head><title>Page title</title></head> 
<body> 
    <p id="firstpara" align="center"> 
    This is paragraph 
        <b> 
        one 
        </b> 
        . 
    </p> 
    <p id="secondpara" align="blah"> 
    This is paragraph 
        <b> 
        two 
        </b> 
        . 
    </p> 
</body> 
</html> 

你沒看錯,這就是官方文檔里的一個樣例,如果你有耐心,看官方文檔就足夠了,后面的你都不用看
http://www.leeon.me/upload/other/beautifulsoup-documentation-zh.html

初始化

首先將上面的HTML代碼賦給一個變量html如下,為了方便大家復(fù)制這里貼的是不帶回車的,上面帶回車的代碼可以讓大家看清楚HTML結(jié)構(gòu)

復(fù)制代碼 代碼如下:

html = '<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>' 

初始化如下:
復(fù)制代碼 代碼如下:

soup = BeautifulSoup(html) 

我們知道HTML代碼可以看成一棵樹,這個操作等于是把HTML代碼解析成一種樹型的數(shù)據(jù)結(jié)構(gòu)并存儲在soup中,注意這個數(shù)據(jù)結(jié)構(gòu)的根節(jié)點不是<html>,而是soup,其中html標簽是soup的唯一子節(jié)點,不信你試試下面的操作
復(fù)制代碼 代碼如下:

print soup 
print soup.contents[0] 
print soup.contents[1] 

前兩個輸出結(jié)果是一致的,就是整個html文檔,第三條輸出報錯IndexError: list index out of range

查找節(jié)點

查找節(jié)點有兩種反回形式,一種是返回單個節(jié)點,一種是返回節(jié)點list,對應(yīng)的查找函數(shù)分別為find和findAll

單個節(jié)點

1.根據(jù)節(jié)點名

復(fù)制代碼 代碼如下:

## 查找head節(jié)點 
print soup.find('head') ## 輸出為<head><title>Page title</title></head> 
## or 
## head = soup.head 

這種方式查找到的是待查找節(jié)點最近的節(jié)點,比如這里待查找節(jié)點是soup,這里找到的是離soup最近的一個head(如果有多個的話)

2.根據(jù)屬性

復(fù)制代碼 代碼如下:

## 查找id屬性為firstpara的節(jié)點 
print soup.find(attrs={'id':'firstpara'})   
## 輸出為<p id="firstpara" align="center">This is paragraph<b>one</b>.</p> 
## 也可節(jié)點名和屬性進行組合 
print soup.find('p', attrs={'id':'firstpara'})  ## 輸出同上

3.根據(jù)節(jié)點關(guān)系

節(jié)點關(guān)系無非就是兄弟節(jié)點,父子節(jié)點這樣的

復(fù)制代碼 代碼如下:

p1 = soup.find(attrs={'id':'firstpara'}) ## 得到第一個p節(jié)點 
print p1.nextSibling ## 下一個兄弟節(jié)點 
## 輸出<p id="secondpara" align="blah">This is paragraph<b>two</b>.</p> 
p2 = soup.find(attrs={'id':'secondpara'}) ## 得到第二個p節(jié)點 
print p2.previousSibling ## 上一個兄弟節(jié)點 
## 輸出<p id="firstpara" align="center">This is paragraph<b>one</b>.</p> 
print p2.parent ## 父節(jié)點,輸出太長這里省略部分 <body>...</body> 
print p2.contents[0] ## 第一個子節(jié)點,輸出u'This is paragraph'

多個節(jié)點

將上面介紹的find改為findAll即可返回查找到的節(jié)點列表,所需參數(shù)都是一致的

1.根據(jù)節(jié)點名

復(fù)制代碼 代碼如下:

## 查找所有p節(jié)點 
soup.findAll('p')

2.根據(jù)屬性查找
復(fù)制代碼 代碼如下:

## 查找id=firstpara的所有節(jié)點 
soup.findAll(attrs={'id':'firstpara'}) 

需要注意的是,雖然在這個例子中只找到一個節(jié)點,但返回的仍是一個列表對象

上面的這些基本查找功能已經(jīng)可以應(yīng)付大多數(shù)情況,如果需要各個高級的查找,比如正則式,可以去看官方文檔

獲取文本

getText方法可以獲取節(jié)點下的所有文本,其中可以傳遞一個字符參數(shù),用來分割每個各節(jié)點之間的文本

復(fù)制代碼 代碼如下:

## 獲取head節(jié)點下的文本 
soup.head.getText()         ## u'Page title' 
## or 
soup.head.text 
## 獲取body下的所有文本并以\n分割 
soup.body.getText('\n')     ## u'This is paragraph\none\n.\nThis is paragraph\ntwo\n.' 

實戰(zhàn)

有了這些功能,文章開頭給出的那個Demo就好做了,我們再來回顧下豆瓣的這個頁面
http://movie.douban.com/tag/%E5%96%9C%E5%89%A7
如果要得到評分前100的所有電影,對這個頁面需要提取兩個信息:1、翻頁鏈接;2、每部電影的信息(外鏈,圖片,評分、簡介、標題等)
當我們提取到所有電影的信息后再按評分進行排序,選出最高的即可,這里貼出翻頁提取和電影信息提取的代碼

復(fù)制代碼 代碼如下:

## filename: Grab.py 
from BeautifulSoup import BeautifulSoup, Tag 
import urllib2 
import re 
from Log import LOG 
 
def LOG(*argv): 
    sys.stderr.write(*argv) 
    sys.stderr.write('\n') 
 
class Grab(): 
    url = '' 
    soup = None 
    def GetPage(self, url): 
        if url.find('http://',0,7) != 0: 
            url = 'http://' + url 
        self.url = url 
        LOG('input url is: %s' % self.url) 
        req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"}) 
        try: 
            page = urllib2.urlopen(req) 
        except: 
            return 
        return page.read()   
 
    def ExtractInfo(self,buf): 
        if not self.soup: 
            try: 
                self.soup = BeautifulSoup(buf) 
            except: 
                LOG('soup failed in ExtractInfo :%s' % self.url) 
            return 
        try: 
            items = self.soup.findAll(attrs={'class':'item'}) 
        except: 
            LOG('failed on find items:%s' % self.url) 
            return 
        links = [] 
        objs = []  
        titles = [] 
        scores = [] 
        comments = [] 
        intros = [] 
        for item in items: 
            try: 
                pic = item.find(attrs={'class':'nbg'}) 
                link = pic['href'] 
                obj = pic.img['src'] 
                info = item.find(attrs={'class':'pl2'}) 
                title = re.sub('[ \t]+',' ',info.a.getText().replace(' ','').replace('\n','')) 
                star = info.find(attrs={'class':'star clearfix'}) 
                score = star.find(attrs={'class':'rating_nums'}).getText().replace(' ','') 
                comment = star.find(attrs={'class':'pl'}).getText().replace(' ','') 
                intro = info.find(attrs={'class':'pl'}).getText().replace(' ','') 
            except Exception,e: 
                LOG('process error in ExtractInfo: %s' % self.url) 
                continue 
            links.append(link) 
            objs.append(obj) 
            titles.append(title)     
            scores.append(score) 
            comments.append(comment) 
            intros.append(intro) 
        return(links, objs, titles, scores, comments, intros) 
 
    def ExtractPageTurning(self,buf): 
        links = set([]) 
        if not self.soup: 
            try: 
                self.soup = BeautifulSoup(buf) 
            except: 
                LOG('soup failed in ExtractPageTurning:%s' % self.url) 
                return 
        try: 
            pageturning = self.soup.find(attrs={'class':'paginator'}) 
            a_nodes = pageturning.findAll('a') 
            for a_node in a_nodes: 
                href = a_node['href'] 
                if href.find('http://',0,7) == -1: 
                    href = self.url.split('?')[0] + href 
                links.add(href) 
        except: 
            LOG('get pageturning failed in ExtractPageTurning:%s' % self.url) 
 
        return links 
 
    def Destroy(self): 
        del self.soup 
        self.soup = None 

接著我們再來寫個測試樣例

復(fù)制代碼 代碼如下:

## filename: test.py 
#encoding: utf-8 
from Grab import Grab 
import sys 
reload(sys) 
sys.setdefaultencoding('utf-8') 
 
grab = Grab() 
buf = grab.GetPage('http://movie.douban.com/tag/喜劇?start=160&type=T') 
if not buf: 
        print 'GetPage failed!' 
        sys.exit() 
links, objs, titles, scores, comments, intros = grab.ExtractInfo(buf) 
for link, obj, title, score, comment, intro in zip(links, objs, titles, scores, comments, intros): 
        print link+'\t'+obj+'\t'+title+'\t'+score+'\t'+comment+'\t'+intro 
pageturning = grab.ExtractPageTurning(buf) 
for link in pageturning: 
        print link 
grab.Destroy() 

OK,完成這一步接下來的事兒就自個看著辦吧
本文只是介紹了BeautifulSoup的皮毛而已,目的是為了讓大家快速學(xué)會一些基本要領(lǐng),想當初我要用什么功能都是去BeautifulSoup的源代碼里一個函數(shù)一個函數(shù)看然后才會的,一把辛酸淚啊,所以希望后來者能夠通過更便捷的方式去掌握一些基本功能,也不枉我一字一句敲出這篇文章,尤其是這些代碼的排版,真是傷透了腦筋

相關(guān)文章

  • 用Python中的__slots__緩存資源以節(jié)省內(nèi)存開銷的方法

    用Python中的__slots__緩存資源以節(jié)省內(nèi)存開銷的方法

    這篇文章主要介紹了用Python中的__slots__通過緩存資源的方式以節(jié)省內(nèi)存開銷的方法,且示例代碼非常簡單,需要的朋友可以參考下
    2015-04-04
  • python實現(xiàn)微信小程序自動回復(fù)

    python實現(xiàn)微信小程序自動回復(fù)

    這篇文章主要介紹了python實現(xiàn)微信小程序自動回復(fù),使用itchat模塊進行微信私聊消息以及群消息自動回復(fù),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-09-09
  • Python實現(xiàn)Dijkstra算法

    Python實現(xiàn)Dijkstra算法

    今天小編就為大家分享一篇關(guān)于Python實現(xiàn)Dijkstra算法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2018-10-10
  • Python字符串格式化輸出代碼實例

    Python字符串格式化輸出代碼實例

    這篇文章主要介紹了Python字符串格式化輸出代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-11-11
  • Python實現(xiàn)定時任務(wù)的九種方案總結(jié)

    Python實現(xiàn)定時任務(wù)的九種方案總結(jié)

    定時任務(wù)是編程中常見的需求,它可以按照預(yù)定的時間表執(zhí)行特定的任務(wù)或操作,在Python中,有多種方法可以實現(xiàn)定時任務(wù),下面小編就來和大家詳細講講吧
    2023-11-11
  • 使用python將最新的測試報告以附件的形式發(fā)到指定郵箱

    使用python將最新的測試報告以附件的形式發(fā)到指定郵箱

    這篇文章主要介紹了使用python將最新的測試報告以附件的形式發(fā)到指定郵箱,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-09-09
  • 基于python-pptx庫中文文檔及使用詳解

    基于python-pptx庫中文文檔及使用詳解

    今天小編就為大家分享一篇基于python-pptx庫中文文檔及使用詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • 讓Python腳本暫停執(zhí)行的幾種方法(小結(jié))

    讓Python腳本暫停執(zhí)行的幾種方法(小結(jié))

    這篇文章主要介紹了讓Python腳本暫停執(zhí)行的幾種方法,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-07-07
  • python BeautifulSoup設(shè)置頁面編碼的方法

    python BeautifulSoup設(shè)置頁面編碼的方法

    這篇文章主要介紹了python BeautifulSoup設(shè)置頁頁編碼的方法,本文直接給出代碼救命,需要的朋友可以參考下
    2015-04-04
  • 分享一些非常實用的Python小技巧

    分享一些非常實用的Python小技巧

    這篇文章主要分享一些非常實用的Python小技巧,助力你在Python學(xué)習(xí)的道路上一帆風(fēng)順,接下來就一起來學(xué)習(xí)一下吧
    2023-03-03

最新評論