Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹

更新時間：2015年03月17日 09:14:28 投稿：junjie

這篇文章主要介紹了Python網(wǎng)頁解析利器BeautifulSoup安裝使用介紹,本文用一個完整示例一步一步安裝了BeautifulSoup的安裝和使用過程,需要的朋友可以參考下

python解析網(wǎng)頁，無出BeautifulSoup左右，此是序言

安裝

BeautifulSoup4以后的安裝需要用eazy_install，如果不需要最新的功能，安裝版本3就夠了，千萬別以為老版本就怎么怎么不好，想當(dāng)初也是千萬人在用的啊。安裝很簡單

復(fù)制代碼代碼如下:

$ wget " $ tar zxvf BeautifulSoup-3.2.1.tar.gz

然后把里面的BeautifulSoup.py這個文件放到你python安裝目錄下的site-packages目錄下

site-packages是存放Python第三方包的地方，至于這個目錄在什么地方呢，每個系統(tǒng)不一樣，可以用下面的方式找一下，基本上都能找到

復(fù)制代碼代碼如下:

$ sudo find / -name "site-packages" -maxdepth 5 -type d  

$ find ~ -name "site-packages" -maxdepth 5  

當(dāng)然如果沒有root權(quán)限就查找當(dāng)前用戶的根目錄

復(fù)制代碼代碼如下:

$ find ~ -name "site-packages" -maxdepth 5 -type d

如果你用的是Mac，哈哈，你有福了，我可以直接告訴你，Mac的這個目錄在/Library/Python/下，這個下面可能會有多個版本的目錄，沒關(guān)系，放在最新的一個版本下的site-packages就行了。使用之前先import一下

復(fù)制代碼代碼如下:

from BeautifulSoup import BeautifulSoup

使用

在使用之前我們先來看一個實例
現(xiàn)在給你這樣一個頁面

復(fù)制代碼代碼如下:

http://movie.douban.com/tag/%E5%96%9C%E5%89%A7

它是豆瓣電影分類下的喜劇電影，如果讓你找出里面評分最高的100部，該怎么做呢
好了，我先曬一下我做的，鑒于本人在CSS方面處于小白階段以及天生沒有美術(shù)細(xì)菌，界面做的也就將就能看下，別吐

接下來我們開始學(xué)習(xí)BeautifulSoup的一些基本方法，做出上面那個頁面就易如反掌了

鑒于豆瓣那個頁面比較復(fù)雜，我們先以一個簡單樣例來舉例，假設(shè)我們處理如下的網(wǎng)頁代碼

復(fù)制代碼代碼如下:

<html>  

<head><title>Page title</title></head>  

<body>  

    <p id="firstpara" align="center">  

    This is paragraph  

        <b>  

        one  

        </b>  

        .  

    </p>  

    <p id="secondpara" align="blah">  

    This is paragraph  

        <b>  

        two  

        </b>  

        .  

    </p>  

</body>  

</html>

你沒看錯，這就是官方文檔里的一個樣例，如果你有耐心，看官方文檔就足夠了，后面的你都不用看
http://www.leeon.me/upload/other/beautifulsoup-documentation-zh.html

初始化

首先將上面的HTML代碼賦給一個變量html如下，為了方便大家復(fù)制這里貼的是不帶回車的，上面帶回車的代碼可以讓大家看清楚HTML結(jié)構(gòu)

復(fù)制代碼代碼如下:

html = '<html><head><title>Page title</title></head><body><p id="firstpara" align="center">This is paragraph<b>one</b>.</p><p id="secondpara" align="blah">This is paragraph<b>two</b>.</p></body></html>'  

初始化如下：

復(fù)制代碼代碼如下:

soup = BeautifulSoup(html)

我們知道HTML代碼可以看成一棵樹，這個操作等于是把HTML代碼解析成一種樹型的數(shù)據(jù)結(jié)構(gòu)并存儲在soup中，注意這個數(shù)據(jù)結(jié)構(gòu)的根節(jié)點不是<html>，而是soup，其中html標(biāo)簽是soup的唯一子節(jié)點，不信你試試下面的操作

復(fù)制代碼代碼如下:

print soup  

print soup.contents[0]  

print soup.contents[1]  

前兩個輸出結(jié)果是一致的，就是整個html文檔，第三條輸出報錯IndexError: list index out of range

查找節(jié)點

查找節(jié)點有兩種反回形式，一種是返回單個節(jié)點，一種是返回節(jié)點list，對應(yīng)的查找函數(shù)分別為find和findAll

單個節(jié)點

1.根據(jù)節(jié)點名

復(fù)制代碼代碼如下:

## 查找head節(jié)點  

print soup.find('head') ## 輸出為<head><title>Page title</title></head>  

## or  

## head = soup.head

這種方式查找到的是待查找節(jié)點最近的節(jié)點，比如這里待查找節(jié)點是soup，這里找到的是離soup最近的一個head（如果有多個的話）

2.根據(jù)屬性

復(fù)制代碼代碼如下:

## 查找id屬性為firstpara的節(jié)點  

print soup.find(attrs={'id':'firstpara'})    

## 輸出為<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>  

## 也可節(jié)點名和屬性進(jìn)行組合  

print soup.find('p', attrs={'id':'firstpara'})  ## 輸出同上

3.根據(jù)節(jié)點關(guān)系

節(jié)點關(guān)系無非就是兄弟節(jié)點，父子節(jié)點這樣的

復(fù)制代碼代碼如下:

p1 = soup.find(attrs={'id':'firstpara'}) ## 得到第一個p節(jié)點  

print p1.nextSibling ## 下一個兄弟節(jié)點  

## 輸出<p id="secondpara" align="blah">This is paragraph<b>two</b>.</p>  

p2 = soup.find(attrs={'id':'secondpara'}) ## 得到第二個p節(jié)點  

print p2.previousSibling ## 上一個兄弟節(jié)點  

## 輸出<p id="firstpara" align="center">This is paragraph<b>one</b>.</p>  

print p2.parent ## 父節(jié)點，輸出太長這里省略部分 <body>...</body>  

print p2.contents[0] ## 第一個子節(jié)點，輸出u'This is paragraph'

多個節(jié)點

將上面介紹的find改為findAll即可返回查找到的節(jié)點列表，所需參數(shù)都是一致的

1.根據(jù)節(jié)點名

復(fù)制代碼代碼如下:

## 查找所有p節(jié)點  

soup.findAll('p')

2.根據(jù)屬性查找

復(fù)制代碼代碼如下:

## 查找id=firstpara的所有節(jié)點  

soup.findAll(attrs={'id':'firstpara'})  

需要注意的是，雖然在這個例子中只找到一個節(jié)點，但返回的仍是一個列表對象

上面的這些基本查找功能已經(jīng)可以應(yīng)付大多數(shù)情況，如果需要各個高級的查找，比如正則式，可以去看官方文檔

獲取文本

getText方法可以獲取節(jié)點下的所有文本，其中可以傳遞一個字符參數(shù)，用來分割每個各節(jié)點之間的文本

復(fù)制代碼代碼如下:

## 獲取head節(jié)點下的文本  

soup.head.getText()         ## u'Page title'  

## or  

soup.head.text  

## 獲取body下的所有文本并以\n分割  

soup.body.getText('\n')     ## u'This is paragraph\none\n.\nThis is paragraph\ntwo\n.'

實戰(zhàn)

有了這些功能，文章開頭給出的那個Demo就好做了，我們再來回顧下豆瓣的這個頁面
http://movie.douban.com/tag/%E5%96%9C%E5%89%A7
如果要得到評分前100的所有電影，對這個頁面需要提取兩個信息：1、翻頁鏈接；2、每部電影的信息（外鏈，圖片，評分、簡介、標(biāo)題等）
當(dāng)我們提取到所有電影的信息后再按評分進(jìn)行排序，選出最高的即可，這里貼出翻頁提取和電影信息提取的代碼

復(fù)制代碼代碼如下:

## filename: Grab.py  

from BeautifulSoup import BeautifulSoup, Tag  

import urllib2  

import re  

from Log import LOG  

def LOG(*argv):  

    sys.stderr.write(*argv)  

    sys.stderr.write('\n')  

class Grab():  

    url = ''  

    soup = None  

    def GetPage(self, url):  

        if url.find('http://',0,7) != 0:  

            url = 'http://' + url  

        self.url = url  

        LOG('input url is: %s' % self.url)  

        req = urllib2.Request(url, headers={'User-Agent' : "Magic Browser"})  

        try:  

            page = urllib2.urlopen(req)  

        except:  

            return  

        return page.read()    

    def ExtractInfo(self,buf):  

        if not self.soup:  

            try:  

                self.soup = BeautifulSoup(buf)  

            except:  

                LOG('soup failed in ExtractInfo :%s' % self.url)  

            return  

        try:  

            items = self.soup.findAll(attrs={'class':'item'})  

        except:  

            LOG('failed on find items:%s' % self.url)  

            return  

        links = []  

        objs = []   

        titles = []  

        scores = []  

        comments = []  

        intros = []  

        for item in items:  

            try:  

                pic = item.find(attrs={'class':'nbg'})  

                link = pic['href']  

                obj = pic.img['src']  

                info = item.find(attrs={'class':'pl2'})  

                title = re.sub('[ \t]+',' ',info.a.getText().replace(' ','').replace('\n',''))  

                star = info.find(attrs={'class':'star clearfix'})  

                score = star.find(attrs={'class':'rating_nums'}).getText().replace(' ','')  

                comment = star.find(attrs={'class':'pl'}).getText().replace(' ','')  

                intro = info.find(attrs={'class':'pl'}).getText().replace(' ','')  

            except Exception,e:  

                LOG('process error in ExtractInfo: %s' % self.url)  

                continue  

            links.append(link)  

            objs.append(obj)  

            titles.append(title)      

            scores.append(score)  

            comments.append(comment)  

            intros.append(intro)  

        return(links, objs, titles, scores, comments, intros)  

    def ExtractPageTurning(self,buf):  

        links = set([])  

        if not self.soup:  

            try:  

                self.soup = BeautifulSoup(buf)  

            except:  

                LOG('soup failed in ExtractPageTurning:%s' % self.url)  

                return  

        try:  

            pageturning = self.soup.find(attrs={'class':'paginator'})  

            a_nodes = pageturning.findAll('a')  

            for a_node in a_nodes:  

                href = a_node['href']  

                if href.find('http://',0,7) == -1:  

                    href = self.url.split('?')[0] + href  

                links.add(href)  

        except:  

            LOG('get pageturning failed in ExtractPageTurning:%s' % self.url)  

        return links  

    def Destroy(self):  

        del self.soup  

        self.soup = None

接著我們再來寫個測試樣例

復(fù)制代碼代碼如下:

## filename: test.py  

#encoding: utf-8  

from Grab import Grab  

import sys  

reload(sys)  

sys.setdefaultencoding('utf-8')  

grab = Grab()  

buf = grab.GetPage('http://movie.douban.com/tag/喜劇?start=160&type=T')  

if not buf:  

        print 'GetPage failed!'  

        sys.exit()  

links, objs, titles, scores, comments, intros = grab.ExtractInfo(buf)  

for link, obj, title, score, comment, intro in zip(links, objs, titles, scores, comments, intros):  

        print link+'\t'+obj+'\t'+title+'\t'+score+'\t'+comment+'\t'+intro  

pageturning = grab.ExtractPageTurning(buf)  

for link in pageturning:  

        print link  

grab.Destroy()

OK，完成這一步接下來的事兒就自個看著辦吧
本文只是介紹了BeautifulSoup的皮毛而已，目的是為了讓大家快速學(xué)會一些基本要領(lǐng)，想當(dāng)初我要用什么功能都是去BeautifulSoup的源代碼里一個函數(shù)一個函數(shù)看然后才會的，一把辛酸淚啊，所以希望后來者能夠通過更便捷的方式去掌握一些基本功能，也不枉我一字一句敲出這篇文章，尤其是這些代碼的排版，真是傷透了腦筋

您可能感興趣的文章: