欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python中裝飾器的一個(gè)妙用

 更新時(shí)間:2015年02月08日 09:57:24   投稿:junjie  
這篇文章主要介紹了Python中裝飾器的一個(gè)妙用,本文是在寫(xiě)一個(gè)爬蟲(chóng)程序時(shí)總結(jié)而來(lái),實(shí)現(xiàn)定義一個(gè)裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù),如果之前沒(méi)有取到,那么就從網(wǎng)站拉取,并且存入cache中,需要的朋友可以參考下

好吧,我知道是大半夜……,但我還是覺(jué)得趕緊花上半個(gè)小時(shí),把這最新的想法分享出來(lái)是值得的~直接進(jìn)入正題~

我們來(lái)模擬一個(gè)場(chǎng)景,需要你去抓去一個(gè)頁(yè)面,然后這個(gè)頁(yè)面有好多url也要分別去抓取,而進(jìn)入這些子url后,還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn),我們就按照三層來(lái)看,那我們的代碼就是如下:

復(fù)制代碼 代碼如下:

def func_top(url):
    data_dict= {}
 
    #在頁(yè)面上獲取到子url
    sub_urls = xxxx
 
    data_list = []
    for it in sub_urls:
        data_list.append(func_sub(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_sub(url):
    data_dict= {}
 
    #在頁(yè)面上獲取到子url
    bottom_urls = xxxx
 
    data_list = []
    for it in bottom_urls:
        data_list.append(func_bottom(it))
 
    data_dict[\'data\'] = data_list
 
    return data_dict
 
def func_bottom(url):
    #獲取數(shù)據(jù)
    data = xxxx
    return data

func_top是上層頁(yè)面的處理函數(shù),func_sub是子頁(yè)面的處理函數(shù),func_bottom是最深層頁(yè)面的處理函數(shù),func_top會(huì)在取到子頁(yè)面url后遍歷調(diào)用func_sub,func_sub也是同樣。

如果正常情況下,這樣確實(shí)已經(jīng)滿(mǎn)足需求了,但是偏偏這個(gè)你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。

于是這個(gè)時(shí)候你有兩個(gè)選擇:

1.遇到錯(cuò)誤就停止,之后重新從斷掉的位置開(kāi)始重新跑
2.遇到錯(cuò)誤繼續(xù),但是要在之后重新跑一遍,這個(gè)時(shí)候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒(méi)有取到的數(shù)據(jù)

對(duì)第一種方案基本無(wú)法實(shí)現(xiàn),因?yàn)槿绻麆e人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無(wú)效了。那么只有第二種方案,說(shuō)白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來(lái),等需要的時(shí)候,直接從cache里面取。

OK,目標(biāo)已經(jīng)有了,怎么實(shí)現(xiàn)呢?

如果是在C++中的,這是個(gè)很麻煩的事情,而且寫(xiě)出來(lái)的代碼必定丑陋無(wú)比,然而慶幸的是,我們用的是python,而python對(duì)函數(shù)有裝飾器。

所以實(shí)現(xiàn)方案也就有了:

定義一個(gè)裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒(méi)有取到,那么就從網(wǎng)站拉取,并且存入cache中.

代碼如下:

復(fù)制代碼 代碼如下:

def get_dump_data(dir_name, url):
    m = hashlib.md5(url)
    filename = m.hexdigest()
    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
 
    if os.path.isfile(full_file_name):
        return eval(file(full_file_name,\'r\').read())
    else:
        return None
 
 
def set_dump_data(dir_name, url, data):
    if not os.path.isdir(\'dumps/\'+dir_name):
        os.makedirs(\'dumps/\'+dir_name)
 
    m = hashlib.md5(url)
    filename = m.hexdigest()
    full_file_name = \'dumps/%s/%s\' % (dir_name,filename)
 
    f = file(full_file_name, \'w+\')
    f.write(repr(data))
    f.close()
 
 
def deco_dump_data(func):
    def func_wrapper(url):
        data = get_dump_data(func.__name__,url)
        if data is not None:
            return data
 
        data = func(url)
        if data is not None:
            set_dump_data(func.__name__,url,data)
        return data
 
    return func_wrapper

然后,我們只需要在每個(gè)func_top,func_sub,func_bottom都加上deco_dump_data這個(gè)裝飾器即可~~

搞定!這樣做最大的好處在于,因?yàn)閠op,sub,bottom,每一層都會(huì)dump數(shù)據(jù),所以比如某個(gè)sub層數(shù)據(jù)dump之后,是根本不會(huì)走到他所對(duì)應(yīng)的bottom層的,減少了大量的開(kāi)銷(xiāo)!

OK,就這樣~ 人生苦短,我用python!

相關(guān)文章

  • python檢查URL是否正常訪問(wèn)的小技巧

    python檢查URL是否正常訪問(wèn)的小技巧

    檢查一個(gè)URL是否正常很容易,如果檢查2000個(gè)URL,或者是大批量的URL怎么辦?這篇文章就為大家介紹了python檢查URL是否正常訪問(wèn)的小技巧,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-02-02
  • 四個(gè)Python操作Excel的常用腳本分享

    四個(gè)Python操作Excel的常用腳本分享

    在數(shù)字化時(shí)代,很多人工作中經(jīng)常和excel打交道。本文和大家分享四個(gè)Python操作excel的腳本,讓你工作效率更高,需要的小伙伴可以參考一下
    2022-11-11
  • Python+AI實(shí)現(xiàn)給老照片上色

    Python+AI實(shí)現(xiàn)給老照片上色

    今天給大家分享一個(gè)有趣的AI項(xiàng)目——利用NoGAN的圖像增強(qiáng)技術(shù)給老照片著色,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下
    2022-06-06
  • Python使用QRCode模塊生成二維碼實(shí)例詳解

    Python使用QRCode模塊生成二維碼實(shí)例詳解

    這篇文章主要介紹了Python使用QRCode模塊生成二維碼實(shí)例詳解的相關(guān)資料,需要的朋友可以參考下
    2017-06-06
  • Python利用yarl實(shí)現(xiàn)輕松操作url

    Python利用yarl實(shí)現(xiàn)輕松操作url

    在諸如網(wǎng)絡(luò)爬蟲(chóng)、web應(yīng)用開(kāi)發(fā)等場(chǎng)景中,我們需要利用Python完成大量的url解析、生成等操作。本文為大家介紹了Pythonyarl操作url的方法,需要的可以了解一下
    2022-10-10
  • 簡(jiǎn)單了解Python matplotlib線(xiàn)的屬性

    簡(jiǎn)單了解Python matplotlib線(xiàn)的屬性

    這篇文章主要介紹了簡(jiǎn)單了解Python matplotlib線(xiàn)的屬性,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-06-06
  • python使用numpy讀取、保存txt數(shù)據(jù)的實(shí)例

    python使用numpy讀取、保存txt數(shù)據(jù)的實(shí)例

    今天小編就為大家分享一篇python使用numpy讀取、保存txt數(shù)據(jù)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2018-10-10
  • 基于h5py的使用及數(shù)據(jù)封裝代碼

    基于h5py的使用及數(shù)據(jù)封裝代碼

    今天小編就為大家分享一篇基于h5py的使用及數(shù)據(jù)封裝代碼,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-12-12
  • Python描述數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)之哈夫曼樹(shù)篇

    Python描述數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)之哈夫曼樹(shù)篇

    這篇文章主要給大家介紹了關(guān)于Python描述數(shù)據(jù)結(jié)構(gòu)學(xué)習(xí)之哈夫曼樹(shù)篇的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09
  • 利用Python爬蟲(chóng)實(shí)現(xiàn)搶購(gòu)某寶秒殺商品

    利用Python爬蟲(chóng)實(shí)現(xiàn)搶購(gòu)某寶秒殺商品

    這篇文章主要介紹了利用Python爬蟲(chóng)實(shí)現(xiàn)搶購(gòu)某寶秒殺商品,文章基于python的相關(guān)資料展開(kāi)詳細(xì)的內(nèi)容介紹具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-06-06

最新評(píng)論