進(jìn)一步探究Python的裝飾器的運(yùn)用
裝飾器在 python 中用的相當(dāng)廣泛,如果你用過 python 的一些 web 框架,那么一定對(duì)其中的 “ route() 裝飾器” 不陌生,今天咱們?cè)倏匆粋€(gè)具體的案例。
咱們來模擬一個(gè)場(chǎng)景,需要你去抓去一個(gè)頁面,然后這個(gè)頁面有好多url也要分別去抓取,而進(jìn)入這些子url后,還有數(shù)據(jù)要抓取。簡(jiǎn)單點(diǎn),我們就按照三層來看,那我們的代碼就是如下:
def func_top(url): data_dict= {} #在頁面上獲取到子url sub_urls = xxxx data_list = [] for it in sub_urls: data_list.append(func_sub(it)) data_dict['data'] = data_list return data_dict def func_sub(url): data_dict= {} #在頁面上獲取到子url bottom_urls = xxxx data_list = [] for it in bottom_urls: data_list.append(func_bottom(it)) data_dict['data'] = data_list return data_dict def func_bottom(url): #獲取數(shù)據(jù) data = xxxx return data
func_top是上層頁面的處理函數(shù),func_sub是子頁面的處理函數(shù),func_bottom是最深層頁面的處理函數(shù),func_top會(huì)在取到子頁面url后遍歷調(diào)用func_sub,func_sub也是同樣。
如果正常情況下,這樣確實(shí)已經(jīng)滿足需求了,但是偏偏這個(gè)你要抓取的網(wǎng)站可能極不穩(wěn)定,經(jīng)常鏈接不上,導(dǎo)致數(shù)據(jù)拿不到。
于是這個(gè)時(shí)候你有兩個(gè)選擇:
1.遇到錯(cuò)誤就停止,之后重新從斷掉的位置開始重新跑
2.遇到錯(cuò)誤繼續(xù),但是要在之后重新跑一遍,這個(gè)時(shí)候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次,而只去拉沒有取到的數(shù)據(jù)
對(duì)第一種方案基本無法實(shí)現(xiàn),因?yàn)槿绻麆e人網(wǎng)站的url調(diào)整順序,那么你記錄的位置就無效了。那么只有第二種方案,說白了,就是要把已經(jīng)拿到的數(shù)據(jù)cache下來,等需要的時(shí)候,直接從cache里面取。
OK,目標(biāo)已經(jīng)有了,怎么實(shí)現(xiàn)呢?
如果是在C++中的,這是個(gè)很麻煩的事情,而且寫出來的代碼必定丑陋無比,然而慶幸的是,我們用的是python,而python對(duì)函數(shù)有裝飾器。
所以實(shí)現(xiàn)方案也就有了:
定義一個(gè)裝飾器,如果之前取到數(shù)據(jù),就直接取cache的數(shù)據(jù);如果之前沒有取到,那么就從網(wǎng)站拉取,并且存入cache中.
代碼如下:
import os import hashlib def deco_args_recent_cache(category='dumps'): ''' 裝飾器,返回最新cache的數(shù)據(jù) ''' def deco_recent_cache(func): def func_wrapper(*args, **kargs): sig = _mk_cache_sig(*args, **kargs) data = _get_recent_cache(category, func.__name__, sig) if data is not None: return data data = func(*args, **kargs) if data is not None: _set_recent_cache(category, func.__name__, sig, data) return data return func_wrapper return deco_recent_cache def _mk_cache_sig(*args, **kargs): ''' 通過傳入?yún)?shù),生成唯一標(biāo)識(shí) ''' src_data = repr(args) + repr(kargs) m = hashlib.md5(src_data) sig = m.hexdigest() return sig def _get_recent_cache(category, func_name, sig): full_file_path = '%s/%s/%s' % (category, func_name, sig) if os.path.isfile(full_file_path): return eval(file(full_file_path,'r').read()) else: return None def _set_recent_cache(category, func_name, sig, data): full_dir_path = '%s/%s' % (category, func_name) if not os.path.isdir(full_dir_path): os.makedirs(full_dir_path) full_file_path = '%s/%s/%s' % (category, func_name, sig) f = file(full_file_path, 'w+') f.write(repr(data)) f.close()
然后,我們只需要在每個(gè)func_top,func_sub,func_bottom都加上deco_args_recent_cache這個(gè)裝飾器即可~~
搞定!這樣做最大的好處在于,因?yàn)閠op,sub,bottom,每一層都會(huì)dump數(shù)據(jù),所以比如某個(gè)sub層數(shù)據(jù)dump之后,是根本不會(huì)走到他所對(duì)應(yīng)的bottom層的,減少了大量的開銷!
OK,就這樣~ 人生苦短,我用python!
注:
python3 已經(jīng)原生支持了這種功能!鏈接如下:
http://docs.python.org/py3k/whatsnew/3.2.html#functools
推薦閱讀:
https://wiki.python.org/moin/PythonDecoratorLibrary#Memoize
相關(guān)文章
Python中拆分具有多個(gè)分隔符的字符串方法實(shí)例
str.split()是Python中字符串類型的一個(gè)方法,可以用來將字符串按照指定的分隔符分割成多個(gè)子字符串,這篇文章主要給大家介紹了關(guān)于Python中拆分具有多個(gè)分隔符的字符串的相關(guān)資料,需要的朋友可以參考下2023-04-04Python編程django實(shí)現(xiàn)同一個(gè)ip十分鐘內(nèi)只能注冊(cè)一次
這篇文章主要介紹了Python編程django實(shí)現(xiàn)同一個(gè)ip十分鐘內(nèi)只能注冊(cè)一次的相關(guān)內(nèi)容,具有一定參考價(jià)值。需要的朋友可以了解下。2017-11-11Python爬蟲實(shí)現(xiàn)爬取下載網(wǎng)站數(shù)據(jù)的幾種方法示例
這篇文章主要為大家介紹了Python爬蟲實(shí)現(xiàn)爬取下載網(wǎng)站數(shù)據(jù)的幾種方法示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-11-11Django自動(dòng)注冊(cè)tasks及使用方式
這篇文章主要為大家介紹了Django自動(dòng)注冊(cè)tasks及使用方式詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-06-06python中l(wèi)ambda與def用法對(duì)比實(shí)例分析
這篇文章主要介紹了python中l(wèi)ambda與def用法對(duì)比,實(shí)例分析了lambda與def的區(qū)別與使用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-04-04pip matplotlib報(bào)錯(cuò)equired packages can not be built解決
這篇文章主要介紹了pip matplotlib報(bào)錯(cuò)equired packages can not be built解決,具有一定借鑒價(jià)值,需要的朋友可以參考下2018-01-01python矩陣轉(zhuǎn)換為一維數(shù)組的實(shí)例
今天小編就為大家分享一篇python矩陣轉(zhuǎn)換為一維數(shù)組的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-06-06Python爬蟲庫BeautifulSoup的介紹與簡(jiǎn)單使用實(shí)例
BeautifulSoup是一個(gè)可以從HTML或XML文件中提取數(shù)據(jù)的Python庫,本文為大家介紹下Python爬蟲庫BeautifulSoup的介紹與簡(jiǎn)單使用實(shí)例其中包括了,BeautifulSoup解析HTML,BeautifulSoup獲取內(nèi)容,BeautifulSoup節(jié)點(diǎn)操作,BeautifulSoup獲取CSS屬性等實(shí)例2020-01-01