快捷導(dǎo)航

進(jìn)一步探究Python的裝飾器的運用

更新時間：2015年05月05日 10:17:11 作者：xrzs

這篇文章主要介紹了更為深入的Python的裝飾器的運用,Python的裝飾器是Python學(xué)習(xí)進(jìn)階當(dāng)中的重要知識點,需要的朋友可以參考下

裝飾器在 python 中用的相當(dāng)廣泛，如果你用過 python 的一些 web 框架，那么一定對其中的 “ route() 裝飾器” 不陌生，今天咱們再看一個具體的案例。

咱們來模擬一個場景，需要你去抓去一個頁面，然后這個頁面有好多url也要分別去抓取，而進(jìn)入這些子url后，還有數(shù)據(jù)要抓取。簡單點，我們就按照三層來看，那我們的代碼就是如下：

def func_top(url):
  data_dict= {}
 
  #在頁面上獲取到子url
  sub_urls = xxxx
 
  data_list = []
  for it in sub_urls:
    data_list.append(func_sub(it))
 
  data_dict['data'] = data_list
 
  return data_dict
 
def func_sub(url):
  data_dict= {}
 
  #在頁面上獲取到子url
  bottom_urls = xxxx
 
  data_list = []
  for it in bottom_urls:
    data_list.append(func_bottom(it))
 
  data_dict['data'] = data_list
 
  return data_dict
 
def func_bottom(url):
  #獲取數(shù)據(jù)
  data = xxxx
  return data

func_top是上層頁面的處理函數(shù)，func_sub是子頁面的處理函數(shù)，func_bottom是最深層頁面的處理函數(shù)，func_top會在取到子頁面url后遍歷調(diào)用func_sub,func_sub也是同樣。
如果正常情況下，這樣確實已經(jīng)滿足需求了，但是偏偏這個你要抓取的網(wǎng)站可能極不穩(wěn)定，經(jīng)常鏈接不上，導(dǎo)致數(shù)據(jù)拿不到。
于是這個時候你有兩個選擇:
1.遇到錯誤就停止，之后重新從斷掉的位置開始重新跑
2.遇到錯誤繼續(xù)，但是要在之后重新跑一遍，這個時候已經(jīng)有的數(shù)據(jù)不希望再去網(wǎng)站拉一次，而只去拉沒有取到的數(shù)據(jù)
對第一種方案基本無法實現(xiàn)，因為如果別人網(wǎng)站的url調(diào)整順序，那么你記錄的位置就無效了。那么只有第二種方案，說白了，就是要把已經(jīng)拿到的數(shù)據(jù)cache下來，等需要的時候，直接從cache里面取。
OK，目標(biāo)已經(jīng)有了，怎么實現(xiàn)呢？
如果是在C++中的，這是個很麻煩的事情，而且寫出來的代碼必定丑陋無比，然而慶幸的是，我們用的是python，而python對函數(shù)有裝飾器。
所以實現(xiàn)方案也就有了:
定義一個裝飾器，如果之前取到數(shù)據(jù)，就直接取cache的數(shù)據(jù)；如果之前沒有取到，那么就從網(wǎng)站拉取，并且存入cache中.
代碼如下:

import os
import hashlib
 
def deco_args_recent_cache(category='dumps'):
  '''
  裝飾器，返回最新cache的數(shù)據(jù)
  '''
  def deco_recent_cache(func):
    def func_wrapper(*args, **kargs):
      sig = _mk_cache_sig(*args, **kargs)
      data = _get_recent_cache(category, func.__name__, sig)
      if data is not None:
        return data
 
      data = func(*args, **kargs)
      if data is not None:
        _set_recent_cache(category, func.__name__, sig, data)
      return data
 
    return func_wrapper
 
  return deco_recent_cache
 
def _mk_cache_sig(*args, **kargs):
  '''
  通過傳入?yún)?shù)，生成唯一標(biāo)識
  '''
  src_data = repr(args) + repr(kargs)
  m = hashlib.md5(src_data)
  sig = m.hexdigest()
  return sig
 
def _get_recent_cache(category, func_name, sig):
  full_file_path = '%s/%s/%s' % (category, func_name, sig)
  if os.path.isfile(full_file_path):
    return eval(file(full_file_path,'r').read())
  else:
    return None
 
def _set_recent_cache(category, func_name, sig, data):
  full_dir_path = '%s/%s' % (category, func_name)
  if not os.path.isdir(full_dir_path):
    os.makedirs(full_dir_path)
 
  full_file_path = '%s/%s/%s' % (category, func_name, sig)
  f = file(full_file_path, 'w+')
  f.write(repr(data))
  f.close()

然后，我們只需要在每個func_top,func_sub,func_bottom都加上deco_args_recent_cache這個裝飾器即可~~
搞定！這樣做最大的好處在于，因為top,sub,bottom，每一層都會dump數(shù)據(jù)，所以比如某個sub層數(shù)據(jù)dump之后，是根本不會走到他所對應(yīng)的bottom層的，減少了大量的開銷！
OK，就這樣~ 人生苦短，我用python！

注：

python3 已經(jīng)原生支持了這種功能！鏈接如下:

http://docs.python.org/py3k/whatsnew/3.2.html#functools