Python爬蟲DNS解析緩存方法實例分析
本文實例講述了Python爬蟲DNS解析緩存方法。分享給大家供大家參考,具體如下:
前言:
這是Python爬蟲中DNS解析緩存模塊中的核心代碼,是去年的代碼了,現在放出來 有興趣的可以看一下。
一般一個域名的DNS解析時間在10~60毫秒之間,這看起來是微不足道,但是對于大型一點的爬蟲而言這就不容忽視了。例如我們要爬新浪微博,同個域名下的請求有1千萬(這已經不算多的了),那么耗時在10~60萬秒之間,一天才86400秒。也就是說單DNS解析這一項就用了好幾天時間,此時加上DNS解析緩存,效果就明顯了。
下面直接放代碼,說明在后面。
代碼:
# encoding=utf-8 # --------------------------------------- # 版本:0.1 # 日期:2016-04-26 # 作者:九茶<bone_ace@163.com> # 開發(fā)環(huán)境:Win64 + Python 2.7 # --------------------------------------- import socket # from gevent import socket _dnscache = {} def _setDNSCache(): """ DNS緩存 """ def _getaddrinfo(*args, **kwargs): if args in _dnscache: # print str(args) + " in cache" return _dnscache[args] else: # print str(args) + " not in cache" _dnscache[args] = socket._getaddrinfo(*args, **kwargs) return _dnscache[args] if not hasattr(socket, '_getaddrinfo'): socket._getaddrinfo = socket.getaddrinfo socket.getaddrinfo = _getaddrinfo
說明:
其實也沒什么難度,就是將socket里面的緩存保存下來,避免重復獲取。
可以將上面的代碼放在一個dns_cache.py文件里,爬蟲框架里調用一下這個_setDNSCache()
方法就行了。
需要說明一下的是,如果你使用了gevent協(xié)程,并且用上了monkey.patch_all()
,要注意此時爬蟲已經改用gevent里面的socket了,DNS解析緩存模塊也應該要用gevent的socket才行。
更多關于Python相關內容可查看本站專題:《Python Socket編程技巧總結》、《Python數據結構與算法教程》、《Python函數使用技巧總結》、《Python字符串操作技巧匯總》、《Python入門與進階經典教程》及《Python文件與目錄操作技巧匯總》
希望本文所述對大家Python程序設計有所幫助。
相關文章
解決Python 異常TypeError: cannot concatenate ''str'' and ''int''
這篇文章主要介紹了解決Python 異常TypeError: cannot concatenate 'str' and 'int' objects,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04Python 實現 T00ls 自動簽到腳本代碼(郵件+釘釘通知)
這篇文章主要介紹了Python 實現 T00ls 自動簽到腳本(郵件+釘釘通知),本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下2020-07-07