使用python驗證代理ip是否可用的實現(xiàn)方法
在使用爬蟲爬取網(wǎng)絡數(shù)據(jù)時,如果長時間對一個網(wǎng)站進行抓取時可能會遇到IP被封的情況,這種情況可以使用代理更換ip來突破服務器封IP的限制。
隨手在百度上搜索免費代理IP,可以得到一系列的網(wǎng)站,這里我們通過對西刺網(wǎng)站的抓取來舉例。
通過編寫一個爬蟲來抓取網(wǎng)站上面的IP地址,端口,及類型,把這些信息存到本地。這里不做介紹。
驗證代理IP是否可用。原理是使用代理IP訪問指定網(wǎng)站,如果返回狀態(tài)為200,表示這個代理是可以使用的。
# _*_ coding:utf-8 _*_ import urllib2 import re class TestProxy(object): def __init__(self): self.ip = '106.46.136.64' self.port = '808' self.url = 'http://www.baidu.com' self.timeout = 3 self.regex = re.compile(r'baidu.com') self.run() def run(self): self.linkWithProxy() def linkWithProxy(self): server = 'http://'+ self.ip + ':'+ self.port opener = urllib2.build_opener(urllib2.ProxyHandler({'http':server})) urllib2.install_opener(opener) try: response = urllib2.urlopen(self.url, timeout=self.timeout) except: print '%s connect failed' % server return else: try: str = response.read() except: print '%s connect failed' % server return if self.regex.search(str): print '%s connect success .......' % server print self.ip + ':' + self.port if __name__ == '__main__': Tp = TestProxy()
也可以使用requests包來進行驗證,要少寫好多代碼
import requests try: requests.get('http://wenshu.court.gov.cn/', proxies={"http":"http://121.31.154.12:8123"}) except: print 'connect failed' else: print 'success'
把驗證通過的IP保存在redis里面,在IP被禁止的時候可以從redis中取出來使用。
受@齊俊杰的提醒,添加一種使用telnet來驗證的方法:
import telnetlib try: telnetlib.Telnet('127.0.0.1', port='80', timeout=20) except: print 'connect failed' else: print 'success'
總結(jié)
以上所述是小編給大家介紹的使用python驗證代理ip是否可用,希望對大家有所幫助,如果大家有任何疑問請給我留言,小編會及時回復大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持!
相關文章
Python實現(xiàn)類似jQuery使用中的鏈式調(diào)用的示例
chained calls鏈式調(diào)用其實多是指一種方法鏈的程序?qū)懛?這里我們來看一下Python實現(xiàn)類似jQuery使用中的鏈式調(diào)用的示例,首先說明一下什么是鏈式調(diào)用:2016-06-06