python單例模式獲取IP代理的方法詳解
引言
最近在學(xué)習(xí)python,先說一下我學(xué)Python得原因,一個(gè)是因?yàn)樗銐蚝糜茫瓿赏瑯拥墓δ?,代碼量會(huì)比其他語(yǔ)言少很多,有大量的豐富的庫(kù)可以使用,基本上前期根本不需要自己造什么輪子。第二個(gè)是因?yàn)槟壳八芑?,網(wǎng)上各種資料都比較豐富,且質(zhì)量尚可。接下來不如正題
在學(xué)習(xí)Python爬蟲的時(shí)候,經(jīng)常會(huì)遇見所要爬取的網(wǎng)站采取了反爬取技術(shù)導(dǎo)致爬取失敗。高強(qiáng)度、高效率地爬取網(wǎng)頁(yè)信息常常會(huì)給網(wǎng)站服務(wù)器帶來巨大壓力,所以同一個(gè)IP反復(fù)爬取同一個(gè)網(wǎng)頁(yè),就很可能被封,這里講述一個(gè)爬蟲技巧,設(shè)置代理IP
為什么需要代理
提到python,雖然他能干的事情很多,但是我們首先想起的一般都是爬蟲。爬蟲的作用是通過抓取網(wǎng)頁(yè),分析并獲得網(wǎng)頁(yè)中的內(nèi)容。像php這類語(yǔ)言也是可以用curl來達(dá)到爬蟲的效果,不過論爬蟲庫(kù)的數(shù)量和易用性就沒辦法和python相比了。
對(duì)網(wǎng)絡(luò)知識(shí)有了解的朋友應(yīng)該知道,很多網(wǎng)站都有反爬蟲的策略,或者是針對(duì)同一ip地址頻繁請(qǐng)求會(huì)拒絕服務(wù),我在剛開始寫一些東西的時(shí)候就經(jīng)常因?yàn)樵L問的頻率太頻繁而被禁。所以說僅用自己的ip地址進(jìn)行爬取是有一定的局限性的。而代理就可以解決這個(gè)問題。
代理是什么
作為一個(gè)程序員我覺得有必要了解一些基本的網(wǎng)絡(luò)知識(shí),比如說網(wǎng)絡(luò)代理。
我不想從哪里復(fù)制粘貼一段介紹過來,因?yàn)槲矣X得那樣很low,我說說我理解的網(wǎng)絡(luò)代理。
如果你不了解代理,你應(yīng)該知道代購(gòu)吧,比如你想買一個(gè)東西,卻不想自己跑去買,可以找一個(gè)代理幫你去買。類似的,網(wǎng)絡(luò)代理也是在你和目的網(wǎng)絡(luò)之間的一個(gè)中轉(zhuǎn)方。類似如下圖
Alice->agency(代理): I want to get sth from Bob
agency(代理)->Bob: give me sth
Note right of Bob: Bob thinks
Bob-->agency(代理): there is sth!
agency(代理)-->Alice: bob give you sth
這里有一個(gè)問題是,普通代理是比較好檢測(cè)出來的,有些網(wǎng)站不允許使用代理訪問。這時(shí)候可以使用高匿代理可以解決這個(gè)問題。關(guān)于代理不多說了,有興趣的可以自己去了解。
從哪里獲取代理
這問題就簡(jiǎn)單了,直接百度搜索網(wǎng)絡(luò)代理可以搜索到很多免費(fèi)的,免費(fèi)的一般不太穩(wěn)定,應(yīng)付日常需求應(yīng)該沒問題。如果需要穩(wěn)定代理還是老老實(shí)實(shí)的花錢買付費(fèi)的好一些,不要因小失大。
比如網(wǎng)上就經(jīng)常推薦的代理
西祠代理:http://www.xicidaili.com/nn/
本文用的快代理:https://www.kuaidaili.com/
西祠我一開始也用了,后來因?yàn)轭l繁訪問被禁用過一次,幾天后才解禁,在這期間我換成了快代理并去重寫了規(guī)則每小時(shí)獲取一次代理。
代碼
本文用的python版本為3.6.5, 如果使用2.7版本的代碼需要微調(diào)
User-Agent
用來模擬不同的瀏覽器,直接復(fù)制就可以了,我的文件名為user_agents.py
#!/usr/bin/python # -*- coding:utf-8 -*- ''' Created on 2018-04-27 @author: Vinter_he ''' user_agents = [ 'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11', 'Opera/9.25 (Windows NT 5.1; U; en)', 'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)', 'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)', 'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12', 'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9' "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5", "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3", "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3", "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24", "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24" ] 獲取代理代碼 #!/usr/bin/python # -*- coding:utf-8 -*- '''
獲取快代理ip 獲取到的為https://...格式
''' from lxml import etree import sys ,user_agents ,random ,requests ,time class geKuaidailiIp: __instance = None #使用單例模式 def __new__(cls): if cls.__instance == None: cls.__instance = object.__new__(cls) cls.init(cls) return cls.__instance def init(self): print('初始化') self.proxieList = [] self.lastTime = time.time() - 3601 self.agencyUrl = 'https://www.kuaidaili.com/free/' self.userAgents = user_agents.user_agents # 獲取user-agent def getUserAgent(self): userAgent = random.choice(self.userAgents) return { 'User-Agent': userAgent } def getHtml(self,url): response = requests.get(url = url ,headers = self.getUserAgent(),timeout = 10).text # sys.exit() html = etree.HTML(response) return html #取一頁(yè)的分析代理ip def parseHtmlToGetIpList(self,url): #獲取代理ip地址 只取前五頁(yè) html = self.getHtml(url) ip = html.xpath('//tr/td[@data-title = "IP"]') port = html.xpath('//tr/td[@data-title = "PORT"]') type = html.xpath('//tr/td[@data-title = "類型"]') return type, ip, port # 取五頁(yè)數(shù)據(jù)并進(jìn)行拼接成一個(gè)list def getProxies(self): # 1小時(shí)獲取一次代理 否則會(huì)被禁 if time.time() - self.lastTime > 60*60: self.proxieList =[] self.lastTime = time.time() #只取前五頁(yè),因?yàn)楹竺娴氖У臅?huì)比較多,看自己需要 for i in range(5): url = self.agencyUrl+'inha/'+str(i+1)+"/" type,ip,port = self.parseHtmlToGetIpList(url) count = len(port) for i in range(count): self.proxieList.append(type[i].text+"://"+ip[i].text+":"+port[i].text) time.sleep(1) print('獲取代理') return self.proxieList def getRandomAgencyIp(self): self.getProxies() ip = random.choice(self.proxieList) return ip #初始化代理 用來進(jìn)行測(cè)試用 # agency = geKuaidailiIp() # while True: # # print(agency.getRandomAgencyIp()) # time.sleep(random.randint(4,10))
為什么使用單例模式
如果你可以保證自己只創(chuàng)建一個(gè)代理對(duì)象的話,其實(shí)并不是必須使用單例模式。因?yàn)楹芏嗯笥芽赡軙?huì)把創(chuàng)建對(duì)象的代碼寫在循環(huán)中,導(dǎo)致頻繁的獲取代理而導(dǎo)致自己的ip被代理方禁了。單例模式保證在一次執(zhí)行腳本過程中只有一個(gè)對(duì)象。如果對(duì)象已經(jīng)創(chuàng)建,則直接返回已經(jīng)創(chuàng)建的對(duì)象,從而控制不會(huì)頻繁的訪問快代理的頁(yè)面。代碼中是一小時(shí)一次。
題外話
其實(shí)早在七八年前上學(xué)期間我就接觸過python,那時(shí)候python沒有現(xiàn)在那么火,我還是在查怎么成為一名黑客的時(shí)候查到的這是一個(gè)必修課。然而當(dāng)時(shí)還是比較貪玩的,學(xué)習(xí)資料也很匱乏。所以不就久放棄了。現(xiàn)在在人工智能和大數(shù)據(jù)的帶動(dòng)下,前幾天看統(tǒng)計(jì),python已經(jīng)成了排名第一的腳本語(yǔ)言(php是世界上最好的語(yǔ)言,哥哥們別噴我),所以我?guī)讉€(gè)月前開始每天抽一點(diǎn)業(yè)余時(shí)間學(xué)習(xí)python。幸運(yùn)的是我有三門語(yǔ)言基礎(chǔ),學(xué)習(xí)起來還算比較輕松。如果你也是一名程序員,并且有精力也希望你能在業(yè)余時(shí)間做點(diǎn)什么學(xué)點(diǎn)什么來提高自己,與大家共勉。
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,如果有疑問大家可以留言交流,謝謝大家對(duì)腳本之家的支持。
相關(guān)文章
python爬蟲使用正則爬取網(wǎng)站的實(shí)現(xiàn)
這篇文章主要介紹了python爬蟲使用正則爬取網(wǎng)站的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08python?matplotlib實(shí)現(xiàn)條形圖的填充效果
這篇文章主要為大家詳細(xì)介紹了python?matplotlib實(shí)現(xiàn)條形圖的填充效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2022-04-04通過Folium在地圖上展示數(shù)據(jù)Python地理可視化的入門示例詳解
這篇文章主要介紹了通過Folium在地圖上展示數(shù)據(jù)Python地理可視化的入門,在本文中,我們介紹了如何使用Python中的Folium庫(kù)進(jìn)行地理可視化,通過Folium,我們可以輕松地創(chuàng)建交互式地圖,并在地圖上展示數(shù)據(jù)、繪制形狀、添加圖例和文本標(biāo)簽等,需要的朋友可以參考下2024-05-05OpenCV-Python實(shí)現(xiàn)懷舊濾鏡與連環(huán)畫濾鏡
很多時(shí)候通過ps可以做很多效果,今天我們來介紹使用OpenCV-Python實(shí)現(xiàn)懷舊濾鏡與連環(huán)畫濾鏡,具有一定的參考價(jià)值,感興趣的可以了解一下2021-06-06python實(shí)現(xiàn)學(xué)生通訊錄管理系統(tǒng)
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)學(xué)生通訊錄管理系統(tǒng),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-02-02Python實(shí)現(xiàn)按特定格式對(duì)文件進(jìn)行讀寫的方法示例
這篇文章主要介紹了Python實(shí)現(xiàn)按特定格式對(duì)文件進(jìn)行讀寫的方法,可實(shí)現(xiàn)文件按原有格式讀取與寫入的功能,涉及文件的讀取、遍歷、轉(zhuǎn)換、寫入等相關(guān)操作技巧,需要的朋友可以參考下2017-11-11利用Python實(shí)現(xiàn)外觀數(shù)列求解
這篇文章主要介紹了利用Python實(shí)現(xiàn)外觀數(shù)列求解,文章利用舉例說明文章的主題內(nèi)容,具有一定的參考價(jià)值,需要的小伙伴樂意參考一下2022-03-03解析Pytorch中的torch.gather()函數(shù)
本文給大家介紹了Pytorch中的torch.gather()函數(shù),通過實(shí)例代碼給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友參考下吧2021-11-11