欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

用sleep間隔進(jìn)行python反爬蟲的實(shí)例講解

 更新時(shí)間:2020年11月30日 16:39:57   作者:小妮淺淺  
在本篇文章里小編給大家整理了一篇關(guān)于用sleep間隔進(jìn)行python反爬蟲的實(shí)例講解內(nèi)容,有需要的朋友們可以學(xué)習(xí)下。

在找尋材料的時(shí)候,會(huì)看到一些暫時(shí)用不到但是內(nèi)容不錯(cuò)的網(wǎng)頁,就這樣關(guān)閉未免浪費(fèi)掉了,下次也不一定能再次搜索到。有些小伙伴會(huì)提出可以保存網(wǎng)頁鏈接,但這種基本的做法并不能在網(wǎng)頁打不開后還能看到內(nèi)容。我們完全可以用爬蟲獲取這方面的數(shù)據(jù),不過操作過程中會(huì)遇到一些阻攔,今天小編就教大家用sleep間隔進(jìn)行python反爬蟲,這樣就可以得到我們想到的數(shù)據(jù)啦。

步驟

要利用headers拉動(dòng)請(qǐng)求,模擬成瀏覽器去訪問網(wǎng)站,跳過最簡(jiǎn)單的反爬蟲機(jī)制。

獲取網(wǎng)頁內(nèi)容,保存在一個(gè)字符串content中。

構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern獲取下載鏈接。需要注意的是,網(wǎng)頁中的關(guān)鍵詞出現(xiàn)了兩遍(如下圖),所以我們要利用set()函數(shù)清除重復(fù)元素。

第三步是遍歷set之后的結(jié)果,下載鏈接。

設(shè)置time.sleep(t),無sleep間隔的話,網(wǎng)站認(rèn)定這種行為是攻擊,所以我們隔一段時(shí)間下載一個(gè),反反爬蟲。

具體代碼

import urllib.request# url request
import re      # regular expression
import os      # dirs
import time
'''
url 下載網(wǎng)址
pattern 正則化的匹配關(guān)鍵詞
Directory 下載目錄
def BatchDownload(url,pattern,Directory):
   
  # 拉動(dòng)請(qǐng)求,模擬成瀏覽器去訪問網(wǎng)站->跳過反爬蟲機(jī)制
  headers = {'User-Agent', 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/64.0.3282.186 Safari/537.36'}
  opener = urllib.request.build_opener()
  opener.addheaders = [headers]
  # 獲取網(wǎng)頁內(nèi)容
  content = opener.open(url).read().decode('utf8')
  # 構(gòu)造正則表達(dá)式,從content中匹配關(guān)鍵詞pattern
  raw_hrefs = re.findall(pattern, content, 0)
  # set函數(shù)消除重復(fù)元素
  hset = set(raw_hrefs)
     
  # 下載鏈接
  for href in hset:
    # 之所以if else 是為了區(qū)別只有一個(gè)鏈接的特別情況
    if(len(hset)>1):
      link = url + href[0]
      filename = os.path.join(Directory, href[0])
      print("正在下載",filename)
      urllib.request.urlretrieve(link, filename)
      print("成功下載!")
    else:
      link = url +href
      filename = os.path.join(Directory, href)
       
    # 無sleep間隔,網(wǎng)站認(rèn)定這種行為是攻擊,反反爬蟲
    time.sleep(1)
 
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/',
#       '(Storm-Data-Export-Format.docx)',
#       'E:\stormevents\csvfiles')
     
#       '(Storm-Data-Export-Format.pdf)',
#       '(StormEvents_details-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#       '(StormEvents_fatalities-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#       '(StormEvents_locations-ftp_v1.0_d(\d*)_c(\d*).csv.gz)',
#BatchDownload('https://www1.ncdc.noaa.gov/pub/data/swdi/stormevents/csvfiles/legacy/',
#       '(ugc_areas.csv)',
#       'E:\stormevents\csvfiles\legacy')

結(jié)果展示

為了讓大家能夠清楚的知道整個(gè)反爬過程,這里小編把思路和代碼都羅列了出來。其中可以time.sleep(t)解除網(wǎng)站對(duì)于爬蟲的阻攔問題,著重標(biāo)記了出來

到此這篇關(guān)于用sleep間隔進(jìn)行python反爬蟲的實(shí)例講解的文章就介紹到這了,更多相關(guān)如何使用sleep間隔進(jìn)行python反爬蟲內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python threading模塊中l(wèi)ock與Rlock的使用詳細(xì)講解

    Python threading模塊中l(wèi)ock與Rlock的使用詳細(xì)講解

    python的thread模塊是比較底層的模塊,python的threading模塊是對(duì)thread做了一些包裝的,可以更加方便的被使用。這篇文章主要介紹了Python threading模塊中l(wèi)ock與Rlock的使用
    2022-10-10
  • python 遞歸調(diào)用返回None的問題及解決方法

    python 遞歸調(diào)用返回None的問題及解決方法

    這篇文章主要介紹了python 遞歸調(diào)用返回None的問題,本文通過實(shí)例代碼給大家記錄了解決方案,代碼簡(jiǎn)單易懂,非常不錯(cuò)對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-03-03
  • pycharm快捷鍵自動(dòng)提示documentation問題(auto?Ctrl+Q)

    pycharm快捷鍵自動(dòng)提示documentation問題(auto?Ctrl+Q)

    這篇文章主要介紹了pycharm快捷鍵自動(dòng)提示documentation問題(auto?Ctrl+Q),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-04-04
  • pandas 選取行和列數(shù)據(jù)的方法詳解

    pandas 選取行和列數(shù)據(jù)的方法詳解

    這篇文章主要介紹了pandas 選取行和列數(shù)據(jù)的方法詳解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-08-08
  • 深入淺析python的第三方庫pandas

    深入淺析python的第三方庫pandas

    這篇文章主要介紹了python的第三方庫pandas的相關(guān)知識(shí),本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-02-02
  • matplotlib實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)刷新的示例代碼

    matplotlib實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)刷新的示例代碼

    這篇文章主要介紹了matplotlib實(shí)現(xiàn)數(shù)據(jù)實(shí)時(shí)刷新的示例代碼,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • python super()函數(shù)的基本使用

    python super()函數(shù)的基本使用

    這篇文章主要介紹了python super()函數(shù)的基本使用,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • Python如何對(duì)音視頻文件進(jìn)行解析詳解

    Python如何對(duì)音視頻文件進(jìn)行解析詳解

    在腳本或應(yīng)用程序中,我們需要執(zhí)行音頻處理任務(wù),下面這篇文章主要給大家介紹了關(guān)于Python如何對(duì)音視頻文件進(jìn)行解析的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-11-11
  • python 基于卡方值分箱算法的實(shí)現(xiàn)示例

    python 基于卡方值分箱算法的實(shí)現(xiàn)示例

    這篇文章主要介紹了python 基于卡方值分箱算法的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-07-07
  • pip升級(jí)pip3的快速方法指南

    pip升級(jí)pip3的快速方法指南

    使用python時(shí)經(jīng)常使用到pip命令,可以方便安裝python的各種第三方庫這篇文章主要給大家介紹了關(guān)于pip升級(jí)pip3的快速方法,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-12-12

最新評(píng)論