Python爬蟲與反爬蟲大戰(zhàn)
爬蟲與發(fā)爬蟲的廝殺,一方為了拿到數(shù)據(jù),一方為了防止爬蟲拿到數(shù)據(jù),誰是最后的贏家?
重新理解爬蟲中的一些概念
- 爬蟲:自動(dòng)獲取網(wǎng)站數(shù)據(jù)的程序
- 反爬蟲:使用技術(shù)手段防止爬蟲程序爬取數(shù)據(jù)
- 誤傷:反爬蟲技術(shù)將普通用戶識(shí)別為爬蟲,這種情況多出現(xiàn)在封ip中,例如學(xué)校網(wǎng)絡(luò)、小區(qū)網(wǎng)絡(luò)再或者網(wǎng)絡(luò)網(wǎng)絡(luò)都是共享一個(gè)公共ip,這個(gè)時(shí)候如果是封ip就會(huì)導(dǎo)致很多正常訪問的用戶也無法獲取到數(shù)據(jù)。所以相對(duì)來說封ip的策略不是特別好,通常都是禁止某ip一段時(shí)間訪問。
- 成本:反爬蟲也是需要人力和機(jī)器成本
- 攔截:成功攔截爬蟲,一般攔截率越高,誤傷率也就越高
反爬蟲的目的
- 初學(xué)者寫的爬蟲:簡(jiǎn)單粗暴,不管對(duì)端服務(wù)器的壓力,甚至?xí)丫W(wǎng)站爬掛掉了
- 數(shù)據(jù)保護(hù):很多的數(shù)據(jù)對(duì)某些公司網(wǎng)站來說是比較重要的不希望被別人爬取
- 商業(yè)競(jìng)爭(zhēng)問題:這里舉個(gè)例子是關(guān)于京東和天貓,假如京東內(nèi)部通過程序爬取天貓所有的商品信息,從而做對(duì)應(yīng)策略這樣對(duì)天貓來說就造成了非常大的競(jìng)爭(zhēng)
爬蟲與反爬蟲大戰(zhàn)
上有政策下有對(duì)策,下面整理了常見的爬蟲大戰(zhàn)策略
以上就是Python爬蟲與反爬蟲大戰(zhàn)的詳細(xì)內(nèi)容,更多關(guān)于Python爬蟲與反爬蟲的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python數(shù)據(jù)分析實(shí)戰(zhàn)指南之異常值處理
數(shù)據(jù)預(yù)處理是明確分析目標(biāo)與思路之后進(jìn)行數(shù)據(jù)分析的第一步,也是整個(gè)項(xiàng)目中最基礎(chǔ)、花費(fèi)時(shí)間較長(zhǎng)的工作,下面這篇文章主要給大家介紹了關(guān)于python數(shù)據(jù)分析實(shí)戰(zhàn)指南之異常值處理的相關(guān)資料,需要的朋友可以參考下2022-01-01Python 用NumPy創(chuàng)建二維數(shù)組的案例
這篇文章主要介紹了Python 用NumPy創(chuàng)建二維數(shù)組的案例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2021-03-03python3 小數(shù)位的四舍五入(用兩種方法解決round 遇5不進(jìn))
這篇文章主要介紹了python3 小數(shù)位的四舍五入(用兩種方法解決round 遇5不進(jìn)),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-04-04python中報(bào)錯(cuò)"json.decoder.JSONDecodeError: Expecting value:"的解決
這篇文章主要介紹了python中報(bào)錯(cuò)"json.decoder.JSONDecodeError: Expecting value:"的解決方法 ,需要的朋友可以參考下2019-04-04python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例
隨機(jī)密碼生成器是一種非常有用的工具,它可以幫助我們生成隨機(jī)的、復(fù)雜的密碼,提高我們的賬戶安全性,本文就來介紹一下python 隨機(jī)密碼生成器的實(shí)現(xiàn)示例,感興趣的可以了解一下2023-11-11學(xué)會(huì)迭代器設(shè)計(jì)模式,幫你大幅提升python性能
這篇文章主要介紹了python 迭代器設(shè)計(jì)模式的相關(guān)資料,幫助大家更好的理解和使用python,感興趣的朋友可以了解下2021-01-01在Python中pandas.DataFrame重置索引名稱的實(shí)例
今天小編就為大家分享一篇在Python中pandas.DataFrame重置索引名稱的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-11-11python中str內(nèi)置函數(shù)用法總結(jié)
在本篇文章里小編給大家整理了一篇關(guān)于python中str內(nèi)置函數(shù)用法總結(jié)內(nèi)容,有需要的朋友們可以學(xué)習(xí)下。2020-12-12Python數(shù)據(jù)分析之缺失值檢測(cè)與處理詳解
在實(shí)際的數(shù)據(jù)處理中,缺失值是普遍存在的,如何使用 Python 檢測(cè)和處理缺失值,就是本文要講的主要內(nèi)容。感興趣的同學(xué)可以關(guān)注一下2021-12-12