欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

關(guān)于爬蟲和反爬蟲的簡略方案分享

 更新時間:2018年01月14日 10:56:33   作者:ljmatlight  
這篇文章主要給大家介紹了一些關(guān)于爬蟲和反爬蟲的簡略方案的相關(guān)資料,文中介紹的非常詳細(xì),對大家理解和學(xué)習(xí)爬蟲與反爬蟲具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。

前言

爬蟲和反爬蟲日益成為每家公司的標(biāo)配系統(tǒng)。

爬蟲在情報獲取、虛假流量、動態(tài)定價、惡意攻擊、薅羊毛等方面都能起到很關(guān)鍵的作用,所以每家公司都或多或少的需要開發(fā)一些爬蟲程序,業(yè)界在這方面的成熟的方案也非常多。

有矛就有盾,每家公司也相應(yīng)的需要反爬蟲系統(tǒng)來達(dá)到數(shù)據(jù)保護(hù)、系統(tǒng)穩(wěn)定性保障、競爭優(yōu)勢保持的目的。

像安全與黑客從來都是相輔相成一樣。

爬蟲與反爬蟲也是在雙方程序員的斗智斗勇的過程不斷發(fā)展和成長的。

抓包

抓包的目的: 分析出協(xié)議請求使用的數(shù)據(jù),請求接口,參數(shù)等等。

常用的抓包分析工具:

  • Fiddler
  • Charles
  • Sniffer
  • Wireshark

具體使用策略,請自行百度,Google。

抓數(shù)據(jù)

使用 HttpClient 模擬請求

充分了解 HttpClient 的特性,使用方式等。

HttpClient4.5官方教程

user_agent 的使用

使用 user_agent 的偽裝和輪換模擬不同的客戶端。

建立UserAgent池,可以通過以下地址獲取一定量的UserAgent的信息。

http://www.fynas.com/ua/search?b=Chrome&k=

代理IP的使用

建立代理ip池,一般使用的免費或收費代理獲取代理ip每秒都會有一定的頻率限制。

那么我們在使用的時候,就要在頻率限制內(nèi)建立自己內(nèi)部的一些策略,

當(dāng)然這些策略建立在代理服務(wù)商的策略之上。因此設(shè)計實施時要考慮易維護(hù)性。

http代理

有些網(wǎng)站(包括APP、PC)具有一定的反爬蟲能力,

如拒絕代理ip直接請求接口:

這是我使用代理ip請求登錄接口時,某APP的響應(yīng):

CONNECT refused by proxy

而使用socks代理則無此問題。這就不得不要了解http代理和socks代理的區(qū)別。

socks代理

待續(xù)

設(shè)置訪問頻率

即便是使用了代理ip,那么對目標(biāo)接口的訪問也要有一定的頻率控制,

防止目標(biāo)服務(wù)方檢測出頻率過快,進(jìn)行拒絕服務(wù)的響應(yīng)。

Cookie 池失效和更新策略

獲取目標(biāo)站點Cookie有效時間,

將對應(yīng)賬號和Cookie存入Redis,

起一個任務(wù)對賬號Cookie進(jìn)行定時檢測,

接近失效時間,進(jìn)行提前更新Cookie信息,

具體Cookie 池Cookie的失效和更新策略需要根據(jù)自己業(yè)務(wù)進(jìn)行適當(dāng)調(diào)整。

防止目標(biāo)方的分析

  • 確保同一賬號的請求使用的是同一個UserAgent、同一個代理ip。
  • 注意訪問頻率
  • 其他

總而言之,就是模擬正常的客戶端發(fā)起對服務(wù)方的請求,偽裝的越像正常的客戶端,服務(wù)方越難分析出。

只要是服務(wù)方能夠提供服務(wù),一般情況下都可以進(jìn)行數(shù)據(jù)的爬取,

只不過是難易程度不同。

如果出于商業(yè)目的,要考慮付出的成本到底是否合適。

總結(jié)

以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,如果有疑問大家可以留言交流,謝謝大家對腳本之家的支持。

相關(guān)文章

  • 全網(wǎng)最強下載神器IDM使用教程之利用IDM加速下載百度網(wǎng)盤大文件的方法

    全網(wǎng)最強下載神器IDM使用教程之利用IDM加速下載百度網(wǎng)盤大文件的方法

    自從不限速度盤下載工具Pandownload被封殺后,有些網(wǎng)友紛紛表示:幸好我們還有IDM,但是很多朋友對IDM不是多了解,下面小編給大家介紹下下載神器IDM使用教程之利用IDM加速下載百度網(wǎng)盤大文件的方法,感興趣的朋友跟隨小編一起看看吧
    2023-01-01
  • github pull最新代碼實現(xiàn)方法

    github pull最新代碼實現(xiàn)方法

    本文主要介紹 github pull最新代碼的資料,這里對 github pull最新代碼做了詳細(xì)流程介紹,有需要的小伙伴可以參考下
    2016-09-09
  • 百度HI QQ和MSN 阿里旺旺貿(mào)易通MSN在線客服在線聊天代碼

    百度HI QQ和MSN 阿里旺旺貿(mào)易通MSN在線客服在線聊天代碼

    有時候業(yè)務(wù)需要,需要讓客戶更方便的與我們溝通,就可以參考下面的代碼。
    2010-04-04
  • 聊聊Flare應(yīng)用前后端性能優(yōu)化問題

    聊聊Flare應(yīng)用前后端性能優(yōu)化問題

    這篇文章主要介紹了Flare應(yīng)用前后端性能優(yōu)化,制作?flare?的過程,其實也是?flame?性能調(diào)優(yōu)的過程。不過在解決問題之前,我們首先得能定位問題有哪些,帶著這些問題一起通過本文學(xué)習(xí)吧
    2022-02-02
  • 一文帶你了解ChatGPT?API的使用

    一文帶你了解ChatGPT?API的使用

    ChatGPT是OpenAI公司開發(fā)的一款基于自然語言處理技術(shù)的對話生成模型,,能夠自動學(xué)習(xí)自然語言數(shù)據(jù)的特征,并生成高質(zhì)量的語言文本。本文將為大家來介紹一下ChatGPT的API使用,希望對大家有所幫助
    2023-02-02
  • 解決使用IDE Run運行出錯package pack/test is not in GOROOT (/usr/local/go/src/pack/test)

    解決使用IDE Run運行出錯package pack/test is not in GOROOT (/usr/loca

    這篇文章主要介紹了解決使用IDE Run運行出錯package pack/test is not in GOROOT (/usr/local/go/src/pack/test),本文給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-11-11
  • git?push?origin?HEAD:refs/for/master?的意思分析

    git?push?origin?HEAD:refs/for/master?的意思分析

    這篇文章主要介紹了git?push?origin?HEAD:refs/for/master?的意思,補充介紹了git?提交代碼常用命令,本文給大家介紹的非常詳細(xì),需要的朋友可以參考下
    2023-01-01
  • Git工作流模式及命令的使用講解

    Git工作流模式及命令的使用講解

    這篇文章主要為大家介紹了Git的工作流模式及命令的使用講解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2022-04-04
  • 人工智能學(xué)習(xí)路線分享

    人工智能學(xué)習(xí)路線分享

    這篇文章主要為大家分享了人工智能"六步走"學(xué)習(xí)路線,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2017-12-12
  • 新手程序員編程必不可少的工具

    新手程序員編程必不可少的工具

    這篇文章主要為大家詳細(xì)介紹了新手程序員編程必不可少的工具,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-01-01

最新評論