欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲的一個常見簡單js反爬詳解

 更新時間:2019年07月09日 09:46:52   作者:dragon-brother  
這篇文章主要介紹了python爬蟲的一個常見簡單js反爬詳解我們在寫爬蟲是遇到最多的應該就是js反爬了,今天分享一個比較常見的js反爬,我把js反爬分為參數由js加密生成和js生成cookie等來操作瀏覽器這兩部分,需要的朋友可以參考下

前言

我們在寫爬蟲是遇到最多的應該就是js反爬了,今天分享一個比較常見的js反爬,這個我已經在多個網站上見到過了。

我把js反爬分為參數由js加密生成和js生成cookie等來操作瀏覽器這兩部分,今天說的是第二種情況。

目標網站

列表頁url:  http://www.hnrexian.com/archives/category/jk

正常網站我們請求url會返回給我們網頁數據內容等,看看這個網站返回給我們的是什么呢?

我們把相應中返回的js代碼格式化一下,方便查看。

< script type = "text/javascript" >
function stringToHex(str) {
  var val = "";
  for (var i = 0; i < str.length; i++) {
    if (val == "") val = str.charCodeAt(i).toString(16);
    else val += str.charCodeAt(i).toString(16);
  }
  return val;
}
function YunSuoAutoJump() {
  var width = screen.width;
  var height = screen.height;
  var screendate = width + "," + height;
  var curlocation = window.location.href;
  if ( - 1 == curlocation.indexOf("security_verify_")) {
    document.cookie = "srcurl=" + stringToHex(window.location.href) + ";path=/;";
  }
  self.location = "/archives/category/jk?security_verify_data=" + stringToHex(screendate);
} < /script>
 <script>setTimeout("YunSuoAutoJump()", 50);</script > 

說好的返回網頁數據源碼呢,這是什么東西!

js破解思路

js破解提供兩種思路,一種是直接用Python來重寫js內容,實現模擬js的操作,這種一般用于比較簡單的js;還有一種是用Python第三方庫來解析js,比如pyv8,execjs這些(個人覺得execjs比較好用),這種一般用于比較復雜的js解析。

分析返回的js分成兩個部分。第一部分,定義了stringToHex和YunSuoAutoJump兩個函數。第二部分,50毫秒后執(zhí)行YunSuoAutoJump這個函數。

YunSuoAutoJump這個函數功能是添加一個cookie并去請求一個構造的url,可以從document.cookie 和 self.location這里看出。stringToHex這個函數的共能其實就是字符串的轉換,具體js內容可以參考這個網址https://www.runoob.com/js/js-tutorial.html自行查找。

python重寫代碼

那么接下來就是用python來重寫js啦,重寫后代碼如下。

def stringToHex(string):
  length = len(string)
  hex_string = str()
  for i in xrange(length):
    hex_string += hex(ord(string[i]))[2:]
  return hex_string

def get_cookie(url):
  hex_string = stringToHex(url)
  cookie = {"srcurl": hex_string, "path": "/"}
  return cookie

這是那兩個函數,一個用于字符串轉換,一個用于獲取cookie。

最后拿到結果

接下來模擬瀏覽器操作,其中是分為三部分。第一次,我們請求目標url,然后返回給我們js內容;第二次,js添加1個cookie并請求了1個構造出的url;第三次請求原目標url,得到最終的數據。

這里我們用requests.Session來保持連接,模擬上面三部的內容。

url = "http://www.hnrexian.com/archives/category/jk"
s = requests.Session()
r = s.get(url)
url_2 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r.text)[0]
screen_date = "1920,1080"
url_2 = url_2 + stringToHex(screen_date)
url_2 = urljoin(url, url_2)
cookie = get_cookie(url)
s.cookies.update(cookie)
r2 = s.get(url_2)
url3 = re.compile("self\.location\s*=\s*\"(.*?)\"").findall(r2.text)[0]
r3 = s.get(url3)
r3.encoding = "gbk"
print r3.text

到這里我們就完美得到最后想要的內容了。

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • 用Python從零實現貝葉斯分類器的機器學習的教程

    用Python從零實現貝葉斯分類器的機器學習的教程

    這篇文章主要介紹了用Python從零實現貝葉斯分類器的教程,樸素貝葉斯算法屬于機器學習中的基礎內容、實用而高效,本文詳細展示了用Python語言實現的步驟,需要的朋友可以參考下
    2015-03-03
  • Python 解決OPEN讀文件報錯 ,路徑以及r的問題

    Python 解決OPEN讀文件報錯 ,路徑以及r的問題

    今天小編就為大家分享一篇Python 解決OPEN讀文件報錯 ,路徑以及r的問題,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • Django實現快速分頁的方法實例

    Django實現快速分頁的方法實例

    分頁是我們日常開發(fā)中必不可少的一個功能,下面這篇文章主要給大家介紹了關于Django如何實現快速分頁的方法,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考借鑒,下面隨著小編來一起學習學習吧。
    2017-10-10
  • python實現2048小游戲

    python實現2048小游戲

    本文給大家分享的是個人修改自某網友的Python實現2048小游戲的代碼,推薦給大家,有需要的小伙伴可以參考下。
    2015-03-03
  • 初次部署django+gunicorn+nginx的方法步驟

    初次部署django+gunicorn+nginx的方法步驟

    這篇文章主要介紹了初次部署django+gunicorn+nginx的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2019-09-09
  • python實現接口并發(fā)測試腳本

    python實現接口并發(fā)測試腳本

    這篇文章主要為大家詳細介紹了python實現接口并發(fā)測試腳本,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2019-06-06
  • Python Web框架Pylons中使用MongoDB的例子

    Python Web框架Pylons中使用MongoDB的例子

    這篇文章主要介紹了Python Web框架Pylons中使用MongoDB 的例子,大家參考使用
    2013-12-12
  • python不使用for計算兩組、多個矩形兩兩間的iou方式

    python不使用for計算兩組、多個矩形兩兩間的iou方式

    今天小編就為大家分享一篇python不使用for計算兩組、多個矩形兩兩間的iou方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-01-01
  • Python?seaborn數據可視化繪圖(直方圖,密度圖,散點圖)

    Python?seaborn數據可視化繪圖(直方圖,密度圖,散點圖)

    這篇文章主要介紹了Python?seaborn數據可視化繪圖(直方圖,密度圖,散點圖),文章圍繞主題展開詳細的內容介紹,具有一定的參考價值,需要的朋友可以參考一下
    2022-07-07
  • 解決pyinstaller打包運行程序時出現缺少plotly庫問題

    解決pyinstaller打包運行程序時出現缺少plotly庫問題

    這篇文章主要介紹了解決pyinstaller打包運行程序時出現缺少plotly庫問題,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-06-06

最新評論