Python基于execjs運行js過程解析

更新時間：2020年11月27日 08:31:51 作者：董小賤

這篇文章主要介紹了Python基于execjs運行js過程解析,文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下

execjs 使用

有了selenium+Chrome Headless 加載頁面為什么還要用execjs來運行js？

selenium+Chrome Headless 必然是爬蟲的一大利器，可是缺點依然存在，性能問題不可忽視。

但這構(gòu)不成舍棄它而不用的理由。我認為舍棄包括Chrome Headless、PhantomJS在內(nèi)的無頭瀏覽器的原因主要有以下幾點：

1. 頁面結(jié)構(gòu)改變、彈窗(一些網(wǎng)站的頁面結(jié)構(gòu)經(jīng)常無規(guī)則改變)，影響代碼的健壯性。

2. 無頭瀏覽器的應(yīng)用場景主要是一些模擬登陸賬號密碼加密的場景，爬蟲全程使用無頭瀏覽器，影響性能和效率，浪費資源。

3. 通過js加密的網(wǎng)站，可以看得到加密過程，可以拿得到加密源碼。

1. 安裝

pip install PyExecJS # 需要注意，包的名稱：PyExecJS

2. 簡單使用

import execjs
execjs.eval("new Date")

返回值為： 2018-04-04T12:53:17.759Z

execjs.eval("Date.now()")

返回值為：1522847001080 # 需要注意的是返回值是13位，區(qū)別于python的time.time()

需要注意的是：個別的JS語句，用execjs返回的結(jié)果跟瀏覽器環(huán)境返回的結(jié)果是有區(qū)別的，以下是瀏覽器環(huán)境返回的結(jié)果
瀏覽器環(huán)境運行的結(jié)果

3. 調(diào)用函數(shù)

 # 實際生產(chǎn)中處理的js有幾百幾千行， 不方便貼上來。來看一下源碼中給的例子：
 ctx = execjs.compile("""
    function add(x, y) {
        return x + y;
      }
""")
 ctx.call("add", 1, 2) # 第一個參數(shù) “add” 為JS函數(shù)名的字符串， 后邊依次為實參
 返回值：3

execjs的用法非常簡單，下邊來看一下執(zhí)行JS的環(huán)境，以及性能：

4. 執(zhí)行JS的環(huán)境

# 1. 在windows上不需要其他的依賴便可運行execjs， 也可以調(diào)用其他的JS環(huán)境
  # windows 默認的執(zhí)行JS的環(huán)境
    execjs.get().name
    返回值： JScript
  # 作者本人的windows上裝有Node.js ， 所以返回值不同
   execjs.get().name
   返回值： Node.js (V8)

#2. 在ubuntu下需要安裝執(zhí)行JS環(huán)境依賴, 作者的環(huán)境為PhantomJS
    execjs.get().name
    返回值： PhantomJS

#3. 源碼中給出， 可執(zhí)行execjs的環(huán)境：
 PyV8      = "PyV8"
 Node      = "Node"
 JavaScriptCore = "JavaScriptCore"
 SpiderMonkey  = "SpiderMonkey"
 JScript    = "JScript"
 PhantomJS   = "PhantomJS"
 SlimerJS    = "SlimerJS"
 Nashorn    = "Nashorn"

注1：作者之前在ubuntu環(huán)境下執(zhí)行execjs碰見過因為沒有環(huán)境而報錯，因時間久遠，無法肯定。現(xiàn)在環(huán)境齊全，報錯無法復(fù)原，如有讀者出現(xiàn)錯誤，請留言，多謝！

更新注1：經(jīng)過朋友老冀的指正(在此感謝)，在ubuntu環(huán)境下，沒有JS環(huán)境會報錯:Could not find an available JavaScript runtime. 由此可見， execjs在ubuntu需要安裝JS環(huán)境。具體的JS環(huán)境需根據(jù)具體的需求安裝，切不可超過以上8種。

5.環(huán)境切換

  # 1. 通過os.environ
  os.environ["EXECJS_RUNTIME"] = "Node"
  execjs.get().name
  execjs.eval("1 + 2")
  # 2. 通過execjs.get 切換
   jscript = execjs.get(execjs.runtime_names.JScript) # runtime_names 便是execjs源碼中給出的執(zhí)行環(huán)境的。 execjs.runtime_names.xxx xxx必須在上一節(jié) #3中取
   jscript.eval("1 + 2")

注: 在切換環(huán)境時，當環(huán)境不存在不會報錯，會使用默認的環(huán)境。另外需要注意的是，兩種方式的區(qū)別

6. 簡易性能分析

 # 作者只簡單試了三種， 在windows下
import execjs
import os
import time

# 先用JScript
os.environ["EXECJS_RUNTIME"] = "JScript"
print execjs.get().name

time1 = time.time()
for i in range(100):
  execjs.eval("new Date")
print time.time() - time1

# 切換環(huán)境 使用Nodejs
os.environ["EXECJS_RUNTIME"] = "Node"
print execjs.get().name

time2 = time.time()
for l in range(100):
  execjs.eval("new Date"）
print time.time() - time2

# 打印的結(jié)果為：
JScript
4.70900011063
Node.js (V8)
27.501999855

# 在ubuntu下試的是PhantoJS ， 結(jié)果竟然高達 30+ S

此注釋來自execjs作者：PyExecJS的缺點之一就是性能。PyExecJS通過文本傳遞JavaScript運行時，并且速度很慢。另一個缺點是它不完全支持運行時特定的功能。對于某些用例，PyV8可能是更好的選擇。

總注：使用execjs的難點并不是在execjs這個庫，而是解析JS的過程，因為沒有瀏覽器的環(huán)境，沒有加密源碼的依賴。從成千上萬行的JS中擇出想要的內(nèi)容，可能是一段孤零零的JS函數(shù)，也可能是從幾個JS文件去找出各自找出一段JS代碼，并可以通過execjs順利執(zhí)行，這并非易事。需要慢慢積累經(jīng)驗。一旦掌握，便可以提高爬蟲的效率，以及代碼的健壯性，節(jié)省資源！

以上就是本文的全部內(nèi)容，希望對大家的學習有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python中os模塊的實例用法
在本篇文章里小編給大家整理的是一篇關(guān)于Python中os模塊的實例用法，有興趣的朋友們可以學習下。
2021-06-06
python文件寫入實例分析
這篇文章主要介紹了python文件寫入的用法,實例分析了Python文件寫入的使用技巧,非常具有實用價值,需要的朋友可以參考下
2015-04-04
Python中IO多路復(fù)用模塊selector的用法詳解
selector?是一個實現(xiàn)了IO復(fù)用模型的python包,實現(xiàn)了IO多路復(fù)用模型的?select、poll?和?epoll?等函數(shù),下面就跟隨小編一起來學習一下它的具體使用吧
2024-02-02
深入淺析Python傳值與傳址
這篇文章主要介紹了Python傳值與傳址的相關(guān)知識，包括傳值與傳址的區(qū)別介紹,需要的朋友可以參考下
2018-07-07
這篇文章主要介紹了Python排序搜索基本算法之堆排序,結(jié)合實例形式詳細分析了堆排序的原理、Python實現(xiàn)方法及相關(guān)操作注意事項,需要的朋友可以參考下
2017-12-12