簡單試用了一下，感覺pyspider更像一個為新手打造的爬蟲工具，好比一個老媽子，有時無微不至，有時喋喋不休。輕巧的小工具應(yīng)該更受人喜愛，我也懷著一點私心，可以帶著我最愛的BeautifulSoup一塊兒用，而不用再學(xué)PyQuery（pyspider用來解析HTML），更不用忍受瀏覽器寫Python的糟糕體驗（偷笑）。

所以花了一個下午的時間，把pyspider當(dāng)中實現(xiàn)Phantomjs代理的部分拆了出來，獨立成一個小的爬蟲模塊，希望大家會喜歡（感謝binux?。?。

準(zhǔn)備工作

你當(dāng)然要有Phantomjs，廢話！（Linux下最好用supervisord守護(hù)，必須保持抓取的時候Phantomjs一直處于開啟狀態(tài)）
用項目路徑下的phantomjs_fetcher.js啟動：phantomjs phantomjs_fetcher.js [port]
安裝tornado依賴（使用了tornado的httpclient模塊）

調(diào)用是超級簡單的

from tornado_fetcher import Fetcher

# 創(chuàng)建一個爬蟲
>>> fetcher=Fetcher(
  user_agent='phantomjs', # 模擬瀏覽器的User-Agent
  phantomjs_proxy='http://localhost:12306', # phantomjs的地址
  poolsize=10, # 最大的httpclient數(shù)量
  async=False # 同步還是異步
  )
# 開始連接Phantomjs的代碼，可以渲染JS！
>>> fetcher.fetch(url)
# 渲染成功后執(zhí)行額外的JS腳本（注意用function包起來?。?
>>> fetcher.fetch(url, js_script='function(){setTimeout("window.scrollTo(0,100000)}", 1000)')

代碼 https://github.com/2shou/PhantomjsFetcher

您可能感興趣的文章:

相關(guān)文章

Python Thread虛假喚醒概念與防范詳解
這篇文章主要介紹了Python Thread虛假喚醒概念與防范，虛假喚醒是一種現(xiàn)象，它只會出現(xiàn)在多線程環(huán)境中，指的是在多線程環(huán)境下，多個線程等待在同一個條件上，等到條件滿足時，所有等待的線程都被喚醒，但由于多個線程執(zhí)行的順序不同
2023-02-02
python中的多線程實例教程
這篇文章主要介紹了python中的多線程用法,包括線程的創(chuàng)建、同步等核心問題,具有很好的參考借鑒價值,需要的朋友可以參考下
2014-08-08
Python的argparse庫使用詳解
argparse是python標(biāo)準(zhǔn)庫里面用來處理命令行參數(shù)的庫，這篇文章主要介紹了Python的argparse庫使用詳解，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-10-10
Python實現(xiàn)分段線性插值
這篇文章主要為大家詳細(xì)介紹了Python實現(xiàn)分段線性插值，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-12-12
一文帶你學(xué)會如何利用Python實現(xiàn)一個三維繪圖系統(tǒng)
tkinter是Python標(biāo)準(zhǔn)庫中自帶的GUI工具,使用十分方便,所以本文旨在帶大家學(xué)會如何將matplotlib嵌入到tkinter中并繪制三維繪圖系統(tǒng),感興趣的可以了解下
2023-09-09
python 多進(jìn)程隊列數(shù)據(jù)處理詳解
今天小編就為大家分享一篇python 多進(jìn)程隊列數(shù)據(jù)處理詳解，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12
python實現(xiàn)按日期歸檔文件
這篇文章主要介紹了python實現(xiàn)如何按日期歸檔文件，幫助大家更好的理解和使用python，感興趣的朋友可以了解下
2021-01-01
深入理解Django中內(nèi)置的用戶認(rèn)證
Django自帶一個用戶認(rèn)證系統(tǒng),這個系統(tǒng)處理用戶帳戶、組、權(quán)限和基于cookie的會話，下面這篇文章就來給大家介紹了關(guān)于Django中內(nèi)置的用戶認(rèn)證的相關(guān)資料，文中通過示例代碼介紹的非常詳細(xì)，需要的朋友可以參考下。
2017-10-10
深入分析python數(shù)據(jù)挖掘 Json結(jié)構(gòu)分析
這篇文章通過實例給大家分析總結(jié)了python數(shù)據(jù)挖掘以及Json結(jié)構(gòu)分析的相關(guān)知識點，對此有興趣的朋友參考下。
2018-04-04
利用Python進(jìn)行時間序列數(shù)據(jù)分析與可視化的代碼示例
隨著時間序列數(shù)據(jù)在金融、氣象、生態(tài)等領(lǐng)域的廣泛應(yīng)用,利用Python進(jìn)行時間序列數(shù)據(jù)分析和可視化已成為重要的技能之一,本文將介紹如何使用Python進(jìn)行時間序列數(shù)據(jù)分析和可視化,并給出相應(yīng)的代碼示例,需要的朋友可以參考下
2023-11-11