欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法分析

 更新時(shí)間:2019年06月03日 12:02:12   作者:學(xué)習(xí)筆記666  
這篇文章主要介紹了Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法,結(jié)合實(shí)例形式分析了Python多進(jìn)程抓取網(wǎng)站內(nèi)容相關(guān)實(shí)現(xiàn)技巧與操作注意事項(xiàng),需要的朋友可以參考下

本文實(shí)例講述了Python多進(jìn)程方式抓取基金網(wǎng)站內(nèi)容的方法。分享給大家供大家參考,具體如下:

在前面這篇//www.dbjr.com.cn/article/162418.htm我們已經(jīng)簡(jiǎn)單了解了”python的多進(jìn)程”,現(xiàn)在我們需要把抓取基金網(wǎng)站(28頁)內(nèi)容寫成多進(jìn)程的方式。

因?yàn)檫M(jìn)程也不是越多越好,我們計(jì)劃分3個(gè)進(jìn)程執(zhí)行。意思就是 :把總共要抓取的28頁分成三部分。

怎么分呢?

# 初始range
r = range(1,29)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)]
print(myList) # [range(1, 11), range(11, 21), range(21, 29)]

看上面代碼,我們就把1~29分成了三部分,list里三個(gè)range。

2、還記得我們抓取基金網(wǎng)站內(nèi)容的getData()函數(shù)?

def getData(start, end):
  for x in range(start, end+1):
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()

函數(shù)是有2個(gè)參數(shù):一個(gè)開始頁碼,一個(gè)結(jié)束頁碼,也就是從第start頁,到第end頁。

這2個(gè)參數(shù)實(shí)際上也是range。

改造getData()函數(shù)如下(參數(shù)不同了):

# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
  for x in myrange:
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()

3、創(chuàng)建進(jìn)程,把target設(shè)置為上面的getData()

# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
  for r in myList:
    p = Process(target=getData,args=(r,))
    processList.append(p)
  # 開始執(zhí)行進(jìn)程
  for p in processList:
    p.start()

這樣就有三個(gè)進(jìn)程分別抓取。

4、多進(jìn)程抓取基金網(wǎng)站多頁內(nèi)容完全代碼:

# coding: utf-8
from selenium import webdriver
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions
from multiprocessing import Process
driver = webdriver.PhantomJS(executable_path=r"你phantomjs的可執(zhí)行文件路徑")
# 請(qǐng)求一個(gè)網(wǎng)址
driver.get("http://fund.eastmoney.com/fund.html")
page_text = driver.find_element_by_id("pager").find_element_by_xpath("span[@class='nv']").text
total_page = ''.join(filter(str.isdigit,page_text)) # 得到總共有多少頁
# 循環(huán)抓取網(wǎng)頁內(nèi)容的函數(shù)
def getData(myrange):
  for x in myrange:
    # 去第幾頁 輸入框
    tonum = driver.find_element_by_id("tonum")
    # 去第幾頁 提交按鈕
    jumpBtn = driver.find_element_by_id("btn_jump")
    tonum.clear() # 第x頁 輸入框
    tonum.send_keys(str(x)) # 去第x頁
    jumpBtn.click() # 點(diǎn)擊按鈕
    WebDriverWait(driver, 20).until(lambda driver: driver.find_element_by_id("pager") \
                    .find_element_by_xpath("span[@value={0} and @class!='end page']".format(x)) \
                    .get_attribute("class").find("at") != -1)
    # 保存抓取到的html內(nèi)容
    # 保存到html目錄下
    with open("./htmls/{0}.txt".format(x),"wb") as f:
      f.write(driver.find_element_by_id("tableDiv").get_attribute("innerHTML").encode("utf8"))
      f.close()
# 初始range
r = range(1,int(total_page)+1)
# 步長(zhǎng)
step = 10
myList = [r[x:x+step] for x in range(0,len(r),step)] # 把頁面分段
# 創(chuàng)建進(jìn)程
processList = []
if __name__ == "__main__":
  for r in myList:
    p = Process(target=getData,args=(r,))
    processList.append(p)
  # 開始執(zhí)行進(jìn)程
  for p in processList:
    p.start()

更多關(guān)于Python相關(guān)內(nèi)容感興趣的讀者可查看本站專題:《Python進(jìn)程與線程操作技巧總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》、《Python+MySQL數(shù)據(jù)庫程序設(shè)計(jì)入門教程》及《Python常見數(shù)據(jù)庫操作技巧匯總

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • 詳解利用Pytorch實(shí)現(xiàn)ResNet網(wǎng)絡(luò)之評(píng)估訓(xùn)練模型

    詳解利用Pytorch實(shí)現(xiàn)ResNet網(wǎng)絡(luò)之評(píng)估訓(xùn)練模型

    這篇文章主要為大家介紹了利用Pytorch實(shí)現(xiàn)ResNet網(wǎng)絡(luò)之評(píng)估訓(xùn)練模型詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-04-04
  • python實(shí)現(xiàn)A*尋路算法

    python實(shí)現(xiàn)A*尋路算法

    A*算法可以顯示尋路圖,兩點(diǎn)之間尋找最短路徑,本文使用Python實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • 你可能不知道的Python 技巧小結(jié)

    你可能不知道的Python 技巧小結(jié)

    有許許多多文章寫了 Python 中的許多很酷的特性,例如變量解包、偏函數(shù)、枚舉可迭代對(duì)象,但是關(guān)于 Python 還有很多要討論的話題,因此在本文中,我將嘗試展示一些我知道的和在使用的,但很少在其它文章提到過的特性。那就開始吧
    2020-01-01
  • 關(guān)于Python常用函數(shù)中NumPy的使用

    關(guān)于Python常用函數(shù)中NumPy的使用

    這篇文章主要介紹了關(guān)于Python常用函數(shù)中NumPy的使用,在Python中有很多常用的函數(shù),NumPy就是其中之一,那么NumPy該怎么使用,下面就一起來看看吧
    2023-03-03
  • pytorch矩陣乘法的實(shí)現(xiàn)

    pytorch矩陣乘法的實(shí)現(xiàn)

    本文主要介紹了pytorch矩陣乘法的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2023-11-11
  • 淺談Python之Django(四)

    淺談Python之Django(四)

    這篇文章主要介紹了Python3中的Django,小編覺得這篇文章寫的還不錯(cuò),需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧,希望能夠給你帶來幫助
    2021-10-10
  • Python學(xué)習(xí)之流程控制與條件判斷總結(jié)

    Python學(xué)習(xí)之流程控制與條件判斷總結(jié)

    這篇文章主要為大家介紹了Python中的流程控制與條件判斷,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定幫助,需要的可以參考一下
    2022-03-03
  • python導(dǎo)入其他目錄下模塊的四種情況

    python導(dǎo)入其他目錄下模塊的四種情況

    在python工程中常常需要使用import引入自己編寫的其他模塊,但其它模塊有時(shí)不在同一個(gè)文件夾下,下面這篇文章主要給大家介紹了關(guān)于python導(dǎo)入其他目錄下模塊的四種情況,需要的朋友可以參考下
    2022-12-12
  • pycharm配置anaconda環(huán)境時(shí)找不到python.exe解決辦法

    pycharm配置anaconda環(huán)境時(shí)找不到python.exe解決辦法

    今天來說一下python中一個(gè)管理包很好用的工具anaconda,可以輕松實(shí)現(xiàn)python中各種包的管理,這篇文章主要給大家介紹了關(guān)于pycharm配置anaconda環(huán)境時(shí)找不到python.exe的解決辦法,需要的朋友可以參考下
    2023-10-10
  • Qt調(diào)用Python詳細(xì)圖文過程記錄

    Qt調(diào)用Python詳細(xì)圖文過程記錄

    Qt調(diào)用python實(shí)際上就是c++調(diào)python,網(wǎng)上搜會(huì)出來很多,介紹得也比較全,這里做個(gè)記錄,下面這篇文章主要給大家介紹了關(guān)于Qt調(diào)用Python詳細(xì)圖文過程,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05

最新評(píng)論