欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python爬蟲系列Selenium定向爬取虎撲籃球圖片詳解

 更新時(shí)間:2017年11月15日 15:01:02   作者:Eastmount  
這篇文章主要介紹了python爬蟲系列Selenium定向爬取虎撲籃球圖片詳解,具有一定參考價(jià)值,喜歡的朋友可以了解下。

前言:

作為一名從小就看籃球的球迷,會(huì)經(jīng)常逛虎撲籃球及濕乎乎等論壇,在論壇里面會(huì)存在很多精美圖片,包括NBA球隊(duì)、CBA明星、花邊新聞、球鞋美女等等,如果一張張右鍵另存為的話真是手都點(diǎn)疼了。作為程序員還是寫個(gè)程序來進(jìn)行吧!

所以我通過Python+Selenium+正則表達(dá)式+urllib2進(jìn)行海量圖片爬取。

運(yùn)行效果:

 http://photo.hupu.com/nba/tag/馬刺

http://photo.hupu.com/nba/tag/陳露

源代碼:

# -*- coding: utf-8 -*- 
""" 
Crawling pictures by selenium and urllib
url: 虎撲 馬刺 http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA
url: 虎撲 陳露 http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2
Created on 2015-10-24
@author: Eastmount CSDN 
""" 
 
import time   
import re   
import os 
import sys 
import urllib 
import shutil 
import datetime 
from selenium import webdriver  
from selenium.webdriver.common.keys import Keys  
import selenium.webdriver.support.ui as ui  
from selenium.webdriver.common.action_chains import ActionChains 
 
#Open PhantomJS 
driver = webdriver.PhantomJS(executable_path="G:\phantomjs-1.9.1-windows\phantomjs.exe")
#driver = webdriver.Firefox() 
wait = ui.WebDriverWait(driver,10) 
 
#Download one Picture By urllib 
def loadPicture(pic_url, pic_path): 
 pic_name = os.path.basename(pic_url) #刪除路徑獲取圖片名字
 pic_name = pic_name.replace('*','') #去除'*' 防止錯(cuò)誤 invalid mode ('wb') or filename
 urllib.urlretrieve(pic_url, pic_path + pic_name)
 
 
#爬取具體的圖片及下一張
def getScript(elem_url, path, nums):
 try:
  #由于鏈接 http://photo.hupu.com/nba/p29556-1.html
  #只需拼接 http://..../p29556-數(shù)字.html 省略了自動(dòng)點(diǎn)擊"下一張"操作
  count = 1
  t = elem_url.find(r'.html')
  while (count <= nums):
   html_url = elem_url[:t] + '-' + str(count) + '.html'
   #print html_url
   '''
   driver_pic.get(html_url)
   elem = driver_pic.find_element_by_xpath("http://div[@class='pic_bg']/div/img")
   url = elem.get_attribute("src")
   '''
   #采用正則表達(dá)式獲取第3個(gè)<div></div> 再獲取圖片URL進(jìn)行下載
   content = urllib.urlopen(html_url).read()
   start = content.find(r'<div class="flTab">')
   end = content.find(r'<div class="comMark" style>')
   content = content[start:end]
   div_pat = r'<div.*?>(.*?)<\/div>'
   div_m = re.findall(div_pat, content, re.S|re.M)
   #print div_m[2]
   link_list = re.findall(r"(?<=href=\").+?(?=\")|(?<=href=\').+?(?=\')", div_m[2])
   #print link_list
   url = link_list[0] #僅僅一條url鏈接
   loadPicture(url, path)
   count = count + 1

 except Exception,e: 
  print 'Error:',e 
 finally: 
  print 'Download ' + str(count) + ' pictures\n' 
 
  
#爬取主頁(yè)圖片集的URL和主題 
def getTitle(url): 
 try: 
  #爬取URL和標(biāo)題 
  count = 0 
  print 'Function getTitle(key,url)' 
  driver.get(url) 
  wait.until(lambda driver: driver.find_element_by_xpath("http://div[@class='piclist3']"))
  print 'Title: ' + driver.title + '\n'
  
  #縮略圖片url(此處無用) 圖片數(shù)量 標(biāo)題(文件名) 注意順序
  elem_url = driver.find_elements_by_xpath("http://a[@class='ku']/img")
  elem_num = driver.find_elements_by_xpath("http://div[@class='piclist3']/table/tbody/tr/td/dl/dd[1]")
  elem_title = driver.find_elements_by_xpath("http://div[@class='piclist3']/table/tbody/tr/td/dl/dt/a")
  for url in elem_url: 
   pic_url = url.get_attribute("src")
   html_url = elem_title[count].get_attribute("href")
   print elem_title[count].text
   print html_url 
   print pic_url
   print elem_num[count].text
   
   #創(chuàng)建圖片文件夾
   path = "E:\\Picture_HP\\" + elem_title[count].text + "\\"
   m = re.findall(r'(\w*[0-9]+)\w*', elem_num[count].text) #爬蟲圖片張數(shù)
   nums = int(m[0])
   count = count + 1 
   if os.path.isfile(path):   #Delete file 
    os.remove(path) 
   elif os.path.isdir(path):  #Delete dir 
    shutil.rmtree(path, True) 
   os.makedirs(path)    #create the file directory 
   getScript(html_url, path, nums) #visit pages
     
 except Exception,e: 
  print 'Error:',e 
 finally: 
  print 'Find ' + str(count) + ' pages with key\n' 
  
#Enter Function 
def main(): 
 #Create Folder 
 basePathDirectory = "E:\\Picture_HP" 
 if not os.path.exists(basePathDirectory): 
  os.makedirs(basePathDirectory) 
 
 #Input the Key for search str=>unicode=>utf-8 
 key = raw_input("Please input a key: ").decode(sys.stdin.encoding) 
 print 'The key is : ' + key 
 
 #Set URL List Sum:1-2 Pages 
 print 'Ready to start the Download!!!\n\n' 
 starttime = datetime.datetime.now() 
 num=1 
 while num<=1:
  #url = 'http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1'
  url = 'http://photo.hupu.com/nba/tag/%E9%A9%AC%E5%88%BA'  
  print '第'+str(num)+'頁(yè)','url:'+url 
  #Determine whether the title contains key 
  getTitle(url) 
  time.sleep(2) 
  num = num + 1 
 else: 
  print 'Download Over!!!' 
 
 #get the runtime 
 endtime = datetime.datetime.now() 
 print 'The Running time : ',(endtime - starttime).seconds 
   
main()

代碼解析:

        源程序主要步驟如下:

        1.入口main函數(shù)中,在E盤下創(chuàng)建圖片文件夾Picture_HP,然后輸入圖集url,本打算輸入tag來進(jìn)行訪問的,因?yàn)閁RL如下:

        http://photo.hupu.com/nba/tag/馬刺

        但是解析URL中文總是錯(cuò)誤,故改成輸入U(xiǎn)RL,這不影響大局。同時(shí)你可能發(fā)現(xiàn)了代碼中while循環(huán)條件為num<=1,它只執(zhí)行一次,建議需要下載哪頁(yè)圖集,就賦值URL即可。但是虎撲的不同頁(yè)鏈接如下,通過分析URL拼接也是可以實(shí)現(xiàn)循環(huán)獲取所有頁(yè)的。

        http://photo.hupu.com/nba/tag/%E9%99%88%E9%9C%B2?p=2&o=1

       2.調(diào)用getTitle(rul)函數(shù),通過Selenium和Phantomjs分析HTML的DOM結(jié)構(gòu),通過find_elements_by_xpath函數(shù)獲取原圖路徑URL、圖集的主題和圖片數(shù)量。如圖:

通過該函數(shù)即可獲取每個(gè)圖集的主題、URL及圖片個(gè)數(shù),同時(shí)根據(jù)圖集主題創(chuàng)建相應(yīng)的文件夾,代碼中涉及正則表達(dá)式獲取圖片數(shù)量,從"共19張"到數(shù)字"19"。如圖:

3.再調(diào)用函數(shù)getScript(elem_url, path, nums),參數(shù)分別是圖片url、保存路徑和圖片數(shù)量。那么如何獲取下一張圖片的URL呢?

當(dāng)通過步驟二爬取了圖集URL,如:http://photo.hupu.com/nba/p29556.html

(1).如果是通過Ajax、JavaScript動(dòng)態(tài)加載的圖片,url無規(guī)律則需要調(diào)用Selenium動(dòng)態(tài)模擬鼠標(biāo)操作點(diǎn)擊“下一張”來獲取原圖url;

(2).但很多網(wǎng)站都會(huì)存在一些規(guī)律,如虎撲的第九張圖片鏈接如下,通過URL字符串分割處理即可實(shí)現(xiàn):"p29556-"+"數(shù)字"+".html"即可。

http://photo.hupu.com/nba/p29556-9.html

在該函數(shù)中,我第一次也是通過Selenium分析HTML結(jié)構(gòu)獲取原始圖片url,但每張圖片都需要調(diào)用一次Phantomjs無界面瀏覽器,這速度太慢了。故該成了正則表達(dá)式獲取HTML中的原圖URL,其原因如下圖:

虎撲又偷懶了,它在下面定義了原圖鏈接,直接獲取即可。

4.最后一步即urllib.urlretrieve(pic_url, pic_path + pic_name)下載圖片即可。

當(dāng)然你可能會(huì)遇到錯(cuò)誤“Error: [Errno 22] invalid mode ('wb') or filename”,參考 stackoverflow

總結(jié):

這是一篇講述Selenium和Python爬取虎撲圖集的文章,文章內(nèi)容算是爬蟲里面比較基礎(chǔ)的,其中下載的“陳露”圖片和網(wǎng)站給出的34個(gè)圖集、902張圖片一樣。同時(shí)采用正則后時(shí)間估計(jì)3分鐘左右,很快~當(dāng)然,虎撲里面的標(biāo)簽很多,足球應(yīng)該也是類似,只要修改URL即可下載圖集,非常之方便。

以上就是本文關(guān)于python爬蟲系列Selenium定向爬取虎撲籃球圖片詳解的全部?jī)?nèi)容,希望對(duì)大家有所幫助。感興趣的朋友可以繼續(xù)參閱本站:

Python爬蟲實(shí)例爬取網(wǎng)站搞笑段子

Python探索之爬取電商售賣信息代碼示例

python中requests爬去網(wǎng)頁(yè)內(nèi)容出現(xiàn)亂碼問題解決方法介紹

如有不足之處,歡迎留言指出。

相關(guān)文章

  • 在Python中使用列表生成式的教程

    在Python中使用列表生成式的教程

    這篇文章主要介紹了在Python中使用列表生成式的教程,列表生成式是Python具有的重要特性,需要的朋友可以參考下
    2015-04-04
  • Python數(shù)據(jù)可視化實(shí)現(xiàn)漏斗圖過程圖解

    Python數(shù)據(jù)可視化實(shí)現(xiàn)漏斗圖過程圖解

    這篇文章主要介紹了Python數(shù)據(jù)可視化實(shí)現(xiàn)漏斗圖過程圖解,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-07-07
  • python按時(shí)間排序目錄下的文件實(shí)現(xiàn)方法

    python按時(shí)間排序目錄下的文件實(shí)現(xiàn)方法

    今天小編就為大家分享一篇python按時(shí)間排序目錄下的文件實(shí)現(xiàn)方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2018-10-10
  • python?調(diào)制解調(diào)的實(shí)現(xiàn)

    python?調(diào)制解調(diào)的實(shí)現(xiàn)

    在Python中,可以使用SciPy和NumPy庫(kù)來處理信號(hào),包括進(jìn)行FM信號(hào)的解調(diào),本文主要介紹了python?調(diào)制解調(diào)的實(shí)現(xiàn),具有一定的參考價(jià)值,感興趣的可以了解一下
    2024-03-03
  • 淺談Pandas Series 和 Numpy array中的相同點(diǎn)

    淺談Pandas Series 和 Numpy array中的相同點(diǎn)

    今天小編就為大家分享一篇淺談Pandas Series 和 Numpy array中的相同點(diǎn),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
    2019-06-06
  • Django中模板的繼承及引用實(shí)現(xiàn)

    Django中模板的繼承及引用實(shí)現(xiàn)

    Django模版引擎中最強(qiáng)大也是最復(fù)雜的部分就是模版繼承了,頁(yè)面的代碼很多,隨隨便便就是幾百行代碼,但是每個(gè)頁(yè)面之中都有相同的元素。本文主要介紹了Django模板的繼承及引用,感興趣的可以了解一下
    2021-08-08
  • python遞歸查詢菜單并轉(zhuǎn)換成json實(shí)例

    python遞歸查詢菜單并轉(zhuǎn)換成json實(shí)例

    本篇文章主要介紹了python遞歸查詢菜單并轉(zhuǎn)換成json實(shí)例,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下。
    2017-03-03
  • python實(shí)現(xiàn)word 2007文檔轉(zhuǎn)換為pdf文件

    python實(shí)現(xiàn)word 2007文檔轉(zhuǎn)換為pdf文件

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)word 2007文檔轉(zhuǎn)換為pdf文件,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-03-03
  • python進(jìn)階_淺談面向?qū)ο筮M(jìn)階

    python進(jìn)階_淺談面向?qū)ο筮M(jìn)階

    下面小編就為大家?guī)硪黄猵ython進(jìn)階_淺談面向?qū)ο筮M(jìn)階。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2017-08-08
  • pandas如何計(jì)算同比環(huán)比增長(zhǎng)

    pandas如何計(jì)算同比環(huán)比增長(zhǎng)

    這篇文章主要介紹了pandas如何計(jì)算同比環(huán)比增長(zhǎng),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-05-05

最新評(píng)論