快捷導(dǎo)航

Python爬取網(wǎng)頁(yè)中的圖片（搜狗圖片）詳解

更新時(shí)間：2017年03月23日 09:01:53 作者：dearvee

沒想到python是如此強(qiáng)大，令人著迷，以前看見圖片總是一張一張復(fù)制粘貼，現(xiàn)在好了，學(xué)會(huì)python就可以用程序?qū)⒁粡垙垐D片，保存下來。下面這篇文章主要給大家介紹了利用Python3.6爬取搜狗圖片網(wǎng)頁(yè)中圖片的相關(guān)資料，需要的朋友可以參考下。

前言

最近幾天，研究了一下一直很好奇的爬蟲算法。這里寫一下最近幾天的點(diǎn)點(diǎn)心得。下面進(jìn)入正文：

你可能需要的工作環(huán)境：

　　Python 3.6官網(wǎng)下載

本地下載

我們這里以sogou作為爬取的對(duì)象。

首先我們進(jìn)入搜狗圖片http://pic.sogou.com/，進(jìn)入壁紙分類（當(dāng)然只是個(gè)例子Q_Q），因?yàn)槿绻枰廊∧尘W(wǎng)站資料，那么就要初步的了解它…

進(jìn)去后就是這個(gè)啦，然后F12進(jìn)入開發(fā)人員選項(xiàng)，筆者用的是Chrome。

右鍵圖片>>檢查

發(fā)現(xiàn)我們需要的圖片src是在img標(biāo)簽下的，于是先試著用 Python 的 requests提取該組件，進(jìn)而獲取img的src然后使用 urllib.request.urlretrieve逐個(gè)下載圖片，從而達(dá)到批量獲取資料的目的，思路好了，下面應(yīng)該告訴程序要爬取的url為http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD，此url來自進(jìn)入分類后的地址欄。明白了url地址我們來開始愉快的代碼時(shí)間吧：

在寫這段爬蟲程序的時(shí)候，最好要逐步調(diào)試，確保我們的每一步操作正確，這也是程序猿應(yīng)該有的好習(xí)慣。筆者不知道自己算不算個(gè)程序猿哈。線面我們來剖析該url指向的網(wǎng)頁(yè)。

import requests
import urllib
from bs4 import BeautifulSoup
res = requests.get('http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD')
soup = BeautifulSoup(res.text,'html.parser')
print(soup.select('img'))

output：

發(fā)現(xiàn)輸出內(nèi)容并不包含我們要的圖片元素，而是只剖析到logo的img，這顯然不是我們想要的。也就是說需要的圖片資料不在url 即 http://pic.sogou.com/pics/recommend?category=%B1%DA%D6%BD里面。因此考慮可能該元素是動(dòng)態(tài)的，細(xì)心的同學(xué)可能會(huì)發(fā)現(xiàn)，當(dāng)在網(wǎng)頁(yè)內(nèi)，向下滑動(dòng)鼠標(biāo)滾輪，圖片是動(dòng)態(tài)刷新出來的，也就是說，該網(wǎng)頁(yè)并不是一次加載出全部資源，而是動(dòng)態(tài)加載資源。這也避免了因?yàn)榫W(wǎng)頁(yè)過于臃腫，而影響加載速度。下面痛苦的探索開始了，我們是要找到所有圖片的真正的url 筆者也是剛剛接觸，找這個(gè)不是太有經(jīng)驗(yàn)。最后找的位置F12>>Network>>XHR>>(點(diǎn)擊XHR下的文件)>>Preview。

發(fā)現(xiàn)，有點(diǎn)接近我們需要的元素了，點(diǎn)開all_items 發(fā)現(xiàn)下面是0 1 2 3...一個(gè)一個(gè)的貌似是圖片元素。試著打開一個(gè)url。發(fā)現(xiàn)真的是圖片的地址。找到目標(biāo)之后。點(diǎn)擊XHR下的Headers

得到第二行

Request URL:

http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start=0&len=15&width=1536&height=864，試著去掉一些不必要的部分，技巧就是，刪掉可能的部分之后，訪問不受影響。經(jīng)筆者篩選。最后得到的url：http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category=%E5%A3%81%E7%BA%B8&tag=%E5%85%A8%E9%83%A8&start=0&len=15 字面意思，知道category后面可能為分類。start為開始下標(biāo)，len為長(zhǎng)度，也即圖片的數(shù)量。好了，開始愉快的代碼時(shí)間吧：

開發(fā)環(huán)境為Win7 Python 3.6，運(yùn)行的時(shí)候Python需要安裝requests，

Python3.6 安裝requests 應(yīng)該CMD敲入：

pip install requests

筆者在這里也是邊調(diào)試邊寫，這里把最終的代碼貼出來：

import requests
import json
import urllib

def getSogouImag(category,length,path):
 n = length
 cate = category
 imgs = requests.get('http://pic.sogou.com/pics/channel/getAllRecomPicByTag.jsp?category='+cate+'&tag=%E5%85%A8%E9%83%A8&start=0&len='+str(n))
 jd = json.loads(imgs.text)
 jd = jd['all_items']
 imgs_url = []
 for j in jd:
  imgs_url.append(j['bthumbUrl'])
 m = 0
 for img_url in imgs_url:
   print('***** '+str(m)+'.jpg *****'+' Downloading...')
   urllib.request.urlretrieve(img_url,path+str(m)+'.jpg')
   m = m + 1
 print('Download complete!')

getSogouImag('壁紙',2000,'d:/download/壁紙/')

程序跑起來的時(shí)候，筆者還是有點(diǎn)小激動(dòng)的。來，感受一下：