Python爬蟲實現(xiàn)百度圖片自動下載
制作爬蟲的步驟
制作一個爬蟲一般分以下幾個步驟:
分析需求分析網(wǎng)頁源代碼,配合開發(fā)者工具編寫正則表達(dá)式或者XPath表達(dá)式正式編寫 python 爬蟲代碼 效果預(yù)覽
運行效果如下:
存放圖片的文件夾:
需求分析
我們的爬蟲至少要實現(xiàn)兩個功能:一是搜索圖片,二是自動下載。
搜索圖片:最容易想到的是爬百度圖片的結(jié)果,我們就上百度圖片看看:
隨便搜索幾個關(guān)鍵字,可以看到已經(jīng)搜索出來很多張圖片:
分析網(wǎng)頁
我們點擊右鍵,查看源代碼:
打開源代碼之后,發(fā)現(xiàn)一堆源代碼比較難找出我們想要的資源。
這個時候,就要用開發(fā)者工具!我們回到上一頁面,調(diào)出開發(fā)者工具,我們需要用的是左上角那個東西:(鼠標(biāo)跟隨)。
然后選擇你想看源代碼的地方,就可以發(fā)現(xiàn),下面的代碼區(qū)自動定位到了相應(yīng)的位置。如下圖:
我們復(fù)制這個地址,然后到剛才的一堆源代碼里搜索一下,發(fā)現(xiàn)了它的位置,但是這里我們又疑惑了,這個圖片有這么多地址,到底用哪個呢?我們可以看到有thumbURL,middleURL,hoverURL,objURL
通過分析可以知道,前面兩個是縮小的版本,hoverURL 是鼠標(biāo)移動過后顯示的版本,objURL 應(yīng)該是我們需要的,可以分別打開這幾個網(wǎng)址看看,發(fā)現(xiàn) objURL 的那個最大最清晰。
找到了圖片地址,接下來我們分析源代碼??纯词遣皇撬械?objURL 都是圖片。
發(fā)現(xiàn)都是以.jpg格式結(jié)尾的圖片。
編寫正則表達(dá)式
pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
編寫爬蟲代碼
這里我們用了2個包,一個是正則,一個是 requests 包
#-*- coding:utf-8 -*- import re import requests
復(fù)制百度圖片搜索的鏈接,傳入 requests ,然后把正則表達(dá)式寫好
url = 'https://image.baidu.com/search/index?tn=baiduimage&ie=utf-8&word=%E6%A0%97%E5%B1%B1%E6%9C%AA%E6%9D%A5%E5%A4%B4%E5%83%8F&ct=201326592&ic=0&lm=-1&width=&height=&v=index' html = requests.get(url).text pic_url = re.findall('"objURL":"(.*?)",',html,re.S)
因為有很多張圖片,所以要循環(huán),我們打印出結(jié)果來看看,然后用 requests 獲取網(wǎng)址,由于有些圖片可能存在網(wǎng)址打不開的情況,所以加了10秒超時控制。
pic_url = re.findall('"objURL":"(.*?)",',html,re.S) i = 1 for each in pic_url: print each try: pic= requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print('【錯誤】當(dāng)前圖片無法下載') continue
接著就是把圖片保存下來,我們事先建立好一個 images 目錄,把圖片都放進去,命名的時候,以數(shù)字命名。
dir = '../images/' + keyword + '_' + str(i) + '.jpg' fp = open(dir, 'wb') fp.write(pic.content) fp.close() i += 1
完整的代碼
# -*- coding:utf-8 -*- import re import requests def dowmloadPic(html, keyword): pic_url = re.findall('"objURL":"(.*?)",', html, re.S) i = 1 print('找到關(guān)鍵詞:' + keyword + '的圖片,現(xiàn)在開始下載圖片...') for each in pic_url: print('正在下載第' + str(i) + '張圖片,圖片地址:' + str(each)) try: pic = requests.get(each, timeout=10) except requests.exceptions.ConnectionError: print('【錯誤】當(dāng)前圖片無法下載') continue dir = '../images/' + keyword + '_' + str(i) + '.jpg' fp = open(dir, 'wb') fp.write(pic.content) fp.close() i += 1 if __name__ == '__main__': word = input("Input key word: ") url = 'http://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=' + word + '&ct=201326592&v=flip' result = requests.get(url) dowmloadPic(result.text, word)
我們看到有的圖片沒顯示出來,打開網(wǎng)址看,發(fā)現(xiàn)確實沒了。
因為百度有些圖片它緩存到百度的服務(wù)器上,所以我們在百度上還能看見它,但它的實際鏈接已經(jīng)失效了。
總結(jié)
enjoy 我們的第一個圖片下載爬蟲吧!當(dāng)然它不僅能下載百度的圖片,依葫蘆畫瓢,你現(xiàn)在應(yīng)該能做很多事情了,比如爬取頭像,爬淘寶展示圖等等。
完整代碼已經(jīng)放到Githut上 https://github.com/nnngu/BaiduImageDownload
- python 爬取百度文庫并下載(免費文章限定)
- Python實現(xiàn)的爬取百度文庫功能示例
- 用python下載百度文庫的代碼
- python 爬蟲如何實現(xiàn)百度翻譯
- 詳解用Python爬蟲獲取百度企業(yè)信用中企業(yè)基本信息
- Python爬蟲爬取百度搜索內(nèi)容代碼實例
- Python爬蟲實現(xiàn)百度翻譯功能過程詳解
- python 爬蟲百度地圖的信息界面的實現(xiàn)方法
- python爬蟲之爬取百度音樂的實現(xiàn)方法
- Python爬蟲實現(xiàn)爬取百度百科詞條功能實例
- python爬蟲獲取百度首頁內(nèi)容教學(xué)
- Python爬蟲實例_利用百度地圖API批量獲取城市所有的POI點
- python實現(xiàn)百度文庫自動化爬取
相關(guān)文章
pyspark自定義UDAF函數(shù)調(diào)用報錯問題解決
這篇文章主要為大家介紹了pyspark自定義UDAF函數(shù)調(diào)用報錯問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-06-06一文帶你了解Python列表生成式應(yīng)用的八重境界
在Python中有非常多且好用的技巧,其中使用最多的是列表生成式,往往可以將復(fù)雜的邏輯用簡單的語言來實現(xiàn),本文重點介紹列表生成式應(yīng)用的八重境界2022-09-09淺談python中統(tǒng)計計數(shù)的幾種方法和Counter詳解
今天小編就為大家分享一篇淺談python中統(tǒng)計計數(shù)的幾種方法和Counter詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11Python常見MongoDB數(shù)據(jù)庫操作實例總結(jié)
這篇文章主要介紹了Python常見MongoDB數(shù)據(jù)庫操作,結(jié)合實例形式詳細(xì)總結(jié)了Python針對MongoDB數(shù)據(jù)庫相關(guān)pymongo庫安裝以及MongoDB數(shù)據(jù)庫的增刪改查等相關(guān)操作技巧與注意事項,需要的朋友可以參考下2018-07-07如何使用VSCode愉快的寫Python于調(diào)試配置步驟
從我的使用經(jīng)驗出發(fā),可以說VSCode用來寫Python真的是再合適不過了,你將體驗到絲滑的編程體驗和無限擴展的可能。而且,如果你的項目是包含多種語言的,比如Web開發(fā),你不必再開多個編輯器和其他工具,因為這一切都可以在VSCode里完成了2018-04-04