python爬蟲爬取圖片的簡單代碼
Python是很好的爬蟲工具不用再說了,它可以滿足我們爬取網(wǎng)絡(luò)內(nèi)容的需求,那最簡單的爬取網(wǎng)絡(luò)上的圖片,可以通過很簡單的方法實現(xiàn)。只需導入正則表達式模塊,并利用spider原理通過使用定義函數(shù)的方法可以輕松的實現(xiàn)爬取圖片的需求。
1、spider原理
spider就是定義爬取的動作及分析網(wǎng)站的地方。
以初始的URL**初始化Request**,并設(shè)置回調(diào)函數(shù)。 當該request**下載完畢并返回時,將生成**response ,并作為參數(shù)傳給該回調(diào)函數(shù)。
2、實現(xiàn)python爬蟲爬取圖片
第一步:導入正則表達式模塊
import re # 導入正則表達式模塊 import requests # python HTTP客戶端 編寫爬蟲和測試服務(wù)器經(jīng)常用到的模塊 import random # 隨機生成一個數(shù),范圍[0,1]
第二步:使用定義函數(shù)的方法爬取圖片
def spiderPic(html, keyword): print('正在查找 ' + keyword + ' 對應(yīng)的圖片,下載中,請稍后......') for addr in re.findall('"objURL":"(.*?)"', html, re.S): # 查找URL print('正在爬取URL地址:' + str(addr)[0:30] + '...') # 爬取的地址長度超過30時,用'...'代替后面的內(nèi)容 try: pics = requests.get(addr, timeout=100) # 請求URL時間(最大10秒) except requests.exceptions.ConnectionError: print('您當前請求的URL地址出現(xiàn)錯誤') continue fq = open('H:\\img\\' + (keyword + '_' + str(random.randrange(0, 1000, 4)) + '.jpg'), 'wb') # 下載圖片,并保存和命名 fq.write(pics.content) fq.close()
到此這篇關(guān)于python爬蟲爬取圖片的簡單代碼的文章就介紹到這了,更多相關(guān)python爬蟲怎么爬取圖片內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
MAC平臺基于Python Appium環(huán)境搭建過程圖解
這篇文章主要介紹了MAC平臺基于Python Appium環(huán)境搭建過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2020-08-08Python基礎(chǔ)學習之時間轉(zhuǎn)換函數(shù)用法詳解
這篇文章主要介紹了Python基礎(chǔ)學習之時間轉(zhuǎn)換函數(shù)用法,結(jié)合實例形式分析了Python常見的日期時間獲取、轉(zhuǎn)換相關(guān)操作技巧,需要的朋友可以參考下2019-06-06python導入csv文件出現(xiàn)SyntaxError問題分析
這篇文章主要介紹了python導入csv文件出現(xiàn)SyntaxError問題分析,同時涉及python導入csv文件的三種方法,具有一定借鑒價值,需要的朋友可以參考下。2017-12-12Python3實現(xiàn)網(wǎng)頁內(nèi)容轉(zhuǎn)換成PDF文檔和圖片
pdfkit是把 HTML+CSS 格式的文件轉(zhuǎn)換成 PDF 的一種工具,它是 wkhtmltopdf 這個工具包的 python 封裝。本文將利用pdfkit實現(xiàn)網(wǎng)頁內(nèi)容轉(zhuǎn)換成PDF文檔和圖片效果,感興趣的可以學習一下2022-06-06