Python爬蟲:通過關(guān)鍵字爬取百度圖片
使用工具:Python2.7 點(diǎn)我下載
scrapy框架
sublime text3
一。搭建python(Windows版本)
1.安裝python2.7 ---然后在cmd當(dāng)中輸入python,界面如下則安裝成功
2.集成Scrapy框架----輸入命令行:pip install Scrapy
安裝成功界面如下:
失敗的情況很多,舉例一種:
解決方案:
其余錯誤可百度搜索。
二。開始編程。
1.爬取無反爬蟲措施的靜態(tài)網(wǎng)站。例如百度貼吧,豆瓣讀書。
例如-《桌面吧》的一個帖子https://tieba.baidu.com/p/2460150866?red_tag=3569129009
python代碼如下:
代碼注釋:引入了兩個模塊urllib,re。定義兩個函數(shù),第一個函數(shù)是獲取整個目標(biāo)網(wǎng)頁數(shù)據(jù),第二個函數(shù)是在目標(biāo)網(wǎng)頁中獲取目標(biāo)圖片,遍歷網(wǎng)頁,并且給獲取的圖片按照0開始排序。
注:re模塊知識點(diǎn):
爬取圖片效果圖:
圖片保存路徑默認(rèn)在建立的.py同目錄文件下。
2.爬取有反爬蟲措施的百度圖片。如百度圖片等。
例如關(guān)鍵字搜索“表情包”https://image.baidu.com/search/index?tn=baiduimage&ct=201326592&lm=-1&cl=2&ie=gbk&word=%B1%ED%C7%E9%B0%FC&fr=ala&ori_query=%E8%A1%A8%E6%83%85%E5%8C%85&ala=0&alatpl=sp&pos=0&hs=2&xthttps=111111
圖片采用滾動式加載,先爬取最優(yōu)先的30張。
代碼如下:
代碼注釋:導(dǎo)入4個模塊,os模塊用于指定保存路徑。前兩個函數(shù)同上。第三個函數(shù)使用了if語句,并tryException異常。
爬取過程如下:
爬取結(jié)果:
注:編寫python代碼注重對齊,and不能混用Tab和空格,易報錯。
以上就是本文的全部內(nèi)容,希望本文的內(nèi)容對大家的學(xué)習(xí)或者工作能帶來一定的幫助,同時也希望多多支持腳本之家!
相關(guān)文章
Pyramid將models.py文件的內(nèi)容分布到多個文件的方法
默認(rèn)的Pyramid代碼結(jié)構(gòu)中,就只有一個models.py文件,在實際項目中,如果需要對models進(jìn)行分類,放到不同文件下,應(yīng)該怎么辦2013-11-11Selenium定時刷新網(wǎng)頁的實現(xiàn)代碼
這篇文章主要介紹了Selenium定時刷新網(wǎng)頁的實現(xiàn)代碼,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2018-10-10Django Haystack 全文檢索與關(guān)鍵詞高亮的實現(xiàn)
這篇文章主要介紹了Django Haystack 全文檢索與關(guān)鍵詞高亮的實現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02Python高級應(yīng)用實例對比:高效計算大文件中的最長行的長度
在操作某個很多進(jìn)程都要頻繁用到的大文件的時候,應(yīng)該盡早釋放文件資源(f.close()),只有這樣才能算是一則高效率的代碼,下面我們就來分析下這3種方法的優(yōu)劣2014-06-06pytorch 實現(xiàn)tensor與numpy數(shù)組轉(zhuǎn)換
今天小編就為大家分享一篇使用pytorch 實現(xiàn)tensor與numpy數(shù)組轉(zhuǎn)換,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12python根據(jù)txt文本批量創(chuàng)建文件夾
這篇文章主要為大家詳細(xì)介紹了python根據(jù)txt文本批量創(chuàng)建文件夾,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2019-03-03