python實(shí)現(xiàn)爬蟲下載美女圖片
本次爬取的貼吧是百度的美女吧,給廣大男同胞們一些激勵(lì)
在爬取之前需要在瀏覽器先登錄百度貼吧的帳號,各位也可以在代碼中使用post提交或者加入cookie
爬行地址:http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn=0
#-*- coding:utf-8 -*- import urllib2 import re import requests from lxml import etree 這些是要導(dǎo)入的庫,代碼并沒有使用正則,使用的是xpath,正則困難的童鞋可以嘗試使用下 推薦各位先使用基本庫來寫,這樣可以學(xué)習(xí)到更多 links=[] #遍歷url的地址 k=1 print u'請輸入最后的頁數(shù):' endPage=int(raw_input()) #最終的頁數(shù) (r'\d+(?=\s*頁) 這是一個(gè)比較通用的正則抓取總頁數(shù)的代碼,當(dāng)然最后要group #這里是手動輸入頁數(shù),避免內(nèi)容太多 for j in range(0,endPage): url='http://tieba.baidu.com/f?kw=%E7%BE%8E%E5%A5%B3&ie=utf-8&pn='+str(j) #頁數(shù)的url地址 html=urllib2.urlopen(url).read() #讀取首頁的內(nèi)容 selector=etree.HTML(html) #轉(zhuǎn)換為xml,用于在接下來識別 links=selector.xpath('//div/a[@class="j_th_tit"]/@href') #抓取當(dāng)前頁面的所有帖子的url #大家可以使用瀏覽器自帶的源碼查看工具,在指定目標(biāo)處查看元素,這樣更快捷 for i in links: url1="http://tieba.baidu.com"+i #因?yàn)榕廊〉降牡刂肥窍鄬Φ刂?,所以要加上百度的domain html2=urllib2.urlopen(url1).read() #讀取當(dāng)前頁面的內(nèi)容 selector=etree.HTML(html2) #轉(zhuǎn)換為xml用于識別 link=selector.xpath('//img[@class="BDE_Image"]/@src') #抓取圖片,各位也可以更換為正則,或者其他你想要的內(nèi)容 #此處就是遍歷下載 for each in link: #print each print u'正在下載%d'%k fp=open('image/'+str(k)+'.bmp','wb') #下載在當(dāng)前目錄下 image文件夾內(nèi),圖片格式為bmp image1=urllib2.urlopen(each).read() #讀取圖片的內(nèi)容 fp.write(image1) #寫入圖片 fp.close() k+=1 #k就是文件的名字,每下載一個(gè)文件就加1 print u'下載完成!'
如果想要爬取其他站點(diǎn)的內(nèi)容,大家可以參考一下
相關(guān)文章
python環(huán)境中的概念conda中與環(huán)境相關(guān)指令操作
這篇文章主要介紹了python環(huán)境中的概念conda中與環(huán)境相關(guān)指令操作,虛擬環(huán)境是從電腦獨(dú)立開辟出來的環(huán)境,文章介紹了相關(guān)概念,需要的朋友可以參考下2023-03-03Pycharm配置遠(yuǎn)程調(diào)試的方法步驟
這篇文章主要介紹了Pycharm配置遠(yuǎn)程調(diào)試的方法步驟,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-12-12解決Tensorflow 使用時(shí)cpu編譯不支持警告的問題
今天小編就為大家分享一篇解決Tensorflow 使用時(shí)cpu編譯不支持警告的問題,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02Pytorch實(shí)現(xiàn)WGAN用于動漫頭像生成
這篇文章主要介紹了Pytorch實(shí)現(xiàn)WGAN用于動漫頭像生成,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03python matplotlib 畫dataframe的時(shí)間序列圖實(shí)例
今天小編就為大家分享一篇python matplotlib 畫dataframe的時(shí)間序列圖實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11Python日期時(shí)間Time模塊實(shí)例詳解
這篇文章主要介紹了Python日期時(shí)間Time模塊,結(jié)合實(shí)例形式詳細(xì)分析了Python日期時(shí)間Time模塊常用函數(shù)及相關(guān)操作技巧,需要的朋友可以參考下2019-04-04Python基礎(chǔ)語法之變量與數(shù)據(jù)類型詳解
這篇文章主要為大家詳細(xì)介紹了Python基礎(chǔ)語法中變量與數(shù)據(jù)類型的用法,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)Python有一定的幫助,感興趣的可以了解一下2022-07-07