使用Python爬取小姐姐圖片(beautifulsoup法)
Python有許多強(qiáng)大的庫(kù)用于爬蟲(chóng),如beautifulsoup、requests等,本文將以網(wǎng)站https://www.xiurenji.cc/XiuRen/為例(慎點(diǎn)?。。v解網(wǎng)絡(luò)爬取圖片的一般步驟。
為什么選擇這個(gè)網(wǎng)站?其實(shí)與網(wǎng)站的內(nèi)容無(wú)關(guān)。主要有兩項(xiàng)技術(shù)層面的原因:①該網(wǎng)站的頁(yè)面構(gòu)造較有規(guī)律,適合新手對(duì)爬蟲(chóng)的技巧加強(qiáng)認(rèn)識(shí)。②該網(wǎng)站沒(méi)有反爬蟲(chóng)機(jī)制,可以放心使用爬蟲(chóng)。
第三方庫(kù)需求
- beautifulsoup
- requests
步驟
打開(kāi)網(wǎng)站,點(diǎn)擊不同的頁(yè)面:
發(fā)現(xiàn)其首頁(yè)是https://www.xiurenji.cc/XiuRen/,而第二頁(yè)是https://www.xiurenji.cc/XiuRen/index2.html,第三頁(yè)第四頁(yè)以此類推。為了爬蟲(chóng)代碼的普適性,我們不妨從第二頁(yè)以后進(jìn)行構(gòu)造url。
選中封面圖片,點(diǎn)擊檢查:
可以發(fā)現(xiàn),圖片的信息,都在'div',class_='dan'
里,而鏈接又在a
標(biāo)簽下的href
里。據(jù)此我們可以寫(xiě)一段代碼提取出每一個(gè)封面圖片的url:
def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding="gbk"#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址
點(diǎn)擊封面圖片,打開(kāi)不同的頁(yè)面,可以發(fā)現(xiàn),首頁(yè)的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁(yè)的網(wǎng)址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁(yè)同理。同樣為了普適性,我們從第二頁(yè)開(kāi)始爬取。
右鍵,點(diǎn)擊“檢查”:
可以發(fā)現(xiàn)所有的圖片信息都儲(chǔ)存在'div',class_='img'
中,鏈接、標(biāo)題分別在img
標(biāo)簽中的src
和alt
中,我們同樣也可以將它們提取出來(lái)。
def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding="gbk"#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址
完整代碼
import requests from bs4 import BeautifulSoup def getFirstPage(page): url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網(wǎng)站每一個(gè)首頁(yè)的網(wǎng)址 res=requests.get(url)#發(fā)送請(qǐng)求 res.encoding="gbk"#設(shè)置編碼方式為gbk html=res.text soup=BeautifulSoup(html,features='lxml') lists=soup.find_all('div',class_='dan')#找到儲(chǔ)存每一個(gè)封面圖片的標(biāo)簽值 urls=[] for item in lists: url1=item.find('a').get('href')#尋找每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個(gè)元素,達(dá)到擴(kuò)充列表的目的,注意要把網(wǎng)址擴(kuò)充完整 return urls#返回該主頁(yè)每一個(gè)封面對(duì)應(yīng)的網(wǎng)址 def download(urls): for url1 in urls: print("prepare to download pictures in "+url1) getEveryPage(url1)#下載頁(yè)面內(nèi)的圖片 print("all pictures in "+url1+"are downloaded") def getEveryPage(url1): total=0#total的作用:對(duì)屬于每一個(gè)封面內(nèi)的圖片一次編號(hào) for n in range (1,11):#每一個(gè)封面對(duì)應(yīng)下載10張圖,可自行調(diào)整 temp=url1.replace('.html','') url2=temp+'_'+str(n)+'.html'#獲得每一內(nèi)部頁(yè)面的網(wǎng)址 res=requests.get(url2) res.encoding="gbk" html=res.text soup=BeautifulSoup(html,features='lxml') lists1=soup.find_all('div',class_='img')#儲(chǔ)存圖片的路徑 for item in lists1: url=item.find('img').get('src') title=item.find('img').get('alt')#獲取圖片及其標(biāo)題 picurl='https://www.xiurenji.cc'+url#獲取完整的圖片標(biāo)題 picture=requests.get(picurl).content#下載圖片 address='D:\pythonimages'+'\\'#自定義保存圖片的路徑 with open(address+title+str(total)+'.jpg','wb') as file:#保存圖片 print("downloading"+title+str(total)) total=total+1 file.write(picture) if __name__ == "__main__": page=int(input('input the page you want:')) urls=getFirstPage(page) download(urls)
本文僅供學(xué)習(xí)參考,切勿用作其他用途!
到此這篇關(guān)于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關(guān)Python爬取小姐姐圖片內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python淺析守護(hù)線程與非守護(hù)線程的區(qū)別與使用
守護(hù)線程,又稱后臺(tái)線程,它是在后臺(tái)運(yùn)行的,如果所有前臺(tái)線程都死亡,那么后臺(tái)線程就會(huì)自動(dòng)死亡,本章我們來(lái)了解守護(hù)線程與非守護(hù)線程,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)吧2022-08-08python 判斷是否為正小數(shù)和正整數(shù)的實(shí)例
這篇文章主要介紹了python 判斷是否為正小數(shù)和正整數(shù)的實(shí)例的相關(guān)資料,這里提供實(shí)例,實(shí)例注釋說(shuō)明很清楚,需要的朋友可以參考下2017-07-07kaggle數(shù)據(jù)分析家庭電力消耗過(guò)程詳解
這篇文章主要為大家介紹了kaggle數(shù)據(jù)分析家庭電力消耗示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-12-12Python list和str互轉(zhuǎn)的實(shí)現(xiàn)示例
這篇文章主要介紹了Python list和str互轉(zhuǎn)的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11Python?第三方opencv庫(kù)實(shí)現(xiàn)圖像分割處理
這篇文章主要介紹了Python?第三方opencv庫(kù)實(shí)現(xiàn)圖像分割處理,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,需要的小伙伴可以參考一下2022-06-06