欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Python爬取小姐姐圖片(beautifulsoup法)

 更新時間:2021年02月11日 08:10:03   作者:割韭菜的喵醬  
這篇文章主要介紹了Python爬取小姐姐圖片(beautifulsoup法),本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下

Python有許多強大的庫用于爬蟲,如beautifulsoup、requests等,本文將以網站https://www.xiurenji.cc/XiuRen/為例(慎點!?。?,講解網絡爬取圖片的一般步驟。
為什么選擇這個網站?其實與網站的內容無關。主要有兩項技術層面的原因:①該網站的頁面構造較有規(guī)律,適合新手對爬蟲的技巧加強認識。②該網站沒有反爬蟲機制,可以放心使用爬蟲。

第三方庫需求

  •  beautifulsoup
  • requests

 步驟

打開網站,點擊不同的頁面:
發(fā)現其首頁是https://www.xiurenji.cc/XiuRen/,而第二頁是https://www.xiurenji.cc/XiuRen/index2.html,第三頁第四頁以此類推。為了爬蟲代碼的普適性,我們不妨從第二頁以后進行構造url。

在這里插入圖片描述

選中封面圖片,點擊檢查:

在這里插入圖片描述

可以發(fā)現,圖片的信息,都在'div',class_='dan'里,而鏈接又在a標簽下的href里。據此我們可以寫一段代碼提取出每一個封面圖片的url:

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發(fā)送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

點擊封面圖片,打開不同的頁面,可以發(fā)現,首頁的網址是https://www.xiurenji.cc/XiuRen/xxxx.html,而第二頁的網址是https://www.xiurenji.cc/XiuRen/xxxx_1.html,第三第四頁同理。同樣為了普適性,我們從第二頁開始爬取。

在這里插入圖片描述

右鍵,點擊“檢查”:

在這里插入圖片描述

可以發(fā)現所有的圖片信息都儲存在'div',class_='img'中,鏈接、標題分別在img標簽中的srcalt中,我們同樣也可以將它們提取出來。

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發(fā)送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

完整代碼

import requests
from bs4 import BeautifulSoup

def getFirstPage(page):
  url='https://www.xiurenji.cc/XiuRen/index'+str(page)+'.html'#獲得網站每一個首頁的網址
  res=requests.get(url)#發(fā)送請求
  res.encoding="gbk"#設置編碼方式為gbk
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists=soup.find_all('div',class_='dan')#找到儲存每一個封面圖片的標簽值
  urls=[]
  for item in lists:
   url1=item.find('a').get('href')#尋找每一個封面對應的網址
   urls.append('https://www.xiurenji.cc'+url1)#在列表的尾部添加一個元素,達到擴充列表的目的,注意要把網址擴充完整
  return urls#返回該主頁每一個封面對應的網址

def download(urls):
 for url1 in urls:
  print("prepare to download pictures in "+url1)
  getEveryPage(url1)#下載頁面內的圖片
  print("all pictures in "+url1+"are downloaded")
  
def getEveryPage(url1):
 total=0#total的作用:對屬于每一個封面內的圖片一次編號
 for n in range (1,11):#每一個封面對應下載10張圖,可自行調整
  temp=url1.replace('.html','')
  url2=temp+'_'+str(n)+'.html'#獲得每一內部頁面的網址
  res=requests.get(url2)
  res.encoding="gbk"
  html=res.text
  soup=BeautifulSoup(html,features='lxml')
  lists1=soup.find_all('div',class_='img')#儲存圖片的路徑
  
  for item in lists1:
   url=item.find('img').get('src')
   title=item.find('img').get('alt')#獲取圖片及其標題
   picurl='https://www.xiurenji.cc'+url#獲取完整的圖片標題
   picture=requests.get(picurl).content#下載圖片
   address='D:\pythonimages'+'\\'#自定義保存圖片的路徑
   with open(address+title+str(total)+'.jpg','wb') as file:#保存圖片
    print("downloading"+title+str(total))
    total=total+1
    file.write(picture)
    

if __name__ == "__main__":
 page=int(input('input the page you want:'))
 urls=getFirstPage(page)
 download(urls)

本文僅供學習參考,切勿用作其他用途!

到此這篇關于Python爬取小姐姐圖片(beautifulsoup法)的文章就介紹到這了,更多相關Python爬取小姐姐圖片內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python淺析守護線程與非守護線程的區(qū)別與使用

    python淺析守護線程與非守護線程的區(qū)別與使用

    守護線程,又稱后臺線程,它是在后臺運行的,如果所有前臺線程都死亡,那么后臺線程就會自動死亡,本章我們來了解守護線程與非守護線程,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習吧
    2022-08-08
  • python中使用websocket方法實例詳解

    python中使用websocket方法實例詳解

    WebSocket是一種網絡通信協議,它在單個TCP連接上提供全雙工的通信信道,本文我們將探討如何在Python中使用WebSocket實現實時通信,感興趣的朋友跟隨小編一起看看吧
    2024-03-03
  • Python requests模塊實例用法

    Python requests模塊實例用法

    在本篇文章中小編給大家分享了關于Python requests模塊實例用法,有需要的朋友們學習參考下。
    2019-02-02
  • linux查找當前python解釋器的位置方法

    linux查找當前python解釋器的位置方法

    今天小編就為大家分享一篇linux查找當前python解釋器的位置方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-02-02
  • django 類視圖的使用方法詳解

    django 類視圖的使用方法詳解

    這篇文章主要介紹了django 類視圖的使用方法詳解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2019-07-07
  • python 判斷是否為正小數和正整數的實例

    python 判斷是否為正小數和正整數的實例

    這篇文章主要介紹了python 判斷是否為正小數和正整數的實例的相關資料,這里提供實例,實例注釋說明很清楚,需要的朋友可以參考下
    2017-07-07
  • Python通過遞歸遍歷出集合中所有元素的方法

    Python通過遞歸遍歷出集合中所有元素的方法

    這篇文章主要介紹了Python通過遞歸遍歷出集合中所有元素的方法,實例分析了Python遍歷集合元素的技巧,具有一定參考借鑒價值,需要的朋友可以參考下
    2015-02-02
  • kaggle數據分析家庭電力消耗過程詳解

    kaggle數據分析家庭電力消耗過程詳解

    這篇文章主要為大家介紹了kaggle數據分析家庭電力消耗示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-12-12
  • Python list和str互轉的實現示例

    Python list和str互轉的實現示例

    這篇文章主要介紹了Python list和str互轉的實現示例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-11-11
  • Python?第三方opencv庫實現圖像分割處理

    Python?第三方opencv庫實現圖像分割處理

    這篇文章主要介紹了Python?第三方opencv庫實現圖像分割處理,文章圍繞主題展開詳細的內容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-06-06

最新評論