python爬取一組小姐姐圖片實例
前言
前段時間我有個朋友看到一些小姐姐的照片,想全部下載下來,叫我?guī)蛡€忙。于是花費了半天給他全部下載了下來。
引入庫
import time import requests from lxml import etree
這三個庫是為了讓我們在請求別人網(wǎng)站的時候,讓程序休息一會,避免別人的網(wǎng)站會攔截或者崩潰和將得到的頁面源代碼進行解析。
網(wǎng)頁分析
利用瀏覽器的開發(fā)者模式,對頁面進行分析,找出我們所需要的每個圖片封面url
href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href')
我們得到了封面的url后,但這還不是我們所需要的,我們所需要的是超鏈接里面的圖片
我們進入后,發(fā)現(xiàn)每張圖片都在<p></p>里面,如何我們利用循環(huán)得到每張圖片的url地址
for url_img in href: img_url = requests.get(url_img,headers=head) # print(img_url.text) time.sleep(1) t = etree.HTML(img_url.text) url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src")
剩下的就很簡單了,我們只需對文件進行保存就得到我們想要的結果了。
with open(f"./img/{name}",mode="wb") as f: f.write(download_img.content) print("正在下載:" +name) time.sleep(1)
總結
但同步下載非常慢,我們可以寫個多線程或者異步協(xié)程來幫助我們下載得更快。
我知道還有很多不足,有沒有更簡潔的寫法,希望大佬們能指出,謝謝!
完整代碼
import time import requests from lxml import etree def get_page_url(): for i in range(1, 4): # 循環(huán)3頁 url = f"https://mm.tvv.tw/category/xinggan/{i}/" # 請求頁面得到源代碼 res = requests.get(url,headers=head) # 對源代碼進行解析 tree = etree.HTML(res.text) # 得到每個圖片的封面url(href) href = tree.xpath('//*[@id="features"]/div/div[1]/div/div[1]/a/@href') # print("-------------------------------------------------------") time.sleep(3) for url_img in href: img_url = requests.get(url_img,headers=head) # print(img_url.text) time.sleep(1) t = etree.HTML(img_url.text) url_list = t.xpath("/html/body/section/div/div/div[1]/div[2]/p[2]/img/@src") # print(url_list) time.sleep(1) for url_src in url_list: get_img(url_src) def get_img(url): name = url.rsplit("/",1)[1] time.sleep(2) download_img = requests.get(url,headers=head) with open(f"./img/{name}",mode="wb") as f: f.write(download_img.content) print("正在下載:" +name) time.sleep(1) f.close() if __name__ == '__main__': head = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.71 Safari/537.36"} get_page_url()
到此這篇關于python爬取一組小姐姐圖片實例的文章就介紹到這了,更多相關python爬取圖片內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!
相關文章
Python讀取大型數(shù)據(jù)文件的6種方式匯總
在 Python 中,我們可以使用多種方法讀取大型數(shù)據(jù)文件,本文主要為大家介紹6個常用的Python讀取大型數(shù)據(jù)文件的方法,希望對大家有所幫助2023-05-05odoo?為可編輯列表視圖字段搜索添加查詢過濾條件的詳細過程
Odoo 是基于 Python 寫的一系列開源商業(yè)應用程序套裝,前身是 OpenERP,這篇文章主要介紹了odoo?為可編輯列表視圖字段搜索添加查詢過濾條件,需要的朋友可以參考下2023-02-02python3 常見解密加密算法實例分析【base64、MD5等】
這篇文章主要介紹了python3 常見解密加密算法,結合實例形式分析了Python的base64模塊加密,以及基于pycrypto模塊的MD5加密等相關操作技巧,需要的朋友可以參考下2019-12-12pandas DataFrame 交集并集補集的實現(xiàn)
這篇文章主要介紹了pandas DataFrame 交集并集補集的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧2019-06-06Python+wxPython實現(xiàn)一個簡單的音樂播放器
這篇文章主要為大家詳細介紹了如何使用Python編程語言和wxPython模塊創(chuàng)建一個簡單的音樂播放器,文中的示例代碼講解詳細,感興趣的可以了解下2023-09-09