Python編寫百度貼吧的簡單爬蟲
操作:輸入帶分頁的地址,去掉最后面的數(shù)字,設(shè)置一下起始頁數(shù)和終點(diǎn)頁數(shù)
功能:下載對(duì)應(yīng)頁碼的所有頁面并儲(chǔ)存為HTML文件,以當(dāng)前時(shí)間命名
代碼:
# -*- coding: utf-8 -*- #---------------------------- # 程序:百度貼吧的小爬蟲 # 日期:2015/03/28 # 語言:Python 2.7 # 操作:輸入帶分頁的地址,去掉最后面的數(shù)字,設(shè)置一下起始頁數(shù)和終點(diǎn)頁數(shù) # 功能:下載對(duì)應(yīng)頁碼的所有頁面并儲(chǔ)存為HTML文件,以當(dāng)前時(shí)間命名 #---------------------------- import urllib2 import time def baidu_tieba(url, start, end): for i in range(start, end): sName = time.strftime('%Y%m%d%H%M%S') + str(i) + '.html' print '正在下載第' + str(i) + '個(gè)網(wǎng)頁,并將其儲(chǔ)存為' + sName + '...' f = open(sName, 'w+') m = urllib2.urlopen(url+str(i)) n = m.read() f.write(n) f.close() print '成功下載' baiduurl = str(raw_input('請輸入貼子的地址,去掉pn后面的數(shù)字>>\n')) begin_page = int(raw_input('請輸入帖子的起始頁碼>>\n')) end_page = int(raw_input('請輸入帖子的終止頁碼>>\n')) baidu_tieba(baiduurl, begin_page, end_page)
以上所述就是本文的全部內(nèi)容了,希望能夠?qū)Υ蠹覍W(xué)習(xí)Python制作爬蟲有所幫助。
- Python實(shí)現(xiàn)爬取百度貼吧帖子所有樓層圖片的爬蟲示例
- python爬蟲教程之爬取百度貼吧并下載的示例
- 基于Python實(shí)現(xiàn)的百度貼吧網(wǎng)絡(luò)爬蟲實(shí)例
- 零基礎(chǔ)寫python爬蟲之抓取百度貼吧并存儲(chǔ)到本地txt文件改進(jìn)版
- 零基礎(chǔ)寫python爬蟲之抓取百度貼吧代碼分享
- Python3實(shí)現(xiàn)爬取指定百度貼吧頁面并保存頁面數(shù)據(jù)生成本地文檔的方法
- Python爬取網(wǎng)頁中的圖片(搜狗圖片)詳解
- 簡單實(shí)現(xiàn)Python爬取網(wǎng)絡(luò)圖片
- Python爬蟲爬取一個(gè)網(wǎng)頁上的圖片地址實(shí)例代碼
- 利用Python爬取微博數(shù)據(jù)生成詞云圖片實(shí)例代碼
- Python實(shí)現(xiàn)的爬取百度貼吧圖片功能完整示例
相關(guān)文章
Python圖像處理庫crop()函數(shù)?thumbnail方法使用詳解
這篇文章主要為大家介紹了Python圖像處理庫crop()函數(shù)?thumbnail方法使用詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-04-04Python實(shí)現(xiàn)Mysql全量數(shù)據(jù)同步的腳本分享
這篇文章主要為大家詳細(xì)介紹了基于Python如何實(shí)現(xiàn)Mysql全量數(shù)據(jù)同步的功能,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以跟隨小編一起了解一下2023-06-06Python 中多態(tài)性的示例和類的繼承多態(tài)性詳解
多態(tài)性通常在類的方法中使用,其中我們可以具有相同方法名稱的多個(gè)類,本文給大家介紹Python 中多態(tài)性的示例和類的繼承多態(tài)性詳解,需要的朋友可以參考下2023-10-10pyqt5實(shí)現(xiàn)繪制ui,列表窗口,滾動(dòng)窗口顯示圖片的方法
今天小編就為大家分享一篇pyqt5實(shí)現(xiàn)繪制ui,列表窗口,滾動(dòng)窗口顯示圖片的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-06-06python環(huán)境搭建和pycharm的安裝配置及漢化詳細(xì)教程(零基礎(chǔ)小白版)
這篇文章主要介紹了python環(huán)境搭建和pycharm的安裝配置及漢化(零基礎(chǔ)小白版),需要的朋友可以參考下2020-08-08python opencv圓、橢圓與任意多邊形的繪制實(shí)例詳解
在本篇文章里小編給大家整理的是關(guān)于python-opencv-圓、橢圓與任意多邊形的繪制內(nèi)容,需要的朋友們可以學(xué)習(xí)參考下。2020-02-02Python?plt.title()函數(shù)實(shí)例詳解
plt.title() 是 matplotlib 庫中用于設(shè)置圖形標(biāo)題的函數(shù),這篇文章主要介紹了Python?plt.title()函數(shù),需要的朋友可以參考下2023-03-03python GUI庫圖形界面開發(fā)之PyQt5多線程中信號(hào)與槽的詳細(xì)使用方法與實(shí)例
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt5多線程中信號(hào)與槽的詳細(xì)使用方法與實(shí)例,需要的朋友可以參考下2020-03-03