Python抓取Discuz!用戶名腳本代碼
更新時間:2013年12月30日 17:18:37 作者:
這篇文章主要介紹了Python抓取Discuz!用戶名腳本代碼,有需要的朋友可以參考一下
最近學(xué)習(xí)Python,于是就用Python寫了一個抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時但是后來發(fā)現(xiàn)一共只抓取了50000多個用戶名就被封了。。。
代碼如下:
復(fù)制代碼 代碼如下:
# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺用戶名腳本
import urllib
import urllib2
import re
import time
def BiduSpider():
pattern = re.compile(r'<title>(.*)的個人資料 百度站長社區(qū) </title>')
uid=1
thedatas = []
while uid <400000:
theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
uid +=1
theResponse = urllib2.urlopen(theUrl)
thePage = theResponse.read()
#正則匹配用戶名
theFindall = re.findall(pattern,thePage)
#等待0.5秒,以防頻繁訪問被禁止
time.sleep(0.5)
if theFindall :
#中文編碼防止亂碼輸出
thedatas = theFindall[0].decode('utf-8').encode('gbk')
#寫入txt文本文檔
f = open('theUid.txt','a')
f.writelines(thedatas+'\n')
f.close()
if __name__ == '__main__':
BiduSpider()
最終成果如下:
您可能感興趣的文章:
- Python實現(xiàn)抓取網(wǎng)頁并且解析的實例
- Python抓取京東圖書評論數(shù)據(jù)
- python抓取網(wǎng)頁時字符集轉(zhuǎn)換問題處理方案分享
- python小技巧之批量抓取美女圖片
- python抓取網(wǎng)頁圖片示例(python爬蟲)
- python抓取網(wǎng)頁圖片并放到指定文件夾
- python多線程抓取天涯帖子內(nèi)容示例
- python抓取網(wǎng)頁中的圖片示例
- python使用beautifulsoup從愛奇藝網(wǎng)抓取視頻播放
- python抓取豆瓣圖片并自動保存示例學(xué)習(xí)
- python正則匹配抓取豆瓣電影鏈接和評論代碼分享
- python抓取京東商城手機列表url實例代碼
- python實現(xiàn)從web抓取文檔的方法
相關(guān)文章
python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解
這篇文章主要介紹了python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解,需要的朋友可以參考下2020-02-02