Python抓取Discuz!用戶名腳本代碼
最近學(xué)習(xí)Python,于是就用Python寫了一個(gè)抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡(jiǎn)單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長(zhǎng)社區(qū)為例(一共有40多萬(wàn)用戶),掛在VPS上就沒(méi)管了,雖然用了延時(shí)但是后來(lái)發(fā)現(xiàn)一共只抓取了50000多個(gè)用戶名就被封了。。。
代碼如下:
# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長(zhǎng)平臺(tái)用戶名腳本
import urllib
import urllib2
import re
import time
def BiduSpider():
pattern = re.compile(r'<title>(.*)的個(gè)人資料 百度站長(zhǎng)社區(qū) </title>')
uid=1
thedatas = []
while uid <400000:
theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
uid +=1
theResponse = urllib2.urlopen(theUrl)
thePage = theResponse.read()
#正則匹配用戶名
theFindall = re.findall(pattern,thePage)
#等待0.5秒,以防頻繁訪問(wèn)被禁止
time.sleep(0.5)
if theFindall :
#中文編碼防止亂碼輸出
thedatas = theFindall[0].decode('utf-8').encode('gbk')
#寫入txt文本文檔
f = open('theUid.txt','a')
f.writelines(thedatas+'\n')
f.close()
if __name__ == '__main__':
BiduSpider()
最終成果如下:

- Python實(shí)現(xiàn)抓取網(wǎng)頁(yè)并且解析的實(shí)例
- Python抓取京東圖書(shū)評(píng)論數(shù)據(jù)
- python抓取網(wǎng)頁(yè)時(shí)字符集轉(zhuǎn)換問(wèn)題處理方案分享
- python小技巧之批量抓取美女圖片
- python抓取網(wǎng)頁(yè)圖片示例(python爬蟲(chóng))
- python抓取網(wǎng)頁(yè)圖片并放到指定文件夾
- python多線程抓取天涯帖子內(nèi)容示例
- python抓取網(wǎng)頁(yè)中的圖片示例
- python使用beautifulsoup從愛(ài)奇藝網(wǎng)抓取視頻播放
- python抓取豆瓣圖片并自動(dòng)保存示例學(xué)習(xí)
- python正則匹配抓取豆瓣電影鏈接和評(píng)論代碼分享
- python抓取京東商城手機(jī)列表url實(shí)例代碼
- python實(shí)現(xiàn)從web抓取文檔的方法
相關(guān)文章
pytorch如何定義新的自動(dòng)求導(dǎo)函數(shù)
這篇文章主要介紹了pytorch如何定義新的自動(dòng)求導(dǎo)函數(shù)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。2022-12-12
Python實(shí)現(xiàn)輕松讀取大文件的技巧揭秘
Python提供了多種方法來(lái)讀取文件內(nèi)容,其中包括read()、readline()和readlines()三個(gè)常用的函數(shù),本文將深入探討這三個(gè)函數(shù)的使用方法,需要的可以參考一下2023-08-08
python使用正則表達(dá)式去除中文文本多余空格,保留英文之間空格方法詳解
這篇文章主要介紹了python使用正則表達(dá)式去除中文文本多余空格,保留英文之間空格方法詳解,需要的朋友可以參考下2020-02-02
selenium處理元素定位點(diǎn)擊無(wú)效問(wèn)題
這篇文章主要介紹了selenium處理元素定位點(diǎn)擊無(wú)效問(wèn)題,小編覺(jué)得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧2019-06-06
Python 通過(guò)正則表達(dá)式快速獲取電影的下載地址
這篇文章主要介紹了Python 通過(guò)正則表達(dá)式快速獲取電影的下載地址,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-08-08

