快捷導(dǎo)航

Python抓取Discuz!用戶名腳本代碼

更新時(shí)間：2013年12月30日 17:18:37 作者：

這篇文章主要介紹了Python抓取Discuz!用戶名腳本代碼，有需要的朋友可以參考一下

最近學(xué)習(xí)Python，于是就用Python寫了一個(gè)抓取Discuz!用戶名的腳本，代碼很少但是很搓。思路很簡(jiǎn)單，就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長(zhǎng)社區(qū)為例(一共有40多萬(wàn)用戶)，掛在VPS上就沒(méi)管了，雖然用了延時(shí)但是后來(lái)發(fā)現(xiàn)一共只抓取了50000多個(gè)用戶名就被封了。。。
代碼如下：

復(fù)制代碼代碼如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長(zhǎng)平臺(tái)用戶名腳本

import urllib
import urllib2  
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的個(gè)人資料  百度站長(zhǎng)社區(qū) </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正則匹配用戶名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒，以防頻繁訪問(wèn)被禁止
         time.sleep(0.5)
         if theFindall :
              #中文編碼防止亂碼輸出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #寫入txt文本文檔
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最終成果如下：

您可能感興趣的文章:

相關(guān)文章

pytorch如何定義新的自動(dòng)求導(dǎo)函數(shù)
這篇文章主要介紹了pytorch如何定義新的自動(dòng)求導(dǎo)函數(shù)問(wèn)題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。
2022-12-12
關(guān)于Python代碼混淆和加密技術(shù)
這篇文章主要介紹了關(guān)于Python代碼混淆和加密技術(shù),Python進(jìn)行商業(yè)開(kāi)發(fā)時(shí), 需要有一定的安全意識(shí), 為了不被輕易的逆向還原,混淆和加密就有所必要了,需要的朋友可以參考下
2023-07-07
python中__slots__用法實(shí)例
這篇文章主要介紹了python中__slots__用法,實(shí)例分析了__slots__的功能與相關(guān)使用技巧,需要的朋友可以參考下
2015-06-06
Python實(shí)現(xiàn)輕松讀取大文件的技巧揭秘
Python提供了多種方法來(lái)讀取文件內(nèi)容，其中包括read()、readline()和readlines()三個(gè)常用的函數(shù)，本文將深入探討這三個(gè)函數(shù)的使用方法，需要的可以參考一下
2023-08-08
python使用正則表達(dá)式去除中文文本多余空格，保留英文之間空格方法詳解
這篇文章主要介紹了python使用正則表達(dá)式去除中文文本多余空格，保留英文之間空格方法詳解,需要的朋友可以參考下
2020-02-02
selenium處理元素定位點(diǎn)擊無(wú)效問(wèn)題
這篇文章主要介紹了selenium處理元素定位點(diǎn)擊無(wú)效問(wèn)題，小編覺(jué)得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
2019-06-06
Python 通過(guò)正則表達(dá)式快速獲取電影的下載地址
這篇文章主要介紹了Python 通過(guò)正則表達(dá)式快速獲取電影的下載地址，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-08-08
Python與shell的3種交互方式介紹
這篇文章主要介紹了Python與shell的3種交互方式介紹,本文講解了os.system、os.popen、subprocess模塊等3種方法,需要的朋友可以參考下
2015-04-04
Python中zipfile壓縮文件模塊的基本使用教程
這篇文章主要給大家介紹了關(guān)于Python中zipfile壓縮文件模塊的基本使用教程，文中通過(guò)示例代碼介紹的非常詳細(xì)，對(duì)大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
2020-06-06
python的help函數(shù)如何使用
在本篇文章里小編給大家整理的是關(guān)于python的help函數(shù)的相關(guān)用法和知識(shí)點(diǎn)總結(jié)，需要的朋友們可以學(xué)習(xí)下。
2020-06-06