欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python抓取Discuz!用戶名腳本代碼

 更新時間:2013年12月30日 17:18:37   作者:  
這篇文章主要介紹了Python抓取Discuz!用戶名腳本代碼,有需要的朋友可以參考一下

最近學(xué)習(xí)Python,于是就用Python寫了一個抓取Discuz!用戶名的腳本,代碼很少但是很搓。思路很簡單,就是正則匹配title然后提取用戶名寫入文本文檔。程序以百度站長社區(qū)為例(一共有40多萬用戶),掛在VPS上就沒管了,雖然用了延時但是后來發(fā)現(xiàn)一共只抓取了50000多個用戶名就被封了。。。
代碼如下:

復(fù)制代碼 代碼如下:

# -*- coding: utf-8 -*-
# Author: 天一
# Blog: http://www.90blog.org
# Version: 1.0
# 功能: Python抓取百度站長平臺用戶名腳本

import urllib
import urllib2 
import re
import time

def BiduSpider():
     pattern = re.compile(r'<title>(.*)的個人資料  百度站長社區(qū) </title>')
     uid=1
     thedatas = []
     while uid <400000:
         theUrl = "http://bbs.zhanzhang.baidu.com/home.php?mod=space&uid="+str(uid)
         uid +=1
         theResponse  = urllib2.urlopen(theUrl)
         thePage = theResponse.read()
         #正則匹配用戶名
         theFindall = re.findall(pattern,thePage)
         #等待0.5秒,以防頻繁訪問被禁止
         time.sleep(0.5)
         if theFindall :
              #中文編碼防止亂碼輸出
              thedatas = theFindall[0].decode('utf-8').encode('gbk')
              #寫入txt文本文檔
              f = open('theUid.txt','a')
              f.writelines(thedatas+'\n')
              f.close()

if __name__ == '__main__':
     BiduSpider()

最終成果如下:

相關(guān)文章

  • pytorch如何定義新的自動求導(dǎo)函數(shù)

    pytorch如何定義新的自動求導(dǎo)函數(shù)

    這篇文章主要介紹了pytorch如何定義新的自動求導(dǎo)函數(shù)問題,具有很好的參考價值,希望對大家有所幫助。以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。
    2022-12-12
  • 關(guān)于Python代碼混淆和加密技術(shù)

    關(guān)于Python代碼混淆和加密技術(shù)

    這篇文章主要介紹了關(guān)于Python代碼混淆和加密技術(shù),Python進行商業(yè)開發(fā)時, 需要有一定的安全意識, 為了不被輕易的逆向還原,混淆和加密就有所必要了,需要的朋友可以參考下
    2023-07-07
  • python中__slots__用法實例

    python中__slots__用法實例

    這篇文章主要介紹了python中__slots__用法,實例分析了__slots__的功能與相關(guān)使用技巧,需要的朋友可以參考下
    2015-06-06
  • Python實現(xiàn)輕松讀取大文件的技巧揭秘

    Python實現(xiàn)輕松讀取大文件的技巧揭秘

    Python提供了多種方法來讀取文件內(nèi)容,其中包括read()、readline()和readlines()三個常用的函數(shù),本文將深入探討這三個函數(shù)的使用方法,需要的可以參考一下
    2023-08-08
  • python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解

    python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解

    這篇文章主要介紹了python使用正則表達式去除中文文本多余空格,保留英文之間空格方法詳解,需要的朋友可以參考下
    2020-02-02
  • selenium處理元素定位點擊無效問題

    selenium處理元素定位點擊無效問題

    這篇文章主要介紹了selenium處理元素定位點擊無效問題,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2019-06-06
  • Python 通過正則表達式快速獲取電影的下載地址

    Python 通過正則表達式快速獲取電影的下載地址

    這篇文章主要介紹了Python 通過正則表達式快速獲取電影的下載地址,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-08-08
  • Python與shell的3種交互方式介紹

    Python與shell的3種交互方式介紹

    這篇文章主要介紹了Python與shell的3種交互方式介紹,本文講解了os.system、os.popen、subprocess模塊等3種方法,需要的朋友可以參考下
    2015-04-04
  • Python中zipfile壓縮文件模塊的基本使用教程

    Python中zipfile壓縮文件模塊的基本使用教程

    這篇文章主要給大家介紹了關(guān)于Python中zipfile壓縮文件模塊的基本使用教程,文中通過示例代碼介紹的非常詳細,對大家學(xué)習(xí)或者使用Python具有一定的參考學(xué)習(xí)價值,需要的朋友們下面來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-06-06
  • python的help函數(shù)如何使用

    python的help函數(shù)如何使用

    在本篇文章里小編給大家整理的是關(guān)于python的help函數(shù)的相關(guān)用法和知識點總結(jié),需要的朋友們可以學(xué)習(xí)下。
    2020-06-06

最新評論