python實(shí)現(xiàn)爬蟲統(tǒng)計(jì)學(xué)校BBS男女比例(一)
一、項(xiàng)目需求
前言:BBS上每個(gè)id對(duì)應(yīng)一個(gè)用戶,他們注冊(cè)時(shí)候會(huì)填寫性別(男、女、保密三選一)。
經(jīng)過檢查,BBS注冊(cè)用戶的id對(duì)應(yīng)1-300000,大概是30萬的用戶
筆者想用Python統(tǒng)計(jì)BBS上有多少注冊(cè)用戶,以及這些用戶的性別分布
順帶可以統(tǒng)計(jì)最近活動(dòng)用戶是多少,其中男、女、保密各占多少
活動(dòng)用戶的限定為“上次活動(dòng)時(shí)間”為 2015年
二、最終結(jié)果
性別信息保存在文本里,一行表示一個(gè)用戶的信息,各列分別表示
【行數(shù),id(涂掉了),性別,最后活躍時(shí)間】
三、實(shí)現(xiàn)思路
用戶性別信息在哪個(gè)頁面?
得到下面?zhèn)€人主頁
把后面的uid=256730數(shù)字改成其他數(shù)字,就可以得到其他人的主頁。
另外,如果上面的鏈接無法得到性別,可以再通過這個(gè)鏈接,也是修改uid可以訪問其他人主頁。
http://rs.xidian.edu.cn/home.php?mod=space&uid=256730&do=profile
四、數(shù)據(jù)如何存儲(chǔ)?
用數(shù)據(jù)庫還是其他方案?
為了閱讀方便,我們考慮用文本文件存儲(chǔ)。
30萬的用戶存儲(chǔ)在一個(gè)文本里會(huì)導(dǎo)致文本過大。如果程序被意外終止,30 萬的用戶數(shù)據(jù)需要重新爬取。
我們我們考慮一個(gè)文本里存放1000條記錄,理論上可以用30個(gè)文本來存放30萬條數(shù)據(jù)。
文本名稱為correct1-1001.txt correct47001-48001.txt,注意:1-1001是[1,1001),包含1,不包含1001
1、使用正則匹配找出性別
查看網(wǎng)頁源代碼
<!-- 找出性別這一欄--> <li><em>性別</em>女</li> 還可以找到活動(dòng)時(shí)間--> <li><em>上次發(fā)表時(shí)間</em>2015-11-4 20:04</li> <!-- 有些id不存在相應(yīng)的用戶,會(huì)有這樣的提示--> <p>抱歉,您指定的用戶空間不存在</p>
我們可以利用re模塊來進(jìn)行正則匹配
sexRe = re.compile(u'em>\u6027\u522b</em>(.*?)</li') timeRe = re.compile(u'em>\u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4</em>(.*?)</li') notexistRe = re.compile(u'(p>)\u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728<')
因?yàn)橹形牡脑?,需要Unicode 轉(zhuǎn)換 中文工具,可以用站長工具 Unicode 轉(zhuǎn)換 ASCII,ASCII 轉(zhuǎn)換 Unicode,比如下面這個(gè)鏈接: http://tool.chinaz.com/Tools/Unicode.aspx
- 性別的Unicode 是 \u6027\u522b
- 上次活動(dòng)時(shí)間 \u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4
- 抱歉,您指定的用戶空間不存在
- \u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728
這兒是簡單獲取性別的源代碼,通過urllib2對(duì)鏈接myurl發(fā)送一個(gè)get請(qǐng)求,將得到的html保存下來。注意編碼問題unicode(html, 'utf-8'),然后對(duì)html正則匹配seWord。
如果該用戶有性別信息,返回對(duì)應(yīng)的性別;否則,返回None
#對(duì)myurl頁面進(jìn)行seWord匹配查找 #seWord是用unicode表示 def getInfo(myurl, seWord): headers = { 'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6' } req = urllib2.Request( url=myurl, headers=headers ) time.sleep(0.3) response = urllib2.urlopen(req) html = response.read() html = unicode(html, 'utf-8') #需要進(jìn)行編碼,否則找不到信息 timeMatch = seWord.search(html) #因?yàn)閟eWord是用unicode表示 if timeMatch: s = timeMatch.groups() return s[0] else: return None
五、錯(cuò)誤處理
1、斷網(wǎng)情況(熱修復(fù)方案)
- 總共爬蟲需要幾天時(shí)間,用的校園網(wǎng),中間可能有斷網(wǎng)的可能。
- 如果發(fā)現(xiàn)斷網(wǎng),我們可以重新連上互聯(lián)網(wǎng),這中間有些用戶的性別沒有獲取到。
- 程序運(yùn)行時(shí)間較長,斷一次網(wǎng)就重新從id=1開始跑是不科學(xué)的。而且你也不能保證這次就網(wǎng)一直是好的。
- 為了不讓程序重頭開始跑,所以我們是記錄下斷網(wǎng)中漏掉的用戶id。
- 等一次程序跑完了(這需要幾天的時(shí)間),我們?cè)倥苡涗浵聛淼膇d重新跑一次。
2、無法獲取性別
- 這種有兩種情況:
- 一是真的沒有性別(用戶沒有填寫)
- 二是服務(wù)器抽了,咱們請(qǐng)求網(wǎng)頁失敗了。
- 這種咱們也是和上面類似,記錄下失敗的id,后面再重新跑。
知識(shí)點(diǎn)小結(jié)
對(duì)于這種錯(cuò)誤,SyntaxError: Non-ASCII character '\xe5' in file
需要在文件開頭加上# -*- coding: UTF-8 -*-
因?yàn)?python 的默認(rèn)編碼文件是用的 ANSCII 碼
<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
BBS網(wǎng)頁源代碼使用utf-8進(jìn)行編碼的。
本項(xiàng)目設(shè)計(jì)到中文字符,自然會(huì)遇到編碼問題。
import sys print sys.getdefaultencoding()
輸出 ascii
從上面的代碼可以看出 sys.defaultencoding 是 ANSCII,ANSCII是無法對(duì)中文字符進(jìn)行編碼的。UTF-8是Unicode的實(shí)現(xiàn)方式之一,可以對(duì)中文字符進(jìn)行編碼。遇到中文字符,我們需要加上這行代碼
reload(sys) # sys.setdefaultencoding('utf-8')
更改 sys.defaultencoding 為'utf-8'
后期整理的時(shí)候發(fā)現(xiàn)了自己一個(gè)小問題,因?yàn)檎齽t表達(dá)式當(dāng)時(shí)用unicode來表示的,所以需要把html進(jìn)行unicode轉(zhuǎn)換進(jìn)行查找。
后來發(fā)現(xiàn)可以直接用漢字對(duì)原來的html進(jìn)行查找。
# -*- coding: UTF-8 -*- html = response.read() sexRe = re.compile('em>性別</em>(.*?)</li') timeMatch = sexRe.search(html) if timeMatch: s = timeMatch.groups() print "字符串 "+s[0] html = unicode(html, 'utf-8') sexRe = re.compile(u'em>\u6027\u522b</em>(.*?)</li') timeMatch = sexRe.search(html) if timeMatch: s = timeMatch.groups() print "unicode " +s[0]
輸出
字符串 女 unicode 女 html = response.read() print len(html) html = unicode(html, 'utf-8') # print len(html)
輸出
html = response.read() print len(html) html = unicode(html, 'utf-8') # print len(html)
輸出
35423 33658
以上就是python實(shí)現(xiàn)爬蟲統(tǒng)計(jì)學(xué)校BBS男女比例的前期準(zhǔn)備和方案分析,希望對(duì)大家的學(xué)習(xí)有所幫助。
- python實(shí)現(xiàn)爬蟲統(tǒng)計(jì)學(xué)校BBS男女比例之?dāng)?shù)據(jù)處理(三)
- python實(shí)現(xiàn)爬蟲統(tǒng)計(jì)學(xué)校BBS男女比例之多線程爬蟲(二)
- Python爬蟲教程知識(shí)點(diǎn)總結(jié)
- python爬蟲爬取網(wǎng)頁數(shù)據(jù)并解析數(shù)據(jù)
- Python爬蟲實(shí)現(xiàn)自動(dòng)登錄、簽到功能的代碼
- Python爬蟲防封ip的一些技巧
- Python爬蟲爬取微信朋友圈
- python爬蟲使用requests發(fā)送post請(qǐng)求示例詳解
- 學(xué)習(xí)Python爬蟲的幾點(diǎn)建議
- python 爬蟲基本使用——統(tǒng)計(jì)杭電oj題目正確率并排序
相關(guān)文章
使用wxpython實(shí)現(xiàn)的一個(gè)簡單圖片瀏覽器實(shí)例
這篇文章主要介紹了使用wxpython實(shí)現(xiàn)的一個(gè)簡單圖片瀏覽器實(shí)例,根據(jù)自己的特殊需求而寫,需要的朋友可以參考下2014-07-07win7 下搭建sublime的python開發(fā)環(huán)境的配置方法
Sublime Text具有漂亮的用戶界面和強(qiáng)大的功能,例如代碼縮略圖,Python的插件,代碼段等。還可自定義鍵綁定,菜單和工具欄。Sublime Text的主要功能包括:拼寫檢查,書簽,完整的 Python API,Goto功能,即時(shí)項(xiàng)目切換,多選擇,多窗口等等。2014-06-06python opencv 讀取本地視頻文件 修改ffmpeg的方法
今天小編就為大家分享一篇python opencv 讀取本地視頻文件 修改ffmpeg的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2019-01-01解決python 在for循環(huán)并且pop數(shù)組的時(shí)候會(huì)跳過某些元素的問題
這篇文章主要介紹了解決python 在for循環(huán)并且pop數(shù)組的時(shí)候會(huì)跳過某些元素的問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2020-12-12python中watchdog文件監(jiān)控與檢測上傳功能
這篇文章主要介紹了python中watchdog文件監(jiān)控與檢測上傳功能,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-10-10vscode autopep8無法格式化python代碼問題解決
這篇文章主要為大家介紹了vscode autopep8無法格式化python代碼問題解決,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2023-09-09python實(shí)現(xiàn)時(shí)間o(1)的最小棧的實(shí)例代碼
這篇文章主要介紹了python實(shí)現(xiàn)時(shí)間o(1)的最小棧的實(shí)例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-07-07Python如何讀取16進(jìn)制byte數(shù)據(jù)
這篇文章主要介紹了Python如何讀取16進(jìn)制byte數(shù)據(jù),具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-05-05