欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

用Python編寫簡單的微博爬蟲

 更新時間:2016年03月04日 14:29:06   作者:語亮  
這篇文章主要介紹了如何利用Python編寫一個簡單的微博爬蟲,感興趣的小伙伴們可以參考一下

先說點題外話,我一開始想使用Sina Weibo API來獲取微博內容,但后來發(fā)現(xiàn)新浪微博的API限制實在太多,大家感受一下:


只能獲取當前授權的用戶(就是自己),而且只能返回最新的5條,WTF!
所以果斷放棄掉這條路,改為『生爬』,因為PC端的微博是Ajax的動態(tài)加載,爬取起來有些困難,我果斷知難而退,改為對移動端的微博進行爬取,因為移動端的微博可以通過分頁爬取的方式來一次性爬取所有微博內容,這樣工作就簡化了不少。

最后實現(xiàn)的功能:

1、輸入要爬取的微博用戶的user_id,獲得該用戶的所有微博
2、文字內容保存到以%user_id命名文本文件中,所有高清原圖保存在weibo_image文件夾中
具體操作:
首先我們要獲得自己的cookie,這里只說chrome的獲取方法。

1、用chrome打開新浪微博移動端
2、option+command+i調出開發(fā)者工具
3、點開Network,將Preserve log選項選中
4、輸入賬號密碼,登錄新浪微博

5、找到m.weibo.cn->Headers->Cookie,把cookie復制到代碼中的#your cookie處

然后再獲取你想爬取的用戶的user_id,這個我不用多說啥了吧,點開用戶主頁,地址欄里面那個號碼就是user_id


將python代碼保存到weibo_spider.py文件中
定位到當前目錄下后,命令行執(zhí)行python weibo_spider.py user_id
當然如果你忘記在后面加user_id,執(zhí)行的時候命令行也會提示你輸入

最后執(zhí)行結束


小問題:在我的測試中,有的時候會出現(xiàn)圖片下載失敗的問題,具體原因還不是很清楚,可能是網(wǎng)速問題,因為我宿舍的網(wǎng)速實在太不穩(wěn)定了,當然也有可能是別的問題,所以在程序根目錄下面,我還生成了一個userid_imageurls的文本文件,里面存儲了爬取的所有圖片的下載鏈接,如果出現(xiàn)大片的圖片下載失敗,可以將該鏈接群一股腦導進迅雷等下載工具進行下載。

另外,我的系統(tǒng)是OSX EI Capitan10.11.2,Python的版本是2.7,依賴庫用sudo pip install XXXX就可以安裝,具體配置問題可以自行stackoverflow,這里就不展開講了。

下面我就給出實現(xiàn)代碼

#-*-coding:utf8-*-

import re
import string
import sys
import os
import urllib
import urllib2
from bs4 import BeautifulSoup
import requests
from lxml import etree

reload(sys) 
sys.setdefaultencoding('utf-8')
if(len(sys.argv)>=2):
  user_id = (int)(sys.argv[1])
else:
  user_id = (int)(raw_input(u"請輸入user_id: "))

cookie = {"Cookie": "#your cookie"}
url = 'http://weibo.cn/u/%d?filter=1&page=1'%user_id

html = requests.get(url, cookies = cookie).content
selector = etree.HTML(html)
pageNum = (int)(selector.xpath('//input[@name="mp"]')[0].attrib['value'])

result = "" 
urllist_set = set()
word_count = 1
image_count = 1

print u'爬蟲準備就緒...'

for page in range(1,pageNum+1):

 #獲取lxml頁面
 url = 'http://weibo.cn/u/%d?filter=1&page=%d'%(user_id,page) 
 lxml = requests.get(url, cookies = cookie).content

 #文字爬取
 selector = etree.HTML(lxml)
 content = selector.xpath('//span[@class="ctt"]')
 for each in content:
  text = each.xpath('string(.)')
  if word_count>=4:
   text = "%d :"%(word_count-3) +text+"\n\n"
  else :
   text = text+"\n\n"
  result = result + text
  word_count += 1

 #圖片爬取
 soup = BeautifulSoup(lxml, "lxml")
 urllist = soup.find_all('a',href=re.compile(r'^http://weibo.cn/mblog/oripic',re.I))
 first = 0
 for imgurl in urllist:
  urllist_set.add(requests.get(imgurl['href'], cookies = cookie).url)
  image_count +=1

fo = open("/Users/Personals/%s"%user_id, "wb")
fo.write(result)
word_path=os.getcwd()+'/%d'%user_id
print u'文字微博爬取完畢'

link = ""
fo2 = open("/Users/Personals/%s_imageurls"%user_id, "wb")
for eachlink in urllist_set:
 link = link + eachlink +"\n"
fo2.write(link)
print u'圖片鏈接爬取完畢'


if not urllist_set:
 print u'該頁面中不存在圖片'
else:
 #下載圖片,保存在當前目錄的pythonimg文件夾下
 image_path=os.getcwd()+'/weibo_image'
 if os.path.exists(image_path) is False:
  os.mkdir(image_path)
 x=1
 for imgurl in urllist_set:
  temp= image_path + '/%s.jpg' % x
  print u'正在下載第%s張圖片' % x
  try:
   urllib.urlretrieve(urllib2.urlopen(imgurl).geturl(),temp)
  except:
   print u"該圖片下載失敗:%s"%imgurl
  x+=1

print u'原創(chuàng)微博爬取完畢,共%d條,保存路徑%s'%(word_count-4,word_path)
print u'微博圖片爬取完畢,共%d張,保存路徑%s'%(image_count-1,image_path)

一個簡單的微博爬蟲就完成了,希望對大家的學習有所幫助。

相關文章

  • python輸出100以內的質數(shù)與合數(shù)實例代碼

    python輸出100以內的質數(shù)與合數(shù)實例代碼

    本文通過實例代碼給大家介紹了python輸出100以內的質數(shù)與合數(shù)的方法,非常不錯,具有一定的參考借鑒價值,需要的朋友參考下吧
    2018-07-07
  • 如何基于Python按行合并兩個txt

    如何基于Python按行合并兩個txt

    這篇文章主要介紹了如何基于Python按行合并兩個txt,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-11-11
  • python獲取各操作系統(tǒng)硬件信息的方法

    python獲取各操作系統(tǒng)硬件信息的方法

    這篇文章主要介紹了python獲取各操作系統(tǒng)硬件信息的方法,實例分析了Python在windows、Linux及Mac等操作系統(tǒng)上獲取CPU信息的相關技巧,需要的朋友可以參考下
    2015-06-06
  • 如何在mac下配置python虛擬環(huán)境

    如何在mac下配置python虛擬環(huán)境

    這篇文章主要介紹了如何mac下配置python虛擬環(huán)境,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-07-07
  • 對Python2與Python3中__bool__方法的差異詳解

    對Python2與Python3中__bool__方法的差異詳解

    今天小編就為大家分享一篇對Python2與Python3中__bool__方法的差異詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-11-11
  • Python可視化Matplotlib散點圖scatter()用法詳解

    Python可視化Matplotlib散點圖scatter()用法詳解

    這篇文章主要介紹了Python可視化中Matplotlib散點圖scatter()的用法詳解,文中附含詳細示例代碼,有需要得朋友可以借鑒參考下,希望能夠有所幫助
    2021-09-09
  • Flask登錄注冊項目的簡單實現(xiàn)

    Flask登錄注冊項目的簡單實現(xiàn)

    一個簡單的用戶注冊和登錄的頁面,涉及到驗證,數(shù)據(jù)庫存儲等等,本文主要介紹了Flask登錄注冊項目的簡單實現(xiàn),從目錄結構開始,感興趣的可以了解一下
    2021-05-05
  • python數(shù)據(jù)庫如何連接SQLite詳解

    python數(shù)據(jù)庫如何連接SQLite詳解

    這篇文章主要介紹了Python實現(xiàn)連接SQLite數(shù)據(jù)庫的方法,在Python數(shù)據(jù)庫編程中有著廣泛的應用,需要的朋友可以參考下,希望能給你帶來幫助
    2021-08-08
  • Python+Pygame制作"長沙版"大富翁

    Python+Pygame制作"長沙版"大富翁

    說到童年愛玩的電腦游戲,最國民的莫過于金山打字通,接著是掃雷、紅心大戰(zhàn),而紅極一時的單機游戲當屬《大富翁》。本文將通過Python的Pygame模塊制作"長沙版"的大富翁,需要的可以參考一下
    2022-02-02
  • Python 實現(xiàn)輸入任意多個數(shù),并計算其平均值的例子

    Python 實現(xiàn)輸入任意多個數(shù),并計算其平均值的例子

    今天小編就為大家分享一篇Python 實現(xiàn)輸入任意多個數(shù),并計算其平均值的例子,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-07-07

最新評論