欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)的爬取網(wǎng)易動(dòng)態(tài)評(píng)論操作示例

 更新時(shí)間:2018年06月06日 09:59:24   作者:小傲嬌的認(rèn)真  
這篇文章主要介紹了Python實(shí)現(xiàn)的爬取網(wǎng)易動(dòng)態(tài)評(píng)論操作,結(jié)合實(shí)例形式分析了Python針對(duì)網(wǎng)易評(píng)論正則爬取及json格式數(shù)據(jù)轉(zhuǎn)換、提取等相關(guān)操作技巧,需要的朋友可以參考下

本文實(shí)例講述了Python實(shí)現(xiàn)的爬取網(wǎng)易動(dòng)態(tài)評(píng)論操作。分享給大家供大家參考,具體如下:

打開網(wǎng)易的一條新聞的源代碼后,發(fā)現(xiàn)并沒有所要得評(píng)論內(nèi)容。

經(jīng)過學(xué)習(xí)后發(fā)現(xiàn),源代碼只是一個(gè)完整頁(yè)面的“骨架”,而我所需要的內(nèi)容是它的填充物,這時(shí)候需要打開工具里面的開發(fā)人員工具,從加載的“骨肉”里找到我所要的評(píng)論

圈住的是類型

找到之后打開網(wǎng)頁(yè),發(fā)現(xiàn)json類型的格式,用我已學(xué)過的正則,bs都不好鬧,于是便去了解了正則,發(fā)現(xiàn)把json的格式換化成python的格式后,用列表提取內(nèi)容是一條明朗的道路。。。

但是在細(xì)致分析的時(shí)候也發(fā)現(xiàn)了問題

從這里獲得每條評(píng)論時(shí),感覺有點(diǎn)不對(duì),觀察發(fā)現(xiàn)如果是回復(fù)評(píng)論的評(píng)論會(huì)出現(xiàn)他回復(fù)那條評(píng)論的數(shù)據(jù),于是用正則提取了一下

最終的代碼如下:

#coding=utf-8
__author__ = 'kongmengfan123'
import urllib
import re
import json
import time
def gethothtml(url):#最熱評(píng)論
  page=urllib.urlopen(url)
  html=page.read()
  get_json(html)
def gethnewtml():#最新評(píng)論有5頁(yè)
  for i in range(1,6):
    url = 'http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/newList?offset=%d&limit=30&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc&_=1478010624978'%i*30
    page = urllib.urlopen(url)
    html=page.read()
    time.sleep(1)
    get_json(html)
def get_json(json_):
  end_=re.compile(r'\);')#將json網(wǎng)頁(yè)轉(zhuǎn)化成python數(shù)據(jù)
  begain=re.compile(r'getData\(')
  json_=begain.sub('',json_)
  json_=end_.sub('',json_)
  ajson=json.loads(json_)
  lis=ajson["commentIds"]#獲得每條評(píng)論的鍵
  n=0
  for i in range(1,len(lis)):
    try:
      xulie=re.compile('\d{10,}')#取得準(zhǔn)確評(píng)論的鍵(去掉回復(fù))
      bia=re.findall(xulie,lis[n])
      w.write(ajson['comments'][bia[len(bia)-1]]['user']['nickname'].encode('utf-8')+'|')
    except KeyError:
      w.write(ajson['comments'][bia[len(bia)-1]]['user']['location'].encode('utf-8')+'|')
    if (len(lis[n])>13):
      xulie=re.compile('\d{10,}')
      bia=re.findall(xulie,lis[n])
      w.write(ajson['comments'][bia[len(bia)-1]]['content'].encode('utf-8')+'\n')
    else:
       w.write(ajson['comments'][lis[n]]['content'].encode('utf-8')+'\n')
    n=n+1
  return lis
w=open('wangyi.txt','w')
w.write('用戶名'+'|'+'熱門評(píng)論'+'\n')
hot_=gethothtml('http://comment.news.163.com/api/v1/products/a2869674571f77b5a0867c3d71db5856/threads/C4QFIJNS0001875O/comments/hotList?offset=0&limit=40&showLevelThreshold=72&headLimit=1&tailLimit=2&callback=getData&ibc=newspc')
w.write('用戶名'+'|'+'最新評(píng)論'+'\n')
gethnewtml()
w.close()

成功。

更多關(guān)于Python相關(guān)內(nèi)容可查看本站專題:《Python Socket編程技巧總結(jié)》、《Python正則表達(dá)式用法總結(jié)》、《Python數(shù)據(jù)結(jié)構(gòu)與算法教程》、《Python函數(shù)使用技巧總結(jié)》、《Python字符串操作技巧匯總》、《Python入門與進(jìn)階經(jīng)典教程》及《Python文件與目錄操作技巧匯總

希望本文所述對(duì)大家Python程序設(shè)計(jì)有所幫助。

相關(guān)文章

  • python列表操作使用示例分享

    python列表操作使用示例分享

    這篇文章主要介紹了python列表操作使用示例,需要的朋友可以參考下
    2014-02-02
  • python基于win32實(shí)現(xiàn)窗口截圖

    python基于win32實(shí)現(xiàn)窗口截圖

    這篇文章主要為大家詳細(xì)介紹了python基于win32api實(shí)現(xiàn)窗口截圖,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-03-03
  • Python中矩陣庫(kù)Numpy基本操作詳解

    Python中矩陣庫(kù)Numpy基本操作詳解

    這篇文章主要為大家詳細(xì)介紹了Python中矩陣庫(kù)Numpy的基本操作,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2017-11-11
  • python讀取Kafka實(shí)例

    python讀取Kafka實(shí)例

    今天小編就為大家分享一篇python讀取Kafka實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來(lái)看看吧
    2019-12-12
  • Python的Django框架中消息通知的計(jì)數(shù)器實(shí)現(xiàn)教程

    Python的Django框架中消息通知的計(jì)數(shù)器實(shí)現(xiàn)教程

    通知的計(jì)數(shù)器非常有用,新通知時(shí)+1和讀過通知后的-1是最基本的功能,這里我們就來(lái)看一下Python的Django框架中消息通知的計(jì)數(shù)器實(shí)現(xiàn)教程
    2016-06-06
  • Python機(jī)器學(xué)習(xí)之基礎(chǔ)概述

    Python機(jī)器學(xué)習(xí)之基礎(chǔ)概述

    今天帶大家回顧python機(jī)器學(xué)習(xí)的相關(guān)知識(shí),文中非常詳細(xì)的介紹了Python機(jī)器學(xué)習(xí)的基礎(chǔ)概述,算法分類及研究?jī)?nèi)容,需要的朋友可以參考下
    2021-05-05
  • Python機(jī)器學(xué)習(xí)之PCA降維算法詳解

    Python機(jī)器學(xué)習(xí)之PCA降維算法詳解

    今天帶大家復(fù)習(xí)python機(jī)器學(xué)習(xí)的知識(shí)點(diǎn),文中對(duì)PCA降維算法介紹的非常詳細(xì),對(duì)正在學(xué)習(xí)python機(jī)器學(xué)習(xí)的小伙伴們有很好地幫助,需要的朋友可以參考下
    2021-05-05
  • Python按行讀取文件的簡(jiǎn)單實(shí)現(xiàn)方法

    Python按行讀取文件的簡(jiǎn)單實(shí)現(xiàn)方法

    下面小編就為大家?guī)?lái)一篇Python按行讀取文件的簡(jiǎn)單實(shí)現(xiàn)方法。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來(lái)看看吧
    2016-06-06
  • 關(guān)于python3.9安裝wordcloud出錯(cuò)的問題及解決辦法

    關(guān)于python3.9安裝wordcloud出錯(cuò)的問題及解決辦法

    這篇文章主要介紹了關(guān)于python3.9安裝wordcloud出錯(cuò)的問題及解決辦法,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2020-11-11
  • matplotlib 多個(gè)圖像共用一個(gè)colorbar的實(shí)現(xiàn)示例

    matplotlib 多個(gè)圖像共用一個(gè)colorbar的實(shí)現(xiàn)示例

    這篇文章主要介紹了matplotlib 多個(gè)圖像共用一個(gè)colorbar的實(shí)現(xiàn)示例,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-09-09

最新評(píng)論