Python實現(xiàn)爬取并分析電商評論
現(xiàn)如今各種APP、微信訂閱號、微博、購物網(wǎng)站等網(wǎng)站都允許用戶發(fā)表一些個人看法、意見、態(tài)度、評價、立場等信息。針對這些數(shù)據(jù),我們可以利用情感分析技術對其進行分析,總結出大量的有價值信息。例如對商品評論的分析,可以了解用戶對商品的滿意度,進而改進產(chǎn)品;通過對一個人分布內容的分析,了解他的情緒變化,哪種情緒多,哪種情緒少,進而分析他的性格。怎樣知道哪些評論是正面的,哪些評論是負面的呢?正面評價的概率是多少呢?
利用python的第三方模塊SnowNLP可以實現(xiàn)對評論內容的情感分析預測,SnowNLP可以方便的處理中文文本內容,如中文分詞、詞性標注、情感分析、文本分類、提取文本關鍵詞、文本相似度計算等。大概大于等于0.5,可以判斷為正面評價——積極情感,小于0.5,可以判斷為負面評價——消極情感。
下面分析一組京東上某產(chǎn)品的評論數(shù)據(jù)并生成折線圖:
部分源數(shù)據(jù):
實現(xiàn)過程:
#加載情感分析模塊 from snownlp import SnowNLP #from snownlp import sentiment import pandas as pd import matplotlib.pyplot as plt #導入樣例數(shù)據(jù) aa ='F:\\python入門\\python編程錦囊\\Code(實例源碼及使用說明)\\Code(實例源碼及使用說明)\\Code(實例源碼及使用說明)\\09\\data\\京東評論.xls' #讀取文本數(shù)據(jù) df=pd.read_excel(aa) #提取所有數(shù)據(jù) df1=df.iloc[:,3] print('將提取的數(shù)據(jù)打印出來:\n',df1) #遍歷每條評論進行預測 values=[SnowNLP(i).sentiments for i in df1] #輸出積極的概率,大于0.5積極的,小于0.5消極的 #myval保存預測值 myval=[] good=0 bad=0 for i in values: if (i>=0.5): myval.append("正面") good=good+1 else: myval.append("負面") bad=bad+1 df['預測值']=values df['評價類別']=myval #將結果輸出到Excel df.to_excel('F:\\python入門\\python編程錦囊\\Code(實例源碼及使用說明)\\Code(實例源碼及使用說明)\\Code(實例源碼及使用說明)\\09\\data\\result2.xls') rate=good/(good+bad) print('好評率','%.f%%' % (rate * 100)) #格式化為百分比 #作圖 y=values plt.rc('font', family='SimHei', size=10) plt.plot(y, marker='o', mec='r', mfc='w',label=u'評價分值') plt.xlabel('用戶') plt.ylabel('評價分值') # 讓圖例生效 plt.legend() #添加標題 plt.title('京東評論情感分析',family='SimHei',size=14,color='blue') plt.show()
Excel結果:
作圖的結果:
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
- python 爬取京東指定商品評論并進行情感分析
- python爬取晉江文學城小說評論(情緒分析)
- 利用Python網(wǎng)絡爬蟲爬取各大音樂評論的代碼
- 詳解用python實現(xiàn)爬取CSDN熱門評論URL并存入redis
- python 利用百度API進行淘寶評論關鍵詞提取
- python 爬取騰訊視頻評論的實現(xiàn)步驟
- python爬取微博評論的實例講解
- python實現(xiàn)模擬器爬取抖音評論數(shù)據(jù)的示例代碼
- 如何基于Python爬取隱秘的角落評論
- python 爬取馬蜂窩景點翻頁文字評論的實現(xiàn)
- mysql實現(xiàn)外連接方式
- python 爬取華為應用市場評論
相關文章
Python下使用Scrapy爬取網(wǎng)頁內容的實例
今天小編就為大家分享一篇Python下使用Scrapy爬取網(wǎng)頁內容的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-05-05Python實現(xiàn)爬蟲IP負載均衡和高可用集群的示例代碼
做大型爬蟲項目經(jīng)常遇到請求頻率過高的問題,這里需要說的是使用爬蟲IP可以提高抓取效率,本文主要介紹了Python實現(xiàn)爬蟲IP負載均衡和高可用集群的示例代碼,感興趣的可以了解一下2023-12-12Python+Selenium+PIL+Tesseract自動識別驗證碼進行一鍵登錄
本篇文章主要介紹了Python+Selenium+PIL+Tesseract自動識別驗證碼進行一鍵登錄,具有一定的參考價值,有興趣的可以了解下2017-09-09