Python實(shí)現(xiàn)爬取并分析電商評(píng)論
現(xiàn)如今各種APP、微信訂閱號(hào)、微博、購物網(wǎng)站等網(wǎng)站都允許用戶發(fā)表一些個(gè)人看法、意見、態(tài)度、評(píng)價(jià)、立場等信息。針對(duì)這些數(shù)據(jù),我們可以利用情感分析技術(shù)對(duì)其進(jìn)行分析,總結(jié)出大量的有價(jià)值信息。例如對(duì)商品評(píng)論的分析,可以了解用戶對(duì)商品的滿意度,進(jìn)而改進(jìn)產(chǎn)品;通過對(duì)一個(gè)人分布內(nèi)容的分析,了解他的情緒變化,哪種情緒多,哪種情緒少,進(jìn)而分析他的性格。怎樣知道哪些評(píng)論是正面的,哪些評(píng)論是負(fù)面的呢?正面評(píng)價(jià)的概率是多少呢?
利用python的第三方模塊SnowNLP可以實(shí)現(xiàn)對(duì)評(píng)論內(nèi)容的情感分析預(yù)測,SnowNLP可以方便的處理中文文本內(nèi)容,如中文分詞、詞性標(biāo)注、情感分析、文本分類、提取文本關(guān)鍵詞、文本相似度計(jì)算等。大概大于等于0.5,可以判斷為正面評(píng)價(jià)——積極情感,小于0.5,可以判斷為負(fù)面評(píng)價(jià)——消極情感。
下面分析一組京東上某產(chǎn)品的評(píng)論數(shù)據(jù)并生成折線圖:
部分源數(shù)據(jù):
實(shí)現(xiàn)過程:
#加載情感分析模塊 from snownlp import SnowNLP #from snownlp import sentiment import pandas as pd import matplotlib.pyplot as plt #導(dǎo)入樣例數(shù)據(jù) aa ='F:\\python入門\\python編程錦囊\\Code(實(shí)例源碼及使用說明)\\Code(實(shí)例源碼及使用說明)\\Code(實(shí)例源碼及使用說明)\\09\\data\\京東評(píng)論.xls' #讀取文本數(shù)據(jù) df=pd.read_excel(aa) #提取所有數(shù)據(jù) df1=df.iloc[:,3] print('將提取的數(shù)據(jù)打印出來:\n',df1) #遍歷每條評(píng)論進(jìn)行預(yù)測 values=[SnowNLP(i).sentiments for i in df1] #輸出積極的概率,大于0.5積極的,小于0.5消極的 #myval保存預(yù)測值 myval=[] good=0 bad=0 for i in values: if (i>=0.5): myval.append("正面") good=good+1 else: myval.append("負(fù)面") bad=bad+1 df['預(yù)測值']=values df['評(píng)價(jià)類別']=myval #將結(jié)果輸出到Excel df.to_excel('F:\\python入門\\python編程錦囊\\Code(實(shí)例源碼及使用說明)\\Code(實(shí)例源碼及使用說明)\\Code(實(shí)例源碼及使用說明)\\09\\data\\result2.xls') rate=good/(good+bad) print('好評(píng)率','%.f%%' % (rate * 100)) #格式化為百分比 #作圖 y=values plt.rc('font', family='SimHei', size=10) plt.plot(y, marker='o', mec='r', mfc='w',label=u'評(píng)價(jià)分值') plt.xlabel('用戶') plt.ylabel('評(píng)價(jià)分值') # 讓圖例生效 plt.legend() #添加標(biāo)題 plt.title('京東評(píng)論情感分析',family='SimHei',size=14,color='blue') plt.show()
Excel結(jié)果:
作圖的結(jié)果:
以上就是本文的全部內(nèi)容,希望對(duì)大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
- python 爬取京東指定商品評(píng)論并進(jìn)行情感分析
- python爬取晉江文學(xué)城小說評(píng)論(情緒分析)
- 利用Python網(wǎng)絡(luò)爬蟲爬取各大音樂評(píng)論的代碼
- 詳解用python實(shí)現(xiàn)爬取CSDN熱門評(píng)論URL并存入redis
- python 利用百度API進(jìn)行淘寶評(píng)論關(guān)鍵詞提取
- python 爬取騰訊視頻評(píng)論的實(shí)現(xiàn)步驟
- python爬取微博評(píng)論的實(shí)例講解
- python實(shí)現(xiàn)模擬器爬取抖音評(píng)論數(shù)據(jù)的示例代碼
- 如何基于Python爬取隱秘的角落評(píng)論
- python 爬取馬蜂窩景點(diǎn)翻頁文字評(píng)論的實(shí)現(xiàn)
- mysql實(shí)現(xiàn)外連接方式
- python 爬取華為應(yīng)用市場評(píng)論
相關(guān)文章
Python下使用Scrapy爬取網(wǎng)頁內(nèi)容的實(shí)例
今天小編就為大家分享一篇Python下使用Scrapy爬取網(wǎng)頁內(nèi)容的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-05-05Python實(shí)現(xiàn)爬蟲IP負(fù)載均衡和高可用集群的示例代碼
做大型爬蟲項(xiàng)目經(jīng)常遇到請(qǐng)求頻率過高的問題,這里需要說的是使用爬蟲IP可以提高抓取效率,本文主要介紹了Python實(shí)現(xiàn)爬蟲IP負(fù)載均衡和高可用集群的示例代碼,感興趣的可以了解一下2023-12-12Python+Selenium+PIL+Tesseract自動(dòng)識(shí)別驗(yàn)證碼進(jìn)行一鍵登錄
本篇文章主要介紹了Python+Selenium+PIL+Tesseract自動(dòng)識(shí)別驗(yàn)證碼進(jìn)行一鍵登錄,具有一定的參考價(jià)值,有興趣的可以了解下2017-09-09Python matplotlib學(xué)習(xí)筆記之坐標(biāo)軸范圍
這篇文章主要介紹了Python matplotlib學(xué)習(xí)筆記之坐標(biāo)軸范圍,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-06-06Python中Selenium模擬JQuery滑動(dòng)解鎖實(shí)例
這篇文章主要介紹了Python中Selenium模擬JQuery滑動(dòng)解鎖實(shí)例,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2017-07-07