自然語(yǔ)言處理之文本熱詞提取(含有《源碼》和《數(shù)據(jù)》)
主要就是通過(guò)jieba的posseg模塊將一段文字分段并賦予不同字段不同意思。然后通過(guò)頻率計(jì)算出熱頻詞
數(shù)據(jù)放在文章里面了,就不用花積分下載了
**
代碼
# TODO 鳥(niǎo)欲高飛,必先展翅 # TODO 向前的人 :Jhon import jieba.posseg as psg text=open("data/冬奧會(huì)評(píng)論區(qū)的數(shù)據(jù).txt", "r", encoding="utf-8").read() text_psg=psg.lcut(text) # TODO 楊過(guò) nr print('人物名詞性標(biāo)注為:\n',' '.join(['{}{}'.format(w,t) for w,t in text_psg])) name_counts={} #定義字典用于存儲(chǔ)詞及其出現(xiàn)的次數(shù) for word_pair in text_psg: if len(word_pair.word)==1: continue else: if word_pair.flag=="nr" or word_pair.flag=="z": # TODO flag方法 name_counts[word_pair]=name_counts.get(word_pair,0)+1 #遍歷所有詞,每次出現(xiàn)對(duì)應(yīng)的詞都加1 # print(name_counts) #{pair('葉老漢', 'nr'): 2, pair('衛(wèi)州', 'nr'): 1, pair('葉三姐', 'nr'): 10,} item=name_counts.items() items=list(item) # print(items) # TODO [(pair('魯濱遜', 'nr'), 1), (pair('武功', 'nr'), 825), (pair('言語(yǔ)', 'nr'), 96)] items.sort(key=lambda x:x[1] ,reverse=True) #根據(jù)詞語(yǔ)出現(xiàn)的順序從大到小排序 name_list=open('./data/冬奧會(huì)人名出現(xiàn)次數(shù).txt',"w",encoding="utf-8") for i in range(len(items)): name,pos=items[i][0] count=items[i][1] name_count=name+': '+str(count) name_list.write(name_count+'\n') name_list.close()
代碼里面注釋的已經(jīng)非常清楚,不同的可以私信我,或者在評(píng)論區(qū)打出來(lái),看到了會(huì)及時(shí)解惑的。
**
數(shù)據(jù)
v熱v我,奪冠后齊廣璞再次收獲金墩墩!此前他在空中技巧混合團(tuán)體比賽中獲得亞軍。 拉多拉夫,在本屆冬奧會(huì)已斬獲一金一銀。 虎口水,齊廣璞一金一銀拿到金墩墩的他不斷擦拭淚水,老將不易! 拉科羅l,在剛剛結(jié)束的自由式滑雪男子空中技巧決賽中, 酒啊就是你,中國(guó)隊(duì)選手齊廣璞在本屆冬奧會(huì)上首次拿出5.0的高難度動(dòng)作 會(huì)積極,并以出色的發(fā)揮獲得129.00分,奪得金牌!這是繼2006年都靈冬奧會(huì) 街廓,2月16日晚的崇禮,男子自由式滑雪空中技巧決賽 阿克蘇九年,他的難度5.0動(dòng)作拿下129分,圓夢(mèng)奪金!賽后,齊廣璞也熱淚盈眶! 啊可能是,這也是中國(guó)代表團(tuán)本屆冬奧會(huì)的第七枚金牌!“我做到了,讓五星紅旗飄揚(yáng)在最高處。 啊空間你是,但其實(shí)還不夠好,本來(lái)還能有更高的分?jǐn)?shù)?!? 暗殺即可,中國(guó)老將齊廣璞發(fā)揮出色。圖/新華社 后即可,15日晚的男子資格賽,齊廣璞和賈宗洋都是第1輪就憑借高分動(dòng)作, 哈卡斯,排名前兩位直接晉級(jí)決賽,后者更是高質(zhì)量再現(xiàn)4.425動(dòng)作,拿到125.67分。 JJ看來(lái)我,老將賈宗洋拼盡了全力。圖/新華社 哦怕,備戰(zhàn)中,齊廣璞曾遭遇困難,有一段時(shí)間情緒不是很好。 喀喀喀,精神壓力較大,長(zhǎng)時(shí)間失眠,但他都克服了。 阿克蘇六年,“因?yàn)橛袎?mèng)想,什么都不是問(wèn)題。”北京冬奧會(huì)就是他前進(jìn)的最大動(dòng)力。 郝鵬,這些年,齊廣璞拿到的獎(jiǎng)項(xiàng)不勝枚舉,世界杯冠軍、世錦賽冠軍……不過(guò)。 肯德基,他參加過(guò)溫哥華、索契、平昌三屆冬奧會(huì),都未能收獲獎(jiǎng)牌,這次能獲得第
數(shù)據(jù)每行逗號(hào)前是名字,逗號(hào)后的是評(píng)論內(nèi)容,數(shù)據(jù)不太正統(tǒng),先湊合著用,后面你就會(huì)發(fā)現(xiàn)有點(diǎn)那個(gè)味道了。
結(jié)果:
齊廣璞: 79
冰墩墩: 70
蘇翊鳴: 44
谷愛(ài)凌: 43
徐夢(mèng)桃: 41
滑雪: 30
范可新: 15
賈宗洋: 13
高亭宇: 11
平昌: 6
滑冰: 6
世錦賽: 5
索契: 5
晉級(jí): 4
安斯卡: 4
韓曉鵬: 4
張虹: 4
任子威: 4
小鳴: 4
溫哥華: 3
元老: 3
張家口: 3
阿克薩: 3
祝賀: 3
吉祥物: 3
薩克森: 3
張杰: 3
金墩墩: 2
亞軍: 2
都靈: 2
安康: 2
阿喀琉斯: 2
楊紫: 2
桂冠: 2
凌空: 2
韓聰: 2
融寶: 2
寶融寶: 2
雪容融: 2
明星: 2
苗子: 2
五星紅旗: 1
最高處: 1
哈卡斯: 1
郝鵬: 1
肯德基: 1
李玉: 1
劉晨周: 1
烏克蘭: 1
寶貴: 1
阿奎那: 1
夢(mèng)中人: 1
周轉(zhuǎn): 1
高達(dá): 1
斯諾克: 1
滿懷希望: 1
阿森納: 1
內(nèi)存卡: 1
利利斯: 1
屠龍刀: 1
東道主: 1
馬克: 1
阿基: 1
正佳: 1
天成: 1
折桂: 1
熱切地: 1
齊天大圣: 1
哈薩克: 1
寶藏: 1
寶貝: 1
賀卡: 1
謝幕: 1
范迪安: 1
雪容融: 1
依舊: 1
舒斯: 1
施尼: 1
曼德?tīng)? 1
肥墩墩: 1
圣保羅: 1
榮幸之至: 1
熊貓: 1
滾滾: 1
仰泳: 1
太棒了: 1
康弘: 1
最佳: 1
大力支持: 1
小胖: 1
祝福: 1
施圖拜: 1
孫琳琳: 1
張雨婷: 1
終封王: 1
褚鵬: 1
阿曼: 1
陶士文: 1
可以發(fā)現(xiàn)結(jié)果和前面的還是挺準(zhǔn)的。當(dāng)然還可以繼續(xù)優(yōu)化,也可以自己訓(xùn)練模型,但是訓(xùn)練集需要很大。我這個(gè)模型是官方的,訓(xùn)練模型數(shù)據(jù)1.84GB
因?yàn)槲谋旧蟼魈鄷?huì)被判刷量,所以刪除了一部分。結(jié)果是之前的,沒(méi)有改變,需要文本的可以去下載。測(cè)試數(shù)據(jù)下載
到此這篇關(guān)于自然語(yǔ)言處理之文本熱詞提取的文章就介紹到這了,更多相關(guān)自然語(yǔ)言文本熱詞提取內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
輕松實(shí)現(xiàn)TensorFlow微信跳一跳的AI
這篇文章主要教大家如何輕松實(shí)現(xiàn)TensorFlow微信跳一跳的AI,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-01-01python函數(shù)enumerate,operator和Counter使用技巧實(shí)例小結(jié)
這篇文章主要介紹了python函數(shù)enumerate,operator和Counter使用技巧,結(jié)合實(shí)例形式總結(jié)分析了python內(nèi)置函數(shù)enumerate,operator和Counter基本功能、原理、用法及操作注意事項(xiàng),需要的朋友可以參考下2020-02-02PyCharm2020.1.1與Python3.7.7的安裝教程圖文詳解
這篇文章主要介紹了PyCharm2020.1.1與Python3.7.7的安裝教程,本文通過(guò)圖文并茂的形式給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2020-08-08Python實(shí)現(xiàn)MySql數(shù)據(jù)庫(kù)交互的示例
本文主要介紹了Python實(shí)現(xiàn)MySql數(shù)據(jù)庫(kù)交互的示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2023-01-01python實(shí)現(xiàn)企業(yè)微信定時(shí)發(fā)送文本消息的示例代碼
這篇文章主要介紹了python實(shí)現(xiàn)企業(yè)微信定時(shí)發(fā)送文本消息的示例代碼,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-11-11PyTorch中的參數(shù)類torch.nn.Parameter()詳解
這篇文章主要給大家介紹了關(guān)于PyTorch中torch.nn.Parameter()的相關(guān)資料,要內(nèi)容包括基礎(chǔ)應(yīng)用、實(shí)用技巧、原理機(jī)制等方面,文章通過(guò)實(shí)例介紹的非常詳細(xì),需要的朋友可以參考下2022-02-02Django連接數(shù)據(jù)庫(kù)并實(shí)現(xiàn)讀寫(xiě)分離過(guò)程解析
這篇文章主要介紹了Django連接數(shù)據(jù)庫(kù)并實(shí)現(xiàn)讀寫(xiě)分離過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11Python實(shí)現(xiàn)的當(dāng)前時(shí)間多加一天、一小時(shí)、一分鐘操作示例
這篇文章主要介紹了Python實(shí)現(xiàn)的當(dāng)前時(shí)間多加一天、一小時(shí)、一分鐘操作,結(jié)合實(shí)例形式分析了Python基于datetime模塊進(jìn)行日期時(shí)間操作相關(guān)使用技巧,需要的朋友可以參考下2018-05-05python使用隱式循環(huán)快速求和的實(shí)現(xiàn)示例
這篇文章主要介紹了python使用隱式循環(huán)快速求和的實(shí)現(xiàn)示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2020-09-09