python實現(xiàn)關鍵詞提取的示例講解
新人小菜鳥又來寫博客啦?。?!沒人表示不開心~~(>_<)~~
今天我來弄一個簡單的關鍵詞提取的代碼
文章內容關鍵詞的提取分為三大步:
(1) 分詞
(2) 去停用詞
(3) 關鍵詞提取
分詞方法有很多,我這里就選擇常用的結巴jieba分詞;去停用詞,我用了一個停用詞表。
具體代碼如下:
import jieba import jieba.analyse #第一步:分詞,這里使用結巴分詞全模式 text = '''新聞,也叫消息,是指報紙、電臺、電視臺、互聯(lián)網(wǎng)經常使用的記錄社會、傳播信息、反映時代的一種文體,具有真實性、時效性、簡潔性、可讀性、準確性的特點。新聞概念有廣義與狹義之分。就其廣義而言,除了發(fā)表于報刊、廣播、電視上的評論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等。狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時地報道國內外新近發(fā)生的、有價值的的事實。新聞也分公眾新聞和小道新聞等。每則新聞在結構上,一般包括標題、導語、主體、背景和結語五部分。前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時兼有議論、描寫、評論等。 ''' fenci_text = jieba.cut(text) #print("/ ".join(fenci_text)) #第二步:去停用詞 #這里是有一個文件存放要改的文章,一個文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結果存放在一個文件中 stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ]) final = "" for word in fenci_text: if word not in stopwords: if (word != "。" and word != ",") : final = final + " " + word print(final) #第三步:提取關鍵詞 a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ()) print(a) #text 為待提取的文本 # topK:返回幾個 TF/IDF 權重最大的關鍵詞,默認值為20。 # withWeight:是否一并返回關鍵詞權重值,默認值為False。 # allowPOS:僅包括指定詞性的詞,默認值為空,即不進行篩選。
運行結果:
runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘') 新聞 消息 指 報紙 、 電臺 、 電視臺 、 互聯(lián)網(wǎng) 記錄 社會 、 傳播 信息 、 時代 一種 文體 真實性 、 時效性 、 簡潔性 、 可讀性 、 準確性 新聞 概念 廣義 狹義 之分 廣義 發(fā)表 報刊 、 廣播 、 電視 評論 專文 外 常用 文本 新聞 列 包括 消息 、 通訊 、 特寫 、 速寫 ( 速寫 納入 特寫 列 ) 狹義 新聞 專指 消息 消息 概括 敘述 方式 簡明扼要 文字 報道 國內外 新近 發(fā)生 、 價值 事實 新聞 分 公眾 新聞 小道 新聞 每則 新聞 在結構上 包括 標題 、 導語 、 主體 、 背景 結語 五 前 三者 二者 輔助 寫法 敘述 兼有 議論 、 描寫 、 評論 [('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]
好啦,是不是很簡單?
以上這篇python實現(xiàn)關鍵詞提取的示例講解就是小編分享給大家的全部內容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關文章
Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式
今天小編就為大家分享一篇Python查找不限層級Json數(shù)據(jù)中某個key或者value的路徑方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02peewee創(chuàng)建連接前的前置操作wireshark抓包實現(xiàn)
這篇文章主要為大家介紹了peewee創(chuàng)建連接前的前置操作wireshark?抓包實現(xiàn)示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2023-10-10Python標準模塊--ContextManager上下文管理器的具體用法
本篇文章主要介紹了Python標準模塊--ContextManager的具體用法,小編覺得挺不錯的,現(xiàn)在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-11-11python selenium實現(xiàn)發(fā)送帶附件的郵件代碼實例
這篇文章主要介紹了python selenium實現(xiàn)發(fā)送帶附件的郵件代碼實例,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下2019-12-12pandas實現(xiàn)數(shù)據(jù)讀取&清洗&分析的項目實踐
近期因工作需要,需對幾十萬條商品和訂單數(shù)據(jù)進行初步的數(shù)據(jù)分析,本文主要pandas實現(xiàn)數(shù)據(jù)讀取&清洗&分析的項目實踐,具有一定的參考價值,感興趣的可以了解一下2022-05-05