python實(shí)現(xiàn)關(guān)鍵詞提取的示例講解
新人小菜鳥又來寫博客啦?。。]人表示不開心~~(>_<)~~
今天我來弄一個(gè)簡單的關(guān)鍵詞提取的代碼
文章內(nèi)容關(guān)鍵詞的提取分為三大步:
(1) 分詞
(2) 去停用詞
(3) 關(guān)鍵詞提取
分詞方法有很多,我這里就選擇常用的結(jié)巴jieba分詞;去停用詞,我用了一個(gè)停用詞表。
具體代碼如下:
import jieba import jieba.analyse #第一步:分詞,這里使用結(jié)巴分詞全模式 text = '''新聞,也叫消息,是指報(bào)紙、電臺(tái)、電視臺(tái)、互聯(lián)網(wǎng)經(jīng)常使用的記錄社會(huì)、傳播信息、反映時(shí)代的一種文體,具有真實(shí)性、時(shí)效性、簡潔性、可讀性、準(zhǔn)確性的特點(diǎn)。新聞概念有廣義與狹義之分。就其廣義而言,除了發(fā)表于報(bào)刊、廣播、電視上的評(píng)論與專文外的常用文本都屬于新聞之列,包括消息、通訊、特寫、速寫(有的將速寫納入特寫之列)等等。狹義的新聞則專指消息,消息是用概括的敘述方式,比較簡明扼要的文字,迅速及時(shí)地報(bào)道國內(nèi)外新近發(fā)生的、有價(jià)值的的事實(shí)。新聞也分公眾新聞和小道新聞等。每則新聞在結(jié)構(gòu)上,一般包括標(biāo)題、導(dǎo)語、主體、背景和結(jié)語五部分。前三者是主要部分,后二者是輔助部分。寫法上主要是敘述,有時(shí)兼有議論、描寫、評(píng)論等。 ''' fenci_text = jieba.cut(text) #print("/ ".join(fenci_text)) #第二步:去停用詞 #這里是有一個(gè)文件存放要改的文章,一個(gè)文件存放停用表,然后和停用表里的詞比較,一樣的就刪掉,最后把結(jié)果存放在一個(gè)文件中 stopwords = {}.fromkeys([ line.rstrip() for line in open('stopwords.txt') ]) final = "" for word in fenci_text: if word not in stopwords: if (word != "。" and word != ",") : final = final + " " + word print(final) #第三步:提取關(guān)鍵詞 a=jieba.analyse.extract_tags(text, topK = 5, withWeight = True, allowPOS = ()) print(a) #text 為待提取的文本 # topK:返回幾個(gè) TF/IDF 權(quán)重最大的關(guān)鍵詞,默認(rèn)值為20。 # withWeight:是否一并返回關(guān)鍵詞權(quán)重值,默認(rèn)值為False。 # allowPOS:僅包括指定詞性的詞,默認(rèn)值為空,即不進(jìn)行篩選。
運(yùn)行結(jié)果:
runfile('D:/Data/文本挖掘/xiaojieba.py', wdir='D:/Data/文本挖掘') 新聞 消息 指 報(bào)紙 、 電臺(tái) 、 電視臺(tái) 、 互聯(lián)網(wǎng) 記錄 社會(huì) 、 傳播 信息 、 時(shí)代 一種 文體 真實(shí)性 、 時(shí)效性 、 簡潔性 、 可讀性 、 準(zhǔn)確性 新聞 概念 廣義 狹義 之分 廣義 發(fā)表 報(bào)刊 、 廣播 、 電視 評(píng)論 專文 外 常用 文本 新聞 列 包括 消息 、 通訊 、 特寫 、 速寫 ( 速寫 納入 特寫 列 ) 狹義 新聞 專指 消息 消息 概括 敘述 方式 簡明扼要 文字 報(bào)道 國內(nèi)外 新近 發(fā)生 、 價(jià)值 事實(shí) 新聞 分 公眾 新聞 小道 新聞 每則 新聞 在結(jié)構(gòu)上 包括 標(biāo)題 、 導(dǎo)語 、 主體 、 背景 結(jié)語 五 前 三者 二者 輔助 寫法 敘述 兼有 議論 、 描寫 、 評(píng)論 [('新聞', 0.4804811569680808), ('速寫', 0.2121107125313131), ('消息', 0.20363211136040404), ('特寫', 0.20023623445272729), ('狹義', 0.16168734917858588)]
好啦,是不是很簡單?
以上這篇python實(shí)現(xiàn)關(guān)鍵詞提取的示例講解就是小編分享給大家的全部內(nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python比較文件夾比另一同名文件夾多出的文件并復(fù)制出來的方法
這篇文章主要介紹了Python比較文件夾比另一同名文件夾多出的文件并復(fù)制出來的方法,涉及Python針對(duì)文件與文件夾的操作技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下2015-03-03python實(shí)現(xiàn)自動(dòng)清理文件夾舊文件
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)自動(dòng)清理文件夾舊文件,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-05-05python實(shí)現(xiàn)二次元圖片展示(屏保)
這篇文章主要介紹了python實(shí)現(xiàn)二次元圖片展示,用了API端口相關(guān)的知識(shí)實(shí)現(xiàn),下面詳細(xì)的文章內(nèi)容需要的小伙伴可以參考一下2022-02-02基于Django實(shí)現(xiàn)日志記錄報(bào)錯(cuò)信息
這篇文章主要介紹了基于Django實(shí)現(xiàn)日志記錄報(bào)錯(cuò)信息,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-12-12Python報(bào)錯(cuò)TypeError: tuple indices must be
在Python編程過程中,我們經(jīng)常會(huì)遇到各種各樣的報(bào)錯(cuò)信息,其中,“TypeError: tuple indices must be integers or slices, not str”這個(gè)報(bào)錯(cuò),對(duì)于很多開發(fā)者來說,可能既熟悉又陌生,今天,我們就來深入探討一下這個(gè)報(bào)錯(cuò),看看它是如何產(chǎn)生的,以及如何快速有效地解決它2025-01-01python 統(tǒng)計(jì)代碼行數(shù)簡單實(shí)例
這篇文章主要介紹了python 統(tǒng)計(jì)代碼行數(shù)簡單實(shí)例的相關(guān)資料,需要的朋友可以參考下2017-05-05Python 數(shù)據(jù)結(jié)構(gòu)之十大經(jīng)典排序算法一文通關(guān)
排序算法可以分為內(nèi)部排序和外部排序,內(nèi)部排序是數(shù)據(jù)記錄在內(nèi)存中進(jìn)行排序,而外部排序是因排序的數(shù)據(jù)很大,一次不能容納全部的排序記錄,在排序過程中需要訪問外存2021-10-10