腳本之家服務器常用軟件

快捷導航

Python機器學習NLP自然語言處理基本操作關鍵詞

更新時間：2021年09月21日 13:51:09 作者：我是小白呀

本文是Python機器學習NLP自然語言處理系列文章，帶大家開啟一段學習自然語言處理 (NLP) 的旅程. 本文主要學習NLP自然語言處理關鍵詞的操作

概述

從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運用人類的語言, 實現(xiàn)機器語言和人類語言之間的溝通橋梁.

在這里插入圖片描述

關鍵詞

關鍵詞 (keywords), 即關鍵詞語. 關鍵詞能描述文章的本質, 在文獻檢索, 自動文摘, 文本聚類 / 分類等方面有著重要的應用.

在這里插入圖片描述

關鍵詞抽取的方法

關鍵詞提取: 針對新文檔, 通過算法分析. 提取文檔中一些詞語作為該文檔的關鍵詞

關鍵詞分配: 給定已有的關鍵詞庫, 對于新來的文檔從該詞庫里面分配幾個詞語作為這篇文檔的關鍵詞

TF-IDF 關鍵詞提取

TF-IDF (Term Frequency-Inverse Document Frequency), 即詞頻-逆文件頻率是一種用于信息檢索與數(shù)據(jù)挖掘的常用加權技術. TF-IDF 可以幫助我們挖掘文章中的關鍵詞. 通過數(shù)值統(tǒng)計, 反映一個詞對于語料庫中某篇文章的重要性.

TF

TF (Term Frequency), 即詞頻. 表示詞在文本中出現(xiàn)的頻率.

公式:

在這里插入圖片描述

IDF

IDF (Inverse Document Frequency), 即逆文檔頻率. 表示語料庫中包含詞的文檔的數(shù)目的倒數(shù).

公式:

在這里插入圖片描述

TF-IDF

公式:

在這里插入圖片描述

TF-IDF = (詞的頻率 / 句子總字數(shù)) × (總文檔數(shù) / 包含該詞的文檔數(shù))

如果一個詞非常常見, 那么 IDF 就會很低, 反之就會很高. TF-IDF 可以幫助我們過濾常見詞語, 提取關鍵詞.

jieba TF-IDF 關鍵詞抽取

格式:

jieba.analyse.extract_tags(sentence, topK=20, withWeight=False, allowPOS=())

參數(shù):

sentence: 待提取的文本語料

topK: 返回的關鍵詞個數(shù), 默認為 20

withWeight: 是否需要返回關鍵詞權重, 默認為 False

allowPOS: 僅包括指定詞性的詞, 默認為空, 即不篩選

jieba 詞性

編號	詞性	描述
Ag	形語素	形容詞性語素。形容詞代碼為 a，語素代碼ｇ前面置以A。
a	形容詞	取英語形容詞 adjective的第1個字母。
ad	副形詞	直接作狀語的形容詞。形容詞代碼 a和副詞代碼d并在一起。
an	名形詞	具有名詞功能的形容詞。形容詞代碼 a和名詞代碼n并在一起。
b	區(qū)別詞	取漢字“別”的聲母。
c	連詞	取英語連詞 conjunction的第1個字母。
dg	副語素	副詞性語素。副詞代碼為 d，語素代碼ｇ前面置以D。
d	副詞	取 adverb的第2個字母，因其第1個字母已用于形容詞。
e	嘆詞	取英語嘆詞 exclamation的第1個字母。
f	方位詞	取漢字“方”
g	語素	絕大多數(shù)語素都能作為合成詞的“詞根”，取漢字“根”的聲母。
h	前接成分	取英語 head的第1個字母。
i	成語	取英語成語 idiom的第1個字母。
j	簡稱略語	取漢字“簡”的聲母。
k	后接成分
l	習用語	習用語尚未成為成語，有點“臨時性”，取“臨”的聲母。
m	數(shù)詞	取英語 numeral的第3個字母，n，u已有他用。
Ng	名語素	名詞性語素。名詞代碼為 n，語素代碼ｇ前面置以N。
n	名詞	取英語名詞 noun的第1個字母。
nr	人名	名詞代碼 n和“人(ren)”的聲母并在一起。
ns	地名	名詞代碼 n和處所詞代碼s并在一起。
nt	機構團體	“團”的聲母為 t，名詞代碼n和t并在一起。
nz	其他專名	“?！钡穆暷傅牡?1個字母為z，名詞代碼n和z并在一起。
o	擬聲詞	取英語擬聲詞 onomatopoeia的第1個字母。
p	介詞	取英語介詞 prepositional的第1個字母。
q	量詞	取英語 quantity的第1個字母。
r	代詞	取英語代詞 pronoun的第2個字母,因p已用于介詞。
s	處所詞	取英語 space的第1個字母。
tg	時語素	時間詞性語素。時間詞代碼為 t,在語素的代碼g前面置以T。
t	時間詞	取英語 time的第1個字母。
u	助詞	取英語助詞 auxiliary
vg	動語素	動詞性語素。動詞代碼為 v。在語素的代碼g前面置以V。
v	動詞	取英語動詞 verb的第一個字母。
vd	副動詞	直接作狀語的動詞。動詞和副詞的代碼并在一起。
vn	名動詞	指具有名詞功能的動詞。動詞和名詞的代碼并在一起。
w	標點符號
x	非語素字	非語素字只是一個符號，字母 x通常用于代表未知數(shù)、符號。
y	語氣詞	取漢字“語”的聲母。
z	狀態(tài)詞	取漢字“狀”的聲母的前一個字母。
un	未知詞

不帶關鍵詞權重

例子:

import jieba.analyse
# 定義文本
text = "自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。" \
       "它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。" \
       "自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。" \
       "因此，這一領域的研究將涉及自然語言，即人們?nèi)粘Ｊ褂玫恼Z言，" \
       "所以它與語言學的研究有著密切的聯(lián)系，但又有重要的區(qū)別。" \
       "自然語言處理并不是一般地研究自然語言，" \
       "而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng)，特別是其中的軟件系統(tǒng)。" \
       "因而它是計算機科學的一部分"
# 提取關鍵詞
keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=False)
# 調(diào)試輸出
print([i for i in keywords])

輸出結果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 0.890 seconds.
Prefix dict has been built successfully.
['自然語言', '計算機科學', '語言學', '研究', '領域', '處理', '通信', '有效', '軟件系統(tǒng)', '人工智能', '實現(xiàn)', '計算機系統(tǒng)', '重要', '一體', '一門', '日常', '計算機', '密切', '數(shù)學', '研制']

附帶關鍵詞權重

import jieba.analyse
# 定義文本
content = "自然語言處理是人工智能和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。"
# 定義文本
text = "自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。" \
       "它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。" \
       "自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。" \
       "因此，這一領域的研究將涉及自然語言，即人們?nèi)粘Ｊ褂玫恼Z言，" \
       "所以它與語言學的研究有著密切的聯(lián)系，但又有重要的區(qū)別。" \
       "自然語言處理并不是一般地研究自然語言，" \
       "而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng)，特別是其中的軟件系統(tǒng)。" \
       "因而它是計算機科學的一部分"
# 提取關鍵詞 (帶權重)
keywords = jieba.analyse.extract_tags(text, topK=20, withWeight=True)
# 調(diào)試輸出
print([i for i in keywords])

輸出結果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.110 seconds.
Prefix dict has been built successfully.
[('自然語言', 1.1237629576061539), ('計算機科學', 0.4503481350267692), ('語言學', 0.27566262244215384), ('研究', 0.2660770221507693), ('領域', 0.24979825580353845), ('處理', 0.24973179957046154), ('通信', 0.2043557391963077), ('有效', 0.16296019853692306), ('軟件系統(tǒng)', 0.16102600688461538), ('人工智能', 0.14550809839215384), ('實現(xiàn)', 0.14389939312584615), ('計算機系統(tǒng)', 0.1402028601413846), ('重要', 0.12347581087876922), ('一體', 0.11349408224353846), ('一門', 0.11300493477184616), ('日常', 0.10913612756276922), ('計算機', 0.1046889912443077), ('密切', 0.10181409957492307), ('數(shù)學', 0.10166677655076924), ('研制', 0.09868653898630769)]

TextRank

TextRank 通過詞之間的相鄰關系構建網(wǎng)絡，然后用PageRank 迭代計算每個節(jié)點的 rank 值. 排序 rank值即可得到關鍵詞.

import jieba.analyse
# 定義文本
content = "自然語言處理是人工智能和語言學領域的分支學科。此領域探討如何處理及運用自然語言；自然語言處理包括多方面和步驟，基本有認知、理解、生成等部分。"
# 定義文本
text = "自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。" \
       "它研究能實現(xiàn)人與計算機之間用自然語言進行有效通信的各種理論和方法。" \
       "自然語言處理是一門融語言學、計算機科學、數(shù)學于一體的科學。" \
       "因此，這一領域的研究將涉及自然語言，即人們?nèi)粘Ｊ褂玫恼Z言，" \
       "所以它與語言學的研究有著密切的聯(lián)系，但又有重要的區(qū)別。" \
       "自然語言處理并不是一般地研究自然語言，" \
       "而在于研制能有效地實現(xiàn)自然語言通信的計算機系統(tǒng)，特別是其中的軟件系統(tǒng)。" \
       "因而它是計算機科學的一部分"
# TextRank提取關鍵詞
keywords = jieba.analyse.textrank(text, topK=20, withWeight=False)
# 調(diào)試輸出
print([i for i in keywords])

調(diào)試輸出:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
['研究', '領域', '計算機科學', '實現(xiàn)', '處理', '語言學', '數(shù)學', '人們', '計算機', '涉及', '有著', '一體', '方法', '語言', '研制', '使用', '人工智能', '在于', '聯(lián)系', '科學']
Loading model cost 1.062 seconds.
Prefix dict has been built successfully.

在這里插入圖片描述