Python 結(jié)巴分詞實現(xiàn)關(guān)鍵詞抽取分析
1 簡介
關(guān)鍵詞抽取就是從文本里面把跟這篇文檔意義最相關(guān)的一些詞抽取出來。這個可以追溯到文獻(xiàn)檢索初期,當(dāng)時還不支持全文搜索的時候,關(guān)鍵詞就可以作為搜索這篇論文的詞語。因此,目前依然可以在論文中看到關(guān)鍵詞這一項。
除了這些,關(guān)鍵詞還可以在文本聚類、分類、自動摘要等領(lǐng)域中有著重要的作用。比如在聚類時將關(guān)鍵詞相似的幾篇文檔看成一個團簇,可以大大提高聚類算法的收斂速度;從某天所有的新聞中提取出這些新聞的關(guān)鍵詞,就可以大致了解那天發(fā)生了什么事情;或者將某段時間內(nèi)幾個人的微博拼成一篇長文本,然后抽取關(guān)鍵詞就可以知道他們主要在討論什么話題。
總之,關(guān)鍵詞就是最能夠反映出文本主題或者意思的詞語。但是網(wǎng)絡(luò)上寫文章的人不會像寫論文那樣告訴你本文的關(guān)鍵詞是什么,這個時候就需要利用計算機自動抽取出關(guān)鍵詞,算法的好壞直接決定了后續(xù)步驟的效果。
關(guān)鍵詞抽取從方法來說大致有兩種:
- 第一種是關(guān)鍵詞分配,就是有一個給定的關(guān)鍵詞庫,然后新來一篇文檔,從詞庫里面找出幾個詞語作為這篇文檔的關(guān)鍵詞;
- 第二種是關(guān)鍵詞抽取,就是新來一篇文檔,從文檔中抽取一些詞語作為這篇文檔的關(guān)鍵詞;
目前大多數(shù)領(lǐng)域無關(guān)的關(guān)鍵詞抽取算法(領(lǐng)域無關(guān)算法的意思就是無論什么主題或者領(lǐng)域的文本都可以抽取關(guān)鍵詞的算法)和它對應(yīng)的庫都是基于后者的。從邏輯上說,后者比前著在實際使用中更有意義。
從算法的角度來看,關(guān)鍵詞抽取算法主要有兩類:
- 有監(jiān)督學(xué)習(xí)算法,將關(guān)鍵詞抽取過程視為二分類問題,先抽取出候選詞,然后對于每個候選詞劃定標(biāo)簽,要么是關(guān)鍵詞,要么不是關(guān)鍵詞,然后訓(xùn)練關(guān)鍵詞抽取分類器。當(dāng)新來一篇文檔時,抽取出所有的候選詞,然后利用訓(xùn)練好的關(guān)鍵詞抽取分類器,對各個候選詞進(jìn)行分類,最終將標(biāo)簽為關(guān)鍵詞的候選詞作為關(guān)鍵詞;
- 無監(jiān)督學(xué)習(xí)算法,先抽取出候選詞,然后對各個候選詞進(jìn)行打分,然后輸出topK個分值最高的候選詞作為關(guān)鍵詞。根據(jù)打分的策略不同,有不同的算法,例如TF-IDF,TextRank等算法;
jieba分詞系統(tǒng)中實現(xiàn)了兩種關(guān)鍵詞抽取算法,分別是基于TF-IDF關(guān)鍵詞抽取算法和基于TextRank關(guān)鍵詞抽取算法,兩類算法均是無監(jiān)督學(xué)習(xí)的算法,下面將會通過實例講解介紹如何使用jieba分詞的關(guān)鍵詞抽取接口以及通過源碼講解其實現(xiàn)的原理。
2 示例
下面將會依次介紹利用jieba分詞系統(tǒng)中的TF-IDF及TextRank接口抽取關(guān)鍵詞的過程。
2.1 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取
基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取的示例代碼如下所示,
from jieba import analyse # 引入TF-IDF關(guān)鍵詞抽取接口 tfidf = analyse.extract_tags # 原始文本 text = "線程是程序執(zhí)行時的最小單位,它是進(jìn)程的一個執(zhí)行流,\ 是CPU調(diào)度和分派的基本單位,一個進(jìn)程可以由很多個線程組成,\ 線程間共享進(jìn)程的所有資源,每個線程有自己的堆棧和局部變量。\ 線程由CPU獨立調(diào)度執(zhí)行,在多CPU環(huán)境下就允許多個線程同時運行。\ 同樣多線程也可以實現(xiàn)并發(fā)操作,每個請求分配一個線程來處理。" # 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取 keywords = tfidf(text) print "keywords by tfidf:" # 輸出抽取出的關(guān)鍵詞 for keyword in keywords: print keyword + "/",
控制臺輸出,
keywords by tfidf:
線程/ CPU/ 進(jìn)程/ 調(diào)度/ 多線程/ 程序執(zhí)行/ 每個/ 執(zhí)行/ 堆棧/ 局部變量/ 單位/ 并發(fā)/ 分派/ 一個/ 共享/ 請求/ 最小/ 可以/ 允許/ 分配/
2.2 基于TextRank算法進(jìn)行關(guān)鍵詞抽取
基于TextRank算法進(jìn)行關(guān)鍵詞抽取的示例代碼如下所示,
from jieba import analyse # 引入TextRank關(guān)鍵詞抽取接口 textrank = analyse.textrank # 原始文本 text = "線程是程序執(zhí)行時的最小單位,它是進(jìn)程的一個執(zhí)行流,\ 是CPU調(diào)度和分派的基本單位,一個進(jìn)程可以由很多個線程組成,\ 線程間共享進(jìn)程的所有資源,每個線程有自己的堆棧和局部變量。\ 線程由CPU獨立調(diào)度執(zhí)行,在多CPU環(huán)境下就允許多個線程同時運行。\ 同樣多線程也可以實現(xiàn)并發(fā)操作,每個請求分配一個線程來處理。" print "\nkeywords by textrank:" # 基于TextRank算法進(jìn)行關(guān)鍵詞抽取 keywords = textrank(text) # 輸出抽取出的關(guān)鍵詞 for keyword in keywords: print keyword + "/",
控制臺輸出,
keywords by textrank:
線程/ 進(jìn)程/ 調(diào)度/ 單位/ 操作/ 請求/ 分配/ 允許/ 基本/ 共享/ 并發(fā)/ 堆棧/ 獨立/ 執(zhí)行/ 分派/ 組成/ 資源/ 實現(xiàn)/ 運行/ 處理/
3 理論分析
下面將會依次分析TF-IDF算法及TextRank算法的原理。
3.1 TF-IDF算法分析
在信息檢索理論中,TF-IDF是Term Frequency - Inverse Document Frequency的簡寫。TF-IDF是一種數(shù)值統(tǒng)計,用于反映一個詞對于語料中某篇文檔的重要性。在信息檢索和文本挖掘領(lǐng)域,它經(jīng)常用于因子加權(quán)。
TF-IDF的主要思想就是:如果某個詞在一篇文檔中出現(xiàn)的頻率高,也即TF高;并且在語料庫中其他文檔中很少出現(xiàn),即DF的低,也即IDF高,則認(rèn)為這個詞具有很好的類別區(qū)分能力。
TF-IDF在實際中主要是將二者相乘,也即TF * IDF,TF為詞頻(Term Frequency),表示詞t在文檔d中出現(xiàn)的頻率;IDF為反文檔頻率(Inverse Document Frequency),表示語料庫中包含詞t的文檔的數(shù)目的倒數(shù)。
TF公式:
TF計算公式為,
式中,
count(t)表示文檔di中包含詞t的個數(shù);
count(di)表示文檔di的詞的總數(shù);
IDF公式:
IDF計算公式為,
式中,
num(corpus)表示語料庫corpus中文檔的總數(shù);
num(t)表示語料庫corpus中包含t的文檔的數(shù)目;
應(yīng)用到關(guān)鍵詞抽取:
1. 預(yù)處理,首先進(jìn)行分詞和詞性標(biāo)注,將滿足指定詞性的詞作為候選詞;
2. 分別計算每個詞的TF-IDF值;
3. 根據(jù)每個詞的TF-IDF值降序排列,并輸出指定個數(shù)的詞匯作為可能的關(guān)鍵詞;
3.2 TextRank算法分析
類似于PageRank的思想,將文本中的語法單元視作圖中的節(jié)點,如果兩個語法單元存在一定語法關(guān)系(例如共現(xiàn)),則這兩個語法單元在圖中就會有一條邊相互連接,通過一定的迭代次數(shù),最終不同的節(jié)點會有不同的權(quán)重,權(quán)重高的語法單元可以作為關(guān)鍵詞。
節(jié)點的權(quán)重不僅依賴于它的入度結(jié)點,還依賴于這些入度結(jié)點的權(quán)重,入度結(jié)點越多,入度結(jié)點的權(quán)重越大,說明這個結(jié)點的權(quán)重越高;
TextRank迭代計算公式為,
WS(Vi)=(1−d)+d∗∑Vj∈In(Vi)wji∑Vk∈Out(Vj)wjk∗WS(Vj)
節(jié)點i的權(quán)重取決于節(jié)點i的鄰居節(jié)點中i-j這條邊的權(quán)重 / j的所有出度的邊的權(quán)重 * 節(jié)點j的權(quán)重,將這些鄰居節(jié)點計算的權(quán)重相加,再乘上一定的阻尼系數(shù),就是節(jié)點i的權(quán)重;
阻尼系數(shù) d 一般取0.85;
算法通用流程:
1. 標(biāo)識文本單元,并將其作為頂點加入到圖中;
2. 標(biāo)識文本單元之間的關(guān)系,使用這些關(guān)系作為圖中頂點之間的邊,邊可以是有向或者無向,加權(quán)或者無權(quán);
3. 基于上述公式,迭代直至收斂;
4. 按照頂點的分?jǐn)?shù)降序排列;
- 本模型使用co-occurrence關(guān)系,如果兩個頂點相應(yīng)的語義單元共同出現(xiàn)在一個窗口中(窗口大小從2-10不等),那么就連接這兩個頂點;
- 添加頂點到圖中時,需要考慮語法過濾,例如只保留特定詞性(如形容詞和名詞)的詞;
應(yīng)用到關(guān)鍵短語抽?。?br />
1. 預(yù)處理,首先進(jìn)行分詞和詞性標(biāo)注,將單個word作為結(jié)點添加到圖中;
2. 設(shè)置語法過濾器,將通過語法過濾器的詞匯添加到圖中;出現(xiàn)在一個窗口中的詞匯之間相互形成一條邊;
3. 基于上述公式,迭代直至收斂;一般迭代20-30次,迭代閾值設(shè)置為0.0001;
4. 根據(jù)頂點的分?jǐn)?shù)降序排列,并輸出指定個數(shù)的詞匯作為可能的關(guān)鍵詞;
5. 后處理,如果兩個詞匯在文本中前后連接,那么就將這兩個詞匯連接在一起,作為關(guān)鍵短語;
4 源碼分析
jieba分詞的關(guān)鍵詞抽取功能,是在jieba/analyse目錄下實現(xiàn)的。
其中,__init__.py主要用于封裝jieba分詞的關(guān)鍵詞抽取接口;
tfidf.py實現(xiàn)了基于TF-IDF算法抽取關(guān)鍵詞;
textrank.py實現(xiàn)了基于TextRank算法抽取關(guān)鍵詞;
4.1 TF-IDF算法抽取關(guān)鍵詞源碼分析
基于TF-IDF算法抽取關(guān)鍵詞的主調(diào)函數(shù)是TFIDF.extract_tags函數(shù),主要是在jieba/analyse/tfidf.py中實現(xiàn)。
其中TFIDF是為TF-IDF算法抽取關(guān)鍵詞所定義的類。類在初始化時,默認(rèn)加載了分詞函數(shù)tokenizer = jieba.dt、詞性標(biāo)注函數(shù)postokenizer = jieba.posseg.dt、停用詞stop_words = self.STOP_WORDS.copy()、idf詞典idf_loader = IDFLoader(idf_path or DEFAULT_IDF)等,并獲取idf詞典及idf中值(如果某個詞沒有出現(xiàn)在idf詞典中,則將idf中值作為這個詞的idf值)。
def __init__(self, idf_path=None): # 加載 self.tokenizer = jieba.dt self.postokenizer = jieba.posseg.dt self.stop_words = self.STOP_WORDS.copy() self.idf_loader = IDFLoader(idf_path or DEFAULT_IDF) self.idf_freq, self.median_idf = self.idf_loader.get_idf()
然后開始通過TF-IDF算法進(jìn)行關(guān)鍵詞抽取。
首先根據(jù)是否傳入了詞性限制集合,來決定是調(diào)用詞性標(biāo)注接口還是調(diào)用分詞接口。例如,詞性限制集合為["ns", "n", "vn", "v", "nr"],表示只能從詞性為地名、名詞、動名詞、動詞、人名這些詞性的詞中抽取關(guān)鍵詞。
1) 如果傳入了詞性限制集合,首先調(diào)用詞性標(biāo)注接口,對輸入句子進(jìn)行詞性標(biāo)注,得到分詞及對應(yīng)的詞性;依次遍歷分詞結(jié)果,如果該詞的詞性不在詞性限制集合中,則跳過;如果詞的長度小于2,或者詞為停用詞,則跳過;最后將滿足條件的詞添加到詞頻詞典中,出現(xiàn)的次數(shù)加1;然后遍歷詞頻詞典,根據(jù)idf詞典得到每個詞的idf值,并除以詞頻詞典中的次數(shù)總和,得到每個詞的tf * idf值;如果設(shè)置了權(quán)重標(biāo)志位,則根據(jù)tf-idf值對詞頻詞典中的詞進(jìn)行降序排序,然后輸出topK個詞作為關(guān)鍵詞;
2) 如果沒有傳入詞性限制集合,首先調(diào)用分詞接口,對輸入句子進(jìn)行分詞,得到分詞;依次遍歷分詞結(jié)果,如果詞的長度小于2,或者詞為停用詞,則跳過;最后將滿足條件的詞添加到詞頻詞典中,出現(xiàn)的次數(shù)加1;然后遍歷詞頻詞典,根據(jù)idf詞典得到每個詞的idf值,并除以詞頻詞典中的次數(shù)總和,得到每個詞的tf * idf值;如果設(shè)置了權(quán)重標(biāo)志位,則根據(jù)tf-idf值對詞頻詞典中的詞進(jìn)行降序排序,然后輸出topK個詞作為關(guān)鍵詞;
def extract_tags(self, sentence, topK=20, withWeight=False, allowPOS=(), withFlag=False): # 傳入了詞性限制集合 if allowPOS: allowPOS = frozenset(allowPOS) # 調(diào)用詞性標(biāo)注接口 words = self.postokenizer.cut(sentence) # 沒有傳入詞性限制集合 else: # 調(diào)用分詞接口 words = self.tokenizer.cut(sentence) freq = {} for w in words: if allowPOS: if w.flag not in allowPOS: continue elif not withFlag: w = w.word wc = w.word if allowPOS and withFlag else w # 判斷詞的長度是否小于2,或者詞是否為停用詞 if len(wc.strip()) < 2 or wc.lower() in self.stop_words: continue # 將其添加到詞頻詞典中,次數(shù)加1 freq[w] = freq.get(w, 0.0) + 1.0 # 統(tǒng)計詞頻詞典中的總次數(shù) total = sum(freq.values()) for k in freq: kw = k.word if allowPOS and withFlag else k # 計算每個詞的tf-idf值 freq[k] *= self.idf_freq.get(kw, self.median_idf) / total # 根據(jù)tf-idf值進(jìn)行排序 if withWeight: tags = sorted(freq.items(), key=itemgetter(1), reverse=True) else: tags = sorted(freq, key=freq.__getitem__, reverse=True) # 輸出topK個詞作為關(guān)鍵詞 if topK: return tags[:topK] else: return tags
4.2 TextRank算法抽取關(guān)鍵詞源碼分析
基于TextRank算法抽取關(guān)鍵詞的主調(diào)函數(shù)是TextRank.textrank函數(shù),主要是在jieba/analyse/textrank.py中實現(xiàn)。
其中,TextRank是為TextRank算法抽取關(guān)鍵詞所定義的類。類在初始化時,默認(rèn)加載了分詞函數(shù)和詞性標(biāo)注函數(shù)tokenizer = postokenizer = jieba.posseg.dt、停用詞表stop_words = self.STOP_WORDS.copy()、詞性過濾集合pos_filt = frozenset(('ns', 'n', 'vn', 'v')),窗口span = 5,(("ns", "n", "vn", "v"))表示詞性為地名、名詞、動名詞、動詞。
首先定義一個無向有權(quán)圖,然后對句子進(jìn)行分詞;依次遍歷分詞結(jié)果,如果某個詞i滿足過濾條件(詞性在詞性過濾集合中,并且詞的長度大于等于2,并且詞不是停用詞),然后將這個詞之后窗口范圍內(nèi)的詞j(這些詞也需要滿足過濾條件),將它們兩兩(詞i和詞j)作為key,出現(xiàn)的次數(shù)作為value,添加到共現(xiàn)詞典中;
然后,依次遍歷共現(xiàn)詞典,將詞典中的每個元素,key = (詞i,詞j),value = 詞i和詞j出現(xiàn)的次數(shù),其中詞i,詞j作為一條邊起始點和終止點,共現(xiàn)的次數(shù)作為邊的權(quán)重,添加到之前定義的無向有權(quán)圖中。
然后對這個無向有權(quán)圖進(jìn)行迭代運算textrank算法,最終經(jīng)過若干次迭代后,算法收斂,每個詞都對應(yīng)一個指標(biāo)值;
如果設(shè)置了權(quán)重標(biāo)志位,則根據(jù)指標(biāo)值值對無向有權(quán)圖中的詞進(jìn)行降序排序,最后輸出topK個詞作為關(guān)鍵詞;
def textrank(self, sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'), withFlag=False): self.pos_filt = frozenset(allowPOS) # 定義無向有權(quán)圖 g = UndirectWeightedGraph() # 定義共現(xiàn)詞典 cm = defaultdict(int) # 分詞 words = tuple(self.tokenizer.cut(sentence)) # 依次遍歷每個詞 for i, wp in enumerate(words): # 詞i 滿足過濾條件 if self.pairfilter(wp): # 依次遍歷詞i 之后窗口范圍內(nèi)的詞 for j in xrange(i + 1, i + self.span): # 詞j 不能超出整個句子 if j >= len(words): break # 詞j不滿足過濾條件,則跳過 if not self.pairfilter(words[j]): continue # 將詞i和詞j作為key,出現(xiàn)的次數(shù)作為value,添加到共現(xiàn)詞典中 if allowPOS and withFlag: cm[(wp, words[j])] += 1 else: cm[(wp.word, words[j].word)] += 1 # 依次遍歷共現(xiàn)詞典的每個元素,將詞i,詞j作為一條邊起始點和終止點,共現(xiàn)的次數(shù)作為邊的權(quán)重 for terms, w in cm.items(): g.addEdge(terms[0], terms[1], w) # 運行textrank算法 nodes_rank = g.rank() # 根據(jù)指標(biāo)值進(jìn)行排序 if withWeight: tags = sorted(nodes_rank.items(), key=itemgetter(1), reverse=True) else: tags = sorted(nodes_rank, key=nodes_rank.__getitem__, reverse=True) # 輸出topK個詞作為關(guān)鍵詞 if topK: return tags[:topK] else: return tags
其中,無向有權(quán)圖的的定義及實現(xiàn)是在UndirectWeightedGraph類中實現(xiàn)的。根據(jù)UndirectWeightedGraph類的初始化函數(shù)__init__,我們可以發(fā)現(xiàn),所謂的無向有權(quán)圖就是一個詞典,詞典的key是后續(xù)要添加的詞,詞典的value,則是一個由(起始點,終止點,邊的權(quán)重)構(gòu)成的三元組所組成的列表,表示以這個詞作為起始點的所有的邊。
無向有權(quán)圖添加邊的操作是在addEdge函數(shù)中完成的,因為是無向圖,所以我們需要依次將start作為起始點,end作為終止點,然后再將start作為終止點,end作為起始點,這兩條邊的權(quán)重是相同的。
def addEdge(self, start, end, weight): # use a tuple (start, end, weight) instead of a Edge object self.graph[start].append((start, end, weight)) self.graph[end].append((end, start, weight))
執(zhí)行textrank算法迭代是在rank函數(shù)中完成的。
首先對每個結(jié)點賦予相同的權(quán)重,以及計算出該結(jié)點的所有出度的次數(shù)之和;
然后迭代若干次,以確保得到穩(wěn)定的結(jié)果;
在每一次迭代中,依次遍歷每個結(jié)點;對于結(jié)點n,首先根據(jù)無向有權(quán)圖得到結(jié)點n的所有入度結(jié)點(對于無向有權(quán)圖,入度結(jié)點與出度結(jié)點是相同的,都是與結(jié)點n相連的結(jié)點),在前面我們已經(jīng)計算出這個入度結(jié)點的所有出度的次數(shù),而它對于結(jié)點n的權(quán)值的貢獻(xiàn)等于它本身的權(quán)值 乘以 它與結(jié)點n的共現(xiàn)次數(shù) / 這個結(jié)點的所有出度的次數(shù) ,將各個入度結(jié)點得到的權(quán)值相加,再乘以一定的阻尼系數(shù),即可得到結(jié)點n的權(quán)值;
迭代完成后,對權(quán)值進(jìn)行歸一化,并返回各個結(jié)點及其對應(yīng)的權(quán)值。
def rank(self): ws = defaultdict(float) outSum = defaultdict(float) wsdef = 1.0 / (len(self.graph) or 1.0) # 初始化各個結(jié)點的權(quán)值 # 統(tǒng)計各個結(jié)點的出度的次數(shù)之和 for n, out in self.graph.items(): ws[n] = wsdef outSum[n] = sum((e[2] for e in out), 0.0) # this line for build stable iteration sorted_keys = sorted(self.graph.keys()) # 遍歷若干次 for x in xrange(10): # 10 iters # 遍歷各個結(jié)點 for n in sorted_keys: s = 0 # 遍歷結(jié)點的入度結(jié)點 for e in self.graph[n]: # 將這些入度結(jié)點貢獻(xiàn)后的權(quán)值相加 # 貢獻(xiàn)率 = 入度結(jié)點與結(jié)點n的共現(xiàn)次數(shù) / 入度結(jié)點的所有出度的次數(shù) s += e[2] / outSum[e[1]] * ws[e[1]] # 更新結(jié)點n的權(quán)值 ws[n] = (1 - self.d) + self.d * s (min_rank, max_rank) = (sys.float_info[0], sys.float_info[3]) # 獲取權(quán)值的最大值和最小值 for w in itervalues(ws): if w < min_rank: min_rank = w if w > max_rank: max_rank = w # 對權(quán)值進(jìn)行歸一化 for n, w in ws.items(): # to unify the weights, don't *100. ws[n] = (w - min_rank / 10.0) / (max_rank - min_rank / 10.0) return ws
4.3 使用自定義停用詞集合
jieba分詞中基于TF-IDF算法抽取關(guān)鍵詞以及基于TextRank算法抽取關(guān)鍵詞均需要利用停用詞對候選詞進(jìn)行過濾。實現(xiàn)TF-IDF算法抽取關(guān)鍵詞的類TFIDF和實現(xiàn)TextRank算法抽取關(guān)鍵詞的類TextRank都是類KeywordExtractor的子類。而在類KeywordExtractor,實現(xiàn)了一個方法,可以根據(jù)用戶指定的路徑,加載用戶提供的停用詞集合。
類KeywordExtractor是在jieba/analyse/tfidf.py中實現(xiàn)。
類KeywordExtractor首先提供了一個默認(rèn)的名為STOP_WORDS的停用詞集合。
然后,類KeywordExtractor實現(xiàn)了一個方法set_stop_words,可以根據(jù)用戶指定的路徑,加載用戶提供的停用詞集合。
可以將extra_dict/stop_words.txt拷貝出來,并在文件末尾兩行分別加入“一個”和“每個”這兩個詞,作為用戶提供的停用詞文件,使用用戶提供的停用詞集合進(jìn)行關(guān)鍵詞抽取的實例代碼如下,
from jieba import analyse # 引入TF-IDF關(guān)鍵詞抽取接口 tfidf = analyse.extract_tags # 使用自定義停用詞集合 analyse.set_stop_words("stop_words.txt") # 原始文本 text = "線程是程序執(zhí)行時的最小單位,它是進(jìn)程的一個執(zhí)行流,\ 是CPU調(diào)度和分派的基本單位,一個進(jìn)程可以由很多個線程組成,\ 線程間共享進(jìn)程的所有資源,每個線程有自己的堆棧和局部變量。\ 線程由CPU獨立調(diào)度執(zhí)行,在多CPU環(huán)境下就允許多個線程同時運行。\ 同樣多線程也可以實現(xiàn)并發(fā)操作,每個請求分配一個線程來處理。" # 基于TF-IDF算法進(jìn)行關(guān)鍵詞抽取 keywords = tfidf(text) print "keywords by tfidf:" # 輸出抽取出的關(guān)鍵詞 for keyword in keywords: print keyword + "/",
關(guān)鍵詞結(jié)果為,
keywords by tfidf:
線程/ CPU/ 進(jìn)程/ 調(diào)度/ 多線程/ 程序執(zhí)行/ 執(zhí)行/ 堆棧/ 局部變量/ 單位/ 并發(fā)/ 分派/ 共享/ 請求/ 最小/ 可以/ 允許/ 分配/ 多個/ 運行/
對比章節(jié)2.1中的關(guān)鍵詞抽取結(jié)果,可以發(fā)現(xiàn)“一個”和“每個”這兩個詞沒有抽取出來。
keywords by tfidf:
線程/ CPU/ 進(jìn)程/ 調(diào)度/ 多線程/ 程序執(zhí)行/ 每個/ 執(zhí)行/ 堆棧/ 局部變量/ 單位/ 并發(fā)/ 分派/ 一個/ 共享/ 請求/ 最小/ 可以/ 允許/ 分配/
實現(xiàn)原理 ,這里仍然以基于TF-IDF算法抽取關(guān)鍵詞為例。
前面已經(jīng)介紹了,jieba/analyse/__init__.py主要用于封裝jieba分詞的關(guān)鍵詞抽取接口,在__init__.py首先將類TFIDF實例化為對象default_tfidf,而類TFIDF在初始化時會設(shè)置停用詞表,我們知道類TFIDF是類KeywordExtractor的子類,而類KeywordExtractor中提供了一個名為STOP_WORDS的停用詞集合,因此類TFIDF在初始化時先將類KeywordExtractor中的STOP_WORDS拷貝過來,作為自己的停用詞集合stop_words。
# 實例化TFIDF類 default_tfidf = TFIDF() # 實例化TextRank類 default_textrank = TextRank() extract_tags = tfidf = default_tfidf.extract_tags set_idf_path = default_tfidf.set_idf_path textrank = default_textrank.extract_tags # 用戶設(shè)置停用詞集合接口 def set_stop_words(stop_words_path): # 更新對象default_tfidf中的停用詞集合 default_tfidf.set_stop_words(stop_words_path) # 更新對象default_textrank中的停用詞集合 default_textrank.set_stop_words(stop_words_path)
如果用戶需要使用自己提供的停用詞集合,則需要調(diào)用analyse.set_stop_words(stop_words_path)這個函數(shù),set_stop_words函數(shù)是在類KeywordExtractor實現(xiàn)的。set_stop_words函數(shù)執(zhí)行時,會更新對象default_tfidf中的停用詞集合stop_words,當(dāng)set_stop_words函數(shù)執(zhí)行完畢時,stop_words也就是更新后的停用詞集合。我們可以做個實驗,驗證在調(diào)用analyse.set_stop_words(stop_words_path)函數(shù)前后,停用詞集合是否發(fā)生改變。
from jieba import analyse import copy # 將STOP_WORDS集合深度拷貝出來 stopwords0 = copy.deepcopy(analyse.default_tfidf.STOP_WORDS) # 設(shè)置用戶自定停用詞集合之前,將停用詞集合深度拷貝出來 stopwords1 = copy.deepcopy(analyse.default_tfidf.stop_words) print stopwords0 == stopwords1 print stopwords1 - stopwords0 # 設(shè)置用戶自定停用詞集合 analyse.set_stop_words("stop_words.txt") # 設(shè)置用戶自定停用詞集合之后,將停用詞集合深度拷貝出來 stopwords2 = copy.deepcopy(analyse.default_tfidf.stop_words) print stopwords1 == stopwords2 print stopwords2 - stopwords1
結(jié)果如下所示,
True
set([])
False
set([u'\u6bcf\u4e2a', u'\u8207', u'\u4e86', u'\u4e00\u500b', u'\u800c', u'\u4ed6\u5011', u'\u6216', u'\u7684', u'\u4e00\u4e2a', u'\u662f', u'\u5c31', u'\u4f60\u5011', u'\u5979\u5011', u'\u6c92\u6709', u'\u57fa\u672c', u'\u59b3\u5011', u'\u53ca', u'\u548c', u'\u8457', u'\u6211\u5011', u'\u662f\u5426', u'\u90fd'])
說明:
- 沒有加載用戶提供的停用詞集合之前,停用詞集合就是類KeywordExtractor中的STOP_WORDS拷貝過來的;
- 加載用戶提供的停用詞集合之后,停用詞集合在原有的基礎(chǔ)上進(jìn)行了擴;
證明了我們的想法。
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Django自定義YamlField實現(xiàn)過程解析
這篇文章主要介紹了Django自定義YamlField實現(xiàn)過程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-11-11python 實現(xiàn)文件的遞歸拷貝實現(xiàn)代碼
今天翻電腦時突然發(fā)現(xiàn)有個存了很多照片和視頻的文件夾,想起來是去年換手機(流行的小5)時拷出來的。看了幾張照片,往事又一幕幕的浮現(xiàn)在腦海,好吧,我是個感性的人2012-08-08Python高級特性——詳解多維數(shù)組切片(Slice)
今天小編就為大家分享一篇Python高級特性——詳解多維數(shù)組切片(Slice),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-11-11python DataFrame轉(zhuǎn)dict字典過程詳解
這篇文章主要介紹了python DataFrame轉(zhuǎn)dict字典過程詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-12-12PyQt5+QtChart實現(xiàn)繪制區(qū)域圖
QChart是一個QGraphicScene中可以顯示的QGraphicsWidget。本文將利用QtChart實現(xiàn)區(qū)域圖的繪制,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-12-12在Python的Django框架中獲取單個對象數(shù)據(jù)的簡單方法
這篇文章主要介紹了在Python的Django框架中獲取單個對象數(shù)據(jù)的簡單方法,Django為數(shù)據(jù)的操作提供了諸多方便的功能,需要的朋友可以參考下2015-07-07Python實現(xiàn)批量將圖像png格式轉(zhuǎn)為npy格式
在進(jìn)行深度學(xué)習(xí)處理時,有些的代碼處理的數(shù)據(jù)格式為npy,但是常常有的數(shù)據(jù)格式為png,因此本文就來介紹一下Python如何實現(xiàn)圖像批量png格式轉(zhuǎn)為npy格式,需要的可以參考下2023-12-12Python random模塊(獲取隨機數(shù))常用方法和使用例子
這篇文章主要介紹了Python random模塊(獲取隨機數(shù))常用方法和使用例子,需要的朋友可以參考下2014-05-05