快捷導(dǎo)航

TF-IDF的算法原理以及Python實(shí)現(xiàn)過程

更新時(shí)間：2024年06月13日 15:35:58 作者：辰陽星宇

這篇文章主要介紹了TF-IDF的算法原理以及Python實(shí)現(xiàn)過程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

算法原理

TF-IDF（Term Frequency-Inverse Document Frequency）是詞頻-逆文檔頻率，主要實(shí)現(xiàn)在一個(gè)文章集中找到每篇文章的關(guān)鍵字（也就是文章中哪些詞匯是最重要的）。

主要從兩個(gè)方面考慮，一篇文章中各個(gè)詞語的出現(xiàn)頻率。另一個(gè)是該詞語在幾篇文章中出現(xiàn)。

1、TF(Term Frequency) 詞頻

首先，解釋第一個(gè)方面，一篇文章中各個(gè)詞語出現(xiàn)的頻率。

從直觀上來說，如果一篇文章中某些詞語出現(xiàn)頻率很高（除了“的、是、你”等助詞等），那么從這一角度來說，可以認(rèn)為該詞是這篇文章的關(guān)鍵詞。

使用數(shù)學(xué)公式表達(dá)就是

在某篇文章中該詞出現(xiàn)較多，則TF值較大。該詞在文章中出現(xiàn)較少，則TF值較小。注意要停用一些“的”、“是”、“你”、“我”…助詞、人稱代詞等等。

2、IDF（Inverse Document Frequency）逆文件頻率

然后，解釋第二個(gè)方面，該詞在哪幾篇文章中出現(xiàn)過。在一個(gè)文章集中，我們的目標(biāo)是找到每篇文章的特有的關(guān)鍵詞，可以反映出該文章獨(dú)有特點(diǎn)，即找到差異化且可有代表性的詞。那么這個(gè)詞通常情況下，并不會(huì)在其余文章中經(jīng)常出現(xiàn)，否則對(duì)區(qū)分文章關(guān)鍵信息的作用就會(huì)較小。因此，我們這一方面就是找到本篇文章中的詞語，很少出現(xiàn)在其余文章中。

使用數(shù)學(xué)公式表達(dá)就是

采用逆文檔頻率，該詞在文檔中沒有怎么出現(xiàn)，則IDF值會(huì)較大。如果該詞在其余文檔出現(xiàn)較多，則IDF值會(huì)較小。

最后相乘就會(huì)得到，一篇文章中每個(gè)詞的TF-IDF的值，值越大，則可認(rèn)為重要程度越高，可作為文章的關(guān)鍵詞。

Python實(shí)現(xiàn)

在這里主要使用jieba來實(shí)現(xiàn)中文分詞，Counter來進(jìn)行計(jì)數(shù)統(tǒng)計(jì)

# -*- coding: utf-8 -*-

import math
import jieba
from collections import Counter
from collections import defaultdict


def TFIDF(dataset):
    # 統(tǒng)計(jì)每個(gè)文章中每個(gè)詞語的tf
    j = 0
    doc_len = len(dataset)
    cntr = [0] * doc_len          # Counter每個(gè)文章
    total = [0] * doc_len          # 獲取每個(gè)文章中各自的詞語總數(shù)
    word_tf = [0] * doc_len          # 獲取每個(gè)文章中每個(gè)詞語的tf
    for sent in dataset:
        iters = jieba.cut(sent)
        cntr[j] = Counter(iters)    
        total[j] = sum(cntr[j].values())    
        word_tf[j] = defaultdict(int)
        for i in cntr[j].keys():        
            word_tf[j][i] = cntr[j][i] / total[j]
        j += 1
    
    
    # 構(gòu)建詞匯表和總詞頻
    word_cnt = defaultdict(int)
    for word_list in word_tf:
        for word in word_list:
            word_cnt[word] += 1
    
    # 統(tǒng)計(jì)詞匯在文檔中的頻率
    doc_tf = defaultdict(int)
    for word in word_cnt:
        for article in dataset:
            if word in article:
                doc_tf[word] += 1
    
    # 構(gòu)建詞匯的idf
    word_idf = {}
    for word in doc_tf:
        word_idf[word] = math.log(doc_len / (doc_tf[word] + 1))
        
    # 構(gòu)建每篇文章中詞的tf-idf     
    t = 0    
    word_tf_idf = [0] * doc_len        
    for article in word_tf:
        word_tf_idf[t] = defaultdict(int)
        for word in article:
            word_tf_idf[t][word] = article[word] * word_idf[word]            
        t += 1
    
    # 對(duì)每篇文章每個(gè)詞的tf-idf進(jìn)行由大到小排序
    t = 0
    for i in word_tf_idf:
        for j in i:  
            word_tf[t] = dict(sorted(word_tf[t].items(), key=lambda x:x[1], reverse=True))
            word_tf_idf[t] = dict(sorted(word_tf_idf[t].items(), key=lambda x:x[1], reverse=True))        
        t += 1
            
    return word_tf_idf, word_tf
    
    

if __name__ == '__main__':

    dataset = ["中國的北京是中國的首都","那里有一句話叫做“北京歡迎您”,北京啊北京",
               "北京歡迎您！相信夢想，夢，相信有夢就會(huì)有奇跡"]    
    word_tf_idf,word_tf = TFIDF(dataset)
    
    print("=============tf-idf=============")
    for i in word_tf_idf:
        print(i)
    print("=============tf=============")
    for i in word_tf:
        print(i)

注：代碼主要目的是實(shí)現(xiàn)TF-IDF，對(duì)標(biāo)點(diǎn)符號(hào)等沒有進(jìn)行停用處理。