快捷導(dǎo)航

結(jié)合Python工具使用TfidfVectorizer進(jìn)行文本特征提取方式

更新時間：2024年10月07日 09:22:08 作者：超哥同學(xué)

在自然語言處理中,TF-IDF是一種重要的特征提取方法,本文介紹了如何使用Python的sklearn庫中的TfidfVectorizer進(jìn)行文本特征提取,首先,需要安裝sklearn庫,TfidfVectorizer能將文本文檔集合轉(zhuǎn)換為TF-IDF特征矩陣

如何使用Python的TfidfVectorizer進(jìn)行文本特征提取

在自然語言處理（NLP）中，特征提取是將原始文本數(shù)據(jù)轉(zhuǎn)換為可以被機器學(xué)習(xí)算法處理的數(shù)值型特征的過程。

TF-IDF（Term Frequency-Inverse Document Frequency）是一種廣泛使用的特征提取方法，它能夠反映詞語在文檔集合中的重要性。

在Python中，我們可以使用sklearn庫中的TfidfVectorizer來實現(xiàn)TF-IDF特征提取。

本文將介紹如何使用TfidfVectorizer進(jìn)行文本特征提取。

安裝`sklearn`

如果你還沒有安裝sklearn庫，可以通過以下命令進(jìn)行安裝：

pip install scikit-learn

基本使用

TfidfVectorizer是sklearn.feature_extraction.text模塊中的一個類，它可以將文本文檔集合轉(zhuǎn)換為TF-IDF特征矩陣。

示例代碼

from sklearn.feature_extraction.text import TfidfVectorizer

# 定義一組文檔
documents = [
    "I have a pen",
    "I have an apple",
    "Apple pen, Apple pen",
    "Pen Pineapple, Apple Pen"
]

# 創(chuàng)建TfidfVectorizer對象
tfidf_vectorizer = TfidfVectorizer()

# 訓(xùn)練TfidfVectorizer對象，并將文檔轉(zhuǎn)換為TF-IDF特征矩陣
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# 查看特征詞匯
print(tfidf_vectorizer.get_feature_names_out())

# 查看TF-IDF矩陣
print(tfidf_matrix.toarray())

參數(shù)詳解

TfidfVectorizer有許多參數(shù)可以定制，以下是一些常用的參數(shù)：

stop_words: 停用詞集合，用于過濾掉無意義的常見詞。
max_df: 過濾掉在超過指定比例的文檔中出現(xiàn)的詞匯。
min_df: 過濾掉在少于指定比例的文檔中出現(xiàn)的詞匯。
ngram_range: 設(shè)定詞匯的n-gram范圍，例如(1, 2)表示提取單字和雙字詞組。
token_pattern: 用于分詞的正則表達(dá)式。

示例：使用參數(shù)

# 定義一組文檔
documents = [
    "I have a pen",
    "I have an apple",
    "Apple pen, Apple pen",
    "Pen Pineapple, Apple Pen"
]

# 創(chuàng)建TfidfVectorizer對象，并設(shè)置參數(shù)
tfidf_vectorizer = TfidfVectorizer(stop_words='english', max_df=0.5, min_df=2, ngram_range=(1, 2))

# 訓(xùn)練TfidfVectorizer對象，并將文檔轉(zhuǎn)換為TF-IDF特征矩陣
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# 查看特征詞匯
print(tfidf_vectorizer.get_feature_names_out())

# 查看TF-IDF矩陣
print(tfidf_matrix.toarray())