快捷導(dǎo)航

Python基于textdistance實(shí)現(xiàn)計(jì)算文本相似度

更新時(shí)間：2024年03月10日 09:27:23 作者：小龍?jiān)谏綎|

textdistance是Python的第三方庫(kù),用于計(jì)算文本之間的相似度或距離,本文主要為大家詳細(xì)介紹了如何使用textdistance實(shí)現(xiàn)計(jì)算文本相似度,需要的可以了解下

安裝

pip install textdistance

# 使用擴(kuò)展庫(kù)，提高性能
pip install "textdistance[extras]"

使用

import textdistance

# 計(jì)算編輯距離
distance = textdistance.levenshtein.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("編輯距離:", distance)

# 計(jì)算余弦相似度
similarity = textdistance.cosine.similarity("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("余弦相似度:", similarity)

# 計(jì)算 Jaccard 系數(shù)
coefficient = textdistance.jaccard("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Jaccard 系數(shù):", coefficient)

# 計(jì)算 Hamming 距離
distance = textdistance.hamming.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Hamming 距離:", distance)

結(jié)果：

編輯距離: 5
余弦相似度: 0.8040302522073697
Jaccard 系數(shù): 0.6666666666666666
Hamming 距離: 10

應(yīng)用場(chǎng)景

拼寫檢查

在拼寫檢查中，可以使用編輯距離等算法來(lái)比較單詞之間的相似度，從而找出可能的正確拼寫。

import textdistance

# 拼寫檢查
word = "發(fā)憤圖強(qiáng)"
possible_spellings = ["發(fā)奮圖強(qiáng)", "發(fā)奮圖", "發(fā)憤圖"]

for spelling in possible_spellings:
    distance = textdistance.levenshtein.distance(word, spelling)
    if distance <= 1:
        print("可能的正確拼寫:", spelling)

結(jié)果

可能的正確拼寫: 發(fā)奮圖強(qiáng)
可能的正確拼寫: 發(fā)憤圖

文檔相似度計(jì)算

在信息檢索和推薦系統(tǒng)中，經(jīng)常需要計(jì)算文檔之間的相似度，以便為用戶提供相關(guān)的信息或推薦內(nèi)容。

import textdistance

# 文檔相似度計(jì)算
doc1 = "Python is a programming language"
doc2 = "Python is used for web development"
doc3 = "Java is a programming language"

similarity1 = textdistance.cosine.similarity(doc1, doc2)
similarity2 = textdistance.cosine.similarity(doc1, doc3)

print("文檔1和文檔2的余弦相似度:", similarity1)
print("文檔1和文檔3的余弦相似度:", similarity2)

結(jié)果

文檔1和文檔2的余弦相似度: 0.6063390625908325
文檔1和文檔3的余弦相似度: 0.8391463916782737

數(shù)據(jù)清洗

在數(shù)據(jù)清洗過(guò)程中，可以使用 Hamming 距離等算法來(lái)比較數(shù)據(jù)條目之間的相似度，從而找出相似但不完全相同的數(shù)據(jù)。

import textdistance

# 數(shù)據(jù)清洗
data = ["配偶", "原配", "元配", "老婆", "夫人", "愛(ài)人"]

for i in range(len(data)):
    for j in range(i+1, len(data)):
        distance = textdistance.hamming.distance(data[i], data[j])
        if distance <= 1:
            print("相似但不完全相同的數(shù)據(jù):", data[i], data[j])

結(jié)果：

相似但不完全相同的數(shù)據(jù): 原配元配
相似但不完全相同的數(shù)據(jù): 夫人愛(ài)人

import textdistance

# 姓名匹配
name1 = "李建國(guó)"
name2 = "張建國(guó)"
name3 = "王愛(ài)國(guó)"

coefficient1 = textdistance.jaccard.normalized_similarity(name1, name2)
coefficient2 = textdistance.jaccard.normalized_similarity(name1, name3)

print("姓名1和姓名2的Jaccard系數(shù):", coefficient1)
print("姓名1和姓名3的Jaccard系數(shù):", coefficient2)

結(jié)果