欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python基于textdistance實現(xiàn)計算文本相似度

 更新時間:2024年03月10日 09:27:23   作者:小龍在山東  
textdistance是Python的第三方庫,用于計算文本之間的相似度或距離,本文主要為大家詳細介紹了如何使用textdistance實現(xiàn)計算文本相似度,需要的可以了解下

textdistance是Python的第三方庫,用于計算文本之間的相似度或距離。它提供了30+個算法,簡單易用。

安裝

pip install textdistance

# 使用擴展庫,提高性能
pip install "textdistance[extras]"

使用

import textdistance

# 計算編輯距離
distance = textdistance.levenshtein.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("編輯距離:", distance)

# 計算余弦相似度
similarity = textdistance.cosine.similarity("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("余弦相似度:", similarity)

# 計算 Jaccard 系數(shù)
coefficient = textdistance.jaccard("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Jaccard 系數(shù):", coefficient)

# 計算 Hamming 距離
distance = textdistance.hamming.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Hamming 距離:", distance)

結(jié)果:

編輯距離: 5
余弦相似度: 0.8040302522073697
Jaccard 系數(shù): 0.6666666666666666
Hamming 距離: 10

應用場景

拼寫檢查

在拼寫檢查中,可以使用編輯距離等算法來比較單詞之間的相似度,從而找出可能的正確拼寫。

import textdistance

# 拼寫檢查
word = "發(fā)憤圖強"
possible_spellings = ["發(fā)奮圖強", "發(fā)奮圖", "發(fā)憤圖"]

for spelling in possible_spellings:
    distance = textdistance.levenshtein.distance(word, spelling)
    if distance <= 1:
        print("可能的正確拼寫:", spelling)

結(jié)果

可能的正確拼寫: 發(fā)奮圖強
可能的正確拼寫: 發(fā)憤圖

文檔相似度計算

在信息檢索和推薦系統(tǒng)中,經(jīng)常需要計算文檔之間的相似度,以便為用戶提供相關(guān)的信息或推薦內(nèi)容。

import textdistance

# 文檔相似度計算
doc1 = "Python is a programming language"
doc2 = "Python is used for web development"
doc3 = "Java is a programming language"

similarity1 = textdistance.cosine.similarity(doc1, doc2)
similarity2 = textdistance.cosine.similarity(doc1, doc3)

print("文檔1和文檔2的余弦相似度:", similarity1)
print("文檔1和文檔3的余弦相似度:", similarity2)

結(jié)果

文檔1和文檔2的余弦相似度: 0.6063390625908325
文檔1和文檔3的余弦相似度: 0.8391463916782737

數(shù)據(jù)清洗

在數(shù)據(jù)清洗過程中,可以使用 Hamming 距離等算法來比較數(shù)據(jù)條目之間的相似度,從而找出相似但不完全相同的數(shù)據(jù)。

import textdistance

# 數(shù)據(jù)清洗
data = ["配偶", "原配", "元配", "老婆", "夫人", "愛人"]

for i in range(len(data)):
    for j in range(i+1, len(data)):
        distance = textdistance.hamming.distance(data[i], data[j])
        if distance <= 1:
            print("相似但不完全相同的數(shù)據(jù):", data[i], data[j])

結(jié)果:

相似但不完全相同的數(shù)據(jù): 原配 元配
相似但不完全相同的數(shù)據(jù): 夫人 愛人

import textdistance

# 姓名匹配
name1 = "李建國"
name2 = "張建國"
name3 = "王愛國"

coefficient1 = textdistance.jaccard.normalized_similarity(name1, name2)
coefficient2 = textdistance.jaccard.normalized_similarity(name1, name3)

print("姓名1和姓名2的Jaccard系數(shù):", coefficient1)
print("姓名1和姓名3的Jaccard系數(shù):", coefficient2)

結(jié)果

姓名1和姓名2的Jaccard系數(shù): 0.5
姓名1和姓名3的Jaccard系數(shù): 0.19999999999999996

textdistance 提供了豐富多樣的文本比較算法和距離度量方法,可以滿足各種不同的文本比較需求。

相關(guān)鏈接

源碼

到此這篇關(guān)于Python基于textdistance實現(xiàn)計算文本相似度的文章就介紹到這了,更多相關(guān)Python textdistance計算文本相似度內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python常用內(nèi)置模塊你了解嗎

    python常用內(nèi)置模塊你了解嗎

    這篇文章主要為大家介紹了python的常用內(nèi)置模塊,具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助
    2022-01-01
  • python中cv2.imdecode()與cv2.imencode()的使用小結(jié)

    python中cv2.imdecode()與cv2.imencode()的使用小結(jié)

    本文介紹了cv2.imencode()和cv2.imdecode()函數(shù)的使用,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2025-01-01
  • python3學習之Splash的安裝與實例教程

    python3學習之Splash的安裝與實例教程

    splash 是一個python語言編寫的用于配合scrapy解析js的庫,下面這篇文章主要給大家介紹了關(guān)于python3學習之Splash的安裝與使用的一些相關(guān)資料,文中通過示例代碼介紹的非常詳細,需要的朋友可以參考下
    2018-07-07
  • Python+pandas計算數(shù)據(jù)相關(guān)系數(shù)的實例

    Python+pandas計算數(shù)據(jù)相關(guān)系數(shù)的實例

    今天小編就為大家分享一篇Python+pandas計算數(shù)據(jù)相關(guān)系數(shù)的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-07-07
  • python爬蟲實戰(zhàn)項目之爬取pixiv圖片

    python爬蟲實戰(zhàn)項目之爬取pixiv圖片

    最近決定寫個P站的爬蟲,實際操作起來確實遇到了些新問題,通過解決也有所收獲,下面這篇文章主要給大家介紹了關(guān)于python爬蟲實戰(zhàn)項目之爬取pixiv圖片的相關(guān)資料,需要的朋友可以參考下
    2022-07-07
  • python批量修改交換機密碼的示例

    python批量修改交換機密碼的示例

    這篇文章主要介紹了python批量修改交換機密碼的示例,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • pycharm 如何縮進和SQL亂碼及SQL包含變量

    pycharm 如何縮進和SQL亂碼及SQL包含變量

    這篇文章主要介紹了pycharm 如何縮進和SQL亂碼及SQL包含變量,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2022-07-07
  • MAC平臺基于Python Appium環(huán)境搭建過程圖解

    MAC平臺基于Python Appium環(huán)境搭建過程圖解

    這篇文章主要介紹了MAC平臺基于Python Appium環(huán)境搭建過程圖解,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-08-08
  • 跟老齊學Python之有容乃大的list(1)

    跟老齊學Python之有容乃大的list(1)

    這一講中的list類型,也是python的一種數(shù)據(jù)類型。翻譯為:列表。LIST在python中具有非常強大的功能。
    2014-09-09
  • 淺析python 字典嵌套

    淺析python 字典嵌套

    這篇文章主要介紹了python 字典嵌套的相關(guān)資料,幫助大家更好的理解和學習python,感興趣的朋友可以了解下
    2020-09-09

最新評論