欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python基于textdistance實(shí)現(xiàn)計(jì)算文本相似度

 更新時(shí)間:2024年03月10日 09:27:23   作者:小龍?jiān)谏綎|  
textdistance是Python的第三方庫(kù),用于計(jì)算文本之間的相似度或距離,本文主要為大家詳細(xì)介紹了如何使用textdistance實(shí)現(xiàn)計(jì)算文本相似度,需要的可以了解下

textdistance是Python的第三方庫(kù),用于計(jì)算文本之間的相似度或距離。它提供了30+個(gè)算法,簡(jiǎn)單易用。

安裝

pip install textdistance

# 使用擴(kuò)展庫(kù),提高性能
pip install "textdistance[extras]"

使用

import textdistance

# 計(jì)算編輯距離
distance = textdistance.levenshtein.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("編輯距離:", distance)

# 計(jì)算余弦相似度
similarity = textdistance.cosine.similarity("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("余弦相似度:", similarity)

# 計(jì)算 Jaccard 系數(shù)
coefficient = textdistance.jaccard("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Jaccard 系數(shù):", coefficient)

# 計(jì)算 Hamming 距離
distance = textdistance.hamming.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡")
print("Hamming 距離:", distance)

結(jié)果:

編輯距離: 5
余弦相似度: 0.8040302522073697
Jaccard 系數(shù): 0.6666666666666666
Hamming 距離: 10

應(yīng)用場(chǎng)景

拼寫(xiě)檢查

在拼寫(xiě)檢查中,可以使用編輯距離等算法來(lái)比較單詞之間的相似度,從而找出可能的正確拼寫(xiě)。

import textdistance

# 拼寫(xiě)檢查
word = "發(fā)憤圖強(qiáng)"
possible_spellings = ["發(fā)奮圖強(qiáng)", "發(fā)奮圖", "發(fā)憤圖"]

for spelling in possible_spellings:
    distance = textdistance.levenshtein.distance(word, spelling)
    if distance <= 1:
        print("可能的正確拼寫(xiě):", spelling)

結(jié)果

可能的正確拼寫(xiě): 發(fā)奮圖強(qiáng)
可能的正確拼寫(xiě): 發(fā)憤圖

文檔相似度計(jì)算

在信息檢索和推薦系統(tǒng)中,經(jīng)常需要計(jì)算文檔之間的相似度,以便為用戶提供相關(guān)的信息或推薦內(nèi)容。

import textdistance

# 文檔相似度計(jì)算
doc1 = "Python is a programming language"
doc2 = "Python is used for web development"
doc3 = "Java is a programming language"

similarity1 = textdistance.cosine.similarity(doc1, doc2)
similarity2 = textdistance.cosine.similarity(doc1, doc3)

print("文檔1和文檔2的余弦相似度:", similarity1)
print("文檔1和文檔3的余弦相似度:", similarity2)

結(jié)果

文檔1和文檔2的余弦相似度: 0.6063390625908325
文檔1和文檔3的余弦相似度: 0.8391463916782737

數(shù)據(jù)清洗

在數(shù)據(jù)清洗過(guò)程中,可以使用 Hamming 距離等算法來(lái)比較數(shù)據(jù)條目之間的相似度,從而找出相似但不完全相同的數(shù)據(jù)。

import textdistance

# 數(shù)據(jù)清洗
data = ["配偶", "原配", "元配", "老婆", "夫人", "愛(ài)人"]

for i in range(len(data)):
    for j in range(i+1, len(data)):
        distance = textdistance.hamming.distance(data[i], data[j])
        if distance <= 1:
            print("相似但不完全相同的數(shù)據(jù):", data[i], data[j])

結(jié)果:

相似但不完全相同的數(shù)據(jù): 原配 元配
相似但不完全相同的數(shù)據(jù): 夫人 愛(ài)人

import textdistance

# 姓名匹配
name1 = "李建國(guó)"
name2 = "張建國(guó)"
name3 = "王愛(ài)國(guó)"

coefficient1 = textdistance.jaccard.normalized_similarity(name1, name2)
coefficient2 = textdistance.jaccard.normalized_similarity(name1, name3)

print("姓名1和姓名2的Jaccard系數(shù):", coefficient1)
print("姓名1和姓名3的Jaccard系數(shù):", coefficient2)

結(jié)果

姓名1和姓名2的Jaccard系數(shù): 0.5
姓名1和姓名3的Jaccard系數(shù): 0.19999999999999996

textdistance 提供了豐富多樣的文本比較算法和距離度量方法,可以滿足各種不同的文本比較需求。

相關(guān)鏈接

源碼

到此這篇關(guān)于Python基于textdistance實(shí)現(xiàn)計(jì)算文本相似度的文章就介紹到這了,更多相關(guān)Python textdistance計(jì)算文本相似度內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python常用內(nèi)置模塊你了解嗎

    python常用內(nèi)置模塊你了解嗎

    這篇文章主要為大家介紹了python的常用內(nèi)置模塊,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2022-01-01
  • python中cv2.imdecode()與cv2.imencode()的使用小結(jié)

    python中cv2.imdecode()與cv2.imencode()的使用小結(jié)

    本文介紹了cv2.imencode()和cv2.imdecode()函數(shù)的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2025-01-01
  • python3學(xué)習(xí)之Splash的安裝與實(shí)例教程

    python3學(xué)習(xí)之Splash的安裝與實(shí)例教程

    splash 是一個(gè)python語(yǔ)言編寫(xiě)的用于配合scrapy解析js的庫(kù),下面這篇文章主要給大家介紹了關(guān)于python3學(xué)習(xí)之Splash的安裝與使用的一些相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2018-07-07
  • Python+pandas計(jì)算數(shù)據(jù)相關(guān)系數(shù)的實(shí)例

    Python+pandas計(jì)算數(shù)據(jù)相關(guān)系數(shù)的實(shí)例

    今天小編就為大家分享一篇Python+pandas計(jì)算數(shù)據(jù)相關(guān)系數(shù)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2018-07-07
  • python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片

    python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片

    最近決定寫(xiě)個(gè)P站的爬蟲(chóng),實(shí)際操作起來(lái)確實(shí)遇到了些新問(wèn)題,通過(guò)解決也有所收獲,下面這篇文章主要給大家介紹了關(guān)于python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片的相關(guān)資料,需要的朋友可以參考下
    2022-07-07
  • python批量修改交換機(jī)密碼的示例

    python批量修改交換機(jī)密碼的示例

    這篇文章主要介紹了python批量修改交換機(jī)密碼的示例,幫助大家更好的理解和使用python,感興趣的朋友可以了解下
    2020-09-09
  • pycharm 如何縮進(jìn)和SQL亂碼及SQL包含變量

    pycharm 如何縮進(jìn)和SQL亂碼及SQL包含變量

    這篇文章主要介紹了pycharm 如何縮進(jìn)和SQL亂碼及SQL包含變量,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2022-07-07
  • MAC平臺(tái)基于Python Appium環(huán)境搭建過(guò)程圖解

    MAC平臺(tái)基于Python Appium環(huán)境搭建過(guò)程圖解

    這篇文章主要介紹了MAC平臺(tái)基于Python Appium環(huán)境搭建過(guò)程圖解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-08-08
  • 跟老齊學(xué)Python之有容乃大的list(1)

    跟老齊學(xué)Python之有容乃大的list(1)

    這一講中的list類型,也是python的一種數(shù)據(jù)類型。翻譯為:列表。LIST在python中具有非常強(qiáng)大的功能。
    2014-09-09
  • 淺析python 字典嵌套

    淺析python 字典嵌套

    這篇文章主要介紹了python 字典嵌套的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下
    2020-09-09

最新評(píng)論