Python基于textdistance實(shí)現(xiàn)計(jì)算文本相似度
textdistance是Python的第三方庫(kù),用于計(jì)算文本之間的相似度或距離。它提供了30+個(gè)算法,簡(jiǎn)單易用。
安裝
pip install textdistance # 使用擴(kuò)展庫(kù),提高性能 pip install "textdistance[extras]"
使用
import textdistance # 計(jì)算編輯距離 distance = textdistance.levenshtein.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡") print("編輯距離:", distance) # 計(jì)算余弦相似度 similarity = textdistance.cosine.similarity("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡") print("余弦相似度:", similarity) # 計(jì)算 Jaccard 系數(shù) coefficient = textdistance.jaccard("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡") print("Jaccard 系數(shù):", coefficient) # 計(jì)算 Hamming 距離 distance = textdistance.hamming.distance("如何更換花唄綁定銀行卡", "花唄更改綁定銀行卡") print("Hamming 距離:", distance)
結(jié)果:
編輯距離: 5
余弦相似度: 0.8040302522073697
Jaccard 系數(shù): 0.6666666666666666
Hamming 距離: 10
應(yīng)用場(chǎng)景
拼寫(xiě)檢查
在拼寫(xiě)檢查中,可以使用編輯距離等算法來(lái)比較單詞之間的相似度,從而找出可能的正確拼寫(xiě)。
import textdistance # 拼寫(xiě)檢查 word = "發(fā)憤圖強(qiáng)" possible_spellings = ["發(fā)奮圖強(qiáng)", "發(fā)奮圖", "發(fā)憤圖"] for spelling in possible_spellings: distance = textdistance.levenshtein.distance(word, spelling) if distance <= 1: print("可能的正確拼寫(xiě):", spelling)
結(jié)果
可能的正確拼寫(xiě): 發(fā)奮圖強(qiáng)
可能的正確拼寫(xiě): 發(fā)憤圖
文檔相似度計(jì)算
在信息檢索和推薦系統(tǒng)中,經(jīng)常需要計(jì)算文檔之間的相似度,以便為用戶提供相關(guān)的信息或推薦內(nèi)容。
import textdistance # 文檔相似度計(jì)算 doc1 = "Python is a programming language" doc2 = "Python is used for web development" doc3 = "Java is a programming language" similarity1 = textdistance.cosine.similarity(doc1, doc2) similarity2 = textdistance.cosine.similarity(doc1, doc3) print("文檔1和文檔2的余弦相似度:", similarity1) print("文檔1和文檔3的余弦相似度:", similarity2)
結(jié)果
文檔1和文檔2的余弦相似度: 0.6063390625908325
文檔1和文檔3的余弦相似度: 0.8391463916782737
數(shù)據(jù)清洗
在數(shù)據(jù)清洗過(guò)程中,可以使用 Hamming 距離等算法來(lái)比較數(shù)據(jù)條目之間的相似度,從而找出相似但不完全相同的數(shù)據(jù)。
import textdistance # 數(shù)據(jù)清洗 data = ["配偶", "原配", "元配", "老婆", "夫人", "愛(ài)人"] for i in range(len(data)): for j in range(i+1, len(data)): distance = textdistance.hamming.distance(data[i], data[j]) if distance <= 1: print("相似但不完全相同的數(shù)據(jù):", data[i], data[j])
結(jié)果:
相似但不完全相同的數(shù)據(jù): 原配 元配
相似但不完全相同的數(shù)據(jù): 夫人 愛(ài)人
import textdistance # 姓名匹配 name1 = "李建國(guó)" name2 = "張建國(guó)" name3 = "王愛(ài)國(guó)" coefficient1 = textdistance.jaccard.normalized_similarity(name1, name2) coefficient2 = textdistance.jaccard.normalized_similarity(name1, name3) print("姓名1和姓名2的Jaccard系數(shù):", coefficient1) print("姓名1和姓名3的Jaccard系數(shù):", coefficient2)
結(jié)果
姓名1和姓名2的Jaccard系數(shù): 0.5
姓名1和姓名3的Jaccard系數(shù): 0.19999999999999996
textdistance 提供了豐富多樣的文本比較算法和距離度量方法,可以滿足各種不同的文本比較需求。
相關(guān)鏈接
到此這篇關(guān)于Python基于textdistance實(shí)現(xiàn)計(jì)算文本相似度的文章就介紹到這了,更多相關(guān)Python textdistance計(jì)算文本相似度內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
python中cv2.imdecode()與cv2.imencode()的使用小結(jié)
本文介紹了cv2.imencode()和cv2.imdecode()函數(shù)的使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2025-01-01python3學(xué)習(xí)之Splash的安裝與實(shí)例教程
splash 是一個(gè)python語(yǔ)言編寫(xiě)的用于配合scrapy解析js的庫(kù),下面這篇文章主要給大家介紹了關(guān)于python3學(xué)習(xí)之Splash的安裝與使用的一些相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),需要的朋友可以參考下2018-07-07Python+pandas計(jì)算數(shù)據(jù)相關(guān)系數(shù)的實(shí)例
今天小編就為大家分享一篇Python+pandas計(jì)算數(shù)據(jù)相關(guān)系數(shù)的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-07-07python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片
最近決定寫(xiě)個(gè)P站的爬蟲(chóng),實(shí)際操作起來(lái)確實(shí)遇到了些新問(wèn)題,通過(guò)解決也有所收獲,下面這篇文章主要給大家介紹了關(guān)于python爬蟲(chóng)實(shí)戰(zhàn)項(xiàng)目之爬取pixiv圖片的相關(guān)資料,需要的朋友可以參考下2022-07-07pycharm 如何縮進(jìn)和SQL亂碼及SQL包含變量
這篇文章主要介紹了pycharm 如何縮進(jìn)和SQL亂碼及SQL包含變量,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2022-07-07MAC平臺(tái)基于Python Appium環(huán)境搭建過(guò)程圖解
這篇文章主要介紹了MAC平臺(tái)基于Python Appium環(huán)境搭建過(guò)程圖解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-08-08