欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python 比較文本相似性的方法(difflib,Levenshtein)

 更新時間:2018年10月15日 14:50:56   作者:曉東邪  
今天小編就為大家分享一篇Python 比較文本相似性的方法(difflib,Levenshtein),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

最近工作需要用到序列匹配,檢測相似性,不過有點復(fù)雜的是輸入長度是不固定的,舉例為:

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中國', '美麗']

其中,需要從input_and_output 中選取不固定長度的一段作為輸入,且順序不定,然后去與總體進行比較,找出最符合的,開始是對漢字進行數(shù)值化編碼,不過后來由于出現(xiàn)漢字越來越多,遂放棄該方法,轉(zhuǎn)向別的方式,查找資料發(fā)現(xiàn)了兩個python包廣被推薦,從下面來看各有優(yōu)缺點,記錄之~

1、difflib

import difflib #python 自帶庫,不需額外安裝

In [49]: test1
Out[49]: ['你好', '我是誰']

In [50]: test2
Out[50]: ['你好啊', '我誰']

In [51]: test3
Out[51]: [12, 'nihao']

In [52]: test4
Out[52]: ['你好', 'woshi']

In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()
Out[53]: 0.0

In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()
Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshtein

import Levenshtein


In [56]: Levenshtein.distance(','.join(test1), ','.join(test2))
Out[56]: 2

In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))
Out[57]: 5

簡單來說,difflib使用時不一定為字符串,但匹配時只有單個元素完全匹配才計入,

而Levenshtein則需要輸入為字符串,匹配時是整體匹配(也可能跟把所有元素集中成一個字符串有關(guān),具體待繼續(xù)使用再摸索)

以上這篇Python 比較文本相似性的方法(difflib,Levenshtein)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

最新評論