Python 比較文本相似性的方法(difflib,Levenshtein)

更新時間：2018年10月15日 14:50:56 作者：曉東邪

今天小編就為大家分享一篇Python 比較文本相似性的方法(difflib,Levenshtein)，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

最近工作需要用到序列匹配，檢測相似性，不過有點復雜的是輸入長度是不固定的，舉例為：

input_and_output = [1, 2, '你好', 世界', 12.34, 45.6, -21, '中國', '美麗']

其中，需要從input_and_output 中選取不固定長度的一段作為輸入，且順序不定，然后去與總體進行比較，找出最符合的，開始是對漢字進行數(shù)值化編碼，不過后來由于出現(xiàn)漢字越來越多，遂放棄該方法，轉向別的方式，查找資料發(fā)現(xiàn)了兩個python包廣被推薦，從下面來看各有優(yōu)缺點，記錄之~

1、difflib

import difflib #python 自帶庫，不需額外安裝

In [49]: test1
Out[49]: ['你好', '我是誰']

In [50]: test2
Out[50]: ['你好啊', '我誰']

In [51]: test3
Out[51]: [12, 'nihao']

In [52]: test4
Out[52]: ['你好', 'woshi']

In [53]: difflib.SequenceMatcher(a=test1, b=test2).quick_ratio()
Out[53]: 0.0

In [54]: difflib.SequenceMatcher(a=test1, b=test4).ratio()
Out[54]: 0.5

2、Levenshtein

#pip install python-Levenshtein

import Levenshtein


In [56]: Levenshtein.distance(','.join(test1), ','.join(test2))
Out[56]: 2

In [57]: Levenshtein.distance(','.join(test1), ','.join(test4))
Out[57]: 5

簡單來說，difflib使用時不一定為字符串，但匹配時只有單個元素完全匹配才計入，

而Levenshtein則需要輸入為字符串，匹配時是整體匹配（也可能跟把所有元素集中成一個字符串有關，具體待繼續(xù)使用再摸索）

以上這篇Python 比較文本相似性的方法(difflib,Levenshtein)就是小編分享給大家的全部內容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

Python ORM框架SQLAlchemy學習筆記之關系映射實例
這篇文章主要介紹了Python ORM框架SQLAlchemy學習筆記之關系映射實例,Classic (經典模式)和Modern (現(xiàn)代模式),分別介紹了,需要的朋友可以參考下
2014-06-06
python實現(xiàn)支付寶當面付（掃碼支付）功能
這篇文章主要為大家詳細介紹了python實現(xiàn)支付寶當面付，掃碼支付功能，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-05-05
用Python在Excel里畫出蒙娜麗莎的方法示例
這篇文章主要介紹了用Python在Excel里畫出蒙娜麗莎的方法示例，文中通過示例代碼介紹的非常詳細，對大家的學習或者工作具有一定的參考學習價值，需要的朋友們下面隨著小編來一起學習學習吧
2020-04-04
淺談python for循環(huán)的巧妙運用(迭代、列表生成式)
下面小編就為大家?guī)硪黄獪\談python for循環(huán)的巧妙運用(迭代、列表生成式)。
2017-09-09
python實現(xiàn)ModBusTCP協(xié)議的client功能
Modbus TCP 是一種基于 TCP/IP 協(xié)議棧的 Modbus 通信協(xié)議,它用于在工業(yè)自動化系統(tǒng)中進行設備之間的通信,只要通過pymodbus或pyModbusTCP任意模塊就可以實現(xiàn),本文采用pymodbus,感興趣的朋友跟隨小編一起看看吧
2023-10-10
Python+OpenCV實現(xiàn)車牌字符分割和識別
這篇文章主要為大家詳細介紹了Python+OpenCV實現(xiàn)車牌字符分割和識別，文中示例代碼介紹的非常詳細，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-03-03
Python統(tǒng)計文本詞匯出現(xiàn)次數(shù)的實例代碼
這篇文章主要介紹了Python統(tǒng)計文本詞匯出現(xiàn)次數(shù)，這種問題在統(tǒng)計文本詞匯的次數(shù)時經常會遇到，今天給大家分享解決方案，通過實例代碼給大家講解,需要的朋友可以參考下
2020-02-02
從多個tfrecord文件中無限讀取文件的例子
今天小編就為大家分享一篇從多個tfrecord文件中無限讀取文件的例子，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
python字典添加值的方法及實例代碼分享
在本篇文章里小編給大家整理的是一篇關于python字典添加值的方法及實例代碼講解，有興趣的朋友們可以學習下。
2022-11-11
python中property和setter裝飾器用法
今天小編就為大家分享一篇python中property和setter裝飾器用法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-12-12