快捷導(dǎo)航

Python中匹配模糊的字符串問題分析

更新時(shí)間：2023年09月13日 14:50:24 作者：python學(xué)習(xí)者0

這篇文章主要介紹了Python中匹配模糊的字符串的過程,我們將學(xué)習(xí)如何使用process 模塊,該模塊允許我們在模糊字符串邏輯的幫助下有效地匹配或提取字符串,需要的朋友可以參考下

使用thefuzz 模塊來匹配模糊字符串

這個(gè)庫在舊版本中有一個(gè)有趣的名字，因?yàn)樗幸粋€(gè)特定的名字，這個(gè)名字被重新命名。所以現(xiàn)在是由不同的庫來維護(hù)；但是，它目前的版本叫做thefuzz ，所以這就是你可以通過下面的命令來安裝的。

pip install thefuzz

但是，如果你在網(wǎng)上看例子，你會(huì)發(fā)現(xiàn)一些例子的舊名稱是fuzzywuzzy 。所以，它已經(jīng)不再被維護(hù)并且過時(shí)了，但是你可能會(huì)發(fā)現(xiàn)一些用這個(gè)名字的例子。

thefuzz 庫是基于，所以你必須用這個(gè)命令來安裝它。python-Levenshtei

pip install python-Levenshtein

而如果你在安裝過程中遇到一些問題，你可以使用下面的命令，如果再次遇到錯(cuò)誤，那么你可以在google上搜索，找到相關(guān)的解決方案。

pip install python-Levenshtein-wheels

本質(zhì)上，模糊匹配字符串就像使用regex或沿著兩個(gè)字符串的比較。在模糊邏輯的情況下，你的條件的真值可以是0 和1 之間的任何實(shí)數(shù)。

因此，基本上，不是說任何東西是True 或False ，你只是給它在0 到1 之間的任何值。它是通過使用距離度量計(jì)算兩個(gè)字符串之間的不相似性，其形式是一個(gè)稱為距離的值。

使用給定的字符串，你使用一些算法找到兩個(gè)字符串之間的距離。一旦你完成了安裝過程，你必須從thefuzz 模塊中導(dǎo)入fuzz 和process 。

from thefuzz import fuzz, process

在使用fuzz ，我們將手動(dòng)檢查兩個(gè)字符串之間的不相似性。

ST1='Just a test'
ST2='just a test'
print(ST1==ST2)
print(ST1!=ST2)

它將返回一個(gè)布爾值，但以一種模糊的方式，你會(huì)得到這些字符串的相似程度的百分?jǐn)?shù)。

False
True

模糊字符串匹配允許我們以模糊的方式更有效、更快速地完成這項(xiàng)工作。假設(shè)我們有一個(gè)例子，有兩個(gè)字符串，其中一個(gè)字符串與大寫的J （如上所述）不相同。

如果我們現(xiàn)在去調(diào)用ratio() 函數(shù)，它給我們一個(gè)相似性的度量，那么這將為我們提供一個(gè)相當(dāng)高的比率，即91 ，而不是100 。

from thefuzz import fuzz, process
print(fuzz.ratio(ST1, ST2))

輸出：

91

如果字符串更加延長，例如，如果我們不只是改變一個(gè)字符，而是改變一個(gè)完全不同的字符串，那么看看它的回報(bào)，看一看。

ST1='This is a test string for test'
ST2='There aresome test string for testing'
print(fuzz.ratio(ST1,ST2))

現(xiàn)在可能會(huì)有一些相似之處，但會(huì)很75 ；這只是一個(gè)簡單的比率，并不復(fù)雜。

75

我們還可以繼續(xù)嘗試像部分比例這樣的東西。例如，我們有兩個(gè)字符串，我們想確定它們的分?jǐn)?shù)。

ST1='There are test'
ST2='There are test string for testing'
print(fuzz.partial_ratio(ST1,ST2))

使用partial_ratio() ，我們會(huì)得到100%，因?yàn)檫@兩個(gè)字符串有相同的子字符串(There are test)。

在ST2 ，我們有一些不同的詞（字符串），但這并不重要，因?yàn)槲覀兛吹氖遣糠直嚷驶騻€(gè)別部分，但簡單的比率并不類似。

100

假設(shè)我們有相似的字符串，但有不同的順序；然后，我們使用另一個(gè)度量。

CASE_1='This generation rules the nation'
CASE_2='Rules the nation This generation'

兩種情況下，在該短語的相同含義上有完全相同的文字，但使用ratio() ，就會(huì)有相當(dāng)大的不同，而使用partial_ratio() ，就會(huì)有不同。

如果我們通過token_sort_ratio() ，這將是100%，因?yàn)樗旧鲜峭耆嗤奈淖?，但順序不同。因此，這就是token_sort_ratio() ，該函數(shù)將單個(gè)標(biāo)記進(jìn)行排序，它們的順序并不重要。

print(fuzz.ratio(CASE_1,CASE_2))
print(fuzz.partial_ratio(CASE_1,CASE_2))
print(fuzz.token_sort_ratio(CASE_1,CASE_2))

輸出：

47
64
100

現(xiàn)在，如果我們用另一個(gè)詞來改變一些詞，我們會(huì)有一個(gè)不同的數(shù)字，但基本上，這是一個(gè)比率；它不關(guān)心個(gè)別標(biāo)記的順序。

CASE_1='This generation rules the nation'
CASE_2='Rules the nation has This generation'
print(fuzz.ratio(CASE_1,CASE_2))
print(fuzz.partial_ratio(CASE_1,CASE_2))
print(fuzz.token_sort_ratio(CASE_1,CASE_2))

輸出：

44
64
94

token_sort_ratio() 也是不同的，因?yàn)樗懈嗟脑~在里面，但我們也有一個(gè)叫做token_set_ratio() 的東西，一個(gè)集合包含每個(gè)標(biāo)記只有一次。

所以，它出現(xiàn)的頻率并不重要；讓我們看看一個(gè)例子字符串。

CASE_1='This generation'
CASE_2='This This generation generation generation generation'
print(fuzz.ratio(CASE_1,CASE_2))
print(fuzz.partial_ratio(CASE_1,CASE_2))
print(fuzz.token_sort_ratio(CASE_1,CASE_2))
print(fuzz.token_set_ratio(CASE_1,CASE_2))

我們可以看到一些相當(dāng)?shù)偷姆謹(jǐn)?shù)，但是我們使用token_set_ratio() 函數(shù)得到了100%的分?jǐn)?shù)，因?yàn)槲覀冇袃蓚€(gè)令牌，This 和generation 存在于兩個(gè)字符串中。

使用process 模塊，以高效的方式使用模糊字符串匹配

不僅有fuzz ，還有process ，因?yàn)閜rocess 是有幫助的，可以使用這種模糊匹配從一個(gè)集合中提取出來。

例如，我們準(zhǔn)備了幾個(gè)列表項(xiàng)來演示。

Diff_items=['programing language','Native language','React language',
        'People stuff', 'This generation', 'Coding and stuff']

其中一些是非常相似的，你可以看到（母語或編程語言），現(xiàn)在我們可以去挑選最好的個(gè)別匹配。

我們可以手動(dòng)操作，只需評估分?jǐn)?shù)，然后挑選出最優(yōu)秀的人選，但我們也可以用process 。要做到這一點(diǎn)，我們必須調(diào)用process 模塊中的extract() 函數(shù)。

它需要幾個(gè)參數(shù)，第一個(gè)是目標(biāo)字符串，第二個(gè)是你要提取的集合，第三個(gè)是限制，將匹配或提取的內(nèi)容限制為兩個(gè)。

例如，如果我們想提取像language ，在這種情況下，選擇母語和編程語言。

print(process.extract('language',Diff_items,limit=2))

輸出：

[('programing language', 90), ('Native language', 90)]

問題是，這不是NLP（自然語言處理）；這背后沒有智能；它只是看單個(gè)標(biāo)記。因此，舉例來說，如果我們使用programming 作為目標(biāo)字符串并運(yùn)行這個(gè)。

第一個(gè)匹配將是programming language ，但第二個(gè)匹配將是Native language ，這將不是編碼。

即使我們有編碼，因?yàn)閺恼Z義上講，編碼更接近于編程，但這并不重要，因?yàn)槲覀冊谶@里沒有使用AI。

Diff_items=['programing language','Native language','React language',
        'People stuff', 'Hello World', 'Coding and stuff']
print(process.extract('programing',Diff_items,limit=2))

PYTHON 復(fù)制全屏

輸出：

[('programing language', 90), ('Native language', 36)]

另一個(gè)最后的例子是這是如何有用的；我們有一個(gè)龐大的書庫，想找到一本書，但我們不知道確切的名字或如何調(diào)用它。

在這種情況下，我們可以使用extract() ，在這個(gè)函數(shù)里面，我們將把fuzz.token_sort_ratio 傳給scorer 參數(shù)。

LISt_OF_Books=['The python everyone volume 1 - Beginner',
               'The python everyone volume 2 - Machine Learning',
               'The python everyone volume 3 - Data Science',
               'The python everyone volume 4 - Finance',
               'The python everyone volume 5 - Neural Network',
               'The python everyone volume 6 - Computer Vision',
               'Different Data Science book',
               'Java everyone beginner book',
               'python everyone Algorithms and Data Structure']
print(process.extract('python Data Science',LISt_OF_Books,limit=3,scorer=fuzz.token_sort_ratio))

我們只是傳遞它，我們并沒有調(diào)用它，現(xiàn)在，我們在這里得到了最高的結(jié)果，我們得到了另一本數(shù)據(jù)科學(xué)書作為第二個(gè)結(jié)果。

輸出：