python中不規(guī)則字符串模糊匹配(fuzzywuzzy)
在日常的數(shù)據(jù)處理、文本分析或自然語言處理任務(wù)中,字符串匹配是一個常見需求。然而,由于拼寫錯誤、格式差異、縮寫等原因,精確匹配(Exact Matching)往往無法滿足實際需求。此時,模糊匹配(Fuzzy Matching)成為一種更靈活的選擇。
如下圖:2個excel中保存了一些公園的不同數(shù)據(jù),且只有公園名稱能唯一標記一個公園。由于數(shù)據(jù)來源不同,公園的名稱是不完全相同的,且不規(guī)則,難以使用正則表達式等精確匹配,此時就可將進行模糊匹配。
一、FuzzyWuzzy 簡介
FuzzyWuzzy 由 SeatGeek 公司開發(fā)并開源,其核心算法基于 Levenshtein 距離(編輯距離),通過計算兩個字符串之間需要經(jīng)過多少次單字符編輯(增、刪、改)才能變得相同,來衡量它們的相似性。FuzzyWuzzy 進一步優(yōu)化了這一過程,并提供了多種預(yù)定義的相似度計算方式,適用于不同場景。
主要特點:
- 靈活性強:支持部分匹配、忽略順序匹配、模糊分詞匹配等。
- 簡單易用:通過封裝好的函數(shù)即可快速實現(xiàn)復(fù)雜匹配邏輯。
- 高效性:結(jié)合
python-Levenshtein
庫可大幅提升計算速度。
二、核心功能與 API
FuzzyWuzzy 提供了多個相似度計算函數(shù),以下是常用的幾種方法:
簡單匹配(Ratio)
- 計算兩個字符串的整體相似度,基于編輯距離。
from fuzzywuzzy import fuzz similarity = fuzz.ratio("apple", "appel") # 輸出 86
部分匹配(Partial Ratio)
- 適合比較長字符串與短字符串的匹配程度。例如,在長文本中搜索子串。
fuzz.partial_ratio("apple pie", "apple") # 輸出 100
- 詞序無關(guān)匹配(Token Sort Ratio)
- 先對字符串分詞并按字母排序,再計算相似度。適合忽略單詞順序的場景。
fuzz.token_sort_ratio("apple orange", "orange apple") # 輸出 100
去重子集匹配(Token Set Ratio)
- 進一步忽略重復(fù)詞,專注于共有詞匯的匹配。
fuzz.token_set_ratio("apple apple", "apple") # 輸出 100
加權(quán)匹配(WRatio)
- 綜合多種策略,自動選擇最佳匹配方式。
fuzz.WRatio("apple pie", "apple pi") # 輸出 95
三、高級應(yīng)用:從列表中提取最佳匹配
除了直接比較兩個字符串,F(xiàn)uzzyWuzzy 的 process
模塊支持從候選列表中快速找到與目標最接近的匹配項。
from fuzzywuzzy import process choices = ["apple", "banana", "orange", "grape"] result = process.extractOne("appel", choices, scorer=fuzz.WRatio) print(result) # 輸出 ('apple', 86)
參數(shù)說明:
extractOne
:返回列表中相似度最高的一個結(jié)果。scorer
:指定相似度計算函數(shù)(默認為WRatio
)。- 支持設(shè)置分數(shù)閾值(
score_cutoff
),過濾低質(zhì)量匹配。
四、性能優(yōu)化
FuzzyWuzzy 的默認實現(xiàn)可能較慢,尤其是在處理大規(guī)模數(shù)據(jù)時。通過以下方法可以提升性能:
安裝
python-Levenshtein
庫
該庫用 C 語言實現(xiàn)了 Levenshtein 算法,能顯著加速計算:pip install python-Levenshtein
預(yù)處理數(shù)據(jù)
- 去除字符串中的空格、標點符號。
- 統(tǒng)一轉(zhuǎn)換為小寫。
def preprocess(text): return text.lower().strip()
限制匹配范圍
根據(jù)業(yè)務(wù)邏輯縮小候選列表的范圍(如按首字母分組)。
五、應(yīng)用場景
- 數(shù)據(jù)清洗
合并重復(fù)記錄(如用戶輸入的不同地址變體)。 - 搜索引擎
提升查詢糾錯能力(如“New Yrok” → “New York”)。 - 自然語言處理
實體對齊、同義詞擴展。 - 商業(yè)場景
商品名稱匹配、發(fā)票信息核對。
六、優(yōu)缺點分析
優(yōu)點:
- 簡單直觀,適合快速實現(xiàn)模糊匹配需求。
- 支持多種匹配策略,靈活應(yīng)對不同場景。
- 與 Python 生態(tài)集成良好(如 Pandas)。
缺點:
- 對長文本效果較差(計算復(fù)雜度高)。
- 默認依賴
python-Levenshtein
,可能需額外安裝。 - 不直接支持非英文文本(需結(jié)合分詞工具)。
替代方案
- difflib
Python 標準庫中的文本對比工具,功能較基礎(chǔ)。 - RapidFuzz
性能更優(yōu)的 FuzzyWuzzy 替代品,API 兼容。 - Jellyfish
支持更多字符串距離算法(如 Jaro-Winkler)。
七、完整代碼示例
import pandas as pd from fuzzywuzzy import process # 定義需要去除的詞 words_to_remove = ["NP", "&", "PRES", "N.M", "N.R."] # 預(yù)處理函數(shù):去除特定詞 def preprocess_name(name): for word in words_to_remove: name = name.replace(word, "").strip() # 去除詞并去掉多余空格 return name # 讀取Excel文件 df_all_parks = pd.read_excel("all.xlsx") # 替換為你的文件名 df_some_parks = pd.read_excel("結(jié)果.xlsx") # 替換為你的文件名 # 提取公園名稱列表 all_park_names = df_all_parks["英文名稱"].dropna().unique().tolist() # 替換"公園名稱"為實際列名 some_park_names = df_some_parks["Park Name"].dropna().unique().tolist() # 模糊匹配并記錄結(jié)果 results = [] i = 0 for name in some_park_names: # 預(yù)處理名稱:去除特定詞 cleaned_name = preprocess_name(name) # 獲取最佳匹配(閾值可調(diào)) match, score = process.extractOne(cleaned_name, all_park_names, scorer=process.fuzz.token_sort_ratio) if score >= 60: # 僅當相似度≥60%時處理 # 找到在df_all_parks中匹配的行 matched_rows = df_all_parks[df_all_parks["英文名稱"] == match] # 提取匹配行的distance值 distances = matched_rows["distance"].tolist() # 替換"distance"為實際列名 # 記錄結(jié)果 for i, distance in enumerate(distances): results.append({ '序號': '', "待匹配名稱": name, # 原始名稱 "預(yù)處理名稱": cleaned_name, # 預(yù)處理后的名稱 "匹配名稱": match, "相似度": score, "行號": matched_rows.index[i], # 記錄行號 "distance": distance # 添加distance列的值 }) else: results.append({ '序號': '', "待匹配名稱": name, "預(yù)處理名稱": cleaned_name, "匹配名稱": "無匹配", "相似度": score, "行號": [], "distance": None # 無匹配時distance為空 }) # 轉(zhuǎn)換為DataFrame并保存結(jié)果 result_df = pd.DataFrame(results) result_df.to_excel("模糊匹配結(jié)果.xlsx", index=False) print("匹配完成!結(jié)果已保存到 '模糊匹配結(jié)果.xlsx'")
到此這篇關(guān)于python中不規(guī)則字符串模糊匹配(fuzzywuzzy)的文章就介紹到這了,更多相關(guān)python不規(guī)則字符串模糊匹配內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
基于Python實現(xiàn)音樂播放器的實現(xiàn)示例代碼
這篇文章主要介紹了如何利用Python編寫簡易的音樂播放器,文中的示例代碼講解詳細,具有一的參考價值,需要的小伙伴可以參考一下2022-04-04在Python中字典根據(jù)多項規(guī)則排序的方法
今天小編就為大家分享一篇在Python中字典根據(jù)多項規(guī)則排序的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01Python+OpenCV+圖片旋轉(zhuǎn)并用原底色填充新四角的例子
今天小編就為大家分享一篇Python+OpenCV+圖片旋轉(zhuǎn)并用原底色填充新四角的例子,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)
在本文中,作者從基本數(shù)據(jù)集讀寫、數(shù)據(jù)處理和?DataFrame?操作三個角度展示了?23?個?Pandas?核心方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-05-0550行Python代碼獲取高考志愿信息的實現(xiàn)方法
這篇文章主要介紹了50行Python代碼獲取高考志愿信息的實現(xiàn)方法,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下2019-07-07