欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python中不規(guī)則字符串模糊匹配(fuzzywuzzy)

 更新時間:2025年08月05日 10:40:04   作者:感謝地心引力  
本文主要介紹了python中不規(guī)則字符串模糊匹配(fuzzywuzzy),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

在日常的數(shù)據(jù)處理、文本分析或自然語言處理任務(wù)中,字符串匹配是一個常見需求。然而,由于拼寫錯誤、格式差異、縮寫等原因,精確匹配(Exact Matching)往往無法滿足實際需求。此時,模糊匹配(Fuzzy Matching)成為一種更靈活的選擇。

如下圖:2個excel中保存了一些公園的不同數(shù)據(jù),且只有公園名稱能唯一標記一個公園。由于數(shù)據(jù)來源不同,公園的名稱是不完全相同的,且不規(guī)則,難以使用正則表達式等精確匹配,此時就可將進行模糊匹配。

一、FuzzyWuzzy 簡介

FuzzyWuzzy 由 SeatGeek 公司開發(fā)并開源,其核心算法基于 Levenshtein 距離(編輯距離),通過計算兩個字符串之間需要經(jīng)過多少次單字符編輯(增、刪、改)才能變得相同,來衡量它們的相似性。FuzzyWuzzy 進一步優(yōu)化了這一過程,并提供了多種預(yù)定義的相似度計算方式,適用于不同場景。

主要特點:

  1. 靈活性強:支持部分匹配、忽略順序匹配、模糊分詞匹配等。
  2. 簡單易用:通過封裝好的函數(shù)即可快速實現(xiàn)復(fù)雜匹配邏輯。
  3. 高效性:結(jié)合 python-Levenshtein 庫可大幅提升計算速度。

二、核心功能與 API

FuzzyWuzzy 提供了多個相似度計算函數(shù),以下是常用的幾種方法:

  1. 簡單匹配(Ratio)

    • 計算兩個字符串的整體相似度,基于編輯距離。
    from fuzzywuzzy import fuzz
    similarity = fuzz.ratio("apple", "appel")  # 輸出 86
    
  2. 部分匹配(Partial Ratio)

  • 適合比較長字符串與短字符串的匹配程度。例如,在長文本中搜索子串。
fuzz.partial_ratio("apple pie", "apple")  # 輸出 100
  1. 詞序無關(guān)匹配(Token Sort Ratio)
  • 先對字符串分詞并按字母排序,再計算相似度。適合忽略單詞順序的場景。
fuzz.token_sort_ratio("apple orange", "orange apple")  # 輸出 100
  1. 去重子集匹配(Token Set Ratio)

    • 進一步忽略重復(fù)詞,專注于共有詞匯的匹配。
    fuzz.token_set_ratio("apple apple", "apple")  # 輸出 100
    
  2. 加權(quán)匹配(WRatio)

    • 綜合多種策略,自動選擇最佳匹配方式。
    fuzz.WRatio("apple pie", "apple pi")  # 輸出 95
    

三、高級應(yīng)用:從列表中提取最佳匹配

除了直接比較兩個字符串,F(xiàn)uzzyWuzzy 的 process 模塊支持從候選列表中快速找到與目標最接近的匹配項。

from fuzzywuzzy import process

choices = ["apple", "banana", "orange", "grape"]
result = process.extractOne("appel", choices, scorer=fuzz.WRatio)
print(result)  # 輸出 ('apple', 86)

參數(shù)說明:

  • extractOne:返回列表中相似度最高的一個結(jié)果。
  • scorer:指定相似度計算函數(shù)(默認為 WRatio)。
  • 支持設(shè)置分數(shù)閾值(score_cutoff),過濾低質(zhì)量匹配。

四、性能優(yōu)化

FuzzyWuzzy 的默認實現(xiàn)可能較慢,尤其是在處理大規(guī)模數(shù)據(jù)時。通過以下方法可以提升性能:

  1. 安裝 python-Levenshtein
    該庫用 C 語言實現(xiàn)了 Levenshtein 算法,能顯著加速計算:

    pip install python-Levenshtein
    
  2. 預(yù)處理數(shù)據(jù)

    • 去除字符串中的空格、標點符號。
    • 統(tǒng)一轉(zhuǎn)換為小寫。
    def preprocess(text):
        return text.lower().strip()
    
  3. 限制匹配范圍
    根據(jù)業(yè)務(wù)邏輯縮小候選列表的范圍(如按首字母分組)。

五、應(yīng)用場景

  1. 數(shù)據(jù)清洗
    合并重復(fù)記錄(如用戶輸入的不同地址變體)。
  2. 搜索引擎
    提升查詢糾錯能力(如“New Yrok” → “New York”)。
  3. 自然語言處理
    實體對齊、同義詞擴展。
  4. 商業(yè)場景
    商品名稱匹配、發(fā)票信息核對。

六、優(yōu)缺點分析

優(yōu)點:

  • 簡單直觀,適合快速實現(xiàn)模糊匹配需求。
  • 支持多種匹配策略,靈活應(yīng)對不同場景。
  • 與 Python 生態(tài)集成良好(如 Pandas)。

缺點:

  • 對長文本效果較差(計算復(fù)雜度高)。
  • 默認依賴 python-Levenshtein,可能需額外安裝。
  • 不直接支持非英文文本(需結(jié)合分詞工具)。

替代方案

  1. difflib
    Python 標準庫中的文本對比工具,功能較基礎(chǔ)。
  2. RapidFuzz
    性能更優(yōu)的 FuzzyWuzzy 替代品,API 兼容。
  3. Jellyfish
    支持更多字符串距離算法(如 Jaro-Winkler)。

七、完整代碼示例

import pandas as pd
from fuzzywuzzy import process

# 定義需要去除的詞
words_to_remove = ["NP", "&", "PRES", "N.M", "N.R."]

# 預(yù)處理函數(shù):去除特定詞
def preprocess_name(name):
    for word in words_to_remove:
        name = name.replace(word, "").strip()  # 去除詞并去掉多余空格
    return name

# 讀取Excel文件
df_all_parks = pd.read_excel("all.xlsx")  # 替換為你的文件名
df_some_parks = pd.read_excel("結(jié)果.xlsx")  # 替換為你的文件名

# 提取公園名稱列表
all_park_names = df_all_parks["英文名稱"].dropna().unique().tolist()  # 替換"公園名稱"為實際列名
some_park_names = df_some_parks["Park Name"].dropna().unique().tolist()

# 模糊匹配并記錄結(jié)果
results = []
i = 0
for name in some_park_names:
    # 預(yù)處理名稱:去除特定詞
    cleaned_name = preprocess_name(name)
    # 獲取最佳匹配(閾值可調(diào))
    match, score = process.extractOne(cleaned_name, all_park_names, scorer=process.fuzz.token_sort_ratio)
    if score >= 60:  # 僅當相似度≥60%時處理
        # 找到在df_all_parks中匹配的行
        matched_rows = df_all_parks[df_all_parks["英文名稱"] == match]
        # 提取匹配行的distance值
        distances = matched_rows["distance"].tolist()  # 替換"distance"為實際列名
        # 記錄結(jié)果
        for i, distance in enumerate(distances):
            results.append({
                '序號': '',
                "待匹配名稱": name,  # 原始名稱
                "預(yù)處理名稱": cleaned_name,  # 預(yù)處理后的名稱
                "匹配名稱": match,
                "相似度": score,
                "行號": matched_rows.index[i],  # 記錄行號
                "distance": distance  # 添加distance列的值
            })
    else:
        results.append({
            '序號': '',
            "待匹配名稱": name,
            "預(yù)處理名稱": cleaned_name,
            "匹配名稱": "無匹配",
            "相似度": score,
            "行號": [],
            "distance": None  # 無匹配時distance為空
        })

# 轉(zhuǎn)換為DataFrame并保存結(jié)果
result_df = pd.DataFrame(results)
result_df.to_excel("模糊匹配結(jié)果.xlsx", index=False)

print("匹配完成!結(jié)果已保存到 '模糊匹配結(jié)果.xlsx'")

到此這篇關(guān)于python中不規(guī)則字符串模糊匹配(fuzzywuzzy)的文章就介紹到這了,更多相關(guān)python不規(guī)則字符串模糊匹配內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 基于Python實現(xiàn)音樂播放器的實現(xiàn)示例代碼

    基于Python實現(xiàn)音樂播放器的實現(xiàn)示例代碼

    這篇文章主要介紹了如何利用Python編寫簡易的音樂播放器,文中的示例代碼講解詳細,具有一的參考價值,需要的小伙伴可以參考一下
    2022-04-04
  • 怎么使用python繪制3D瀑布圖

    怎么使用python繪制3D瀑布圖

    這篇文章主要介紹了怎么使用python繪制3D瀑布圖的相關(guān)資料,瀑布圖是由麥肯錫顧問公司所獨創(chuàng)的圖表類型,因為形似瀑布流水而稱之為瀑布圖(Waterfall Plot),文中通過代碼介紹的非常詳細,需要的朋友可以參考下
    2024-09-09
  • 基于Django的ModelForm組件(詳解)

    基于Django的ModelForm組件(詳解)

    下面小編就為大家分享一篇基于Django的ModelForm組件詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2017-12-12
  • 在Python中字典根據(jù)多項規(guī)則排序的方法

    在Python中字典根據(jù)多項規(guī)則排序的方法

    今天小編就為大家分享一篇在Python中字典根據(jù)多項規(guī)則排序的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python+OpenCV+圖片旋轉(zhuǎn)并用原底色填充新四角的例子

    Python+OpenCV+圖片旋轉(zhuǎn)并用原底色填充新四角的例子

    今天小編就為大家分享一篇Python+OpenCV+圖片旋轉(zhuǎn)并用原底色填充新四角的例子,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • python爬取盤搜的有效鏈接實現(xiàn)代碼

    python爬取盤搜的有效鏈接實現(xiàn)代碼

    這篇文章主要介紹了python爬取盤搜的有效鏈接,本文通過實例代碼給大家介紹的非常詳細,具有一定的參考借鑒價值 ,需要的朋友可以參考下
    2019-07-07
  • python全棧開發(fā)語法總結(jié)

    python全棧開發(fā)語法總結(jié)

    在本篇文章里小編給大家整理的是一篇關(guān)于python全棧開發(fā)語法的相關(guān)總結(jié)內(nèi)容,有興趣的朋友們可以跟著學(xué)習(xí)參考下。
    2020-11-11
  • Python數(shù)字圖像處理基礎(chǔ)直方圖詳解

    Python數(shù)字圖像處理基礎(chǔ)直方圖詳解

    這篇文章主要介紹了Python數(shù)字圖像處理基礎(chǔ)直方圖詳解,本文對Python直方圖的定義、性質(zhì)、應(yīng)用以及Python直方圖的計算作了詳細的講解,有需要朋友可以借鑒參考下
    2021-09-09
  • Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)

    Python數(shù)據(jù)分析23種Pandas核心操作方法總結(jié)

    在本文中,作者從基本數(shù)據(jù)集讀寫、數(shù)據(jù)處理和?DataFrame?操作三個角度展示了?23?個?Pandas?核心方法,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-05-05
  • 50行Python代碼獲取高考志愿信息的實現(xiàn)方法

    50行Python代碼獲取高考志愿信息的實現(xiàn)方法

    這篇文章主要介紹了50行Python代碼獲取高考志愿信息的實現(xiàn)方法,本文給大家介紹的非常詳細,具有一定的參考借鑒價值,需要的朋友可以參考下
    2019-07-07

最新評論