欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python容錯的前綴樹實現(xiàn)中文糾錯

 更新時間:2021年07月07日 15:31:27   作者:王大呀呀  
本文使用 Python 實現(xiàn)了前綴樹,并且支持編輯距離容錯的查詢。文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下

介紹

本文使用 Python 實現(xiàn)了前綴樹,并且支持編輯距離容錯的查詢。文中的前綴樹只存儲了三個分詞,格式為 (分詞字符串,頻率) ,如:('中海晉西園', 2)、('中海西園', 24)、('中南海', 4),可以換成自己的文件進(jìn)行數(shù)據(jù)的替換。在查詢的時候要指定一個字符串和最大的容錯編輯距離。

實現(xiàn)

class Word:
    def __init__(self, word, freq):
        self.word = word
        self.freq = freq

class Trie:
    def __init__(self):
        self.root = LetterNode('')
        self.START = 3

    def insert(self, word, freq):
        self.root.insert(word, freq, 0)

    def findAll(self, query, maxDistance):
        suggestions = self.root.recommend(query, maxDistance, self.START)
        return sorted(set(suggestions), key=lambda x: x.freq)


class LetterNode:
    def __init__(self, char):
        self.REMOVE = -1
        self.ADD = 1
        self.SAME = 0
        self.CHANGE = 2
        self.START = 3
        self.pointers = []
        self.char = char
        self.word = None

    def charIs(self, c):
        return self.char == c

    def insert(self, word, freq, depth):
        if ' ' in word:
            word = [i for i in word.split(' ')]
        if depth < len(word):
            c = word[depth].lower()
            for next in self.pointers:
                if next.charIs(c):
                    return next.insert(word, freq, depth + 1)
            nextNode = LetterNode(c)
            self.pointers.append(nextNode)
            return nextNode.insert(word, freq, depth + 1)
        else:
            self.word = Word(word, freq)

    def recommend(self, query, movesLeft, lastAction):
        suggestions = []
        length = len(query)

        if length >= 0 and movesLeft - length >= 0 and self.word:
            suggestions.append(self.word)

        if movesLeft == 0 and length > 0:
            for next in self.pointers:
                if next.charIs(query[0]):
                    suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    break

        elif movesLeft > 0:
            for next in self.pointers:
                if length > 0:
                    if next.charIs(query[0]):
                        suggestions += next.recommend(query[1:], movesLeft, self.SAME)
                    else:
                        suggestions += next.recommend(query[1:], movesLeft - 1, self.CHANGE)
                        if lastAction != self.CHANGE and lastAction != self.REMOVE:
                            suggestions += next.recommend(query, movesLeft - 1, self.ADD)
                        if lastAction != self.ADD and lastAction != self.CHANGE:
                            if length > 1 and next.charIs(query[1]):
                                suggestions += next.recommend(query[2:], movesLeft - 1, self.REMOVE)
                            elif length > 2 and next.charIs(query[2]) and movesLeft == 2:
                                suggestions += next.recommend(query[3:], movesLeft - 2, self.REMOVE)
                else:
                    if lastAction != self.CHANGE and lastAction != self.REMOVE:
                        suggestions += next.recommend(query, movesLeft - 1, self.ADD)
        return suggestions



def buildTrieFromFile():
    trie = Trie()
    rows = [('中海晉西園', 2),('中海西園', 24),('中南海', 4)]
    for row in rows:
        trie.insert(row[0], int(row[1]))
    return trie


def suggestor(trie, s, maxDistance):
    if ' ' in s:
        s = [x for x in s.split(' ')]
    suggestions = trie.findAll(s, maxDistance)
    return [str(x.word) for x in suggestions]


if __name__ == "__main__":
    trie = buildTrieFromFile()
    r = suggestor(trie, '中海晉西園', 1)
    print(r)

分析

結(jié)果打?。?br /> ['中海晉西園', '中海西園']

可以看出“中海晉西園”是和輸入完全相同的字符串,編輯距離為 0 ,所以符合最大編輯距離為 1 的要求,直接返回。

“中海西園”是“中海晉西園”去掉“晉”字之后的結(jié)果,編輯距離為 1, 所以符合最大編輯距離為 1 的要求,直接返回。

另外,“中南?!焙汀爸泻x西園”的編輯距離為 4 ,不符合最大編輯距離為 1 的要求,所以結(jié)果中沒有出現(xiàn)。

參考

https://github.com/leoRoss/AutoCorrectTrie

到此這篇關(guān)于Python容錯的前綴樹實現(xiàn)中文糾錯的文章就介紹到這了,更多相關(guān)Python 中文糾錯內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

您可能感興趣的文章:

相關(guān)文章

  • python繪制分組對比柱狀圖

    python繪制分組對比柱狀圖

    這篇文章主要為大家詳細(xì)介紹了python繪制分組對比柱狀圖,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2022-04-04
  • Python庫學(xué)習(xí)Tkinter制作GUI個性簽名設(shè)計軟件

    Python庫學(xué)習(xí)Tkinter制作GUI個性簽名設(shè)計軟件

    Tkinter 是 Python 中的標(biāo)準(zhǔn) GUI 庫,使用 Tkinter 可以快速地創(chuàng)建 GUI 應(yīng)用程序。今天我們打算再用一個小案例,帶大家加深對Tkinter的理解
    2021-09-09
  • matplotlib設(shè)置顏色、標(biāo)記、線條,讓你的圖像更加豐富(推薦)

    matplotlib設(shè)置顏色、標(biāo)記、線條,讓你的圖像更加豐富(推薦)

    這篇文章主要介紹了matplotlib設(shè)置顏色、標(biāo)記、線條,讓你的圖像更加豐富,本文通過實例圖文相結(jié)合給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-09-09
  • python 刪除非空文件夾的實例

    python 刪除非空文件夾的實例

    下面小編就為大家分享一篇python 刪除非空文件夾的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04
  • Python Django 封裝分頁成通用的模塊詳解

    Python Django 封裝分頁成通用的模塊詳解

    這篇文章主要介紹了Python Django 封裝分頁成通用的模塊詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-08-08
  • pytorch模型的保存和加載、checkpoint操作

    pytorch模型的保存和加載、checkpoint操作

    這篇文章主要介紹了pytorch模型的保存和加載、checkpoint操作,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2021-06-06
  • 淺談Django Admin的初步使用

    淺談Django Admin的初步使用

    本文主要介紹了淺談Django Admin的初步使用 ,文中通過示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-12-12
  • python多進(jìn)程日志以及分布式日志的實現(xiàn)方式

    python多進(jìn)程日志以及分布式日志的實現(xiàn)方式

    這篇文章主要介紹了python多進(jìn)程日志以及分布式日志的實現(xiàn)方式,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教
    2024-06-06
  • Python日志器使用方法及原理解析

    Python日志器使用方法及原理解析

    這篇文章主要介紹了Python日志器使用方法及原理解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-09-09
  • Python元組的定義及使用

    Python元組的定義及使用

    這篇文章主要介紹了Python元組的定義及使用,在Python中元組是一個和列表非常類似的數(shù)據(jù)類型,不同之處就是列表中的元素可以修改,而元組之中的元素不可以修改。想具體了解的下小伙伴請參考下面文章的具體內(nèi)容,希望對你有所幫助
    2021-11-11

最新評論