欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python自然語言處理之切分算法詳解

 更新時(shí)間:2021年04月25日 15:29:37   作者:李元靜  
這篇文章主要介紹了Python自然語言處理之切分算法詳解,文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)習(xí)python的小伙伴們有非常好的幫助,需要的朋友可以參考下

一、前言

我們需要分析某句話,就必須檢測該條語句中的詞語。

一般來說,一句話肯定包含多個(gè)詞語,它們互相重疊,具體輸出哪一個(gè)由自然語言的切分算法決定。常用的切分算法有完全切分、正向最長匹配、逆向最長匹配以及雙向最長匹配。

本篇博文將一一介紹這些常用的切分算法。

二、完全切分

完全切分是指,找出一段文本中的所有單詞。

不考慮效率的話,完全切分算法其實(shí)非常簡單。只要遍歷文本中的連續(xù)序列,查詢?cè)撔蛄惺欠裨谠~典中即可。上一篇我們獲取了詞典的所有詞語dic,這里我們直接用代碼遍歷某段文本,完全切分出所有的詞語。代碼如下:

from pyhanlp import *


def load_dictionary():
    IOUtil = JClass('com.hankcs.hanlp.corpus.io.IOUtil')
    path = HanLP.Config.CoreDictionaryPath.replace('.txt', '.mini.txt')
    dic = IOUtil.loadDictionary([path])
    return set(dic.keySet())


def fully_segment(text, dic):
    list = []
    for i in range(len(text)):
        for j in range(i + 1, len(text) + 1):
            temp = text[i:j]
            if temp in dic:
                list.append(temp)
    return list


if __name__ == "__main__":
    dic = load_dictionary()
    print(fully_segment("在絕對(duì)實(shí)力面前,一切的說辭都是枉然", dic))

詞匯

可以看到,完全切分算法輸出了文本中所有的單字與詞匯。
這里的算法原理是:開始遍歷單個(gè)字,以該字為首,將后面每個(gè)字依次組合到單個(gè)字中,分析出這些組合字句是否在詞典中。第二次,從第二個(gè)字開始,組合后面的字,以此類推。不懂的看下圖就明白了。

遍歷

三、正向最長匹配

雖然說完全切分能獲取到所有出現(xiàn)在字典中的單詞,單字,但是我們獲取語句中單字一般來說沒有任何意義,我們更希望獲取的是中文分詞,那種具有意義的詞語序列。

比如,上面我們希望“絕對(duì)實(shí)力”成為一整個(gè)詞,而不是“絕對(duì)”+“實(shí)力”之類的碎片。為了達(dá)到這個(gè)目的,我們需要完善一下我們的算法??紤]到越長的單詞表達(dá)的意義更加的豐富,于是我們定義單詞越長優(yōu)先級(jí)越高。

具體來說,就是在某個(gè)下標(biāo)為起點(diǎn)遞增查詞的過程中,優(yōu)先輸出更長的單詞,這種規(guī)則被稱為最長匹配算法。該下標(biāo)的掃描順序如果從前往后,則稱為正向最長匹配,反之則為逆向最長匹配。

下面,我們來實(shí)現(xiàn)正向最長匹配,代碼如下:

def forward_segment(text, dic):
    list = []
    i = 0
    while i < len(text):
        long_word = text[i]
        for j in range(i + 1, len(text) + 1):
            word = text[i:j]
            if word in dic:
                if len(word) > len(long_word):
                    long_word = word
        list.append(long_word)
        i += len(long_word)
    return list

算法的原理:首先通過while循環(huán)判斷i是否超出了字符串的大小,如果沒有,獲取當(dāng)前第一個(gè)字符串為第一個(gè)最長匹配結(jié)果,接著遍歷第一個(gè)字符串的所有可能組合結(jié)尾,如果在字典中,判斷當(dāng)前詞語是否大于前面的最長匹配結(jié)果,如果是替換掉最長。遍歷完成之后,將最長的結(jié)果添加到列表中,然后再獲取第二字符,遍歷所有結(jié)尾組合,獲取最長匹配。以此類推。

四、逆向最長匹配

既然了解了正向如何匹配,那么逆向算法應(yīng)該也很好寫。代碼如下:

def backward_segment(text, dic):
    list = []
    i = len(text) - 1
    while i >= 0:
        long_word = text[i]
        for j in range(0, i):
            word = text[j:i + 1]
            if word in dic:
                if len(word) > len(long_word):
                    long_word = word
                    break
        list.append(long_word)
        i -= len(long_word)
    return list

算法的原理:就是上面的正向反過來,但是這里并不是倒推文字,文字還是按語句的順序,但是長度是從最長到最短,也就是遇到第一個(gè)就可以返回了添加了。比正向最長匹配算法節(jié)約時(shí)間。

五、雙向最長匹配

雖然逆向比正向節(jié)約時(shí)間,但本身有一個(gè)很大的漏洞。假如我現(xiàn)在的句子中有一段“項(xiàng)目的”字符串,那么正向會(huì)出現(xiàn)“項(xiàng)目”,“的”兩個(gè)詞匯,而逆向會(huì)出現(xiàn):“項(xiàng)”,“目的”兩個(gè)詞匯。

為此,我們的算法工程師提出了新的匹配規(guī)則,雙向最長匹配。這是一種融合兩種匹配方法的復(fù)雜規(guī)則,流程如下:

同時(shí)執(zhí)行正向和逆向最長匹配,若兩者的詞數(shù)不同,則返回詞數(shù)更少的一個(gè)否則,返回兩者中單字更少的那一個(gè)。當(dāng)單字也相同時(shí),優(yōu)先返回逆向最長匹配結(jié)果

具體代碼如下:

#統(tǒng)計(jì)單字個(gè)數(shù)
def count_single_char(list):
    return sum(1 for word in list if len(word) == 1)

#雙向匹配算法
def bidirectional_segment():
    f = forward_segment("在絕對(duì)實(shí)力面前,一切的說辭都是枉然", dic)
    b = backward_segment("在絕對(duì)實(shí)力面前,一切的說辭都是枉然", dic)
    if len(f) < len(b):
        return f
    elif len(f) > len(b):
        return b
    else:
        if count_single_char(f)<count_single_char(b):
            return f
        else:
            return b

到此這篇關(guān)于Python自然語言處理之切分算法詳解的文章就介紹到這了,更多相關(guān)python切分算法內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • Python+MongoDB自增鍵值的簡單實(shí)現(xiàn)

    Python+MongoDB自增鍵值的簡單實(shí)現(xiàn)

    下面小編就為大家?guī)硪黄狿ython+MongoDB自增鍵值的簡單實(shí)現(xiàn)。小編覺得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧
    2016-11-11
  • 淺談anaconda python 版本對(duì)應(yīng)關(guān)系

    淺談anaconda python 版本對(duì)應(yīng)關(guān)系

    這篇文章主要介紹了淺談anaconda python 版本對(duì)應(yīng)關(guān)系,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-10-10
  • python檢查序列seq是否含有aset中項(xiàng)的方法

    python檢查序列seq是否含有aset中項(xiàng)的方法

    這篇文章主要介紹了python檢查序列seq是否含有aset中項(xiàng)的方法,涉及Python針對(duì)序列的相關(guān)判斷技巧,需要的朋友可以參考下
    2015-06-06
  • python實(shí)現(xiàn)超級(jí)瑪麗游戲

    python實(shí)現(xiàn)超級(jí)瑪麗游戲

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)超級(jí)瑪麗游戲,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2020-03-03
  • python Bamboolib庫加速Pandas數(shù)據(jù)分析過程詳解

    python Bamboolib庫加速Pandas數(shù)據(jù)分析過程詳解

    這篇文章主要介紹了python Bamboolib庫加速Pandas數(shù)據(jù)分析過程詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • python?獲取list?長度

    python?獲取list?長度

    這篇文章主要介紹了python?獲取list?長度?,下面文章我們將研究獲取長度列表的不同方法,使用內(nèi)置的len()函數(shù),len是默認(rèn)情況下python提供的內(nèi)置函數(shù),下面進(jìn)入文章了解更多的詳細(xì)內(nèi)容吧
    2022-02-02
  • python爬蟲獲取淘寶天貓商品詳細(xì)參數(shù)

    python爬蟲獲取淘寶天貓商品詳細(xì)參數(shù)

    這篇文章主要為大家詳細(xì)介紹了python爬蟲獲取淘寶天貓商品詳細(xì)參數(shù),文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2018-02-02
  • Python字符串的基本操作方法(非常詳細(xì))

    Python字符串的基本操作方法(非常詳細(xì))

    字符串是python中最常見的數(shù)據(jù)類型,創(chuàng)建字符串只需用引號(hào)括起來分配給一個(gè)變量即可,這篇文章主要給大家介紹了關(guān)于Python字符串的基本操作方法的相關(guān)資料,文中通過圖文介紹的非常詳細(xì),需要的朋友可以參考下
    2023-11-11
  • 詳解python中的index函數(shù)用法

    詳解python中的index函數(shù)用法

    這篇文章主要介紹了詳解python中的index函數(shù)用法,非常不錯(cuò),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-08-08
  • python獲取Linux發(fā)行版名稱

    python獲取Linux發(fā)行版名稱

    這篇文章主要介紹了python獲取Linux發(fā)行版名稱的方法,本文給大家介紹的非常詳細(xì),具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2019-08-08

最新評(píng)論