淺析常用分詞算法的比較與設(shè)想
與基于理解的分詞算法和基于統(tǒng)計(jì)的分詞算法相比,基于文本匹配的算法更加通用?;谖谋酒ヅ涞乃惴ㄓ址Q之為“機(jī)械分詞算法”,他是它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配,若在詞典中找到某個(gè)字符串,則匹配成功,可識(shí)別出一個(gè)詞。按照掃描方向的不同,文本匹配分詞方法可以分為正向匹配和逆向匹配兩種;按照不同長(zhǎng)度優(yōu)先匹配的情況,可以分為最大(最長(zhǎng))匹配和最小(最短)匹配;按照是否與詞性標(biāo)注過(guò)程相結(jié)合,又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。
常用的幾種機(jī)械分詞方法如下:
1) 正向最大匹配法(由左到右的方向)
2) 逆向最大匹配法(由右到左的方向)
3) 最少切分(使每一句中切出的詞數(shù)最?。?。
其他的還有將上述各種方法相互組合形成的分詞算法,例如,可以將正向最大匹配方法和逆向最大匹配方法結(jié)合起來(lái)構(gòu)成雙向匹配法。由于漢語(yǔ)單字成詞的特點(diǎn),正向最小匹配和逆向最小匹配一般很少使用。本文中著重討論正向最大匹配法和逆向最大匹配法。
由于機(jī)械分詞算法的準(zhǔn)確性取決于算法的準(zhǔn)確性與詞庫(kù)完備性兩個(gè)方面。在本文中設(shè)想詞庫(kù)充分大,包含需要的詞語(yǔ)。
一般說(shuō)來(lái),逆向匹配的切分精度略高于正向匹配,遇到的歧義現(xiàn)象也較少。統(tǒng)計(jì)結(jié)果表明,單純使用正向最大匹配的錯(cuò)誤率為1/169,單純使用逆向最大匹配的錯(cuò)誤率為1/245。但這種精度還遠(yuǎn)遠(yuǎn)不能滿足實(shí)際的需要。實(shí)際使用的分詞系統(tǒng),都是把機(jī)械分詞作為一種初分手段,還需通過(guò)利用各種其它的語(yǔ)言信息來(lái)進(jìn)一步提高切分的準(zhǔn)確率。
相關(guān)文章
asp.net core配合vue實(shí)現(xiàn)后端驗(yàn)證碼邏輯
網(wǎng)上的前端驗(yàn)證碼邏輯總感覺(jué)不安全,驗(yàn)證碼建議還是使用后端配合驗(yàn)證。本文主要介紹了asp.net core配合vue實(shí)現(xiàn)后端驗(yàn)證碼邏輯,感興趣的可以了解一下2021-06-06Asp.net Core與類庫(kù)讀取配置文件信息的方法
這篇文章主要給大家介紹了關(guān)于Asp.net Core與類庫(kù)讀取配置文件信息的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2018-12-12ASPX中的用戶控件與ASP中的INCLUDE方法對(duì)比
ASPX中的用戶控件與ASP中的INCLUDE方法對(duì)比...2006-09-09解決iis7.5服務(wù)器上.net 獲取不到https頁(yè)面的信息
讓我糾結(jié)了一天多的問(wèn)題,給大家看下,有相同情況的可以不用浪費(fèi)時(shí)間了,本人當(dāng)時(shí)找了好半天都沒(méi)找到什么有用的信息,項(xiàng)目在本地沒(méi)有問(wèn)題,但部署在服務(wù)器后,獲取不到https頁(yè)面的信息,加入下面的代碼就可以了,因?yàn)閕is7.5的安全協(xié)議比較高的原因。2014-06-06asp.net保存網(wǎng)上圖片到服務(wù)器的實(shí)例
本篇文章主要介紹了asp.net保存網(wǎng)上圖片到服務(wù)器,非常具有實(shí)用價(jià)值,需要的朋友可以參考下。2016-10-10Asp.Net 生成靜態(tài)頁(yè)并實(shí)現(xiàn)分頁(yè)效果
Asp.Net 生成靜態(tài)頁(yè)并實(shí)現(xiàn)分頁(yè)效果的代碼,需要的朋友可以參考下。2010-04-04ASP.NET?MVC5網(wǎng)站開發(fā)之用戶角色的后臺(tái)管理1(七)
這篇文章主要為大家詳細(xì)介紹了ASP.NET?MVC5網(wǎng)站開發(fā)之用戶角色的后臺(tái)管理,感興趣的小伙伴們可以參考一下2016-08-08