快捷導(dǎo)航

幾款開源的中文分詞系統(tǒng)

更新時(shí)間：2012年11月13日 17:47:18 投稿：mdxy-dxy

中文分詞是做好中文內(nèi)容檢索、文本分析的基礎(chǔ)，主要應(yīng)用于搜索引擎與數(shù)據(jù)挖掘領(lǐng)域。中文是以詞為基本語(yǔ)素單位，而詞與詞之間并不像英語(yǔ)一樣有空格來分隔，因而中文分詞的難點(diǎn)在于如何準(zhǔn)確而又快速地進(jìn)行分詞

以下介紹4款開源中文分詞系統(tǒng)。

ICTCLAS – 全球最受歡迎的漢語(yǔ)分詞系統(tǒng)

中文詞法分析是中文信息處理的基礎(chǔ)與關(guān)鍵。中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上，研制出了漢語(yǔ)詞法分析系統(tǒng)ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分詞；詞性標(biāo)注；命名實(shí)體識(shí)別；新詞識(shí)別；同時(shí)支持用戶詞典；支持繁體中文；支持GBK、UTF-8、UTF-7、UNICODE等多種編碼格式。我們先后精心打造五年，內(nèi)核升級(jí)6次，目前已經(jīng)升級(jí)到了ICTCLAS3.0。ICTCLAS3.0分詞速度單機(jī)996KB/s，分詞精度98.45%，API不超過200KB，各種詞典數(shù)據(jù)壓縮后不到3M，是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。

HTTPCWS – 基于HTTP協(xié)議的開源中文分詞系統(tǒng)

HTTPCWS 是一款基于HTTP協(xié)議的開源中文分詞系統(tǒng)，目前僅支持Linux系統(tǒng)。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分詞算法”的API進(jìn)行分詞處理，得出分詞結(jié)果。

ICTCLAS是中國(guó)科學(xué)院計(jì)算技術(shù)研究所在多年研究工作積累的基礎(chǔ)上，基于多層隱馬模型研制出的漢語(yǔ)詞法分析系統(tǒng)，主要功能包括中文分詞；詞性標(biāo)注；命名實(shí)體識(shí)別；新詞識(shí)別；同時(shí)支持用戶詞典。ICTCLAS經(jīng)過五年精心打造，內(nèi)核升級(jí)6次，目前已經(jīng)升級(jí)到了ICTCLAS3.0，分詞精度98.45%，各種詞典數(shù)據(jù)壓縮后不到3M。ICTCLAS在國(guó)內(nèi)973專家組組織的評(píng)測(cè)中活動(dòng)獲得了第一名，在第一屆國(guó)際中文處理研究機(jī)構(gòu)SigHan組織的評(píng)測(cè)中都獲得了多項(xiàng)第一名，是當(dāng)前世界上最好的漢語(yǔ)詞法分析器。

SCWS – 簡(jiǎn)易中文分詞系統(tǒng)

SCWS 在概念上并無創(chuàng)新成分，采用的是自行采集的詞頻詞典，并輔以一定程度上的專有名稱、人名、地名、數(shù)字年代等規(guī)則集，經(jīng)小范圍測(cè)試大概準(zhǔn)確率在 90% ~ 95% 之間，已能基本滿足一些中小型搜索引擎、關(guān)鍵字提取等場(chǎng)合運(yùn)用。 SCWS 采用純 C 代碼開發(fā)，以 Unix-Like OS 為主要平臺(tái)環(huán)境，提供共享函數(shù)庫(kù)，方便植入各種現(xiàn)有軟件系統(tǒng)。此外它支持 GBK，UTF-8，BIG5 等漢字編碼，切詞效率高。

PhpanAlysis - PHP無組件分詞系統(tǒng)

PhpanAlysis分詞系統(tǒng)是基于字符串匹配的分詞方法，這種方法又叫做機(jī)械分詞方法，它是按照一定的策略將待分析的漢字串與一個(gè)“充分大的”機(jī)器詞典中的詞條進(jìn)行配，若在詞典中找到某個(gè)字符串，則匹配成功（識(shí)別出一個(gè)詞）。按照掃描方向的不同，串匹配分詞方法可以分為正向匹配和逆向匹配；按照不同長(zhǎng)度優(yōu)先匹配的情況，可以分為最大（最長(zhǎng)）匹配和最?。ㄗ疃蹋┢ヅ洌话凑帐欠衽c詞性標(biāo)注過程相結(jié)合，又可以分為單純分詞方法和分詞與標(biāo)注相結(jié)合的一體化方法。

MMSEG4J　　

MMSEG4J基于Java的開源中文分詞組件，提供lucene和solr 接口

　　1）、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法實(shí)現(xiàn)的中文分詞器，并實(shí)現(xiàn) lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。

　　2）、MMSeg 算法有兩種分詞方法：Simple和Complex，都是基于正向最大匹配。Complex 加了四個(gè)規(guī)則過慮。官方說：詞語(yǔ)的正確識(shí)別率達(dá)到了 98.41%。mmseg4j 已經(jīng)實(shí)現(xiàn)了這兩種分詞算法。

IKAnalyzer 開源的輕量級(jí)中文分詞工具包

IKAnalyzer 是一個(gè)開源的，基于java語(yǔ)言開發(fā)的輕量級(jí)的中文分詞工具包。從2006年12月推出1.0版開始，IKAnalyzer已經(jīng)推出了3個(gè)大版本。最初，它是以開源項(xiàng)目Luence為應(yīng)用主體的，結(jié)合詞典分詞和文法分析算法的中文分詞組件。新版本的IKAnalyzer3.0則發(fā)展為面向Java的公用分詞組件。

IKAnalyzer3.0特性:

采用了特有的“正向迭代最細(xì)粒度切分算法“，具有60萬字/秒的高速處理能力。

采用了多子處理器分析模式，支持：英文字母（IP地址、Email、URL）、數(shù)字（日期，常用中文數(shù)量詞，羅馬數(shù)字，科學(xué)計(jì)數(shù)法），中文詞匯（姓名、地名處理）等分詞處理。優(yōu)化的詞典存儲(chǔ)，更小的內(nèi)存占用。