Python jieba結巴分詞原理及用法解析
1、簡要說明
結巴分詞支持三種分詞模式,支持繁體字,支持自定義詞典
2、三種分詞模式
全模式:把句子中所有的可以成詞的詞語都掃描出來, 速度非???,但是不能解決歧義
精簡模式:把句子最精確的分開,不會添加多余單詞,看起來就像是把句子分割一下
搜索引擎模式:在精簡模式下,對長詞再度切分
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '我去北京天安門廣場跳舞' a = jieba.lcut(str1, cut_all=True) # 全模式 print('全模式:{}'.format(a)) b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) c = jieba.lcut_for_search(str1) # 搜索引擎模式 print('搜索引擎模式:{}'.format(c))
運行
3、某個詞語不能被分開
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': str1 = '桃花俠大戰(zhàn)菊花怪' b = jieba.lcut(str1, cut_all=False) # 精簡模式 print('精簡模式:{}'.format(b)) # 如果不把桃花俠分開 jieba.add_word('桃花俠') d = jieba.lcut(str1) # 默認是精簡模式 print(d)
運行
4、 某個單詞必須被分開
# -*- encoding=utf-8 -*- import jieba if __name__ == '__main__': # HMM參數,默認為True '''HMM 模型,即隱馬爾可夫模型(Hidden Markov Model, HMM),是一種基于概率的統(tǒng)計分析模型, 用來描述一個系統(tǒng)隱性狀態(tài)的轉移和隱性狀態(tài)的表現(xiàn)概率。 在 jieba 中,對于未登錄到詞庫的詞,使用了基于漢字成詞能力的 HMM 模型和 Viterbi 算法, 其大致原理是: 采用四個隱含狀態(tài),分別表示為單字成詞,詞組的開頭,詞組的中間,詞組的結尾。 通過標注好的分詞訓練集,可以得到 HMM 的各個參數,然后使用 Viterbi 算法來解釋測試集,得到分詞結果。 ''' str1 = '桃花俠大戰(zhàn)菊花怪' b = jieba.lcut(str1, cut_all=False, HMM=False) # 精簡模式,且不使用HMM模型 print('精簡模式:{}'.format(b)) # 分開大戰(zhàn)為大和戰(zhàn) jieba.suggest_freq(('大', '戰(zhàn)'), True) e = jieba.lcut(str1, HMM=False) # 不使用HMM模型 print('分開:{}'.format(e))
運行
以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。
相關文章
Python自動化運維之Ansible定義主機與組規(guī)則操作詳解
這篇文章主要介紹了Python自動化運維之Ansible定義主機與組規(guī)則操作,結合實例形式分析了自動化運維工具Ansible定義主機與組規(guī)則相關配置操作與注意事項,需要的朋友可以參考下2019-06-06Python調用易語言動態(tài)鏈接庫實現(xiàn)驗證碼功能
今天成功把易語言調用驗證碼通殺的DLL在Python中成功調用了,心理美滋滋的,接著把我的經驗及示例代碼分享給大家,希望對大家有所幫助2021-08-08Tensorflow2.1實現(xiàn)Fashion圖像分類示例詳解
這篇文章主要為大家介紹了Tensorflow2.1實現(xiàn)Fashion圖像分類示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪2022-11-11Python+matplotlib實現(xiàn)計算兩個信號的交叉譜密度實例
這篇文章主要介紹了Python+matplotlib實現(xiàn)計算兩個信號的交叉譜密度實例,具有一定借鑒價值,需要的朋友可以參考下2018-01-01Python實現(xiàn)給文件添加內容及得到文件信息的方法
這篇文章主要介紹了Python實現(xiàn)給文件添加內容及得到文件信息的方法,可實現(xiàn)從文件開頭添加內容的功能,需要的朋友可以參考下2015-05-05python+opencv實現(xiàn)動態(tài)物體識別
這篇文章主要為大家詳細介紹了python+opencv實現(xiàn)動態(tài)物體識別,具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-01-01socket + select 完成偽并發(fā)操作的實例
下面小編就為大家?guī)硪黄猻ocket + select 完成偽并發(fā)操作的實例。小編覺得挺不錯的,現(xiàn)在就分享給大家,也給大家做個參考。一起跟隨小編過來看看吧2017-08-08