欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作精確分詞

 更新時(shí)間:2021年09月21日 13:22:21   作者:我是小白呀  
本文是Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理系列文章,帶大家開啟一段學(xué)習(xí)自然語(yǔ)言處理 (NLP) 的旅程. 本文主要學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之如何精確分詞

概述

從今天開始我們將開啟一段自然語(yǔ)言處理 (NLP) 的旅程. 自然語(yǔ)言處理可以讓來(lái)處理, 理解, 以及運(yùn)用人類的語(yǔ)言, 實(shí)現(xiàn)機(jī)器語(yǔ)言和人類語(yǔ)言之間的溝通橋梁.

在這里插入圖片描述

分詞器 jieba

jieba 算法基于前綴詞典實(shí)現(xiàn)高效的詞圖掃描, 生成句子中漢字所有可能成詞的情況所構(gòu)成的有向無(wú)環(huán)圖. 通過(guò)動(dòng)態(tài)規(guī)劃查找最大概率路徑, 找出基于詞頻的最大切分組合. 對(duì)于未登錄詞采用了基于漢字成詞能力的 HMM 模型, 使用 Viterbi 算法.

在這里插入圖片描述

安裝

pip install jieba

在這里插入圖片描述

查看是否安裝成功:

import jieba
print(jieba.__version__)

輸出結(jié)果:

0.42.1

精確分詞

精確分詞: 精確模式試圖將句子最精確地切開, 精確分詞也是默認(rèn)分詞.

在這里插入圖片描述

格式:

jieba.cut(content, cut_all=False)

參數(shù):

  • content: 需要分詞的內(nèi)容
  • cut_all: 如果為 True 則為全模式, False 為精確模式

例子:

import jieba
# 定義文本
content = "自然語(yǔ)言處理是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語(yǔ)言;自然語(yǔ)言處理包括多方面和步驟,基本有認(rèn)知、理解、生成等部分。"
# 精確分詞
seg = jieba.cut(content, cut_all=False)
# 調(diào)試輸出
print([word for word in seg])

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 0.984 seconds.
Prefix dict has been built successfully.
['自然語(yǔ)言', '處理', '是', '人工智能', '和', '語(yǔ)言學(xué)', '領(lǐng)域', '的', '分支', '學(xué)科', '。', '此', '領(lǐng)域', '探討', '如何', '處理', '及', '運(yùn)用', '自然語(yǔ)言', ';', '自然語(yǔ)言', '處理', '包括', '多方面', '和', '步驟', ',', '基本', '有', '認(rèn)知', '、', '理解', '、', '生成', '等', '部分', '。']

全模式

全模式分詞: 全模式會(huì)把句子中所有可能是詞語(yǔ)的都掃出來(lái). 速度非常快, 但不能解決歧義問(wèn)題.

例子:

C:\Users\Windows\Anaconda3\pythonw.exe "C:/Users/Windows/Desktop/project/NLP 基礎(chǔ)/結(jié)巴.py"
Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
['自然', '自然語(yǔ)言', '語(yǔ)言', '處理', '是', '人工', '人工智能', '智能', '和', '語(yǔ)言', '語(yǔ)言學(xué)', '領(lǐng)域', '的', '分支', '學(xué)科', '。', '此', '領(lǐng)域', '探討', '如何', '何處', '處理', '及', '運(yùn)用', '自然', '自然語(yǔ)言', '語(yǔ)言', ';', '自然', '自然語(yǔ)言', '語(yǔ)言', '處理', '包括', '多方', '多方面', '方面', '和', '步驟', ',', '基本', '有', '認(rèn)知', '、', '理解', '、', '生成', '等', '部分', '。']
Loading model cost 0.999 seconds.
Prefix dict has been built successfully.

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
['自然', '自然語(yǔ)言', '語(yǔ)言', '處理', '是', '人工', '人工智能', '智能', '和', '語(yǔ)言', '語(yǔ)言學(xué)', '領(lǐng)域', '的', '分支', '學(xué)科', '。', '此', '領(lǐng)域', '探討', '如何', '何處', '處理', '及', '運(yùn)用', '自然', '自然語(yǔ)言', '語(yǔ)言', ';', '自然', '自然語(yǔ)言', '語(yǔ)言', '處理', '包括', '多方', '多方面', '方面', '和', '步驟', ',', '基本', '有', '認(rèn)知', '、', '理解', '、', '生成', '等', '部分', '。']
Loading model cost 0.999 seconds.
Prefix dict has been built successfully.

搜索引擎模式

搜索引擎模式: 在精確模式的基礎(chǔ)上, 對(duì)長(zhǎng)詞再次切分. 提高召回率, 適合用于搜索引擎分詞.

在這里插入圖片描述

例子:

import jieba
# 定義文本
content = "自然語(yǔ)言處理是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語(yǔ)言;自然語(yǔ)言處理包括多方面和步驟,基本有認(rèn)知、理解、生成等部分。"
# 搜索引擎模式
seg = jieba.cut_for_search(content)
# 調(diào)試輸出
print([word for word in seg])

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
[('自然語(yǔ)言', 'l'), ('處理', 'v'), ('是', 'v'), ('人工智能', 'n'), ('和', 'c'), ('語(yǔ)言學(xué)', 'n'), ('領(lǐng)域', 'n'), ('的', 'uj'), ('分支', 'n'), ('學(xué)科', 'n'), ('。', 'x'), ('此', 'zg'), ('領(lǐng)域', 'n'), ('探討', 'v'), ('如何', 'r'), ('處理', 'v'), ('及', 'c'), ('運(yùn)用', 'vn'), ('自然語(yǔ)言', 'l'), (';', 'x'), ('自然語(yǔ)言', 'l'), ('處理', 'v'), ('包括', 'v'), ('多方面', 'm'), ('和', 'c'), ('步驟', 'n'), (',', 'x'), ('基本', 'n'), ('有', 'v'), ('認(rèn)知', 'v'), ('、', 'x'), ('理解', 'v'), ('、', 'x'), ('生成', 'v'), ('等', 'u'), ('部分', 'n'), ('。', 'x')]
Loading model cost 1.500 seconds.
Prefix dict has been built successfully.

獲取詞性

通過(guò) jieba.posseg 模式實(shí)現(xiàn)詞性標(biāo)注.

import jieba.posseg as psg
# 定義文本
content = "自然語(yǔ)言處理是人工智能和語(yǔ)言學(xué)領(lǐng)域的分支學(xué)科。此領(lǐng)域探討如何處理及運(yùn)用自然語(yǔ)言;自然語(yǔ)言處理包括多方面和步驟,基本有認(rèn)知、理解、生成等部分。"
# 分詞
seg = psg.lcut(content)
# 獲取詞性
part_of_speech = [(x.word, x.flag) for x in seg]
# 調(diào)試輸出
print(part_of_speech)

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
[('自然語(yǔ)言', 'l'), ('處理', 'v'), ('是', 'v'), ('人工智能', 'n'), ('和', 'c'), ('語(yǔ)言學(xué)', 'n'), ('領(lǐng)域', 'n'), ('的', 'uj'), ('分支', 'n'), ('學(xué)科', 'n'), ('。', 'x'), ('此', 'zg'), ('領(lǐng)域', 'n'), ('探討', 'v'), ('如何', 'r'), ('處理', 'v'), ('及', 'c'), ('運(yùn)用', 'vn'), ('自然語(yǔ)言', 'l'), (';', 'x'), ('自然語(yǔ)言', 'l'), ('處理', 'v'), ('包括', 'v'), ('多方面', 'm'), ('和', 'c'), ('步驟', 'n'), (',', 'x'), ('基本', 'n'), ('有', 'v'), ('認(rèn)知', 'v'), ('、', 'x'), ('理解', 'v'), ('、', 'x'), ('生成', 'v'), ('等', 'u'), ('部分', 'n'), ('。', 'x')]
Loading model cost 1.500 seconds.
Prefix dict has been built successfully.

以上就是Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之精確分詞的詳細(xì)內(nèi)容,更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Python隨機(jī)生成一個(gè)6位的驗(yàn)證碼代碼分享

    Python隨機(jī)生成一個(gè)6位的驗(yàn)證碼代碼分享

    這篇文章主要介紹了Python隨機(jī)生成一個(gè)6位的驗(yàn)證碼代碼分享,本文直接給出代碼實(shí)例,需要的朋友可以參考下
    2015-03-03
  • Python文件路徑os.path函數(shù)深入剖析

    Python文件路徑os.path函數(shù)深入剖析

    這篇文章主要為大家介紹了Python文件路徑os.path函數(shù)深入剖析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-08-08
  • 如何用python整理附件

    如何用python整理附件

    本篇文章給大家整理了關(guān)于如何用python整理附件的相關(guān)知識(shí)點(diǎn),學(xué)習(xí)python的朋友可以跟著測(cè)試下。
    2018-05-05
  • Pandas之to_sql()插入數(shù)據(jù)到mysql中所遇到的問(wèn)題及解決

    Pandas之to_sql()插入數(shù)據(jù)到mysql中所遇到的問(wèn)題及解決

    這篇文章主要介紹了Pandas之to_sql()插入數(shù)據(jù)到mysql中所遇到的問(wèn)題及解決方案,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-06-06
  • Python挑選文件夾里寬大于300圖片的方法

    Python挑選文件夾里寬大于300圖片的方法

    這篇文章主要介紹了Python挑選文件夾里寬大于300圖片的方法,實(shí)例分析了Python中PIL庫(kù)的使用技巧,具有一定參考借鑒價(jià)值,需要的朋友可以參考下
    2015-03-03
  • 詳解Python yaml模塊

    詳解Python yaml模塊

    這篇文章主要介紹了Python yaml模塊的相關(guān)資料,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下
    2020-09-09
  • Python之DataFrame輸出為csv\txt\xlsx文件問(wèn)題

    Python之DataFrame輸出為csv\txt\xlsx文件問(wèn)題

    這篇文章主要介紹了Python之DataFrame輸出為csv\txt\xlsx文件問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2023-08-08
  • 用Python將庫(kù)打包發(fā)布到pypi

    用Python將庫(kù)打包發(fā)布到pypi

    這篇文章主要介紹了用Python將庫(kù)打包發(fā)布到pypi,文中有很詳細(xì)的代碼作參考,對(duì)正在學(xué)習(xí)python的小伙伴們有很好的學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2021-04-04
  • python使用matplotlib繪圖時(shí)圖例顯示問(wèn)題的解決

    python使用matplotlib繪圖時(shí)圖例顯示問(wèn)題的解決

    matplotlib 是python最著名的繪圖庫(kù),它提供了一整套和matlab相似的命令A(yù)PI,十分適合交互式地進(jìn)行制圖。下面這篇文章主要給大家介紹了在python使用matplotlib繪圖時(shí)圖例顯示問(wèn)題的解決方法,需要的朋友可以參考學(xué)習(xí),下面來(lái)一起看看吧。
    2017-04-04
  • Python實(shí)現(xiàn)視頻中添加音頻工具詳解

    Python實(shí)現(xiàn)視頻中添加音頻工具詳解

    本文主要為大家介紹了Python中提供在無(wú)音頻的視頻中添加音頻的工具詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考一下
    2021-12-12

最新評(píng)論