Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型

更新時間：2021年09月21日 14:11:50 作者：我是小白呀

本文是Python機(jī)器學(xué)習(xí)NLP自然語言處理系列文章，帶大家開啟一段學(xué)習(xí)自然語言處理 (NLP) 的旅程。本篇文章主要學(xué)習(xí)NLP自然語言處理基本操作之詞袋模型

概述

從今天開始我們將開啟一段自然語言處理 (NLP) 的旅程. 自然語言處理可以讓來處理, 理解, 以及運(yùn)用人類的語言, 實(shí)現(xiàn)機(jī)器語言和人類語言之間的溝通橋梁.

在這里插入圖片描述

詞袋模型

詞袋模型 (Bag of Words Model) 能幫助我們把一個句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計.

在這里插入圖片描述

向量化

詞袋模型首先會進(jìn)行分詞, 在分詞之后. 通過通過統(tǒng)計在每個詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語的特征, 如果將各個文本樣本的這些詞與對應(yīng)的詞頻放在一起, 就是我們常說的向量化.

在這里插入圖片描述

例子:

import jieba
from gensim import corpora
# 定義標(biāo)點(diǎn)符號
punctuation = ["，", "。", "：", "；", "?", "!"]
# 定義語料
content = [
    "今天天氣真不錯!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分詞
seg = [jieba.lcut(con) for con in content]
print("語料:", seg)

# 去除標(biāo)點(diǎn)符號
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除標(biāo)點(diǎn):", tokenized)
# tokenized是去標(biāo)點(diǎn)之后的
dictionary = corpora.Dictionary(seg)
print("詞袋模型:", dictionary)

# 保存詞典
dictionary.save('deerwester.dict')
# 查看字典和下標(biāo)id的映射
print("編號:", dictionary.token2id)

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
語料: [['今天天氣', '真不錯', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除標(biāo)點(diǎn): [['今天天氣', '真不錯'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯', '下雨', '明天', '要']...)
編號: {'今天天氣': 0, '真不錯': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

以上就是Python機(jī)器學(xué)習(xí)NLP自然語言處理基本操作詞袋模型的詳細(xì)內(nèi)容，更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語言處理的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

相關(guān)文章

python繪制封閉多邊形教程
今天小編就為大家分享一篇python繪制封閉多邊形教程，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
Python日期時間模塊arrow的具體使用
Python中有很多時間和日期處理的庫，有time、datetime等，本文主要介紹了一下arrow，arrow是一個專門處理時間和日期的輕量級Python庫，感興趣的可以了解一下
2021-09-09
Python實(shí)現(xiàn)刪除文件但保留指定文件
這篇文章主要介紹了Python實(shí)現(xiàn)刪除文件但保留指定文件,本文直接給出實(shí)現(xiàn)代碼,并同時給出代碼解釋,需要的朋友可以參考下
2015-06-06
Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例
這篇文章主要介紹了Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-09-09
Python Numpy實(shí)現(xiàn)計算矩陣的均值和標(biāo)準(zhǔn)差詳解
NumPy（Numerical Python）是Python的一種開源的數(shù)值計算擴(kuò)展。這種工具可用來存儲和處理大型矩陣，比Python自身的嵌套列表結(jié)構(gòu)要高效的多。本文主要介紹用NumPy實(shí)現(xiàn)計算矩陣的均值和標(biāo)準(zhǔn)差，感興趣的小伙伴可以了解一下
2021-11-11
詳解Python調(diào)試神器之PySnooper
在程序開發(fā)過程中，代碼的運(yùn)行往往會和我們預(yù)期的結(jié)果有所差別。于是，我們需要清楚代碼運(yùn)行過程中到底發(fā)生了什么？代碼哪些模塊運(yùn)行了，哪些模塊沒有運(yùn)行？輸出的局部變量是什么樣的？PySnooper，能夠大大減少調(diào)試過程中的工作量
2021-11-11
Python代碼調(diào)試的幾種方法總結(jié)
這篇文章主要介紹了Python代碼調(diào)試的幾種方法總結(jié),本文來自于IBM官方網(wǎng)站技術(shù)文檔,需要的朋友可以參考下
2015-04-04
python的函數(shù)形參和返回值你了解嗎
這篇文章主要為大家詳細(xì)介紹了python的函數(shù)形參和返回值，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-03-03
python中的elasticsearch_dsl查詢語句轉(zhuǎn)換成es查詢語句詳解
這篇文章主要介紹了python中的elasticsearch_dsl查詢語句轉(zhuǎn)換成es查詢語句詳解,ElasticSearch在實(shí)際生產(chǎn)里通常和LogStash，Kibana，F(xiàn)ileBeat一起構(gòu)成Elastic?Stack來使用，它是這些組件里面最核心的一個,需要的朋友可以參考下
2023-07-07
Python通過matplotlib繪制動畫簡單實(shí)例
這篇文章主要介紹了Python通過matplotlib繪制動畫簡單實(shí)例，具有一定借鑒價值，需要的朋友可以參考下。
2017-12-12