欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作詞袋模型

 更新時(shí)間:2021年09月21日 14:11:50   作者:我是小白呀  
本文是Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理系列文章,帶大家開(kāi)啟一段學(xué)習(xí)自然語(yǔ)言處理 (NLP) 的旅程。本篇文章主要學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之詞袋模型

概述

從今天開(kāi)始我們將開(kāi)啟一段自然語(yǔ)言處理 (NLP) 的旅程. 自然語(yǔ)言處理可以讓來(lái)處理, 理解, 以及運(yùn)用人類(lèi)的語(yǔ)言, 實(shí)現(xiàn)機(jī)器語(yǔ)言和人類(lèi)語(yǔ)言之間的溝通橋梁.

在這里插入圖片描述

詞袋模型

詞袋模型 (Bag of Words Model) 能幫助我們把一個(gè)句子轉(zhuǎn)換為向量表示. 詞袋模型把文本看作是無(wú)序的詞匯集合, 把每一單詞都進(jìn)行統(tǒng)計(jì).

在這里插入圖片描述

向量化

詞袋模型首先會(huì)進(jìn)行分詞, 在分詞之后. 通過(guò)通過(guò)統(tǒng)計(jì)在每個(gè)詞在文本中出現(xiàn)的次數(shù). 我們就可以得到該文本基于詞語(yǔ)的特征, 如果將各個(gè)文本樣本的這些詞與對(duì)應(yīng)的詞頻放在一起, 就是我們常說(shuō)的向量化.

在這里插入圖片描述

例子:

import jieba
from gensim import corpora
# 定義標(biāo)點(diǎn)符號(hào)
punctuation = [",", "。", ":", ";", "?", "!"]
# 定義語(yǔ)料
content = [
    "今天天氣真不錯(cuò)!",
    "明天要下雨?",
    "后天要打雷。"
]
# 分詞
seg = [jieba.lcut(con) for con in content]
print("語(yǔ)料:", seg)

# 去除標(biāo)點(diǎn)符號(hào)
tokenized = seg.copy()
for s in tokenized:
    for p in punctuation:
        if p in s:
            s.remove(p)
print("去除標(biāo)點(diǎn):", tokenized)
# tokenized是去標(biāo)點(diǎn)之后的
dictionary = corpora.Dictionary(seg)
print("詞袋模型:", dictionary)

# 保存詞典
dictionary.save('deerwester.dict')
# 查看字典和下標(biāo)id的映射
print("編號(hào):", dictionary.token2id)

輸出結(jié)果:

Building prefix dict from the default dictionary ...
Loading model from cache C:\Users\Windows\AppData\Local\Temp\jieba.cache
Loading model cost 1.140 seconds.
Prefix dict has been built successfully.
語(yǔ)料: [['今天天氣', '真不錯(cuò)', '!'], ['明天', '要', '下雨', '?'], ['后天', '要', '打雷', '。']]
去除標(biāo)點(diǎn): [['今天天氣', '真不錯(cuò)'], ['明天', '要', '下雨'], ['后天', '要', '打雷']]
詞袋模型: Dictionary(7 unique tokens: ['今天天氣', '真不錯(cuò)', '下雨', '明天', '要']...)
編號(hào): {'今天天氣': 0, '真不錯(cuò)': 1, '下雨': 2, '明天': 3, '要': 4, '后天': 5, '打雷': 6}

以上就是Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作詞袋模型的詳細(xì)內(nèi)容,更多關(guān)于Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • python繪制封閉多邊形教程

    python繪制封閉多邊形教程

    今天小編就為大家分享一篇python繪制封閉多邊形教程,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-02-02
  • Python日期時(shí)間模塊arrow的具體使用

    Python日期時(shí)間模塊arrow的具體使用

    Python中有很多時(shí)間和日期處理的庫(kù),有time、datetime等,本文主要介紹了一下arrow,arrow是一個(gè)專(zhuān)門(mén)處理時(shí)間和日期的輕量級(jí)Python庫(kù),感興趣的可以了解一下
    2021-09-09
  • Python實(shí)現(xiàn)刪除文件但保留指定文件

    Python實(shí)現(xiàn)刪除文件但保留指定文件

    這篇文章主要介紹了Python實(shí)現(xiàn)刪除文件但保留指定文件,本文直接給出實(shí)現(xiàn)代碼,并同時(shí)給出代碼解釋,需要的朋友可以參考下
    2015-06-06
  • Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例

    Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例

    這篇文章主要介紹了Python面向?qū)ο蠖鄳B(tài)實(shí)現(xiàn)原理及代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-09-09
  • Python Numpy實(shí)現(xiàn)計(jì)算矩陣的均值和標(biāo)準(zhǔn)差詳解

    Python Numpy實(shí)現(xiàn)計(jì)算矩陣的均值和標(biāo)準(zhǔn)差詳解

    NumPy(Numerical Python)是Python的一種開(kāi)源的數(shù)值計(jì)算擴(kuò)展。這種工具可用來(lái)存儲(chǔ)和處理大型矩陣,比Python自身的嵌套列表結(jié)構(gòu)要高效的多。本文主要介紹用NumPy實(shí)現(xiàn)計(jì)算矩陣的均值和標(biāo)準(zhǔn)差,感興趣的小伙伴可以了解一下
    2021-11-11
  • 詳解Python調(diào)試神器之PySnooper

    詳解Python調(diào)試神器之PySnooper

    在程序開(kāi)發(fā)過(guò)程中,代碼的運(yùn)行往往會(huì)和我們預(yù)期的結(jié)果有所差別。于是,我們需要清楚代碼運(yùn)行過(guò)程中到底發(fā)生了什么?代碼哪些模塊運(yùn)行了,哪些模塊沒(méi)有運(yùn)行?輸出的局部變量是什么樣的?PySnooper,能夠大大減少調(diào)試過(guò)程中的工作量
    2021-11-11
  • Python代碼調(diào)試的幾種方法總結(jié)

    Python代碼調(diào)試的幾種方法總結(jié)

    這篇文章主要介紹了Python代碼調(diào)試的幾種方法總結(jié),本文來(lái)自于IBM官方網(wǎng)站技術(shù)文檔,需要的朋友可以參考下
    2015-04-04
  • python的函數(shù)形參和返回值你了解嗎

    python的函數(shù)形參和返回值你了解嗎

    這篇文章主要為大家詳細(xì)介紹了python的函數(shù)形參和返回值,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來(lái)幫助
    2022-03-03
  • python中的elasticsearch_dsl查詢(xún)語(yǔ)句轉(zhuǎn)換成es查詢(xún)語(yǔ)句詳解

    python中的elasticsearch_dsl查詢(xún)語(yǔ)句轉(zhuǎn)換成es查詢(xún)語(yǔ)句詳解

    這篇文章主要介紹了python中的elasticsearch_dsl查詢(xún)語(yǔ)句轉(zhuǎn)換成es查詢(xún)語(yǔ)句詳解,ElasticSearch在實(shí)際生產(chǎn)里通常和LogStash,Kibana,F(xiàn)ileBeat一起構(gòu)成Elastic?Stack來(lái)使用,它是這些組件里面最核心的一個(gè),需要的朋友可以參考下
    2023-07-07
  • Python通過(guò)matplotlib繪制動(dòng)畫(huà)簡(jiǎn)單實(shí)例

    Python通過(guò)matplotlib繪制動(dòng)畫(huà)簡(jiǎn)單實(shí)例

    這篇文章主要介紹了Python通過(guò)matplotlib繪制動(dòng)畫(huà)簡(jiǎn)單實(shí)例,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12

最新評(píng)論