欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python sklearn CountVectorizer使用詳解

 更新時(shí)間:2023年03月23日 11:21:31   作者:math_gao  
這篇文章主要介紹了Python_sklearn_CountVectorizer使用詳解,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下

簡(jiǎn)介

CountVectorizer官方文檔。

將一個(gè)文檔集合向量化為為一個(gè)計(jì)數(shù)矩陣。

如果不提供一個(gè)先驗(yàn)字典,不使用分析器做某種特征選擇,那么特征的數(shù)量將等于通過(guò)分析數(shù)據(jù)發(fā)現(xiàn)的詞匯量。

數(shù)據(jù)預(yù)處理

兩種方法:1.可以不分詞直接投入模型;2.可以先將中文文本進(jìn)行分詞。

兩種方法產(chǎn)生的詞匯會(huì)非常不同。在后面會(huì)具體給出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始數(shù)據(jù)
text = ['很少在公眾場(chǎng)合手機(jī)外放',
        '大部分人都還是很認(rèn)真去學(xué)習(xí)的',
        '他們會(huì)用行動(dòng)來(lái)',
        '無(wú)論你現(xiàn)在有多頹廢,振作起來(lái)',
        '只需要一點(diǎn)點(diǎn)地改變',
        '你的外在和內(nèi)在都能煥然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分詞
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

pic1

構(gòu)建模型

訓(xùn)練模型

#構(gòu)建模型
vectorizer = CountVectorizer()
#訓(xùn)練模型
X = vectorizer.fit_transform(text)

所有詞匯:model.get_feature_names()

#所有文檔匯集后生成的詞匯
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分詞生成的詞匯

pic2

分詞后生成的詞匯

pic3

計(jì)數(shù)矩陣:X.toarray()

#每個(gè)文檔相對(duì)詞匯量出現(xiàn)次數(shù)形成的矩陣
matrix = X.toarray()
print(matrix)

pic4

#計(jì)數(shù)矩陣轉(zhuǎn)化為DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

pic5

詞匯索引:model.vocabulary_

print(vectorizer.vocabulary_)

pic6

到此這篇關(guān)于Python_sklearn_CountVectorizer使用詳解的文章就介紹到這了,更多相關(guān)Python_sklearn_CountVectorizer使用內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 利用Python如何畫一顆心、小人發(fā)射愛心

    利用Python如何畫一顆心、小人發(fā)射愛心

    這篇文章主要給大家介紹了關(guān)于利用Python如何畫一顆心、小人發(fā)射愛心的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-02-02
  • python自動(dòng)生成證件號(hào)的方法示例

    python自動(dòng)生成證件號(hào)的方法示例

    這篇文章主要給大家介紹了關(guān)于python自動(dòng)生成證件號(hào)的相關(guān)資料,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-01-01
  • 利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白

    利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白

    馬上520了,教大家用Python做一個(gè)下愛心雨的特效,這篇文章主要給大家介紹了關(guān)于利用python實(shí)現(xiàn)全屏愛心雨向喜歡的人表白的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-05-05
  • Python optparse模塊及簡(jiǎn)單使用

    Python optparse模塊及簡(jiǎn)單使用

    optparse,是一個(gè)更夠讓程序設(shè)計(jì)人員輕松設(shè)計(jì)出簡(jiǎn)單明了、易于使用、符合標(biāo)準(zhǔn)的Unix命令例程式的Python模塊,生成使用和幫助信息,這篇文章主要介紹了Python optparse模塊簡(jiǎn)單使用,需要的朋友可以參考下
    2022-12-12
  • pygame實(shí)現(xiàn)時(shí)鐘效果

    pygame實(shí)現(xiàn)時(shí)鐘效果

    這篇文章主要為大家詳細(xì)介紹了pygame實(shí)現(xiàn)時(shí)鐘效果,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • OpenCV 圖像梯度的實(shí)現(xiàn)方法

    OpenCV 圖像梯度的實(shí)現(xiàn)方法

    梯度簡(jiǎn)單來(lái)說(shuō)就是求導(dǎo)。本文主要介紹了OpenCV 圖像梯度的實(shí)現(xiàn)方法,文中通過(guò)示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-07-07
  • Pycharm使用Conda激活環(huán)境失敗的問(wèn)題解決

    Pycharm使用Conda激活環(huán)境失敗的問(wèn)題解決

    本文主要介紹了Pycharm使用Conda激活環(huán)境失敗的問(wèn)題解決,文中主要介紹了兩種問(wèn)題的解決,具有一定的參考價(jià)值,感興趣的可以了解一下
    2023-09-09
  • Python?Asyncio中Coroutines,Tasks,Future可等待對(duì)象的關(guān)系及作用

    Python?Asyncio中Coroutines,Tasks,Future可等待對(duì)象的關(guān)系及作用

    這篇文章主要介紹了Python?Asyncio中Coroutines,Tasks,Future可等待對(duì)象的關(guān)系及作用,文章圍繞主題展開詳細(xì)的內(nèi)容介紹,需要的小伙伴可以參考一下
    2022-06-06
  • tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式

    tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式

    今天小編就為大家分享一篇tensorflow 利用expand_dims和squeeze擴(kuò)展和壓縮tensor維度方式,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2020-02-02
  • Python運(yùn)算符的應(yīng)用超全面詳細(xì)教程

    Python運(yùn)算符的應(yīng)用超全面詳細(xì)教程

    Python運(yùn)算符是為了實(shí)現(xiàn)數(shù)值或字符運(yùn)算的特殊符號(hào)。Python運(yùn)算符可以分為算術(shù)運(yùn)算符、邏輯運(yùn)算符、賦值運(yùn)算符、成員運(yùn)算符、身份運(yùn)算符、比較運(yùn)算符、三目運(yùn)算符等。接下來(lái),我們就開始來(lái)學(xué)習(xí)這一堆符號(hào)吧
    2022-07-07

最新評(píng)論