欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python sklearn CountVectorizer使用詳解

 更新時間:2023年03月23日 11:21:31   作者:math_gao  
這篇文章主要介紹了Python_sklearn_CountVectorizer使用詳解,本文給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下

簡介

CountVectorizer官方文檔。

將一個文檔集合向量化為為一個計數(shù)矩陣。

如果不提供一個先驗字典,不使用分析器做某種特征選擇,那么特征的數(shù)量將等于通過分析數(shù)據(jù)發(fā)現(xiàn)的詞匯量。

數(shù)據(jù)預處理

兩種方法:1.可以不分詞直接投入模型;2.可以先將中文文本進行分詞。

兩種方法產(chǎn)生的詞匯會非常不同。在后面會具體給出示范。

import jieba
import re
from sklearn.feature_extraction.text import CountVectorizer
#原始數(shù)據(jù)
text = ['很少在公眾場合手機外放',
        '大部分人都還是很認真去學習的',
        '他們會用行動來',
        '無論你現(xiàn)在有多頹廢,振作起來',
        '只需要一點點地改變',
        '你的外在和內(nèi)在都能煥然一新']
#提取中文
text = [' '.join(re.findall('[\u4e00-\u9fa5]+',tt,re.S)) for tt in text]
#分詞
text = [' '.join(jieba.lcut(tt)) for tt in text]
text

pic1

構(gòu)建模型

訓練模型

#構(gòu)建模型
vectorizer = CountVectorizer()
#訓練模型
X = vectorizer.fit_transform(text)

所有詞匯:model.get_feature_names()

#所有文檔匯集后生成的詞匯
feature_names = vectorizer.get_feature_names()
print(feature_names)

不分詞生成的詞匯

pic2

分詞后生成的詞匯

pic3

計數(shù)矩陣:X.toarray()

#每個文檔相對詞匯量出現(xiàn)次數(shù)形成的矩陣
matrix = X.toarray()
print(matrix)

pic4

#計數(shù)矩陣轉(zhuǎn)化為DataFrame
df = pd.DataFrame(matrix, columns=feature_names)
df

pic5

詞匯索引:model.vocabulary_

print(vectorizer.vocabulary_)

pic6

到此這篇關(guān)于Python_sklearn_CountVectorizer使用詳解的文章就介紹到這了,更多相關(guān)Python_sklearn_CountVectorizer使用內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • 利用Python如何畫一顆心、小人發(fā)射愛心

    利用Python如何畫一顆心、小人發(fā)射愛心

    這篇文章主要給大家介紹了關(guān)于利用Python如何畫一顆心、小人發(fā)射愛心的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-02-02
  • python自動生成證件號的方法示例

    python自動生成證件號的方法示例

    這篇文章主要給大家介紹了關(guān)于python自動生成證件號的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2021-01-01
  • 利用python實現(xiàn)全屏愛心雨向喜歡的人表白

    利用python實現(xiàn)全屏愛心雨向喜歡的人表白

    馬上520了,教大家用Python做一個下愛心雨的特效,這篇文章主要給大家介紹了關(guān)于利用python實現(xiàn)全屏愛心雨向喜歡的人表白的相關(guān)資料,文中通過實例代碼介紹的非常詳細,需要的朋友可以參考下
    2023-05-05
  • Python optparse模塊及簡單使用

    Python optparse模塊及簡單使用

    optparse,是一個更夠讓程序設(shè)計人員輕松設(shè)計出簡單明了、易于使用、符合標準的Unix命令例程式的Python模塊,生成使用和幫助信息,這篇文章主要介紹了Python optparse模塊簡單使用,需要的朋友可以參考下
    2022-12-12
  • pygame實現(xiàn)時鐘效果

    pygame實現(xiàn)時鐘效果

    這篇文章主要為大家詳細介紹了pygame實現(xiàn)時鐘效果,文中示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-06-06
  • OpenCV 圖像梯度的實現(xiàn)方法

    OpenCV 圖像梯度的實現(xiàn)方法

    梯度簡單來說就是求導。本文主要介紹了OpenCV 圖像梯度的實現(xiàn)方法,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-07-07
  • Pycharm使用Conda激活環(huán)境失敗的問題解決

    Pycharm使用Conda激活環(huán)境失敗的問題解決

    本文主要介紹了Pycharm使用Conda激活環(huán)境失敗的問題解決,文中主要介紹了兩種問題的解決,具有一定的參考價值,感興趣的可以了解一下
    2023-09-09
  • Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用

    Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用

    這篇文章主要介紹了Python?Asyncio中Coroutines,Tasks,Future可等待對象的關(guān)系及作用,文章圍繞主題展開詳細的內(nèi)容介紹,需要的小伙伴可以參考一下
    2022-06-06
  • tensorflow 利用expand_dims和squeeze擴展和壓縮tensor維度方式

    tensorflow 利用expand_dims和squeeze擴展和壓縮tensor維度方式

    今天小編就為大家分享一篇tensorflow 利用expand_dims和squeeze擴展和壓縮tensor維度方式,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python運算符的應(yīng)用超全面詳細教程

    Python運算符的應(yīng)用超全面詳細教程

    Python運算符是為了實現(xiàn)數(shù)值或字符運算的特殊符號。Python運算符可以分為算術(shù)運算符、邏輯運算符、賦值運算符、成員運算符、身份運算符、比較運算符、三目運算符等。接下來,我們就開始來學習這一堆符號吧
    2022-07-07

最新評論