欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python實(shí)現(xiàn)Wordcloud生成詞云圖的示例

 更新時(shí)間:2020年03月30日 11:32:46   作者:merlin&  
這篇文章主要介紹了Python實(shí)現(xiàn)Wordcloud生成詞云圖的示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

wordcloud是Python擴(kuò)展庫(kù)中一種將詞語(yǔ)用圖片表達(dá)出來(lái)的一種形式,通過(guò)詞云生成的圖片,我們可以更加直觀的看出某篇文章的故事梗概。

首先貼出一張?jiān)~云圖(以哈利波特小說(shuō)為例):

在生成詞云圖之前,首先要做一些準(zhǔn)備工作

1.安裝結(jié)巴分詞庫(kù)

pip install jieba

Python中的分詞模塊有很多,他們的功能也都是大同小異,我們安裝的結(jié)巴分詞 是當(dāng)前使用的最多的類型。

下面我來(lái)簡(jiǎn)單介紹一下結(jié)巴分詞的用法

結(jié)巴分詞的分詞模式分為三種:

(1)全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度快,但是不能解決歧義問(wèn)題

(2)精確模式:將句子最精確地切開,適合文本分析

(3)搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞

下面用一個(gè)簡(jiǎn)單的例子來(lái)看一下三種模式的分詞區(qū)別:

import jieba
 
 # 全模式:把句子中所有的可以成詞的詞語(yǔ)都掃描出來(lái), 速度快,但是不能解決歧義問(wèn)題
 text = "哈利波特是一常優(yōu)秀的文學(xué)作品"
 seg_list = jieba.cut(text, cut_all=True)
 print(u"[全模式]: ", "/ ".join(seg_list))
 
 # 精確模式:將句子最精確地切開,適合文本分析
 seg_list = jieba.cut(text, cut_all=False)
 print(u"[精確模式]: ", "/ ".join(seg_list))
 
 # 默認(rèn)是精確模式
 seg_list = jieba.cut(text)
 print(u"[默認(rèn)模式]: ", "/ ".join(seg_list))
 
 # 搜索引擎模式:在精確模式的基礎(chǔ)上,對(duì)長(zhǎng)詞再次切分,提高召回率,適合用于搜索引擎分詞
seg_list = jieba.cut_for_search(text)
print(u"[搜索引擎模式]: ", "/ ".join(seg_list))

下面是對(duì)這句話的分詞方式:

通過(guò)這三種分詞模式可以看出,這些分詞模式并沒(méi)有很好的劃分出“哈利波特”這個(gè)專有名詞,這是因?yàn)樵诮Y(jié)巴分詞的字典中并沒(méi)有記錄這個(gè)名詞,所以需要我們手動(dòng)添加自定義字典

添加自定義字典:找一個(gè)方便引用的位置              (下圖的路徑是我安裝的位置),新建文本文檔(后綴名為.txt),將想添加的詞輸入進(jìn)去(注意輸入格式),保存并退出

在上面的代碼中加入自定義字典的路徑,再點(diǎn)擊運(yùn)行

jieba.load_userdict("/home/jmhao/anaconda3/lib/python3.7/site-packages/jieba/mydict.txt")

分詞結(jié)果,可以看出“哈利波特”這個(gè)詞已經(jīng)被識(shí)別出來(lái)了

結(jié)巴分詞還有另一個(gè)禁用詞的輸出結(jié)果

 stopwords = {}.fromkeys(['優(yōu)秀', '文學(xué)作品'])
 
 #添加禁用詞之后
 seg_list = jieba.cut(text)
 final = ''
 for seg in seg_list:
   if seg not in stopwords:
       final += seg
 seg_list_new = jieba.cut(final)
 print(u"[切割之后]: ", "/ ".join(seg_list_new))

可以看到輸出結(jié)果中并沒(méi)有“優(yōu)秀”和“文學(xué)作品”兩個(gè)詞

結(jié)巴分詞還有很多比較復(fù)雜的操作,具體的可以去官網(wǎng)查看,我就不再過(guò)多的贅述了

下面我們正式開始詞云的制作

首先下載模塊,這里我所使用的環(huán)境是Anaconda,由于Anaconda中包含很多常用的擴(kuò)展包,所以這里只需要下載wordcloud。若使用的環(huán)境不是Anaconda,則另需安裝numpy和PIL模塊

pip install wordcloud

然后我們需要找一篇文章并使用結(jié)巴分詞將文章分成詞語(yǔ)的形式

# 分詞模塊
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞后在單獨(dú)個(gè)體之間加上空格
   result = " ".join(word_list)
   # 返回分詞結(jié)果
   return result

這里我在當(dāng)前文件夾下創(chuàng)建了一個(gè)文本文檔“xiaoshuo.txt”,并復(fù)制了一章的小說(shuō)作為詞云的主體文字

使用代碼控制,打開并讀取小說(shuō)的內(nèi)容

 #導(dǎo)入文本文件,進(jìn)行分詞,制作詞云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文檔進(jìn)行分詞
   text = cut(text)

在網(wǎng)上找到一張白色背景的圖片下載到當(dāng)前文件夾,作為詞云的背景圖(若不指定圖片,則默認(rèn)生成矩形詞云)

#設(shè)置詞云形狀,若設(shè)置了詞云的形狀,生成的詞云與圖片保持一致,后面設(shè)置的寬度和高度將默認(rèn)無(wú)效
  mask = np.array(image.open("monkey.jpeg"))

接下來(lái)可以根據(jù)喜好來(lái)定義詞云的顏色、輪廓等參數(shù) 下面為常用的參數(shù)設(shè)置方法

font_path : "字體路徑" 詞云的字體樣式,若要輸出中文,則跟隨中文的字體
width =  n 畫布寬度,默認(rèn)為400像素
height =  n 畫布高度,默認(rèn)為400像素
scale = n 按比例放大或縮小畫布
min_font_size = n 設(shè)置最小的字體大小
max_font_size = n 設(shè)置最大的字體大小
stopwords = 'words' 設(shè)置要屏蔽的詞語(yǔ)
background_color = ''color 設(shè)置背景板顏色
relative_scaling = n 設(shè)置字體大小與詞頻的關(guān)聯(lián)性
contour_width = n 設(shè)置輪廓寬度
contour_color = 'color' 設(shè)置輪廓顏色

完整代碼

#導(dǎo)入詞云庫(kù)
 from wordcloud import WordCloud
 #導(dǎo)入圖像處理庫(kù)
 import PIL.Image as image
 #導(dǎo)入數(shù)據(jù)處理庫(kù)
 import numpy as np
 #導(dǎo)入結(jié)巴分詞庫(kù)
 import jieba
 
 # 分詞模塊
 def cut(text):
   # 選擇分詞模式
   word_list = jieba.cut(text,cut_all= True)
   # 分詞后在單獨(dú)個(gè)體之間加上空格
   result = " ".join(word_list)
   return result
 
 #導(dǎo)入文本文件,進(jìn)行分詞,制作詞云
 with open("xiaoshuo.txt") as fp:
   text = fp.read()
   # 將讀取的中文文檔進(jìn)行分詞
   text = cut(text)
   #設(shè)置詞云形狀
   mask = np.array(image.open("monkey.jpeg"))
   #自定義詞云
   wordcloud = WordCloud(
     # 遮罩層,除白色背景外,其余圖層全部繪制(之前設(shè)置的寬高無(wú)效)
     mask=mask,
     #默認(rèn)黑色背景,更改為白色
     background_color='#FFFFFF',
     #按照比例擴(kuò)大或縮小畫布
     scale=,
     # 若想生成中文字體,需添加中文字體路徑
     font_path="/usr/share/fonts/bb5828/逐浪雅宋體.otf"
   ).generate(text)
   #返回對(duì)象
   image_produce = wordcloud.to_image()
   #保存圖片
   wordcloud.to_file("new_wordcloud.jpg")
   #顯示圖像
   image_produce.show()

注:若想要生成圖片樣式的詞云圖,找到的圖片背景必須為白色,或者使用Photoshop摳圖替換成白色背景,否則生成的詞云為矩形

我的詞云原圖:

生成的詞云圖:

 

到此這篇關(guān)于Python實(shí)現(xiàn)Wordcloud生成詞云圖的示例的文章就介紹到這了,更多相關(guān)Python Wordcloud生成詞云圖內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python讀取.data文件的實(shí)現(xiàn)

    python讀取.data文件的實(shí)現(xiàn)

    本文主要介紹了python讀取.data文件的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2023-02-02
  • Python實(shí)現(xiàn)指定數(shù)組下標(biāo)值正序與倒序排序算法功能舉例

    Python實(shí)現(xiàn)指定數(shù)組下標(biāo)值正序與倒序排序算法功能舉例

    在程序中,經(jīng)常需要按數(shù)組倒序或反序重新排列數(shù)組,下面這篇文章主要給大家介紹了關(guān)于Python實(shí)現(xiàn)指定數(shù)組下標(biāo)值正序與倒序排序算法功能的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2023-02-02
  • Python容器類型公共方法總結(jié)

    Python容器類型公共方法總結(jié)

    這篇文章主要總結(jié)了Python容器類型公共方法,幫助大家更好的理解和學(xué)習(xí)python,感興趣的朋友可以了解下
    2020-08-08
  • python爬蟲之你好,李煥英電影票房數(shù)據(jù)分析

    python爬蟲之你好,李煥英電影票房數(shù)據(jù)分析

    這篇文章主要介紹了python爬蟲之你好,李煥英電影票房數(shù)據(jù)分析,文中有非常詳細(xì)的代碼示例,對(duì)正在學(xué)習(xí)python爬蟲的小伙伴們有一定的幫助,需要的朋友可以參考下
    2021-04-04
  • Python的輸出格式化和進(jìn)制轉(zhuǎn)換介紹

    Python的輸出格式化和進(jìn)制轉(zhuǎn)換介紹

    大家好,本篇文章主要講的是Python的輸出格式化和進(jìn)制轉(zhuǎn)換介紹,感興趣的同學(xué)趕快來(lái)看一看吧,對(duì)你有幫助的話記得收藏一下
    2022-01-01
  • Python如何安裝mysql數(shù)據(jù)庫(kù)模塊

    Python如何安裝mysql數(shù)據(jù)庫(kù)模塊

    這篇文章主要介紹了Python如何安裝mysql數(shù)據(jù)庫(kù)模塊問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教
    2024-07-07
  • python使用wmi模塊獲取windows下的系統(tǒng)信息 監(jiān)控系統(tǒng)

    python使用wmi模塊獲取windows下的系統(tǒng)信息 監(jiān)控系統(tǒng)

    Python用WMI模塊獲取Windows系統(tǒng)的硬件信息:硬盤分區(qū)、使用情況,內(nèi)存大小,CPU型號(hào),當(dāng)前運(yùn)行的進(jìn)程,自啟動(dòng)程序及位置,系統(tǒng)的版本等信息。
    2015-10-10
  • python裝飾器的特性原理詳解

    python裝飾器的特性原理詳解

    這篇文章主要介紹了python裝飾器的特性原理詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12
  • Pycharm 使用 Pipenv 新建的虛擬環(huán)境(圖文詳解)

    Pycharm 使用 Pipenv 新建的虛擬環(huán)境(圖文詳解)

    pipenv 是 Pipfile 主要倡導(dǎo)者、requests 作者 Kenneth Reitz 寫的一個(gè)命令行工具,主要包含了Pipfile、pip、click、requests和virtualenv。這篇文章主要介紹了Pycharm 使用 Pipenv 新建的虛擬環(huán)境的問(wèn)題,需要的朋友可以參考下
    2020-04-04
  • 為什么黑客都用python(123個(gè)黑客必備的Python工具)

    為什么黑客都用python(123個(gè)黑客必備的Python工具)

    python支持功能強(qiáng)大的黑客攻擊模塊,而且Python提供多種庫(kù),用于支持黑客攻擊,Python提供了ctypes庫(kù), 借助它, 黑客可以訪問(wèn)Windows、OS X、Linux等系統(tǒng)提供 DLL與共享庫(kù),還有Python語(yǔ)言易學(xué)易用,這對(duì)黑客攻擊而言是個(gè)巨大的優(yōu)勢(shì)。
    2020-01-01

最新評(píng)論