Python 制作詞云的WordCloud參數(shù)用法說明
場景
官方API:
https://amueller.github.io/word_cloud/generated/wordcloud.WordCloud.html
實(shí)現(xiàn)
font_path : string #字體路徑,需要展現(xiàn)什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf' width : int (default=400) #輸出的畫布寬度,默認(rèn)為400像素 height : int (default=200) #輸出的畫布高度,默認(rèn)為200像素 prefer_horizontal : float (default=0.90) #詞語水平方向排版出現(xiàn)的頻率,默認(rèn) 0.9 (所以詞語垂直方向排版出現(xiàn)頻率為 0.1 ) mask : nd-array or None (default=None) #如果參數(shù)為空,則使用二維遮罩繪制詞云。如果 mask 非空,設(shè)置的寬高值將被忽略,遮罩形狀被 mask 取代。除全白(#FFFFFF)的部分將不會繪制,其余部分會用于繪制詞云。如:bg_pic = imread('讀取一張圖片.png'),背景圖片的畫布一定要設(shè)置為白色(#FFFFFF),然后顯示的形狀為不是白色的其他顏色??梢杂胮s工具將自己要顯示的形狀復(fù)制到一個純白色的畫布上再保存,就ok了。 scale : float (default=1) #按照比例進(jìn)行放大畫布,如設(shè)置為1.5,則長和寬都是原來畫布的1.5倍 min_font_size : int (default=4) #顯示的最小的字體大小 font_step : int (default=1) #字體步長,如果步長大于1,會加快運(yùn)算但是可能導(dǎo)致結(jié)果出現(xiàn)較大的誤差 max_words : number (default=200) #要顯示的詞的最大個數(shù) stopwords : set of strings or None #設(shè)置需要屏蔽的詞,如果為空,則使用內(nèi)置的STOPWORDS background_color : color value (default=”black”) #背景顏色,如background_color='white',背景顏色為白色 max_font_size : int or None (default=None) #顯示的最大的字體大小 mode : string (default=”RGB”) #當(dāng)參數(shù)為“RGBA”并且background_color不為空時,背景為透明 relative_scaling : float (default=.5) #詞頻和字體大小的關(guān)聯(lián)性 color_func : callable, default=None #生成新顏色的函數(shù),如果為空,則使用 self.color_func regexp : string or None (optional) #使用正則表達(dá)式分隔輸入的文本 collocations : bool, default=True #是否包括兩個詞的搭配 colormap : string or matplotlib colormap, default=”viridis” #給每個單詞隨機(jī)分配顏色,若指定color_func,則忽略該方法 random_state : int or None #為每個單詞返回一個PIL顏色 fit_words(frequencies) #根據(jù)詞頻生成詞云 generate(text) #根據(jù)文本生成詞云 generate_from_frequencies(frequencies[, ...]) #根據(jù)詞頻生成詞云 generate_from_text(text) #根據(jù)文本生成詞云 process_text(text) #將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實(shí)現(xiàn),使用上面的 fit_words(frequencies) ) recolor([random_state, color_func, colormap]) #對現(xiàn)有輸出重新著色。重新上色會比重新生成整個詞云快很多 to_array() #轉(zhuǎn)化為 numpy array to_file(filename) #輸出到文件
補(bǔ)充:生成詞云之python中WordCloud包的用法
效果圖:
這是python中使用wordcloud包生成的詞云圖。
下面來介紹一下wordcloud包的基本用法
class wordcloud.WordCloud(font_path=None, width=400, height=200, margin=2, ranks_only=None, prefer_horizontal=0.9,mask=None, scale=1, color_func=None, max_words=200, min_font_size=4, stopwords=None, random_state=None,background_color='black', max_font_size=None, font_step=1, mode='RGB', relative_scaling=0.5, regexp=None, collocations=True,colormap=None, normalize_plurals=True)
這是wordcloud的所有參數(shù),下面具體介紹一下各個參數(shù):
font_path : string //字體路徑,需要展現(xiàn)什么字體就把該字體路徑+后綴名寫上,如:font_path = '黑體.ttf' width : int (default=400) //輸出的畫布寬度,默認(rèn)為400像素 height : int (default=200) //輸出的畫布高度,默認(rèn)為200像素 prefer_horizontal : float (default=0.90) //詞語水平方向排版出現(xiàn)的頻率,默認(rèn) 0.9 (所以詞語垂直方向排版出現(xiàn)頻率為 0.1 ) mask : nd-array or None (default=None) //如果參數(shù)為空,則使用二維遮罩繪制詞云。如果 mask 非空,設(shè)置的寬高值將被忽略,遮罩形狀被 mask 取代。除全白(#FFFFFF)的部分將不會繪制,其余部分會用于繪制詞云。如:bg_pic = imread('讀取一張圖片.png'),背景圖片的畫布一定要設(shè)置為白色(#FFFFFF),然后顯示的形狀為不是白色的其他顏色。可以用ps工具將自己要顯示的形狀復(fù)制到一個純白色的畫布上再保存,就ok了。 scale : float (default=1) //按照比例進(jìn)行放大畫布,如設(shè)置為1.5,則長和寬都是原來畫布的1.5倍。 min_font_size : int (default=4) //顯示的最小的字體大小 font_step : int (default=1) //字體步長,如果步長大于1,會加快運(yùn)算但是可能導(dǎo)致結(jié)果出現(xiàn)較大的誤差。 max_words : number (default=200) //要顯示的詞的最大個數(shù) stopwords : set of strings or None //設(shè)置需要屏蔽的詞,如果為空,則使用內(nèi)置的STOPWORDS background_color : color value (default=”black”) //背景顏色,如background_color='white',背景顏色為白色。 max_font_size : int or None (default=None) //顯示的最大的字體大小 mode : string (default=”RGB”) //當(dāng)參數(shù)為“RGBA”并且background_color不為空時,背景為透明。 relative_scaling : float (default=.5) //詞頻和字體大小的關(guān)聯(lián)性 color_func : callable, default=None //生成新顏色的函數(shù),如果為空,則使用 self.color_func regexp : string or None (optional) //使用正則表達(dá)式分隔輸入的文本 collocations : bool, default=True //是否包括兩個詞的搭配 colormap : string or matplotlib colormap, default=”viridis” //給每個單詞隨機(jī)分配顏色,若指定color_func,則忽略該方法。 fit_words(frequencies) //根據(jù)詞頻生成詞云 generate(text) //根據(jù)文本生成詞云 generate_from_frequencies(frequencies[, ...]) //根據(jù)詞頻生成詞云 generate_from_text(text) //根據(jù)文本生成詞云 process_text(text) //將長文本分詞并去除屏蔽詞(此處指英語,中文分詞還是需要自己用別的庫先行實(shí)現(xiàn),使用上面的 fit_words(frequencies) ) recolor([random_state, color_func, colormap]) //對現(xiàn)有輸出重新著色。重新上色會比重新生成整個詞云快很多。 to_array() //轉(zhuǎn)化為 numpy array to_file(filename) //輸出到文件
例子:
想要生成的詞云的形狀:
圖中黑色部分就是詞云的將要顯示的部分,白色部分不顯示任何詞。
下面是一個文本文檔:
How the Word Cloud Generator Works
The layout algorithm for positioning words without overlap is available on GitHub under an open source license as d3-cloud. Note that this is the only the layout algorithm and any code for converting text into words and rendering the final output requires additional development.
As word placement can be quite slow for more than a few hundred words, the layout algorithm can be run asynchronously, with a configurable time step size. This makes it possible to animate words as they are placed without stuttering. It is recommended to always use a time step even without animations as it prevents the browser's event loop from blocking while placing the words.
The layout algorithm itself is incredibly simple. For each word, starting with the most “important”:
Attempt to place the word at some starting point: usually near the middle, or somewhere on a central horizontal line. If the word intersects with any previously placed words, move it one step along an increasing spiral. Repeat until no intersections are found. The hard part is making it perform efficiently! According to Jonathan Feinberg, Wordle uses a combination of hierarchical bounding boxes and quadtrees to achieve reasonable speeds.
Glyphs in JavaScript
There isn't a way to retrieve precise glyph shapes via the DOM, except perhaps for SVG fonts. Instead, we draw each word to a hidden canvas element, and retrieve the pixel data.
Retrieving the pixel data separately for each word is expensive, so we draw as many words as possible and then retrieve their pixels in a batch operation.
Sprites and Masks
My initial implementation performed collision detection using sprite masks. Once a word is placed, it doesn't move, so we can copy it to the appropriate position in a larger sprite representing the whole placement area.
The advantage of this is that collision detection only involves comparing a candidate sprite with the relevant area of this larger sprite, rather than comparing with each previous word separately.
Somewhat surprisingly, a simple low-level hack made a tremendous difference: when constructing the sprite I compressed blocks of 32 1-bit pixels into 32-bit integers, thus reducing the number of checks (and memory) by 32 times.
In fact, this turned out to beat my hierarchical bounding box with quadtree implementation on everything I tried it on (even very large areas and font sizes). I think this is primarily because the sprite version only needs to perform a single collision test per candidate area, whereas the bounding box version has to compare with every other previously placed word that overlaps slightly with the candidate area.
Another possibility would be to merge a word's tree with a single large tree once it is placed. I think this operation would be fairly expensive though compared with the analagous sprite mask operation, which is essentially ORing a whole block.
從這個文本中生成一個詞云,代碼如下:
#!/usr/bin/python # -*- coding: utf-8 -*- #coding=utf-8 #導(dǎo)入wordcloud模塊和matplotlib模塊 from wordcloud import WordCloud import matplotlib.pyplot as plt from scipy.misc import imread #讀取一個txt文件 text = open('test.txt','r').read() #讀入背景圖片 bg_pic = imread('3.png') #生成詞云 wordcloud = WordCloud(mask=bg_pic,background_color='white',scale=1.5).generate(text) image_colors = ImageColorGenerator(bg_pic) #顯示詞云圖片 plt.imshow(wordcloud) plt.axis('off') plt.show() #保存圖片 wordcloud.to_file('test.jpg')
運(yùn)行結(jié)果:
以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
Python函數(shù)默認(rèn)參數(shù)設(shè)置的具體方法
本文主要介紹了Python函數(shù)默認(rèn)參數(shù)設(shè)置,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-03-03用Python生成器實(shí)現(xiàn)微線程編程的教程
這篇文章主要介紹了用Python生成器實(shí)現(xiàn)微線程編程的教程,本文來自于IBM官方開發(fā)者技術(shù)文檔,需要的朋友可以參考下2015-04-04Python 基于jwt實(shí)現(xiàn)認(rèn)證機(jī)制流程解析
這篇文章主要介紹了python 基于jwt實(shí)現(xiàn)認(rèn)證機(jī)制流程解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2020-06-06Python 數(shù)據(jù)處理更容易的12個輔助函數(shù)總結(jié)
Python的產(chǎn)生似乎就是專門用來處理數(shù)據(jù)的,順理成章的成為大數(shù)據(jù)的主流語言,本文介紹十二個函數(shù)輔助你更容易更便捷的用Python進(jìn)行數(shù)據(jù)處理2021-11-11Python數(shù)據(jù)分析之pandas比較操作
比較操作是很簡單的基礎(chǔ)知識,不過Pandas中的比較操作有一些特殊的點(diǎn),本文介紹的非常詳細(xì),對正在學(xué)習(xí)python的小伙伴們很有幫助.需要的朋友可以參考下2021-05-05python base64圖片互轉(zhuǎn),解決base64字符串轉(zhuǎn)PIL圖片對象報錯:binascii.Error:
在Base64編碼中,若字符串長度不是4的倍數(shù),需在末尾添加等號作為填充,不符合此規(guī)則會導(dǎo)致在轉(zhuǎn)換為圖片時出現(xiàn)binascii.Error:Incorrectpadding錯誤,正確的填充確保編碼后的字符串可以正確轉(zhuǎn)換成圖片,避免轉(zhuǎn)換錯誤2024-09-09PyTorch中的神經(jīng)網(wǎng)絡(luò) Mnist 分類任務(wù)
這篇文章主要介紹了PyTorch中的神經(jīng)網(wǎng)絡(luò) Mnist 分類任務(wù),在本次的分類任務(wù)當(dāng)中,我們使用的數(shù)據(jù)集是 Mnist 數(shù)據(jù)集,這個數(shù)據(jù)集大家都比較熟悉,需要的朋友可以參考下2023-03-03