快捷導(dǎo)航

Python3 解決讀取中文文件txt編碼的問題

更新時間：2019年12月20日 17:13:36 作者：晨小點的小瘋子

今天小編就為大家分享一篇Python3 解決讀取中文文件txt編碼的問題，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

問題描述

嘗試用Python寫一個Wordcloud的時候，出現(xiàn)了編碼問題。

照著網(wǎng)上某些博客的說法添添改改后，結(jié)果是變成了“UnicodeDecodeError: ‘utf-8' codec can't decode byte…”這個錯誤。

搗鼓了一天啊，TXT（此處為本人現(xiàn)下內(nèi)心表情）。最后，干脆寫個最簡單的文件讀取，竟然還是報錯。于是就考慮是不是txt的編碼問題，因為讀取的txt文件是在Mac上面新建的純文本文件，一時沒找到在哪里查看編碼，最后拷貝到Windows系統(tǒng)上，查看了txt文件的編碼，竟然是ASCII，不是我最愛的utf-8，Mac你辜負(fù)了我對你的一番信任?。ˇ?┬┬﹏┬┬)3

解決方法

將txt文件的編碼格式改為utf-8即可

此外，在打開文件的時候，要加上第三個參數(shù)encoding=‘utf8'(沒有橫杠)。

with open('./test3.txt','r',encoding='utf8') as fin:
  for line in fin.readlines():
    line = line.strip('\n')

下面附上第一次成功顯示的詞云的源碼（參考網(wǎng)上他人的，注釋很詳細(xì)）

import jieba
import jieba.analyse
from matplotlib import pyplot as plt
from scipy.misc import imread
from wordcloud import WordCloud,STOPWORDS,ImageColorGenerator
 
# 1.讀取數(shù)據(jù)
with open("./test.txt","r",encoding="utf8") as f:
  text = f.read()
 
# 2.基于 TextRank 算法的關(guān)鍵詞抽取,top50
keywords = jieba.analyse.textrank(text, topK=50, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))
file = ",".join(keywords)
 
# 指定中文字體，不然中文顯示框框
font = r'./HYQiHei-25J.ttf'
print(file)
# 指定背景圖,隨意
image = imread('cake.jpg')
wc = WordCloud(
  font_path=font,
  background_color='white',#背景色
  mask=image,#背景圖
  stopwords=STOPWORDS,#設(shè)置停用詞
  max_words=100,#設(shè)置最大文字?jǐn)?shù)
  max_font_size=100,#設(shè)置最大字體
  width=800,
  height=1000,
 
)
 
#生成詞云
image_colors = ImageColorGenerator(image)
wc.generate(file)
 
# 使用matplotlib,顯示詞云圖
plt.imshow(wc) #顯示詞云圖
plt.axis('off') #關(guān)閉坐標(biāo)軸
plt.show()
# 保存圖片
wc.to_file('news.png')

以上這篇Python3 解決讀取中文文件txt編碼的問題就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

帶你認(rèn)識Django
今天小編就為大家分享一篇關(guān)于帶你認(rèn)識Django，小編覺得內(nèi)容挺不錯的，現(xiàn)在分享給大家，具有很好的參考價值，需要的朋友一起跟隨小編來看看吧
2019-01-01
python之a(chǎn)rray賦值技巧分享
今天小編就為大家分享一篇python之a(chǎn)rray賦值技巧分享，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2019-11-11
django-xadmin根據(jù)當(dāng)前登錄用戶動態(tài)設(shè)置表單字段默認(rèn)值方式
這篇文章主要介紹了django-xadmin根據(jù)當(dāng)前登錄用戶動態(tài)設(shè)置表單字段默認(rèn)值方式，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2020-03-03
LRUCache的實現(xiàn)原理及利用python實現(xiàn)的方法
LruCache 是 Android 的一個內(nèi)部類，提供了基于內(nèi)存實現(xiàn)的緩存，而下面這篇文章主要給大家介紹了關(guān)于LRUCache的實現(xiàn)原理以及利用python實現(xiàn)的方法，文中通過示例代碼介紹的非常詳細(xì)，需要的朋友可以參考借鑒，下面來一起看看吧。
2017-11-11
Flask解決跨域的問題示例代碼
這篇文章主要介紹了Flask解決跨域的問題示例代碼，分享了相關(guān)代碼示例，小編覺得還是挺不錯的，具有一定借鑒價值，需要的朋友可以參考下
2018-02-02
Flask藍(lán)圖學(xué)習(xí)教程
在Flask中，使用藍(lán)圖Blueprint來分模塊組織管理。藍(lán)圖實際可以理解為是一個存儲一組視圖方法的容器對象，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)吧
2022-10-10
Python實現(xiàn)在圖像中隱藏二維碼的方法詳解
隱寫是一種類似于加密卻又不同于加密的技術(shù)。這篇文章主要介紹了如何利用Python語言實現(xiàn)在圖像中隱藏二維碼功能，感興趣的可以了解一下
2022-09-09
Python 爬取淘寶商品信息欄目的實現(xiàn)
這篇文章主要介紹了Python 爬取淘寶商品信息欄目的實現(xiàn)，文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
2021-02-02
基于Pyinstaller打包Python程序并壓縮文件大小
這篇文章主要介紹了基于Pyinstaller打包Python程序并壓縮文件大小,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-05-05
Python continue語句實例用法
在本篇文章里小編給大家整理了關(guān)于Python continue語句實例用法，有需要的朋友們可以跟著學(xué)習(xí)下。
2020-02-02