python解決中文亂碼問題的方法小結(jié)
1、demo.py 文件和編碼聲明都為 GBK
這種方法比較笨,就是把 demo.py 文件改為 GBK 存儲,而且編碼聲明也是GBK,個(gè)人不推薦。
# encoding:gbk s = "中文" print s print repr(s)
2、中文用 unicode 表示
只要在中文前面加上個(gè)小u標(biāo)記,后面的中文就用 unicode 存儲了。
# encoding:utf-8 s = u"中文" print s print repr(s)
cmd 下是可以打印 unicode 字符的,如下:
3、把中文強(qiáng)制轉(zhuǎn)換為GBK或者unicode編碼
強(qiáng)制轉(zhuǎn)換為unicode編碼,在 Python 中編碼是可以互相轉(zhuǎn)換的,比如從utf-8轉(zhuǎn)換為gbk,不同編碼之間不能直接轉(zhuǎn)換,需要通過unicode字符集中間過渡下,從上面基礎(chǔ)知識可知unicode是一種字符集,不屬于編碼,而utf-8是具體實(shí)現(xiàn)unicode思想的一種編碼。utf-8轉(zhuǎn)換為unicode是一種解碼過程,通過decode可從utf-8解碼成unicode。
# encoding:utf-8 s = "中文" u = s.decode('utf-8') print u print type(u) print repr(u)
強(qiáng)制轉(zhuǎn)換為gbk編碼,上一步已經(jīng)從utf-8轉(zhuǎn)換為unicode了,從unicode是編碼的過程,通過encode實(shí)現(xiàn)。
# encoding:utf-8 s = "中文" u = s.decode('utf-8') g = u.encode('gbk') print g print type(g) print repr(g)
總結(jié)
windows cmd 窗口下不支持utf-8,想要顯示中文必須轉(zhuǎn)換為gbk或者unicode,而 Python idle 中這三種編碼都支持。中文亂碼的出現(xiàn)都是由于編碼不一致導(dǎo)致的,存儲的是用utf-8,打印的時(shí)候用gbk就會亂碼了,所有要保證不亂碼盡量保持統(tǒng)一,建議全部使用unicode。
decode 解碼
從其它編碼變成unicode叫解碼,解碼用的方法是decode,第一個(gè)參數(shù)為被解碼的字符串原始編碼格式,如果寫錯(cuò)了也會報(bào)錯(cuò)。比如 s 是utf-8,用gbk去解碼就會報(bào)錯(cuò)。
# encoding:utf-8 s = "中文" u = s.decode('gbk') print u print repr(u)
小提示
在 Python idle 和 cmd 下直接輸入 s = "中文"會以 gbk 編碼的,如果在文件中輸入 s = "中文"且文件存儲格式為utf-8,那么 s 是以utf-8編碼存儲的,有點(diǎn)不一樣曾經(jīng)踩過坑,及時(shí) Python idle 成功了文件運(yùn)行的時(shí)候也可能失敗。
encode 編碼
不可以直接從utf-8轉(zhuǎn)換為gbk,必須經(jīng)過unicode中間轉(zhuǎn)換,這點(diǎn)很重要,被編碼的原始字符串一定要為unicode,否則會報(bào)錯(cuò)。
raw_input
raw_input 是獲取用戶輸入值的,獲取到的用戶輸入值和當(dāng)前運(yùn)行環(huán)境編碼有關(guān),比如 cmd 下默認(rèn)編碼是 gbk,那么輸入的漢字就是以gbk編碼,而不管 demo.py 文件編碼格式和編碼聲明。
# encoding:utf-8 s = raw_input("input something: ") print s print type(s) print repr(s)
GBK 編碼一個(gè)漢字兩個(gè)字節(jié),UTF-8 一個(gè)漢字通常3個(gè)字節(jié)。
細(xì)心的朋友已經(jīng)注意了,raw_input的提示語我用的是英文,那改成中文看看,果真出現(xiàn)亂碼了。
# encoding:utf-8 s = raw_input("請輸入中文漢字:") print s print type(s) print repr(s)
怎么辦呢?把提示字符串強(qiáng)制為gbk編碼就好,unicode和utf-8都不可以。
# encoding:utf-8 s = raw_input(u"請輸入中文漢字:".encode('gbk')) print s print type(s) print repr(s)
相等陷阱
“中文”這兩個(gè)字符串用不同的編碼存儲是不一樣的,utf-8編碼和gbk編碼存儲的“中文”都不一樣。
總結(jié)
想要不亂碼,記住以下5點(diǎn)法則:
(1)文件存儲為utf-8格式,編碼聲明為utf-8,# encoding:utf-8。
(2)出現(xiàn)漢字的地方前面加 u。
(3)不同編碼之間不能直接轉(zhuǎn)換,要經(jīng)過unicode中間跳轉(zhuǎn)。
(4)cmd 下不支持utf-8編碼。
(5)raw_input提示字符串只能為gbk編碼。
到此這篇關(guān)于python解決中文亂碼問題的方法小結(jié)的文章就介紹到這了,更多相關(guān)python解決中文亂碼內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
numpy中meshgrid和mgrid的區(qū)別和使用詳解
本文主要介紹了numpy中meshgrid和mgrid的區(qū)別和使用詳解,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02jupyter note 實(shí)現(xiàn)將數(shù)據(jù)保存為word
這篇文章主要介紹了jupyter note 實(shí)現(xiàn)將數(shù)據(jù)保存為word,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04python腳本監(jiān)控logstash進(jìn)程并郵件告警實(shí)例
這篇文章主要介紹了python腳本監(jiān)控logstash進(jìn)程并郵件告警實(shí)例,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-04-04一文帶你深入理解python中pytest-repeat插件的工作原理
這篇文章主要和大家一起深入探討到底pytest_repeat插件的具體功能是如何實(shí)現(xiàn)的呢,相信具體了解了該插件,其他三方插件也可以很快了解它內(nèi)部運(yùn)行機(jī)制,所以本文詳細(xì)講解了python pytest-repeat插件的工作原理,需要的朋友可以參考下2023-09-09termux中matplotlib無法顯示中文問題的解決方法
這篇文章主要介紹了termux中matplotlib無法顯示中文問題的解決方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01python實(shí)現(xiàn)時(shí)間序列自相關(guān)圖(acf)、偏自相關(guān)圖(pacf)教程
這篇文章主要介紹了python實(shí)現(xiàn)時(shí)間序列自相關(guān)圖(acf)、偏自相關(guān)圖(pacf)教程,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-06-06