腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

python2中的中文亂碼

更新時(shí)間：2024年06月24日 09:50:28 作者：冰美式QAQ

這篇文章主要介紹了python2中的中文亂碼問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

python2中文亂碼問題

python2中的中文亂碼情況，本文將從一下四種情況進(jìn)行展開。

下面兩句話是本文的重點(diǎn)，文中的內(nèi)容都是圍繞下面兩句話展開的

1.亂碼的本質(zhì)是字符的編碼格式與顯示字符的環(huán)境編碼格式不一致引起的。這句話告訴我們要解決亂碼問題，我們需要知道兩個(gè)信息，一個(gè)是字符本身是什么編碼，另一個(gè)就是顯示字符的環(huán)境編碼是什么，兩者必須一致，才能顯示出正確的內(nèi)容。
2.在python中，對(duì)于任何Unicode類型編碼的字符，打印時(shí)會(huì)自動(dòng)根據(jù)環(huán)境編碼轉(zhuǎn)為特定編碼后再顯示。

接下來，看看字符在python代碼中是如何被編碼的。在不同的python版本中，字符編碼的方式不一樣。本文主要說的是python2版本。

亂碼情況1

python2默認(rèn)使用ASCII來編碼代碼的，如果代碼中出現(xiàn)中文，那么就必須在py文件的開頭注明支持中文的編碼格式，如果沒有聲明，python2就會(huì)使用默認(rèn)的ASCII編碼來識(shí)別中文，就會(huì)報(bào)錯(cuò)。

s = "中文"

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py File "E:/PycharmProjects/LEDdisplay2/1.py", line 1SyntaxError: Non-ASCII character '\xe4' in file E:/PycharmProjects/LEDdisplay2/1.py on line 1, but no encoding declared; see http://python.org/dev/peps/pep-0263/ for detailsProcess finished with exit code 1

上述報(bào)錯(cuò)翻譯過來就是，在1.py文件的第一行有非ASCII字符“\e4”，而且沒有聲明編碼。

如果我們?cè)O(shè)置編輯器pycharm此時(shí)的環(huán)境編碼是utf-8的話，用軟件查看1.py文件的十六進(jìn)制，可以看到“中文”存儲(chǔ)的是\xe4\xb8\xad\xe6\x96\x87。

（utf-8存儲(chǔ)文件一個(gè)字符需要三個(gè)字節(jié)表示，可以看到“中文”兩個(gè)字符是六個(gè)字節(jié)）

使用nodepad++查看十六進(jìn)制

python2默認(rèn)編碼格式ASCII編碼是不認(rèn)識(shí)“\xe4”的，無法識(shí)別“中文”，所以會(huì)報(bào)錯(cuò)。

所以，需要在py文件的開頭加上 # encoding:utf-8 聲明腳本的編碼方式，則python就可以識(shí)別代碼中的漢字字符串，并按照聲明的字符編碼格式來進(jìn)行編碼。

補(bǔ)充：

代碼查看python環(huán)境的默認(rèn)編碼
代碼查看字符串的十六進(jìn)制

# encoding:utf-8
import sys

s = "中文"
print(sys.getdefaultencoding())
print (repr(s))

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
ascii
'\xe4\xb8\xad\xe6\x96\x87'

Process finished with exit code 0

亂碼情況2

如果我們?cè)趐y文件開頭聲明腳本的編碼格式為utf-8，設(shè)置編輯器pycharm的環(huán)境編碼為GBK，那么，當(dāng)我們打印中文時(shí)，會(huì)出現(xiàn)什么情況呢？

答：還是亂碼

# coding=utf-8s = "中文"print(s)

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
涓枃

Process finished with exit code 0

pycharm編碼設(shè)置：

原因是，上述代碼中s變量的編碼是utf-8的，而我們運(yùn)行腳本的編輯器pycharm設(shè)置的環(huán)境編碼卻是GBK，兩者編碼方式不一致，所以必定會(huì)出現(xiàn)亂碼。

解決方法有以下幾種：

（這幾種方法是互斥的，目的是為了保證文件開頭聲明的編碼格式和pycharm編輯器設(shè)置的環(huán)境編碼格式一致）

1.可以修改編輯器pycharm的環(huán)境編碼為UTF-8

2.可以修改py文件開頭聲明腳本的編碼方式為GBK

3.在變量s前加一個(gè)u，將其強(qiáng)制轉(zhuǎn)換為Unicode編碼（前面已經(jīng)說過了，對(duì)于Unicode編碼的字符，python打印時(shí)會(huì)自動(dòng)根據(jù)環(huán)境編碼轉(zhuǎn)為特定編碼后再顯示）

4.通過decode和encode函數(shù)。使用decode方法可以將字符串按照指定的格式解碼成Unicode，需要注意的是，我們對(duì)所有的非Unicode類型的字符只能進(jìn)行decode操作，不能進(jìn)行encode操作，對(duì)Unicode類型的字符只能進(jìn)行encode操作，不能進(jìn)行decode操作。

# encoding:utf-8
s = "中文"
y1 = s.decode("utf-8") # s.decode("utf-8")這句話跟u“中文”效果是等價(jià)的
y2 = s.decode("utf-8").encode("gbk")
print(y1)
print(y2)

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
中文
中文

Process finished with exit code 0

注意：encode和decode的時(shí)候都是需要指定編碼的。

在 Python 中編碼是可以互相轉(zhuǎn)換的，但是不同編碼之間不能直接轉(zhuǎn)換，需要通過Unicode字符集中間過渡下。比如從utf-8轉(zhuǎn)換為gbk，需要先將utf-8格式解碼成Unicode，再編碼成gbk格式。

encode的正常使用：對(duì)Unicode類型進(jìn)行encode，得到字節(jié)串str類型。也即是Unicode-> encode（根據(jù)指定編碼） -> str。
decode的正常使用：對(duì)str類型進(jìn)行decode，得到Unicode類型。也即是str -> decode（根據(jù)指定編碼） -> Unicode。
encode的不正常使用：對(duì)str類型進(jìn)行encode，因?yàn)閑ncode需要的是Unicode類型，這個(gè)時(shí)候python會(huì)用默認(rèn)編碼decode成Unicode類型，再用你給出編碼進(jìn)行encode。（注意這里默認(rèn)編碼不是開頭的encoding，而是ASCII編碼）
decode的不正常使用：對(duì)Unicode類型進(jìn)行decode，python會(huì)用默認(rèn)的系統(tǒng)編碼encode成str類型，再用你給出的編碼進(jìn)行decode。

另外，需要注意的是，用什么字符編碼對(duì)Unicode進(jìn)行編碼（編碼為str類型），就要用對(duì)應(yīng)的字符編碼對(duì)str類型進(jìn)行解碼（解碼為Unicode類型）。

舉個(gè)不正常使用的例子：

# encoding:utf-8
import sys

s = "中文"
print(sys.getdefaultencoding())
y3 = s.encode("utf-8")
print(y3)

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
ascii
Traceback (most recent call last):
File "E:/PycharmProjects/LEDdisplay2/1.py", line 5, in <module>
y3 = s.encode("utf-8")
UnicodeDecodeError: 'ascii' codec can't decode byte 0xe4 in position 0: ordinal not in range(128)

Process finished with exit code 1

上面的代碼可以看出，python2的默認(rèn)編碼是ASCII編碼，直接對(duì)str類型的變量s進(jìn)行encode時(shí)，python會(huì)使用默認(rèn)編碼ASCII碼將變量s先deconde成Unicode，而文件開頭已經(jīng)聲明代碼用utf-8編碼，所以會(huì)報(bào)ASCII碼無法decode字節(jié)“0xe4”，而“0xe4”是utf-8編碼存儲(chǔ)變量s=“中文”的第一個(gè)字節(jié)的十六進(jìn)制表示。

亂碼情況3

將下面代碼文件（存儲(chǔ)時(shí)選擇utf-8編碼）直接在命令行里面運(yùn)行，又會(huì)發(fā)生什么問題呢？

# encoding:gbk
s = "中文"
y1 = s.decode("gbk") #s.decode("gbk")這句話跟u“中文”效果是等價(jià)的
y2 = s.decode("gbk").encode("utf-8")
print(y1)
print(y2)

缺圖，

y1正常顯示中文了，y2卻出現(xiàn)了亂碼。

這次出現(xiàn)亂碼的原因又是什么呢？

windows命令行的環(huán)境編碼是GBK格式，y1經(jīng)過decode后是Unicode碼，前面提到對(duì)于任何Unicode類型編碼的字符，打印時(shí)python會(huì)自動(dòng)根據(jù)環(huán)境編碼轉(zhuǎn)為特定編碼后再顯示，所以y1在cmd命令行下正常顯示。

y2經(jīng)過解碼和編碼后是utf-8格式，只能在環(huán)境編碼為utf-8的環(huán)境中才能正常顯示，在winows命令行下運(yùn)行就會(huì)出現(xiàn)由于編碼不一致而導(dǎo)致的亂碼。

如果上述代碼再加一句print(s)，將其分別在pycharm和cmd下運(yùn)行，結(jié)果會(huì)是怎樣呢？

# encoding:gbk
s = "中文"
y1 = s.decode("gbk") #s.decode("gbk")這句話跟u“中文”效果是等價(jià)的
y2 = s.decode("gbk").encode("utf-8")
print(y1)
print(y2)
print(s)

E:\PycharmProjects\LEDdisplay2\venv\Scripts\python.exe E:/PycharmProjects/LEDdisplay2/1.py
中文
中文
????

Process finished with exit code 0

在pycharm環(huán)境下運(yùn)行，輸出s會(huì)亂碼，因?yàn)閜ycharm環(huán)境編碼我們?cè)O(shè)置的是utf-8，文件開頭聲明編碼是gbk，編碼方式不一致，故亂碼。

在cmd環(huán)境下運(yùn)行，輸出a不會(huì)亂碼，因?yàn)閏md環(huán)境編碼是GBK，而我們開頭文件聲明的編碼格式也是GBK，編碼方式一致，故正常顯示。

上述的代碼都是在python2環(huán)境下運(yùn)行的，如果是python3的腳本的話，則要簡(jiǎn)單得多。

因?yàn)閜ython3中，所有的字符串不再受系統(tǒng)環(huán)境編碼的影響，統(tǒng)一使用Unicode來進(jìn)行編碼，字符串類型統(tǒng)一為str，所以不再需要在中文前面加u來使中文字符變?yōu)閁nicode這種寫法。

而且所有python3的腳本默認(rèn)都是utf-8來編碼的，所以我們也不需要在腳本開頭指定coding:utf-8了（但是一般建議寫上，兼容python2）。

打印顯示的時(shí)候也會(huì)方便很多，由于是字符串都是Unicode格式，所以不管在命令行中還是pycharm中，都會(huì)正常顯示而不會(huì)出現(xiàn)亂碼。

亂碼情況4

如果是直接在命令行中寫腳本，又會(huì)出現(xiàn)什么問題呢？

我們只需要弄清楚字符本身的編碼和環(huán)境編碼是否一致就可以得出答案了。

在python shell（即命令行）中直接寫代碼運(yùn)行時(shí)，我們需要知道的是，windows下命令行的默認(rèn)編碼是gbk的，Linux環(huán)境下命令行的默認(rèn)編碼是utf-8的。

第一行我們?cè)诙xa="中文"時(shí)，并不會(huì)報(bào)錯(cuò)，因?yàn)樵诿钚兄心J(rèn)是gbk編碼，所以此時(shí)其實(shí)a的編碼已經(jīng)是gbk了，支持中文沒有任何問題。

直接顯示a變量時(shí)，打印出來的不是亂碼，而是該字符串的字節(jié)碼表示方式，大家可以理解成給計(jì)算機(jī)看的，不是給人看的，只有print出來的內(nèi)容才是給人看的。

print(a)也不會(huì)報(bào)錯(cuò)，因?yàn)榘凑誫bk方式編碼并且在gbk環(huán)境中運(yùn)行，不可能會(huì)出問題。

直接將a進(jìn)行decode解碼時(shí)，解碼方式必須跟編碼方式是一致的，gbk方式編碼的內(nèi)容不能用utf-8解碼為Unicode，只能用gbk解碼成Unicode。

用gbk進(jìn)行decode之后，字符串會(huì)變?yōu)閁nicode，python會(huì)自動(dòng)根據(jù)環(huán)境的編碼進(jìn)行編碼，故可以正常顯示。

最后，我們將Unicode按照utf-8編碼時(shí)，字符的編碼格式又跟環(huán)境編碼不一致了，所以再次出現(xiàn)了亂碼。

linux下同理，只是linux下命令行的默認(rèn)編碼格式是utf-8。

總結(jié)

以上為個(gè)人經(jīng)驗(yàn)，希望能給大家一個(gè)參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python2中的中文亂碼

目錄

python2中文亂碼問題

亂碼情況1

亂碼情況2

亂碼情況3

亂碼情況4

總結(jié)

相關(guān)文章

最新評(píng)論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具