Python 編碼處理-str與Unicode的區(qū)別
一篇關(guān)于STR和UNICODE的好文章
整理下python編碼相關(guān)的內(nèi)容
注意: 以下討論為Python2.x版本, Py3k的待嘗試
開(kāi)始
用python處理中文時(shí),讀取文件或消息,http參數(shù)等等
一運(yùn)行,發(fā)現(xiàn)亂碼(字符串處理,讀寫文件,print)
然后,大多數(shù)人的做法是,調(diào)用encode/decode進(jìn)行調(diào)試,并沒(méi)有明確思考為何出現(xiàn)亂碼
所以調(diào)試時(shí)最常出現(xiàn)的錯(cuò)誤
錯(cuò)誤1
Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘a(chǎn)scii‘ codec can‘t decode byte 0xe6 in position 0: ordinal not in range(128)
錯(cuò)誤2
Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘a(chǎn)scii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)
首先
必須有大體概念,了解下字符集,字符編碼
ASCII | Unicode | UTF-8 | 等等
字符編碼筆記:ASCII,Unicode和UTF-8
淘寶搜索技術(shù)博客-中文編碼雜談
str 和 unicode
str和unicode都是basestring的子類
所以有判斷是否是字符串的方法
def is_str(s): return isinstance(s, basestring)
str和unicode 轉(zhuǎn)換
decode 文檔
encode 文檔
str -> decode(‘the_coding_of_str‘) -> unicode unicode -> encode(‘the_coding_you_want‘) -> str
區(qū)別
str是字節(jié)串,由unicode經(jīng)過(guò)編碼(encode)后的字節(jié)組成的
聲明方式
s = ‘中文‘ s = u‘中文‘.encode(‘utf-8‘) >>> type(‘中文‘) <type ‘str‘>
求長(zhǎng)度(返回字節(jié)數(shù))
>>> u‘中文‘.encode(‘utf-8‘) ‘\xe4\xb8\xad\xe6\x96\x87‘ >>> len(u‘中文‘.encode(‘utf-8‘)) 6
unicode才是真正意義上的字符串,由字符組成
聲明方式
s = u‘中文‘ s = ‘中文‘.decode(‘utf-8‘) s = unicode(‘中文‘, ‘utf-8‘) >>> type(u‘中文‘) <type ‘unicode‘>
求長(zhǎng)度(返回字符數(shù)),在邏輯中真正想要用的
>>> u‘中文‘ u‘\u4e2d\u6587‘ >>> len(u‘中文‘) 2
結(jié)論
搞明白要處理的是str還是unicode, 使用對(duì)的處理方法(str.decode/unicode.encode)
下面是判斷是否為unicode/str的方法
>>> isinstance(u‘中文‘, unicode) True >>> isinstance(‘中文‘, unicode) False >>> isinstance(‘中文‘, str) True >>> isinstance(u‘中文‘, str) False
簡(jiǎn)單原則:不要對(duì)str使用encode,不要對(duì)unicode使用decode (事實(shí)上可以對(duì)str進(jìn)行encode的,具體見(jiàn)最后,為了保證簡(jiǎn)單,不建議)
>>> ‘中文‘.encode(‘utf-8‘) Traceback (most recent call last): File "<stdin>", line 1, in <module> UnicodeDecodeError: ‘a(chǎn)scii‘ codec can‘t decode byte 0xe4 in position 0: ordinal not in range(128) >>> u‘中文‘.decode(‘utf-8‘) Traceback (most recent call last): File "<stdin>", line 1, in <module> File "/System/Library/Frameworks/Python.framework/Versions/2.7/lib/python2.7/encodings/utf_8.py", line 16, in decode return codecs.utf_8_decode(input, errors, True) UnicodeEncodeError: ‘a(chǎn)scii‘ codec can‘t encode characters in position 0-1: ordinal not in range(128)
不同編碼轉(zhuǎn)換,使用unicode作為中間編碼
#s是code_A的str s.decode(‘code_A‘).encode(‘code_B‘)
文件處理,IDE和控制臺(tái)
處理流程,可以這么使用,把python看做一個(gè)水池,一個(gè)入口,一個(gè)出口
入口處,全部轉(zhuǎn)成unicode, 池里全部使用unicode處理,出口處,再轉(zhuǎn)成目標(biāo)編碼(當(dāng)然,有例外,處理邏輯中要用到具體編碼的情況)
讀文件 外部輸入編碼,decode轉(zhuǎn)成unicode 處理(內(nèi)部編碼,統(tǒng)一unicode) encode轉(zhuǎn)成需要的目標(biāo)編碼 寫到目標(biāo)輸出(文件或控制臺(tái))
IDE和控制臺(tái)報(bào)錯(cuò),原因是print時(shí),編碼和IDE自身編碼不一致導(dǎo)致
輸出時(shí)將編碼轉(zhuǎn)換成一致的就可以正常輸出
>>> print u‘中文‘.encode(‘gbk‘) ???? >>> print u‘中文‘.encode(‘utf-8‘) 中文
建議
規(guī)范編碼
統(tǒng)一編碼,防止由于某個(gè)環(huán)節(jié)產(chǎn)生的亂碼
環(huán)境編碼,IDE/文本編輯器, 文件編碼,數(shù)據(jù)庫(kù)數(shù)據(jù)表編碼
保證代碼源文件編碼
這個(gè)很重要
py文件默認(rèn)編碼是ASCII, 在源代碼文件中,如果用到非ASCII字符,需要在文件頭部進(jìn)行編碼聲明 文檔
不聲明的話,輸入非ASCII會(huì)遇到的錯(cuò)誤,必須放在文件第一行或第二行
File "XXX.py", line 3 SyntaxError: Non-ASCII character ‘\xd6‘ in file c.py on line 3, but no encoding declared; see http://www.python.org/peps/pep-0263.html for details
聲明方法
# -*- coding: utf-8 -*- 或者 #coding=utf-8
若頭部聲明coding=utf-8, a = ‘中文‘ 其編碼為utf-8
若頭部聲明coding=gb2312, a = ‘中文‘ 其編碼為gbk
so, 同一項(xiàng)目中所有源文件頭部統(tǒng)一一個(gè)編碼,并且聲明的編碼要和源文件保存的編碼一致(編輯器相關(guān))
在源代碼用作處理的硬編碼字符串,統(tǒng)一用unicode
將其類型和源文件本身的編碼隔離開(kāi), 獨(dú)立無(wú)依賴方便流程中各個(gè)位置處理
if s == u‘中文‘: #而不是 s == ‘中文‘ pass #注意這里 s到這里時(shí),確保轉(zhuǎn)為unicode
以上幾步搞定后,你只需要關(guān)注兩個(gè) unicode和 你設(shè)定的編碼(一般使用utf-8)
處理順序
1. Decode early 2. Unicode everywhere 3. Encode later
相關(guān)模塊及一些方法
獲得和設(shè)置系統(tǒng)默認(rèn)編碼
>>> import sys >>> sys.getdefaultencoding() ‘a(chǎn)scii‘ >>> reload(sys) <module ‘sys‘ (built-in)> >>> sys.setdefaultencoding(‘utf-8‘) >>> sys.getdefaultencoding() ‘utf-8‘
str.encode(‘other_coding‘)
在python中,直接將某種編碼的str進(jìn)行encode成另一種編碼str
#str_A為utf-8 str_A.encode(‘gbk‘) 執(zhí)行的操作是 str_A.decode(‘sys_codec‘).encode(‘gbk‘) 這里sys_codec即為上一步 sys.getdefaultencoding() 的編碼
‘獲得和設(shè)置系統(tǒng)默認(rèn)編碼‘和這里的str.encode是相關(guān)的,但我一般很少這么用,主要是覺(jué)得復(fù)雜不可控,還是輸入明確decode,輸出明確encode來(lái)得簡(jiǎn)單些(個(gè)人觀點(diǎn))
chardet
文件編碼檢測(cè),下載
>>> import chardet >>> f = open(‘test.txt‘,‘r‘) >>> result = chardet.detect(f.read()) >>> result {‘confidence‘: 0.99, ‘encoding‘: ‘utf-8‘}
\u字符串轉(zhuǎn)對(duì)應(yīng)unicode字符串
>>> u‘中‘ u‘\u4e2d‘ >>> s = ‘\u4e2d‘ >>> print s.decode(‘unicode_escape‘) 中 >>> a = ‘\\u4fee\\u6539\\u8282\\u70b9\\u72b6\\u6001\\u6210\\u529f‘ >>> a.decode(‘unicode_escape‘) u‘\u4fee\u6539\u8282\u70b9\u72b6\u6001\u6210\u529f‘
以上就是對(duì)Python 編碼處理的資料整理,后續(xù)繼續(xù)補(bǔ)充相關(guān)資料,謝謝大家對(duì)本站的支持!
相關(guān)文章
實(shí)現(xiàn)用python算法計(jì)算圓周率的小訣竅
什么!你不會(huì)背圓周率(鄙夷的眼神) 3.1415926535 8979323846 26433... 但是,我會(huì)算啊,本文用一個(gè)簡(jiǎn)單的python代碼,教你計(jì)算圓周率2021-08-08在?Python?中使用變量創(chuàng)建文件名的方法
這篇文章主要介紹了在?Python?中使用變量創(chuàng)建文件名,格式化的字符串文字使我們能夠通過(guò)在字符串前面加上 f 來(lái)在字符串中包含表達(dá)式和變量,本文給大家詳細(xì)講解,需要的朋友可以參考下2023-03-03python 監(jiān)聽(tīng)salt job狀態(tài),并任務(wù)數(shù)據(jù)推送到redis中的方法
今天小編就為大家分享一篇python 監(jiān)聽(tīng)salt job狀態(tài),并任務(wù)數(shù)據(jù)推送到redis中的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2019-01-01python中如何實(shí)現(xiàn)徑向基核函數(shù)
這篇文章主要介紹了python中如何實(shí)現(xiàn)徑向基核函數(shù)問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02

python3在各種服務(wù)器環(huán)境中安裝配置過(guò)程

Python基礎(chǔ)之python循環(huán)控制語(yǔ)句break/continue詳解