Python之string編碼問題
一、前言
使用過Python的同學(xué)們一定被她的各種編碼問題纏繞過,因?yàn)槠匠>S護(hù)的新老項(xiàng)目跨越 2、3兩個(gè)版本,編碼問題有時(shí)更是讓我苦不堪言,遂下定決心,一定要干掉他,吃透他,遂記錄此篇博文以分享記錄!
什么是編碼?
通常我們所說的編碼一般為簡(jiǎn)稱, 其實(shí)在平常的應(yīng)用過程,編碼一般包括 編碼和解碼,如在編碼前指定 字符集UTF-8
, 那么解碼時(shí)也必須為UTF-8
,否則會(huì)出現(xiàn)所謂的 亂碼
什么是字符集
字符集類似于中文,英文,是一個(gè)規(guī)則集合的抽象概念,其規(guī)定了某個(gè)文字對(duì)應(yīng)的二進(jìn)制數(shù)字存放方式,即為編碼過程,或者二進(jìn)制數(shù)字對(duì)應(yīng)的文字,即為解碼過程!
字符集包括如下:
1.字庫表
- 字庫表是一個(gè)相當(dāng)于所有可讀或者可顯示字符的數(shù)據(jù)庫,字庫表決定了整個(gè)字符集能夠展現(xiàn)表示的所有字符的范圍
2.編碼字符集(通常簡(jiǎn)稱 字符集)
- 編碼字符集,用一個(gè)編碼值code point(二進(jìn)制代碼)來表示一個(gè)字符(即該字符在字庫表中的位置)
3.字符編碼
- 字符編碼,是編碼字符集和實(shí)際存儲(chǔ)數(shù)值之間的轉(zhuǎn)換關(guān)系;
- 字符,是根據(jù)字符編碼方案轉(zhuǎn)換為一個(gè)二進(jìn)制數(shù)值存儲(chǔ)在計(jì)算機(jī)中的
一個(gè)范例
下面以一個(gè)實(shí)例解釋下編解碼的過程
- 字符編碼: UTF-8
- 字符串:中國
- Python版本:2.7
說明:
1.編碼轉(zhuǎn)換方式
str_unicode為中間碼。
即對(duì)應(yīng)編碼字符集 在字庫表中有唯一id代表一個(gè)字符, 理論上 unicode即可以映射表示所有字符,但是為了壓縮存儲(chǔ)的位數(shù),發(fā)展出了 utf-8、utf-16等字符編碼,即在實(shí)際存儲(chǔ)和字符展現(xiàn)之間又建立了一層映射,這層映射表示了 utf-8 到 unicode的方式,然后unicode又根據(jù)字庫表展現(xiàn)改字符。
即 unicode有 utf-8及utf-16等多種方式的字符編碼方案,GBK字符集 則只有一種字符編碼 EUC-CN, 而對(duì)于Ascii碼來說,本身即是編碼字符集又是字符編碼,
2.以一次Python代碼執(zhí)行為例, 解釋 字庫表、編碼字符集(字符集) 與 字符編碼的關(guān)系:
utf-8編碼如何規(guī)定的?
單字節(jié)的字符,字節(jié)的第一位設(shè)為0,對(duì)于英語文本,UTF-8碼只占用一個(gè)字節(jié),和ASCII碼完全相同;
n個(gè)字節(jié)的字符(n>1),第一個(gè)字節(jié)的前n位設(shè)為1,第n+1位設(shè)為0,后面字節(jié)的前兩位都設(shè)為10,這n個(gè)字節(jié)的其余空位填充該字符unicode碼,高位用0補(bǔ)足。
UTF-8編碼方式
----------------------
0xxxxxxx
110xxxxx 10xxxxxx
1110xxxx 10xxxxxx 10xxxxxx
11110xxx 10xxxxxx 10xxxxxx 10xxxxxx
utf-8和unicode的關(guān)系
- utf 解釋為誒 Unicode TransferFormat 即 轉(zhuǎn)換Unicode。
- unicode是一種字符編碼,規(guī)定了每個(gè)字符到數(shù)字的映射關(guān)系, 這個(gè)數(shù)字怎么存儲(chǔ)它沒有規(guī)定. 而如何存儲(chǔ)? 幾個(gè)字節(jié)表示? 這個(gè)是utf8等編碼方式來規(guī)定的。
有了unicode為什么還需要utf-8呢?
- 首先 unicode 規(guī)定了所有字符的二進(jìn)制編碼,并沒有規(guī)定如何存儲(chǔ)
- 如果我們以統(tǒng)一4個(gè)字節(jié)來存儲(chǔ)所有unicode的編碼字符,那就會(huì)在表示一個(gè)字節(jié)編碼的ascii部分嚴(yán)重浪費(fèi)存儲(chǔ)性能
- 另外因?yàn)榻y(tǒng)一4字節(jié)處理,那如果一個(gè)文件分片或者是一份缺失文件,那么此時(shí)該如何來判斷我們從頭讀取的 4字節(jié)是一個(gè)完整的字符呢?這就會(huì)造成很大的分析復(fù)雜度,可以說 無法分析, 這也是 utf-8等編碼的優(yōu)點(diǎn)即utf-8錯(cuò)誤編碼不會(huì)向后擴(kuò)散
- 綜合考慮 utf-8 是一種unicode 標(biāo)準(zhǔn)的存儲(chǔ)方案,改方案規(guī)定了如何存儲(chǔ)unicode字符,即看上面的utf-8的規(guī)定,大白話講就是 utf-8 可變長(zhǎng)編碼規(guī)定了 字符的起始位置,且極大可能節(jié)省存儲(chǔ)空間,總而言之很簡(jiǎn)單就是在無序中找到秩序
二、影響Python執(zhí)行的編碼方案
下列四種影響Python執(zhí)行的編碼方案,具體實(shí)例以最后所列案例為準(zhǔn)
1.Python解釋器的默認(rèn)編碼
獲取解釋器默認(rèn)編碼,Python3對(duì)應(yīng)的默認(rèn)編碼為 utf-8,Python2對(duì)應(yīng)的默認(rèn)編碼為ascii
import sys print(sys.getdefaultencoding())
Python2設(shè)置默認(rèn)編碼方式,Python3解釋器默認(rèn)utf-8所以去除該種設(shè)置方式
import sys reload(sys) sys.setdefaultencoding('utf-8')
解釋器編碼有什么用?
- 當(dāng)調(diào)用 decode() 和 encode() 進(jìn)行編碼轉(zhuǎn)換時(shí)候,如果未指定編碼格式,會(huì)調(diào)用解釋器默認(rèn)編碼進(jìn)行編碼轉(zhuǎn)換
- 若未指定編碼方式 而有中文出現(xiàn),此時(shí)會(huì)有報(bào)錯(cuò)產(chǎn)生
2.Python源文件文件編碼
python源文件的編碼與解碼,我們寫的python程序從產(chǎn)生到執(zhí)行的過程如下(以Pycharm為例)
依次為
編輯器 決定源代碼的編碼格式(編輯器中設(shè)置)
pycharm 會(huì)根據(jù)文件開頭的編碼聲明進(jìn)行文件格式保存
此種聲明保存的文件,是utf-8編碼的
# coding: utf-8
此種聲明保存的文件,是gbk編碼的
# coding: gbk
同時(shí)也可以在setting中進(jìn)行設(shè)置
解釋器按照Ascii
或者聲明指定的方式解碼源代碼, 以下是 官方文檔給的解釋
Python will default to ASCII as standard encoding if no other encoding hints are given.
※: Python2中會(huì)按照編碼聲明對(duì)源代碼進(jìn)行解碼,如未指定 編碼聲明 則會(huì)以 Ascii進(jìn)行解碼,此時(shí)如果有中文會(huì)報(bào)錯(cuò)
※:Python3默認(rèn)以utf-8
進(jìn)行解碼
若未指定編碼聲明, 而源代碼中有中文
此時(shí)Python2 會(huì)以Ascii 來進(jìn)行源代碼的'解碼';Python3 會(huì)默認(rèn)以 utf-8 進(jìn)行源代碼的'解碼'。
若源文件編碼為utf-8
, 而編碼聲明 為gbk
這種情況會(huì)出錯(cuò),因?yàn)榇疟P中保存的格式時(shí) gbk 格式的而卻以 utf-8 來進(jìn)行解碼,則會(huì)出錯(cuò)。
UnicodeDecodeError: 'gbk' codec can't decode bytes in position 2-3: illegal multibyte sequence
注意1:Python3將源代碼讀取到內(nèi)存中的字符串編碼為 unicode
, 這樣的中間碼的方式,不會(huì)出現(xiàn)亂碼, Python2以文件頭聲明的方式將源代碼讀取到內(nèi)存中
注意2:Python2 在日常編程中一定注意 文件編碼 和 文件聲明要一致,如 文件編碼為 utf-8 則此時(shí)應(yīng)該如此聲明 # coding: utf-8
, 若此時(shí)用gbk
做聲明,則此時(shí)會(huì)亂碼,一編一解 要成對(duì)
結(jié)果輸出,控制臺(tái)輸出 或 日志文件
解釋器如何知道該文件的編碼格式?
# coding: utf-8
3.操作系統(tǒng)的語言設(shè)置
locale 模塊獲取 操作系統(tǒng)編碼
import locale print locale.getdefaultencoding()
以open()函數(shù)為例
open() 函數(shù)會(huì)調(diào)用 Python操作系統(tǒng)默認(rèn)編碼進(jìn)行 編解碼
# coding: utf-8 import sys; reload(sys); sys.setdefaultencoding('utf-8') str = '中國' # utf-8 bytes類型 str_unicode = str.decode() # unicode with open('demo.txt', 'w') as f: f.write(str) # 寫入bytes類型,則此時(shí)文件編碼為 utf-8 f.write(str_unicode) # 寫入 unicode,則此時(shí)會(huì)根據(jù) sys.getdefaultencoding() 來進(jìn)行文件編碼
linux 下 vim打開以 gbk方式寫入的文件會(huì)出現(xiàn)亂碼,因?yàn)榇藭r(shí)會(huì)調(diào)用操作系統(tǒng)的編碼方式進(jìn)行解碼
4.Terminal使用的編碼
終端編碼 繼承自操作系統(tǒng)的編碼
三、 Python中的編碼表示范例
1.utf-8表示中文你好
print("你好".encode('utf-8')) >>> b'\xe4\xbd\xa0\xe5\xa5\xbd'
很容易看出 其中的 16進(jìn)制數(shù) e4bda0e5a5bd
2.Python中的len表示什么
- 對(duì)于字節(jié)流(bytes: 如utf-8字節(jié)流)來說表示字節(jié)數(shù)
- 對(duì)于unicode則表示字符數(shù)
三、最后
使用范例
Pycharm編碼設(shè)置
- 字符串變量級(jí)別編碼
- 腳本級(jí)別的編碼
- py文件級(jí)別的編碼
- 顯示窗口的編碼
問題收集 python3 unicode字符轉(zhuǎn)中文
a = "\\u4ea7\\u54c1\\u72b6\\u6001" # 兩種方式 print(eval(f'u"{a}"')) print(a.encode().decode("unicode_escape"))
即 一個(gè)字符可以是一個(gè)中文漢字、一個(gè)英文字母、一個(gè)阿拉伯?dāng)?shù)字、一個(gè)標(biāo)點(diǎn)符號(hào)等 ??
如:Unicode、ASCII
總結(jié)
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
相關(guān)文章
Python數(shù)據(jù)結(jié)構(gòu)之隊(duì)列詳解
棧和隊(duì)列是在程序設(shè)計(jì)中常見的數(shù)據(jù)類型。本節(jié)將詳細(xì)介紹隊(duì)列的定義及其不同實(shí)現(xiàn),并且給出隊(duì)列的一些實(shí)際應(yīng)用,感興趣的小伙伴可以了解一下2022-03-03python游戲?qū)崙?zhàn)項(xiàng)目之智能五子棋
下五子棋嗎?信不信我讓你幾步你也贏不了?本篇為你帶來用python編寫的五子棋小游戲,文中給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值2021-09-09樹莓派(python)與arduino串口通信的詳細(xì)步驟
這篇文章主要介紹了樹莓派(python)與arduino串口通信的詳細(xì)步驟,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2021-11-11python通過自定義isnumber函數(shù)判斷字符串是否為數(shù)字的方法
這篇文章主要介紹了python通過自定義isnumber函數(shù)判斷字符串是否為數(shù)字的方法,涉及Python操作字符串判斷的相關(guān)技巧,需要的朋友可以參考下2015-04-04Python將腳本程序轉(zhuǎn)變?yōu)榭蓤?zhí)行程序的實(shí)現(xiàn)
本文主要介紹了Python將腳本程序轉(zhuǎn)變?yōu)榭蓤?zhí)行程序的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2023-02-02Python中的正則表達(dá)式與JSON數(shù)據(jù)交換格式
正則表達(dá)式 是一個(gè)特殊的字符序列,一個(gè)字符串是否與我們所設(shè)定的這樣的字符序列,相匹配快速檢索文本、實(shí)現(xiàn)替換文本的操作。這篇文章主要介紹了Python中的正則表達(dá)式與JSON ,需要的朋友可以參考下2019-07-07python連接mysql數(shù)據(jù)庫示例(做增刪改操作)
python連接mysql數(shù)據(jù)庫示例,提供創(chuàng)建表,刪除表,數(shù)據(jù)增、刪、改,批量插入操作,大家參考使用吧2013-12-12python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的并查集的示例代碼
本篇文章主要介紹了python實(shí)現(xiàn)一個(gè)簡(jiǎn)單的并查集的示例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2018-03-03python爬取bilibili網(wǎng)頁排名,視頻,播放量,點(diǎn)贊量,鏈接等內(nèi)容并存儲(chǔ)csv文件中
這篇文章主要介紹了python爬取bilibili網(wǎng)頁排名,視頻,播放量,點(diǎn)贊量,鏈接等內(nèi)容并存儲(chǔ)csv文件中,首先要了解html標(biāo)簽,標(biāo)簽有主有次,大致了解以一下,主標(biāo)簽是根標(biāo)簽,也是所有要爬取的標(biāo)簽的結(jié)合體,需要的朋友可以參考一下2022-01-01