欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python與字符編碼問(wèn)題

 更新時(shí)間:2019年05月24日 09:23:00   作者:謝木森  
這篇文章主要介紹了python與字符編碼問(wèn)題,下面對(duì)編碼問(wèn)題做個(gè)簡(jiǎn)單的總結(jié),感興趣的朋友跟隨小編一起看看吧

用python2的小伙伴肯定會(huì)遇到字符編碼的問(wèn)題。下面對(duì)編碼問(wèn)題做個(gè)簡(jiǎn)單的總結(jié),希望對(duì)各位有些幫助。

故事零:編碼的定義

我們從“SOS“(國(guó)際通用求助信號(hào))開(kāi)始,它的摩斯密碼的編碼是:

“…---…”,想一下為什么選用S、O、S來(lái)作為求救信號(hào)?因?yàn)樗?jiǎn)單,容易辨別且不容易發(fā)錯(cuò)呀!
那么,字符編碼就是:

´給定一系列字符,對(duì)每個(gè)字符賦予一個(gè)數(shù)值,用數(shù)值來(lái)代表對(duì)應(yīng)的字符,這一數(shù)值就是字符的編碼。例如,我們給字符'A'賦予數(shù)值0x41,則0x41就是字符'A'的編碼。字符編碼是字符的表現(xiàn)、儲(chǔ)存方式。

字符編碼需要處理兩件事:

(1)規(guī)定一個(gè)字符集中的字符由多少個(gè)字節(jié)表示;

(2)制定該字符集的字符編碼表,即該字符集中每個(gè)字符對(duì)應(yīng)的(二進(jìn)制)值。

字符集:´給定一系列字符并賦予對(duì)應(yīng)的編碼后,所有這些字符和編碼對(duì)組成的集合就是字符集。´比如,給定字符列表為{'A','B'}時(shí),{'A'=>0x41,‘B'=>0x42}就是一個(gè)字符集。

常見(jiàn)字符集有:

ASCII
GB2312
GBK
GB18030
Big5
Unicode

一張圖總結(jié):

故事一:Python2與Python3的字符串類(lèi)型?

python2中的字符串有str和unicode類(lèi)型,而python3中字符串只有unicode類(lèi)型。比如 ‘你好'是str字符串,而 u'你好'則是unicode字符串。

故事二:decode()和encode()傻傻分不清?

decode() 是將str字符串轉(zhuǎn)化為unicode字符串;encode() 是將unicode字符串轉(zhuǎn)化為str字符串。所以要做一些編碼的轉(zhuǎn)換通常是以u(píng)nicode作為中間編碼做轉(zhuǎn)換。如name.decode(“GB2312”)表示將GB2312編碼的字符串name轉(zhuǎn)換成unicode編碼,name.encode(“GB2312”)表示將unicode字符串name轉(zhuǎn)換成GB2312編碼。

故事三:UnicodeEncodeError: ‘a(chǎn)scii' codec can't encode character?

我們先看看兩張圖,是不是很煩?

下面我們看個(gè)例子:

當(dāng)用u'字符串'申明這個(gè)字符串變量時(shí)就指明了該字符串是使用unicode字符編碼。當(dāng)要將unicode字符串轉(zhuǎn)換為str字符串或者寫(xiě)入文件時(shí),python2默認(rèn)使用ASCII 碼保存數(shù)據(jù),而ASCII 碼無(wú)法識(shí)別大于128 的字符,于是報(bào)了上面的錯(cuò)誤。
附ASCII碼表:

故事四:unicode是什么?

unicode可以看做一個(gè)終極的字符編碼方法,它給出了地球上常用字符的二進(jìn)制映射,而且所有的二進(jìn)制字符串唯一地表示一個(gè)字符。但是,unicode只給出了字符和二進(jìn)制串的對(duì)應(yīng)關(guān)系,并沒(méi)有給出存儲(chǔ)形式。而不同字符所占用的存儲(chǔ)空間可能不同,比如ASCII 在unicode中只占用了一個(gè)字節(jié)即可,而常用漢字在unicode中需要占用兩個(gè)字節(jié),還有一些羅馬字符可能需要三個(gè)或以上字節(jié)。如果直接存儲(chǔ)的話可能導(dǎo)致無(wú)法分割字符串,也無(wú)法正確解碼出字符。

故事五:UTF-8橫空出世?

互聯(lián)網(wǎng)的普及,強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式。這時(shí)候UTF-8 出場(chǎng)。UTF-8 是unicode在計(jì)算機(jī)中的一種實(shí)現(xiàn)方式。UTF-8是一種變長(zhǎng)編碼,每個(gè)字符占1-4 個(gè)字節(jié)。UTF-8 將字節(jié)分為數(shù)值位和標(biāo)識(shí)位,數(shù)值位真正保存字符編碼數(shù)值,標(biāo)識(shí)位表示這個(gè)字節(jié)是屬于哪個(gè)字符的、或者該字符占多少個(gè)字節(jié)。UTF-8 編碼方法:

單字節(jié),首位為標(biāo)識(shí)位0;多字節(jié)字符首字節(jié)標(biāo)志位1··10開(kāi)頭,字符占多少字節(jié)則有多少1,其他字節(jié)標(biāo)識(shí)位10開(kāi)頭;

§  單字節(jié)字符: 0xxxxxxx (以0 開(kāi)頭標(biāo)志位,數(shù)值位用x 表示)

§  雙字節(jié)字符: 110xxxxx 10xxxxxx

§  三字節(jié)字符: 1110xxxx 10xxxxxx 10xxxxxx

§  四字節(jié)字符: 11110xxx 10xxxxxx 10xxxxxx10xxxxxx

unicode變?yōu)閁TF-8 編碼非常簡(jiǎn)單,unicode二進(jìn)制按照從低到高,填充UTF-8的數(shù)值位,除去那些不真正表示數(shù)值的標(biāo)識(shí)位(字節(jié)開(kāi)頭的0,10,110,1110和11110),順序也是由低到高。以漢字“你”為例,可見(jiàn)它的unicode編碼為“4f60”(01001111 01100000)。

從“你”的unicode值范圍可以看到需要三個(gè)字節(jié),接著從低位字節(jié)向高位字節(jié)填充得到“你”的UTF-8 編碼(高位沒(méi)有填充完則用0補(bǔ)充)。

可以看到將UTF-8 用于標(biāo)記位(紅色)的位去掉,合并可以得到原始的unicode碼。

故事六:"unicode-escape"與"unicode-unescape"

“\u”是表示unicode的轉(zhuǎn)義字符,用\uxxxx這種方式表示unicode字符就是”unicode-escape”方式。說(shuō)人話:´一句話:xxx.decode(“unicode-escape”)相當(dāng)于把xxx解碼成unicode類(lèi)型并返回。
而用”%uxxxx”的方式表示unicode字符,這種方式就是”unicode-unescape”,常用于javascript。

番外故事七:讀了那么多年書(shū),你真的了解“全半角”?

全角---指一個(gè)字符占用兩個(gè)標(biāo)準(zhǔn)字符位置。
半角---指一字符占用一個(gè)標(biāo)準(zhǔn)的字符位置。
引申:寫(xiě)程序時(shí)雙引號(hào)、冒號(hào)、小括號(hào)等為啥如此糾結(jié)?
--我國(guó)專(zhuān)家在制定GB2312字符集時(shí),ASCII里本來(lái)就有的數(shù)字、標(biāo)點(diǎn)、字母都統(tǒng)統(tǒng)重新編了兩個(gè)字節(jié)長(zhǎng)的編碼。
是不是腦殼疼呀,想想我國(guó)程序員因?yàn)橹杏⑽那袚Q犧牲了多少寶貴時(shí)間啊,啊嘿!

總結(jié)

以上所述是小編給大家介紹的python與字符編碼問(wèn)題 ,希望對(duì)大家有所幫助,如果大家有任何疑問(wèn)請(qǐng)給我留言,小編會(huì)及時(shí)回復(fù)大家的。在此也非常感謝大家對(duì)腳本之家網(wǎng)站的支持!
如果你覺(jué)得本文對(duì)你有幫助,歡迎轉(zhuǎn)載,煩請(qǐng)注明出處,謝謝!

相關(guān)文章

  • Python性能測(cè)試工具Locust安裝及使用

    Python性能測(cè)試工具Locust安裝及使用

    這篇文章主要介紹了Python性能測(cè)試工具Locust安裝及使用,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2020-12-12
  • python使用pika庫(kù)調(diào)用rabbitmq交換機(jī)模式詳解

    python使用pika庫(kù)調(diào)用rabbitmq交換機(jī)模式詳解

    這篇文章主要介紹了python使用pika庫(kù)調(diào)用rabbitmq交換機(jī)模式詳解,文章圍繞主題展開(kāi)詳細(xì)的內(nèi)容介紹,具有一定的參考價(jià)值,感興趣的小伙伴可以參考一下
    2022-08-08
  • Python編程實(shí)現(xiàn)從字典中提取子集的方法分析

    Python編程實(shí)現(xiàn)從字典中提取子集的方法分析

    這篇文章主要介紹了Python編程實(shí)現(xiàn)從字典中提取子集的方法,結(jié)合實(shí)例形式對(duì)比分析了Python采用字典推導(dǎo)式與序列轉(zhuǎn)換實(shí)現(xiàn)字典提取子集的相關(guān)操作技巧與優(yōu)缺點(diǎn),需要的朋友可以參考下
    2018-02-02
  • python裝飾器"@"使用實(shí)例深入探究

    python裝飾器"@"使用實(shí)例深入探究

    這篇文章主要為大家介紹了python裝飾器"@"使用實(shí)例深入探究,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2024-01-01
  • Python通過(guò)隊(duì)列實(shí)現(xiàn)進(jìn)程間通信詳情

    Python通過(guò)隊(duì)列實(shí)現(xiàn)進(jìn)程間通信詳情

    這篇文章主要介紹了Python通過(guò)隊(duì)列實(shí)現(xiàn)進(jìn)程間通信詳情文章通過(guò)提出問(wèn)題:在多進(jìn)程中,每個(gè)進(jìn)程之間是什么關(guān)系展開(kāi)主題相關(guān)內(nèi)容,感興趣的朋友可以參考一下
    2022-06-06
  • Python?matplotlib的spines模塊實(shí)例詳解

    Python?matplotlib的spines模塊實(shí)例詳解

    作為程序員,經(jīng)常需要進(jìn)行繪圖,下面這篇文章主要給大家介紹了關(guān)于Python?matplotlib的spines模塊的相關(guān)資料,文中通過(guò)實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
    2022-08-08
  • Python中利用函數(shù)裝飾器實(shí)現(xiàn)備忘功能

    Python中利用函數(shù)裝飾器實(shí)現(xiàn)備忘功能

    這篇文章主要介紹了Python中利用函數(shù)裝飾器實(shí)現(xiàn)備忘功能,同時(shí)還降到了利用裝飾器來(lái)檢查函數(shù)的遞歸、確保參數(shù)傳遞的正確,需要的朋友可以參考下
    2015-03-03
  • 教你使用Sublime text3搭建Python開(kāi)發(fā)環(huán)境及常用插件安裝另分享Sublime text3最新激活注冊(cè)碼

    教你使用Sublime text3搭建Python開(kāi)發(fā)環(huán)境及常用插件安裝另分享Sublime text3最新激活注冊(cè)碼

    這篇文章主要介紹了使用Sublime text 3搭建Python開(kāi)發(fā)環(huán)境及常用插件安裝,并提供了最新Sublime text 3激活注冊(cè)碼需要的朋友可以參考下
    2020-11-11
  • Python Websocket服務(wù)端通信的使用示例

    Python Websocket服務(wù)端通信的使用示例

    這篇文章主要介紹了Python Websocket服務(wù)端通信的使用示例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2020-02-02
  • python使用rsa非對(duì)稱加密過(guò)程解析

    python使用rsa非對(duì)稱加密過(guò)程解析

    這篇文章主要介紹了python使用rsa非對(duì)稱加密過(guò)程解析,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-12-12

最新評(píng)論