欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python有關(guān)Unicode UTF-8 GBK編碼問(wèn)題詳解

 更新時(shí)間:2022年08月18日 16:49:07   作者:GokuCode  
本文主要介紹了Python有關(guān)Unicode UTF-8 GBK編碼問(wèn)題詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧

1.統(tǒng)一碼(Unicode)

Unicode也叫萬(wàn)國(guó)碼、單一碼,是計(jì)算機(jī)科學(xué)領(lǐng)域里的一項(xiàng)業(yè)界標(biāo)準(zhǔn),包括字符集、編碼方案等。對(duì)于世界上所有的語(yǔ)言文字再unicode中都可以查看到?!緷h】字的編碼解釋官網(wǎng)https://www.unicode.org/cgi-bin/GetUnihanData.pl?codepoint=6C49

unicode編碼就是為了統(tǒng)一世界上的編碼,有一個(gè)統(tǒng)一的規(guī)范。但是它還存在一些問(wèn)題。

Unicode的問(wèn)題

需要注意的是,Unicode只是一個(gè)符號(hào)集,它只規(guī)定了符號(hào)的二進(jìn)制代碼,卻沒有規(guī)定這個(gè)二進(jìn)制代碼應(yīng)該如何存儲(chǔ)。

比如,漢字“嚴(yán)”的unicode是十六進(jìn)制數(shù)4E25,轉(zhuǎn)換成二進(jìn)制數(shù)足足有15位(100111000100101),也就是說(shuō)這個(gè)符號(hào)的表示至少需要2個(gè)字節(jié)。表示其他更大的符號(hào),可能需要3個(gè)字節(jié)或者4個(gè)字節(jié),甚至更多。

這里就有兩個(gè)嚴(yán)重的問(wèn)題

  • 第一個(gè):如何才能區(qū)別unicode和ascii?計(jì)算機(jī)怎么知道三個(gè)字節(jié)表示一個(gè)符號(hào),而不是分別表示三個(gè)符號(hào)呢?
  • 第二個(gè):我們已經(jīng)知道,英文字母只用一個(gè)字節(jié)表示就夠了,如果unicode統(tǒng)一規(guī)定,每個(gè)符號(hào)用三個(gè)或四個(gè)字節(jié)表示,那么每個(gè)英文字母前都必然有二到三個(gè)字節(jié)是0,這對(duì)于存儲(chǔ)來(lái)說(shuō)是極大的浪費(fèi),文本文件的大小會(huì)因此大出二三倍,這是無(wú)法接受的。

它們?cè)斐傻慕Y(jié)果是:

  • 出現(xiàn)了unicode的多種存儲(chǔ)方式,也就是說(shuō)有許多種不同的二進(jìn)制格式,可以用來(lái)表示unicode。
  • unicode在很長(zhǎng)一段時(shí)間內(nèi)無(wú)法推廣,直到互聯(lián)網(wǎng)的出現(xiàn)。

2.UTF-8編碼

互聯(lián)網(wǎng)的普及,強(qiáng)烈要求出現(xiàn)一種統(tǒng)一的編碼方式。UTF-8就是在互聯(lián)網(wǎng)上使用最廣的一種unicode的實(shí)現(xiàn)方式。其他實(shí)現(xiàn)方式還包括UTF-16和UTF-32,不過(guò)在互聯(lián)網(wǎng)上基本不用。重復(fù)一遍,這里的關(guān)系是,UTF-8是Unicode的實(shí)現(xiàn)方式之一。

UTF-8最大的一個(gè)特點(diǎn),就是它是一種變長(zhǎng)的編碼方式。它可以使用1~4個(gè)字節(jié)表示一個(gè)符號(hào),根據(jù)不同的符號(hào)而變化字節(jié)長(zhǎng)度。

UTF-8的編碼規(guī)則很簡(jiǎn)單,只有二條:

  • 對(duì)于單字節(jié)的符號(hào),字節(jié)的第一位設(shè)為0,后面7位為這個(gè)符號(hào)的unicode碼。因此對(duì)于英語(yǔ)字母,UTF-8編碼和ASCII碼是相同的。
  • 對(duì)于n字節(jié)的符號(hào)(n>1),第一個(gè)字節(jié)的前n位都設(shè)為1,第n+1位設(shè)為0,后面字節(jié)的前兩位一律設(shè)為10。剩下的沒有提及的二進(jìn)制位,全部為這個(gè)符號(hào)的unicode碼。

下表總結(jié)了編碼規(guī)則,字母x表示可用編碼的位。
Unicode符號(hào)范圍 | UTF-8編碼方式
(十六進(jìn)制) | (二進(jìn)制)
--------------------±--------------------------------------------
0000 0000-0000 007F | 0xxxxxxx
0000 0080-0000 07FF | 110xxxxx 10xxxxxx
0000 0800-0000 FFFF | 1110xxxx 10xxxxxx 10xxxxxx
0001 0000-0010 FFFF | 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

Python代碼舉例:

a = '\u6c49' # 漢的unicode編碼
print(a)
a = '漢'
print("漢字utf8格式:",a.encode('utf8'))
print('漢字unicode格式:',a.encode('unicode_escape'))
print('漢字gbk格式:',a.encode('gbk'))
print('漢字gb2312格式:',a.encode('gb2312'))
# 輸出結(jié)果
漢
漢字utf8格式: b'\xe6\xb1\x89'
漢字unicode格式: b'\\u6c49'
漢字gbk格式: b'\xba\xba'
漢字gb2312格式: b'\xba\xba'

可以看到以上結(jié)果,漢字的漢通過(guò)print打印時(shí)用的是unicode編碼,存儲(chǔ)時(shí)使用utf8,也即是我們保存文件時(shí)常用的編碼

with open('xxx.txt','w',encoding='utf-8') as f:
    f.write(xxx)

打開的時(shí)候也要指定文件編碼

with open(file_path, encoding='utf-8') as f:
    f.read()

當(dāng)使用gbk編碼保存的文件使用utf8打開時(shí)會(huì)報(bào)錯(cuò),使用gbk打開即可

with open(r'gbk.txt','r',encoding='utf8') as f:
    print(f.read())
    
(result, consumed) = self._buffer_decode(data, self.errors, final)
UnicodeDecodeError: 'utf-8' codec can't decode byte 0xd5 in position 0: invalid continuation byte

總結(jié)

  • UNICODE是一個(gè)符號(hào)集合,對(duì)全世界的語(yǔ)言都對(duì)應(yīng)一個(gè)符號(hào)編碼
  • UTF-8是UNICODE在計(jì)算機(jī)中存儲(chǔ)時(shí)的具體體現(xiàn),是存儲(chǔ)方案
  • UTF-16同理
  • UTF-32同理
  • GB 2312 或 GB 2312-80 是一個(gè)簡(jiǎn)體中文字符集的中國(guó)國(guó)家標(biāo)準(zhǔn),全稱為《信息交換用漢字編碼字符集·基本集》,又稱為GB0,由中國(guó)國(guó)家標(biāo)準(zhǔn)總局發(fā)布,1981年5月1日實(shí)施。
  • GBK: 漢字國(guó)標(biāo)擴(kuò)展碼,基本上采用了原來(lái)GB2312-80所有的漢字及碼位,并涵蓋了原Unicode中所有的漢字20902,總共收錄了883個(gè)符號(hào), 21003個(gè)漢字及提供了1894個(gè)造字碼位。

參考鏈接

到此這篇關(guān)于Python有關(guān)Unicode UTF-8 GBK編碼問(wèn)題詳解 的文章就介紹到這了,更多相關(guān)Python Unicode UTF-8 GBK編碼內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!

相關(guān)文章

  • python時(shí)間序列按頻率生成日期的方法

    python時(shí)間序列按頻率生成日期的方法

    這篇文章主要介紹了python時(shí)間序列按頻率生成日期的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-05-05
  • Python時(shí)間處理模塊Time和DateTime

    Python時(shí)間處理模塊Time和DateTime

    這篇文章主要為大家介紹了Python時(shí)間處理模塊Time和DateTime使用示例詳解,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪
    2023-06-06
  • Python批量操作Excel文件詳解

    Python批量操作Excel文件詳解

    因?yàn)椴┲魉诘牡胤?,需要每周整理全校的青年大學(xué)習(xí)數(shù)據(jù),Excel操作本身不難,但是這種毫無(wú)意義的體力勞動(dòng)做久了就會(huì)很無(wú)趣,剛好我想起來(lái)上學(xué)期接觸過(guò)Python,想著能不能試一下,取代這種無(wú)意義的勞動(dòng)
    2021-11-11
  • Python?Numpy庫(kù)的超詳細(xì)教程

    Python?Numpy庫(kù)的超詳細(xì)教程

    Numpy庫(kù)是Python中的一個(gè)科學(xué)計(jì)算庫(kù),本文主要介紹了ndarray的基本操作、?ndarray運(yùn)算等各種Numpy庫(kù)的超詳細(xì)教程,需要的朋友可以參考下
    2022-04-04
  • 在Python中操作字典之setdefault()方法的使用

    在Python中操作字典之setdefault()方法的使用

    這篇文章主要介紹了在Python中操作字典之setdefault()方法的使用,是Python入門學(xué)習(xí)中的基礎(chǔ)知識(shí),需要的朋友可以參考下
    2015-05-05
  • Python中if __name__ ==

    Python中if __name__ == "__main__"詳細(xì)解釋

    這篇文章主要介紹了Python中if __name__ == "__main__"詳細(xì)解釋,需要的朋友可以參考下
    2014-10-10
  • 一小時(shí)學(xué)會(huì)TensorFlow2之基本操作1實(shí)例代碼

    一小時(shí)學(xué)會(huì)TensorFlow2之基本操作1實(shí)例代碼

    這篇文章主要介紹了TensorFlow2的基本操作第一節(jié),本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下
    2021-09-09
  • 快速解決docker-py api版本不兼容的問(wèn)題

    快速解決docker-py api版本不兼容的問(wèn)題

    今天小編就為大家分享一篇快速解決docker-py api版本不兼容的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧
    2019-08-08
  • python 利用jinja2模板生成html代碼實(shí)例

    python 利用jinja2模板生成html代碼實(shí)例

    這篇文章主要介紹了python 利用jinja2模板生成html代碼實(shí)例,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
    2019-10-10
  • 在Python中存儲(chǔ)字符串

    在Python中存儲(chǔ)字符串

    這篇文章主要介紹了在Python中存儲(chǔ)字符串,文章通過(guò)unicode展開主題相關(guān)內(nèi)容,具有一定的參考價(jià)值,需要的小伙伴可以參考一下
    2022-05-05

最新評(píng)論