欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python字符集和字符編碼詳情

 更新時間:2022年05月11日 17:26:42   作者:??編程學習網????  
這篇文章主要介紹了Python字符集和字符編碼詳情,Python中的字符串是通過unicode來表示的,在底層對應的結構體是PyUnicodeObject,但是具體為什么呢?帶著疑問一起學習下面文章內容吧

前言

這一次我們分析一下Python的字符串,首先字符串是一個變長對象,因為不同長度的字符串所占的內存是不一樣的;但同時字符串又是一個不可變對象,因為一旦創(chuàng)建就不可以再修改了。

而Python中的字符串是通過unicode來表示的,在底層對應的結構體是PyUnicodeObject。不過話說回來,為什么需要unicode呢?

首先計算機存儲的基本單位是字節(jié),由8個比特位組成,由于英文字母算上大小寫只有52個,再加上若干字符,數量不會超過256個,因此一個字節(jié)完全可以表示。但是隨著計算機的普及,越來越多的非英文字符出現,導致一個字節(jié)已經無法表示了。所以只能曲線救國,對于一個字節(jié)無法表示的字符,使用多個字節(jié)表示

但是這樣會出現兩個問題:

  • 因為每個國家都有自己的字符編碼,所以不支持多國語言,例如中文的編碼不可以包含日文,否則就會造成亂碼;
  • 沒有統(tǒng)一標準,例如中文有GB2312、GBK、GB18030等多個標準;

到這里我們先不繼續(xù)往下深入,我們先來理清楚一些概念。

字符集和字符編碼

估計有很多小伙伴搞不清這兩者的區(qū)別,我們先來解釋一下所謂的字符集和字符編碼是怎么一回事?

字符集:系統(tǒng)支持的所有字符組成的集合,像ASCII、GB2312、Big5、unicode都屬于字符集。只不過不同的字符集所能容納的字符個數不同,比如ASCII字符集中不包含中文,unicode則可以容納世界上的所有字符;

字符編碼:負責將每個字符轉換成一個或多個計算機可以接受的具體數字,該數字可以理解為編號,因此字符編碼維護了字符和編號之間的對應關系。而編碼也分為多種,比如ascii、gbk、utf-8等等,字符編碼不同,那么字符轉換之后的編號也不同,當然能轉化的字符種類也不同。比如ASCII這種字符編碼,它就只能轉換ASCII字符。

當然,ASCII比較特殊,它既是字符集、也是字符編碼。并且不管采用什么編碼,ASCII字符對應的編號永遠是相同的。

將字符串中的每一個字符轉成對應的編號,那么得到的就是字節(jié)序列(bytes對象),因為計算機存儲和網絡通訊的基本單位都是字節(jié),所以字符串必須以字節(jié)序列的形式進行存儲或傳輸。

因此字符串和字節(jié)序列在某種程度上是很相似的,字符串按照指定的編碼進行encode即可得到字節(jié)序列,也就是將每個字符都轉成對應的編號;字節(jié)序列按照相同的編碼decode即可得到字符串,也就是根據編號找到對應的字符。

比如我們寫了一段文本,然后在存儲的時候必須先進行編碼,也就是將每一個字符都轉成一個或多個系統(tǒng)可以接受的數字、即對應的編號之后,才可以進行存儲。

s = "你好"
# 編碼之后就是一串數字
print(s.encode("gbk"))  # b'\xc4\xe3\xba\xc3'

假設文本中只有你好二字,在存儲的時候采用gbk進行編碼,那么在讀取的時候也必須使用gbk進行解碼,否則的話就會無法解析而報錯。因為字符編碼不同,字符對應的編號也不同。

再比如每個國家都有自己的字符編碼,你在日本的一臺計算機上寫好的文件拿到中國的計算機上打開,很有可能出現亂碼。因為字符編碼不同,字符和編號之間的對應關系也不同,采用不同的字符編碼進行解析肯定會出問題。

但我們說,對于ASCII字符來說,由于不管采用哪一種編碼,它們得到的編號都是固定的。所以編碼對于ASCII字符來說,沒有任何影響。

s = "abc"
print(s.encode("gbk"))  # b'abc'
print(s.encode("gbk").decode("utf-8"))  # abc

# 但如果是非ASCII字符,就不行了
try:
    s = "你好"
    s.encode("gbk").decode("utf-8")
except UnicodeError as e:
    # 報錯了,無法解析
    print(e)  
    # 'utf-8' codec can't decode byte 0xc4 in position 0: invalid continuation byte

這里我們再回憶一下bytes對象,我們創(chuàng)建的時候可以采用字面量的方式,比如 b"abc",但是 b"憨"卻不可以。原因就是憨這個字符不是ASCII字符,那么采用不同的字符編碼,其對應的編號是不同的,而這種方式Python又不知道我們使用哪一種編碼,所以不允許這么做,而是需要通過"憨".encode的方式手動指定字符編碼。

但是對于 ASCII 字符而言,不管采用哪一種字符編碼,得到的編號都是一樣的, 所以Python針對ASCII字符則允許這種做法,比如b"abc"。并且我們看到,對于漢字來說,在編碼之后會對應多個編號,而每個編號占1字節(jié),因此不同的字符所占的大小可能不同。

小結

以上就是字符集和字符編碼,字符集就是字符組成的集合,不同字符集所能容納的字符數量是有限的。字符編碼是將字符轉成對應的編號,比如將一個字符串中的所有字符都轉成對應的編號之后,就得到了字節(jié)序列。

當然和字符集一樣,字符編碼能轉換的字符種類也是有限的,像漢字我們可以使用 gbk 編碼、utf-8 編碼,但是不能使用 ascii 編碼。

到此這篇關于Python字符集和字符編碼詳情的文章就介紹到這了,更多相關Python字符編碼內容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關文章希望大家以后多多支持腳本之家!

相關文章

  • python生成驗證碼圖片代碼分享

    python生成驗證碼圖片代碼分享

    這篇文章主要為大家介紹了python生成驗證碼圖片代碼,生成原理是將一串隨機產生的數字或符號,生成一幅圖片,圖片里加上一些干擾象素,想要實現驗證碼圖片的朋友可以參考一下
    2016-01-01
  • Python import導入上級目錄文件的方法

    Python import導入上級目錄文件的方法

    這篇文章主要介紹了Python import導入上級目錄文件,本文結合示例代碼給大家介紹的非常詳細,對大家的學習或工作具有一定的參考借鑒價值,需要的朋友可以參考下
    2023-01-01
  • python3讀取MySQL-Front的MYSQL密碼

    python3讀取MySQL-Front的MYSQL密碼

    本篇文章主要介紹了python3讀取MySQL-Front的MYSQL密碼的相關知識,具有很好的參考價值。下面跟著小編一起來看下吧
    2017-05-05
  • Python+opencv+pyaudio實現帶聲音屏幕錄制

    Python+opencv+pyaudio實現帶聲音屏幕錄制

    今天小編就為大家分享一篇Python+opencv+pyaudio實現帶聲音屏幕錄制,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12
  • 對python實現模板生成腳本的方法詳解

    對python實現模板生成腳本的方法詳解

    今天小編就為大家分享一篇對python實現模板生成腳本的方法詳解,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-01-01
  • Python使用for實現無限循環(huán)的多種方式匯總

    Python使用for實現無限循環(huán)的多種方式匯總

    這篇文章主要介紹了Python使用for實現無限循環(huán)的多種方式匯總,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-03-03
  • Django Haystack 全文檢索與關鍵詞高亮的實現

    Django Haystack 全文檢索與關鍵詞高亮的實現

    這篇文章主要介紹了Django Haystack 全文檢索與關鍵詞高亮的實現,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-02-02
  • Tensorflow深度學習使用CNN分類英文文本

    Tensorflow深度學習使用CNN分類英文文本

    這篇文章主要為大家介紹了Tensorflow深度學習CNN實現英文文本分類示例解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步
    2021-11-11
  • pytorch算子torch.arange在CPU?GPU?NPU中支持數據類型格式

    pytorch算子torch.arange在CPU?GPU?NPU中支持數據類型格式

    這篇文章主要為大家介紹了pytorch算子torch.arange在CPU?GPU?NPU支持數據類型格式,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2022-09-09
  • python基礎之錯誤和異常處理

    python基礎之錯誤和異常處理

    這篇文章主要介紹了python錯誤和異常處理,實例分析了Python中返回一個返回值與多個返回值的方法,需要的朋友可以參考下
    2021-10-10

最新評論