快捷導(dǎo)航

python2 中 unicode 和 str 之間的轉(zhuǎn)換及與python3 str 的區(qū)別

更新時間：2019年07月25日 10:14:21 作者：lowmanisbusy

這篇文章主要介紹了python2 中 unicode 和 str 之間的轉(zhuǎn)換及與python3 str 的區(qū)別本文給大家介紹的非常詳細，具有一定的參考借鑒價值,需要的朋友可以參考下

在python2中字符串分為 unicode 和 str 類型

　　Str To Unicode 使用decode(), 解碼
　　Unicode To Str 使用encode(), 編碼

返回數(shù)據(jù)給前端時需要先將unicode轉(zhuǎn)換為str類型, 事實上, python2 中的 str 就是一串字節(jié)(byte), 而網(wǎng)絡(luò)通信時, 傳輸?shù)木褪亲止?jié). 如果前端需要接收json數(shù)據(jù), 需要使用 json.dumps() 將數(shù)據(jù)轉(zhuǎn)換為json格式進行返回, 當數(shù)據(jù)是嵌套類型的數(shù)據(jù), 內(nèi)層的數(shù)據(jù)可能無法直接轉(zhuǎn)換為str類型的數(shù)據(jù), 這時可以使用eval()函數(shù)進行轉(zhuǎn)換, 再使用json.dumps()進行轉(zhuǎn)換為json格式的數(shù)據(jù), json 事實上就是一串字符串.

python2 默認情況下字符串的類型是 str 類型, 如果需要得到 unicode 類型的字符串, 需要使用下面的方式進行聲明:

my_str = u"lowmanisbusy" # 在變量前面加上 u

在 python2 中如果沒有重新指定字符編碼, 定義中文的字符串時, 需要加上 "u", 指明該字符串為 unicode 類型, 指定使用unicode編碼對其進行編碼保存:

my_zh_str = u"渣男不但丑" # 在變量前面加上 u

unicode編碼: unicode編碼為世界上所有字符都分配了一個唯一編號, 為十六進制, 如中文簡體漢字 “渣” 的 Unicode編號就是 6E23, 在 python2就是 "\u6e23", 但是unicode僅僅定義了每個字符的編號，并沒有定義如何將這個編號進行存儲的方式,所以后來出現(xiàn)了utf-8, gbk等編碼格式, 它們都是 unicode 的一種實現(xiàn)方式, 仍然使用了unicode 中的唯一編號, 個人對其的簡單理解就是在unicode編碼的基礎(chǔ)之上又定義了對字符的存儲方式.

在python3中字符串分為 str 和 bytes 兩種類型

  Str To Bytes 使用 encode(), 編碼
  Bytes To Str 使用 decode(), 解碼

這里需要說明的是, python3 中 bytes 類型的字符串, 就相當于 python2 中 str 類型的字符串, python3中沒有unicode類型的字符串, 這里其實涉及到默認編碼的問題, python3默認字符編碼為:utf-8, python2默認字符編碼為:ASCII, ASCII碼包含了128個字符, 其中包括所有的英文字符, 阿拉伯數(shù)字, 標點符號, 控制符號等, 卻沒有中文, 中文是象形文字, 需要使用到更多的字節(jié)進行組合來表示出每個漢字, 因此ASCII是無法滿足對中文的表示的, 所以 python2中如果沒有重新設(shè)置字符編碼的話,代碼中就不允許出現(xiàn)str類型的中文字符串(可以指定為unicode類型), 因為Cpython2解釋器無法識別. 至于 ASCII, UNICODE, UTF-8 之間的關(guān)系與區(qū)別這里就不細說了, 可以自行去了解一下( utf-8編碼是 unicode編碼的一種實現(xiàn)方式, 個人理解可以認為是下面這樣一種關(guān)系: utf-8 <---> unicode <--->byte, 最終,數(shù)據(jù)的傳輸仍然是以二進制的形式一個一個字節(jié)進行傳輸?shù)?

默認情況下,python3中字符串的類型為 str, 在web框架中, 會自動將 str轉(zhuǎn)換成 byte 向前端返回.

當需要將某種編碼格式的bytes轉(zhuǎn)換另外一種編碼格式的bytes時需要先按原來的編碼格式進行解碼成str類型, 再使用新的編碼格式轉(zhuǎn)換為bytes類型

如: 若存在變量 my_bt, 其為編碼格式 gbk 的 bytes, 需將其轉(zhuǎn)換為utf-8的編碼格式,需要進行如下的處理:

my_str = my_bt.decode("gbk") # 解碼
　　my_bt = my_str.encode("utf-8") # 重新編碼

因為 python3 中沒有 unicode 類型的字符串, 所有在 python3 中使用下面這種方式定義字符串是沒有意義的

my_str = u"渣男不但丑"

ps:下面看下Python2之unicode轉(zhuǎn)字符串

str.encode('unicode-escape').decode('string_escape')

總結(jié)

以上所述是小編給大家介紹的python2 中 unicode 和 str 之間的轉(zhuǎn)換及與python3 str 的區(qū)別,希望對大家有所幫助，如果大家有任何疑問請給我留言，小編會及時回復(fù)大家的。在此也非常感謝大家對腳本之家網(wǎng)站的支持！
如果你覺得本文對你有幫助，歡迎轉(zhuǎn)載，煩請注明出處，謝謝！

您可能感興趣的文章: