python去掉 unicode 字符串前面的u方法
有時我們會碰到類似下面這樣的 unicode 字符串:
u'\xe4\xbd\xa0\xe5\xa5\xbd'
這明顯不是一個正確的 unicode 字符串,可能是在哪個地方轉(zhuǎn)碼轉(zhuǎn)錯了。
我們要想得到正確的 unicode 字符串首先就必須先將這個字符串轉(zhuǎn)成非 unicode 字符串, 然后再進行解碼。按照普通的辦法進行 encode 肯定是不行的,因為這不是一個正確的 unicode 字符串:
In [1]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8') Out[1]: '\xc3\xa4\xc2\xbd\xc2\xa0\xc3\xa5\xc2\xa5\xc2\xbd' In [2]: print u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('utf8') 盲陸聽氓樓陸 那如何才能得到我們想要的 \xe4\xbd\xa0\xe5\xa5\xbd 呢? python 提供了一個特殊的編碼( raw_unicode_escape )用來處理這種情況: In [4]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape') Out[4]: '\xe4\xbd\xa0\xe5\xa5\xbd' In [5]: u'\xe4\xbd\xa0\xe5\xa5\xbd'.encode('raw_unicode_escape').decode('utf8') Out[5]: u'\u4f60\u597d' In [7]: print u'\u4f60\u597d' 你好
以上這篇python去掉 unicode 字符串前面的u方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
PyTorch在Windows環(huán)境搭建的方法步驟
這篇文章主要介紹了PyTorch在Windows環(huán)境搭建的方法步驟,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-05-05Pandas分組聚合之使用自定義函數(shù)方法transform()、apply()
Pandas具有很多強大的功能,transform就是其中之一,利用它可以高效地匯總數(shù)據(jù)且不改變數(shù)據(jù)行數(shù),下面這篇文章主要給大家介紹了關(guān)于Pandas分組聚合之使用自定義函數(shù)方法transform()、apply()的相關(guān)資料,需要的朋友可以參考下2023-01-01Python+Pygame實戰(zhàn)之炫舞小游戲的實現(xiàn)
提到QQ炫舞,可能很多人想到的第一個詞是“青春”。恍然間,這個承載了無數(shù)人回憶與時光的游戲品牌,已經(jīng)走到了第十幾個年頭。今天小編就來給大家嘗試做一款簡單的簡陋版的小游戲——《舞動青春*炫舞》,感興趣的可以了解一下2022-12-12Python實現(xiàn)提取或替換PPT中文本與圖片的示例代碼
這篇文章主要為大家詳細介紹了Python如何實現(xiàn)提取保存ppt中的圖片和替換ppt模板的文本,文中的示例代碼講解詳細,感興趣的小伙伴可以了解一下2023-01-01Python函數(shù)參數(shù)類型及排序原理總結(jié)
這篇文章主要介紹了Python函數(shù)參數(shù)類型及排序原理總結(jié),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下2019-12-12