Python轉(zhuǎn)碼問題的解決方法
更新時(shí)間:2008年10月07日 23:50:38 作者:
在Python中,可以對String調(diào)用decode和encode方法來實(shí)現(xiàn)轉(zhuǎn)碼。
比如,若要將某個(gè)String對象s從gbk內(nèi)碼轉(zhuǎn)換為UTF-8,可以如下操作
s.decode('gbk').encode('utf-8′)
可是,在實(shí)際開發(fā)中,我發(fā)現(xiàn),這種辦法經(jīng)常會出現(xiàn)異常:
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
這 是因?yàn)橛龅搅朔欠ㄗ址绕涫窃谀承┯肅/C++編寫的程序中,全角空格往往有多種不同的實(shí)現(xiàn)方式,比如\xa3\xa0,或者\(yùn)xa4\x57,這些 字符,看起來都是全角空格,但它們并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在轉(zhuǎn)碼的過程中出現(xiàn)了異常。
這樣的問題很讓人頭疼,因?yàn)橹灰址谐霈F(xiàn)了一個(gè)非法字符,整個(gè)字符串——有時(shí)候,就是整篇文章——就都無法轉(zhuǎn)碼。
解決辦法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因?yàn)閐ecode的函數(shù)原型是decode([encoding], [errors='strict']),可以用第二個(gè)參數(shù)控制錯(cuò)誤處理的策略,默認(rèn)的參數(shù)就是strict,代表遇到非法字符時(shí)拋出異常;
如果設(shè)置為ignore,則會忽略非法字符;
如果設(shè)置為replace,則會用?取代非法字符;
如果設(shè)置為xmlcharrefreplace,則使用XML的字符引用。
python文檔
decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.
s.decode('gbk').encode('utf-8′)
可是,在實(shí)際開發(fā)中,我發(fā)現(xiàn),這種辦法經(jīng)常會出現(xiàn)異常:
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
這 是因?yàn)橛龅搅朔欠ㄗ址绕涫窃谀承┯肅/C++編寫的程序中,全角空格往往有多種不同的實(shí)現(xiàn)方式,比如\xa3\xa0,或者\(yùn)xa4\x57,這些 字符,看起來都是全角空格,但它們并不是“合法”的全角空格(真正的全角空格是\xa1\xa1),因此在轉(zhuǎn)碼的過程中出現(xiàn)了異常。
這樣的問題很讓人頭疼,因?yàn)橹灰址谐霈F(xiàn)了一個(gè)非法字符,整個(gè)字符串——有時(shí)候,就是整篇文章——就都無法轉(zhuǎn)碼。
解決辦法:
s.decode('gbk', ‘ignore').encode('utf-8′)
因?yàn)閐ecode的函數(shù)原型是decode([encoding], [errors='strict']),可以用第二個(gè)參數(shù)控制錯(cuò)誤處理的策略,默認(rèn)的參數(shù)就是strict,代表遇到非法字符時(shí)拋出異常;
如果設(shè)置為ignore,則會忽略非法字符;
如果設(shè)置為replace,則會用?取代非法字符;
如果設(shè)置為xmlcharrefreplace,則使用XML的字符引用。
python文檔
decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.
您可能感興趣的文章:
- python編碼總結(jié)(編碼類型、格式、轉(zhuǎn)碼)
- python使用chardet判斷字符串編碼的方法
- python實(shí)現(xiàn)unicode轉(zhuǎn)中文及轉(zhuǎn)換默認(rèn)編碼的方法
- Python中使用不同編碼讀寫txt文件詳解
- python將圖片文件轉(zhuǎn)換成base64編碼的方法
- python3編碼問題匯總
- python實(shí)現(xiàn)中文轉(zhuǎn)換url編碼的方法
- 跟老齊學(xué)Python之坑爹的字符編碼
- Python設(shè)置默認(rèn)編碼為utf8的方法
- 學(xué)習(xí)python處理python編碼問題
- 詳解Python中使用base64模塊來處理base64編碼的方法
- 簡單解決Python文件中文編碼問題
- python輕松實(shí)現(xiàn)代碼編碼格式轉(zhuǎn)換
- python自然語言編碼轉(zhuǎn)換模塊codecs介紹
- 使用python的chardet庫獲得文件編碼并修改編碼
- Python 十六進(jìn)制整數(shù)與ASCii編碼字符串相互轉(zhuǎn)換方法
- Python使用email模塊對郵件進(jìn)行編碼和解碼的實(shí)例教程
- Python處理JSON時(shí)的值報(bào)錯(cuò)及編碼報(bào)錯(cuò)的兩則解決實(shí)錄
- Python字符編碼轉(zhuǎn)碼之GBK,UTF8互轉(zhuǎn)
相關(guān)文章
python導(dǎo)出requirements.txt的幾種方法總結(jié)
這篇文章主要介紹了python導(dǎo)出requirements.txt的幾種方法總結(jié),具有很好的參考價(jià)值,希望對大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2023-02-02python實(shí)現(xiàn)尋找最長回文子序列的方法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)尋找最長回文子序列的方法,具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2018-06-06Tensorflow設(shè)置顯存自適應(yīng),顯存比例的操作
今天小編就為大家分享一篇Tensorflow設(shè)置顯存自適應(yīng),顯存比例的操作,具有很好的參考價(jià)值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-02-02python+selenium識別驗(yàn)證碼并登錄的示例代碼
本篇文章主要介紹了python+selenium識別驗(yàn)證碼并登錄的示例代碼,小編覺得挺不錯(cuò)的,現(xiàn)在分享給大家,也給大家做個(gè)參考。一起跟隨小編過來看看吧2017-12-12Python中urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn)
這篇文章主要介紹了Python的urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn),文中給出了抓取豆瓣同城和登陸圖書館查詢圖書歸還的爬取例子,需要的朋友可以參考下2016-01-01python OpenCV GrabCut使用實(shí)例解析
這篇文章主要介紹了python OpenCV GrabCut使用實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2019-11-11基于python實(shí)現(xiàn)計(jì)算兩組數(shù)據(jù)P值
這篇文章主要介紹了基于python實(shí)現(xiàn)計(jì)算兩組數(shù)據(jù)P值,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-07-07