快捷導(dǎo)航

Python轉(zhuǎn)碼問題的解決方法

更新時(shí)間：2008年10月07日 23:50:38 作者：

在Python中，可以對(duì)String調(diào)用decode和encode方法來實(shí)現(xiàn)轉(zhuǎn)碼。

比如，若要將某個(gè)String對(duì)象s從gbk內(nèi)碼轉(zhuǎn)換為UTF-8，可以如下操作
s.decode('gbk').encode('utf-8′)
可是，在實(shí)際開發(fā)中，我發(fā)現(xiàn)，這種辦法經(jīng)常會(huì)出現(xiàn)異常：
UnicodeDecodeError: ‘gbk' codec can't decode bytes in position 30664-30665: illegal multibyte sequence
這是因?yàn)橛龅搅朔欠ㄗ址绕涫窃谀承┯肅/C++編寫的程序中，全角空格往往有多種不同的實(shí)現(xiàn)方式，比如\xa3\xa0，或者\(yùn)xa4\x57，這些字符，看起來都是全角空格，但它們并不是“合法”的全角空格（真正的全角空格是\xa1\xa1），因此在轉(zhuǎn)碼的過程中出現(xiàn)了異常。
這樣的問題很讓人頭疼，因?yàn)橹灰址谐霈F(xiàn)了一個(gè)非法字符，整個(gè)字符串——有時(shí)候，就是整篇文章——就都無法轉(zhuǎn)碼。

解決辦法：
s.decode('gbk', ‘ignore').encode('utf-8′)
因?yàn)閐ecode的函數(shù)原型是decode([encoding], [errors='strict'])，可以用第二個(gè)參數(shù)控制錯(cuò)誤處理的策略，默認(rèn)的參數(shù)就是strict，代表遇到非法字符時(shí)拋出異常；
如果設(shè)置為ignore，則會(huì)忽略非法字符；
如果設(shè)置為replace，則會(huì)用?取代非法字符；
如果設(shè)置為xmlcharrefreplace，則使用XML的字符引用。

python文檔

decode( [encoding[, errors]])
Decodes the string using the codec registered for encoding. encoding defaults to the default string encoding. errors may be given to set a different error handling scheme. The default is 'strict', meaning that encoding errors raise UnicodeError. Other possible values are 'ignore', 'replace' and any other name registered via codecs.register_error, see section 4.8.1.

您可能感興趣的文章:

相關(guān)文章

python導(dǎo)出requirements.txt的幾種方法總結(jié)
這篇文章主要介紹了python導(dǎo)出requirements.txt的幾種方法總結(jié)，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-02-02
Python深入學(xué)習(xí)之閉包
這篇文章主要介紹了Python深入學(xué)習(xí)之閉包,閉包(closure)是函數(shù)式編程的重要的語法結(jié)構(gòu),Python也支持這一特性,本文就這一特性做了講解,需要的朋友可以參考下
2014-08-08
七種Python代碼審查工具推薦
這篇文章主要介紹了七種Python代碼審查工具推薦，幫助大家更好的理解和學(xué)習(xí)使用python，感興趣的朋友可以了解下
2021-03-03
python實(shí)現(xiàn)尋找最長(zhǎng)回文子序列的方法
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)尋找最長(zhǎng)回文子序列的方法，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-06-06
Tensorflow設(shè)置顯存自適應(yīng),顯存比例的操作
今天小編就為大家分享一篇Tensorflow設(shè)置顯存自適應(yīng),顯存比例的操作，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。一起跟隨小編過來看看吧
2020-02-02
python+selenium識(shí)別驗(yàn)證碼并登錄的示例代碼
本篇文章主要介紹了python+selenium識(shí)別驗(yàn)證碼并登錄的示例代碼，小編覺得挺不錯(cuò)的，現(xiàn)在分享給大家，也給大家做個(gè)參考。一起跟隨小編過來看看吧
2017-12-12
Python中urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn)
這篇文章主要介紹了Python的urllib+urllib2+cookielib模塊編寫爬蟲實(shí)戰(zhàn),文中給出了抓取豆瓣同城和登陸圖書館查詢圖書歸還的爬取例子,需要的朋友可以參考下
2016-01-01
python OpenCV GrabCut使用實(shí)例解析
這篇文章主要介紹了python OpenCV GrabCut使用實(shí)例解析,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2019-11-11
python合并同類型excel表格的方法
這篇文章主要為大家詳細(xì)介紹了python合并同類型excel表格的方法，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2018-04-04
基于python實(shí)現(xiàn)計(jì)算兩組數(shù)據(jù)P值
這篇文章主要介紹了基于python實(shí)現(xiàn)計(jì)算兩組數(shù)據(jù)P值,文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下
2020-07-07