python讀取中文txt文本的方法
對于python2.7
字符串在Python2.7內(nèi)部的表示是unicode編碼,因此,在做編碼轉(zhuǎn)換時,通常需要以unicode作為中間編碼,即先將其他編碼的字符串解碼成unicode,再從unicode編碼成另一種編碼。
先用一些編輯器(如editplus )看一下你的txt文件保存的是utf-8,還是gb2312或其他的。當(dāng)你讀行時可以這樣
line = (file1.readline()).decode('utf-8').encode('gb2312')或 line = (file1.readline()).decode('gb2312').encode('utf-8')
注意:txt使用utf8編碼的時候會默認(rèn)在文件開頭插入三個不可見字符。這個是windows用來判斷txt編碼是否為utf8的。所以如果你直接使用decode('utf-8')的話是得不到正確結(jié)果的。
必須先判斷前三個字符是否是windows插入的那三個。這個python已經(jīng)定義了一個常量了,可以直接和這個常量比較,如果一樣就刪除前三個字符然后再decode。
import codecs data = open("Test.txt").read() if data[:3] == codecs.BOM_UTF8: data = data[3:] print data.decode("utf-8")
延伸:
因為decode的函數(shù)原型是decode([encoding], [errors='strict']),可以用第二個參數(shù)控制錯誤處理的策略,默認(rèn)的參數(shù)就是strict,代表遇到非法字符時拋出異常;
如果設(shè)置為ignore,則會忽略非法字符;
如果設(shè)置為replace,則會用?取代非法字符;
如果設(shè)置為xmlcharrefreplace,則使用XML的字符引用。
對于Python3
python3下比較簡單,打開的時候指定encoding參數(shù)即可:open("txt.txt", encoding="gbk").read()。
以上這篇python讀取中文txt文本的方法就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
相關(guān)文章
利用python解決mysql視圖導(dǎo)入導(dǎo)出依賴的問題
這篇文章主要給大家介紹了關(guān)于利用python解決mysql視圖導(dǎo)入導(dǎo)出依賴的問題,文中通過示例代碼介紹的非常詳細(xì),對大家學(xué)習(xí)或者使用python具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧。2017-12-12python向MySQL數(shù)據(jù)庫插入數(shù)據(jù)的操作方法
這篇文章主要介紹了python向MySQL數(shù)據(jù)庫插入數(shù)據(jù),本文通過實例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2022-11-11Python深度學(xué)習(xí)TensorFlow神經(jīng)網(wǎng)絡(luò)基礎(chǔ)概括
這篇文章主要為大家介紹了Python深度學(xué)習(xí)中TensorFlow神經(jīng)網(wǎng)絡(luò)基礎(chǔ)概括,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步2021-10-10淺談Python在pycharm中的調(diào)試(debug)
今天小編就為大家分享一篇淺談Python在pycharm中的調(diào)試(debug),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2018-11-11pandas dataframe中雙中括號和單中括號的區(qū)別及說明
這篇文章主要介紹了pandas dataframe中雙中括號和單中括號的區(qū)別及說明,具有很好的參考價值,希望對大家有所幫助,如有錯誤或未考慮完全的地方,望不吝賜教2023-08-08Python中利用ItsDangerous快捷實現(xiàn)數(shù)據(jù)加密
這篇文章主要介紹了Python中利用ItsDangerous快捷實現(xiàn)數(shù)據(jù)加密,通過使用Python庫ItsDangerous,我們就可以高效快捷地完成數(shù)據(jù)加密/解密的過程,本文結(jié)合實例代碼給大家講解的非常詳細(xì),需要的朋友可以參考下2022-11-11Python中l(wèi)ist列表添加元素的3種方法總結(jié)
這篇文章主要介紹了Python中l(wèi)ist列表添加元素的3種方法總結(jié),具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教2023-01-01