快捷導(dǎo)航

Python判斷文件和字符串編碼類型的實(shí)例

更新時間：2017年12月21日 09:38:50 作者：淺醉櫻花雨

下面小編就為大家分享一篇Python判斷文件和字符串編碼類型的實(shí)例，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧

python判斷文件和字符串編碼類型可以用chardet工具包，可以識別大多數(shù)的編碼類型。但是前幾天在讀取一個Windows記事本保存的txt文件時，GBK卻被識別成了KOI8-R，無解。

然后就自己寫了個簡單的編碼識別方法，代碼如下：

coding.py

# 說明：UTF兼容ISO8859-1和ASCII，GB18030兼容GBK，GBK兼容GB2312，GB2312兼容ASCII
CODES = ['UTF-8', 'UTF-16', 'GB18030', 'BIG5']
# UTF-8 BOM前綴字節(jié)
UTF_8_BOM = b'\xef\xbb\xbf'

# 獲取文件編碼類型
def file_encoding(file_path):
 """
 獲取文件編碼類型\n
 :param file_path: 文件路徑\n
 :return: \n
 """
 with open(file_path, 'rb') as f:
  return string_encoding(f.read())

# 獲取字符編碼類型
def string_encoding(b: bytes):
 """
 獲取字符編碼類型\n
 :param b: 字節(jié)數(shù)據(jù)\n
 :return: \n
 """
 # 遍歷編碼類型
 for code in CODES:
  try:
   b.decode(encoding=code)
   if 'UTF-8' == code and b.startswith(UTF_8_BOM):
    return 'UTF-8-SIG'
   return code
  except Exception:
   continue
 return '未知的字符編碼類型'

說明：file_encoding方法用于判斷文件編碼類型，參數(shù)為文件路徑；string_encoding方法用于判斷字符串編碼類型，參數(shù)為字符串對應(yīng)的字節(jié)數(shù)據(jù)

使用示例：

import coding
file_name = input('請輸入待識別文件路徑：\n')
encoding = coding.file_encoding(file_name)
print(encoding)

以上這篇Python判斷文件和字符串編碼類型的實(shí)例就是小編分享給大家的全部內(nèi)容了，希望能給大家一個參考，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

Python-VTK隱式函數(shù)屬性選擇和剪切數(shù)據(jù)
這篇文章主要介紹了Python-VTK隱式函數(shù)屬性選擇和剪切數(shù)據(jù)，VTK，是一個開放資源的免費(fèi)軟件系統(tǒng)，主要用于三維計(jì)算機(jī)圖形學(xué)、圖像處理和可視化，下面文章主題相關(guān)詳細(xì)內(nèi)容需要的小伙伴可以參考一下
2022-04-04
numpy中以文本的方式存儲以及讀取數(shù)據(jù)方法
今天小編就為大家分享一篇numpy中以文本的方式存儲以及讀取數(shù)據(jù)方法，具有很好的參考價值，希望對大家有所幫助。一起跟隨小編過來看看吧
2018-06-06
Python中的split()、rsplit()、splitlines()的區(qū)別解析
Python提供了三種字符串分割的方法：split()、rsplit()和splitlines(),本文主要通過案例介紹這三種字符串分割函數(shù)的區(qū)別,感興趣的朋友一起看看吧
2023-12-12
Pyspider進(jìn)行API接口抓取和數(shù)據(jù)采集的實(shí)現(xiàn)
Pyspider是一個基于Python的強(qiáng)大的網(wǎng)絡(luò)爬蟲框架,它提供了豐富的功能和靈活的擴(kuò)展性,使我們可以輕松地進(jìn)行數(shù)據(jù)的抓取和處理,本文主要介紹了Pyspider進(jìn)行API接口抓取和數(shù)據(jù)采集的實(shí)現(xiàn),感興趣的可以了解一下
2023-09-09
python selenium實(shí)現(xiàn)發(fā)送帶附件的郵件代碼實(shí)例
這篇文章主要介紹了python selenium實(shí)現(xiàn)發(fā)送帶附件的郵件代碼實(shí)例,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2019-12-12
Python自動化測試框架pytest的詳解安裝與運(yùn)行
這篇文章主要為大家介紹了Python自動化測試框架pytest的簡介以及安裝與運(yùn)行，有需要的朋友可以借鑒參考下希望能夠有所幫助，祝大家多多進(jìn)步
2021-10-10
TensorFlow實(shí)現(xiàn)iris數(shù)據(jù)集線性回歸
這篇文章主要介紹了TensorFlow實(shí)現(xiàn)iris數(shù)據(jù)集線性回歸，具有一定的參考價值，感興趣的小伙伴們可以參考一下
2018-09-09
一起來學(xué)習(xí)一下python的數(shù)字類型
這篇文章主要為大家詳細(xì)介紹了python的數(shù)字類型，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價值，感興趣的小伙伴們可以參考一下，希望能夠給你帶來幫助
2022-01-01
Python如何使用OS模塊調(diào)用cmd
這篇文章主要介紹了Python如何使用OS模塊調(diào)用 cmd,文中通過示例代碼介紹的非常詳細(xì)，對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
2020-02-02
python中pandas對多列進(jìn)行分組統(tǒng)計(jì)的實(shí)現(xiàn)
分組統(tǒng)計(jì)在很多時候都需要用到，可以實(shí)現(xiàn)很多數(shù)據(jù)庫函數(shù)的功能。本文主要介紹了python中pandas對多列進(jìn)行分組統(tǒng)計(jì)的實(shí)現(xiàn)，感興趣的可以了解一下
2021-06-06