欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python處理文本文件中控制字符的方法

 更新時(shí)間:2017年02月07日 10:18:23   投稿:daisy  
最近在使用Python的時(shí)候遇到過(guò)文檔中出現(xiàn)控制字符報(bào)錯(cuò)的問(wèn)題。想著總結(jié)一下,方便以后需要或這同樣遇到問(wèn)題的朋友,下面這篇文章主要介紹了Python處理文本文件中控制字符的解決方法,需要的朋友可以參考借鑒。

控制字符

控制字符(Control Character),或者說(shuō)非打印字符,出現(xiàn)于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(換行)、CR(回車(chē))、FF(換頁(yè))、DEL(刪除)、BS(退格)、BEL(振鈴)等;通訊專(zhuān)用字符:SOH(文頭)、EOT(文尾)、ACK(確認(rèn))等。

具體控制字符一共有下面兩個(gè)集合:

七位ASCII定義了33個(gè)代碼作為控制字符,它們是0到31、以及127,(位于0x00-0x1F及0x7F)。

兼容的八位ISO/IEC 8859-1加上了從ISO/IEC 6429定義的從128到159的32個(gè)代碼,位于0x80-0x9F。

控制字符列表:http://ascii-table.com/control-chars.php

Python解決控制字符的方案:(未一一驗(yàn)證)

方案一:

strip_control_characters = lambda s:"".join(i for i in s if 31<ord(i)<127)

方案二:

def strip_control_characters(str_input): 
 if str_input: 
 import re 
 # unicode invalid characters 
 RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \
   u'|' + \
   u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \
   (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), 
    unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), 
    unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), 
    ) 
 str_input = re.sub(RE_XML_ILLEGAL, "", input) 
 # ascii control characters 
 str_input = re.sub(r"[\x01-\x1F\x7F]", "", input) 
 return str_input

方案三:

import re
 
def remove_control_chars(s):
 control_chars = ''.join(map(unichr, range(0,32) + range(127,160)))
 control_char_re = re.compile('[%s]' % re.escape(control_chars))
 
 return control_char_re.sub('', s)
 
cleaned_json = remove_control_chars(original_json)
obj = simplejson.loads(cleaned_json)

總結(jié)

以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流。

相關(guān)文章

  • Python如何將一個(gè)EXCEL表拆分多個(gè)excel表

    Python如何將一個(gè)EXCEL表拆分多個(gè)excel表

    在Python中,你可以使用pandas庫(kù)來(lái)讀取Excel文件,并將一個(gè)大的Excel表格(工作表)拆分成多個(gè)單獨(dú)的Excel文件,這篇文章主要介紹了Python如何將一個(gè)EXCEL表拆分多個(gè)excel表,需要的朋友可以參考下
    2024-06-06
  • python虛擬環(huán)境的安裝配置圖文教程

    python虛擬環(huán)境的安裝配置圖文教程

    下面小編就為大家?guī)?lái)一篇python虛擬環(huán)境的安裝配置圖文教程。小編覺(jué)得挺不錯(cuò)的,現(xiàn)在就分享給大家,也給大家做個(gè)參考。一起跟隨小編過(guò)來(lái)看看吧
    2017-10-10
  • Python使用itchat 功能分析微信好友性別和位置

    Python使用itchat 功能分析微信好友性別和位置

    這篇文章主要介紹了 Python使用itchat 功能分析微信好友性別和位置 的相關(guān)資料,需要的朋友可以參考下
    2019-08-08
  • django下創(chuàng)建多個(gè)app并設(shè)置urls方法

    django下創(chuàng)建多個(gè)app并設(shè)置urls方法

    在本篇文章里小編給大家分享的是一篇關(guān)于django下創(chuàng)建多個(gè)app并設(shè)置urls方法,需要的朋友們可以參考學(xué)習(xí)下。
    2020-08-08
  • 寫(xiě)一個(gè)Python腳本自動(dòng)爬取Bilibili小視頻

    寫(xiě)一個(gè)Python腳本自動(dòng)爬取Bilibili小視頻

    這篇文章主要介紹了寫(xiě)一個(gè) Python 腳本自動(dòng)爬取 Bilibili 小視頻的示例代碼,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下
    2021-04-04
  • 基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法

    基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法

    這篇文章主要介紹了基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2021-03-03
  • 如何通過(guò)Python實(shí)現(xiàn)定時(shí)打卡小程序

    如何通過(guò)Python實(shí)現(xiàn)定時(shí)打卡小程序

    這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)定時(shí)打卡小程序,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下
    2021-11-11
  • Python實(shí)現(xiàn)RSA加密解密

    Python實(shí)現(xiàn)RSA加密解密

    這篇文章主要介紹了Python實(shí)現(xiàn)RSA加密解密,加密技術(shù)在數(shù)據(jù)安全存儲(chǔ),數(shù)據(jù)傳輸中發(fā)揮著重要作用,能夠保護(hù)用戶(hù)隱私數(shù)據(jù)安全,防止信息竊取。RSA是一種非對(duì)稱(chēng)加密技術(shù),在軟件、網(wǎng)頁(yè)中已得到廣泛應(yīng)用,下面文章更多相關(guān)內(nèi)容需要的小伙伴可以參考一下
    2022-04-04
  • 結(jié)合OpenCV與TensorFlow進(jìn)行人臉識(shí)別的實(shí)現(xiàn)

    結(jié)合OpenCV與TensorFlow進(jìn)行人臉識(shí)別的實(shí)現(xiàn)

    這篇文章主要介紹了結(jié)合OpenCV與TensorFlow進(jìn)行人臉識(shí)別的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧
    2019-10-10
  • numpy自動(dòng)生成數(shù)組詳解

    numpy自動(dòng)生成數(shù)組詳解

    這篇文章主要介紹了numpy自動(dòng)生成數(shù)組詳解,具有一定借鑒價(jià)值,需要的朋友可以參考下。
    2017-12-12

最新評(píng)論