Python處理文本文件中控制字符的方法
控制字符
控制字符(Control Character),或者說(shuō)非打印字符,出現(xiàn)于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(換行)、CR(回車(chē))、FF(換頁(yè))、DEL(刪除)、BS(退格)、BEL(振鈴)等;通訊專(zhuān)用字符:SOH(文頭)、EOT(文尾)、ACK(確認(rèn))等。
具體控制字符一共有下面兩個(gè)集合:
七位ASCII定義了33個(gè)代碼作為控制字符,它們是0到31、以及127,(位于0x00-0x1F及0x7F)。
兼容的八位ISO/IEC 8859-1加上了從ISO/IEC 6429定義的從128到159的32個(gè)代碼,位于0x80-0x9F。
控制字符列表:http://ascii-table.com/control-chars.php
Python解決控制字符的方案:(未一一驗(yàn)證)
方案一:
strip_control_characters = lambda s:"".join(i for i in s if 31<ord(i)<127)
方案二:
def strip_control_characters(str_input): if str_input: import re # unicode invalid characters RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \ u'|' + \ u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \ (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), ) str_input = re.sub(RE_XML_ILLEGAL, "", input) # ascii control characters str_input = re.sub(r"[\x01-\x1F\x7F]", "", input) return str_input
方案三:
import re def remove_control_chars(s): control_chars = ''.join(map(unichr, range(0,32) + range(127,160))) control_char_re = re.compile('[%s]' % re.escape(control_chars)) return control_char_re.sub('', s) cleaned_json = remove_control_chars(original_json) obj = simplejson.loads(cleaned_json)
總結(jié)
以上就是這篇文章的全部?jī)?nèi)容了,希望本文的內(nèi)容對(duì)大家學(xué)習(xí)或者使用python能帶來(lái)一定的幫助,如果有疑問(wèn)大家可以留言交流。
- Python使用email模塊對(duì)郵件進(jìn)行編碼和解碼的實(shí)例教程
- Python簡(jiǎn)單實(shí)現(xiàn)Base64編碼和解碼的方法
- Python中json格式數(shù)據(jù)的編碼與解碼方法詳解
- Python base64編碼解碼實(shí)例
- 對(duì)python中url參數(shù)編碼與解碼的實(shí)例詳解
- 詳解Python中的文本處理
- Python文本處理之按行處理大文件的方法
- Python實(shí)現(xiàn)簡(jiǎn)單文本字符串處理的方法
- python處理文本文件并生成指定格式的文件
- Python編解碼問(wèn)題及文本文件處理方法詳解
相關(guān)文章
Python如何將一個(gè)EXCEL表拆分多個(gè)excel表
在Python中,你可以使用pandas庫(kù)來(lái)讀取Excel文件,并將一個(gè)大的Excel表格(工作表)拆分成多個(gè)單獨(dú)的Excel文件,這篇文章主要介紹了Python如何將一個(gè)EXCEL表拆分多個(gè)excel表,需要的朋友可以參考下2024-06-06django下創(chuàng)建多個(gè)app并設(shè)置urls方法
在本篇文章里小編給大家分享的是一篇關(guān)于django下創(chuàng)建多個(gè)app并設(shè)置urls方法,需要的朋友們可以參考學(xué)習(xí)下。2020-08-08寫(xiě)一個(gè)Python腳本自動(dòng)爬取Bilibili小視頻
這篇文章主要介紹了寫(xiě)一個(gè) Python 腳本自動(dòng)爬取 Bilibili 小視頻的示例代碼,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-04-04基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法
這篇文章主要介紹了基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03如何通過(guò)Python實(shí)現(xiàn)定時(shí)打卡小程序
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)定時(shí)打卡小程序,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-11-11結(jié)合OpenCV與TensorFlow進(jìn)行人臉識(shí)別的實(shí)現(xiàn)
這篇文章主要介紹了結(jié)合OpenCV與TensorFlow進(jìn)行人臉識(shí)別的實(shí)現(xiàn),文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來(lái)一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10