Python處理文本文件中控制字符的方法
控制字符
控制字符(Control Character),或者說非打印字符,出現(xiàn)于特定的信息文本中,表示某一控制功能的字符,如控制符:LF(換行)、CR(回車)、FF(換頁)、DEL(刪除)、BS(退格)、BEL(振鈴)等;通訊專用字符:SOH(文頭)、EOT(文尾)、ACK(確認(rèn))等。
具體控制字符一共有下面兩個(gè)集合:
七位ASCII定義了33個(gè)代碼作為控制字符,它們是0到31、以及127,(位于0x00-0x1F及0x7F)。
兼容的八位ISO/IEC 8859-1加上了從ISO/IEC 6429定義的從128到159的32個(gè)代碼,位于0x80-0x9F。
控制字符列表:http://ascii-table.com/control-chars.php
Python解決控制字符的方案:(未一一驗(yàn)證)
方案一:
strip_control_characters = lambda s:"".join(i for i in s if 31<ord(i)<127)
方案二:
def strip_control_characters(str_input): if str_input: import re # unicode invalid characters RE_XML_ILLEGAL = u'([\u0000-\u0008\u000b-\u000c\u000e-\u001f\ufffe-\uffff])' + \ u'|' + \ u'([%s-%s][^%s-%s])|([^%s-%s][%s-%s])|([%s-%s]$)|(^[%s-%s])' % \ (unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), unichr(0xd800),unichr(0xdbff),unichr(0xdc00),unichr(0xdfff), ) str_input = re.sub(RE_XML_ILLEGAL, "", input) # ascii control characters str_input = re.sub(r"[\x01-\x1F\x7F]", "", input) return str_input
方案三:
import re def remove_control_chars(s): control_chars = ''.join(map(unichr, range(0,32) + range(127,160))) control_char_re = re.compile('[%s]' % re.escape(control_chars)) return control_char_re.sub('', s) cleaned_json = remove_control_chars(original_json) obj = simplejson.loads(cleaned_json)
總結(jié)
以上就是這篇文章的全部內(nèi)容了,希望本文的內(nèi)容對大家學(xué)習(xí)或者使用python能帶來一定的幫助,如果有疑問大家可以留言交流。
相關(guān)文章
Python如何將一個(gè)EXCEL表拆分多個(gè)excel表
在Python中,你可以使用pandas庫來讀取Excel文件,并將一個(gè)大的Excel表格(工作表)拆分成多個(gè)單獨(dú)的Excel文件,這篇文章主要介紹了Python如何將一個(gè)EXCEL表拆分多個(gè)excel表,需要的朋友可以參考下2024-06-06django下創(chuàng)建多個(gè)app并設(shè)置urls方法
在本篇文章里小編給大家分享的是一篇關(guān)于django下創(chuàng)建多個(gè)app并設(shè)置urls方法,需要的朋友們可以參考學(xué)習(xí)下。2020-08-08寫一個(gè)Python腳本自動爬取Bilibili小視頻
這篇文章主要介紹了寫一個(gè) Python 腳本自動爬取 Bilibili 小視頻的示例代碼,幫助大家更好的理解和學(xué)習(xí)使用python,感興趣的朋友可以了解下2021-04-04基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法
這篇文章主要介紹了基于注解實(shí)現(xiàn) SpringBoot 接口防刷的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-03-03如何通過Python實(shí)現(xiàn)定時(shí)打卡小程序
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)定時(shí)打卡小程序,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2021-11-11結(jié)合OpenCV與TensorFlow進(jìn)行人臉識別的實(shí)現(xiàn)
這篇文章主要介紹了結(jié)合OpenCV與TensorFlow進(jìn)行人臉識別的實(shí)現(xiàn),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-10-10