欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

使用Python文件讀寫,自定義分隔符(custom delimiter)

 更新時間:2020年07月05日 14:38:47   作者:__孤獨患者__  
這篇文章主要介紹了使用Python文件讀寫,自定義分隔符(custom delimiter),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

眾所周知,python文件讀取文件的時候所支持的newlines(即換行符),是指定的。這一點不管是從python的doucuments上還是在python的源碼中(作者是參考了python的io版本,并沒有閱讀C版本),都可以看出來:

if newline is not None and not isinstance(newline, str):
 raise TypeError("illegal newline type: %r" % (type(newline),))
if newline not in (None, "", "\n", "\r", "\r\n"):
 raise ValueError("illegal newline value: %r" % (newline,))

好吧,問題來了,如果你恰好是個苦逼的生物狗,正在用python處理所謂的fastq格式的測序結(jié)果文件,每次只讀一行往往不是你想要的。Ok, 我們也都知道其實這個問題在Perl里面十分好解決,無非就是重新定義下文件的分割符($/,The input record separator, newline by default. Set undef to read through the end of file.)

local $/;   # enable "slurp" mode
local $_ = <FH>; # whole file now here
s/\n[ \t]+/ /g;

簡單粗暴有效!《Programming Perl》開頭的那些關(guān)于什么是happiness定義看來所言非虛,所以你只要需要將$/定義為fastq格式的分隔符就ok了。

但是,如果是Python呢?(容易鉆牛角尖的孩紙,又或者是不喜歡花括號的孩子…..反正就是強行高端了)。終于要進入正題了,OK,在python中又有兩種方式解決這個問題,看你個人喜好選擇了(當然要是有大神知道四種、五種方法,也不妨指導(dǎo)一下我這個小菜鳥)。

方案一的代碼:

import _pyio
import io
import functools
class MyTextWrapper(_pyio.TextIOWrapper):
 def readrecod(self, sep):
   readnl, self._readnl = self._readnl, sep
   self._readtranslate = False
   self._readuniversal = False
   try:
     return self.readline()
   finally:
     self._readnl = readnl
#class MyTextWrapper(_pyio.TextIOWrapper):
# def __init__(self, *args, separator, **kwargs):
#  super().__init__(*args,**kwargs)
#  self._readnl = separator
#  self._readtranslate = False
#  self._readuniversal = False
#  print("{}:\t{}".format(self,self._readnl))

f = io.open('data',mode='rt')
#f = MyTextWrapper(f.detach(),separator = '>')
#print(f._readnl)
f = MyTextWrapper(f.detach())
records=iter(functools.partial(f.readrecod, '>'), '')
for r in records:
 print(r.strip('>'))
 print("###")

Ok,這是Python3.x中的方法(親測),那么在Python2.x中需要改動的地方,目測好像是(沒有親測)

super(MyTextWrapper,self).__init__(*args,**kwargs)

這個方法看上去還是比較elegant,但是efficient 嗎?答案恐怕并不,畢竟放棄了C模塊的速度優(yōu)勢,但是OOP寫起來還是比較舒服的。對了值得指出的Python的I/O是一個layer一個layer的累加起來的。從這里我們就能看出來。當然里面的繼承關(guān)系還是值得研究一下的,從最開始的IOBase一直到最后的TextIOWrapper,這里面的故事,還是要看一看的。

方案二的代碼:

#!/usr/bin/env python

def delimited(file, delimiter = '\n', bufsize = 4096):
 buf = ''
 while True:
  newbuf = file.read(bufsize)
  if not newbuf:
   yield buf
   return
  buf += newbuf
  lines = buf.split(delimiter)
  for line in lines[:-1]:
   yield line
  buf = lines[-1]

with open('data', 'rt') as f:
 lines = delimited(f, '>', bufsize = 1)
 for line in lines:
  print line,
  print '######'

Ok,這里用到了所謂的generator函數(shù),優(yōu)雅程度也還行,至于效率么,請自行比較和測試吧(畢竟好多生物程序猿是不關(guān)心效率的…..)。如此一來,比Perl多敲了好多代碼,唉,懷念Perl的時代啊,簡單粗暴有效,就是幸福的哲學(xué)么。

當然還有童鞋要問,那么能不能又elegant還efficient(我可是一個高端的生物程序猿,我要強行高端!)答案是有的,請用Cython! 問題又來了,都Cython了,為什么不直接用C呢?確實,C語言優(yōu)美又混亂。

補充知識:Python.json.常見兩個錯誤處理(Expecting , delimiter)(Invalid control character at)

ValueError: Invalid control character at: line 1 column 122(char 123)

出現(xiàn)錯誤的原因是字符串中包含了回車符(\r)或者換行符(\n)

解決方案:

轉(zhuǎn)義

json_data = json_data.replace('\r', '\\r').replace('\n', '\\n')

使用關(guān)鍵字strict

json.loads(json_data, strict=False)

ValueError: Expecting , delimiter: line 13 column 650 (char 4186)

原因:json數(shù)據(jù)不合法,類似“group_buy_create_description_text”: “1. Select the blue “Buy” button to let other shoppers buy with you.這樣的內(nèi)容出現(xiàn)在json數(shù)據(jù)中。

解決方案:

將類似的情形通過正則篩選出來通過下面的方式處理。

正則表達式如下:

json_data = json_data.replace('""', '"########"')

js_str = '"[\s\S]+?":\s?"([\s\S]+?)"\}?\}?\]?,'

后續(xù)使用中發(fā)現(xiàn)無法匹配value為空的情況,故先做一下預(yù)處理

這個正則可以匹配到大部分的key,value中的value值,但是也有例外,暫時的處理方法是如果匹配結(jié)果中包含”{“, “}”, “[“, “]”這樣的字符,說明是匹配失敗結(jié)果,跳過處理。其他的使用下邊的方法替換掉可能出問題的字符。

如果大家有更好的正則匹配方式,歡迎隨時批評指正。

def htmlEscape(input) {
    if not input
      return input;
    input = input.replace("&", "&amp;");
    input = input.replace("<", "&lt;");
    input = input.replace(">", "&gt;");
    input = input.replace(" ", "&nbsp;");
    input = input.replace("'", "&#39;");  //IE暫不支持單引號的實體名稱,而支持單引號的實體編號,故單引號轉(zhuǎn)義成實體編號,其它字符轉(zhuǎn)義成實體名稱
    input = input.replace("\"", "&quot;"); //雙引號也需要轉(zhuǎn)義,所以加一個斜線對其進行轉(zhuǎn)義
    input = input.replace("\n", "<br/>"); //不能把\n的過濾放在前面,因為還要對<和>過濾,這樣就會導(dǎo)致<br/>失效了
    return input;
  }

以上這篇使用Python文件讀寫,自定義分隔符(custom delimiter)就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。

相關(guān)文章

  • Python爬蟲教程之利用正則表達式匹配網(wǎng)頁內(nèi)容

    Python爬蟲教程之利用正則表達式匹配網(wǎng)頁內(nèi)容

    這篇文章主要給大家介紹了關(guān)于Python爬蟲教程之利用正則表達式匹配網(wǎng)頁內(nèi)容的相關(guān)資料,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2020-12-12
  • Python隨機數(shù)用法實例詳解【基于random模塊】

    Python隨機數(shù)用法實例詳解【基于random模塊】

    這篇文章主要介紹了Python隨機數(shù)用法,結(jié)合實例形式分析了基于random模塊的各種隨機數(shù)操作常用技巧,需要的朋友可以參考下
    2017-04-04
  • pandas讀取excel時獲取讀取進度的實現(xiàn)

    pandas讀取excel時獲取讀取進度的實現(xiàn)

    這篇文章主要介紹了pandas讀取excel時獲取讀取進度的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2021-04-04
  • Python的Django REST框架中的序列化及請求和返回

    Python的Django REST框架中的序列化及請求和返回

    這篇文章主要介紹了Python的Django REST框架中的序列化及請求和返回,使用Django REST來實現(xiàn)RESTful web service非常方便和強大,需要的朋友可以參考下
    2016-04-04
  • python政策網(wǎng)字體反爬實例(附完整代碼)

    python政策網(wǎng)字體反爬實例(附完整代碼)

    大家好,本篇文章主要講的是python政策網(wǎng)字體反爬實例(附完整代碼),感興趣的同學(xué)趕快來看一看吧,對你有幫助的話記得收藏一下
    2022-01-01
  • pycharm中:OSError:[WinError?1455]頁面文件太小無法完成操作問題的多種解決方法

    pycharm中:OSError:[WinError?1455]頁面文件太小無法完成操作問題的多種解決方法

    這篇文章主要給大家介紹了關(guān)于pycharm中:OSError:[WinError?1455]頁面文件太小無法完成操作問題的多種徹底解決方法,文中通過圖文介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2023-02-02
  • Python函數(shù)遞歸調(diào)用實現(xiàn)原理實例解析

    Python函數(shù)遞歸調(diào)用實現(xiàn)原理實例解析

    這篇文章主要介紹了Python函數(shù)遞歸調(diào)用實現(xiàn)原理過程解析,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-08-08
  • python使用pyaudio錄音和格式轉(zhuǎn)化方式

    python使用pyaudio錄音和格式轉(zhuǎn)化方式

    這篇文章主要介紹了python使用pyaudio錄音和格式轉(zhuǎn)化方式,具有很好的參考價值,希望對大家有所幫助。如有錯誤或未考慮完全的地方,望不吝賜教
    2023-05-05
  • Python爬蟲獲取頁面所有URL鏈接過程詳解

    Python爬蟲獲取頁面所有URL鏈接過程詳解

    這篇文章主要介紹了Python爬蟲獲取頁面所有URL鏈接過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-06-06
  • python 畫3維軌跡圖并進行比較的實例

    python 畫3維軌跡圖并進行比較的實例

    今天小編就為大家分享一篇python 畫3維軌跡圖并進行比較的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-12-12

最新評論