欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python腳本提取fasta文件單序列信息實現(xiàn)

 更新時間:2022年07月01日 09:12:38   作者:土雕藝術(shù)家  
這篇文章主要為大家介紹了Python腳本提取fasta文件單序列信息實現(xiàn)示例,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪

Python腳本編輯

使用Python對fasta格式的序列進行基本信息統(tǒng)計

預(yù)期設(shè)計輸出文件中包括fasta文件名,序列長度,GC含量以及ATCG各自的含量。

使用的文件

test.fasta

stat.py

輸入 sys模塊

#!/usr/bin/env python
import sys

從命令行獲得文件名稱

file_fasta = sys.argv[1]
#獲得文件名
file_name = file_fasta.split('.')
name = file_name[0]

sys.argv[1]模塊是從程序外部獲取參數(shù)的橋梁,可以將命令行的參數(shù)輸入到py程序內(nèi)。

sys.argv[0]是程序本身,sys.argv[1]是程序后跟著第一個參數(shù)。

我們將文件名作為輸入?yún)?shù),這一步在最后運行有展示。

在結(jié)束輸出時會輸出一個包含統(tǒng)計信息的txt文件,我們將用fasta文件名作為txt文件的前綴,所以我們需要獲取fasta文件的名字。

.split('.')是將file_fasta以.為分隔符分開會生成'test','txt',賦值給file_name則file_name會包含著兩個字符。

file_name[0]則是取第一個值'test',python中默認第一個數(shù)字是0,所以不能輸入1。

進行序列信息統(tǒng)計的函數(shù)

序列的長度很好統(tǒng)計使用len函數(shù)即可,但是GC含量和ACTG的百分比計算需要費點事情。

使用def制作一個函數(shù)

Python 使用def 開始函數(shù)定義,緊接著是函數(shù)名,括號內(nèi)部為函數(shù)的參數(shù),內(nèi)部為函數(shù)的 具體功能實現(xiàn)代碼

def get_info(chr):
    chr = chr.upper()
    count_g = chr.count('G')
    count_c = chr.count('C')
    count_a = chr.count('A')
    count_t = chr.count('T')

命名這個函數(shù)為get_info,內(nèi)部參數(shù)為chr

在咱們會將fasta中ATCG的堿基內(nèi)容賦值給chr,堿基可能有大寫有小寫,所以我們使用.upper將所以字符變成大寫。

再使用.count('G')統(tǒng)計ATCG各自的數(shù)量并賦值給對應(yīng)count_g,我們用ATCG各自的統(tǒng)計數(shù)可以在后面計算中免疫N值干擾。

gc = (count_g + count_c) / (count_a + count_t + count_c + count_g)
A = (count_a) / (count_a + count_t + count_c + count_g)
T = (count_t) / (count_a + count_t + count_c + count_g)
C = (count_c) / (count_a + count_t + count_c + count_g)
G = (count_g) / (count_a + count_t + count_c + count_g)
gc_con = '{:.2%}'.format(gc)
A_content = '{:.2%}'.format(A)
T_content = '{:.2%}'.format(T)
C_content = '{:.2%}'.format(C)
G_content = '{:.2%}'.format(G)
return (gc_con,A_content,T_content,C_content,G_content)

gc含量計算其等于(G的數(shù)量+C的數(shù)量)/(A的數(shù)量+T的數(shù)量+C的數(shù)量+G的數(shù)量)

A的含量等于(A的數(shù)量)/(A的數(shù)量+T的數(shù)量+C的數(shù)量+G的數(shù)量),其他值的計算以此類推。

.format使用:

"{1} {0} {1}".format("hello", "world")設(shè)置指定位置。

'world hello world'

{:.2f} 保留小數(shù)點后兩位

最后,使用return返回函數(shù)結(jié)果(gc_con,A_content,T_content,C_content,G_content)

進行函數(shù)計算

#進行函數(shù)計算
with open(file_fasta,'r') as read_fa:

讀取文件內(nèi)容賦值給read_fa

python中有兩個方式打開文件一種是直接使用open("test.fasta","r"),執(zhí)行完以后f.close()關(guān)閉。
注釋:"r"只讀模式打開文件;"w"以只寫模式打開文件,這種模式下輸入內(nèi)容會覆蓋原有內(nèi)容;"a"以追加模式打開一個文件,這個模式會把新內(nèi)容追加到原有內(nèi)容的末尾,不會覆蓋。
這里使用的是第二方式with內(nèi)置函數(shù),它可以將文件自動關(guān)閉。

    for val in read_fa:
        val = val.strip()
        if not val.startswith(">"):
            seq_info = get_info(val)
            len_fasta = len(val)

將read_fa內(nèi)容賦值給val。

strip() 方法用于移除字符串頭尾指定的字符(默認為空格或換行符),這里使用默認。

然后使用startswith() 方法用于檢查字符串是否是以指定子字符串開頭,在當(dāng)不是>開頭的行時候,才對核酸序列才進行信息統(tǒng)計。

len() 方法返回字符長度獲得片段長度

結(jié)果屏幕展示

#結(jié)果屏幕展示
print('******\n{0}\nlength:{1}\ngc content :{2}\nA content :{3}\nT content :{4}\nC content :{5}\nG content :{6}\n******'.format(name,len_fasta,seq_info[0],seq_info[1],seq_info[2],seq_info[3],seq_info[4]))

使用\n進行換行,用.format指定值輸出位置。

結(jié)果輸出文件

os.write(fd, str)

write() 方法用于寫入字符串到文件描述符 fd

#結(jié)果輸出文件
file_output = open("{}sum.txt".format(name),'a')
file_output.write('******\n')
file_output.write('{}\n'.format(name))
file_output.write('length:{:d}\n'.format(len_fasta))
file_output.write('gc content :{}\n'.format(seq_info[0]))
file_output.write('A content :{}\n'.format(seq_info[1]))
file_output.write('T content :{}\n'.format(seq_info[2]))
file_output.write('C content :{}\n'.format(seq_info[3]))
file_output.write('G content :{}\n'.format(seq_info[4]))
file_output.write('******')
file_output.close()

腳本運行

執(zhí)行腳本(linux系統(tǒng))

使用ls命令可以看到當(dāng)前目錄下有已經(jīng)寫好的py文件以及數(shù)據(jù)test.fasta。

運行時注意我們編寫時設(shè)置從命令行獲得文件名稱,所以要在后面跟上fasta文件,這樣才能成功運行。

運行結(jié)束后可以看見屏幕上有結(jié)果的打印,同時也生成了testsum.txt。

使用cat命令查看可以看到結(jié)果。

以上就是Python腳本提取fasta文件單序列信息實現(xiàn)的詳細內(nèi)容,更多關(guān)于Python提取fasta單序列的資料請關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

  • Django傳遞數(shù)據(jù)給前端的3種方式小結(jié)

    Django傳遞數(shù)據(jù)給前端的3種方式小結(jié)

    Django從后臺往前臺傳遞數(shù)據(jù)時有多種方法可以實現(xiàn),下面這篇文章主要給大家介紹了關(guān)于Django傳遞數(shù)據(jù)給前端的3種方式,文中通過代碼介紹的非常詳細,需要的朋友可以參考下
    2024-01-01
  • 詳解基于Transformer實現(xiàn)電影評論星級分類任務(wù)

    詳解基于Transformer實現(xiàn)電影評論星級分類任務(wù)

    這篇文章主要為大家介紹了詳解基于Transformer實現(xiàn)電影評論星級分類任務(wù)過程解析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2023-04-04
  • python繪制封閉多邊形教程

    python繪制封閉多邊形教程

    今天小編就為大家分享一篇python繪制封閉多邊形教程,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python 格式化打印json數(shù)據(jù)方法(展開狀態(tài))

    Python 格式化打印json數(shù)據(jù)方法(展開狀態(tài))

    今天小編就為大家分享一篇Python 格式化打印json數(shù)據(jù)方法(展開狀態(tài)),具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • Python教程之成員和身份運算符的用法詳解

    Python教程之成員和身份運算符的用法詳解

    身份運算符是python用來判斷的兩個對象的存儲單元是否相同的一種運算符號。Python的成員運算符是“是否包含運算符”,主要應(yīng)用在字符串或者集合中。本文將通過示例聊聊二者的使用,需要的可以參考一下
    2022-09-09
  • java虛擬機中棧的運行知識點總結(jié)

    java虛擬機中棧的運行知識點總結(jié)

    在本篇文章里小編給大家整理的是一篇關(guān)于java虛擬機中棧的運行知識點總結(jié),有需要的朋友們可以學(xué)習(xí)參考下。
    2021-06-06
  • 基于python的selenium兩種文件上傳操作實現(xiàn)詳解

    基于python的selenium兩種文件上傳操作實現(xiàn)詳解

    這篇文章主要介紹了基于python的selenium兩種文件上傳操作實現(xiàn)詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-09-09
  • 從入門到精通:Python項目打包與setup.py實戰(zhàn)指南

    從入門到精通:Python項目打包與setup.py實戰(zhàn)指南

    想要將你的Python項目分享給世界嗎?本指南將帶你從零開始,一步步學(xué)習(xí)如何打包你的Python項目,并創(chuàng)建一個專業(yè)的setup.py文件,我們將分享實用的技巧和最佳實踐,幫助你的項目在Python社區(qū)中脫穎而出,跟著我們的步伐,讓你的項目打包變得輕松有趣!
    2024-03-03
  • Numpy維度知識總結(jié)

    Numpy維度知識總結(jié)

    這篇文章主要介紹了Numpy維度知識總結(jié),因為在numpy里一維既可以做行向量也可以做列向量,那對于任意一個給定的一維向量,我們就無法確定他到底是行向量還是列向量,為了防止這種尷尬的境地,習(xí)慣上用二維矩陣而不是一維矩陣來表示行向量和列向量,需要的朋友可以參考下
    2023-09-09
  • Pandas 數(shù)據(jù)框增、刪、改、查、去重、抽樣基本操作方法

    Pandas 數(shù)據(jù)框增、刪、改、查、去重、抽樣基本操作方法

    下面小編就為大家分享一篇Pandas 數(shù)據(jù)框增、刪、改、查、去重、抽樣基本操作方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-04-04

最新評論