Python一階馬爾科夫鏈生成隨機(jī)DNA序列實(shí)現(xiàn)示例
1. 原理
對于DNA序列,一階馬爾科夫鏈可以理解為當(dāng)前堿基的類型僅取決于上一位堿基類型。如圖1所示,一條序列的開端(由B開始)可能是A、T、G、C四種堿基(且可能性相同,均為0.25),若序列的某一位是A,則下一位堿基是A、T、G、C的概率分別為0.25、0.20、0.20、0.20,下一位無堿基(即序列結(jié)束,狀態(tài)為E)的概率為0.15。
圖1 DNA序列的一階馬爾科夫鏈
2. 代碼實(shí)現(xiàn)
以下代碼運(yùn)行于Jupyter Notebook (Python 3.7);代碼功能是隨機(jī)生成一定數(shù)量的DNA序列,統(tǒng)計(jì)序列長度并繪制分布圖。若希望顯示隨機(jī)生成的序列,將代碼# print(''.join(Seq))前的#刪除即可。
import numpy import random import seaborn as sns import matplotlib.pyplot as plt # 狀態(tài)空間 states = ["A","G","C","T","E"] # 可能的事件序列 transitionName = [["AA","AG","AC","AT","AE"], ["GA","GG","GC","GT","GE"], ["CA","CG","CC","CT","CE"], ["TA","TG","TC","TT","TE"],] # 概率矩陣(轉(zhuǎn)移矩陣) transitionMatrix = [[0.25,0.20,0.20,0.20,0.15], [0.20,0.25,0.20,0.20,0.15], [0.20,0.20,0.25,0.20,0.15], [0.20,0.20,0.20,0.25,0.15]] def RandomDNAs(Num): max_len = 0 i = 0 Seq = [] #創(chuàng)建列表(Seq)用于添加堿基,以組成DNA序列 Len = [] #創(chuàng)建列表(Len)用于記錄每條生成序列的長度 while i != Num: Base = ["A","G","C","T"] START = random.choice(Base) #隨機(jī)從堿基中選擇一個作為序列的起始堿基 Seq.append(START) #將起始堿基添加至Seq中 while START != "E": if START == "A": change = numpy.random.choice(transitionName[0],p=transitionMatrix[0]) #以transitionMatrix矩陣第一行的概率分布隨機(jī)抽取transitionName第一行包含的事件 if change == "AA": START = "A" #如果轉(zhuǎn)移狀態(tài)是AA(即A堿基接下來的堿基是A,則將起始堿基設(shè)為A) elif change == "AG": START = "G" elif change == "AC": START = "C" elif change == "AT": START = "T" elif change == "AE": START = "E" elif START == "G": change = numpy.random.choice(transitionName[1],p=transitionMatrix[1]) if change == "GA": START = "A" elif change == "GG": START = "G" elif change == "GC": START = "C" elif change == "GT": START = "T" elif change == "GE": START = "E" elif START == "C": change = numpy.random.choice(transitionName[2],p=transitionMatrix[2]) if change == "CA": START = "A" elif change == "CG": START = "G" elif change == "CC": START = "C" elif change == "CT": START = "T" elif change == "CE": START = "E" elif START == "T": change = numpy.random.choice(transitionName[3],p=transitionMatrix[3]) if change == "TA": START = "A" elif change == "TG": START = "G" elif change == "TC": START = "C" elif change == "TT": START = "T" elif change == "TE": START = "E" if START != "E": Seq.append(START) #如果狀態(tài)轉(zhuǎn)移后不為End(E),則將轉(zhuǎn)移后的堿基加到Seq序列中 i += 1 Len.append(len(Seq)) if len(Seq) > max_len: max_len = len(Seq) #print(''.join(Seq)) Seq.clear() plt.hist(numpy.array(Len), bins=max_len, edgecolor="white") # 顯示橫軸標(biāo)簽 plt.xlabel("DNA Sequence Length") # 顯示縱軸標(biāo)簽 plt.ylabel("Frequency") # 顯示圖標(biāo)題 plt.title("Histogram of frequency distribution of DNA sequence length") plt.show() print("DNA序列的最大長度為:",max_len) print("DNA序列長度的眾數(shù)為:",max(Len, key=Len.count)) %matplotlib notebook #若未使用Jupyter Notebook,此句不需要 RandomDNAs(1000) #1000表示隨機(jī)生成1000條序列
3. 運(yùn)行結(jié)果
從以下4個序列長度分布統(tǒng)計(jì)可以看到,隨著隨機(jī)生成的序列數(shù)量增多,序列長度分布愈發(fā)集中,且長度為1bp的序列占比最多且逐漸增加。
圖2 10,000條DNA序列的序列長度分布統(tǒng)計(jì)
10,000條DNA序列的序列中
DNA序列的最大長度為: 65
DNA序列長度的眾數(shù)為: 1
圖3 100,000條DNA序列的序列長度分布統(tǒng)計(jì)
100,000條DNA序列的序列中
DNA序列的最大長度為: 71
DNA序列長度的眾數(shù)為: 1
以上就是Python實(shí)現(xiàn)一階馬爾科夫鏈生成隨機(jī)DNA序列的詳細(xì)內(nèi)容,更多關(guān)于Python一階馬爾科夫DNA序列的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python常用運(yùn)維腳本實(shí)例小結(jié)
這篇文章主要介紹了python常用運(yùn)維腳本實(shí)例小結(jié),文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2020-02-02編寫Python腳本來實(shí)現(xiàn)最簡單的FTP下載的教程
這篇文章主要介紹了編寫Python腳本來實(shí)現(xiàn)最簡單的FTP下載的教程,主要用到了ftplib模塊,無圖形界面...需要的朋友可以參考下2015-05-05python數(shù)據(jù)結(jié)構(gòu)輸入輸出及控制和異常
這篇文章主要介紹了python數(shù)據(jù)結(jié)構(gòu)輸入輸出及控制和異常,上一章節(jié)中我們介紹了python的基礎(chǔ)數(shù)據(jù)類型和集合數(shù)據(jù)類型,這章節(jié)給大家介紹一下python的輸入輸出、控制和異常,對數(shù)據(jù)類型感興趣的同學(xué)可以查看一下文章<BR>2021-12-12Python實(shí)現(xiàn)把utf-8格式的文件轉(zhuǎn)換成gbk格式的文件
這篇文章主要介紹了Python實(shí)現(xiàn)把utf-8格式的文件轉(zhuǎn)換成gbk格式的文件,本文給出了實(shí)現(xiàn)代碼并同時剖析了代碼的作用,需要的朋友可以參考下2015-01-01python 統(tǒng)計(jì)文件中的字符串?dāng)?shù)目示例
今天小編就為大家分享一篇python 統(tǒng)計(jì)文件中的字符串?dāng)?shù)目示例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-12-12GitHub上值得推薦的8個python 項(xiàng)目
GitHub 無疑是代碼托管領(lǐng)域的先行者,Python 作為一種通用編程語言,已經(jīng)被千千萬萬的開發(fā)人員用來構(gòu)建各種有意思或有用的項(xiàng)目。以下我們會介紹一些使用 Python 構(gòu)建的GitHub上優(yōu)秀的項(xiàng)目。2020-10-10pytorch載入預(yù)訓(xùn)練模型后,實(shí)現(xiàn)訓(xùn)練指定層
今天小編就為大家分享一篇pytorch載入預(yù)訓(xùn)練模型后,實(shí)現(xiàn)訓(xùn)練指定層,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2020-01-01關(guān)于django 1.10 CSRF驗(yàn)證失敗的解決方法
今天小編就為大家分享一篇關(guān)于django 1.10 CSRF驗(yàn)證失敗的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-08-08