Pandas的AB BA類型數(shù)據(jù)框去重復(fù)
正文
從string-db下載蛋白質(zhì)相互作用的信息,在處理時發(fā)現(xiàn)蛋白A與B互作被記錄了兩次比如下邊的例子(即AB、BA)
df.drop_duplicates() # Symbol1 Symbol2 # Gnai3 Pdcl2 # Pdcl2 Gnai3 # Gm4340 Gm3376 # Gm3376 Gm4340
而且drop_duplicates
不能去除重復(fù),因?yàn)樗麄冊诓煌牧?,因此可以想個方法,新建一列。
字符串的比較大小
字符串的比較大小是根據(jù)字符串按位比較,兩個字符串第一位字符的ascii碼誰大,字符串就大,不再比較后面的,比如
"Gnai3">"Pdcl2" # False
對axis=1
是對每一行循環(huán),總是把大的放在前邊。
df.loc[:,"temp"]=df.apply(lambda x: f"{x[0]}-{x[1]}" if x[0]>x[1] else f"{x[1]}-{x[0]}",axis=1) # Symbol1 Symbol2 temp # Gnai3 Pdcl2 Pdcl2-Gnai3 # Pdcl2 Gnai3 Pdcl2-Gnai3 # Gm4340 Gm3376 Gm4340-Gm3376 # Gm3376 m4340 Gm4340-Gm3376
對temp的行去重復(fù)
這個時候再對temp的行去重復(fù),就可以了
df.drop_duplicates(subset="temp") # Symbol1 Symbol2 temp # Pdcl2 Gnai3 Pdcl2-Gnai3 # Gm4340 Gm3376 Gm4340-Gm3376
最后再刪除temp列
df.drop_duplicates(subset="temp").drop(columns="temp") # Symbol1 Symbol2 # Gnai3 Pdcl2 # Gm4340 Gm3376
以上就是Pandas的AB BA類型數(shù)據(jù)框去重復(fù)的詳細(xì)內(nèi)容,更多關(guān)于Pandas數(shù)據(jù)框去重復(fù)的資料請關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
python cs架構(gòu)實(shí)現(xiàn)簡單文件傳輸
這篇文章主要為大家詳細(xì)介紹了python cs架構(gòu)實(shí)現(xiàn)簡單文件傳輸,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2018-07-07Python標(biāo)準(zhǔn)庫內(nèi)置函數(shù)complex介紹
這篇文章主要介紹了Python標(biāo)準(zhǔn)庫內(nèi)置函數(shù)complex介紹,本文先是講解了complex的作用和使用注意,然后給出了使用示例,需要的朋友可以參考下2014-11-11PyCharm配置anaconda環(huán)境的步驟詳解
PyCharm是一款很好用很流行的python編輯器。Anaconda通過管理工具包、開發(fā)環(huán)境、Python版本,大大簡化了你的工作流程。今天通過本文給大家分享PyCharm配置anaconda環(huán)境,感興趣的朋友一起看看吧2020-07-07plt.figure()參數(shù)使用詳解及運(yùn)行演示
這篇文章主要介紹了plt.figure()參數(shù)使用詳解及運(yùn)行演示,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-01-01Python+Appium實(shí)現(xiàn)自動搶微信紅包
不知從何時開始微信紅包橫空出世,對于網(wǎng)速和手速慢的人只能在一旁觀望,做為python的學(xué)習(xí)者就是要運(yùn)用編程解決生活和工作上的事情。于是我用python解決我們的手速問題python實(shí)現(xiàn)自動搶微信紅包,至于網(wǎng)速慢得那就只能自己花錢提升了。2021-05-05Python編程實(shí)現(xiàn)tail-n查看日志文件的方法
這篇文章主要介紹了Python編程實(shí)現(xiàn)tail-n查看日志文件的方法,文中通過示例代碼介紹的非常詳細(xì),對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2019-07-07