python重復(fù)值處理得方法
前言:
如果大家接觸過數(shù)據(jù)分析,那么大家可能都知道,最讓人頭疼的就是在數(shù)據(jù)錄入的過程中,不可避免的會產(chǎn)生重復(fù)值,缺失值和異常值了,python也提供了一些方法讓我們處理這些值。下面讓我們一塊來學(xué)習(xí)一下吧~
今天,先處理重復(fù)值,首先創(chuàng)建一個包含重復(fù)值的DataFrame,如下:
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[3,4]],columns = ['a','b']) print(data)
我們將其打印出來,結(jié)果如下:
可以看出來第一第二行是重復(fù)的,這里的數(shù)據(jù)量比較少,可以直接肉眼觀察,但如果數(shù)據(jù)量多的時候,我們就需要用到diplicated()函數(shù)來查詢了,我們用它來查查上面data的重復(fù)值。
data[data.duplicated()]
我們可以看出,它把索引為1的行打印了出來,如果有3行一樣的呢?我們下面來試試!
import pandas as pd data = pd.DataFrame([[1,2],[1,2],[1,2],[3,4]],columns = ['a','b']) data[data.duplicated()]
其結(jié)果如下:
可以看出,重復(fù)項出了第一個出現(xiàn)的數(shù)據(jù)外,都會顯示出來。
如果想統(tǒng)計出一共有多少行重復(fù)了,我們就可以用到sum()函數(shù),代碼如下:
data.duplicated().sum()
很多情況下,我們都需要刪除掉重復(fù)的數(shù)據(jù),這時候我們就可以用到drop_duplicated()函數(shù),我們將data的重復(fù)行刪除掉試試!
data.drop_duplicated()
剛執(zhí)行代碼時發(fā)生了錯誤,原來是duplicates而不是duplicated!
但是要注意,用drop_duplicates()刪除重復(fù)項并不會影響data的結(jié)構(gòu),如果你要把data結(jié)構(gòu)改掉就要重新賦值。如果要用來刪除某列的重復(fù)值的話,直接在括號內(nèi)加上列名即可。
如下:
到此這篇關(guān)于python重復(fù)值處理得方法的文章就介紹到這了,更多相關(guān)python 重復(fù)值 內(nèi)容請搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
spark dataframe 將一列展開,把該列所有值都變成新列的方法
今天小編就為大家分享一篇spark dataframe 將一列展開,把該列所有值都變成新列的方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧2019-01-01Python編寫繪圖系統(tǒng)之從文本文件導(dǎo)入數(shù)據(jù)并繪圖
這篇文章主要為大家詳細介紹了Python如何編寫一個繪圖系統(tǒng),可以實現(xiàn)從文本文件導(dǎo)入數(shù)據(jù)并繪圖,文中的示例代碼講解詳細,感興趣的可以了解一下2023-08-08pycharm最新免費激活碼至2099年(21.3.18親測可用)
這篇文章主要介紹了pycharm最新的激活碼及激活碼的使用方法,幫助大家更好的利用pycharm學(xué)習(xí)python,感興趣的朋友可以了解下。2021-03-03linux之文件查找指定文件中包含關(guān)鍵字的行信息方式
這篇文章主要介紹了linux之文件查找指定文件中包含關(guān)鍵字的行信息方式,具有很好的參考價值,希望對大家有所幫助。2023-06-06python tkinter制作用戶登錄界面的簡單實現(xiàn)
這篇文章主要介紹了python tkinter制作用戶登錄界面的簡單實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-04-04