python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作
使用python刪除excel表格重復(fù)行。
# 導(dǎo)入pandas包并重命名為pd import pandas as pd # 讀取Excel中Sheet1中的數(shù)據(jù) data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1')) # 查看讀取數(shù)據(jù)內(nèi)容 print(data) # 查看是否有重復(fù)行 re_row = data.duplicated() print(re_row) # 查看去除重復(fù)行的數(shù)據(jù) no_re_row = data.drop_duplicates() print(no_re_row) # 查看基于[物品]列去除重復(fù)行的數(shù)據(jù) #wp = data.drop_duplicates(['物品']) #print(wp) # 將去除重復(fù)行的數(shù)據(jù)輸出到excel表中 no_re_row.to_excel("test2.xls")
補(bǔ)充知識(shí):Python數(shù)據(jù)預(yù)處理(刪除重復(fù)值和空值)
pandas幾個(gè)函數(shù)的使用,大數(shù)據(jù)的預(yù)處理(刪除重復(fù)值和空值),人工刪除很麻煩
Python恰好能夠解決
注釋很詳細(xì)在這不一一解釋了
###################################### ##### 讀寫excel(xls\xlsx)文件 import pandas as pd import numpy as np df_excel = pd.read_excel('data3.xlsx') print('數(shù)據(jù)量行*列',df_excel.shape) # # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,無表頭 print('數(shù)據(jù)集中存在重復(fù)觀測(cè)的數(shù)量:\n',np.sum(df_excel.duplicated())) #F為不存在,T為存在,用sum顯示重復(fù)的數(shù)量 print('刪除行重復(fù)后的數(shù)據(jù)\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中設(shè)定第一和第二行為重復(fù)行,結(jié)果刪除了第二行保留第一行 ###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True) #### 代碼中subset對(duì)應(yīng)的值是列名,表示只考慮這兩列,將這兩列對(duì)應(yīng)值相同的行進(jìn)行去重。默認(rèn)值為subset=None表示考慮所有列。 #####keep='first'表示保留第一次出現(xiàn)的重復(fù)行,是默認(rèn)值。keep另外兩個(gè)取值為"last"和False,分別表示保留最后一次出現(xiàn)的重復(fù)行和去除所有重復(fù)行。 #####inplace=True表示直接在原來的DataFrame上刪除重復(fù)項(xiàng),而默認(rèn)值False表示生成一個(gè)副本 print('數(shù)據(jù)集列中是否存在缺失值:\n',df_excel.isnull().any()) #F為不存在,T為存在 print('每一行的缺失值個(gè)數(shù):',df_excel.isnull().sum(axis=1)) print('每一列的缺失值個(gè)數(shù):',df_excel.isnull().sum(axis=0)) ####### df.isnull().sum(axis=0)每一列的缺失值個(gè)數(shù) #####df.isnull().any()則會(huì)判斷哪些”列”存在缺失值 df=df_excel.dropna() print(df_excel.dropna(thresh=5)) # #axis=0: 刪除包含缺失值(NaN)的行 # #axis=1: 刪除包含缺失值(NaN)的列 # # how=‘a(chǎn)ny' :要有缺失值(NaN)出現(xiàn)刪除 # # how=‘a(chǎn)ll': 所有的值都缺失(NaN)才刪除 # 還有一個(gè)thresh參數(shù) # thresh=n,保留至少有 n 個(gè)非 NaN 數(shù)的行 ######drop用法 print(df_excel.drop(['edu'],axis=1))#按照列刪除edu這一列 print(df_excel.drop([0],axis=0))#按照行刪除0這一行
以上這篇python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作就是小編分享給大家的全部?jī)?nèi)容了,希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。
- Python實(shí)現(xiàn)將MySQL數(shù)據(jù)庫(kù)查詢結(jié)果導(dǎo)出到Excel
- python使用openpyxl庫(kù)讀取Excel文件數(shù)據(jù)
- python中將數(shù)據(jù)生成為Excel文件的5種方法舉例
- Python實(shí)現(xiàn)提取JSON文件中指定數(shù)據(jù)并保存至CSV或Excel內(nèi)
- 如何在Python中導(dǎo)入EXCEL數(shù)據(jù)
- 如何利用Python讓Excel快速按條件篩選數(shù)據(jù)
- 詳解Python如何實(shí)現(xiàn)對(duì)比兩個(gè)Excel數(shù)據(jù)差異
- Python按條件刪除Excel表格數(shù)據(jù)的方法(示例詳解)
相關(guān)文章
通過Python實(shí)現(xiàn)電腦定時(shí)關(guān)機(jī)的兩種方法
這篇文章主要介紹了分別利用PyQT5和Tkinter實(shí)現(xiàn)電腦的定時(shí)關(guān)機(jī)小程序,文中的示例代碼講解詳細(xì),對(duì)我們學(xué)習(xí)Python有一定的幫助,快跟隨小編一起學(xué)習(xí)一下吧2021-12-12python實(shí)現(xiàn)從ftp服務(wù)器下載文件
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)從ftp服務(wù)器下載文件,文中示例代碼介紹的非常詳細(xì),具有一定的參考價(jià)值,感興趣的小伙伴們可以參考一下2020-03-03基于Python實(shí)現(xiàn)千圖成像工具的示例代碼
千圖成像也就是用N張圖片組成一張圖片的效果。這篇文章將利用Python語言編寫一個(gè)簡(jiǎn)單的千圖成像工具,感興趣的小伙伴可以了解一下2022-07-07七個(gè)非常實(shí)用的Python工具包總結(jié)
Python 擁有海量的包,無論是普通任務(wù)還是復(fù)雜任務(wù),我們經(jīng)常在應(yīng)用程序中使用大量的工具包.本文我將討論一些常被低估的數(shù)據(jù)科學(xué)包,包括:數(shù)據(jù)清理、應(yīng)用程序開發(fā)和調(diào)試方面,需要的朋友可以參考下2021-06-06Python實(shí)現(xiàn)批量將word轉(zhuǎn)換成pdf
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)批量將word文檔轉(zhuǎn)換成pdf文件,文中的示例代碼簡(jiǎn)潔易懂,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-08-08Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的方法實(shí)例
這篇文章主要給大家介紹了關(guān)于Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的相關(guān)資料,好的圖表能幫助我們深化數(shù)據(jù)的記憶點(diǎn),文中通過圖文以及代碼示例將實(shí)現(xiàn)的方法介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12