python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作
使用python刪除excel表格重復(fù)行。
# 導(dǎo)入pandas包并重命名為pd
import pandas as pd
# 讀取Excel中Sheet1中的數(shù)據(jù)
data = pd.DataFrame(pd.read_excel('test.xls', 'Sheet1'))
# 查看讀取數(shù)據(jù)內(nèi)容
print(data)
# 查看是否有重復(fù)行
re_row = data.duplicated()
print(re_row)
# 查看去除重復(fù)行的數(shù)據(jù)
no_re_row = data.drop_duplicates()
print(no_re_row)
# 查看基于[物品]列去除重復(fù)行的數(shù)據(jù)
#wp = data.drop_duplicates(['物品'])
#print(wp)
# 將去除重復(fù)行的數(shù)據(jù)輸出到excel表中
no_re_row.to_excel("test2.xls")
補(bǔ)充知識:Python數(shù)據(jù)預(yù)處理(刪除重復(fù)值和空值)
pandas幾個函數(shù)的使用,大數(shù)據(jù)的預(yù)處理(刪除重復(fù)值和空值),人工刪除很麻煩
Python恰好能夠解決
注釋很詳細(xì)在這不一一解釋了
######################################
##### 讀寫excel(xls\xlsx)文件
import pandas as pd
import numpy as np
df_excel = pd.read_excel('data3.xlsx')
print('數(shù)據(jù)量行*列',df_excel.shape)
# # df_excel.to_excel('df_excel.xlsx',header=None)#生成文件保存,無表頭
print('數(shù)據(jù)集中存在重復(fù)觀測的數(shù)量:\n',np.sum(df_excel.duplicated())) #F為不存在,T為存在,用sum顯示重復(fù)的數(shù)量
print('刪除行重復(fù)后的數(shù)據(jù)\n',df_excel.drop_duplicates(subset=None,keep='first',inplace=None))#excel文件中設(shè)定第一和第二行為重復(fù)行,結(jié)果刪除了第二行保留第一行
###df_excel.drop_duplicates(subset=['A','B'],keep='first',inplace=True)
#### 代碼中subset對應(yīng)的值是列名,表示只考慮這兩列,將這兩列對應(yīng)值相同的行進(jìn)行去重。默認(rèn)值為subset=None表示考慮所有列。
#####keep='first'表示保留第一次出現(xiàn)的重復(fù)行,是默認(rèn)值。keep另外兩個取值為"last"和False,分別表示保留最后一次出現(xiàn)的重復(fù)行和去除所有重復(fù)行。
#####inplace=True表示直接在原來的DataFrame上刪除重復(fù)項(xiàng),而默認(rèn)值False表示生成一個副本
print('數(shù)據(jù)集列中是否存在缺失值:\n',df_excel.isnull().any()) #F為不存在,T為存在
print('每一行的缺失值個數(shù):',df_excel.isnull().sum(axis=1))
print('每一列的缺失值個數(shù):',df_excel.isnull().sum(axis=0))
####### df.isnull().sum(axis=0)每一列的缺失值個數(shù)
#####df.isnull().any()則會判斷哪些”列”存在缺失值
df=df_excel.dropna()
print(df_excel.dropna(thresh=5))
# #axis=0: 刪除包含缺失值(NaN)的行
# #axis=1: 刪除包含缺失值(NaN)的列
# # how=‘a(chǎn)ny' :要有缺失值(NaN)出現(xiàn)刪除
# # how=‘a(chǎn)ll': 所有的值都缺失(NaN)才刪除
# 還有一個thresh參數(shù)
# thresh=n,保留至少有 n 個非 NaN 數(shù)的行
######drop用法
print(df_excel.drop(['edu'],axis=1))#按照列刪除edu這一列
print(df_excel.drop([0],axis=0))#按照行刪除0這一行
以上這篇python 刪除excel表格重復(fù)行,數(shù)據(jù)預(yù)處理操作就是小編分享給大家的全部內(nèi)容了,希望能給大家一個參考,也希望大家多多支持腳本之家。
- Python實(shí)現(xiàn)將MySQL數(shù)據(jù)庫查詢結(jié)果導(dǎo)出到Excel
- python使用openpyxl庫讀取Excel文件數(shù)據(jù)
- python中將數(shù)據(jù)生成為Excel文件的5種方法舉例
- Python實(shí)現(xiàn)提取JSON文件中指定數(shù)據(jù)并保存至CSV或Excel內(nèi)
- 如何在Python中導(dǎo)入EXCEL數(shù)據(jù)
- 如何利用Python讓Excel快速按條件篩選數(shù)據(jù)
- 詳解Python如何實(shí)現(xiàn)對比兩個Excel數(shù)據(jù)差異
- Python按條件刪除Excel表格數(shù)據(jù)的方法(示例詳解)
相關(guān)文章
通過Python實(shí)現(xiàn)電腦定時關(guān)機(jī)的兩種方法
這篇文章主要介紹了分別利用PyQT5和Tkinter實(shí)現(xiàn)電腦的定時關(guān)機(jī)小程序,文中的示例代碼講解詳細(xì),對我們學(xué)習(xí)Python有一定的幫助,快跟隨小編一起學(xué)習(xí)一下吧2021-12-12
python實(shí)現(xiàn)從ftp服務(wù)器下載文件
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)從ftp服務(wù)器下載文件,文中示例代碼介紹的非常詳細(xì),具有一定的參考價值,感興趣的小伙伴們可以參考一下2020-03-03
基于Python實(shí)現(xiàn)千圖成像工具的示例代碼
千圖成像也就是用N張圖片組成一張圖片的效果。這篇文章將利用Python語言編寫一個簡單的千圖成像工具,感興趣的小伙伴可以了解一下2022-07-07
Python實(shí)現(xiàn)批量將word轉(zhuǎn)換成pdf
這篇文章主要為大家詳細(xì)介紹了如何利用Python實(shí)現(xiàn)批量將word文檔轉(zhuǎn)換成pdf文件,文中的示例代碼簡潔易懂,感興趣的小伙伴可以跟隨小編一起學(xué)習(xí)一下2023-08-08
Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的方法實(shí)例
這篇文章主要給大家介紹了關(guān)于Python獲取excel的數(shù)據(jù)并繪制箱型圖和直方圖的相關(guān)資料,好的圖表能幫助我們深化數(shù)據(jù)的記憶點(diǎn),文中通過圖文以及代碼示例將實(shí)現(xiàn)的方法介紹的非常詳細(xì),需要的朋友可以參考下2023-12-12

