python dataframe如何選擇某一列非空的行

更新時(shí)間：2024年02月02日 10:25:03 作者：達(dá)達(dá)愛(ài)吃肉

這篇文章主要介紹了python dataframe如何選擇某一列非空的行問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教

dataframe選擇某一列非空的行

如下所示：

data 為 dataframe 對(duì)象 col 為對(duì)應(yīng)的列

def get_not_null_data(data, col):
    data = data[(data[col].notnull()) & (data[col] != "")]
    return data

dataframe常用方法

【Series】

性質(zhì)：一維數(shù)組對(duì)象，類(lèi)似NumPy 的一維array。

除了包含一組數(shù)據(jù)還包含一組索引，所以可以把它理解為一組帶索引的數(shù)組。

obj = Series([1,2,3,4],index = [‘a(chǎn)','b','c','d'])  #通過(guò) index 參數(shù)顯示指定索引
obj.index obj.values        #單獨(dú)獲取 Series 對(duì)象的索引或者數(shù)組內(nèi)容

obj*2 obj+1 obj[obj>10]#對(duì)Series對(duì)象的運(yùn)算（索引不變）

【DataFrame】

性質(zhì)：一個(gè)表格型的數(shù)據(jù)結(jié)構(gòu)。它提供有序的列和不同類(lèi)型的列值。

創(chuàng)建：可以將一個(gè){key:list[]}轉(zhuǎn)換成DataFrame，key為columns

DataFrame(data,columns = [‘col0','col1','col2'])#傳入columns參數(shù)指定列的順序

如果傳入的列名找不到，它不會(huì)報(bào)錯(cuò)，而是產(chǎn)生一列 NA 值

獲取數(shù)據(jù)：frame[‘col1’]frame.col1

刪除數(shù)據(jù)：del frame[‘col1’]

【產(chǎn)生日期】

date_index = pd.date_range('11/19/2017', periods=10, freq='D')

常用方法

（1）reindex( )方法:重新索引

根據(jù)index參數(shù)重新進(jìn)行排序。如果傳入的索引值在數(shù)據(jù)里不存在，則不會(huì)報(bào)錯(cuò)，而是添加缺失值的新行。

不想用缺失值，可以用 fill_value 參數(shù)指定填充值。

e.gobj1 = obj.reindex([‘a(chǎn)','b','c'],fill_value = 0)

#fill_value 會(huì)讓所有的缺失值都填充為同一個(gè)值，如果不想這樣而是用相鄰的元素（左或者右）的值填充，則可以用 method 參數(shù)，可選的參數(shù)值為 ffill 和 bfill，分別為用前值填充和用后值填充。
e.g obj2 = obj.reindex(range(6),method = ‘ffill')

（2）drop() 方法：丟棄數(shù)據(jù)

data.drop([‘idx1','idx2'])#刪除行
data.drop([‘col1','col2'],axis = 1) #添加axis參數(shù)刪除列

（3）索引、選取和過(guò)濾

[注意]利用索引的切片運(yùn)算與普通的 Python 切片運(yùn)算不同，其末端是包含的，既包含最后一個(gè)的項(xiàng)。

e.gobj[‘b’:’d’]包含’d’，但是obj[1:3]不包含3

loc和iloc

df.loc[index,column_names]#知道column names 和index,且兩者都很好輸入
df.iloc[index,col_index]#column_name太長(zhǎng)；index是時(shí)間序列不好輸入 i_index

ix操作：混合使用下標(biāo)和名稱(chēng)進(jìn)行選取

data.ix[‘idx',[‘col1','col2']]
data.ix[2] #第2行
data.ix[data.col1<5,:3] # data.col1<5的前2列

（4）算術(shù)運(yùn)算和數(shù)據(jù)對(duì)齊

1）Series：將2個(gè)對(duì)象相加時(shí)，具有重疊索引的索引值會(huì)相加處理；不重疊的索引則取并集，值為 NA；

2）對(duì)齊操作會(huì)同時(shí)發(fā)生在行和列上，把2個(gè)對(duì)象相加會(huì)得到一個(gè)新的對(duì)象，其索引為原來(lái)2個(gè)對(duì)象的索引的并集；和Series 對(duì)象一樣，不重疊的索引會(huì)取并集，值為 NA；如果不想這樣，試試使用 add() 方法進(jìn)行數(shù)據(jù)

填充：

df1+df2    #會(huì)出現(xiàn)NaN
df1.add(df2,fill_value = 0)#無(wú)NaN

（5）函數(shù)應(yīng)用和映射

df1.astype(np.int32)
df2.apply(f)  #f = lambda x:x+1

（6）排序

df.sort_index(ascending = False)frame.sort_index(axis = 1)
Series: obj.sort_values()obj.sort_index()

排名

obj.rank(ascending = False) #索引位上的數(shù)的排名

帶有重復(fù)值的軸索引

obj.index.is_unique#False

索引時(shí)，同時(shí)輸出多個(gè)值

（7）匯總統(tǒng)計(jì)和計(jì)算

df.sum()  #縱向匯總（行求和） aixs=1為橫向匯總
df.cumsum()  #縱向匯總_累計(jì)匯總
df.idxmax()  #獲取最大值對(duì)應(yīng)的索引
obj.unique()  #返回?cái)?shù)據(jù)里的唯一值array
obj. value_counts()#統(tǒng)計(jì)各值出現(xiàn)的頻率,返回Series索引為值
obj. isin([‘c'])#判斷成員資格，在原表基礎(chǔ)上修正為bool

（8）處理缺失數(shù)據(jù)

使用isnull()和notnull()函數(shù)來(lái)判斷缺失情況。

對(duì)于缺失數(shù)據(jù)一般處理方法為濾掉或者填充。

濾除缺失數(shù)據(jù)

data.dropna()  #返回一個(gè)包含非空數(shù)據(jù)和索引值的表，等價(jià)于data[data.notnull()]
data.dropna(how = ‘a(chǎn)ll')  #只有行里的數(shù)據(jù)全部為空時(shí)才丟棄,axis=1按列丟棄

填充缺失數(shù)據(jù)

df.fillna(0)  #用默認(rèn)值填充缺失數(shù)據(jù)
df.fillna({0:10,1:20,2:200})#可以傳入字典對(duì)不同的列填充不同的值(鍵表示列)

（9）層次化索引：能在一個(gè)數(shù)組上擁有多個(gè)索引，有點(diǎn)像Excel里的合并單元格

根據(jù)索引選擇數(shù)據(jù)子集

data[‘a(chǎn)'] #以外層索引的方式選擇數(shù)據(jù)子集
data[:,2] #以?xún)?nèi)層索引的方式選擇數(shù)據(jù)
data.unstack() #多重索引Series轉(zhuǎn)換為DataFrame，第二層索引為列

重排分級(jí)順序

df. swaplevel(‘idx1_name', ‘idx2_name')#將兩個(gè)級(jí)別的數(shù)據(jù)進(jìn)行交換
df. sortlevel(0,ascending = False)#以行按第一層(0)進(jìn)行排序
df. sortlevel(1,ascending = False，axis=1)#列按第二層(1)進(jìn)行排序

根據(jù)級(jí)別匯總統(tǒng)計(jì)

多層次索引的數(shù)據(jù)，匯總的時(shí)候可以單獨(dú)按照級(jí)別進(jìn)行

df.sum(level='idx1_name')

（10）數(shù)據(jù)合并

a）pandas.merge()：數(shù)據(jù)庫(kù)風(fēng)格的合并

pd.merge(df1,df2,on='col_coname') #以col_coname列當(dāng)作鍵，默認(rèn)內(nèi)連接（inner）,即鍵的交集
pd.merge(df1,df2,on='col_coname',how=‘left')#左連接(left)，右連接(right)和外連接[并集](outer)
left.join(right) #以索引作為連接鍵

b）pandas.concat()方法：軸向連接，即沿著一條軸將多個(gè)對(duì)象堆疊到一起

pd.concat([s1,s2,s3]) #默認(rèn)concat在豎軸(axis=0)上連接，即產(chǎn)生新的Series。

c）實(shí)例方法combine_first()方法：合并重疊數(shù)據(jù)

s1.combine_first(s2) #等價(jià)于np.where(pd.isnull(s1),s2,s1)

這是一個(gè)矢量化的if-else操作，如果s1里某個(gè)位置上的數(shù)據(jù)為空，則用s2同位置上的元素來(lái)補(bǔ)，你可以理解為“打補(bǔ)丁”操作。

（11）數(shù)據(jù)重塑/軸向旋轉(zhuǎn)

重塑指的是將數(shù)據(jù)重新排列，也叫軸向旋轉(zhuǎn)。

stack: 將數(shù)據(jù)的列“旋轉(zhuǎn)”為行。unstack:將數(shù)據(jù)的行“旋轉(zhuǎn)”為列。

處理堆疊格式

堆疊格式也叫長(zhǎng)格式，一般關(guān)系型數(shù)據(jù)庫(kù)存儲(chǔ)時(shí)間序列的數(shù)據(jù)會(huì)采用此種格式

df.pivot(‘col1','col2','col3')

（12）數(shù)據(jù)轉(zhuǎn)換：對(duì)數(shù)據(jù)的過(guò)濾、清理以及其他的轉(zhuǎn)換操作。

移除重復(fù)數(shù)據(jù)

df.duplicated() #檢測(cè)各行是否重復(fù)，默認(rèn)判斷全部列，默認(rèn)保留第一個(gè)出現(xiàn)的值
df.duplicated([‘col1'])   #判斷指定列
df.drop_duplicates() #丟棄重復(fù)行
df.drop_duplicates(keep=‘lost') #或傳入take_last=True保留最后一個(gè)值

利用映射進(jìn)行數(shù)據(jù)轉(zhuǎn)換

data[‘new_col'] = data[‘col1'].map(col1_to_new_col)#map到一個(gè)dict
data[‘col1'].map(lambda x: col1_to_new_col[x]) #等價(jià)于使用函數(shù)

替換值

data.replace(value,np.nan)
data.replace([value1, value2],[ np.nan,0])

重命名軸索引

data.rename(index=str.title,columns=str.upper)

將數(shù)據(jù)劃分成不同的組

scores=[40,54,60,85,87,81]
score_levels=[0,60,80,95]
cats = pd.cut(scores,score_levels) #輸出內(nèi)容為區(qū)間的列表
pd.value_counts(cats) #統(tǒng)計(jì)區(qū)間個(gè)數(shù)

檢測(cè)和過(guò)濾異常值

data.decsribe() #產(chǎn)生數(shù)據(jù)的count,mean,std,min…
data[np.abs(data)>2] #找出絕對(duì)值大于2的值,不滿(mǎn)足的為nan
data[np.abs(data)>2.any(1)] #找出絕對(duì)值大于2的行
data[np.abs(data)>2]=0 #將異常值設(shè)置為0