pandas分組排序 如何獲取第二大的數(shù)據(jù)
Python用來做數(shù)據(jù)分析很方便,網(wǎng)上很多關(guān)于找數(shù)據(jù)中第二大的方法,但是大多數(shù)都是關(guān)于SQL的,于是我挑戰(zhàn)一下用Python來做這件事(主要是SQL寫的不好>_<),上代碼。
1、數(shù)據(jù)我是自己編的
在實(shí)際工作中應(yīng)該從數(shù)據(jù)庫(kù)中導(dǎo)入數(shù)據(jù),如何從數(shù)據(jù)庫(kù)導(dǎo)出數(shù)據(jù),我之后會(huì)補(bǔ)充。
import pandas as pd df = pd.DataFrame([ {"class": 1, "name": "aa", "english": 120}, {"class": 1, "name": "bb", "english": 110}, {"class": 1, "name": "cc", "english": 110}, {"class": 1, "name": "dd", "english": 110}, {"class": 2, "name": "ee", "english": 120}, {"class": 2, "name": "ff", "english": 140}, {"class": 2, "name": "gg", "english": 130}, {"class": 2, "name": "hh", "english": 130}, {"class": 3, "name": "tt", "english": 130}, {"class": 4, "name": "xx", "english": 130}, {"class": 4, "name": "yy", "english": 130}, {"class": 5, "name": "zz", "english": None}, ])
2、分組取第二大的數(shù)據(jù)
def fun(df): # english數(shù)據(jù)去重 sort_set = set(df["english"].values.tolist()) if len(sort_set)<=1: # 數(shù)據(jù)量小于等于1,無法取到第二大的數(shù)據(jù) return None else: # 取english中第二大的值 sort_value = sorted(sort_set,reverse=True)[1] temp_df = df[df["english"]==sort_value] return temp_df df = df.groupby(by=["class"]).apply(fun).reset_index(drop=True) print(df)
結(jié)果如下:
class name english 0 1 bb 110.0 1 1 cc 110.0 2 1 dd 110.0 3 2 gg 130.0 4 2 hh 130.0
3、寫完啦,就這么簡(jiǎn)單
當(dāng)然這還可以改為取最大、取最小、取第三大、等等......
補(bǔ)充:pandas 按某一列A排序,按B和C兩列分組,選擇分組后A列值最大的行
pandas 按某一列A排序,按B和C兩列分組,選擇分組后A列值最大的行
一、需求
按 updateTime 列倒序排序,按 B 和 C 兩列分組,分組后選擇最后更新的時(shí)間的那一行,并將結(jié)果加上新索引。
二、代碼
import pandas as pd data = pd.read_csv('test.csv') df = pd.DataFrame(data) df = df.sort_values('updateTime', ascending=False).groupby(['B','C']).first().reset_index()
first() 函數(shù)代表選擇第一行,如果要選取多行,可以使用 head() 函數(shù): head(5)表示選擇前五行。
如下例:
import pandas as pd data = pd.read_csv('test.csv',header = 0) df = pd.DataFrame(data) # 按日期分組,分組后對(duì) value 列從大到小排序,取每組前十行 df = df.groupby('date', group_keys=False).apply(lambda x: x.sort_values('value', ascending=False)).groupby('date').head(10).reset_index()
在不能直接使用sort_values() 函數(shù)時(shí),使用 apply() 函數(shù)。
以上為個(gè)人經(jīng)驗(yàn),希望能給大家一個(gè)參考,也希望大家多多支持腳本之家。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教。
相關(guān)文章
一篇文章帶你了解python標(biāo)準(zhǔn)庫(kù)--random模塊
這篇文章主要給大家介紹了關(guān)于Python中random模塊常用方法的使用教程,文中通過示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧2021-08-08如何從Python字符串中刪除最后一個(gè)分號(hào)或者逗號(hào)
這篇文章主要介紹了從?Python?中的字符串中刪除最后一個(gè)分號(hào)或者逗號(hào)的兩種方法,本文通過示例代碼給大家介紹的非常詳細(xì),需要的朋友可以參考下2023-04-04python中如何使用xml.dom.minidom模塊讀取解析xml文件
xml.dom.minidom模塊應(yīng)該是內(nèi)置模塊不用下載安裝,本文給大家介紹python中如何使用xml.dom.minidom模塊讀取解析xml文件,感興趣的朋友一起看看吧2023-10-10Python使用itertools模塊實(shí)現(xiàn)排列組合功能示例
這篇文章主要介紹了Python使用itertools模塊實(shí)現(xiàn)排列組合功能,涉及Python基于itertools模塊product、permutations與combinations_with_replacement方法進(jìn)行排列、組合等相關(guān)操作實(shí)現(xiàn)技巧,需要的朋友可以參考下2018-07-07Django項(xiàng)目中用JS實(shí)現(xiàn)加載子頁(yè)面并傳值的方法
今天小編就為大家分享一篇Django項(xiàng)目中用JS實(shí)現(xiàn)加載子頁(yè)面并傳值的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過來看看吧2018-05-05解決python訓(xùn)練模型報(bào)錯(cuò):BrokenPipeError:?[Errno?32]?Broken?pipe
這篇文章主要介紹了解決python訓(xùn)練模型報(bào)錯(cuò):BrokenPipeError:?[Errno?32]?Broken?pipe問題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-07-07代碼解析python標(biāo)準(zhǔn)庫(kù)logging模塊
這篇文章主要為大家介紹了代碼解析python標(biāo)準(zhǔn)庫(kù)logging模塊,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪2022-05-05