快捷導(dǎo)航

Python Pandas 如何shuffle（打亂）數(shù)據(jù)

更新時(shí)間：2019年07月30日 09:38:19 作者：kingsam_

這篇文章主要介紹了Python Pandas 如何shuffle（打亂）數(shù)據(jù)，文中通過示例代碼介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值，需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧

在Python里面，使用Pandas里面的DataFrame來存放數(shù)據(jù)的時(shí)候想要把數(shù)據(jù)集進(jìn)行shuffle會(huì)許多的方法，本文介紹兩種比較常用而且簡單的方法。

應(yīng)用情景：

我們有下面以個(gè)DataFrame

我們可以看到BuyInter的數(shù)值是按照0,-1,-1,2,2,2,3,3,3,3這樣排列的，我們希望不保持這個(gè)次序，但是同時(shí)列屬性又不能改變，即如下效果：

實(shí)現(xiàn)方法：

最簡單的方法就是采用pandas中自帶的 sample這個(gè)方法。

假設(shè)df是這個(gè)DataFrame

df.sample(frac=1)

這樣對(duì)可以對(duì)df進(jìn)行shuffle。其中參數(shù)frac是要返回的比例，比如df中有10行數(shù)據(jù)，我只想返回其中的30%,那么frac=0.3。

有時(shí)候，我們可能需要打混后數(shù)據(jù)集的index（索引）還是按照正常的排序。我們只需要這樣操作

df.sample(frac=1).reset_index(drop=True)

-------------------------------------分割線--------------------------------------------------------------

其實(shí)，sklearn(機(jī)器學(xué)習(xí)的庫）中也有shuffle的方法。

from sklearn.utils import shuffle
df = shuffle(df)

另外，numpy庫中也有進(jìn)行shuffle的方法（不建議）

df.iloc[np.random.permutation(len(df))]

以上就是本文的全部內(nèi)容，希望對(duì)大家的學(xué)習(xí)有所幫助，也希望大家多多支持腳本之家。

您可能感興趣的文章:

相關(guān)文章

關(guān)于Python中jieba庫的使用
這篇文章主要介紹了關(guān)于Python中jieba庫的使用,jieba (“結(jié)巴”) 是 Python 中一個(gè)重要的第三方中文分詞函數(shù)庫,除了分詞，jieba 還提供增加自定義中文單詞的功能,需要的朋友可以參考下
2023-04-04
python數(shù)組如何添加整行或整列
這篇文章主要介紹了python數(shù)組如何添加整行或整列問題，具有很好的參考價(jià)值，希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方，望不吝賜教
2023-01-01
Python進(jìn)階之迭代器與迭代器切片教程
迭代器是 Python 中獨(dú)特的一種高級(jí)特性，而切片也是一種高級(jí)特性，兩者相結(jié)合，會(huì)產(chǎn)生什么樣的結(jié)果呢,需要的朋友可以參考下
2020-01-01
python sort、sorted高級(jí)排序技巧
這篇文章主要介紹了python sort、sorted高級(jí)排序技巧,本文講解了基礎(chǔ)排序、升序和降序、排序的穩(wěn)定性和復(fù)雜排序、cmp函數(shù)排序法等內(nèi)容,需要的朋友可以參考下
2014-11-11
python實(shí)現(xiàn)批量修改文件名
這篇文章主要為大家詳細(xì)介紹了python實(shí)現(xiàn)批量修改文件名，文中示例代碼介紹的非常詳細(xì)，具有一定的參考價(jià)值，感興趣的小伙伴們可以參考一下
2020-03-03
Python?np.where()的詳解以及代碼應(yīng)用
numpy里有一個(gè)非常神奇的函數(shù)叫做np.where()函數(shù),下面這篇文章主要給大家介紹了關(guān)于Python?np.where()的詳解以及代碼應(yīng)用的相關(guān)資料,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-08-08
python中對(duì)list去重的多種方法
這篇文章主要介紹了python中對(duì)list去重的多種方法,本文去重的前提是要保證順序不變,本文給出了多種實(shí)現(xiàn)方法,需要的朋友可以參考下
2014-09-09
使用python下載大型文件顯示進(jìn)度條和下載時(shí)間的操作代碼
大家都知道下載大型文件時(shí)存在一個(gè)問題，那就是內(nèi)存使用量迅速上升，可能會(huì)造成電腦卡死，所以我們需要換一個(gè)方式進(jìn)行下載，這篇文章主要介紹了使用python下載大型文件的方法顯示進(jìn)度條和下載時(shí)間,需要的朋友可以參考下
2022-11-11
python字符串操作的15種方法匯總
對(duì)于python中的字符串,有多種操作方法,下面這篇文章主要給大家介紹了關(guān)于python字符串操作的15種方法,文中通過實(shí)例代碼介紹的非常詳細(xì),需要的朋友可以參考下
2022-09-09
值得收藏，Python 開發(fā)中的高級(jí)技巧
這篇文章主要介紹了Python 開發(fā)中的高級(jí)技巧，非常不錯(cuò)，具有收藏價(jià)值，感興趣的朋友一起看看吧
2018-11-11