python Pandas如何對數(shù)據(jù)集隨機(jī)抽樣
摘要:有時候我們只需要數(shù)據(jù)集中的一部分,并不需要全部的數(shù)據(jù)。這個時候我們就要對數(shù)據(jù)集進(jìn)行隨機(jī)的抽樣。pandas中自帶有抽樣的方法。
應(yīng)用場景:
我有10W行數(shù)據(jù),每一行都11列的屬性。
現(xiàn)在,我們只需要隨機(jī)抽取其中的2W行。
實(shí)現(xiàn)方法很簡單:
利用Pandas庫中的sample。
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
n是要抽取的行數(shù)。(例如n=20000時,抽取其中的2W行)
frac是抽取的比列。(有一些時候,我們并對具體抽取的行數(shù)不關(guān)系,我們想抽取其中的百分比,這個時候就可以選擇使用frac,例如frac=0.8,就是抽取其中80%)
replace:是否為有放回抽樣,取replace=True時為有放回抽樣。
weights這個是每個樣本的權(quán)重,具體可以看官方文檔說明。
random_state這個在之前的文章已經(jīng)介紹過了。
axis是選擇抽取數(shù)據(jù)的行還是列。axis=0的時是抽取行,axis=1時是抽取列(也就是說axis=1時,在列中隨機(jī)抽取n列,在axis=0時,在行中隨機(jī)抽取n行)
具體用法:
假設(shè)DataFrame為df
import pandas as pd df.sample(n=20000)
另外,介紹一種不是Pandas中的方法。如果想用Numpy這個庫進(jìn)行也可以。
import numpy as np np.random.sample(Your_index)
以上就是本文的全部內(nèi)容,希望對大家的學(xué)習(xí)有所幫助,也希望大家多多支持腳本之家。
相關(guān)文章
Python3.4編程實(shí)現(xiàn)簡單抓取爬蟲功能示例
這篇文章主要介紹了Python3.4編程實(shí)現(xiàn)簡單抓取爬蟲功能,涉及Python3.4網(wǎng)頁抓取及正則解析相關(guān)操作技巧,需要的朋友可以參考下2017-09-09Python調(diào)用Elasticsearch更新數(shù)據(jù)庫的操作方法
Elasticsearch是一個分布式、多租戶的全文搜索引擎,支持HTTP Web接口和無模式的JSON文檔,本文介紹Python調(diào)用Elasticsearch更新數(shù)據(jù)庫的相關(guān)操作,感興趣的朋友一起看看吧2024-12-12python中的exec()、eval()及complie()示例詳解
這篇文章主要介紹了python中的exec()、eval()及complie(),本文通過示例代碼給大家介紹的非常詳細(xì),對大家的學(xué)習(xí)或工作具有一定的參考借鑒價值,需要的朋友可以參考下2023-08-08Python?Prim算法通過遍歷墻實(shí)現(xiàn)迷宮的生成
之前,我們在另外一篇文章中使用Prim算法生成了一個完美迷宮,利用的是遍歷網(wǎng)格的方法,這一次,我們要教教大家用遍歷墻的方法生成,感興趣的可以收藏一下2023-01-01pip安裝庫報錯[notice]?A?new?release?of?pip?available:?22.2
這篇文章主要給大家介紹了關(guān)于pip安裝庫報錯[notice]?A?new?release?of?pip?available:?22.2?->?22.2.2的相關(guān)資料,文中通過圖文將解決的方法介紹的非常詳細(xì),需要的朋友可以參考下2023-03-03