Pandas sample隨機(jī)抽樣的實(shí)現(xiàn)
隨機(jī)抽樣,是統(tǒng)計(jì)學(xué)中常用的一種方法,它可以幫助我們從大量的數(shù)據(jù)中快速地構(gòu)建出一組數(shù)據(jù)分析模型。在 Pandas 中,如果想要對(duì)數(shù)據(jù)集進(jìn)行隨機(jī)抽樣,需要使用 sample() 函數(shù)。
sample() 函數(shù)的語(yǔ)法格式如下:
DataFrame.sample(n=None, frac=None, replace=False, weights=None, random_state=None, axis=None)
參數(shù)說(shuō)明如下表所示:
參數(shù)名稱 | 參數(shù)說(shuō)明 |
---|---|
n | 表示要抽取的行數(shù)。 |
frac | 表示抽取的比例,比如 frac=0.5,代表抽取總體數(shù)據(jù)的50%。 |
replace | 布爾值參數(shù),表示是否以有放回抽樣的方式進(jìn)行選擇,默認(rèn)為 False,取出數(shù)據(jù)后不再放回。 |
weights | 可選參數(shù),代表每個(gè)樣本的權(quán)重值,參數(shù)值是字符串或者數(shù)組。 |
random_state | 可選參數(shù),控制隨機(jī)狀態(tài),默認(rèn)為 None,表示隨機(jī)數(shù)據(jù)不會(huì)重復(fù);若為 1 表示會(huì)取得重復(fù)數(shù)據(jù)。 |
axis | 表示在哪個(gè)方向上抽取數(shù)據(jù)(axis=1 表示列/axis=0 表示行)。 |
該函數(shù)返回與數(shù)據(jù)集類型相同的新對(duì)象,相當(dāng)于 numpy.random.choice()。實(shí)例如下: |
import pandas as pd dict = {'name':["Jack", "Tom", "Helen", "John"],'age': [28, 39, 34, 36],'score':[98,92,91,89]} info = pd.DataFrame(dict) #默認(rèn)隨機(jī)選擇兩行 info.sample(n=2) #隨機(jī)選擇兩列 info.sample(n=2,axis=1)
輸出結(jié)果:
name age score
3 John 36 89
0 Jack 28 98score name
0 98 Jack
1 92 Tom
2 91 Helen
3 89 John
再來(lái)看一組示例:
import pandas as pd info = pd.DataFrame({'data1': [2, 6, 8, 0], 'data2': [2, 5, 0, 8], 'data3': [12, 2, 1, 8]}, index=['John', 'Parker', 'Smith', 'William']) info #隨機(jī)抽取3個(gè)數(shù)據(jù) info['data1'].sample(n=3) #總體的50% info.sample(frac=0.5, replace=True) #data3序列為權(quán)重值,并且允許重復(fù)數(shù)據(jù)出現(xiàn) info.sample(n=2, weights='data3', random_state=1)
輸出結(jié)果:
隨機(jī)選擇3行數(shù)據(jù):
William 0
Smith 8
Parker 6
Name: data1, dtype: int64data1 data2 data3
John 2 2 12
William 0 8 8data1 data2 data3
John 2 2 12
William 0 8 8
到此這篇關(guān)于Pandas sample隨機(jī)抽樣的實(shí)現(xiàn)的文章就介紹到這了,更多相關(guān)Pandas sample隨機(jī)抽樣內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家!
相關(guān)文章
Python subprocess模塊學(xué)習(xí)總結(jié)
從Python 2.4開(kāi)始,Python引入subprocess模塊來(lái)管理子進(jìn)程,以取代一些舊模塊的方法:如 os.system、os.spawn*、os.popen*、popen2.*、commands.*不但可以調(diào)用外部的命令作為子進(jìn)程,而且可以連接到子進(jìn)程的input/output/error管道,獲取相關(guān)的返回信息2014-03-03python異步編程之a(chǎn)syncio高階API的使用詳解
asyncio中函數(shù)可以分為高階函數(shù)和低階函數(shù),通常開(kāi)發(fā)中使用更多的是高階函數(shù),本文主要為大家介紹了asyncio中常用的高階函數(shù),需要的可以參考下2024-01-01Python讀取數(shù)據(jù)集并消除數(shù)據(jù)中的空行方法
今天小編就為大家分享一篇Python讀取數(shù)據(jù)集并消除數(shù)據(jù)中的空行方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-07-07Python無(wú)參裝飾器的實(shí)現(xiàn)方案及優(yōu)化
裝飾器(Decorators)是 Python 的一個(gè)重要部分,所謂裝飾器就是閉包函數(shù)的一種應(yīng)用場(chǎng)景,這篇文章主要給大家介紹了關(guān)于Python無(wú)參裝飾器的相關(guān)資料,需要的朋友可以參考下2021-08-08對(duì)tensorflow中tf.nn.conv1d和layers.conv1d的區(qū)別詳解
今天小編就為大家分享一篇對(duì)tensorflow中tf.nn.conv1d和layers.conv1d的區(qū)別詳解,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-02-02Python機(jī)器學(xué)習(xí)NLP自然語(yǔ)言處理基本操作之京東評(píng)論分類
自然語(yǔ)言處理( Natural Language Processing, NLP)是計(jì)算機(jī)科學(xué)領(lǐng)域與人工智能領(lǐng)域中的一個(gè)重要方向。它研究能實(shí)現(xiàn)人與計(jì)算機(jī)之間用自然語(yǔ)言進(jìn)行有效通信的各種理論和方法2021-10-10在Pycharm的Project Files下建立多個(gè)項(xiàng)目的操作
這篇文章主要介紹了在Pycharm的Project Files下建立多個(gè)項(xiàng)目的操作,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05