欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

Python pandas軸旋轉(zhuǎn)stack和unstack的使用說明

 更新時間:2021年03月05日 14:58:39   作者:Asher117  
這篇文章主要介紹了Python pandas軸旋轉(zhuǎn)stack和unstack的使用說明,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧

摘要

前面給大家分享了pandas做數(shù)據(jù)合并的兩篇[pandas.merge]和[pandas.cancat]的用法。今天這篇主要講的是pandas的DataFrame的軸旋轉(zhuǎn)操作,stack和unstack的用法。

首先,要知道以下五點:

1.stack:將數(shù)據(jù)的列“旋轉(zhuǎn)”為行

2.unstack:將數(shù)據(jù)的行“旋轉(zhuǎn)”為列

3.stack和unstack默認操作為最內(nèi)層

4.stack和unstack默認旋轉(zhuǎn)軸的級別將會成果結(jié)果中的最低級別(最內(nèi)層)

5.stack和unstack為一組逆運算操作

第一點和第二點以及第五點比較好懂,可能乍看第三點和第四點會不太理解,沒關(guān)系,看看具體下面的例子,你就懂了。

1、創(chuàng)建DataFrame,行索引名為state,列索引名為number

import pandas as pd
import numpy as np
data = pd.DataFrame(np.arange(6).reshape((2,3)),index=pd.Index(['Ohio','Colorado'],name='state')
     ,columns=pd.Index(['one','two','three'],name='number'))
data

2、將DataFrame的列旋轉(zhuǎn)為行,即stack操作

result = data.stack()
result

從下圖中結(jié)果來理解上述點4,stack操作后將列索引number旋轉(zhuǎn)為行索引,并且置于行索引的最內(nèi)層(外層為索引state),也就是將旋轉(zhuǎn)軸(number)的結(jié)果置于 最低級別。

3、將DataFrame的行旋轉(zhuǎn)為列,即unstack操作

result.unstack()

從下面結(jié)果理解上述點3,unstack操作默認將內(nèi)層索引number旋轉(zhuǎn)為列索引。

同時,也可以指定分層級別或者索引名稱來指定操作級別,下面做錯同樣會得到上面的結(jié)果。

4、stack和unstack逆運算

s1 = pd.Series([0,1,2,3],index=list('abcd'))
s2 = pd.Series([4,5,6],index=list('cde'))
data2 = pd.concat([s1,s2],keys=['one','two'])
data2

data2.unstack().stack()

補充:使用Pivot、Pivot_Table、Stack和Unstack等方法在Pandas中對數(shù)據(jù)變形(重塑)

Pandas是著名的Python數(shù)據(jù)分析包,這使它更容易讀取和轉(zhuǎn)換數(shù)據(jù)。在Pandas中數(shù)據(jù)變形意味著轉(zhuǎn)換表或向量(即DataFrame或Series)的結(jié)構(gòu),使其進一步適合做其他分析。在本文中,小編將舉例說明最常見的一些Pandas重塑功能。

一、Pivot

pivot函數(shù)用于從給定的表中創(chuàng)建出新的派生表,pivot有三個參數(shù):索引、列和值。具體如下:

def pivot_simple(index, columns, values):
  """
  Produce 'pivot' table based on 3 columns of this DataFrame.
  Uses unique values from index / columns and fills with values.
  Parameters
  ----------
  index : ndarray
    Labels to use to make new frame's index
  columns : ndarray
    Labels to use to make new frame's columns
  values : ndarray
    Values to use for populating new frame's values

作為這些參數(shù)的值需要事先在原始的表中指定好對應(yīng)的列名。然后,pivot函數(shù)將創(chuàng)建一個新表,其行和列索引是相應(yīng)參數(shù)的唯一值。我們一起來看一下下面這個例子:

假設(shè)我們有以下數(shù)據(jù):

我們將數(shù)據(jù)讀取進來:

from collections import OrderedDict
from pandas import DataFrame
import pandas as pd
import numpy as np
 
data = OrderedDict((
  ("item", ['Item1', 'Item1', 'Item2', 'Item2']),
  ('color', ['red', 'blue', 'red', 'black']),
  ('user', ['1', '2', '3', '4']),
  ('bm',  ['1', '2', '3', '4'])
))
data = DataFrame(data)
print(data)

得到結(jié)果為:

  item color user bm
0 Item1  red  1 1
1 Item1  blue  2 2
2 Item2  red  3 3
3 Item2 black  4 4

接下來,我們對以上數(shù)據(jù)進行變形:

df = data.pivot(index='item', columns='color', values='user')
print(df)

得到的結(jié)果為:

color black blue red
item         
Item1 None   2  1
Item2   4 None  3

注意:可以使用以下方法對原始數(shù)據(jù)和轉(zhuǎn)換后的數(shù)據(jù)進行等效查詢:

# 原始數(shù)據(jù)集
print(data[(data.item=='Item1') & (data.color=='red')].user.values)
 
# 變換后的數(shù)據(jù)集
print(df[df.index=='Item1'].red.values)

結(jié)果為:

['1']
['1']

在以上的示例中,轉(zhuǎn)化后的數(shù)據(jù)不包含bm的信息,它僅包含我們在pivot方法中指定列的信息。下面我們對上面的例子進行擴展,使其在包含user信息的同時也包含bm信息。

df2 = data.pivot(index='item', columns='color')
print(df2)

結(jié)果為:

    user       bm     
color black blue red black blue red
item                 
Item1 None   2  1 None   2  1
Item2   4 None  3   4 None  3

從結(jié)果中我們可以看出:Pandas為新表創(chuàng)建了分層列索引。我們可以用這些分層列索引來過濾出單個列的值,例如:使用df2.user可以得到user列中的值。

二、Pivot Table

有如下例子:

data = OrderedDict((
  ("item", ['Item1', 'Item1', 'Item1', 'Item2']),
  ('color', ['red', 'blue', 'red', 'black']),
  ('user', ['1', '2', '3', '4']),
  ('bm',  ['1', '2', '3', '4'])
))
data = DataFrame(data) 
df = data.pivot(index='item', columns='color', values='user')

得到的結(jié)果為:

ValueError: Index contains duplicate entries, cannot reshape

因此,在調(diào)用pivot函數(shù)之前,我們必須確保我們指定的列和行沒有重復(fù)的數(shù)據(jù)。如果我們無法確保這一點,我們可以使用pivot_table這個方法。

pivot_table方法實現(xiàn)了類似pivot方法的功能,它可以在指定的列和行有重復(fù)的情況下使用,我們可以使用均值、中值或其他的聚合函數(shù)來計算重復(fù)條目中的單個值。

首先,我們先來看一下pivot_table()這個方法:

def pivot_table(data, values=None, index=None, columns=None, aggfunc='mean',
        fill_value=None, margins=False, dropna=True,
        margins_name='All'):
  """
  Create a spreadsheet-style pivot table as a DataFrame. The levels in the
  pivot table will be stored in MultiIndex objects (hierarchical indexes) on
  the index and columns of the result DataFrame
  Parameters
  ----------
  data : DataFrame
  values : column to aggregate, optional
  index : column, Grouper, array, or list of the previous
    If an array is passed, it must be the same length as the data. The list
    can contain any of the other types (except list).
    Keys to group by on the pivot table index. If an array is passed, it
    is being used as the same manner as column values.
  columns : column, Grouper, array, or list of the previous
    If an array is passed, it must be the same length as the data. The list
    can contain any of the other types (except list).
    Keys to group by on the pivot table column. If an array is passed, it
    is being used as the same manner as column values.
  aggfunc : function or list of functions, default numpy.mean
    If list of functions passed, the resulting pivot table will have
    hierarchical columns whose top level are the function names (inferred
    from the function objects themselves)
  fill_value : scalar, default None
    Value to replace missing values with
  margins : boolean, default False
    Add all row / columns (e.g. for subtotal / grand totals)
  dropna : boolean, default True
    Do not include columns whose entries are all NaN
  margins_name : string, default 'All'
    Name of the row / column that will contain the totals
    when margins is True.
    接下來我們來看一個示例:
data = OrderedDict((
  ("item", ['Item1', 'Item1', 'Item1', 'Item2']),
  ('color', ['red', 'blue', 'red', 'black']),
  ('user', ['1', '2', '3', '4']),
  ('bm',  ['1', '2', '3', '4'])
))
data = DataFrame(data)
 
df = data.pivot_table(index='item', columns='color', values='user', aggfunc=np.min)
print(df)

結(jié)果為:

color black blue  red
item          
Item1 None   2   1
Item2   4 None None

實際上,pivot_table()是pivot()的泛化,它允許在數(shù)據(jù)集中聚合具有相同目標的多個值。

三、Stack/Unstack

事實上,變換一個表只是堆疊DataFrame的一種特殊情況,假設(shè)我們有一個在行列上有多個索引的DataFrame。堆疊DataFrame意味著移動最里面的列索引成為最里面的行索引,反向操作稱之為取消堆疊,意味著將最里面的行索引移動為最里面的列索引。例如:

from pandas import DataFrame
import pandas as pd
import numpy as np
 
# 建立多個行索引
row_idx_arr = list(zip(['r0', 'r0'], ['r-00', 'r-01']))
row_idx = pd.MultiIndex.from_tuples(row_idx_arr)
 
# 建立多個列索引
col_idx_arr = list(zip(['c0', 'c0', 'c1'], ['c-00', 'c-01', 'c-10']))
col_idx = pd.MultiIndex.from_tuples(col_idx_arr)
 
# 創(chuàng)建DataFrame
d = DataFrame(np.arange(6).reshape(2,3), index=row_idx, columns=col_idx)
d = d.applymap(lambda x: (x // 3, x % 3))
 
# Stack/Unstack
s = d.stack()
u = d.unstack()
print(s)
print(u)

得到的結(jié)果為:

         c0   c1
r0 r-00 c-00 (0, 0)   NaN
    c-01 (0, 1)   NaN
    c-10   NaN (0, 2)
  r-01 c-00 (1, 0)   NaN
    c-01 (1, 1)   NaN
    c-10   NaN (1, 2)
 
    c0               c1    
   c-00      c-01      c-10    
   r-00  r-01  r-00  r-01  r-00  r-01
r0 (0, 0) (1, 0) (0, 1) (1, 1) (0, 2) (1, 2)

實際上,Pandas允許我們在索引的任何級別上堆疊/取消堆疊。 因此,在前面的示例中,我們也可以堆疊在最外層的索引級別上。 但是,默認(最典型的情況)是在最里面的索引級別進行堆疊/取消堆疊。

以上為個人經(jīng)驗,希望能給大家一個參考,也希望大家多多支持腳本之家。如有錯誤或未考慮完全的地方,望不吝賜教。

相關(guān)文章

  • Django中URL的參數(shù)傳遞的實現(xiàn)

    Django中URL的參數(shù)傳遞的實現(xiàn)

    這篇文章主要介紹了Django中URL的參數(shù)傳遞的實現(xiàn),文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友們下面隨著小編來一起學(xué)習(xí)學(xué)習(xí)吧
    2019-08-08
  • python初學(xué)定義函數(shù)

    python初學(xué)定義函數(shù)

    這篇文章主要為大家介紹了python的定義函數(shù),具有一定的參考價值,感興趣的小伙伴們可以參考一下,希望能夠給你帶來幫助,希望能夠給你帶來幫助
    2021-11-11
  • python 利用pyttsx3文字轉(zhuǎn)語音過程詳解

    python 利用pyttsx3文字轉(zhuǎn)語音過程詳解

    這篇文章主要介紹了python 利用pyttsx3文字轉(zhuǎn)語音過程詳解,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2019-09-09
  • Python?pluggy模塊的用法示例演示

    Python?pluggy模塊的用法示例演示

    這篇文章主要介紹了Python?pluggy模塊的用法,pluggy提供了一個簡易便捷的插件系統(tǒng),可以做到插件與主題功能松耦合,pluggy?是pytest,tox,devpi的核心框架文中通過代碼示例演示給大家詳細介紹,需要的朋友參考下吧
    2022-05-05
  • Python抓新型冠狀病毒肺炎疫情數(shù)據(jù)并繪制全國疫情分布的代碼實例

    Python抓新型冠狀病毒肺炎疫情數(shù)據(jù)并繪制全國疫情分布的代碼實例

    在本篇文章里小編給大家整理了一篇關(guān)于Python抓新型冠狀病毒肺炎疫情數(shù)據(jù)并繪制全國疫情分布的代碼實例,有興趣的朋友們可以學(xué)習(xí)下。
    2020-02-02
  • Python錯誤處理操作示例

    Python錯誤處理操作示例

    這篇文章主要介紹了Python錯誤處理操作,結(jié)合實例形式分析了Python使用try...except...finaly語句進行錯誤處理的相關(guān)操作技巧與注意事項,需要的朋友可以參考下
    2018-07-07
  • Python如何使用正則表達式爬取京東商品信息

    Python如何使用正則表達式爬取京東商品信息

    這篇文章主要介紹了Python如何使用正則表達式爬取京東商品信息,文中通過示例代碼介紹的非常詳細,對大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價值,需要的朋友可以參考下
    2020-06-06
  • pandas?dataframe?drop函數(shù)介紹

    pandas?dataframe?drop函數(shù)介紹

    這篇文章主要介紹了pandas?dataframe?drop函數(shù)介紹,文章通圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-09-09
  • Python根據(jù)區(qū)號生成手機號碼的方法

    Python根據(jù)區(qū)號生成手機號碼的方法

    這篇文章主要介紹了Python根據(jù)區(qū)號生成手機號碼的方法,涉及Python隨機數(shù)與字符串的相關(guān)操作技巧,需要的朋友可以參考下
    2015-07-07
  • Python3字符串的常用操作方法之修改方法與大小寫字母轉(zhuǎn)化

    Python3字符串的常用操作方法之修改方法與大小寫字母轉(zhuǎn)化

    這篇文章主要介紹了Python3字符串的常用操作方法之修改方法與大小寫字母轉(zhuǎn)化,文章圍繞主題展開詳細的內(nèi)容介紹,具有一定的參考價值,需要的小伙伴可以參考一下
    2022-09-09

最新評論