欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

pandas如何處理缺失值

 更新時間:2019年07月31日 14:42:38   作者:修煉之路  
這篇文章主要介紹了pandas如何處理缺失值,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧

在實際應用中對于數據進行分析的時候,經常能看見缺失值,下面來介紹一下如何利用pandas來處理缺失值。常見的缺失值處理方式有,過濾、填充。

一、缺失值的判斷

pandas使用浮點值NaN(Not a Number)表示浮點數和非浮點數組中的缺失值,同時python內置None值也會被當作是缺失值。

a、Series的缺失值判斷

  s = Series(["a","b",np.nan,"c",None])
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #判斷缺失值,如果是則返回True,否則返回False
  print(s.isnull())
  '''
  0  False
  1  False
  2   True
  3  False
  4   True
  '''
  #輸出缺失值的索引和值
  print(s[s.isnull()])
  '''
  2   NaN
  4  None
  '''

b、DataFrame的缺失值判斷

  a = [[1,np.nan,2],[3,4,None]]
  data = DataFrame(a)
  #DataFrame的None值變成了NaN
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 3 4.0 NaN
  '''
  print(data.isnull())
  '''
      0   1   2
  0 False  True False
  1 False False  True
  '''
  print(data[data.isnull()])
  '''
    0  1  2
  0 NaN NaN NaN
  1 NaN NaN NaN
  '''

注意:在使用Series和DataFrame的時候,如果其中有值為None,Series會輸出None,而DataFrame會輸出NaN,但是對空值判斷沒有影響。DataFrame使用isnull方法在輸出空值的時候全為NaN,因為DataFrame對于False對應的位置,輸出值會使用NaN代替,而Series對于Fasel對應的位置是沒有輸出值的。

二、過濾缺失數據

a、Series的缺失值過濾

  s = Series(["a","b",np.nan,"c",None])
  #通過使用notnull方法來獲取非缺失數據
  print(s[s.notnull()])
  '''
  0  a
  1  b
  3  c
  '''
  #使用dropna方法刪除缺失數據,返回一個刪除后的Series
  print(s.dropna())
  '''
  0  a
  1  b
  3  c
  '''
  #并沒有在原來的Series上進行直接刪除
  print(s)
  '''
  0    a
  1    b
  2   NaN
  3    c
  4  None
  '''
  #通過設置inplace參數為True,在原Series上進行刪除,不會返回Series
  print(s.dropna(inplace=True))
  #None
  print(s)
  '''
  0  a
  1  b
  3  c
  '''

b、DataFrame的缺失值過濾

DataFrame刪除缺失值相對于Series而言就要復雜一些,也許有的時候你是想刪除含有缺失值的行或列,也許有時候你需要刪除的是,當整行或整列全為缺失值的時候才刪除,好在pandas對于這兩種情況都有相對應的處理方法。

1、刪除含有缺失值的行和列

  a = [[1, np.nan, 2],[9,None,np.nan],[3, 4, None],[5,6,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 NaN 2.0
  1 9 NaN NaN
  2 3 4.0 NaN
  3 5 6.0 7.0 
  '''
  #使用dropna方法刪除含有缺失值的行,默認是行
  print(data.dropna())
  '''
    0  1  2
  3 5 6.0 7.0
  '''
  #刪除含有缺失值的列
  print(data.dropna(axis=1))
  '''
    0
  0 1
  1 9
  2 3
  3 5
  '''

2、刪除全為NaN的行和列

   a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當行全為NaN的時候,才刪除,參數how默認是any,含有缺失值就刪除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當列全為NaN的時候,才刪除
  print(data.dropna(how="all",axis=1))
  '''
     0  2
  0 1.0 2.0
  1 NaN NaN
  2 3.0 NaN
  3 5.0 7.0
  '''

dropna方法的inplace的設置與Series一樣。

3、指定刪除數據后顯示部分數據觀察

  a = [[1, np.nan, 2],[np.nan,None,np.nan],[3, None, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
     0  1  2
  0 1.0 NaN 2.0
  1 NaN NaN NaN
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #當行全為NaN的時候,才刪除,參數how默認是any,含有缺失值就刪除
  print(data.dropna(how="all"))
  '''
     0  1  2
  0 1.0 NaN 2.0
  2 3.0 NaN NaN
  3 5.0 NaN 7.0
  '''
  #通過thresh參數來控制顯示刪除數據的條數,刪除列的時候thresh參數無效
  print(data.dropna(how="all",thresh=2))
  '''
     0  1  2
  0 1.0 NaN 2.0
  3 5.0 NaN 7.0
  '''

三、填充缺失值

數據都是寶貴的,也許有時候你的數據不夠多,因為數據越多對于模型的訓練,數據分析都是有好處的,所以很多的時候我們都不想刪除數據。通常情況下,也許你會選擇用一些特殊值來填充缺失值。下面介紹使用pandas的fillna方法來填充缺失數據。

1、指定特殊值填充缺失值

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #用0填充所有的缺失數據
  print(data.fillna(0))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 0.0 6.0
  2 3 7.0 0.0
  3 5 0.0 7.0
  '''

2、不同列使用不同的填充值

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna({1:1,2:2}))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 1.0 6.0
  2 3 7.0 2.0
  3 5 1.0 7.0
  '''

3、前向填充和后向填充

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  #前向填充,使用默認是上一行的值,設置axis=1可以使用列進行填充
  print(data.fillna(method="ffill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 2.0 6.0
  2 3 7.0 6.0
  3 5 7.0 7.0
  '''
  #后向填充,使用下一行的值,不存在的時候就不填充
  print(data.fillna(method="bfill"))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 7.0 6.0
  2 3 7.0 7.0
  3 5 NaN 7.0
  '''

4、使用列的平均值進行填充

  a = [[1, 2, 2],[3,None,6],[3, 7, None],[5,None,7]]
  data = DataFrame(a)
  print(data)
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 NaN 6.0
  2 3 7.0 NaN
  3 5 NaN 7.0
  '''
  print(data.fillna(data.mean()))
  '''
    0  1  2
  0 1 2.0 2.0
  1 3 4.5 6.0
  2 3 7.0 5.0
  3 5 4.5 7.0
  '''

以上就是本文的全部內容,希望對大家的學習有所幫助,也希望大家多多支持腳本之家。

相關文章

  • python讀取Excel實例詳解

    python讀取Excel實例詳解

    這篇文章主要為大家詳細介紹了python讀取Excel的實例,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2018-08-08
  • python在每個字符后添加空格的實例

    python在每個字符后添加空格的實例

    今天小編就為大家分享一篇python在每個字符后添加空格的實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2018-05-05
  • 詳解Numpy中的廣播原則/機制

    詳解Numpy中的廣播原則/機制

    這篇文章主要介紹了Numpy中的廣播原則/機制,小編覺得挺不錯的,現在分享給大家,也給大家做個參考。一起跟隨小編過來看看吧
    2018-09-09
  • 手動安裝python3.6的操作過程詳解

    手動安裝python3.6的操作過程詳解

    這篇文章主要介紹了如何手動安裝python3.6,本文給大家?guī)砹税惭b步驟,非常不錯,具有一定的參考借鑒價值,需要的朋友可以參考下
    2020-01-01
  • Python實現多級目錄壓縮與解壓文件的方法

    Python實現多級目錄壓縮與解壓文件的方法

    這篇文章主要介紹了Python實現多級目錄壓縮與解壓文件的方法,涉及Python針對文件路徑的遍歷、判斷以及文件壓縮、解壓縮等相關操作技巧,需要的朋友可以參考下
    2018-09-09
  • Keras在mnist上的CNN實踐,并且自定義loss函數曲線圖操作

    Keras在mnist上的CNN實踐,并且自定義loss函數曲線圖操作

    這篇文章主要介紹了Keras在mnist上的CNN實踐,并且自定義loss函數曲線圖操作,具有很好的參考價值,希望對大家有所幫助。
    2021-05-05
  • Python自動化測試pytest中fixtureAPI簡單說明

    Python自動化測試pytest中fixtureAPI簡單說明

    這篇文章主要為大家介紹了Python自動化測試pytest中fixtureAPI的簡單說明,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步
    2021-10-10
  • python中open函數的基本用法示例

    python中open函數的基本用法示例

    這篇文章主要給大家介紹了關于python中open函數的基本用法,文中通過示例代碼介紹的非常詳細,對大家學習或者使用python具有一定的參考學習價值,需要的朋友們下面來一起學習學習吧
    2019-09-09
  • 淺談Tensorflow2對GPU內存的分配策略

    淺談Tensorflow2對GPU內存的分配策略

    本文主要介紹了Tensorflow2對GPU內存的分配策略,文中通過示例代碼介紹的非常詳細,具有一定的參考價值,感興趣的小伙伴們可以參考一下
    2021-08-08
  • 簡單利用conda安裝tensorflow-gpu=2.2.0的過程及問題解決

    簡單利用conda安裝tensorflow-gpu=2.2.0的過程及問題解決

    這篇文章主要介紹了簡單利用conda安裝tensorflow-gpu=2.2.0,本文給大家詳細分享問題記錄及錯誤問題解決方案,需要的朋友可以參考下
    2023-01-01

最新評論