欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python常用數(shù)據(jù)重復項處理方法

 更新時間:2019年11月22日 14:54:48   作者:另一個起點  
在本篇文章里小編給大家整理的是關于python常用數(shù)據(jù)重復項處理方法,需要的朋友們參考下。

在數(shù)據(jù)的處理過程中,一般都需要進行數(shù)據(jù)清洗工作,如數(shù)據(jù)集是否存在重復,是否存在缺失,數(shù)據(jù)是否具有完整性和一致性,數(shù)據(jù)中是否存在異常值等.發(fā)現(xiàn)諸如此類的問題都需要針對性地處理,下面我們一起學習常用的數(shù)據(jù)清洗方法.

重復觀測處理

重復觀測:指觀測行存在重復的現(xiàn)象,重復觀測的存在會影響數(shù)據(jù)分析和挖掘結果的準確性,所以在數(shù)據(jù)分析和建模之前需要進行觀測的重復性檢驗,如果存在重復觀測,

還需要進行重復項的刪除

在數(shù)據(jù)的收集過程中,可能會存在重復觀測的出現(xiàn),例如通過網(wǎng)絡爬蟲,就比較容易產(chǎn)生重復數(shù)據(jù).如下表,是通過爬蟲獲得某APP市場中電商類APP的下載量數(shù)據(jù)(部分)

通過觀測可以看出唯品會和當當出現(xiàn)了三次.如果收集上來的不是10行,而是10萬行,甚至更多是,就無法通過肉眼的方式檢測數(shù)據(jù)是否存在重復項了.

下面我們看用python怎么來處理重復項的檢查,以及如何刪除數(shù)據(jù)項中的重復項

代碼:

import pandas as pd
df = pd.read_excel(r'D:\data_test04.xlsx')
print('數(shù)據(jù)集是否存在重復觀測: \n',any(df.duplicated()))

out:

數(shù)據(jù)集是否存在重復觀測:

True

代碼就是簡單的兩行就處理好了

可以看出檢測數(shù)據(jù)集的記錄是否存在重復,使用duplicated (英文單詞的意思就是重復,復制的意思)方法,但是該方法返回的是數(shù)據(jù)集每一行的檢驗結果,為了能夠得到最直接的結果,可以使用any函數(shù),該函數(shù)表示的是在多個條件判斷中,只有一個條件為True,則any函數(shù)的結果就為True.正如結果所示,any函數(shù)的運用返回True值,說明

該數(shù)據(jù)集是存在重復觀測的.

刪除數(shù)據(jù)集中的重復觀測:

df.drop_duplicates(inplace = True)
df

得出的結果如上圖所示,原先的10行在派出重復項后得到7行,被刪除的行號為:3,8和9.該方法中又有inplace參數(shù),設置為True就表示直接在原始數(shù)據(jù)集上做操作

以上就是本次介紹的全部知識點,感謝大家對腳本之家的支持。

相關文章

  • Pandas將列表(List)轉換為數(shù)據(jù)框(Dataframe)

    Pandas將列表(List)轉換為數(shù)據(jù)框(Dataframe)

    這篇文章主要介紹了Pandas將列表(List)轉換為數(shù)據(jù)框(Dataframe),文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友們下面隨著小編來一起學習學習吧
    2020-04-04
  • tensorflow自定義激活函數(shù)實例

    tensorflow自定義激活函數(shù)實例

    今天小編就為大家分享一篇tensorflow自定義激活函數(shù)實例,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-02-02
  • python入門:argparse淺析 nargs=''+''作用

    python入門:argparse淺析 nargs=''+''作用

    這篇文章主要介紹了python入門:argparse淺析 nargs='+'作用,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2020-07-07
  • Python openpyxl模塊實現(xiàn)excel讀寫操作

    Python openpyxl模塊實現(xiàn)excel讀寫操作

    這篇文章主要介紹了Python openpyxl模塊實現(xiàn)excel讀寫操作,文中通過示例代碼介紹的非常詳細,對大家的學習或者工作具有一定的參考學習價值,需要的朋友可以參考下
    2020-06-06
  • Python使用ctypes調(diào)用C/C++的方法

    Python使用ctypes調(diào)用C/C++的方法

    今天小編就為大家分享一篇關于Python使用ctypes調(diào)用C/C++的方法,小編覺得內(nèi)容挺不錯的,現(xiàn)在分享給大家,具有很好的參考價值,需要的朋友一起跟隨小編來看看吧
    2019-01-01
  • 公認8個效率最高的爬蟲框架

    公認8個效率最高的爬蟲框架

    在本篇文章里小編給大家整理的是關于2020年8個效率最高的爬蟲框架知識點,需要的朋友們可以學習下。
    2020-07-07
  • python實現(xiàn)的自動發(fā)送消息功能詳解

    python實現(xiàn)的自動發(fā)送消息功能詳解

    這篇文章主要介紹了python實現(xiàn)的自動發(fā)送消息功能,涉及Python基于requests、itchat庫的數(shù)據(jù)請求與信息處理相關操作技巧,需要的朋友可以參考下
    2019-08-08
  • Python隊列的定義與使用方法示例

    Python隊列的定義與使用方法示例

    這篇文章主要介紹了Python隊列的定義與使用方法,結合具體實例形式分析了Python定義及使用隊列的具體操作技巧與注意事項,需要的朋友可以參考下
    2017-06-06
  • python?lazypredict構建大量基本模型簡化機器學習

    python?lazypredict構建大量基本模型簡化機器學習

    這篇文章主要介紹了python?lazypredict構建大量基本模型簡化機器學習,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進步,早日升職加薪
    2024-01-01
  • docker django無法訪問redis容器的解決方法

    docker django無法訪問redis容器的解決方法

    今天小編就為大家分享一篇docker django無法訪問redis容器的解決方法,具有很好的參考價值,希望對大家有所幫助。一起跟隨小編過來看看吧
    2019-08-08

最新評論