欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python  dataprep庫簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作

 更新時(shí)間:2024年01月30日 11:32:57   作者:程序員小寒  
這篇文章主要為大家介紹了python  dataprep庫簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

python  dataprep數(shù)據(jù)科學(xué)庫

今天給大家分享一個(gè)超酷的 python 庫,dataprep。

https://github.com/sfu-db/dataprept 

Dataprep 是一個(gè)開源的 Python 庫,它的主要目標(biāo)是簡(jiǎn)化和加快數(shù)據(jù)科學(xué)操作,特別關(guān)注簡(jiǎn)化探索性數(shù)據(jù)分析(EDA) 階段。

通過利用 DataPrep 的強(qiáng)大功能,數(shù)據(jù)科學(xué)家可以顯著減少執(zhí)行 EDA 任務(wù)所花費(fèi)的時(shí)間。

該庫包含三個(gè)主要的API供我們使用,它們是:

  • 從常見數(shù)據(jù)源收集數(shù)據(jù)(dataprep.connector )
  • 進(jìn)行探索性數(shù)據(jù)分析(dataprep.eda)
  • 清理和標(biāo)準(zhǔn)化數(shù)據(jù)(dataprep.clean)

DataPrep 包旨在實(shí)現(xiàn)快速數(shù)據(jù)探索,并與 Pandas 的 DataFrame 對(duì)象良好配合。

庫的安裝

我們將首先使用 pip 安裝 Dataprep 庫。下面給出的命令將執(zhí)行此操作。

pip install -U dataprep

數(shù)據(jù)準(zhǔn)備

DataPrep 使我們能夠使用一行代碼創(chuàng)建交互式配置文件報(bào)告。

該報(bào)告對(duì)象是一個(gè)與我們的 Notebook 分離的 HTML 對(duì)象,具有多種探索選擇。

讓我們使用示例數(shù)據(jù)嘗試該 API。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

我們將使用泰坦尼克號(hào)樣本數(shù)據(jù)集作為我們的數(shù)據(jù)。

加載數(shù)據(jù)后,我們將使用 create_report 函數(shù)來生成交互式報(bào)告。

create_report(df).show_browser()

正如我們?cè)谏厦娴?GIF 中看到的,API 創(chuàng)建了一個(gè)很好的交互式報(bào)告供我們探索。

讓我們嘗試一一剖析這些信息。

概述選項(xiàng)卡

從概述選項(xiàng)卡中,我們可以看到數(shù)據(jù)集中的所有概述信息。

我們可以獲得的信息包括缺失數(shù)據(jù)數(shù)量和百分比、重復(fù)數(shù)據(jù)、變量數(shù)據(jù)類型以及每個(gè)變量的詳細(xì)信息。

變量選項(xiàng)卡

變量選項(xiàng)卡為我們提供了數(shù)據(jù)集中每個(gè)變量的詳細(xì)信息。

幾乎你需要的所有信息都可用,例如,分位數(shù)和描述性統(tǒng)計(jì)、分布和正態(tài)性

交互選項(xiàng)卡

交互選項(xiàng)卡將從兩個(gè)數(shù)值變量創(chuàng)建散點(diǎn)圖。

我們可以自己設(shè)置 X 軸和 Y 軸,這使我們能夠控制如何可視化它。

相關(guān)性選項(xiàng)卡

相關(guān)性選項(xiàng)卡為我們提供了數(shù)值之間的統(tǒng)計(jì)相關(guān)性。

目前,我們可以使用三種計(jì)算:Pearson、Spearman 和 KendallTau。

缺失值選項(xiàng)卡

缺失值選項(xiàng)卡為我們提供了有關(guān)選項(xiàng)卡中缺失值的所有詳細(xì)信息。

我們可以選擇條形圖、頻譜、熱圖和樹狀圖來充分探索缺失值信息。

數(shù)據(jù)清理

DataPrep Cleaning API 集合提供了 140 多個(gè) API 來清理和驗(yàn)證我們的 DataFrame。

讓我們通過泰坦尼克號(hào)數(shù)據(jù)集示例嘗試列標(biāo)題清理功能。

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

使用 “ Const ” 大小寫,我們最終會(huì)得到所有大寫的列名稱。

如果你想要一個(gè)完整干凈的 DataFrame,我們可以使用 DataPrep 中的 clean_df API 。

該 API 將有兩個(gè)輸出—推斷的數(shù)據(jù)類型和清理后的 DataFrame。

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

以上就是python dataprep庫簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作的詳細(xì)內(nèi)容,更多關(guān)于python dataprep數(shù)據(jù)科學(xué)庫的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!

相關(guān)文章

最新評(píng)論