快捷導(dǎo)航

python dataprep庫(kù)簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作

更新時(shí)間：2024年01月30日 11:32:57 作者：程序員小寒

這篇文章主要為大家介紹了python dataprep庫(kù)簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

python dataprep數(shù)據(jù)科學(xué)庫(kù)

今天給大家分享一個(gè)超酷的 python 庫(kù)，dataprep。

Dataprep 是一個(gè)開源的 Python 庫(kù)，它的主要目標(biāo)是簡(jiǎn)化和加快數(shù)據(jù)科學(xué)操作，特別關(guān)注簡(jiǎn)化探索性數(shù)據(jù)分析（EDA）階段。

通過(guò)利用 DataPrep 的強(qiáng)大功能，數(shù)據(jù)科學(xué)家可以顯著減少執(zhí)行 EDA 任務(wù)所花費(fèi)的時(shí)間。

該庫(kù)包含三個(gè)主要的API供我們使用，它們是：

從常見數(shù)據(jù)源收集數(shù)據(jù)（dataprep.connector ）
進(jìn)行探索性數(shù)據(jù)分析（dataprep.eda）
清理和標(biāo)準(zhǔn)化數(shù)據(jù)（dataprep.clean）

DataPrep 包旨在實(shí)現(xiàn)快速數(shù)據(jù)探索，并與 Pandas 的 DataFrame 對(duì)象良好配合。

庫(kù)的安裝

我們將首先使用 pip 安裝 Dataprep 庫(kù)。下面給出的命令將執(zhí)行此操作。

pip install -U dataprep

數(shù)據(jù)準(zhǔn)備

DataPrep 使我們能夠使用一行代碼創(chuàng)建交互式配置文件報(bào)告。

該報(bào)告對(duì)象是一個(gè)與我們的 Notebook 分離的 HTML 對(duì)象，具有多種探索選擇。

讓我們使用示例數(shù)據(jù)嘗試該 API。

from dataprep.datasets import load_dataset
from dataprep.eda import create_report
df = load_dataset("titanic")
df.head()

我們將使用泰坦尼克號(hào)樣本數(shù)據(jù)集作為我們的數(shù)據(jù)。

加載數(shù)據(jù)后，我們將使用 create_report 函數(shù)來(lái)生成交互式報(bào)告。

create_report(df).show_browser()

正如我們?cè)谏厦娴?GIF 中看到的，API 創(chuàng)建了一個(gè)很好的交互式報(bào)告供我們探索。

讓我們嘗試一一剖析這些信息。

概述選項(xiàng)卡

從概述選項(xiàng)卡中，我們可以看到數(shù)據(jù)集中的所有概述信息。

我們可以獲得的信息包括缺失數(shù)據(jù)數(shù)量和百分比、重復(fù)數(shù)據(jù)、變量數(shù)據(jù)類型以及每個(gè)變量的詳細(xì)信息。

變量選項(xiàng)卡

變量選項(xiàng)卡為我們提供了數(shù)據(jù)集中每個(gè)變量的詳細(xì)信息。

幾乎你需要的所有信息都可用，例如，分位數(shù)和描述性統(tǒng)計(jì)、分布和正態(tài)性。

交互選項(xiàng)卡

交互選項(xiàng)卡將從兩個(gè)數(shù)值變量創(chuàng)建散點(diǎn)圖。

我們可以自己設(shè)置 X 軸和 Y 軸，這使我們能夠控制如何可視化它。

缺失值選項(xiàng)卡

缺失值選項(xiàng)卡為我們提供了有關(guān)選項(xiàng)卡中缺失值的所有詳細(xì)信息。

我們可以選擇條形圖、頻譜、熱圖和樹狀圖來(lái)充分探索缺失值信息。

數(shù)據(jù)清理

DataPrep Cleaning API 集合提供了 140 多個(gè) API 來(lái)清理和驗(yàn)證我們的 DataFrame。

讓我們通過(guò)泰坦尼克號(hào)數(shù)據(jù)集示例嘗試列標(biāo)題清理功能。

from dataprep.clean import clean_headers
clean_headers(df, case = 'const').head()

使用 “ Const ” 大小寫，我們最終會(huì)得到所有大寫的列名稱。

如果你想要一個(gè)完整干凈的 DataFrame，我們可以使用 DataPrep 中的 clean_df API 。

該 API 將有兩個(gè)輸出—推斷的數(shù)據(jù)類型和清理后的 DataFrame。

from dataprep.clean import clean_df
inferred_dtypes, cleaned_df = clean_df(df)

以上就是python dataprep庫(kù)簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作的詳細(xì)內(nèi)容，更多關(guān)于python dataprep數(shù)據(jù)科學(xué)庫(kù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章: