python dataprep庫(kù)簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作
python dataprep數(shù)據(jù)科學(xué)庫(kù)
今天給大家分享一個(gè)超酷的 python 庫(kù),dataprep。
https://github.com/sfu-db/dataprept
Dataprep 是一個(gè)開(kāi)源的 Python 庫(kù),它的主要目標(biāo)是簡(jiǎn)化和加快數(shù)據(jù)科學(xué)操作,特別關(guān)注簡(jiǎn)化探索性數(shù)據(jù)分析(EDA) 階段。
通過(guò)利用 DataPrep 的強(qiáng)大功能,數(shù)據(jù)科學(xué)家可以顯著減少執(zhí)行 EDA 任務(wù)所花費(fèi)的時(shí)間。
該庫(kù)包含三個(gè)主要的API供我們使用,它們是:
- 從常見(jiàn)數(shù)據(jù)源收集數(shù)據(jù)(dataprep.connector )
- 進(jìn)行探索性數(shù)據(jù)分析(dataprep.eda)
- 清理和標(biāo)準(zhǔn)化數(shù)據(jù)(dataprep.clean)
DataPrep 包旨在實(shí)現(xiàn)快速數(shù)據(jù)探索,并與 Pandas 的 DataFrame 對(duì)象良好配合。
庫(kù)的安裝
我們將首先使用 pip 安裝 Dataprep 庫(kù)。下面給出的命令將執(zhí)行此操作。
pip install -U dataprep
數(shù)據(jù)準(zhǔn)備
DataPrep 使我們能夠使用一行代碼創(chuàng)建交互式配置文件報(bào)告。
該報(bào)告對(duì)象是一個(gè)與我們的 Notebook 分離的 HTML 對(duì)象,具有多種探索選擇。
讓我們使用示例數(shù)據(jù)嘗試該 API。
from dataprep.datasets import load_dataset from dataprep.eda import create_report df = load_dataset("titanic") df.head()
我們將使用泰坦尼克號(hào)樣本數(shù)據(jù)集作為我們的數(shù)據(jù)。
加載數(shù)據(jù)后,我們將使用 create_report
函數(shù)來(lái)生成交互式報(bào)告。
create_report(df).show_browser()
正如我們?cè)谏厦娴?GIF 中看到的,API 創(chuàng)建了一個(gè)很好的交互式報(bào)告供我們探索。
讓我們嘗試一一剖析這些信息。
概述選項(xiàng)卡
從概述選項(xiàng)卡中,我們可以看到數(shù)據(jù)集中的所有概述信息。
我們可以獲得的信息包括缺失數(shù)據(jù)數(shù)量和百分比、重復(fù)數(shù)據(jù)、變量數(shù)據(jù)類型以及每個(gè)變量的詳細(xì)信息。
變量選項(xiàng)卡
變量選項(xiàng)卡為我們提供了數(shù)據(jù)集中每個(gè)變量的詳細(xì)信息。
幾乎你需要的所有信息都可用,例如,分位數(shù)和描述性統(tǒng)計(jì)、分布和正態(tài)性。
交互選項(xiàng)卡
交互選項(xiàng)卡將從兩個(gè)數(shù)值變量創(chuàng)建散點(diǎn)圖。
我們可以自己設(shè)置 X 軸和 Y 軸,這使我們能夠控制如何可視化它。
相關(guān)性選項(xiàng)卡
相關(guān)性選項(xiàng)卡為我們提供了數(shù)值之間的統(tǒng)計(jì)相關(guān)性。
目前,我們可以使用三種計(jì)算:Pearson、Spearman 和 KendallTau。
缺失值選項(xiàng)卡
缺失值選項(xiàng)卡為我們提供了有關(guān)選項(xiàng)卡中缺失值的所有詳細(xì)信息。
我們可以選擇條形圖、頻譜、熱圖和樹(shù)狀圖來(lái)充分探索缺失值信息。
數(shù)據(jù)清理
DataPrep Cleaning API 集合提供了 140 多個(gè) API 來(lái)清理和驗(yàn)證我們的 DataFrame。
讓我們通過(guò)泰坦尼克號(hào)數(shù)據(jù)集示例嘗試列標(biāo)題清理功能。
from dataprep.clean import clean_headers clean_headers(df, case = 'const').head()
使用 “ Const ” 大小寫,我們最終會(huì)得到所有大寫的列名稱。
如果你想要一個(gè)完整干凈的 DataFrame,我們可以使用 DataPrep 中的 clean_df API 。
該 API 將有兩個(gè)輸出—推斷的數(shù)據(jù)類型和清理后的 DataFrame。
from dataprep.clean import clean_df inferred_dtypes, cleaned_df = clean_df(df)
以上就是python dataprep庫(kù)簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作的詳細(xì)內(nèi)容,更多關(guān)于python dataprep數(shù)據(jù)科學(xué)庫(kù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python腳本實(shí)現(xiàn)隨機(jī)數(shù)據(jù)生成自由詳解
這篇文章主要為大家詳細(xì)介紹了Python如何通過(guò)腳本實(shí)現(xiàn)隨機(jī)數(shù)據(jù)生成自由,文中的示例代碼講解詳細(xì),感興趣的小伙伴快跟隨小編一起學(xué)習(xí)一下吧2023-12-12關(guān)于Python文本生成的Beam?Search解碼問(wèn)題
這篇文章主要介紹了Python文本生成的Beam?Search解碼,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-07-07PyQt5+QtChart實(shí)現(xiàn)繪制區(qū)域圖
QChart是一個(gè)QGraphicScene中可以顯示的QGraphicsWidget。本文將利用QtChart實(shí)現(xiàn)區(qū)域圖的繪制,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-12-12解決Python字典查找報(bào)Keyerror的問(wèn)題
這篇文章主要介紹了解決Python字典查找報(bào)Keyerror的問(wèn)題,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2021-05-05關(guān)于Python中對(duì)變量賦值過(guò)程的理解
在Python中對(duì)變量賦值過(guò)程的理解,有助于學(xué)習(xí)者對(duì)Python的變量和所指向的對(duì)象之間的指向關(guān)系深刻理解,避免編程中多個(gè)變量賦值后,對(duì)變量結(jié)果的不確定,,需要的朋友可以參考下2023-05-05