python dataprep庫簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作
python dataprep數(shù)據(jù)科學(xué)庫
今天給大家分享一個(gè)超酷的 python 庫,dataprep。
https://github.com/sfu-db/dataprept
Dataprep 是一個(gè)開源的 Python 庫,它的主要目標(biāo)是簡(jiǎn)化和加快數(shù)據(jù)科學(xué)操作,特別關(guān)注簡(jiǎn)化探索性數(shù)據(jù)分析(EDA) 階段。
通過利用 DataPrep 的強(qiáng)大功能,數(shù)據(jù)科學(xué)家可以顯著減少執(zhí)行 EDA 任務(wù)所花費(fèi)的時(shí)間。
該庫包含三個(gè)主要的API供我們使用,它們是:
- 從常見數(shù)據(jù)源收集數(shù)據(jù)(dataprep.connector )
- 進(jìn)行探索性數(shù)據(jù)分析(dataprep.eda)
- 清理和標(biāo)準(zhǔn)化數(shù)據(jù)(dataprep.clean)
DataPrep 包旨在實(shí)現(xiàn)快速數(shù)據(jù)探索,并與 Pandas 的 DataFrame 對(duì)象良好配合。
庫的安裝
我們將首先使用 pip 安裝 Dataprep 庫。下面給出的命令將執(zhí)行此操作。
pip install -U dataprep
數(shù)據(jù)準(zhǔn)備
DataPrep 使我們能夠使用一行代碼創(chuàng)建交互式配置文件報(bào)告。
該報(bào)告對(duì)象是一個(gè)與我們的 Notebook 分離的 HTML 對(duì)象,具有多種探索選擇。
讓我們使用示例數(shù)據(jù)嘗試該 API。
from dataprep.datasets import load_dataset from dataprep.eda import create_report df = load_dataset("titanic") df.head()
我們將使用泰坦尼克號(hào)樣本數(shù)據(jù)集作為我們的數(shù)據(jù)。
加載數(shù)據(jù)后,我們將使用 create_report
函數(shù)來生成交互式報(bào)告。
create_report(df).show_browser()
正如我們?cè)谏厦娴?GIF 中看到的,API 創(chuàng)建了一個(gè)很好的交互式報(bào)告供我們探索。
讓我們嘗試一一剖析這些信息。
概述選項(xiàng)卡
從概述選項(xiàng)卡中,我們可以看到數(shù)據(jù)集中的所有概述信息。
我們可以獲得的信息包括缺失數(shù)據(jù)數(shù)量和百分比、重復(fù)數(shù)據(jù)、變量數(shù)據(jù)類型以及每個(gè)變量的詳細(xì)信息。
變量選項(xiàng)卡
變量選項(xiàng)卡為我們提供了數(shù)據(jù)集中每個(gè)變量的詳細(xì)信息。
幾乎你需要的所有信息都可用,例如,分位數(shù)和描述性統(tǒng)計(jì)、分布和正態(tài)性。
交互選項(xiàng)卡
交互選項(xiàng)卡將從兩個(gè)數(shù)值變量創(chuàng)建散點(diǎn)圖。
我們可以自己設(shè)置 X 軸和 Y 軸,這使我們能夠控制如何可視化它。
相關(guān)性選項(xiàng)卡
相關(guān)性選項(xiàng)卡為我們提供了數(shù)值之間的統(tǒng)計(jì)相關(guān)性。
目前,我們可以使用三種計(jì)算:Pearson、Spearman 和 KendallTau。
缺失值選項(xiàng)卡
缺失值選項(xiàng)卡為我們提供了有關(guān)選項(xiàng)卡中缺失值的所有詳細(xì)信息。
我們可以選擇條形圖、頻譜、熱圖和樹狀圖來充分探索缺失值信息。
數(shù)據(jù)清理
DataPrep Cleaning API 集合提供了 140 多個(gè) API 來清理和驗(yàn)證我們的 DataFrame。
讓我們通過泰坦尼克號(hào)數(shù)據(jù)集示例嘗試列標(biāo)題清理功能。
from dataprep.clean import clean_headers clean_headers(df, case = 'const').head()
使用 “ Const ” 大小寫,我們最終會(huì)得到所有大寫的列名稱。
如果你想要一個(gè)完整干凈的 DataFrame,我們可以使用 DataPrep 中的 clean_df API 。
該 API 將有兩個(gè)輸出—推斷的數(shù)據(jù)類型和清理后的 DataFrame。
from dataprep.clean import clean_df inferred_dtypes, cleaned_df = clean_df(df)
以上就是python dataprep庫簡(jiǎn)化加速數(shù)據(jù)科學(xué)操作的詳細(xì)內(nèi)容,更多關(guān)于python dataprep數(shù)據(jù)科學(xué)庫的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
相關(guān)文章
Python腳本實(shí)現(xiàn)隨機(jī)數(shù)據(jù)生成自由詳解
這篇文章主要為大家詳細(xì)介紹了Python如何通過腳本實(shí)現(xiàn)隨機(jī)數(shù)據(jù)生成自由,文中的示例代碼講解詳細(xì),感興趣的小伙伴快跟隨小編一起學(xué)習(xí)一下吧2023-12-12關(guān)于Python文本生成的Beam?Search解碼問題
這篇文章主要介紹了Python文本生成的Beam?Search解碼,本文給大家介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值,需要的朋友可以參考下2022-07-07PyQt5+QtChart實(shí)現(xiàn)繪制區(qū)域圖
QChart是一個(gè)QGraphicScene中可以顯示的QGraphicsWidget。本文將利用QtChart實(shí)現(xiàn)區(qū)域圖的繪制,文中的示例代碼講解詳細(xì),感興趣的小伙伴可以了解一下2022-12-12關(guān)于Python中對(duì)變量賦值過程的理解
在Python中對(duì)變量賦值過程的理解,有助于學(xué)習(xí)者對(duì)Python的變量和所指向的對(duì)象之間的指向關(guān)系深刻理解,避免編程中多個(gè)變量賦值后,對(duì)變量結(jié)果的不確定,,需要的朋友可以參考下2023-05-05python GUI庫圖形界面開發(fā)之PyQt5中QWebEngineView內(nèi)嵌網(wǎng)頁與Python的數(shù)據(jù)交互傳參詳細(xì)方法
這篇文章主要介紹了python GUI庫圖形界面開發(fā)之PyQt中QWebEngineView內(nèi)嵌網(wǎng)頁與Python的數(shù)據(jù)交互詳細(xì)方法實(shí)例,需要的朋友可以參考下2020-02-02