欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python使用dabl幾行代碼實現(xiàn)數(shù)據(jù)處理分析及ML自動化

 更新時間:2021年11月22日 10:48:06   作者:Python學習與數(shù)據(jù)挖掘  
這篇文章主要為大家分享一個名為?dabl?的開源?Python?工具包,它可以自動化機器學習模型開發(fā),包括數(shù)據(jù)預處理、特征可視化和分析、建模

數(shù)據(jù)科學模型開發(fā)涉及各種組件,包括數(shù)據(jù)收集、數(shù)據(jù)處理、探索性數(shù)據(jù)分析、建模和部署。在訓練機器學習或深度學習模型之前,必須清洗數(shù)據(jù)集并使其適合訓練。通常這些過程是重復的,且占用了大部時間。

為了克服這個問題,今天我分享一個名為 dabl 的開源 Python 工具包,它可以自動化機器學習模型開發(fā),包括數(shù)據(jù)預處理、特征可視化和分析、建模。歡迎收藏學習,喜歡點贊支持。

dabl

dabl 是一個數(shù)據(jù)分析基線庫,可以讓機器學習建模更容易,它包括各種特性,我們只需幾行 Python 代碼就可以處理、分析和建模。

安裝

pip install dabl

1、數(shù)據(jù)預處理

dabl 在幾行 Python 代碼中自動執(zhí)行數(shù)據(jù)預處理管道。dabl執(zhí)行的預處理步驟包括識別缺失值、刪除冗余特征以及理解特征的數(shù)據(jù)類型以進一步執(zhí)行特征工程。

dabl檢測到的特征類型列表包括:

continuous

categorical

date

Dirty_float

Low_card_int

free_string

Useless

dabl 使用一行 Python 代碼將所有數(shù)據(jù)集特征自動歸類為上述數(shù)據(jù)類型。

df_clean = dabl.clean(df, verbose=1)

原始 Titanic 數(shù)據(jù)集有12個特征,dabl 會自動將它們分類為上述數(shù)據(jù)類型,以便進行進一步的特征工程。dabl還提供了根據(jù)需求更改任何特性的數(shù)據(jù)類型的功能。

db_clean = dabl.clean(db, type_hints={"Cabin": "categorical"})

可以使用 detect_types() 函數(shù)查看為每個特征分配的數(shù)據(jù)類型。

2、探索性數(shù)據(jù)分析

EDA 是數(shù)據(jù)科學模型開發(fā)生命周期的重要組成部分。Seaborn、Matplotlib 等是執(zhí)行各種分析以更好地理解數(shù)據(jù)集的可視化庫。dabl 使 EDA 變得非常簡單且節(jié)省大量時間。

dabl.plot(df_clean, target_col="Survived")

dabl 中 plot()函數(shù)可以通過繪制各種圖來實現(xiàn)可視化,包括:

  • 目標分布的條形圖
  • 散點對圖
  • 線性判別分析

dabl 自動對數(shù)據(jù)集執(zhí)行 PCA,并顯示數(shù)據(jù)集中所有特征的判別 PCA 圖。

3、建模

dabl 在訓練數(shù)據(jù)上訓練各種基線機器學習算法來加速建模工作流程,并返回性能最佳的模型。dabl 做出簡單的假設并為基線模型生成指標。

可以使用 dabl 中 SimpleClassifier() 函數(shù)進行建模,它很快就可以返回最佳模型。

結論

Dabl 是一個方便的工具,它使機器學習更易于容易和快速,你只需幾行 Python 代碼就可以完成數(shù)據(jù)清理、特征可視化和基線模型的開發(fā)。

如果你想了解更多,可以查看GitHub:? https://github.com/amueller/dabl

以上就是python使用dabl幾行代碼實現(xiàn)數(shù)據(jù)處理分析及ML自動化的詳細內容,更多關于dabl數(shù)據(jù)處理分析及ML自動化的資料請關注腳本之家其它相關文章!

相關文章

最新評論