python一行代碼就能實(shí)現(xiàn)數(shù)據(jù)分析的pandas-profiling庫(kù)
python pandas-profiling庫(kù)
今天,我們將討論 Python 中的一個(gè)神奇的庫(kù) pandas-profiling 。
在沒(méi)有發(fā)現(xiàn)這個(gè)庫(kù)之前,我很難相信可以使用一行代碼來(lái)進(jìn)行探索性數(shù)據(jù)分析(EDA)。
這個(gè) pandas-profiling 庫(kù)為你提供了一種生成給定數(shù)據(jù)幀的分析報(bào)告的方法。
生成的報(bào)告還可以保存為單獨(dú)的 HTML 和 JSON 文件。
它提供了使用 pandas 加載到數(shù)據(jù)框中的任何數(shù)據(jù)集的描述性分析。這確實(shí)可以讓你免于編寫(xiě)大量代碼。
在一分鐘之內(nèi),你就可以獲得整個(gè)數(shù)據(jù)集的分析報(bào)告。
下面,我們一起來(lái)看看它神奇的效果吧。
安裝庫(kù)
首先我們需要使用 pip 進(jìn)行安裝。
pip install pandas pip install pandas-profiling
加載數(shù)據(jù)集
在進(jìn)行分析之前,我們需要準(zhǔn)備一個(gè)數(shù)據(jù)集。
在這里,我們將使用房?jī)r(jià)數(shù)據(jù)集。
數(shù)據(jù)集獲取地址:
https://www.kaggle.com/competitions/house-prices-advanced-regression-techniques
在此數(shù)據(jù)集中,總共給出了 81 個(gè)特征,包括目標(biāo)特征 SalePrice。
任務(wù)是使用 80 個(gè)特征確定 SalePrice。
import pandas as pd df = pd.read_csv("train.csv") df.describe()
雖然 df.describe() 方法給出了特征的描述性分析,但它不如 pandas-profiling 的 ProfileReport 那么方便直觀。
現(xiàn)在我們將運(yùn)行 pandas_profiling.ProfileReport(df) 。
from pandas_profiling import ProfileReport reportGenerated = ProfileReport(df) reportGenerated
你還可以使用以下命令將此報(bào)告保存為 HTML 或 JSON 格式。
reportGenerate.to_file("Analysis.html") reportGenerate.to_file("Analysis.json")
然后在本地瀏覽器直接打開(kāi)對(duì)應(yīng)的 Analysis.html 文件。
下面是生成的報(bào)告的 GIF 圖像。
在此文件的中,給出了變量計(jì)數(shù)、觀察數(shù)、重復(fù)行和缺失值的詳細(xì)信息。
之后,對(duì)于數(shù)據(jù)集中存在的每個(gè)特征,進(jìn)行描述性的分析,例如有多少個(gè)不同的值,有多少個(gè)缺失值,它們對(duì)數(shù)據(jù)集中總?cè)笔е档呢暙I(xiàn)有多大,分位數(shù)統(tǒng)計(jì)(例如最小值), Q1、中位數(shù)、Q3、最大值、四分位距以及均值、眾數(shù)、標(biāo)準(zhǔn)差等描述性統(tǒng)計(jì)數(shù)據(jù)。
你還可以點(diǎn)擊 “切換詳細(xì)信息” 按鈕查看更多詳細(xì)信息。
它確實(shí)是一個(gè)非常方便的工具,可以對(duì)任何數(shù)據(jù)集進(jìn)行描述性分析。
你可以在 github 上閱讀有關(guān) pandas-profiling 項(xiàng)目的更多信息。
https://github.com/ydataai/ydata-profiling
以上就是python一行代碼就能實(shí)現(xiàn)數(shù)據(jù)分析的pandas-profiling庫(kù)的詳細(xì)內(nèi)容,更多關(guān)于python pandas-profiling庫(kù)的資料請(qǐng)關(guān)注腳本之家其它相關(guān)文章!
- python?spotlight庫(kù)簡(jiǎn)化交互式方法探索數(shù)據(jù)分析
- python Bamboolib庫(kù)加速Pandas數(shù)據(jù)分析過(guò)程詳解
- Python數(shù)據(jù)分析庫(kù)PyGWalker的強(qiáng)大交互式功能界面探索
- 精選39道Python數(shù)據(jù)分析面試題提早備戰(zhàn)金三銀四
- Python數(shù)據(jù)分析從入門(mén)到進(jìn)階之分類(lèi)算法全面教程
- 科學(xué)計(jì)算與數(shù)據(jù)分析利器Python數(shù)據(jù)分析庫(kù)Scipy使用詳解
- Python數(shù)據(jù)分析numpy文本數(shù)據(jù)讀取索引切片實(shí)例詳解
- python?dowhy數(shù)據(jù)估計(jì)因果分析功能探索
相關(guān)文章
jupyter note 實(shí)現(xiàn)將數(shù)據(jù)保存為word
這篇文章主要介紹了jupyter note 實(shí)現(xiàn)將數(shù)據(jù)保存為word,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2020-04-04Python爬蟲(chóng)實(shí)現(xiàn)百度翻譯功能過(guò)程詳解
這篇文章主要介紹了Python爬蟲(chóng)實(shí)現(xiàn)百度翻譯功能過(guò)程詳解,文中通過(guò)示例代碼介紹的非常詳細(xì),對(duì)大家的學(xué)習(xí)或者工作具有一定的參考學(xué)習(xí)價(jià)值,需要的朋友可以參考下2020-05-05Pandas DataFrame分組求和、分組乘積的實(shí)例
這篇文章主要介紹了Pandas DataFrame分組求和、分組乘積的實(shí)例,具有很好的參考價(jià)值,希望對(duì)大家有所幫助,如有錯(cuò)誤或未考慮完全的地方,望不吝賜教2024-02-0250行Python代碼實(shí)現(xiàn)視頻中物體顏色識(shí)別和跟蹤(必須以紅色為例)
本文通過(guò)50行Python代碼實(shí)現(xiàn)視頻中物體顏色識(shí)別和跟蹤效果,通過(guò)實(shí)例截圖和實(shí)例代碼給大家講解的非常詳細(xì),需要的朋友可以參考下2019-11-11使用Python實(shí)現(xiàn)從各個(gè)子文件夾中復(fù)制指定文件的方法
今天小編就為大家分享一篇使用Python實(shí)現(xiàn)從各個(gè)子文件夾中復(fù)制指定文件的方法,具有很好的參考價(jià)值,希望對(duì)大家有所幫助。一起跟隨小編過(guò)來(lái)看看吧2018-10-10