腳本之家服務(wù)器常用軟件

快捷導(dǎo)航

python polars數(shù)據(jù)科學(xué)庫對比Pandas優(yōu)勢分析

更新時間：2024年01月30日 09:25:02 作者：程序員小寒

這篇文章主要為大家介紹了python polars數(shù)據(jù)科學(xué)庫對比Pandas優(yōu)勢分析,有需要的朋友可以借鑒參考下,希望能夠有所幫助,祝大家多多進(jìn)步,早日升職加薪

python polars數(shù)據(jù)科學(xué)庫

今天給大家分享一個神奇的 python 庫，polars。

https://github.com/pola-rs/polars

大家都知道，Pandas 是數(shù)據(jù)科學(xué)中重要的 Python 庫。但它最大的缺點是對大型數(shù)據(jù)集的操作可能很慢。

Polars 是一個開源且相對較新的數(shù)據(jù)分析和處理庫，為廣泛流行的 Pandas 庫提供了替代方案。

為什么它比 Pandas 快

根據(jù) Polars 用戶指南，其目標(biāo)是 “利用機(jī)器上的所有可用內(nèi)核，以提供一個閃電般快速的 DataFrame 庫。”

與 Polars 相比，Pandas 本身并不跨計算機(jī)核心并行處理。而 Polars 是為并行化而設(shè)計的。

Polars 有兩種不同的 API：急切 API 和惰性 API。

急切執(zhí)行類似于 Pandas。這意味著直接運行代碼，并立即返回結(jié)果。

延遲執(zhí)行是在你需要結(jié)果之前不會運行。因此它避免了運行不必要的代碼，所以延遲執(zhí)行比急切執(zhí)行更有效。

對于延遲執(zhí)行，你必須使用 .lazy() 方法開始操作。然后你就可以為你想做的任何事情編寫代碼。

最后，你需要運行 .collect() 方法來顯示結(jié)果。

如下所示

df.lazy() 
  .with_columns([(pl.col("col") * 10).alias("new_col")]) 
  #... 
  .collect()

如果不運行 .collect() 方法，該操作不會立即執(zhí)行。

安裝庫

可以直接使用 pip 進(jìn)行安裝。

pip install polars

之后，你可以像導(dǎo)入 Pandas 一樣導(dǎo)入 Polars 。

import polars as pl
import pandas as pd

Pandas and Polars 比較

乍一看，Pandas 和 Polars（急切 API）在語法上很相似，因為它們共享主要構(gòu)建塊：Series 和 DataFrame。

此外，Polars 中的許多表達(dá)式與 Pandas 表達(dá)式類似。

# Example expressions that work both with Pandas and Polars
df.head() # Get the first n rows
df.tail() # Get the last n rows
df.unique() # Get unique values of this expression.

下面，我們來一起探討一下 Polars 與 Pandas 在語法和執(zhí)行時間方面的主要區(qū)別。主要從以下幾個操作來進(jìn)行比較。

讀取數(shù)據(jù)
選擇和過濾數(shù)據(jù)
創(chuàng)建新列
分組和聚合

讀取數(shù)據(jù)

在 Polars 中讀取 CSV 文件會感覺很熟悉，因為你可以像在 Pandas 中一樣使用 .read_csv() 方法：

# Pandas
df_pd=pd.read_csv('example.csv')

# Polars
df_pl.read_csv('example.csv')

分別使用 Pandas 和 Polars 讀取示例數(shù)據(jù)集的執(zhí)行時間如下所示：

對于我們的示例數(shù)據(jù)集，使用 Pandas 讀取數(shù)據(jù)所需的時間大約是使用 Polars 的八倍。

選擇和過濾數(shù)據(jù)

Pandas 和 Polars 之間的第一個主要區(qū)別是 Polars 不使用索引。

盡管相同的 Pandas 代碼可以在 Polars 上運行，但這不是最佳實踐。

在 Polars 中，你應(yīng)該使用 .select() 方法來選擇數(shù)據(jù)。

# Pandas
df_pd[['col1', 'col2']] 

# The above code will run with Polars as well, 
# but the correct way in Polars is:
df_pl.select(['col01', 'col02'])

在 Pandas 和 Polars 中選擇數(shù)據(jù)的執(zhí)行時間如下所示：

對于我們的示例數(shù)據(jù)集，使用 Pandas 選擇數(shù)據(jù)所需的時間大約是使用 Polars 的 15 倍。

雖然你可以在 Pandas 中使用 .query() 方法來過濾數(shù)據(jù)，但你需要在 Polars 中使用 .filter() 方法。

# Pandas
df_pd.query('col01 > 5')

# Polars
df_pl.filter(pl.col('col01') > 5)

在 Pandas 和 Polars 中過濾數(shù)據(jù)的執(zhí)行時間如下所示：

對于我們的示例數(shù)據(jù)集，在 Pandas 和 Polars 中過濾數(shù)據(jù)所需的時間相似。

與 Pandas 相比，Polars 可以并行運行 .select() 和 .filter() 中的操作。

創(chuàng)建新列

在 Polars 中創(chuàng)建新列的方法也與你在 Pandas 中的習(xí)慣不同。

在 Polars 中，你需要使用 .with_column() 或 .with_columns() 方法，具體取決于你要創(chuàng)建的列數(shù)。

# Pandas
df_pd["new_col"] = df_pd["col01"] * 10

# Polars
df_pl.with_column((pl.col("col01") * 10).alias("new_col"))

# Polars for multiple columns
# df_pl.with_columns([(pl.col("col01") * 10).alias("new_col"), ...])

在 Pandas 和 Polars 中創(chuàng)建新列的執(zhí)行時間如下所示：

對于我們的示例數(shù)據(jù)集，使用 Polars 創(chuàng)建新列所需的時間大約是使用 Pandas 的兩倍。

分組和聚合

Pandas 和 Polars 的分組和聚合在語法方面略有不同，但都使用 .groupby() 和 .agg() 方法。

# Pandas
df_pd.groupby('col01').col02.agg('mean')

# Polars
df_pl.groupby('col01').agg([pl.mean('col02')])

在 Pandas 和 Polars 中對數(shù)據(jù)進(jìn)行分組和聚合的最終執(zhí)行時間如下所示。

對于我們的示例數(shù)據(jù)集，使用 Pandas 聚合數(shù)據(jù)所需的時間大約是使用 Polars 的兩倍。

詳細(xì)源碼可以查看 https://www.kaggle.com/code/iamleonie/pandas-vs-polars

Polars 相對于 Pandas 的主要優(yōu)勢是速度。

如果你需要對大型數(shù)據(jù)集進(jìn)行大量數(shù)據(jù)處理，那么你絕對應(yīng)該嘗試 Polars。

此外，你可能還發(fā)現(xiàn)，對于相同的操作，Polars 代碼通常比 Pandas 代碼長一些。

以上就是python polars數(shù)據(jù)科學(xué)庫對比Pandas優(yōu)勢分析的詳細(xì)內(nèi)容，更多關(guān)于python polars數(shù)據(jù)科學(xué)庫的資料請關(guān)注腳本之家其它相關(guān)文章！

您可能感興趣的文章:

欧美bbbwbbbw肥妇,免费乱码人妻系列日韩,一级黄片

python polars數(shù)據(jù)科學(xué)庫對比Pandas優(yōu)勢分析

目錄

python polars數(shù)據(jù)科學(xué)庫

為什么它比 Pandas 快

安裝庫

Pandas and Polars 比較

讀取數(shù)據(jù)

選擇和過濾數(shù)據(jù)

創(chuàng)建新列

分組和聚合

相關(guān)文章

最新評論

大家感興趣的內(nèi)容

最近更新的內(nèi)容

常用在線小工具