快捷導(dǎo)航

用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具詳解

更新時(shí)間：2020年07月21日 09:42:15 作者：51CTO

這篇文章主要介紹了用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具,本文給大家介紹的非常詳細(xì)，對(duì)大家的學(xué)習(xí)或工作具有一定的參考借鑒價(jià)值，需要的朋友可以參考下

ETL的考慮

做數(shù)據(jù)倉(cāng)庫(kù)系統(tǒng)，ETL是關(guān)鍵的一環(huán)。說(shuō)大了，ETL是數(shù)據(jù)整合解決方案，說(shuō)小了，就是倒數(shù)據(jù)的工具?；貞浺幌鹿ぷ鬟@么些年來(lái)，處理數(shù)據(jù)遷移、轉(zhuǎn)換的工作倒還真的不少。但是那些工作基本上是一次性工作或者很小數(shù)據(jù)量，使用access、DTS或是自己編個(gè)小程序搞定?？墒窃跀?shù)據(jù)倉(cāng)庫(kù)系統(tǒng)中，ETL上升到了一定的理論高度，和原來(lái)小打小鬧的工具使用不同了。究竟什么不同，從名字上就可以看到，人家已經(jīng)將倒數(shù)據(jù)的過(guò)程分成3個(gè)步驟，E、T、L分別代表抽取、轉(zhuǎn)換和裝載。

其實(shí)ETL過(guò)程就是數(shù)據(jù)流動(dòng)的過(guò)程，從不同的數(shù)據(jù)源流向不同的目標(biāo)數(shù)據(jù)。但在數(shù)據(jù)倉(cāng)庫(kù)中，ETL有幾個(gè)特點(diǎn)，一是數(shù)據(jù)同步，它不是一次性倒完數(shù)據(jù)就拉到，它是經(jīng)常性的活動(dòng)，按照固定周期運(yùn)行的，甚至現(xiàn)在還有人提出了實(shí)時(shí)ETL的概念。二是數(shù)據(jù)量，一般都是巨大的，值得你將數(shù)據(jù)流動(dòng)的過(guò)程拆分成E、T和L。
現(xiàn) 在有很多成熟的工具提供ETL功能，例如datastage、powermart等，且不說(shuō)他們的好壞。從應(yīng)用角度來(lái)說(shuō)，ETL的過(guò)程其實(shí)不是非常復(fù)雜，這些工具給數(shù)據(jù)倉(cāng)庫(kù)工程帶來(lái)和很大的便利性，特別是開(kāi)發(fā)的便利和維護(hù)的便利。但另一方面，開(kāi)發(fā)人員容易迷失在這些工具中。舉個(gè)例子，VB是一種非常簡(jiǎn)單的語(yǔ)言并且也是非常易用的編程工具，上手特別快，但是真正VB的高手有多少？微軟設(shè)計(jì)的產(chǎn)品通常有個(gè)原則是"將使用者當(dāng)作傻瓜"，在這個(gè)原則下，微軟的東西確實(shí)非常好用，但是對(duì)于開(kāi)發(fā)者，如果你自己也將自己當(dāng)作傻瓜，那就真的傻了。ETL工具也是一樣，這些工具為我們提供圖形化界面，讓我們將主要的精力放在規(guī)則上，以期提高開(kāi)發(fā)效率。從使用效果來(lái)說(shuō)，確實(shí)使用這些工具能夠非?？焖俚貥?gòu)建一個(gè)job來(lái)處理某個(gè)數(shù)據(jù)，不過(guò)從整體來(lái)看，并不見(jiàn)得他的整體效率會(huì)高多少。問(wèn)題主要不是出在工具上，而是在設(shè)計(jì)、開(kāi)發(fā)人員上。他們迷失在工具中，沒(méi)有去探求ETL的本質(zhì)。

可以說(shuō)這些工具應(yīng)用了這么長(zhǎng)時(shí)間，在這么多項(xiàng)目、環(huán)境中應(yīng)用，它必然有它成功之處，它必定體現(xiàn)了ETL的本質(zhì)。如果我們不透過(guò)表面這些工具的簡(jiǎn)單使用去看它背后蘊(yùn)涵的思想，最終我們作出來(lái)的東西也就是一個(gè)個(gè)獨(dú)立的job，將他們整合起來(lái)仍然有巨大的工作量。大家都知道“理論與實(shí)踐相結(jié)合”，如果在一個(gè)領(lǐng)域有所超越，必須要在理論水平上達(dá)到一定的高度。

下面看下用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具，具體內(nèi)容如下所示：

前幾天，我去Reddit詢問(wèn)是否應(yīng)該將Python用于ETL相關(guān)的轉(zhuǎn)換，并且壓倒性的回答是"是"。

但是，盡管我的Redditor同事熱心支持使用Python，但他們建議研究Pandas以外的庫(kù)-出于對(duì)大型數(shù)據(jù)集Pandas性能的擔(dān)憂。

經(jīng)過(guò)研究，我發(fā)現(xiàn)了很多用于數(shù)據(jù)轉(zhuǎn)換的Python庫(kù)：有些改進(jìn)了Pandas的性能，而另一些提供了自己的解決方案。

我找不到這些工具的完整列表，所以我想我可以使用所做的研究來(lái)編譯一個(gè)工具-如果我錯(cuò)過(guò)了什么或弄錯(cuò)了什么，請(qǐng)告訴我!

Pandas

網(wǎng)站：https：//pandas.pydata.org/

總覽

Pandas當(dāng)然不需要介紹，但是我還是給它一個(gè)介紹。

Pandas在Python中增加了DataFrame的概念，并在數(shù)據(jù)科學(xué)界廣泛用于分析和清理數(shù)據(jù)集。它作為ETL轉(zhuǎn)換工具非常有用，因?yàn)樗共僮鲾?shù)據(jù)非常容易和直觀。

優(yōu)點(diǎn)

廣泛用于數(shù)據(jù)處理
簡(jiǎn)單直觀的語(yǔ)法
與其他Python工具(包括可視化庫(kù))良好集成
支持常見(jiàn)的數(shù)據(jù)格式(從SQL數(shù)據(jù)庫(kù)，CSV文件等讀取)

缺點(diǎn)

由于它會(huì)將所有數(shù)據(jù)加載到內(nèi)存中，因此無(wú)法擴(kuò)展，并且對(duì)于非常大(大于內(nèi)存)的數(shù)據(jù)集來(lái)說(shuō)可能是一個(gè)錯(cuò)誤的選擇

進(jìn)一步閱讀

10分鐘Pandas
Pandas機(jī)器學(xué)習(xí)的數(shù)據(jù)處理

Dask

網(wǎng)站：https：//dask.org/

總覽

根據(jù)他們的網(wǎng)站，" Dask是用于Python并行計(jì)算的靈活庫(kù)。"

從本質(zhì)上講，Dask擴(kuò)展了諸如Pandas之類的通用接口，供在分布式環(huán)境中使用-例如，Dask DataFrame模仿了。

優(yōu)點(diǎn)

可擴(kuò)展性— Dask可以在本地計(jì)算機(jī)上運(yùn)行并擴(kuò)展到集群
能夠處理內(nèi)存不足的數(shù)據(jù)集
即使在相同的硬件上，使用相同的功能也可以提高性能(由于并行計(jì)算)
最少的代碼更改即可從Pandas切換
旨在與其他Python庫(kù)集成

缺點(diǎn)

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著)
如果您所做的計(jì)算量很小，則沒(méi)有什么好處
Dask DataFrame中未實(shí)現(xiàn)某些功能

進(jìn)一步閱讀

Dask文檔
為什么每個(gè)數(shù)據(jù)科學(xué)家都應(yīng)該使用Dask

Modin

網(wǎng)站：https：//github.com/modin-project/modin

總覽

Modin與Dask相似之處在于，它試圖通過(guò)使用并行性并啟用分布式DataFrames來(lái)提高Pandas的效率。與Dask不同，Modin基于Ray(任務(wù)并行執(zhí)行框架)。

Modin優(yōu)于Dask的主要好處是Modin可以自動(dòng)處理跨計(jì)算機(jī)核心分發(fā)數(shù)據(jù)(無(wú)需進(jìn)行配置)。

優(yōu)點(diǎn)

可伸縮性— Ray比Modin提供的更多
完全相同的功能(即使在相同的硬件上)也可以提高性能
最小的代碼更改即可從Pandas切換(更改import語(yǔ)句)
提供所有Pandas功能-比Dask更多的"嵌入式"解決方案

缺點(diǎn)

除了并行性，還有其他方法可以提高Pandas的性能(通常更為顯著)
如果您所做的計(jì)算量很小，則沒(méi)有什么好處

進(jìn)一步閱讀

Modin文檔
Dask和Modin有什么區(qū)別?

Petl

網(wǎng)站：https：//petl.readthedocs.io/en/stable/

總覽

petl包含了pandas的許多功能，但專為ETL設(shè)計(jì)，因此缺少額外的功能，例如用于分析的功能。 petl具有用于ETL的所有三個(gè)部分的工具，但本文僅專注于數(shù)據(jù)轉(zhuǎn)換。

盡管petl提供了轉(zhuǎn)換表的功能，但其他工具(例如pandas)似乎更廣泛地用于轉(zhuǎn)換和有據(jù)可查的文檔，因此petl對(duì)此吸引力較小。

優(yōu)點(diǎn)

最小化系統(tǒng)內(nèi)存的使用，使其能夠擴(kuò)展到數(shù)百萬(wàn)行
對(duì)于在SQL數(shù)據(jù)庫(kù)之間進(jìn)行遷移很有用
輕巧高效

缺點(diǎn)

通過(guò)很大程度地減少對(duì)系統(tǒng)內(nèi)存的使用，petl的執(zhí)行速度會(huì)變慢-不建議在性能很重要的應(yīng)用程序中使用
較少使用此列表中的其他解決方案進(jìn)行數(shù)據(jù)處理

進(jìn)一步閱讀

使用Petl快速了解數(shù)據(jù)轉(zhuǎn)換和遷移
petl轉(zhuǎn)換文檔 PySpark

網(wǎng)站：http：//spark.apache.org/

總覽

Spark專為處理和分析大數(shù)據(jù)而設(shè)計(jì)，并提供多種語(yǔ)言的API。使用Spark的主要優(yōu)點(diǎn)是Spark DataFrames使用分布式內(nèi)存并利用延遲執(zhí)行，因此它們可以使用集群處理更大的數(shù)據(jù)集，而Pandas之類的工具則無(wú)法實(shí)現(xiàn)。

如果要處理的數(shù)據(jù)非常大，并且數(shù)據(jù)操作的速度和大小很大，Spark是ETL的理想選擇。

優(yōu)點(diǎn)

可擴(kuò)展性和對(duì)更大數(shù)據(jù)集的支持
就語(yǔ)法而言，Spark DataFrames與Pandas非常相似
通過(guò)Spark SQL使用SQL語(yǔ)法進(jìn)行查詢
與其他流行的ETL工具兼容，包括Pandas(您實(shí)際上可以將Spark DataFrame轉(zhuǎn)換為Pandas DataFrame，從而使您可以使用各種其他庫(kù))
與Jupyter筆記本電腦兼容
內(nèi)置對(duì)SQL，流和圖形處理的支持

缺點(diǎn)

需要一個(gè)分布式文件系統(tǒng)，例如S3
使用CSV等數(shù)據(jù)格式會(huì)限制延遲執(zhí)行，需要將數(shù)據(jù)轉(zhuǎn)換為Parquet等其他格式
缺少對(duì)數(shù)據(jù)可視化工具(如Matplotlib和Seaborn)的直接支持，這兩種方法都得到了Pandas的良好支持

進(jìn)一步閱讀

Python中的Apache Spark：新手指南
PySpark簡(jiǎn)介
PySpark文檔(尤其是語(yǔ)法) 值得一提

盡管我希望這是一個(gè)完整的列表，但我不希望這篇文章過(guò)長(zhǎng)!

確實(shí)有很多許多用于數(shù)據(jù)轉(zhuǎn)換的Python工具，因此我包括了這一部分，至少是我錯(cuò)過(guò)的其他項(xiàng)目(我可能會(huì)在本文的第二部分中進(jìn)一步探討這些項(xiàng)目)。

bonobo https://www.bonobo-project.org/
bubbles http://bubbles.databrewery.org/
pygrametl http：//chrthomsen.github.io/pygrametl/
Apache Beam https：//beam.apache.org/

結(jié)論

我希望這份清單至少可以幫助您了解Python必須提供哪些工具來(lái)進(jìn)行數(shù)據(jù)轉(zhuǎn)換。在進(jìn)行了這項(xiàng)研究之后，我相信Python是ETL的優(yōu)秀選擇-這些工具及其開(kāi)發(fā)人員使它成為了一個(gè)了不起的平臺(tái)。

到此這篇關(guān)于用于ETL的Python數(shù)據(jù)轉(zhuǎn)換工具的文章就介紹到這了,更多相關(guān)Python數(shù)據(jù)轉(zhuǎn)換工具內(nèi)容請(qǐng)搜索腳本之家以前的文章或繼續(xù)瀏覽下面的相關(guān)文章希望大家以后多多支持腳本之家！

您可能感興趣的文章: