快捷導(dǎo)航

kettle在windows上安裝配置與實(shí)踐案例

更新時(shí)間：2022年11月09日 10:00:34 作者：AllenGd

Kettle是一款開(kāi)源的ETL工具，純java編寫(xiě)，可以在Window、Linux、Unix上運(yùn)行，綠色無(wú)需安裝，數(shù)據(jù)抽取高效穩(wěn)定，這篇文章主要介紹了kettle在windows上安裝配置與實(shí)踐案例,需要的朋友可以參考下

第1章 kettle概述

1.1 什么是kettle

Kettle是一款開(kāi)源的ETL工具，純java編寫(xiě)，可以在Window、Linux、Unix上運(yùn)行，綠色無(wú)需安裝，數(shù)據(jù)抽取高效穩(wěn)定。

1.2 Kettle核心知識(shí)點(diǎn)

1.2.1 Kettle工程存儲(chǔ)方式

1) 以XML形式存儲(chǔ)

2) 以資源庫(kù)方式存儲(chǔ)(數(shù)據(jù)庫(kù)資源庫(kù)和文件資源庫(kù))

1.2.2 Kettle的兩種設(shè)計(jì)

簡(jiǎn)述：Transformation（轉(zhuǎn)換）：完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換。

Job（作業(yè)）：完成整個(gè)工作流的控制。

區(qū)別：（1）作業(yè)是步驟流，轉(zhuǎn)換是數(shù)據(jù)流，這是作業(yè)和轉(zhuǎn)換的最大區(qū)別

（2）作業(yè)的每一個(gè)步驟，必須等到前面的步驟都跑完了，后面的步驟才會(huì)執(zhí)行；而轉(zhuǎn)換會(huì)一次性把所有控件全部先啟動(dòng)（一個(gè)空間對(duì)應(yīng)啟動(dòng)一個(gè)線程），然后數(shù)據(jù)流會(huì)從第一個(gè)控件開(kāi)始，一條記錄，一條記錄地流向最后的控件。

1.2.3 Kettle的組成

勺子（spoon.bat/spoon.sh）：是一個(gè)圖形化的界面，可以讓我們用圖形化的方式開(kāi)發(fā)轉(zhuǎn)換和作業(yè)。Windows選擇spoon.bat；Linux選擇spoon.sh
煎鍋（pan.bat/pan.sh）：利用pan可以用命令行的形式調(diào)用Trans
廚房（kitchen.bat/kitchen.sh）：利用kitchen可以使用命令調(diào)用Job
菜單（carte.bat/carte.sh）：carte是一個(gè)輕量級(jí)的web容器，用于建立專(zhuān)用、遠(yuǎn)程的ETL Server

1.3 kettle特點(diǎn)

免費(fèi)開(kāi)源：基于Java的免費(fèi)開(kāi)源的軟件，對(duì)商業(yè)用戶也沒(méi)有限制

易配置：可以在window、Linux、unix上運(yùn)行，綠色無(wú)需安裝，數(shù)據(jù)抽取高效穩(wěn)定

不同數(shù)據(jù)庫(kù)：ETL工具集，它允許你管理來(lái)自不同數(shù)據(jù)庫(kù)的數(shù)據(jù)

兩種腳本文件：transformation和job，transformation完成針對(duì)數(shù)據(jù)的基礎(chǔ)轉(zhuǎn)換，job則完成整個(gè)工作流的控制

圖形化界面設(shè)計(jì)：通過(guò)圖形化設(shè)計(jì)實(shí)現(xiàn)做什么業(yè)務(wù)，無(wú)需寫(xiě)代碼去實(shí)現(xiàn)

定時(shí)功能：在job下的start模塊，有一個(gè)定時(shí)功能，可以每日、每周等方式進(jìn)行定時(shí)。

第2章 kettle安裝部署和使用

2.1 kettle安裝地址

官網(wǎng)地址

Home - Hitachi Vantara

下載地址

https://sourceforge.net/projects/pentaho/files/Data%20Integration/

kettle各版本國(guó)內(nèi)鏡像下載地址：http://mirror.bit.edu.cn/pentaho/（下載速度相對(duì)快一些）

2.2 Windows下安裝使用

2.2.1 概述

在實(shí)際企業(yè)開(kāi)發(fā)中，都是在本地環(huán)境下進(jìn)行kettle的job和Transformation開(kāi)發(fā)的，可以在本地運(yùn)行，也可以連接遠(yuǎn)程機(jī)器運(yùn)行

2.2.2 安裝

1) 安裝jdk

2) 下載kettle壓縮包，因kettle為綠色軟件，解壓縮到任意本地路徑即可

3) 雙擊Spoon.bat，啟動(dòng)圖形化界面工具，就可以直接使用了

2.2.3 案例

1) 案例一把stu1的數(shù)據(jù)按id同步到stu2，stu2有相同id則更新數(shù)據(jù)

(1)在mysql中創(chuàng)建兩張表

mysql> create database kettle;
mysql> use kettle;
mysql> create table stu1(id int,name varchar(20),age int);
mysql> create table stu2(id int,name varchar(20));

(2)往兩張表中插入一些數(shù)據(jù)

mysql> insert into stu1 values(1001,'zhangsan',20),(1002,'lisi',18), (1003,'wangwu',23);
mysql> insert into stu2 values(1001,'wukong');??

(3)在kettle中新建轉(zhuǎn)換

(4)分別在輸入和輸出中拉出表輸入和插入/更新

(5)雙擊表輸入對(duì)象，填寫(xiě)相關(guān)配置，測(cè)試是否成功

(6)雙擊更新/插入對(duì)象，填寫(xiě)相關(guān)配置

編輯映射，添加需要的字段，因?yàn)楸韘tu2中沒(méi)有age，所以不需要Add

(7)保存轉(zhuǎn)換，啟動(dòng)運(yùn)行，去mysql表查看結(jié)果

注意：如果需要連接mysql數(shù)據(jù)庫(kù)，需要要先將mysql的連接驅(qū)動(dòng)包復(fù)制到kettle的根目錄下的lib目錄中，否則會(huì)報(bào)錯(cuò)找不到驅(qū)動(dòng)。

2) 案例2：使用作業(yè)執(zhí)行上述轉(zhuǎn)換，并且額外在表stu2中添加一條數(shù)據(jù)

(1)新建一個(gè)作業(yè)

(2) 按圖示拉取組件

(3)雙擊Start編輯Start

(4)雙擊轉(zhuǎn)換，選擇案例1保存的文件

(5)雙擊SQL，編輯SQL語(yǔ)句

(6)保存執(zhí)行

運(yùn)行之前，查看數(shù)據(jù)：

運(yùn)行之后查看結(jié)果：會(huì)發(fā)現(xiàn)除了剛才我們寫(xiě)的，insert語(yǔ)句之外，stu1表中的id為1004的也插入到stu2中了，因?yàn)槲覀儓?zhí)行了stu1tostu2.ktr轉(zhuǎn)換。

注：轉(zhuǎn)換和作業(yè)的后綴不同

3）案例3：將hive表的數(shù)據(jù)輸出到hdfs

(1)因?yàn)樯婕暗絟ive和hbase的讀寫(xiě)，需要修改相關(guān)配置文件。

修改解壓目錄下的data-integration\plugins\pentaho-big-data-plugin下的plugin.properties，設(shè)置active.hadoop.configuration=hdp26，并將如下配置文件從集群上拷貝到data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp26下

注意：以上操作完，需要重啟kettle才能生效

(2)啟動(dòng)hdfs，yarn，zookeeper，hbase集群的所有進(jìn)程，啟動(dòng)hiveserver2服務(wù)

[root@node4 hadoop-2.6.4]# sbin/start-dfs.sh

[root@node4 hadoop-2.6.4]# sbin/start-yarn.sh

三臺(tái)服務(wù)器分別開(kāi)啟HBase前啟動(dòng)Zookeeper

[root@node4 hadoop-2.6.4]# zkServer.sh start

[root@node5 hadoop-2.6.4]# zkServer.sh start

[root@node6 hadoop-2.6.4]# zkServer.sh start

開(kāi)啟hbase

[root@node4 hbase-1.2.3]# bin/start-hbase.sh

開(kāi)啟hive2

[root@node4 ~]# hiveserver2

(3)進(jìn)入beeline，查看10000端口開(kāi)啟情況

[root@node4 ~]# beeline(回車(chē))

Beeline version 2.1.0 by Apache Hive

beeline> !connect jdbc:hive2://node4:10000

Connecting to jdbc:hive2://node4:10000

Enter username for jdbc:hive2://node4:10000: root(輸入用戶名，回車(chē))

Enter password for jdbc:hive2://node4:10000: ******(輸入密碼，回車(chē))

SLF4J: Class path contains multiple SLF4J bindings.

SLF4J: Found binding in [jar:file:/opt/module/hive/apache-hive-2.1.0-bin/lib/hive-jdbc-2.1.0-standalone.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: Found binding in [jar:file:/opt/module/hadoop/hadoop-2.6.4/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]

SLF4J: See http://www.slf4j.org/codes.html#multiple_bindings for an explanation.

SLF4J: Actual binding is of type [org.apache.logging.slf4j.Log4jLoggerFactory]

Connected to: Apache Hive (version 2.1.0)

Driver: Hive JDBC (version 2.1.0)

20/05/23 20:05:58 [main]: WARN jdbc.HiveConnection: Request to set autoCommit to false; Hive does not support autoCommit=false.

Transaction isolation: TRANSACTION_REPEATABLE_READ

0: jdbc:hive2://node4:10000>（到了這里說(shuō)明成功開(kāi)啟10000端口）

(4)創(chuàng)建兩張表dept和emp

CREATE TABLE dept(deptno int, dname string,loc string)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';

CREATE TABLE emp(

empno int,

ename string,

job string,

mgr int,

hiredate string,

sal double,

comm int,

deptno int)

ROW FORMAT DELIMITED

FIELDS TERMINATED BY '\t';

(5)插入數(shù)據(jù)

insert into dept values(10,'accounting','NEW YORK'),(20,'RESEARCH','DALLAS'),(30,'SALES','CHICAGO'),(40,'OPERATIONS','BOSTON');

insert into emp values

(7369,'SMITH','CLERK',7902,'1980-12-17',800,NULL,20),

(7499,'ALLEN','SALESMAN',7698,'1980-12-17',1600,300,30),

(7521,'WARD','SALESMAN',7698,'1980-12-17',1250,500,30),

(7566,'JONES','MANAGER',7839,'1980-12-17',2975,NULL,20);