Kettle的介绍和使用

文章来源:华科小宝   作者:魏天宏     发布时间:2021-02-28 06:50    浏览量:

1、Kettle的介绍

Kettle是“ETL”工具的一种,“ETL,是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过抽取(extract)、转换(transform)、加载(load)至目的端的过程。支持多种异构数据源的连接; 图形化的界面操作十分方便;处理海量数据速度快、流程更清晰等。

Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,绿色无需安装,数据抽取高效稳定(数据迁移工具)Kettle 中有两种脚本文件,transformation jobtransformation 完成针对数据的基础转换,job 则完成整个工作流的控制。

Kettle 中文名称叫水壶,该项目的主程序员MATT 希望把各种数据放到一个壶里,然后以一种指定的格式流出。

Kettle这个ETL工具集,它允许你管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。

Kettle家族目前包括4个产品:SpoonPanCHEFKitchen

SPOON 允许你通过图形界面来设计ETL转换过程(Transformation)。

PAN 允许你批量运行由Spoon设计的ETL转换 (例如使用一个时间调度器)Pan是一个后台执行的程序,没有图形界面。

CHEF 允许你创建任务(Job)。 任务通过允许每个转换,任务,脚本等等,更有利于自动化更新数据仓库的复杂工作。任务通过允许每个转换,任务,脚本等等。任务将会被检查,看看是否正确地运行了。

KITCHEN 允许你批量使用由Chef设计的任务 (例如使用一个时间调度器)KITCHEN也是一个后台运行的程序。

2、Kettle的优点

可在WindowsLinuxUnix上执行;数据抽取高效稳定;子组件spoon有丰富的Steps可以开发复杂业务逻辑场景,方便实现全量、增量同步。

3、Kettle的使用

1Kettle的下载与安装(在本文中使用的kettle版本为6.1.0.1-196

2首先解压下载下来的压缩包如:pdi-ce-6.1.0.1-196.zip

然后打开Spoon.bat,如图所示:

image.png

3)建立转换。

在文件->新建转换。

新建转换后在左边的主对象树中建立DB连接用以连接数据库。如图所示:

image.png

建立数据库连接的过程与其他数据库管理软件连接数据库类似。

注意:在数据库链接的过程中,可能会报某个数据库连接找不到的异常。那是因为你没有对应的数据库链接驱动,请下载对应驱动后,放入kettlelib文件夹。

4简单的数据表插入/更新

a新建表插入

在左边的面板中选择核心对象,在核心对象里面选择输入->表输入”,用鼠标拖动到右边面板。

双击拖过来的表,可以编辑表输入。

选择数据库连接和编辑sql语句,在这一步可以点击预览,查看自己是否连接正确。

image.png

b)通过插入/更新输出到表。

在左边面板中选择核心对象、选择输出->插入/更新如图所示:

c编辑插入更新:

首先:表输入连接插入更新。

选中表输入,按住shift键,拖向插入更新。

然后:双击插入更新,编辑它。

image.png

到这里基本上,这个转换就要做完了,可以点击运行查看效果,看是否有误,这个要先保存了才能运行,可以随意保存到任何一个地方。

5使用作业控制上面换执行。

使用作业可以定时或周期性的执行转换,新建一个作业。并从左边面板拖入start 和转换。

双击start可以编辑,可以设置执行时间等等

点开换,可以设置需要执行的转换任务,比如可以执行上面我们做的转换,XXX.ktr

最后点击运行即可。

到这里,一个简单的通过作业调度的kettle就算做完了。

以上是一个简单初步的转化作业建立


甘肃华科信息技术有限责任公司    版权所有    陇ICP备17001897-1号   甘公网安备 62010202001329 号