Kettle配置使用说明

更新时间:2024-03-20 15:40:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

Kettle配置使用说明

1.文件结构 1.1 kettle4.0.1

该文件夹存放的是kettle4.0.1的桌面应用程序,/kettle4.0.1/Spoon.bat是运行软件的一个批处理文件,双击运行。

1.2 workspace

该文件夹存放的是以各个警种总队全拼命名的分别存放.ktr文件和.job文件的文件夹。Start.job是一个启动总纲。

1.3 script

该文件夹是存放的数据库建库脚本,目前是oracle10g版本

1.4 model

存放的是powerDesign的cdm概念模型文件用于根据需要生成pdm和script。

2.文件路径配置

本系统使用的都是系统所在路径的相对路径,不管处于什么目录下都请将kettle4.0.1和workspace的文件夹放在同一目录之下。当然你可以随意改变文件夹的名称。

3.运行环境配置

先运行一次/kettle4.0.1/Spoon.bat,Linux就不说了,如果你用的是windows系统,那么你可以在/${userhome}/.kettle下找到一个.kettle的文件夹主要说下:

Response.xml-记录资源库信息(自己去勾)

Kettle.property-这是好东西,可以让你在软件中任何可以使用到环境变量的地方使用到里面的配置信息(键-值对配置),类似全局变量。

当然是有利有弊,配置点什么数据库连接和一些常用的东西之外别把那里当仓库,想下全

局变量定义的多了会给系统带来什么风险。

A_fileInput=file:///E:/Test_Server/srcFile/ A_fileOutput=file:///E:/Test_Server/errFile/

这2个属性是配置读取的Excel文件 和 输出错误的Excel文件用到的路径配置。 由于文件名命名的差异和存放位置的不同需要使用者自行配置。有在系统内修改文件路径的风险,当然这是没有办法避免的,只能在项目初期和用户有这方面的约定俗成。

3.1数据库

你可以运行SQL脚本创建自己的表空间和数据表,也可以连接到我的数据库进行测试。 可能需要去kettle.property中修改下DATA_BASE*的值;

3.2 系统文件

前面说过workspace中存放的是系统文件,你只需要打开/workspace/start.job,单击工具栏上的开始按钮就可以进行数据抽取了。

3.3可能遇到的问题

3.3.1kettle和workspace

系统内部文件使用的是相对路径,需要保证kettle和workspace在同一目录下。

3.3.2抽取对象的区分

从数据库抽取数据时,只需要在源库表和目标库表间建立一一对应的关系就行,(需要在kettle.property中配置目标库和源库的相关信息)。

当抽取源是文件(xml,excel或者文本文件等)就需要在系统中配置文件的路径位置并在系统中进行配置才能实现。如果文件位置或者文件名称发生改变后就需要重新配置,在实际运用中我们需要避免这一风险,和用户协调解决。

3.3.3系统本身存在的缺陷

就系统本身来说功能强大,完善的日志系统和可扩展性以及相关数据采集性能指标都相当不错,但是程序本身同样存在一些BUG,虽然并不影响系统的运行。

由于OS的差异性和运行硬件环境的不同,缺陷表现也不相同。

4.后话

这里说的都是能够简单的使用该ETL工具的一些方法和组件配置信息。纯属抛砖引玉,如果你有兴趣深入研究。可以去找源代码来看,也欢迎联系我。

本文来源:https://www.bwwdw.com/article/uco8.html

Top