ETL选型策略及参考:Kettle与HaoheDI对比

更新时间:2024-01-12 00:28:01 阅读量: 教育文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

HaoheDI是北京昊合数据科技有限公司研发的ETL产品,是一款轻量级数据整合类工具软件,产品采用先抽取加载到目标数据库后再进行清洗转换的ELT方式,实现企业内数据整合的开发工作,同时平台提供元数据管理、数据质量、版本控制、日志分析等辅助管理功能,为企业提供包括数据迁移、数据标准化、数据同步、数据交换、数据仓库在内的一体化数据整合服务。与Kettle相比,HaoheDI具备以下优势:

(HaoheDI已经部署在云服务器上,可以在昊合数据官网在线进行操作体验)

KETTLE(PDI)

熟练掌握至少需要1个月时间,开

HaoheDI

熟练掌握1天时间,开发人员只需

学习成本 发人员通常需要1、2个Kettle的项要掌握数据库的SQL开发即可,目经验。

生产环境主要是通过操作系统自身

无需ETL工具经验。

调度计划 的调度机制调度命令行的方式实现,linux下需要写shell,不方便 生成环境下很难通过界面来观察作

系统自带调度计划设置,通过浏览器即可设定,操作简单

日志监控

业的执行情况,一般是将日志输出到日志文件或数据库中进行查询,通常需要再开发一个日志访问程序 缺少批量重跑功能,需要一个一个执行

系统提供清晰的日志监控功能,通过浏览器实时观察作业执行情况,以及提供历史日志分析功能

作业手工重跑 支持多批次批量重跑

创建任务及作业 需要手工逐个进行创建,工作量较大

可以批量生成任务,以及将任务批量导入作业。

数据质量探查 没有 后续版本即将加入

内置实施方法,帮助无经验的人员快速实施

ETL方法论 主要靠开发人员自身的丰富经验

主要靠大量功能组件完成,组件功能转换任务 丰富,掌握有一定难度,性能较低,调优困难,容易形成蜘蛛网状的任务流,后续不便维护。 倡导简便的ELT模式,先加载,再转换,充分利用数据库自身的SQL、存储过程完成,调优差错比较容易,性能取决于开发人员的SQL水平。 同样提供复杂的工作流模式,可应对大多数场景 作业流程 复杂的作业流程控制 C/S模式,开发环境和生成环境需独B/S模式,只要通过浏览器就可以立部署,开发人员直接操作生成环境访问生产环境,可直接调整修改生生成环境迁移 不方便,需要在开发环境做好的任务成环境的任务和作业,也可以将开和作业,在迁移发布到生成环境运行,之间衔接不方便。

发环境的对象导出后再倒入生产环境。

本文来源:https://www.bwwdw.com/article/txno.html

Top