【ETL】常见的ETL工具（含开源及付费）一览和优劣势分析？

2023-11-05

一、Kettle

Kettle 中文名称叫水壶，该项目的概念是把各种数据放到一个壶里，然后以一种指定的格式流出。Kettle是一款国外开源的ETL工具，纯java编写，可以在Window、Linux、Unix上运行，无需安装，数据抽取]高效稳定。

Kettle这个ETL工具集，它允许你管理来自不同数据库的数据，通过提供一个图形化的用户环境来描述你想做什么。Kettle中有两种格式文件，Transformation和Job，Transformation完成针对数据的基础转换，Job则完成整个工作流的控制。

1.1 产品结构

Spoon 一个基于swt开发的[流式处理客户端，用户开发转换、任务、创建数据库、集群、分区等
Pan 独立的命令行程序，支持通过命令行实现界面的功能，如果转换启停,任务启停,状态查看等
Kitchen 一个独立的命令行程序，用于执行由Spoon编辑的作业.
Carte 一个轻量级的Web容器，用于建立专用、远程的ETL Server。

Kettle的体系架构

1.2 优点

插件架构扩展性好

Kettle作为开源工具，无论是扩展还是系统集成的功能，本质上来讲都是插件，管理方式和运行机制是一致的，系统集成的功能点也均实现

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

【ETL】常见的ETL工具（含开源及付费）一览和优劣势分析？的相关文章

SSIS 可以支持加载每行具有不同列长度的文件吗？

目前我每天收到大约 75 万行的文件每行开头都有一个 3 个字符的标识符对于每个标识符列数可以更改但特定于标识符例如 SRH 将始终有 6 列 AAA 将始终有 10 列依此类推我希望能够通过 SSIS 将此文件自动生成 S
语法无效：使用初始排序键创建表排序键 auto

我正在尝试使用target redshift将数据推送到aws redshift https pypi org project target redshift https pypi org project target redshift 我
将 XML 数据保存到 SQL Server 的最佳方法是什么？

有没有一条非常直接的直接路线即SQL Server可以读取XML 或者最好解析 XML 并通过 ADO Net 以通常的方式将其作为单独的行或批量更新进行传输我意识到可能有一些解决方案涉及大型复杂的存储过程虽然我并不完全反对这一点
即使使用 Unicode 源和目标 (SSIS)，字符也会显示不正确

我遇到了代码页 unicode 非 unicode 问题需要专业知识才能理解它在 SSIS 中我正在从 UTF8 编码的文本文件中读取数据数据类型均为 DT WSTR unicode 字符串目标是 NVARCHAR 它也是 uni
如何将Spring boot日志直接摄取到elastic中

我正在研究将 Spring Boot 应用程序日志直接发送到 Elastic Search 的可行性不使用 filebeats 或logstash 我相信 Ingest 插件可能会对此有所帮助我最初的想法是使用 TCP 上的 logba
使用 big.matrix 对象计算欧几里德距离矩阵

我有一个类对象big matrix in R有尺寸778844 x 2 这些值都是整数公里我的目标是使用以下公式计算欧几里德距离矩阵big matrix并因此得到一个类的对象big matrix 我想知道是否有最佳方法可以做到这一点我
为什么 Spark 在字数统计时速度很快？ [复制]

这个问题在这里已经有答案了测试用例 Spark 在 20 秒以上对 6G 数据进行字数统计我明白映射减少 FP and stream编程模型但无法弄清楚字数统计的速度如此惊人我认为这种情况下是I O密集型计算不可能在20秒以上扫描
根据另一个数据库的查询结果查询一个数据库

我在 VS 2013 中使用 SSIS 我需要从 1 个数据库获取 ID 列表并使用该 ID 列表我想查询另一个数据库即SELECT from MySecondDB WHERE ID IN list of IDs from MyFir
将多个平面文件导入到多个 SQL 表

这是我的文件夹设置这是文件设置这个想法是遍历文件夹并将文件内容放入数据库上的表 File dbo 还有 FileB FileC 等所有文件夹的文件名结构都相同我有这个 ssis 包我在其中使用 foreachloop gt 数据流
Spark parquet 分区：大量文件

我正在尝试利用 Spark 分区我试图做类似的事情 data write partitionBy key parquet location 这里的问题是每个分区都会创建大量镶木地板文件如果我尝试从根目录读取则会导致读取速度变慢为了避
计算 HBase 表中列族的记录数

我正在寻找一个 HBase shell 命令来计算指定列族中的记录数我知道我可以运行 echo scan table name hbase shell grep column family name wc l 然而这将比标准计数命令运行
数据转换器 SSIS 数据流组件中相应列的转换数据类型应该是什么？

我们的一台服务器上有普通的 Microsoft SQL Server 2008 我们决定在文件系统上创建 DTSX 文件以便我们可以使用 BIDS 2008 打开 DTSX 文件一种 SSIS 控制流组件它从 Microsoft SQ
Oracle OLE DB 提供程序未在 SSIS 中列出

我在 SSIS 和 VS2015 CM 方面遇到问题我有一个包需要连接 Oracle 来获取一些数据我安装了适用于 Win64 的 ODAC 和 Oracle 客户端但看不到提供程序列表中列出的 OLE DB 的 Oracle 提供程
使用 Pig 从数据中删除单引号

这就是我的数据的样子 10 ACCOUNTING NEW YORK 20 RESEARCH DALLAS 30 SALES CHICAGO 40 OPERATIONS BOSTON 我想删除 and 使用 Pig 脚本从这些数据中获取我希
未能在kafka-storm中将偏移量数据写入zookeeper

我正在设置一个风暴集群来计算实时趋势和其他统计数据但是我在将恢复功能引入到这个项目中时遇到了一些问题方法是允许上次读取的偏移量kafka spout 源代码为kafka spout来自https github com apache
年函数不支持 dt_wstr

我无法使用下面的代码应用转换出现错误年函数不支持 dt wstr 我使用的表达式是 DT I4 DT WSTR 4 YEAR fisc wk end dt RIGHT 0 DT WSTR 2 MONTH fisc wk end dt 2
C#的数组列表可以用来填充SSIS对象变量吗？

我已在 C 脚本中填充了一个列表并将其值分配给 SSIS 对象变量然后我使用该对象变量通过循环遍历 For every do 枚举器来执行一些 SQL 查询我尝试通过 Foreach ado 枚举器执行此操作但出现错误 X 变量不
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
SQLAlchemy 中 mssql+pyodbc 出现“数据源名称太长”错误

我正在尝试使用 SQLAlchemy 和 pyodbc 将数据帧上传到 Azure SQL Server 数据库上的数据库我已建立连接但上传时出现错误 pyodbc Error IM010 IM010 Microsoft ODBC 驱动
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa

随机推荐

springboot下配置mybatis的call-setters-on-nulls属性

使用Mybatis时如果查询语句中某些字段值是null的则这个字段就无法返回对于后台数据处理来说这是一个致命的问题于是通过修改Mybatis的配置来解决这个问题在springmvc下在mybatis的配置文件里面增加以下配置即
C++ opencv处理kinect红外数据和彩色数据

kinect好像已是明日黄花但现在需要用这个做交互的人还不少要做手势识别于是入手一枚二手kinect2 0 入坑玩玩做手势识别直觉上要用opencv 从网上搜的资料来看大多是通过openNi来操作kinect 而且要openNi
grpc-go源码剖析三十五之滑动窗口基本介绍以及整体流程图介绍?

已发表的技术专栏 0 grpc go protobuf multus cni 技术专栏总入口 1 grpc go 源码剖析与实战文章目录 2 Protobuf介绍与实战图文专栏文章目录 3 multus cni 文章目录 k8s多网
使用aircrack-ng套件破解wifi密码

一准备工作 1 需要有一个无线网卡需要支持monitor模式 2 Kali系统自行单独安装套件也可以 3 一个完善的密码字典二监听工作首先将无线网卡连接到kali iwconfig 查看是否连接成功 airmon ng 可以查看
Vim 小技巧：自动写入文件头

Vim 小技巧情景一自动写入文件头在编写 C 程序时总有一些东西会在每个头文件中出现比如 ifndef lt File Name MACRO gt define lt File Name MACRO gt endif lt Fil
STM32H7 LwIP 主RAM选择 DTCM AXIRAM UDP 收发问题

STM32H7 LwIP 主RAM选择 DTCM AXIRAM UDP 这段时间一直在调试STM32H743 期间掉进了不少坑最大的坑还是网络这一块例如LwIP移植已经有前人踩过的坑我以为我能避免结果自己还是踩了耽误了不少时间
Android --- 控件属性的属性值为 @null

1 控件属性值为 null 1 RadioButton里面的属性android button null 是去掉前面的圆点 2 android background null 是控件自带的背景设为空
《深入浅出数据分析》第九章——R语言

文章目录记录第一次接触R语言一 R语言下载安装二运行三补充 1 加载csv文件 2 hist函数记录第一次接触R语言深入浅出数据分析第九章讲到R语言在这记录一下就当给自己做的笔记一 R语言下载安装安装地址 http
mybatis是如何集成到spring的之托管mapper接口

前言 mybatis集成到spring可以参考spring mvc集成mybatis进行数据库访问其中mybatis集成到spring最重要的两个配置分别是SqlSessionFactoryBean和MapperScannerConfig
C++学习（七十四）有关三维压缩库draco

一是什么 Draco是谷歌Chrome 媒体团队在2017年1月发布的一个3D图形开源压缩库提供了多种算法进行压缩和解压缩旨在大幅加速 3D 数据的编码传输和解码因为研发团队的 Chrome 背景这个开源算法的首要应用对象是浏览
【编译原理】Java手写一个词法分析器

在编程的世界中每一个code都是一个符号我们程序员用这些符号来表达出模型 1 1 2 上面的代码中1就是一个符号它对应的模型是数量比如一根手指一根棒棒糖当我们看到这个像小旗子的符号之后我们就知道它对应着一根手指此时你就相当于
Vue3 中引入wangeditor富文本编辑器

文章目录前言一引入二呈现到页面 1 原型 2 可视化界面 3 获取内容 4 配置工具栏总结前言我花一些时间做了一个博客需要一个引入编辑器让我好在网页上就能编辑文章这里中没有配置图片的上传功能如有需要请自行配置一引
远程网络读取服务器文件是否存在,linux 读取远程服务器文件是否存在

linux 读取远程服务器文件是否存在内容精选换一换云服务器网络异常防火墙未放行本地远程桌面端口云服务器CPU负载过高等问题均可能导致云服务器无法正常登录本节操作介绍无法登录Windows弹性云服务器的排查思路当您的云服务器无
【Python】基于wxauto的超简单微信机器人

前言我是一个python初学者一直想做一个微信版类似qq的群助手我尝试去百度过 python微信机器人之类的搜索但得到的结果几乎都是使用 itchat wxpy 之类的库通过网页版微信去实现行为的但腾讯在2019年7月份开始彻
java.net.SocketException: Socket closed 解决方式

问题背景客户端连接服务器发送一个请求捕获响应信息建立连接 Socket socket new Socket socket connect new InetSocketAddress InetAddress getLocalHost
方差分析球形检验_不等距重复测量方差分析

作者红豆牛奶封面自己想吧在进行重复测量方差时测量的间隔大多数的等距的但有时测量的间隔却是不等距的若用等距测量的方法分析会使结果不准确此时就需要手动编程一下不要一提到编程就觉得很难哦看完此篇文章原来它竟如此简单重复测
以前写SpringMVC的时候，如果需要访问一个页面，必须要写Controller类，然后再写一个方法跳转到页面，感觉好麻烦，其实重写WebMvcConfigurerAdapter中的addViewC...

以前写SpringMVC的时候如果需要访问一个页面必须要写Controller类然后再写一个方法跳转到页面感觉好麻烦其实重写WebMvcConfigurerAdapter中的addViewControllers方法即可达到效果了
CSS的样式注释(部分)

a link text decoration none color white a visited text decoration none color white a hover text decoration underline col
RT-Thread 断言：assertion failed at function:rt_mutex_take 等

断言断言是什么 https www cnblogs com thisway p 5558914 html ASSERT 是一个调试程序时经常使用的宏在程序运行时它计算括号内的表达式如果表达式为FALSE 0 程序将报告错误并终止执行
【ETL】常见的ETL工具（含开源及付费）一览和优劣势分析？

一 Kettle Kettle 中文名称叫水壶该项目的概念是把各种数据放到一个壶里然后以一种指定的格式流出 Kettle是一款国外开源的ETL工具纯java编写可以在Window Linux Unix上运行无需安装数据抽取高效