Kettle8.2转换组件之排序与去除重复记录

2023-10-26

一、相关说明


  • 需求说明:
    从Excel读取数据,去除其中重复的字段,并把结果数据保存在数据库表中。
  • 排序记录组件说明:
    排序记录是按照指定的字段的升序或降序对数据流排序。
  • 去除重复记录组件说明:
    去除重复记录是去除数据流里面相同的数据行。注意: 必须先对数据流进行排序!

二、设计转换


  • 输入:Excel输入
  • 转换: 排序记录、去除重复记录
  • 输出:表输出
    在这里插入图片描述

三、转换配置


  • Step1:Excel输入组件配置
    • 双击组件,写上步骤名称等
      在这里插入图片描述

在这里插入图片描述

  • Step2:排序记录组件配置

    • 双击打开,设置步骤名称
    • 配置信息,如下
      在这里插入图片描述
  • Step3:去除重复记录组件配置

    • 双击打开,设置步骤名称
    • 配置信息,如下
      在这里插入图片描述
      在这里插入图片描述
  • Step4:表输出组件配置

    • 双击打开,设置步骤名称

    • 配置信息,如下
      在这里插入图片描述
      在这里插入图片描述
      在这里插入图片描述

    • 保存转换

      上述配置好后,点击确定即可!

四、运行转换


  • 点击运行按钮,成功运行如下:
    在这里插入图片描述

五、查看结果


  • 数据库表中查看结果
    在这里插入图片描述

  • Preview data中查看结果
    在这里插入图片描述

  • 执行流程
    E:Excel读取源文件中的数据到行集中进行缓存
    T:通过Hop读取行集中的数据流,通过排序记录组件按照各个字段升序排序后,经去除重复记录组件(Unique)删除重复记录,将结果数据缓存再rowsets中
    L:通过Hop读取上一个步骤传递过来的行集数据,并将其写出到数据库表中

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Kettle8.2转换组件之排序与去除重复记录 的相关文章

  • KETTLE 异常处理

    kettle未能正常执行任务时 同样需要记录下来执行操作 以便分析任务异常 红色线条代表任务异常时执行的任务 绿色为正常执行的任务序列 任务执行时都有日志记录 但kettle日志表中字段存在执行时间 但不存在业务日期字段 比如今天的任务执行
  • Kettle(一) 下载及环境部署

    1 kettle下载地址 kettle资源 https download csdn net download kingo0 87360222 JDK资源 LinuxJDK1 8安装包 jdk1 8安装包 Java文档类资源 CSDN下载 2
  • Kettle——转换步骤信息统计两种实现

    Kettle 步骤数据处理数量记录获取 Kettle获取数据处理条数记录日志信息 以前的途径是配置转换的日志信息来保存到数据库中 这种方式不是很灵活 有没有一种类似步骤方式来进行获取呢 Kettle在5 0版本中提供了一个步骤 在 统计 转
  • Kettle Spoon入门教程

    Kettle是一款国外开源的ETL工具 纯java编写 可以在Window Linux Unix上运行 数据抽取高效稳定 其中 Spoon是Kettle中的一个组件 其他组件有PAN CHEF Encr和KITCHEN等 Spoon通过图形
  • 数据清洗小记(11):Kettle_利用设置变量实现数据增量(小例)

    背景 利用kettle工具 完成某表的增量工作 解决 利用模块完成即可 如下简图 实验 先手工准备一个实验环境 准备基本完成如下效果 select t t rowid from EMP ETL t select max hiredate m
  • Kettle部署集群

    环境 1台Windows主机 2台Linux服务器 软件版本 Kettle7 0 目的 搭建Kettle集群 过程 1 安装Kettle Kettle程序整合了Linux平台和Windows平台 所以直接解压官网文件到磁盘上就OK啦 2 设
  • kettle中判断输入的数据是不是 偶然错误

    参照表一个常见的用途就是做数据的查询和检验 提供一个输入字段 如果输入字段里的值没有匹配上 就给对应的数据行做一个错误标志 下面使用城市和邮政编码查询做个例子 演示如何使用计算器步骤和查询步骤来判断地址和邮政编码是否匹配 完整的转换如下图
  • Kettle的表或视图不存在问题【已解决】

    1 问题描述 在用Kettle做job的时候 报如下的错 2019 11 18 14 28 42 OUT FICP PARAM DATA 2 0 ERROR version 8 3 0 0 371 build 8 3 0 0 371 fro
  • kettle的下载安装以及问题点

    1 kettle下载以安装 1 kettle的官网下载地址 Pentaho from Hitachi Vantara Browse Files at SourceForge net 2 如果需要下载其他版本 直接点击对应的版本Name 8
  • Linux部署kettle并设置定时任务

    一 安装Kettle linux中使用kettle时首先需要jdk环境 这里就不概述linux中jdk的安装与配置了 1 首先将kettle压缩包放入linux并解压 unzip data integration zip kettle安装路
  • datax-web使用介绍

    datax web 路由策略 当执行器集群部署时 提供丰富的路由策略 包括 FIRST 第一个 固定选择第一个机器 LAST 最后一个 固定选择最后一个机器 ROUND 轮询 RANDOM 随机 随机选择在线的机器 CONSISTENT H
  • SSH通道的Kettle链接MySQL方法

    参考文献 http www ukettle org thread 452 1 1 html 对于采用SSH通道的MySQL服务器 Kettle无法直接连接 需要使用到 使用 SSH 工具 PUTTY
  • kettle问题:The last packet successfully received from the server was 156 milliseconds ago.

    在使用kettle时遇到MySQL数据库连接问题 1 Navicat可以连接到目标MySQL库 说明不是数据库权限的问题 2 用kettle可以连接其他同版本MySQL库 说明也不是jar包的问题 最终 尝试过重启电脑 删除kettle文件
  • kettle 关于数据库事务操作的解释说明

    事务与数据库 1 数据库连接只在执行作业或转换时使用 在作业里 每一个作业项都打开和关闭一个独立的数据库连接 转换也是如此 但是因为转换里的步骤是并行执行的 每个步骤都打开一个独立的数据库连接并开始一个事务 尽管这样在很多情况下会提高性能
  • Kettle下载Redisinput插件查询Redis数据

    Kettle下载Redisinput插件查询Redis数据 安装插件 1 下载Redisinput插件 https download csdn net download ispringmw 12909650 2 将完整插件包复制到Kettl
  • ETL使用Kettle处理银行信用卡申请项目

    一 项目概述 对当天申请信用卡人员进行信息校对 对不符合人员进行风险标注 无风险人员信息根据所在地区进行分表 交付 信息来源 1 web端 银行网页申请 2 移动端 网银 手机银行 3 三方 各类门户网站 手机APP 4 柜台 人工柜台 A
  • Pentaho数据集成Kettle转换中如何配置生产环境的数据库连接

    我设计了一个ktr文件进行转换 我需要配置生产环境的数据库连接详细信息 我怎样才能做到这一点 有什么建议么 我使用环境变量 KETTLE HOME KETTLE JNDI ROOT PATH PATH KETTLE HOME Kettle
  • 使用 Java 停止运行 Kettle Job/Transformation

    我也在使用 Java 开发基于 Web 应用程序的 ETL 使用 Kettle 引擎 我在尝试停止正在运行的作业时遇到了问题 我不确定使用 CarteSingleton java 是否正确 我正在使用自定义单例地图 我的代码如下 Job j
  • 壶 '?'不工作表输入步骤

    我想从数据库中获取所有表名 然后从表中获取所有行 所以我创建了这样的转换 获取表名称 添加数据库连接并将表名称存储在名为 tablename 的输出字段中 表输入 标记为 替换脚本中的变量 和 对每行执行 添加了 从步骤插入数据 中的第一步
  • Pentaho Kettle中如何实现数据库连接参数验证

    我有一个例子 我得到 X 行数据库名称作为我需要连接的参数 我已成功完成工作和转换 为作为参数给出的每个数据库名称重复表输入步骤 因此 当这些数据库名恰好有效时 这一切都会很好地工作 但是 如果这些名称之一无效 给定名称的数据库不存在 则表

随机推荐