比较 2 个文件并保留两个文件不共同的条目

2024-01-12

我有一个 CSV 文件和一个数据库表作为输入。我需要保留数据库表中的所有记录,但排除 CSV 文件中的记录。最终所有内容都会写入 CSV 文件。

我所有的尝试都导致了数百个重复,所以我在这里面临很大的挑战。


这是一个快速而肮脏的技巧,但它应该适合您的需要。

将您的数据库和 CVS 输入连接到 TMap - 使用您的数据库作为主连接,使用 CSV 作为查找。就像是:

tMySqlInput---->Main--->tMap---out---->tFileDelimitedOutput
                         ^
                         |
                         |
                       Lookup
                         |
                         |
                  tFileDelimitedInput

在 tMap 内,照常映射连接列。单击查找映射区域上方的扳手,并将连接类型设置为内连接。确保“匹配模型”未设置为全部,以避免交叉连接。然后,创建“out”输出连接。最后,单击该连接的扳手,并将“Catch Lookup Inner Join Reject”设置为true

在“out”(即输出文件)上,您将仅获得数据库中不匹配的行。根据您的数据,您可能需要在 tFileDelimitedOutput 之前添加 tAggregateRow 以最终清除重复项。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

比较 2 个文件并保留两个文件不共同的条目 的相关文章

  • 如何使用 talend 和 sql server 更快地加载数据

    我使用 Talend 将数据加载到 sql server 数据库中 看来我的工作最薄弱的地方不是数据处理 而是数据库中的有效负载 其速度不超过 17 行 秒 有趣的是 我可以同时启动 5 个作业 它们都将以 17 行 秒的速度加载 什么可以
  • 如何将第三方库添加到 Talend 项目?

    如何将第三方库 jar 文件 添加到 Talend 项目 还有一个问题是 每个人才component uses LogFactory 但就我而言 它正在抛出 java lang NoClassDefFoundError org apache
  • 在talend中运行并行作业

    我遇到一种情况 我需要在talend 中并行运行五个不同的子作业 问题是 在我的选择查询中 我将获得五个不同的 ID 然后对于每个特定的 id 我需要运行五个不同的作业 tparrallelize 组件的问题是 它不允许我将上下文变量传递给
  • Talend:java.lang.UnsatisfiedLinkError:java.library.path 中没有 sapjco3

    我的 jar 和 dll 位于 Talend lib 目录中 路径和类路径已设置 我还下载并安装了 VC 2005 redistribution sp 1 补丁以及 SAP 提供的缺少的 dll 我尝试在 Windows 2003 机器和
  • Talend - 限制处理的行数

    我正在使用 Talend ETL 在两个 Salesforce 组织之间传输数据 我正在尝试运行初步测试以确保一切设置正确 有没有办法限制传输的行数 数据库有超过 50 000 行 我只想发送超过 15 或 20 行 谢谢 在 Talend
  • 将 Talend ETL 作业公开为 Web 服务

    我目前正在评估 Talend ETL Talend Open Studio for Data Integration 我想知道如何 是否可以将 ETL 作业公开为 Web 服务 我知道我可以将作业导出为 Web 服务并通过特定的 URL 调
  • 如何使用 Talend tREST 上传文件?

    Experts 我需要使用 Talend tREST 组件将文件上传到 Zephyr JIRA 我不知道在 httpbody 部分中给出的格式 语法 例如curl的 F 电子邮件受保护 cdn cgi l email protection
  • 输出具有多个工作表的单个 Excel 文件

    Talend Open Studio for Data Integration 中是否有一个组件能够输出单个 Excel 文件 但其中包含 2 个单独的工作表 我想将原始文件中的一些列分隔到另一个工作表中 并将另一组列分隔到第二个工作表中
  • 使用 java.text.SimpleDateFormat 解析具有可能的单位数月/日/小时的日期

    在使用 Talend Open Studio 一种开源代码生成 ETL 工具 的项目中 我在解析传入日期字符串时遇到错误 例如 3 14 1967 0 00 00 注意个位数月份 深入挖掘the http repository georch
  • 比较 2 个文件并保留两个文件不共同的条目

    我有一个 CSV 文件和一个数据库表作为输入 我需要保留数据库表中的所有记录 但排除 CSV 文件中的记录 最终所有内容都会写入 CSV 文件 我所有的尝试都导致了数百个重复 所以我在这里面临很大的挑战 这是一个快速而肮脏的技巧 但它应该适
  • 如何与 Talend 中的 joblet 共享数据库连接

    我有一个带有 tMSSqlConnection 设置的作业 我需要与 joblet 共享该连接 我在网上找到了说明 说将其注册为共享连接 然后在具有该连接名称的 joblet 组件的动态设置中添加一个选项 以便可以从连接的组件列表中选择它
  • 如何在 Talend 中动态猜测 Mysqlinput 中的架构

    我已经构建了一个将数据从 mysql db 表复制到 b mysql 表的作业 表列是相同的 只是有时可以在表数据库中添加新列 我想检索从 a 到 b 的所有列 但只检索表 b 中存在的那些列 我能够放入表 b 中存在的查询特定选择列语句
  • 使用 JSONpath 从 JSON 文件中提取叶子

    我有来自 REST API 的 JSON 输出 输出如下所示 sprints id 10516 sequence 10516 name SP121 BRK relief state CLOSED linkedPagesCount 0 id
  • 在 Talend 中加载一组文件的策略

    我想知道在 Talend 中解决以下问题的最佳策略是什么 我需要从存储在名称类似于 SAMPLE1 DAT SAMPLE2 DAT SAMPLEX DAT 的目录中的一组分隔文件中加载数据 目标将是 MySQL 数据库中的一个表 我必须立即
  • 无法获取 Master Kerberos 主体以用作 Talend Batch 作业的续订者

    我们正在尝试使用 talend 批处理 spark 作业来访问 Kerberos 集群中的配置单元 但我们收到以下 无法获取主 Kerberos 主体以用作更新程序 错误 通过使用 talend 中的标准作业 非 Spark 我们可以毫无问
  • Excel 单元格在双击之前不会计算

    我有一个包含三个求和函数的 Excel 工作表 该工作表是一个模板 因此除了 A 列中的一些文本描述外 工作表的其余部分是空白的 我使用 ETL 流程 Talend Open Studio 打开工作表 输入一些数据 附加几个其他工作表 并将
  • 如何使用 Talend Open Studio Data Integration 创建属性文件?

    我曾经使用 Talend Open Integration studio 创建作业并从 IDE 运行它或将其导出为可执行 jar 文件 但我并没有广泛使用它 是否可以创建一个包含不同服务器名称和其他变量的外部配置文件 以便在创建 Talen
  • Talend 和 Apache Spark?

    我对 Talend 和 Apache Spark 在大数据生态系统中的定位感到困惑 因为 Apache Spark 和 Talend 都可以用于 ETL 有人可以用一个例子解释一下吗 Talend 是一种基于工具的大数据方法 通过内置组件支
  • SQL Server:我可以使用 EXEC 来运行外部应用程序吗?

    您好 感谢您抽出时间 我一直在网上到处搜索一个示例 其中 SQL 触发器将运行外部应用程序 但我没有运气 我所看到的是 EXEC 将执行 SQL 过程 我需要这个的原因是 我有一个包含许多表的 SQL Server 2010 当某些表上发生
  • 如何在Talend中实现tLoop?

    我是 Talend 新手 需要一个示例作业来实施tLoop 如果作业失败 我想运行 10 次 我已经查看了文档 但我似乎无法弄清楚这一点 这个答案有2个部分 使用 tJava 创建循环 重新连接失败的数据源 5 次 添加JavaFlex 第

随机推荐

  • 关于C语言中free()的问题[重复]

    这个问题在这里已经有答案了 可能的重复 free 和 malloc 在 C 中如何工作 https stackoverflow com questions 1957099 how do free and malloc work in c 在
  • java中super不能作为构造函数第一行的解决方案

    我正在使用 CSVReader 类 该类将本地文件作为输入 但现在 我需要能够读取本地文件以及具有 URL 路径的文件 例如http example com example txt http example com example txt
  • 单击按钮时无法调用 html 中的 JavaScript 函数

    我正在制作一个 Chrome 扩展 其中有一个 html 文件 一个在新选项卡中打开修改后的链接的 JavaScript 文件 清单文件和图标 它工作正常 但现在我希望 javascript 函数仅在用户单击按钮时才工作 所以我在html文
  • 2013 年的浏览器支持 Web MIDI API?

    有谁知道是否有支持 Web MIDI 的浏览器 我已经尝试过样品http webaudio github io web midi api http webaudio github io web midi api 但他们向我抛出一个错误 说我
  • 将意图从主活动发送到两个片段

    我有2个Fragment我必须发送一些 id 到Fragment 我用这个 public void onItemLongClick View view int position FragmentManager fm getSupportFr
  • 如何配置 ASP.Net OutputCache 以根据 http 与 https 进行变化?

    以下是这样的场景 用户在浏览器中从我们的 WebApp 打开非安全页面 我们称之为 PageA 然后单击其中的链接将他们带到 PageB 的安全实例 进入 PageB 后 用户随后可以单击一个链接 将他们带回到 PageA 的安全实例 他们
  • ETXTBSY 以及如何覆盖它

    我需要写入正在执行的可执行文件 但无法打开它进行写入 例如 include
  • 如何按 MAX(日期) 进行选择?

    这是表结构 CREATE TABLE reports report id int 11 NOT NULL auto increment computer id int 11 NOT NULL default 0 date entered d
  • 在处理网络连接时有没有办法利用多核?

    当我们进行网络编程时 无论使用多进程 多线程还是select poll epoll 都只有一个进程 线程来处理同一端口上的连接 如果你想利用多核 你需要创建工作进程 线程 但是处理网络连接的界限又如何呢 在处理网络连接时有没有办法利用多核
  • 如何限制网站的某个部分,使其一次只能由一台计算机查看? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • 创建控制器时,调用目标引发了异常

    我是 ASP NET MVC 5 的初学者 正在构建一个小型应用程序 当我添加控制器时 弹出一条消息 运行所选代码生成器时出错 调用目标已引发异常 在添加控制器之前 我在 Web Config 文件中添加了一个连接字符串 请告诉我如何解决这
  • 如何使用SQL组过滤具有最大日期值的行

    我有下表 CREATE TABLE Test Id int value varchar 20 adate varchar 20 INSERT INTO Test Id value adate VALUES 1 100 2014 01 01
  • 从程序文件访问时文件访问被拒绝

    我有一个用 VS 2010 和 C 开发的小型 Winform 应用程序 并创建了设置 我已将应用程序配置文件放入应用程序文件夹路径中以保存用户凭据 安装后应用程序无法访问配置文件 因为我给定了程序安装默认路径 如下所示 ProgramFi
  • 将数组作为 x-www-form-urlencoded 的一部分发送

    I want to send array using postman the request looks like this Im using postman to execute requests I found on the inter
  • 如何通知另一个线程

    我想知道如何通知另一个线程的最佳方式 例如 我有一个后台线程 public void StartBackgroundThread new Thread new Runnable Override public void run Do som
  • 自定义 jQuery 下拉菜单

    我正在使用 jQuery 创建一个自定义的简单下拉菜单 该下拉菜单根据过度状态隐藏 显示元素 我现在遇到的问题是 当您查看它隐藏的显示元素时 您无法将鼠标移动到创建的下拉列表中 关于如何解决这个问题还有什么想法 有没有更简单的方法来做我所拥
  • 使用 Qt 设计应用程序

    我必须实现图形用户界面设计 选择的框架是Qt 经过一些实施工作后 出现了一些困难和问题 主要的一点是有一些花哨的设计元素 比如渐变 3D效果 阴影等等 目前使用的方法 我真的不太喜欢 是使用图形设计中的位图作为各种小部件的背景 根据元素的放
  • CVPixelBuffer 到 CIImage 总是返回 nil

    我试图将从 AVPlayerItemVideoOutput 中提取的 PixelBuffer 转换为 CIImage 但总是为零 The Code if videoOutput hasNewPixelBufferForItemTime pl
  • iPhone模拟器资源未更新

    我的 iPhone 模拟器拒绝更新我编辑的资源 进行 清理 并构建后 安装了新资源 在第二次运行时 它重新安装了旧的 我不知道它们是从哪里来的 有什么建议么 Go into Library Application Support iPhon
  • 比较 2 个文件并保留两个文件不共同的条目

    我有一个 CSV 文件和一个数据库表作为输入 我需要保留数据库表中的所有记录 但排除 CSV 文件中的记录 最终所有内容都会写入 CSV 文件 我所有的尝试都导致了数百个重复 所以我在这里面临很大的挑战 这是一个快速而肮脏的技巧 但它应该适