一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）

2023-11-01

Kafka到HDFS，除了用Kafka API和flume之外，还可以用kettle，最大优点是不用写代码！

版本：Kettle版本：8.2、Hadoop版本：3.1.3

前提：详情请看鄙人的一百零一、Kettle8.2.0连接Hive3.1.2(踩坑，亲测有效)

http://t.csdn.cn/mWfOChttp://t.csdn.cn/mWfOC

前提一、Hadoop系列配置文件已复制到kettle路径下路径为：D:\java\kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30

注意：以上的配置文件要与自己使用的服务器配置文件一致

前提二、在D:\java\kettle\pdi-ce-8.2.0.0-342\data-integration\plugins\pentaho-big-data-plugin\hadoop-configurations\hdp30\lib文件夹下注意替换jar包

前提三、在D:\java\kettle\pdi-ce-8.2.0.0-342\data-integration\lib增加MySQL驱动包，注意驱动包版本问题

这些准备好之后，下面开始用kettle采集Kafka中的数据到hdfs！

第1步，在kettle中创建新的转换任务。

第2步，在Streaming中拖拽Kafka consumer控件，并且修改Kafka consumer控件配置信息

首先，Setup模块

Transformation：最好新建一个，用于返回流中的结果

Connection：选择direct ,右侧输入bootstrap-server IP地址：端口号9092

Topics：选择kafka消费的topic

Consumer group:消费者组，随便填

其次，Batch模块（根据自己的实际情况修改参数）

Duration: 处理批次间隔

Number-of-records: 处理批次条数

maximum concurrent batches：最大并发批次（8.2版本没有，9.3版本有）

message prefetch limit：消息预取限制，防止读取数据量太大，造成kettle挂掉（8.2版本没有，9.3版本有）

Offset-management: 偏移量管理

最后，Result fields模块

其余，Fields和Options两个模块不需要修改。

第3步，拖拽一个应用模块里面的写日志控件，方便查看Kafka中的字段

第4步，拖拽一个转换模块里面的字段选择控件，只取Kafka日志中的Message字段

第5步，是关键的一步！！！拖拽输入模块里的JSON input插件

首先，在文件模块页面，勾选源定义在一个字段里，并从Message字段获取源。可以修改步骤名称

其次，在字段模块。如果Select fields查不到字段的话，别慌。手动输入即可，不过此处为第一级别的字段，二级字段不在此处。不需要很详细。另外，要注意字段的类型

这是第一个大坑。明明Kafka里有数据，JSON input控件却找不到字段，最后发现可以手动输入字段名。

第6步，由于还有二级字段需要解析，因此还要再拖拽一个JSON input字段

首先，拖拽输入模块里的JSON input插件

其次，在文件模块，勾选源定义在一个字段里，并从evaluationList字段获取源

最后，在字段页面，Select fields字段。如果找不到，手动输入即可。注意，字段类型

第7步，为了方便查看目前已有的字段，并且修改一些字段的名称，再次拖拽转换模块里面的字段选择控件

首先，在选择和修改页面，获取选择的字段，并且把不用的字段删掉

其次，在元数据页面，修改需要修改的字段名称，注意字段类型以及格式的修改，特别是时间戳类型的字段，不能用string

第8步，最后一个控件。由于我这边是从Kafka读取数据到HDFS，所以我这边是拖拽Big Data里的Hadoop file output控件

首先，拖拽Big Data里的Hadoop file output控件

其次，在文件页面。

1.选择Hadoop Cluster 如果没有，可以新建一个（前提是开启了Hadoop）

1.1.点击New新建Hadoop Cluster

cluster name：随便填

storage：选择HDFS

HDFS的Hostname、Port，注意与Hadoop配置文件core-site.xml里填的一模一样

Username和Password就填自己的服务器密码，一般用户名是root，密码就是自己设置的root用户密码

注意：如果配置文件core-site.xml里hostname是hurys22，那么kettle里的Hostname也必须是hurys22，而不能是192.168.1.22这种，这是第二个大坑。

1.2 这部分填好即可，剩下的部分不用填。填好后测试一下

这4个好即可，其他不需要

2.在Folder/File,选择hdfs的文件路径。可以先自己创建好，也可以让它自动生成。不过，自己要先创建好目标文件夹，因为她有个文件权限的问题。这是第三个大坑！！！

其实，经踩坑后发现，目标文件evaluation.csv，kettle任务可以自行创建，不过目标文件夹rtp，如果HDFS没有则必须提前手动创建好，然后给这个文件夹赋权即可。

2.1 创建hdfs目标文件夹

[root@hurys22 soft]# hdfs dfs -mkdir -p /rtp

2.2 文件赋权

[root@hurys22 ~]# hdfs dfs -chmod -R 777 /rtp/

注意：必须要修改文件夹权限，否则kettle会报错文件权限不够

Caused by: org.apache.hadoop.ipc.RemoteException(org.apache.hadoop.security.AccessControlException): Permission denied: user=Administrator, access=WRITE, inode="/rtp":root:supergroup:drwxr-xr-x

3.如果自己已经创建好目标文件，那么要勾选启动时不创建文件

4.文件扩展名填csv

5.一定要指定日期时间格式，一般选择年月日或者年月日时分秒。否则。你第二次导到HDFS的数据会覆盖第一次导出的数据，因为文件路径是一样的 这是第四个大坑！！！

6.一个小技巧，可以通过显示文件名查看即将生成的目标文件名，从而可以确认文件名是否正确

7.在内容页面。选择分隔符，一般是，或者；还有编码：UTF-8

8.在字段页面，点击获取字段和最小宽度，检查所需字段以及字段类型，注意时间戳字段类型的格式

第9步，在Hadoop file output控件修改好，保存kettle任务，点击运行

同时，HDFS会在提前建好的目标文件夹下自动生成目标文件，当任务停止时，文件才会显示数据大小。

不过，可以直接下载查看

第一步，点击Download

第二步，在下载文件夹下可以看到刚才下载的文件evaluation.csv以及文件大小

第三步，用notepad++打开目标文件evaluation.csv查看数据

截止这边，用kettle采集Kafka数据到HDFS中就全部结束了，坑也挺多的。

乐于奉献共享，帮我你我他！！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）的相关文章

更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
Spark 写入 hdfs 无法使用 saveAsNewAPIHadoopFile 方法

我在 CDH 5 2 0 上使用 Spark 1 1 0 并试图确保我可以读取和写入 hdfs 我很快意识到 textFile 和 saveAsTextFile 调用旧的 api 并且似乎与我们的 hdfs 版本不兼容 def testHD
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
使用字符串数组在 Hive 表上加载 CSV 文件

我正在尝试将 CSV 文件插入 Hive 其中一个字段是 string 数组这是 CSV 文件 48 Snacks that Power Up Weight Loss Aidan B Prince Health Fitness Trave
无法验证 serde：org.openx.data.jsonserde.jsonserde

我编写了这个查询来在配置单元上创建一个表我的数据最初是 json 格式所以我已经下载并构建了 serde 并添加了它运行所需的所有 jar 但我收到以下错误 FAILED Execution Error return code 1 fr
Hive：在查询中将 array 转换为 array

我有两张桌子 create table a 1 array
覆盖hadoop中的log4j.properties

如何覆盖hadoop中的默认log4j properties 如果我设置 hadoop root logger WARN console 它不会在控制台上打印日志而我想要的是它不应该在日志文件中打印 INFO 我在 jar 中添加了一个
如何有效地将数据从 Kafka 移动到 Impala 表？

以下是当前流程的步骤 Flafka http blog cloudera com blog 2014 11 flafka apache flume meets apache kafka for event processing 将日志写入
Impala：如何查询具有不同模式的多个镶木地板文件

在 Spark 2 1 中我经常使用类似的东西 df spark read parquet path to my files parquet 即使具有不同的模式也可以加载镶木地板文件的文件夹然后我使用 SparkSQL 对数据帧执行一些
更改spark_temporary目录路径

是否可以更改 temporarySpark在写入之前保存临时文件的目录特别是由于我正在编写表的单个分区因此我希望临时文件夹位于分区文件夹内是否可以由于其实现原因无法使用默认的 FileOutputCommiter FileOut
如何用snappy解压hadoop的reduce输出文件尾？

我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件归约输出文件以某种
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
MapReduce 中的分区到底是如何工作的？

我认为我总体上对 MapReduce 编程模型有一定的了解但即使在阅读了原始论文和其他一些来源之后我仍然不清楚许多细节特别是关于中间结果的分区我将快速总结到目前为止我对 MapReduce 的理解我们有一个可能非常大的输入数据集

随机推荐

正则表达式匹配不包含某些字符串的技巧

经常我们会遇到想找出不包含某个字符串的文本程序员最容易想到的是在正则表达式里使用 hede 来过滤 hede 字串但这种写法是错误的我们可以这样写 hede 但这样的正则表达式完全是另外一个意思它的意思是字符串里不能包含 h e d
【深度学习】 Python 和 NumPy 系列教程（廿五）：Matplotlib详解：3、多子图和布局：subplot()函数

目录一前言二实验环境三 Matplotlib详解 1 2d绘图类型 2 3d绘图类型 3 多子图和布局 1 subplot 函数简单示例一前言 Python是一种高级编程语言由Guido van Rossum于1991年创
Blender安装Babylon插件

参考链接 https doc babylonjs com extensions Exporters Blender 安装步骤图示首先去这个网站下载此文件 https github com BabylonJS BlenderExporter
区块链安全————区块链技术安全讨论

0x00 背景介绍区块链技术是金融科技 Fintech 领域的一项重要技术创新作为分布式记账 Distributed Ledger Technology DLT 平台的核心技术区块链被认为在金融征信物联网经济贸易结算资产管理等
浏览器出现无法访问此页面的提示的解决办法

部分地区与网络会出现该问题本人查询论坛后找到的有效解决办法为控制面板网络和internet internet选项连接局域网设置在为LAN使用代理服务器这一栏打上勾点击应用退出刷新一下就可以下来也有可能是hosts文件里
Kotlin高阶函数概念

一高阶函数的基本概念 1 传入或者返回函数的函数传入是函数返回也是函数 2 函数引用最常见的方式 println 3 带有接收者Receiver的引用pdfPrinter println 二看一下入门的例子 package net
腾讯员工收入曝光，我顿悟了一个成人世界的残酷事实

最近一张腾讯员工的收入证明火了收入证明上显示这位员工的职位是腾讯成都某游戏客户端开发已入职9年而在他的税后年收入那一栏显示着251多万元包括工资奖金和津贴等平均月收入约20万算下来税前大概是450万这张图在网上流
android壁纸显示逻辑

所有文章仅限自己备忘并无他用壁纸主要分为两类锁屏壁纸和桌面壁纸一壁纸服务的启动壁纸服务WallpaperManagerService中有一个内部类LifeCycle继承自SystemService SystemServer在启
数据结构——C++中实现栈链（含完整代码）

栈链相关代码 1 向栈顶插入元素 2 删除栈顶元素 3 判断栈是否为空 4 读取栈顶元素 0 退出程序栈其实就是一个特殊的线性表输入输出只能在一端基于这一特性完成栈链的相关操作注意事项由于插入和删除操作只可以在一端链表头部所以
Atcoder Beginner Contest 044

C C Tak and Cards 我一开始想的是先从小到大排个序然后分情况先从左往右一个数一个数枚举如果等于ave 1 就res 如果大于ave 1 就说明1个数的没有了然后从左到右两个数两个数枚举如果等于ave 2 就res
游戏外挂怎么做？

文章目录 1 什么是游戏外挂 2 外挂的分类及实现原理 2 1 辅助类外挂 2 2 专用插件类外挂 2 3 通用工具 2 4 内存修改器 2 5 变速器 2 6 按键精灵 2 7 模拟器 2 8 破解版转载自 Anti Cheat Exp
java TRC20

直接上代码创建地址离线 private static SecureRandom random new SecureRandom 具体方法 public static Map
15-数据结构-二叉树的遍历，递归和非递归

简介本文主要是代码实现二叉树遍历递归和非递归用栈主要为了好理解直接在代码处加了详细注释方便复习和后期默写主要了解其基本思想为后期熟练应用打基础遍历的意义就是为了实现在二叉树上进行各种操作给每个结点都光顾到位到根
C语言判断是否到达文件末尾

血的教训判断文件是否读到末尾的时候使用 while fgets 不要用 while feof fgets 不然回车符弄死人
Pixhawk之姿态解算篇（2）_mahony算法分析

一开篇还是没能进入到源码部分研究对姿态解算过程太过于模糊所以主要开始研究一下关于姿态解算的过程和实现本篇博文主要是以mahony的算法为基础理解姿态解算的过程主要参考的论文就是William Premerlani and Pau
linux创建文件的方法

linux创建文件可以通过以下六个方式来完成 gt 标准重定向符允许我们创建一个 0KB 的空文件 touch 如果文件不存在的话 touch 命令将会创建一个 0KB 的空文件 echo 通过一个参数显示文本的某行 printf 用于显示
python基础学习--基础

一基础知识 1 1 基础语法及编码规范 1 定义变量加if Python 通常是一行写完一条语句但如果语句很长我们可以使用反斜杠来实现多行语句sad total item one item two item three item f
二极管（一）：反向恢复时间

一反向恢复过程在图1所示的二极管电路中加入一个如图2所示的输入电压即在 0 时间内输入为二极管导通电路中有电流流过假设二极管的正向压降为当远大于时可忽略不计如果在时刻输入突然从变为在理想情况下二极管将即
一文让你彻底了解Linux内核文件系统(大总结)

一文件系统特点文件系统要有严格的组织形式使得文件能够以块为单位进行存储文件系统中也要有索引区用来方便查找一个文件分成的多个块都存放在了什么位置如果文件系统中有的文件是热点文件近期经常被读取和写入文件系统应该有缓存层文件应该
一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）

Kafka到HDFS 除了用Kafka API和flume之外还可以用kettle 最大优点是不用写代码版本 Kettle版本 8 2 Hadoop版本 3 1 3 前提详情请看鄙人的一百零一 Kettle8 2 0连接Hive3 1

一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）

一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效） 的相关文章

随机推荐

热门标签

一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）的相关文章