Flink：将文件与kafka流连接

2024-01-21

我有一个问题我真的无法弄清楚。所以我有一个 kafka 流，其中包含一些如下数据：

{"adId":"9001", "eventAction":"start", "eventType":"track", "eventValue":"", "timestamp":"1498118549550"}

我想用另一个值“bookingId”替换“adId”。该值位于 csv 文件中，但我无法真正弄清楚如何让它工作。

这是我的映射 csv 文件：

9001;8
9002;10

所以我的输出理想情况下是这样的

{"bookingId":"8", "eventAction":"start", "eventType":"track", "eventValue":"", "timestamp":"1498118549550"}

该文件每小时至少刷新一次，因此它应该会获取对其所做的更改。

我目前的代码对我不起作用：

final StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
env.enableCheckpointing(30000); // create a checkpoint every 30 seconds
env.setStreamTimeCharacteristic(TimeCharacteristic.ProcessingTime);

DataStream<String> adToBookingMapping = env.readTextFile(parameters.get("adToBookingMapping"));

DataStream<Tuple2<Integer,Integer>> input = adToBookingMapping.flatMap(new Tokenizer());

//Kafka Consumer
Properties properties = new Properties();
properties.setProperty("bootstrap.servers", parameters.get("bootstrap.servers"));
properties.setProperty("group.id", parameters.get("group.id"));

FlinkKafkaConsumer010<ObjectNode> consumer = new FlinkKafkaConsumer010<>(parameters.get("inbound_topic"), new JSONDeserializationSchema(), properties);

consumer.setStartFromGroupOffsets();

consumer.setCommitOffsetsOnCheckpoints(true);

DataStream<ObjectNode> logs = env.addSource(consumer);

DataStream<Tuple4<Integer,String,Integer,Float>> parsed = logs.flatMap(new Parser());

// output -> bookingId, action, impressions, sum
DataStream<Tuple4<Integer, String,Integer,Float>> joined = runWindowJoin(parsed, input, 3);


public static DataStream<Tuple4<Integer, String, Integer, Float>> runWindowJoin(DataStream<Tuple4<Integer, String, Integer, Float>> parsed,
      DataStream<Tuple2<Integer, Integer>> input,long windowSize) {

  return parsed.join(input)
          .where(new ParsedKey())
          .equalTo(new InputKey())
          .window(TumblingProcessingTimeWindows.of(Time.of(windowSize, TimeUnit.SECONDS)))
          //.window(TumblingEventTimeWindows.of(Time.milliseconds(30000)))
          .apply(new JoinFunction<Tuple4<Integer, String, Integer, Float>, Tuple2<Integer, Integer>, Tuple4<Integer, String, Integer, Float>>() {

              private static final long serialVersionUID = 4874139139788915879L;

              @Override
              public Tuple4<Integer, String, Integer, Float> join(
                              Tuple4<Integer, String, Integer, Float> first,
                              Tuple2<Integer, Integer> second) {
                  return new Tuple4<Integer, String, Integer, Float>(second.f1, first.f1, first.f2, first.f3);
              }
          });
}

该代码仅运行一次，然后停止，因此它不会使用 csv 文件转换 kafka 中的新条目。关于如何使用 csv 文件中的最新值处理来自 Kafka 的流，有什么想法吗？

亲切的问候，

黑暗统治

您的目标似乎是将流数据与缓慢变化的目录（即侧面输入）结合起来。我不认为join操作在这里很有用，因为它不跨窗口存储目录条目。此外，文本文件是有界输入，其行被读取一次。

考虑使用connect创建连接的流，并将目录数据存储为托管状态以执行查找。运算符的并行度需要为 1。

您可以通过研究“侧面输入”、查看人们今天使用的解决方案来找到更好的解决方案。看FLIP-17 https://cwiki.apache.org/confluence/display/FLINK/FLIP-17+Side+Inputs+for+DataStream+API and Dean Wampler 在 Flink Forward 上的演讲 https://youtu.be/BzCEYGm1-e4?t=22m6s.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ApacheKafka

apacheflink

Flink：将文件与kafka流连接的相关文章

Flink中为什么DataStream不支持聚合

我是 Flink 的新手有时我想在 DataStream 上进行聚合而不需要先执行 keyBy 为什么 Flink 不支持 DataStream 上的聚合 sum min max 等谢谢你艾哈迈德 Flink 支持非 keyed
如何使用rest api设置kafka连接auto.offset.reset

我创建了一个接收器 kafka 连接将数据转换为其他存储我想设置auto offset reset as latest当新连接器创建时kafka connect rest api 我已经设定consumer auto offset re
kafka 连接 s3 源无法与 Minio 一起使用

我已经验证了与 minio 的连接确保凭据工作正常并且可以访问 minio 另外如果我尝试任何其他值store url http minio 9000我无法保存配置所以我猜想在可见性方面不存在问题卡夫卡连接容器和minio容器我不确
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe

我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且我正在尝试在火花流中使用来自卡夫卡的消息以下是代码 val topics notes val kafkaParams Map String Object bootst
Kafka Consumer 无法加载任何密钥库类型和路径的 SSL 密钥库（Logstash ArcSight 模块）

我需要为 Kafka Consumer 提供客户端身份验证证书但是它总是失败并出现以下异常无法加载 SSL 密钥库 ssl cipher suites null ssl enabled protocols TLSv1 2 TLSv1
KafkaConsumer.commitAsync() 行为的偏移量比以前更低

kafka 将如何处理调用 KafkaConsumer commitAsync Map
Kafka Producer配置重试策略

需要更改 Kafka Producer 配置的哪些参数以便生产者应该 1 重试n次 2 n个间隔后如果代理关闭也会收到相同的消息我需要处理与此相关的情况 https github com rsyslog rsyslog issues
Kafka Connect Confluence S3 Sink 连接器：找不到类 io.confluence.connect.avro.AvroConverter

使用此 Kafka Connect 连接器 https www confluence io hub confluenceinc kafka connect s3 https www confluent io hub confluentinc
Kafka Streams - 如何扩展 Kafka 存储生成的变更日志主题

我有多个冗余应用程序实例它们想要使用主题的所有事件并独立存储它们以进行磁盘查找通过rocksdb 为了便于论证我们假设这些冗余消费者正在服务无状态 http 请求因此负载不是使用 kafka 共享的而是使用 kafka 将数据从
Flink 窗口：聚合并输出到接收器

我们有一个数据流其中每个元素都是这种类型 id String type Type amount Integer 我们想要聚合这个流并输出总和amount每周一次目前的解决方案 Flink 管道示例如下所示 stream keyBy ty
Flink从hdfs读取数据

我是 Flink 的新生我想知道如何从 hdfs 读取数据有人可以给我一些建议或一些简单的例子吗谢谢你们如果您的文件采用文本文件格式则可以使用 ExecutionEnvironment 对象中的 readTextFile 方法这
Kafka Streams 反序列化处理程序

我正在尝试在反序列化中使用 LogAndContinueExceptionHandler 当发生错误时通过成功记录错误并继续它可以正常工作但是假设我的传入消息有连续的错误流我停止并重新启动 kafka 流应用程序然后我看到失败并
从kafka获取特定时间段的结果

这是我的代码它使用kafka python now datetime now month ago now relativedelta month 1 topic some topic name consumer KafkaConsumer
Kafka JDBC Sink Connector，批量插入值

我每秒收到很多消息通过 http 协议 50000 100000 并希望将它们保存到 PostgreSql 我决定使用 Kafka JDBC Sink 来实现此目的消息以一条记录保存到数据库而不是批量保存我想在 PostgreSQL
Flink Kafka - 如何使应用程序并行运行？

我正在 Flink 中创建一个应用程序读取某个主题的消息对其进行一些简单的处理将结果写入不同的主题我的代码确实有效然而它不并行运行我怎么做看来我的代码只在一个线程块上运行在 Flink Web 仪表板上应用程序进入运行状态
Apache Kafka 中消费者消费消息的延迟

我正在使用 Kafka 0 8 0 并尝试实现下面提到的场景 JCA API 充当生产者并将数据发送到 gt 消费者 gt HBase 一旦我使用 JCA 客户端获取数据我就会将每条消息发送给消费者例如一旦生产者发送消息 no 1 我
提供了 kafka schema.registry.url 但不是已知的配置

尝试使用架构注册表发布有关主题的 json 消息但出现以下错误以下Spring Boot方法已提供配置 schema registry url 但不是已知配置应用程序 yml 文件 server port 9080 spring k
获取：导入 Spark 模块时出错：没有名为“pyspark.streaming.kafka”的模块

我需要将从 pyspark 脚本创建的日志推送到 kafka 我正在做 POC 所以在 Windows 机器上使用 Kafka 二进制文件我的版本是 kafka 2 4 0 spark 3 0 和 python 3 8 1 我正在使用 p
是否有任何模拟器/工具可以生成流式传输消息？

出于测试目的我需要模拟客户端每秒生成 100 000 条消息并将它们发送到 kafka 主题有没有任何工具或方法可以帮助我生成这些随机消息有一个用于生成虚拟负载的内置工具位于bin kafka producer perf test
Kafka Consumer 如何（应该）应对有毒消息

当 Kafka Consumer 无法反序列化消息时客户端应用程序是否有责任处理有毒消息 Or Kafka是否会增加消息偏移并继续消费有效消息是否有处理 Kafka 主题上的有毒消息的最佳实践当 Kafka 无法反序列化记录时

随机推荐

用于检索服务凭证的 Bluemix API

在之前的一个question https stackoverflow com questions 40321385 how to get an api key for messagehubs management rest api 4032
如何从TFS数据库查询标签？

我正在为我们的 QA 团队编写一些自定义 SSRS 报告我需要将测试用例标签添加到我的查询中据我了解这些不在 TFS Warehouse 中我在操作存储中找到了 dbo tbl TagDefinition 但无法弄清楚如何将其加
删除部分臃肿的 git 历史记录 [重复]

这个问题在这里已经有答案了我的问题在建立存储库的早期出现了一个错误导致当时的所有图像都被写入存储库这很快就在 gitignore 文件中得到纠正不再出现问题现在的问题是我们有一个巨大的存储库其中包含图像的历史记录这在本地克
Xamarin 表单：如何从图库或相机选择图片后实现图像裁剪

我在用媒体插件 https github com jamesmontemagno MediaPlugin用于打开相机和图库来选择图片选择图片后我需要在将其设置到 UI 之前对其进行裁剪我努力了AllowCropping true在相机
spring cloud配置ssh连接失败

使用 Spring Boot Java 1 8 云配置服务器我正在尝试使用此 application yml 片段访问 git 存储库但无法找到主机密钥 spring cloud config allowOverride true fa
TFS2015新安装，503服务不可用

我已经按照单服务器手册安装了 TFS 2015 我配置了一个简单的构建构建了一个小型控制台应用程序添加了一个单元测试项目并进行了一个小单元测试构建配置现在分为三个步骤 NuGet 安装程序 Visual Studio 构建视觉
捕获 SSL 证书请求错误，以便重定向到正确的站点

我们正在使用 IIS 6 和 ASP Net 当用户使用以下方式发出安全页面请求时 https somesite com securePage aspx https somesite com securePage aspx 用户收到错误错
django.core.cache.backends.base.InvalidCacheBackendError：找不到后端“django_redis.cache.RedisCache”：无法导入名称“6”

django redis导入失败six from django utils 追溯 Internal Server Error harem reponse Traceback most recent call last File home y
UITableviewCell AccessoryView：设置accessoryView等于UIImageView无限循环

编辑我自己找到了答案但这里是为其他需要它的人提供的 UIImageView 无法共享因此每个可见单元格都需要每个 UIImageView 的不同实例化现在你知道了我有一个包含两种类型单元格的自定义表格一个单元格仅设置为在复选标记
python 仅适用于 sudo

如果我使用以下命令调用它我的 python 2 7 脚本可以在我的 Ubuntu 系统上运行 sudo python filename py 或者使用 bash 脚本 sudo bashscriptname sh 但是如果我从 Pycha
什么是嵌套名称说明符？

相关this https stackoverflow com questions 4094253 name lookup clarification 我想知道嵌套名称说明符到底是什么我查阅了草稿但我可以理解语法因为我还没有上过任何编译
使用 preg_match 查找字符串是否包含脚本标签

如何编写与 PHP 的 preg match 函数一起使用的模式来检查字符串是否包含脚本标签出于安全原因基本上你不能以下是我过去在做这件事时学到的一些东西 a href a p 有许多 URL 方案相当于javascript 在不同
VS2010 上的 MVC 项目错误：此安装不支持该项目类型

我正在尝试打开MVC project using VS2010 我从以下位置打开这个项目TFS server但我没能打开它并出现错误 The project type is not supported by this installati
消息模板应该是编译时常量

我有这个代码 HttpGet average videoGuid public async Task
使用 Base64 数据在 Chrome 中使用 favicon

我为此找了半天看起来人们真的很容易让它工作但是我在让 Chrome 理解它时遇到了一些问题它在FF中工作我的根目录中有 png 格式的图标有任何想法吗我正在使用这段代码
尝试使用 Python SFTP 文件时定义传输模式

我们正在尝试使用 python 脚本驻留在 SFTP 服务器上将文本文件从 Linux 服务器传输到 Windows 服务器我们有必要确保文件使用文本模式传输我没有看到这种可能性pysftp 还有其他Python库支持这个吗 pys
如何使用 PyAutoGUI 检测按键事件？

如何使用 PyAutoGUI 检测按键事件在我的研究中我无法在这个模型中举例 import pyautogui num 0 if pyautogui press b I know the right thing is not to us
段落标签不包含块元素

如何在 HTML 段落标记中放置块元素当我尝试这样做时 Firebug 的 HTML 选项卡显示该段落未包含块元素此外应用于段落的任何 CSS 都不适用于子块元素这段代码 p p ol li foo li li bar li ol
如何在 Conda environment.yml 中指定版本范围

是否可以在conda包的environment yml文件中指定版本范围 The 官方文档 https conda io projects conda en latest user guide tasks manage environmen
Flink：将文件与kafka流连接

我有一个问题我真的无法弄清楚所以我有一个 kafka 流其中包含一些如下数据 adId 9001 eventAction start eventType track eventValue timestamp 1498118549550

Flink：将文件与kafka流连接

Flink：将文件与kafka流连接 的相关文章

随机推荐

热门标签

Flink：将文件与kafka流连接的相关文章