如何使用 Flink SQL 按事件时间对流进行排序

2023-12-26

我有一个故障DataStream<Event>我想要排序，以便事件按事件时间时间戳排序。我将我的用例简化为我的 Event 类只有一个字段 -timestamp field:

public static void main(String[] args) throws Exception {
    StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
    StreamTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

    env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
    env.setParallelism(1);

    DataStream<Event> eventStream = env.addSource(new OutOfOrderEventSource())
            .assignTimestampsAndWatermarks(new TimestampsAndWatermarks());

    Table events = tableEnv.fromDataStream(eventStream, "timestamp.rowtime");
    tableEnv.registerTable("events", events);
    Table sorted = tableEnv.sqlQuery("SELECT timestamp FROM events ORDER BY eventTime ASC");
    DataStream<Row> sortedEventStream = tableEnv.toAppendStream(sorted, Row.class);

    sortedEventStream.print();

    env.execute();
}

我收到此错误：

线程“main”中的异常 org.apache.flink.table.api.SqlParserException：SQL 解析失败。在第 1 行第 8 列遇到“timestamp FROM”。

似乎我没有以正确的方式指定事件时间属性，但不清楚出了什么问题。

问题原来是使用timestamp作为我的 Event 类中的字段名称。将其更改为eventTime足以让一切正常运转：

public class Sort {
    public static final int OUT_OF_ORDERNESS = 1000;

    public static void main(String[] args) throws Exception {

        StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
        StreamTableEnvironment tableEnv = TableEnvironment.getTableEnvironment(env);

        env.setStreamTimeCharacteristic(TimeCharacteristic.EventTime);
        env.setParallelism(1);

        DataStream<Event> eventStream = env.addSource(new OutOfOrderEventSource())
                .assignTimestampsAndWatermarks(new TimestampsAndWatermarks());

        Table events = tableEnv.fromDataStream(eventStream, "eventTime.rowtime");
        tableEnv.registerTable("events", events);
        Table sorted = tableEnv.sqlQuery("SELECT eventTime FROM events ORDER BY eventTime ASC");
        DataStream<Row> sortedEventStream = tableEnv.toAppendStream(sorted, Row.class);

        sortedEventStream.print();

        env.execute();
    }

    public static class Event {
        public Long eventTime;

        Event() {
            this.eventTime = Instant.now().toEpochMilli() + (new Random().nextInt(OUT_OF_ORDERNESS));
        }
    }

    private static class OutOfOrderEventSource implements SourceFunction<Event> {
        private volatile boolean running = true;

        @Override
        public void run(SourceContext<Event> ctx) throws Exception {
            while(running) {
                ctx.collect(new Event());
                Thread.sleep(1);
            }
        }

        @Override
        public void cancel() {
            running = false;
        }
    }

    private static class TimestampsAndWatermarks extends BoundedOutOfOrdernessTimestampExtractor<Event> {
        public TimestampsAndWatermarks() {
            super(Time.milliseconds(OUT_OF_ORDERNESS));
        }

        @Override
        public long extractTimestamp(Event event) {
            return event.eventTime;
        }
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apacheflink

flinkstreaming

flinksql

如何使用 Flink SQL 按事件时间对流进行排序的相关文章

谁能分享一下 Scala 中的 Flink Kafka 示例吗？

谁能分享一下Scala中Flink Kafka 主要是从Kafka接收消息的工作示例吗我知道有一个Kafka字数统计 https github com apache spark blob master examples src main
使用 Flink LocalEnvironment 进行生产

我想了解本地执行环境的局限性以及它是否可以用于在生产中运行感谢任何帮助见解谢谢 LocalExecutionEnvironment 启动一个 Flink MiniCluster 它在单个 JVM 中运行整个 Flink 系统 JobM
Apache Flink：KeyedStream 上的数据分布不均匀

我在 Flink 中有这样的 Java 代码 env setParallelism 6 Read from Kafka topic with 12 partitions DataStream
Flink时间特性和AutoWatermarkInterval

在 Apache Flink 中 setAutoWatermarkInterval interval 向下游操作员生成水印以便他们提前事件时间如果水印在指定的时间间隔内没有更改没有事件到达运行时将不会发出任何水印另一方面如果在下
如何在其他流的基础上过滤Apache flink流？

我有两个流一个是 Int 另一个是 json 在 json Schema 中有一个键是一些 int 所以我需要通过与另一个整数流的键比较来过滤 json 流那么在 Flink 中是否可能是的您可以使用 Flink 进行这种流处理
在任务管理器之间均匀分配 Flink 运算符

我正在 15 台机器的裸机集群上构建 Flink 流应用程序原型我使用带有 90 个任务槽 15x6 的纱线模式该应用程序从单个 Kafka 主题读取数据 Kafka主题有15个分区所以我也将源算子的并行度设置为15 但是我发现 F
flink kafka生产者在检查点恢复时以一次模式发送重复消息

我正在写一个案例来测试 flink 两步提交下面是概述 sink kafka曾经是kafka生产者 sink stepmysql接收器是否扩展two step commit sink comparemysql接收器是否扩展two step
Apache Flink 检查点卡住

我们正在运行一个 ListState 介于 300GB 到 400GB 之间的作业并且有时该列表可能会增加到数千在我们的用例中每个项目都必须有自己的 TTL 因此我们使用 S3 上的 RocksDB 后端为此 ListState 的每
在 Flink 中，我可以在同一个槽中拥有一个算子的多个子任务吗？

探索Apache Flink几天了对Task Slot的概念有些疑惑虽然有人问了几个问题但有一点我不明白我正在使用一个玩具应用程序进行测试运行本地集群我已禁用运算符链接我从文档中知道插槽允许内存隔离而不是 CPU 隔离阅读文
在 Flink 流中使用静态 DataSet 丰富 DataStream

我正在编写一个 Flink 流程序其中我需要使用一些静态数据集信息库 IB 来丰富用户事件的数据流对于例如假设我们有一个买家的静态数据集并且有一个传入的事件点击流对于每个事件我们希望添加一个布尔标志来指示事件的执行者是否是买家
Apache Flink - 作业内部无法识别自定义 java 选项

我已将以下行添加到 flink conf yaml 中 env java opts Ddy props path PATH TO PROPS FILE 启动 jobmanager jobmanager sh start cluster 时
Flink 的简单 hello world 示例

我正在寻找 Apache flink 的 hello world 体验的最简单的示例假设我刚刚在一个干净的盒子上安装了 flink 那么为了让它做某事我需要做的最低限度是什么我意识到这很模糊这里有一些例子来自终端的三个 pyth
Apache Flink 上的 zipWithIndex

我想为我的输入的每一行分配一个id 这应该是一个数字0 to N 1 where N是输入中的行数粗略地说我希望能够执行以下操作 val data sc textFile textFilePath numPartitions val r
Flink 使用 Ceph 作为持久存储

Flink 文档建议 Ceph 可以用作状态的持久存储 https ci apache org projects flink flink docs release 1 3 dev stream checkpointing html http
我可以将 flink RocksDB 状态后端与本地文件系统一起使用吗？

我正在探索使用 FlinkrocksDb 状态后端文档似乎暗示我可以使用常规文件系统例如 file data flink checkpoints 但代码 javadoc 仅在此处提到 hdfs 或 s3 选项我想知道是否可以将本地文件
Flink 窗口：聚合并输出到接收器

我们有一个数据流其中每个元素都是这种类型 id String type Type amount Integer 我们想要聚合这个流并输出总和amount每周一次目前的解决方案 Flink 管道示例如下所示 stream keyBy ty
当我重新运行 Flink 消费者时，Kafka 再次消费最新消息

我在用 Scala 编写的 Apache Flink API 中创建了一个 Kafka 消费者每当我从某个主题传递一些消息时它就会及时接收它们但是当我重新启动使用者时它不会接收新的或未使用的消息而是使用发送到该主题的最新消息这
2022年Flink可以支持什么Java版本？

假设我开始一个新的 Flink Java 项目如果我寻找稳定的 Flink Java 生产体验我应该使用哪个版本官方docs https nightlies apache org flink flink docs master do
Flink任务管理器内存不足和内存配置

我们使用 Flink 流在单个集群上运行一些作业我们的工作是使用rocksDB 来保存状态该集群配置为在 3 个独立的 VM 上使用单个 Jobmanager 和 3 个 Taskmanager 运行每个 TM 均配置为运行 14GB
Flink：Jobmanager UI 中设置的并行度与任务槽有何关系？

假设我有 8 个任务管理器和 16 个任务槽如果我使用 Jobmanager UI 提交作业并将并行度设置为 8 我是否只使用 8 个任务槽如果我有 8 个具有 8 个槽位的任务管理器并以并行度 8 提交相同的作业该怎么办是完全一

随机推荐

合并 Spark 数据框中的两列以形成单列

我有一个包含两列的 Spark 数据框 src edge and dest edge 我只是想创建新的 Spark 数据框使其包含单个列id值来自src edge and dest edge src dst 1 2 1 3 我想创建df2
确认框定制？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我需要一个绿色确认框以及是否按钮而不是确定取消你能建议我如何实现这一点吗如果有替代方案请给我它的代码包括运行它所需的 css
如何构建 Eclipse RCP 应用程序以便其功能可以自动更新？

我正在构建一个由多个功能组成的 RCP 应用程序我的 RCP 应用程序配置为每次启动时检查更新我当前的问题是我需要在构建时安装我的功能之一以便在自动检查更新期间它会得到更新而无需强制用户手动安装它我需要此功能独立于系统中的其
使用 javascript 禁用中键单击滚动

背景我正在创建一个让人想起的表格何时好网 http whenisgood net Create 因为它具有针对表格元素的单击拖动切换功能我想在鼠标左键中键和右键激活时调用不同类型的切换代码mousedown event 通过使用 JQ
在后台运行Linux命令并在关闭SSH后继续运行[重复]

这个问题在这里已经有答案了我需要运行 Perl 脚本几天来处理某些事情在 Linux Centos 服务器上我从 SSH 终端运行以下命令 nohup perl script cgi 2 gt 1 这会在后台运行脚本并将输出写入 no
我的 docker 容器未在 Docker for Windows（本机使用 Hyper-V）上的 localhost (0.0.0.0) 上启动

我正在跟进数字海洋的教程 https www digitalocean com community tutorials how to run nginx in a docker container on ubuntu 14 04关于如何启动
SSL：NancyFx Selfhost Mono Linux (pi)

我是 linux PI 和 mono 的新手对新手问题表示歉意如何在 mono linux pi 上通过 https 运行 NancyFx 架子主机如果我能够使用 OpenSsl cer 文件创建证书如何将其分配给端口在文档中展
使用 apache commons cli 定义位置参数

我想定义一个 Apache Commons CLI 解析器其中包括命名参数和位置参数 program a optA b optB f pos1 pos2 如何验证 pos1 和 pos2 快速阅读文档后我不知道 CommandLine
为什么构建执行器状态显示一个管道作业有两个作业？

我正在使用 groovy 管道脚本来进行构建作业所以在 jenkins 管道中就像是 node git url myurl git load mydir myfile groovy 其工作效果符合预期但在构建执行器状态下它显示为两个正
Facebook 表示有效 URL 不是有效 URL

尝试将应用程序域添加到新应用程序事情是域名是http the me http the me Facebook 不认为这是有效的 URL 有什么解决办法吗你包括吗http 在那里不应该有那个只需使用the me作为您的域名我刚刚尝试
创建一个正常运行的 Response 对象

出于测试目的我尝试在 python 中创建一个 Response 对象但事实证明它比听起来更难我试过这个 from requests models import Response the response Response the r
Ant每次都会重建库项目

我有一个 Android 项目其中包含两个 Android 库项目我正在使用命令ant debug构建该项目大约需要 1 分 20 秒我算了一下编译第一个android库项目用了17秒编译第二个android库项目用了42秒由于
数据网格显示一个新行，但不显示任何后续行

我有一个数据网格其中一列显示组合框目前新行显示在现有行下方正如预期的那样
如何使用 EssentialAction

我有一个自定义正文解析器可将请求正文流式传输到 Amazon S3 实例并且我想在上传文件之前进行验证在请求的标头中我可以访问内容大小和用户的身份验证令牌通过这两件事我可以验证用户是否有权上传文件阅读 Play 的文档后似乎
获取请求客户端的 IP 地址（Soap 消息）

我构建了一个 ASMX 服务并在代码中处理来自 ELMAH 的错误日志我将所有字段添加到数据库中然后添加更多字段其中之一是所请求客户端的 IP 地址但我无法请阅读不知道如何得到我已经习惯了 string ipAddress
Java，不支持的类版本错误。我怎样才能解决这个问题

我在 eclipse 中做作业它没有报告任何错误甚至没有警告当我尝试从终端编译它时出现以下错误它在 eclipse 中运行和编译都很好我认为这与java版本有关无论如何要修复它或尝试绕过它 vedran vedran debi
为什么不能在批处理 for 循环中使用问号？

Preface 在编写单独的代码时我遇到了 for 循环中问号的问题如下所示 for循环中没有访问到问号批处理文件 echo off for x in the quick brown fox do echo x Output the
当邮件程序没有这样定义时，如何调用邮件程序上的类方法？

在 Rails 中发送邮件时通常会这样做 UserMailer password reset user deliver 但如果我们向内看UserMailer我们可以看到这个 def password reset user not self
如何在我的 Xcode 项目中查看整个 SCM 历史记录？

如果我查看项目信息中的 SCM 选项卡我只会看到影响项目文件的提交我在哪里可以获得整个项目的所有提交的列表 Xcode 4 转到 Organizer 右上角 Repositories 选择存储库就在那里
如何使用 Flink SQL 按事件时间对流进行排序

我有一个故障DataStream

如何使用 Flink SQL 按事件时间对流进行排序

如何使用 Flink SQL 按事件时间对流进行排序 的相关文章

随机推荐

热门标签

如何使用 Flink SQL 按事件时间对流进行排序的相关文章