解决flink消费kafka过期数据和目前存量数据的计算（未来的方向）

2023-11-01

背景：

目前公司业务需要统计超过7天以上的特征统计，但是kafka只存7天的数据，如果只想通过flink sql去计算30天的用户特征要求当天生效，这是完不成的，但是看到下面的分享，感觉未来的方向有了。

一、2021 Apache Flink Meetup - Hosted by Netflix 的youtobe视频分享

目前这是Netflix的分享，目前还未将backfilling 的功能贡献回 iceberg 社区

https://www.youtube.com/watch?v=rtz3p_iijP8&feature=youtu.be（第45分钟开始）

二、简单的截图分享（重点看第四点）

1、标题

2、提高流利用数据的存活时间

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-gDutKmBv-1612260316010)(https://secure-static.wolai.com/static/gYWsDLFqQtkk91zogvqQ8Y/image.png)]

3、对比kafka和第三方存储的价格优势

4、Backfilling在Iceberg的使用，这个是重点，能够替代kafka存更多之前的数据，同时又能

5、Iceberg的流表结构

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Flink生产实战！

Iceberg

大数据

flink

解决flink消费kafka过期数据和目前存量数据的计算（未来的方向）的相关文章

浏览器出现无法访问此页面的提示的解决办法

部分地区与网络会出现该问题本人查询论坛后找到的有效解决办法为控制面板网络和internet internet选项连接局域网设置在为LAN使用代理服务器这一栏打上勾点击应用退出刷新一下就可以下来也有可能是hosts文件里
Kotlin高阶函数概念

一高阶函数的基本概念 1 传入或者返回函数的函数传入是函数返回也是函数 2 函数引用最常见的方式 println 3 带有接收者Receiver的引用pdfPrinter println 二看一下入门的例子 package net
腾讯员工收入曝光，我顿悟了一个成人世界的残酷事实

最近一张腾讯员工的收入证明火了收入证明上显示这位员工的职位是腾讯成都某游戏客户端开发已入职9年而在他的税后年收入那一栏显示着251多万元包括工资奖金和津贴等平均月收入约20万算下来税前大概是450万这张图在网上流

随机推荐

android壁纸显示逻辑

所有文章仅限自己备忘并无他用壁纸主要分为两类锁屏壁纸和桌面壁纸一壁纸服务的启动壁纸服务WallpaperManagerService中有一个内部类LifeCycle继承自SystemService SystemServer在启
数据结构——C++中实现栈链（含完整代码）

栈链相关代码 1 向栈顶插入元素 2 删除栈顶元素 3 判断栈是否为空 4 读取栈顶元素 0 退出程序栈其实就是一个特殊的线性表输入输出只能在一端基于这一特性完成栈链的相关操作注意事项由于插入和删除操作只可以在一端链表头部所以
Atcoder Beginner Contest 044

C C Tak and Cards 我一开始想的是先从小到大排个序然后分情况先从左往右一个数一个数枚举如果等于ave 1 就res 如果大于ave 1 就说明1个数的没有了然后从左到右两个数两个数枚举如果等于ave 2 就res
游戏外挂怎么做？

文章目录 1 什么是游戏外挂 2 外挂的分类及实现原理 2 1 辅助类外挂 2 2 专用插件类外挂 2 3 通用工具 2 4 内存修改器 2 5 变速器 2 6 按键精灵 2 7 模拟器 2 8 破解版转载自 Anti Cheat Exp
java TRC20

直接上代码创建地址离线 private static SecureRandom random new SecureRandom 具体方法 public static Map
15-数据结构-二叉树的遍历，递归和非递归

简介本文主要是代码实现二叉树遍历递归和非递归用栈主要为了好理解直接在代码处加了详细注释方便复习和后期默写主要了解其基本思想为后期熟练应用打基础遍历的意义就是为了实现在二叉树上进行各种操作给每个结点都光顾到位到根
C语言判断是否到达文件末尾

血的教训判断文件是否读到末尾的时候使用 while fgets 不要用 while feof fgets 不然回车符弄死人
Pixhawk之姿态解算篇（2）_mahony算法分析

一开篇还是没能进入到源码部分研究对姿态解算过程太过于模糊所以主要开始研究一下关于姿态解算的过程和实现本篇博文主要是以mahony的算法为基础理解姿态解算的过程主要参考的论文就是William Premerlani and Pau
linux创建文件的方法

linux创建文件可以通过以下六个方式来完成 gt 标准重定向符允许我们创建一个 0KB 的空文件 touch 如果文件不存在的话 touch 命令将会创建一个 0KB 的空文件 echo 通过一个参数显示文本的某行 printf 用于显示
python基础学习--基础

一基础知识 1 1 基础语法及编码规范 1 定义变量加if Python 通常是一行写完一条语句但如果语句很长我们可以使用反斜杠来实现多行语句sad total item one item two item three item f
二极管（一）：反向恢复时间

一反向恢复过程在图1所示的二极管电路中加入一个如图2所示的输入电压即在 0 时间内输入为二极管导通电路中有电流流过假设二极管的正向压降为当远大于时可忽略不计如果在时刻输入突然从变为在理想情况下二极管将即
一文让你彻底了解Linux内核文件系统(大总结)

一文件系统特点文件系统要有严格的组织形式使得文件能够以块为单位进行存储文件系统中也要有索引区用来方便查找一个文件分成的多个块都存放在了什么位置如果文件系统中有的文件是热点文件近期经常被读取和写入文件系统应该有缓存层文件应该
一百零八、Kettle采集Kafka数据到HDFS（踩坑，亲测有效）

Kafka到HDFS 除了用Kafka API和flume之外还可以用kettle 最大优点是不用写代码版本 Kettle版本 8 2 Hadoop版本 3 1 3 前提详情请看鄙人的一百零一 Kettle8 2 0连接Hive3 1
Python实现支持人机对战的五子棋软件（超详细）

完整工程下载链接文章目录利用pygame实现一个支持双人对战以及人机对战的小游戏最终效果展示总体框架介绍具体功能以及算法思想一主界面与棋盘设计二移位与胜负判定三棋型价值设计四人机模式和双人模式的设计五游戏状态
使用PHPExcel实现Excel文件的导入和导出

在之前有写过一篇文章讲述了使用 PHP快速生成excel表格文件并下载这种方式生成Excel文件生成速度很快但是有缺点是 1 单纯的生成Excel文件生成的文件没有样式单元格属性填充色宽度高度边框颜色不能自定义 2 生成
java.lang.unsatisfiedlinkerror解决方法

有时候我们接入第三方sdk的时候同时导入了一些so库编译运行后发生会报以下异常 java lang unsatisfiedlinkerror 解决方法在主工程app的build gradle中加入以下代码作用是指定so库的位置 an
python自动拷贝日志

usr bin env python import os import time import re import os from time import sleep cmd3 adb pull resources map BaiduMap
MacBook配置Chromedriver

最近换了mbp 之前的项目中包含了Chromedriver 但是我不想设置path了所以重新配置了下Chromedriver 先看自己浏览器版本去下载对应版本的Chromedriver ChromeDriver WebDriver fo
php怎么接收用户字符,PHP把用户的提交cookie转成字符串

小编这次带来的是这种cookie类型的获取方式哦当你想获取cookie字符串时 gt 偷懒 gt 搜索引擎查询好久 gt 没找到 gt 哎 gt 无奈只能自己写啦 gt 原理用户访问带cookie gt 获取cookie数组 gt 获
解决flink消费kafka过期数据和目前存量数据的计算（未来的方向）

背景目前公司业务需要统计超过7天以上的特征统计但是kafka只存7天的数据如果只想通过flink sql去计算30天的用户特征要求当天生效这是完不成的但是看到下面的分享感觉未来的方向有了一 2021 Apache Flink