Flink on Zeppelin-1

2023-11-12

准备工作

下载Zeppelin 0.9.0 preview1，或者下载

除了下载Flink的标准release，如果你要使用Flink on Yarn模式或者连接Hive，那么你还需要下载其他Flink组件。

flink-hadoop-compatibility (https://repo1.maven.org/maven2/org/apache/flink/flink-hadoop-compatibility_2.11/1.9.1/flink-hadoop-compatibility_2.11-1.9.1.jar)
flink-shaded-hadoop-2-uber (https://repo.maven.apache.org/maven2/org/apache/flink/flink-shaded-hadoop-2-uber/2.7.5-7.0/flink-shaded-hadoop-2-uber-2.7.5-7.0.jar)

连接Hive需要的组件：

flink-connector-hive
hive-exec

使用pyflink需要的组件

flink-python

这是我的lib目录下的所有jar (也可以参考Flink官方文档，https://ci.apache.org/projects/flink/flink-docs-master/dev/table/hive/scala_shell_hive.html）

配置Zeppelin + Flink

接下来是配置Zeppelin和Flink。首先解压缩Zeppelin包之后，cd到Zeppelin目录运行下面运行这个命令启动Zeppelin（注明：请使用Mac OS 或者 Linux系统，不要使用Windows）

bin/zeppelin-daemon.sh start

然后在浏览器里打开http://localhost:8080 就可以看到 Zeppelin页面了。

就下来就需要配置Flink Interpreter。在Zeppelin中可以使用3种不同的Flink集群模式

Local 模式

Remote 模式

Flink的Remote模式会连接一个已经创建好的Flink集群，一般是Flink standalone集群。除了配置FLINK_HOME 和 flink.execution.mode外，还需要配置flink.execution.remote.host和flink.execution.remote.port来指定JobManager的地址。

YARN 模式

Flink的Yarn模式会在Yarn集群中创建Flink Cluster。除了配置FLINK_HOME 和 flink.execution.mode还需要配置HADOOP_CONF_DIR，并且要确保Zeppelin这台机器可以访问你的hadoop集群。

验证Flink Interpreter

完成了上面的配置之后，可以运行下面的wordcount代码来验证Flink Interpreter是否能正常工作。

如上图所示，你可以看到WordCount的输出，以及右上角的Flink JOB链接，点击这个链接你可以看到Flink Web UI中关于这个WordCount Job的详细信息。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

flink

zeppelin

Flink on Zeppelin-1 的相关文章

Flink实战之实时风控规则引擎

问题导读 1 怎样构建一个风控业务架构 2 风控规则模型有哪些 3 怎样实现Flink CEP 动态更新一项目背景目前钱大妈基于云原生大数据组件 DataWorks MaxCompute Flink Hologres 构建了离线和实时
【大数据】Flink 详解（六）：源码篇 Ⅰ

本系列包含大数据 Flink 详解一基础篇大数据 Flink 详解二核心篇大数据 Flink 详解三核心篇大数据 Flink 详解四核心篇大数据 Flink 详解五核心篇大数据 Flink 详解六源码篇
flink state ttl 清理逻辑（截止到flink1.8之前的逻辑）

在我们开发Flink应用时许多有状态流应用程序的一个常见要求是自动清理应用程序状态以有效管理状态大小或控制应用程序状态的访问时间 TTL Time To Live 功能在Flink 1 6 0中开始启动并在Apache Flink中启
Flink实时任务性能调优

前言通常我们在开发完Flink任务提交运行后需要对任务的参数进行一些调整通常需要调整的情况是任务消费速度跟不上数据写入速度从而导致实时任务出现反压内存GC频繁 FullGC 频繁内存溢出导致TaskManager被Kill 今天
使用arthas在线诊断flink的那些事

最近在使用arthas诊断工具诊断java服务的一些问题突然想到能不能使用arthas诊断flink的jobManager和taskManager呢答案是可以的采用javaagent 在flink启动jobmanager和taskM
Caused by: java.lang.NoClassDefFoundError: javax/tools/ToolProvider

解决方案在pom文件中的scala maven plugin插件下面加入一个参数 pom xml配置如下
Flink CDC（2.0）如何加速海量数据的实时集成？

原文 Flink CDC 如何加速海量数据的实时集成知乎导读 Flink CDC如何解决海量数据集成的痛点如何加速海量数据处理 Flink CDC社区如何运营如何参与社区贡献今天的介绍会围绕下面四点展开 Flink CDC 技术
微众银行DSS部署单机-普通版

DSS 普通版部署我的服务器我的配置 vim conf config sh vim conf db sh QA 我的服务器 centos 7 0 8C16G 100G机械硬盘我的配置 bashrc文件内容 JDK export JAV
Flink 多流转换（五）间隔联结（Interval Join）

文章目录间隔联结的调用间隔联结实例顾名思义间隔联结的思路就是针对一条流的每个数据开辟出其时间戳前后的一段时间间隔看这期间是否有来自另一条流的数据匹配间隔连接通过一个共同的key连接两个流 A B 中的数据流 B 的数据具有时
Flink State 和 Fault Tolerance详解

有状态操作或者操作算子在处理DataStream的元素或者事件的时候需要存储计算的中间状态这就使得状态在整个Flink的精细化计算中有着非常重要的地位记录数据从某一个过去时间点到当前时间的状态信息以每分钟小时天汇总事件时状态将保
基于Canal与Flink实现数据实时增量同步(一)

点击上方蓝色字体关注我 canal是阿里巴巴旗下的一款开源项目纯Java开发基于数据库增量日志解析提供增量数据订阅消费目前主要支持了MySQL 也支持mariaDB 准备配置MySQL的binlog 常见的binlog命令是
Flink + Hudi 实现多流拼接(大宽表)

1 背景经典场景 Flink 侧实现业务侧通常会基于实时计算引擎在流上做多个数据源的 JOIN 产出这个宽表但这种解决方案在实践中面临较多挑战主要可分为以下两种情况维表 JOIN 场景挑战指标数据与维度数据进行关联其中维度数据
大数据技术之 Flink-CDC

第1章 CDC简介 1 1 什么是 CDC CDC 是 Change Data Capture 变更数据获取的简称核心思想是监测并捕获数据库的变动包括数据或数据表的插入更新以及删除等将这些变更按发生的顺序完整记录下来写入到消息
flink学习43：基于行的操作map、flatmap、聚合

Map FlatMap 聚合
flink-connector-jdbc_2.12 简介、中文文档、中英对照文档下载

flink connector jdbc 2 12 文档下载链接含jar包源码 pom 组件名称中文文档下载链接中英对照文档下载链接 flink connector jdbc 2 12 1 14 3 jar flink c
Flink消费kafka出现空指针异常

文章目录出现场景表现问题解决 tombstone Kafka中提供了一个墓碑消息 tombstone 的概念如果一条消息的key不为null 但是其value为null 那么此消息就是墓碑消息出现场景双流join时采用的是l
flink学习42：tableAPI的join、union、排序、插入操作

连接内连接外连接集合操作 union 获取交集获取差集 in 操作排序操作插入操作
flink-addSource和addSink分别是kafka、自定义数据、mysql、hbase的java实现

flink主程序 public class FinkTest public static void main String args throws Exception StreamExecutionEnvironment env Strea
Flink_06_ProcessAPI(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出侧输出流 SideOutput 即分支流可以用来接收迟到数据也可
在JDK17尝鲜Flink1.17

在JDK17尝鲜Flink1 17 前言还没玩明白老版本 Flink1 17就来了总还是要向前看的根据官网文档 https nightlies apache org flink flink docs release 1 17 docs

随机推荐

webpack打包用的cdn，速度明显加快，只要10秒不到，全部import需要近一分钟，--最终算是彻底失败-axios
Swin-Unet模型代码详解及改进思路

Swim unet是针对水下图像分割任务提出的一种模型结构其基于U Net模型并加入了Swin Transformer模块可以有效地解决水下图像分割中的光照不均匀噪声干扰等问题 Swim unet模型代码详解首先在导入必要的库后
虚拟化磁盘模式、数据存储详解

虚拟化磁盘模式数据存储详解 1 配置模式 1 1 普通 1 2 普通延迟置零 1 3 精简 2 磁盘模式 2 1 从属 2 2 独立持久 2 3 独立非持久 3 数据存储 3 1 虚拟化类型数据存储 3 2 非虚拟化类型数据存储 3
Web和HTTP

目录 HTTP概况 Web术语 HTTP基本 HTTP是无状态协议 HTTP连接方式非持续连接HTTP 例子花费时间持续连接的HTTP 非持续的缺点 HTTP报文格式请求报文 HTTP请求报文的通用格式及GET POST HEAD
性能测试基础

性能测试基础知识性能测试的定义衡量软件的性能需要考虑的三点内容性能测试的分类压力测试负载测试容量测试强度测试配置测试基准测试并发测试性能指标响应时间吞吐量服务器资源占用以下内容比较枯燥但是作为基础无法绕开就
Kuebernetes之DaemonSet

DaemonSet确保集群中每个部分 node运行一份pod副本当node加入集群时创建pod 当node离开集群时回收pod 如果删除DaemonSet 其创建的所有pod也被删除 DaemonSet中的pod覆盖整个集群当需要在集
SpringBoot项目实现增删改查

接上一章 Java 连接MySql 原你是阳光 O 的博客 CSDN博客实现单表增删改查引入依赖
JVM调优

1 JVM运行时数据区 2 基础 1 类加载器 2 双亲委派 2 沙箱机制 3 垃圾回收算法 1 引用计数 2 复制 3 标记清除 4 标记整理 4 GCRoot 1 虚拟机栈中的引用对象 2 方法区中的类静态属性引用的对象 3 方法区中的
Python课堂练习

文章目录 1 用for循环来计算1 2 3 100 2 用for循环来计算1 3 5 99 3 百钱买百鸡问题采用三重循环 4 百钱买百鸡问题2 采用三重循环 5 采用for算令狐大侠喝了多少酒 6 采用for循环遍历序列 sequenc
Ubuntu升级python版本

Ubuntu18 04的python3版本太低了默认的python3版本为python3 6 我在安装mavros的时候有一个包sympy需要 gt 1 10以上但是需要的python版本为python3 8及更新版本所以我就想把我
vue 假期工作日设置_假期申请第8天2月25日

vue 假期工作日设置 It s that time again project week 又是时候了项目周 This time around the project week started on Monday August 24th
centos7换源

1 首先备份系统自带yum源配置文件 etc yum repos d CentOS Base repo mv etc yum repos d CentOS Base repo etc yum repos d CentOS Base repo
import cv2出现“ImportError: DLL load failed: 找不到指定的模块”

2 1 将cv2 cp36 win amd64 pyd 文件复制一份防止一会儿改完不行又不知道原来是什么了更改内容如下 import importlib from cv2 import 前面去掉点之后变成这样 from data im
一文让你彻底了解Linux内核文件系统

一文件系统特点文件系统要有严格的组织形式使得文件能够以块为单位进行存储文件系统中也要有索引区用来方便查找一个文件分成的多个块都存放在了什么位置如果文件系统中有的文件是热点文件近期经常被读取和写入文件系统应该有缓存层文件应该
用Go构建一个简单的区块链

在本教程中我将尝试通过帮助你在Go中编写简单的区块链来揭开区块链的广义概念在本教程中你应该能够理解区块链术语创建自己的简单区块链了解什么是区块以及如何创建块了解如何维护区块链的完整性区块链一种数字分类帐以较小的集合排列
数据诊断模型，该怎么搭建？

你会用数据下判断吗你怎么确定你的判断是准确的现在业务说你判断错了你怎么应对用数据下判断是看似简单实则极大影响数据分析结果的一个问题同样是本月销售业绩1000万如果判断是业绩很好那么下一步的分析就是总结成功经验如果判断是
悟空crm php 部署,悟空crm开源版本环境搭建

安装步骤 JDK需要预先安装下载后执行install sh 链接 link 硬件配置因为只有一台机器所以安装在一台机器上了 cpu 内存硬盘系统 8核 32G ssd100G centos7 基础软件 mysql安装 1 卸载mar
DataGrip数据库连接失败：DBMS: MySQL (无版本)区分大小写: 普通形式=mixed, 分隔形式=exactConnection refused: connect.

查看任务管理器服务 mysql服务是否正在运行右键可控制关闭运行
如何查看视图的sql语句

select text from syscomments s1 join sysobjects s2 on s1 id s2 id where name 视图名称前提条件是视图没有被加密有权限转载于 https www cnblogs
Flink on Zeppelin-1

准备工作下载Zeppelin 0 9 0 preview1 或者下载除了下载Flink的标准release 如果你要使用Flink on Yarn模式或者连接Hive 那么你还需要下载其他Flink组件 flink hadoop com

热门标签