Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

2024-03-06

我对 Apache Flink 比较陌生，我正在尝试创建一个简单的项目，将文件生成到 AWS S3 存储桶。根据文档，我似乎需要安装 Hadoop 才能执行此操作。

如何设置本地环境来测试此功能？我在本地安装了 Apache Flink 和 Hadoop。我已对 Hadoop 的 core-site.xml 配置添加了必要的更改，并将 HADOOP_CONF 路径添加到了 flink.yaml 配置中。当我尝试通过 Flink UI 在本地提交作业时，我总是收到错误

2016-12-29 16:03:49,861 INFO  org.apache.flink.util.NetUtils                                - Unable to allocate on port 6123, due to error: Address already in use
2016-12-29 16:03:49,862 ERROR org.apache.flink.runtime.jobmanager.JobManager                - Failed to run JobManager.
java.lang.RuntimeException: Unable to do further retries starting the actor system
    at org.apache.flink.runtime.jobmanager.JobManager$.retryOnBindException(JobManager.scala:2203)
    at org.apache.flink.runtime.jobmanager.JobManager$.runJobManager(JobManager.scala:2143)
    at org.apache.flink.runtime.jobmanager.JobManager$.main(JobManager.scala:2040)
    at org.apache.flink.runtime.jobmanager.JobManager.main(JobManager.scala)

我假设我在环境设置方面遗漏了一些东西。可以在本地执行此操作吗？任何帮助，将不胜感激。

虽然您需要 Hadoop 库，但您不必安装 Hadoop 即可在本地运行并写入 S3。我只是碰巧尝试编写基于 Avro 模式的 Parquet 输出并生成 SpecificRecord 到 S3。我正在通过 SBT 和 Intellij Idea 在本地运行以下代码的版本。所需零件：

1) 使用以下文件指定所需的 Hadoop 属性（注意：不建议定义 AWS 访问密钥/秘密密钥。最好在具有适当 IAM 角色以读取/写入 S3 存储桶的 EC2 实例上运行。但需要本地进行测试）

<configuration>
    <property>
        <name>fs.s3.impl</name>
        <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
    </property>

    <!-- Comma separated list of local directories used to buffer
         large results prior to transmitting them to S3. -->
    <property>
        <name>fs.s3a.buffer.dir</name>
        <value>/tmp</value>
    </property>

    <!-- set your AWS ID using key defined in org.apache.hadoop.fs.s3a.Constants -->
    <property>
        <name>fs.s3a.access.key</name>
        <value>YOUR_ACCESS_KEY</value>
    </property>

    <!-- set your AWS access key -->
    <property>
        <name>fs.s3a.secret.key</name>
        <value>YOUR_SECRET_KEY</value>
    </property>
</configuration>

2）进口：导入 com.uebercomputing.eventrecord.EventOnlyRecord

import org.apache.flink.api.scala.hadoop.mapreduce.HadoopOutputFormat
import org.apache.flink.api.scala.{ExecutionEnvironment, _}

import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat
import org.apache.hadoop.conf.{Configuration => HadoopConfiguration}
import org.apache.hadoop.fs.Path
import org.apache.hadoop.mapreduce.Job

import org.apache.parquet.avro.AvroParquetOutputFormat

3）Flink代码使用具有上述配置的HadoopOutputFormat：

    val events: DataSet[(Void, EventOnlyRecord)] = ...

    val hadoopConfig = getHadoopConfiguration(hadoopConfigFile)

    val outputFormat = new AvroParquetOutputFormat[EventOnlyRecord]
    val outputJob = Job.getInstance

    //Note: AvroParquetOutputFormat extends FileOutputFormat[Void,T]
    //so key is Void, value of type T - EventOnlyRecord in this case
    val hadoopOutputFormat = new HadoopOutputFormat[Void, EventOnlyRecord](
      outputFormat,
      outputJob
    )

    val outputConfig = outputJob.getConfiguration
    outputConfig.addResource(hadoopConfig)
    val outputPath = new Path("s3://<bucket>/<dir-prefix>")
    FileOutputFormat.setOutputPath(outputJob, outputPath)
    AvroParquetOutputFormat.setSchema(outputJob, EventOnlyRecord.getClassSchema)

    events.output(hadoopOutputFormat)

    env.execute

    ...

    def getHadoopConfiguration(hadoodConfigPath: String): HadoopConfiguration = {
      val hadoopConfig = new HadoopConfiguration()
      hadoopConfig.addResource(new Path(hadoodConfigPath))
      hadoopConfig
    }

4）构建依赖项和使用的版本：

    val awsSdkVersion = "1.7.4"
    val hadoopVersion = "2.7.3"
    val flinkVersion = "1.1.4"

    val flinkDependencies = Seq(
      ("org.apache.flink" %% "flink-scala" % flinkVersion),
      ("org.apache.flink" %% "flink-hadoop-compatibility" % flinkVersion)
    )

    val providedFlinkDependencies = flinkDependencies.map(_ % "provided")

    val serializationDependencies = Seq(
      ("org.apache.avro" % "avro" % "1.7.7"),
      ("org.apache.avro" % "avro-mapred" % "1.7.7").classifier("hadoop2"),
      ("org.apache.parquet" % "parquet-avro" % "1.8.1")
    )

    val s3Dependencies = Seq(
      ("com.amazonaws" % "aws-java-sdk" % awsSdkVersion),
      ("org.apache.hadoop" % "hadoop-aws" % hadoopVersion)
    )

编辑使用 writeAsText 到 S3：

1) 创建一个 Hadoop 配置目录（将其引用为 hadoop-conf-dir），其中包含文件 core-site.xml。

例如：

mkdir /home/<user>/hadoop-config
cd /home/<user>/hadoop-config
vi core-site.xml

#content of core-site.xml 
<configuration>
    <property>
        <name>fs.s3.impl</name>
        <value>org.apache.hadoop.fs.s3a.S3AFileSystem</value>
    </property>

    <!-- Comma separated list of local directories used to buffer
         large results prior to transmitting them to S3. -->
    <property>
        <name>fs.s3a.buffer.dir</name>
        <value>/tmp</value>
    </property>

    <!-- set your AWS ID using key defined in org.apache.hadoop.fs.s3a.Constants -->
    <property>
        <name>fs.s3a.access.key</name>
        <value>YOUR_ACCESS_KEY</value>
    </property>

    <!-- set your AWS access key -->
    <property>
        <name>fs.s3a.secret.key</name>
        <value>YOUR_SECRET_KEY</value>
    </property>
</configuration>

2) 创建一个目录（将其引用为 flink-conf-dir），其中包含文件 flink-conf.yaml。

例如：

mkdir /home/<user>/flink-config
cd /home/<user>/flink-config
vi flink-conf.yaml

//content of flink-conf.yaml - continuing earlier example
fs.hdfs.hadoopconf: /home/<user>/hadoop-config

3) 编辑用于运行 S3 Flink 作业的 IntelliJ Run 配置 - 运行 - 编辑配置 - 并添加以下环境变量：

FLINK_CONF_DIR and set it to your flink-conf-dir

Continuing the example above:
FLINK_CONF_DIR=/home/<user>/flink-config

4) 使用该环境变量集运行代码：

events.writeAsText("s3://<bucket>/<prefix-dir>")

env.execute

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？的相关文章

CORS。预签名 URL。 S3

我已经生成了一个预签名的 S3 POST URL 使用返回参数然后将其传递到我的代码中但我不断收到此错误Response to preflight request doesn t pass access control check No
Apache Flink 中的并行度

我可以为 Flink 程序中任务的不同部分设置不同的并行度吗例如 Flink 如何解释以下示例代码两个自定义实践者MyPartitioner1 MyPartitioner2 将输入数据划分为两个4和2个分区 partitionedDat
Django - 获取 PIL 图像保存方法以与 Amazon s3boto 存储一起使用

为了在上传时调整图像大小使用 PIL 我重写了文章模型的保存方法如下所示 def save self super Article self save if self image size 160 160 image Image open
使用 Java API 在 Hadoop 中移动文件？

我想使用 Java API 在 HDFS 中移动文件我想不出办法做到这一点 FileSystem 类似乎只想允许在本地文件系统之间移动但我想将它们保留在 HDFS 中并将它们移动到那里我错过了一些基本的东西吗我能想到的唯一方法是从输
S3A：失败，而 S3：在 Spark EMR 中工作

我将 EMR 5 5 0 与 Spark 结合使用如果我使用一个简单的文件写入 s3s3 网址写得很好但如果我使用s3a 地址它失败了Service Amazon S3 Status Code 403 Error Code Acces
如何在不安装 AWS SDK 的情况下通过 Powershell 从 S3 下载文件？

我想使用 Windows Powershell 从我的 AWS S3 存储桶下载文件我无法安装任何 AWS 软件需要创建一个 API 才能访问 AWS S3 中的文件我使用Postman测试该文件是否可访问并且成功鉴于这一成功我尝
Apache Spark 从 S3 读取异常：内容长度分隔消息正文过早结束（预期：2,250,236；收到：16,360）

我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过都失败了 org apache spark util TaskCompletionListenerExcep
IOPS（在 Amazon EBS 中）在实践中意味着什么？

我有一些应用程序所需的图像图像很多 50 000 但整体大小很小 40 Mb 最初我以为我会简单地使用 S3 但上传速度非常慢作为临时解决方案我想附加一个包含图像的 EBS 这样就可以了然而在阅读了一些有关 EBS 通用 gp2
S3 REST API 和 POST 方法

我在用着AWS S3 REST API http docs aws amazon com AmazonS3 latest API APIRest html 在解决了一些令人烦恼的签名问题后它似乎可以工作但是当我使用正确的 REST 动
源访问身份 (OAI) 与 CloudFront 签名 URL 之间的关系

因此我一直在遵循有关 CloudFront 和 S3 的指南但我觉得我仍然缺少原始访问身份 OAI 和 CloudFront 签名 URL 之间关系的核心信息我想要的是一个私有 CDN 用于托管音频片段几秒长和低分辨率图像我只
在 Apache Spark 上下文中，内存数据存储意味着什么？

我读到 Apache Spark 将数据存储在内存中然而 Apache Spark 旨在分析大量数据又称大数据分析在这种情况下内存数据存储的真正含义是什么它可以存储的数据是否受到可用 RAM 的限制它的数据存储与使用HDFS的A
sqoop 通过 oozie 导出失败

我正在尝试将数据导出到mysql from hdfs通过sqoop 我可以通过 shell 运行 sqoop 并且它工作正常但是当我通过调用oozie 它出现以下错误并失败我还包括了罐子没有描述性日志 sqoop脚本 export c
如何用snappy解压hadoop的reduce输出文件尾？

我们的 hadoop 集群使用 snappy 作为默认编解码器 Hadoop作业减少输出文件名就像part r 00000 snappy JSnappy 无法解压缩文件 bcz JSnappy 需要以 SNZ 开头的文件归约输出文件以某种
以编程方式读取 Hadoop Mapreduce 程序的输出

这可能是一个基本问题但我在谷歌上找不到答案我有一个映射缩减作业它在其输出目录中创建多个输出文件我的 Java 应用程序在远程 hadoop 集群上执行此作业作业完成后需要使用以下命令以编程方式读取输出org apache had
伪模式下没有名称节点错误

我是hadoop新手正处于学习阶段根据 Hadoop Definitve 指南我已将 hadoop 设置为伪分布式模式一切正常昨天我什至能够执行第三章中的所有示例今天当我重新启动我的unix并尝试运行start dfs sh然
将文件上传到S3的模拟测试用例

我们如何模拟文件上传到 S3 我尝试过这样的事情 file mock mock MagicMock spec File name FileMock mock patch storages backends s3boto S3BotoStor
Hadoop 超立方体

嘿我正在启动一个基于 hadoop 的超立方体具有灵活的维度数有人知道这方面现有的方法吗我刚刚发现PigOLAP草图 http wiki apache org pig PigOLAPSketch 但没有代码可以使用它另一种方法是Z
同一区域内但属于不同账户的AWS数据传输费用如何？

如果 S3 gt EC2 或 EC2 gt EC2 位于同一 AWS 区域则数据传输费用似乎是免费的 S3价格注意事项您需要为进出 Amazon S3 的所有带宽付费 except对于以下情况当Amazon Elastic Compu
Hadoop 作业：任务在 601 秒内无法报告状态

在伪节点上运行 hadoop 作业时任务失败并被杀死错误任务尝试在 601 秒内无法报告状态但同一个程序正在通过 Eclipse 运行本地作业任务大约有 25K 个关键字输出将是所有可能的组合一次两个即大约 25K 2
如何使用 C# / .Net 将文件列表从 AWS S3 下载到我的设备？

我希望下载存储在 S3 中的多个图像但目前如果我只能下载一个就足够了我有对象路径的信息当我运行以下代码时出现此错误遇到错误消息读取对象时访问被拒绝我首先做一个亚马逊S3客户端基于我的密钥和访问配置的对象连接到服务器然后创

随机推荐

为什么我不能在java中的Frame上画任何东西？

编码就在这里我无法在框架内创建任何矩形或圆形该项目的目标是创建转换 celcius 2 华氏度和华氏度 2 摄氏度所以我想要的是请教我如何在框架旁边绘制矩形或椭圆形 import java awt BorderLayout impo
JESS 引擎的网页不可用

http www jessrules com http www jessrules com and https herzberg ca sandia gov https herzberg ca sandia gov 不要再工作了我如何获得
graphql-codegen 未使用配置文件运行

In my package json文件我有运行的脚本条目graphql codegen但它抱怨说 config参数无效 gt yarn gen yarn run v1 21 1 graphql codegen config codegen
气流动态 dag 创建

有人请告诉我气流中的 DAG 是否只是一个图表如占位符没有任何与其关联的实际数据如参数或者 DAG 是否像一个实例对于固定参数我想要一个系统其中要执行的操作集给定一组参数是固定的但每次运行这组操作时该输入都会不同简单
Angular 2注入在继承中不起作用

最近我们从 Angular 2 0 升级到 2 4 从那时起我们就遇到了继承问题如果我们调用子进程所有依赖项都会变得未定义孩子没有构造函数这意味着它使用父亲的构造函数这是代码 Injectable export class Chi
使用 ajax 下拉菜单中的 onclick 事件更新隐藏的输入值

我正在使用 MachForm 并添加了这个隐藏字段
Spring Boot - 在 application.properties 中获取 Spring-Kafka 客户端 ID 的主机名

我正在使用 Spring Kafka 和 Boot 开发一个项目并且希望在 application properties 中获取属性 spring kafka consumer client Id 的主机名以便可以在服务器端日志中区分我
修改C中的char*字符串

我有这个 char original html content 并想插入一个新的 char mycontent newhtmlinsert 进入之前的原文标签在原始中我的新原版现在是 char neworiginal html c
在 Visual Studio 中调试时访问异常中断过滤器的更好方法？

我厌倦了在 Visual Studio 中使用令人眼花缭乱耗时的异常对话框来打开和关闭异常中断过滤器我寻找 Visual Studio 命令来帮助从命令窗口自动执行此操作但没有成功有没有人有一种技术可以避免调试 gt 异常对
有效检查两个浮点值是否具有不同的符号

我需要查找是否有两个有限浮点值A and B有不同的符号或其中之一为零在许多代码示例中我看到测试如下 if A lt 0 B gt 0 A gt 0 B lt 0 它工作正常但对我来说看起来效率低下因为这里验证了许多条件并且每个条
SQL 查询返回几十年来的最大值

这是使用 MYSQL我的问题如下我有一个棒球数据库在该棒球数据库中有一个主表其中列出了曾经参加过比赛的每个球员还有一个击球表跟踪每个球员的击球统计数据我创建了一个将这两者结合在一起的视图因此masterplusbatting桌
如何在 Django 模型中存储任意名称/值键对？

我有一个包含很多数据字段的固定数据模型 class Widget Models model widget owner models ForeignKey auth User val1 models CharField val2 models
Python 中的硒

我一直在使用 urllib2 访问网页但它不支持 javascript 所以我看了一下 Selenium 但即使读了它的文档我也很困惑我下载了适用于 Firefox 的 Selenium IDE 插件并尝试了一些简单的操作 from
如何将 C# 方法作为回调传递给 CLI/C++ 函数？

我在 C CLI 中有这样的方法 void Foo OnEngineCloseCallback callback 具有这样的回调定义 typedef void OnEngineCloseCallback int String errorMe
SQL Server - 过去 12 个月的累计总和，但从上个月开始 (SQL Server 18)

我需要计算过去 12 个月内某个值的累计总和到目前为止我的累积计算正在运行但从当月开始我需要过去 12 个月的总计从从上个月开始目前我正在使用OVERSQL 子句从当前行月开始运行累积总计请参考下面我的代码示例 SELE
如何将外部资源（属性文件）添加到类路径中以便 war 可以读取？

我们在将外部目录具有 config properties 添加到类路径时遇到了小问题如果我们将其添加到类路径中我们应该能够在 Web 应用程序中读取它 Web 应用程序中有一些 Spring 应用程序会读取外部属性文件我在任何地方都
CSS @font-face 不适用于 Firefox，但适用于 Chrome 和 IE

以下代码适用于 Google Chrome beta 以及 IE 7 但是 Firefox 似乎存在问题我怀疑这是我的 CSS 文件包含方式的问题因为我知道 Firefox 对于跨域导入不太友好但这只是静态HTML 不存在跨域问题在
unpack_from 需要至少 1164 字节的缓冲区 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我正在使用 struct 来解析固定宽度字符串但是我在处理大于 1000 字节的固定宽度字符串时遇到了一些麻烦例如
交互设计、视觉设计、网页设计、UX设计、UI设计、UI开发之间有什么区别？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案交互设计视觉设计网页设计 UX设计 UI设计 UI开发之间有什么区别 BTB 下面找到的链接回答了 UI 与 UX 的问题 htt
Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

我对 Apache Flink 比较陌生我正在尝试创建一个简单的项目将文件生成到 AWS S3 存储桶根据文档我似乎需要安装 Hadoop 才能执行此操作如何设置本地环境来测试此功能我在本地安装了 Apache Flink 和

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？

编辑使用 writeAsText 到 S3：

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？ 的相关文章

随机推荐

热门标签

Apache Flink AWS S3 Sink 是否需要 Hadoop 进行本地测试？的相关文章