无法执行 HTTP 请求：Flink 中等待来自池的连接超时

2024-01-04

我正在研究一个将一些文件上传到 s3 存储桶的应用程序稍后，它从 s3 存储桶读取文件并将其推送到我的数据库.

我在用着弗林克1.4.2 and fs.s3a API用于从 s3 存储桶读取和写入文件。

将文件上传到 s3 存储桶工作正常，没有任何问题，但是当我的应用程序的第二阶段从 s3 读取这些上传的文件开始时，我的应用程序抛出以下错误:

Caused by: java.io.InterruptedIOException: Reopen at position 0 on s3a://myfilepath/a/b/d/4: org.apache.flink.fs.s3hadoop.shaded.com.amazonaws.SdkClientException: Unable to execute HTTP request: Timeout waiting for connection from pool
at org.apache.flink.fs.s3hadoop.shaded.org.apache.hadoop.fs.s3a.S3AUtils.translateException(S3AUtils.java:125)
at org.apache.flink.fs.s3hadoop.shaded.org.apache.hadoop.fs.s3a.S3AInputStream.reopen(S3AInputStream.java:155)
at org.apache.flink.fs.s3hadoop.shaded.org.apache.hadoop.fs.s3a.S3AInputStream.lazySeek(S3AInputStream.java:281)
at org.apache.flink.fs.s3hadoop.shaded.org.apache.hadoop.fs.s3a.S3AInputStream.read(S3AInputStream.java:364)
at java.io.DataInputStream.read(DataInputStream.java:149)
at org.apache.flink.fs.s3hadoop.shaded.org.apache.flink.runtime.fs.hdfs.HadoopDataInputStream.read(HadoopDataInputStream.java:94)
at org.apache.flink.api.common.io.DelimitedInputFormat.fillBuffer(DelimitedInputFormat.java:702)
at org.apache.flink.api.common.io.DelimitedInputFormat.open(DelimitedInputFormat.java:490)
at org.apache.flink.api.common.io.GenericCsvInputFormat.open(GenericCsvInputFormat.java:301)
at org.apache.flink.api.java.io.CsvInputFormat.open(CsvInputFormat.java:53)
at org.apache.flink.api.java.io.PojoCsvInputFormat.open(PojoCsvInputFormat.java:160)
at org.apache.flink.api.java.io.PojoCsvInputFormat.open(PojoCsvInputFormat.java:37)
at org.apache.flink.runtime.operators.DataSourceTask.invoke(DataSourceTask.java:145)
at org.apache.flink.runtime.taskmanager.Task.run(Task.java:718)
at java.lang.Thread.run(Thread.java:748)

I was 可以通过增加最大连接数来控制此错误s3a API 的参数。

截至目前，我身边有s3 存储桶中有 1000 个文件这是由我的应用程序推拉在 s3 存储桶中并且我的最大连接数是 3000。我使用 Flink 的并行性从 s3 存储桶上传/下载这些文件。我的任务管理器计数为 14。这是一间歇性故障，我也有这种情况的成功案例。

我的查询是，

为什么我会出现间歇性故障？如果我设置的最大连接较低，那么我的应用程序应该在每次运行时抛出此错误。
有没有什么方法可以计算我的应用程序工作所需的最佳最大连接数，而不会遇到连接池超时错误？或者这个错误是否与我不知道的其他事情有关？

谢谢提前

根据我通过 Flink（批处理）工作流程处理来自 S3 的大量文件的经验，一些评论：

当您读取文件时，Flink 将根据文件数量和每个文件的大小计算“分割”。每个分割都是单独读取的，因此理论上最大的同时连接数不是基于文件数，而是基于文件和文件大小的组合。
HTTP 客户端使用的连接池在一段时间后释放连接，因为能够重用现有连接是一个胜利（服务器/客户端握手不必发生）。因此，这给池中可用连接的数量带来了一定程度的随机性。
连接池的大小不会对内存产生太大影响，因此我通常将其设置得相当高（例如，最近的工作流程为 4096）。
使用AWS连接代码时，bump的设置为fs.s3.maxConnections，这与纯 Hadoop 配置不同。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

amazons3

apacheflink

flinkstreaming

无法执行 HTTP 请求：Flink 中等待来自池的连接超时的相关文章

使用 Java 从 S3 上的文件在 S3 上创建 zip 文件

我在 S3 上有很多文件需要对其进行压缩然后通过 S3 提供压缩文件目前我将它们从流压缩到本地文件然后再次上传该文件这会占用大量磁盘空间因为每个文件大约有 3 10MB 而且我必须压缩多达 100 000 个文件所以一个 z
使用 Pyspark 从 S3 读取时，内容长度分隔消息正文过早结束 SparkException

我正在使用下面的代码来阅读S3 csv 文件从我的本地机器 from pyspark import SparkConf SparkContext from pyspark sql import SparkSession import con
使用 GlobalWindow 在 Beam 中进行状态垃圾收集

Apache Beam 最近推出了状态细胞 https beam apache org blog 2017 02 13 stateful processing html 通过StateSpec和 StateId注释在 Apache Fli
将 S3 静态站点与应用程序负载均衡器结合使用

我有一个 ALB 当前将流量路由到多个 url 如果我们需要执行维护我希望能够将流量路由到静态 S3 站点然后我们将显示静态维护页面而不是登录页面我创建了一个 CloudFront 发行版允许 S3 站点加载 SSL 证书但
如何在不安装 AWS SDK 的情况下通过 Powershell 从 S3 下载文件？

我想使用 Windows Powershell 从我的 AWS S3 存储桶下载文件我无法安装任何 AWS 软件需要创建一个 API 才能访问 AWS S3 中的文件我使用Postman测试该文件是否可访问并且成功鉴于这一成功我尝
如何使用 HTTPS 云前端后面的 AWS Amazon 云前端将非 WWW 转发到 WWW

我已经将 Cloud Front 设置为将所有调用重定向到 HTTPS 协议现在我想将非www 转发到www 就当前设置而言我怎样才能实现这一目标我尝试了下面的方法但没有成功因为该方法没有考虑 HTTPS 重定向 https w
如何在 S3 存储桶中仅获取一级对象？

我只想列出存储桶中本身不是存储桶的对象有没有办法解析 ListBucket 的结果桶中的对象本身不是桶桶不能包含其他桶你是说文件夹吗 S3 也没有文件夹的概念每个 S3 帐户可以有 100 个存储桶每个存储桶可以包含无限数量的对
Flink - 无法从检查点恢复

我使用一个作业管理器和两个任务管理器在 kubernetes 上运行集群我通过在作业运行时杀死一个任务管理器 Pod 来测试检查点机制我在作业管理器和重新启动的任务管理器上遇到以下异常工作经理例外 java lang Exceptio
从 S3 存储桶下载 300 万个对象的最快方法

我尝试过使用 Python boto 多处理 S3cmd 和 J3tset 但都在努力解决有什么建议也许是您一直在使用的现成脚本或我不知道的其他方式 EDIT eventlet boto 是一个有价值的解决方案如下所述在这里找到了一
有没有更快的方法将多个文件从 s3 下载到本地文件夹？

我正在尝试使用 jupyter Notebook 从 s3 存储桶下载 12 000 个文件预计在 21 小时内完成下载这是因为每个文件一次下载一个我们可以并行进行多个下载以便加快进程吗目前我正在使用以下代码下载所有文件 Get
AWSS3GetObjectRequest ifModifiedSince 不起作用

建设为iOS 7 建立在Xcode 6 1 使用亚马逊SDKAWSiOSSDKv2 2 0 12 测试于iPhone 5s 和 iPad 2 我正在使用适用于 iOS 的 Amazon SDK 从我的 Amazon S3 存储桶下载图像下
将文件从 url 上传到 s3 存储桶

我有一个在 Heroku 中运行的 Nodejs 程序它为我提供了文件的 URL 这些文件需要存储在 s3 存储桶中据我了解无法将文件从 url 直接上传到 s3 存储桶您建议我如何将文件从 URL 获取到 s3 存储桶我见过有关
错误“未初始化常量 AWS (NameError)”

它说 AWS 未初始化我正在使用 aws sdk core gem 我尝试使用 aws sdk gem 代替问题仍然存在这是initializers aws rb 文件 AWS config access key id gt ENV
使用 scala 在 Flink 中进行实时流预测

弗林克版本 1 2 0斯卡拉版本 2 11 8 我想使用 DataStream 来使用 scala 中的 flink 模型进行预测我在使用 scala 的 flink 中有一个 DataStream String 其中包含来自 kafka
如何以 Rails 形式将图像从

正如标题中所述我正在尝试使用 Rails 的 Active Storage 从嵌套在 Rails 表单中的元素将图像上传到我的 S3 存储桶到目前为止我已经能够使用使用 Active Storage 上传图像这User class h
AWS Athena csv 元数据分隔符在首次查询使用后发生更改

我想向 athena 查询 s3 csv 文件源 csv 文件描述分隔符 system information val1 val2 val3 val4 val5 在此基础上我在 athena 中创建表 Create external t
如何从 S3 中删除名称为空的文件

不知何故使用 AWS Java API 我们成功地将一个没有名称的文件上传到 S3 如果我们运行该文件就会显示s3cmd ls s3 myBucket MyFolder 但未显示在 S3 GUI 中 Running s3cmd del s
如何使用 boto3 让 ec2 实例访问 s3

By googling I found this tutorial on accessing S3 from EC2 instance without credential file http parthicloud com how to
Flink任务管理器内存不足和内存配置

我们使用 Flink 流在单个集群上运行一些作业我们的工作是使用rocksDB 来保存状态该集群配置为在 3 个独立的 VM 上使用单个 Jobmanager 和 3 个 Taskmanager 运行每个 TM 均配置为运行 14GB
Amazon S3 - 每个子域有 1 个存储桶和一个文件夹？

我需要创建一项服务允许用户在自定义子域中发布静态页面我从来没有这样做过所以如果这个问题听起来有点太基本了请原谅我为此我希望将所有这些静态文件托管在 Amazon S3 或 Google 云存储等中以将其与我的服务器分开使其可

随机推荐

SQL中如何删除重复记录

如何删除sql中的重复记录 In SQL Server 2005以上 WITH q AS SELECT ROW NUMBER OVER PARTITION BY dup column ORDER BY dup column AS rn FR
快速滑出菜单而不滑动导航栏（以编程方式）

几天来我一直在尝试制作左侧滑出菜单我无法让任何库与我的应用程序配合使用因此我求助于 raywenderlich 的教程 http www raywenderlich com 78568 create slide out navigati
Hibernate映射：一列到多个表

我有一个针对场景的最佳实践问题设想 DB 中的多个实体例如 Document BlogPost Wiki 可以由个人共享不是为每个实体创建共享表而是创建单个共享表问题是如何将共享表与不同的实体进行映射我有三个选项请告知哪
如何从 C# 与英特尔新的 DRNG（RDRAND 指令）交互？ [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我希望从 C 程序集中使用英特尔的数字随机数生成器 Ivy Bridge 中的 RDRAND 指令我查看了 cpp 库但我希望有一个更
在 UIImageView 中旋转图像

是否可以仅旋转 UIImageView 中的图像我正在寻找有关它的信息但我只找到了如何旋转 UIImageVeiw 的信息您可以使用以下代码旋转图像注意这使用了 CGImageRef 您可以通过以下方式从 UIImage 获取它
获取 Spring bean 的新实例

我有一个名为MyInterface 实现的类MyInterface 我们称之为MyImplClass 还实现了Runnable接口以便我可以使用它来实例化线程这是我现在的代码 for OtherClass obj someList My
是否可以在宏内定义宏？

我想使用这样的宏参数 define D cond do if cond define YYY 1 else define YYY 0 while 0 是否可以 UPD也许当源被预处理两次时 gcc E source c gcc xc 接下来
是否可以在网络浏览器中模拟 Android“硬件”后退按钮？

很高兴可以在浏览器中的 Cordova Ionic 应用程序中测试许多案例但我还没有找到一种假装按下 Android 以前是硬件后退按钮的方法如果有一个带有后退按钮或组合键例如 Alt Ctrl 是否可以用 JavaScript 触
如何禁用Tensorflow的多线程？

我正在使用不支持多线程的模拟器运行 Tensorflow 程序我在tensorflow core common runtime local device cc第38行将intra op parallelism threads更改为1 但一
为什么我没有从子进程中获取退出状态？

我有一个正在管理的 Perl 程序它能够分叉多个进程最多达到指定的限制监视它们并在它们退出时分叉其他进程再次达到限制直到要运行的事物列表完成它工作正常除了由于某种原因它似乎没有从我的子进程中获取正确的退出状态不起作用的代码
create-react-app + Nodejs (express) 服务器

我在我的应用程序中使用 NodeJs React 我在 NodeJs 中使用express 我使用 create react app npm 创建了示例应用程序我使用 NodeJs 从 React 应用程序调用 oauth 令牌我在这篇
自删除bash脚本

bash 脚本如何在遇到删除自身的语句后执行例如当我运行 test sh 脚本时其中包含 lt some commands gt rm test sh lt some more commands gt end 脚本执行到最后才删除自身
检查 mysql_query 是否返回任何结果的最佳方法？

我正在寻找最好的方法来检查查询中是否返回了任何结果我感觉这部分代码我写了很多次有时会出错有时则不会例如我运行此查询来检查用户名是否存在然后再将新用户名插入数据库 result mysql query SELECT FROM 然后
对矩阵中的列重新排序

假设我有一个n row m列矩阵A 我想重新排序每一列m根据某些特定行的排序例如如果我采取order A k 这给了我列中元素的数字或字母顺序k 我现在想对矩阵中的每一列进行排序A根据这些排名使元素1 n每行都按顺序对应于元素1 n
Mailchimp API /列出 merge_fields 的日期类型参数格式

我有一个date我需要在 Mailchimp API 的 v3 版本中填充该 merge field 在我找到答案之前我在谷歌上进行了很多搜索希望这可以节省某人的时间预期的格式是 mm dd yyyy 看起来月份和日期的个位数就可以了
仅跟踪嵌套 div 标签中悬停子元素的鼠标移动

我有一个可以有 n 个嵌套 div 标签的环境我必须仅在子 div 中跟踪鼠标的鼠标移动时刻我有以下代码结果显示在列表中 Problem 如果我附加更多子 div 鼠标移动也会跟踪所有父级 div 我想要的是仅获取鼠标悬停区域的鼠标
如何将日期构建附加到 gradle 上的 versionNameSuffix

我正在使用 Android Studio 我需要在后面附加一个后缀versionNameSuffix在我的安卓设备上构建 gradle文件我有三种不同的构建类型我只需将日期时间附加到我的测试版版本中我的实际文件是 defaultC
为什么空格会影响 ruby 函数调用？

我收到此代码的语法错误 render json what gt created whatCreated gt thing htmlOutput gt render to string partial some partial 但使用这段代码
使用 Yfinance 获取市值数据

我试图使用 yfinance 获取股票的市值数据这是我的代码 import yfinance as yf import numpy as np from pandas datareader import data import panda
无法执行 HTTP 请求：Flink 中等待来自池的连接超时

我正在研究一个将一些文件上传到 s3 存储桶的应用程序稍后它从 s3 存储桶读取文件并将其推送到我的数据库我在用着弗林克1 4 2 and fs s3a API用于从 s3 存储桶读取和写入文件将文件上传到 s3 存储桶工作正常没有

无法执行 HTTP 请求：Flink 中等待来自池的连接超时

无法执行 HTTP 请求：Flink 中等待来自池的连接超时 的相关文章

随机推荐

热门标签

无法执行 HTTP 请求：Flink 中等待来自池的连接超时的相关文章