逐行过滤输入流

2024-02-20

我正在从 Amazon S3 检索大型 gzip 压缩文件。我希望能够即时转换这些文件的每一行并将输出上传到另一个 S3 存储桶。

上传 API 需要一个InputStream https://docs.aws.amazon.com/AWSJavaSDK/latest/javadoc/com/amazonaws/services/s3/model/PutObjectRequest.html#PutObjectRequest-java.lang.String-java.lang.String-java.io.InputStream-com.amazonaws.services.s3.model.ObjectMetadata-作为输入。

S3Object s3object = s3.fetch(bucket, key);

InputStream is = new GZIPInputStream(s3object.getObjectContent());

// . . . ?

s3.putObject(new PutObjectRequest(bucket, key, is, metadata));

我相信最有效的方法是创建我自己的自定义输入流，它将原始输入流转换为另一个输入流。我对这种方法不太熟悉，很想了解更多信息。

基本思路如下。

它的效率不是很高，但应该可以完成工作。

public class MyInputStream extends InputStream {

    private final BufferedReader input;
    private final Charset encoding = StandardCharsets.UTF_8;
    private ByteArrayInputStream buffer;

    public MyInputStream(InputStream is) throws IOException {
        input = new BufferedReader(new InputStreamReader(is, this.encoding));
        nextLine();
    }

    @Override
    public int read() throws IOException {
        if (buffer == null) {
            return -1;
        }
        int ch = buffer.read();
        if (ch == -1) {
            if (!nextLine()) {
                return -1;
            }
            return read();
        }
        return ch;
    }

    private boolean nextLine() throws IOException {
        String line;
        while ((line = input.readLine()) != null) {
            line = filterLine(line);
            if (line != null) {
                line += '\n';
                buffer = new ByteArrayInputStream(line.getBytes(encoding));
                return true;
            }
        }
        return false;
    }

    @Override
    public void close() throws IOException {
        input.close();
    }

    private String filterLine(String line) {
        // Filter the line here ... return null to skip the line
        // For example:
        return line.replace("ABC", "XYZ");
    }

}

nextLine()用（过滤后的）行预先填充行缓冲区。然后read()（由上传作业调用）从缓冲区中逐一获取字节并调用nextLine()再次加载下一行。

Use as:

s3.putObject(new PutObjectRequest(bucket, key, new MyInputStream(is), metadata));

性能改进还可以是实施int read(byte[] b, int off, int len)方法（如果 cpu 使用率很高）并使用BufferedInputStream如果 S3 客户端内部不使用缓冲区（我不知道）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

逐行过滤输入流的相关文章

java.lang.NoClassDefFoundError：org.apache.batik.dom.svg.SVGDOMImplementation

我在链接到我的 Android LibGDX 项目的 Apache Batik 库时遇到了奇怪的问题但让我们从头开始在 IntelliJ Idea 中我有一个项目其中包含三个模块 Main Android 和 Desktop 我强调的
如何使用 Java 和 Selenium WebDriver 在 C 目录中创建文件夹并需要将屏幕截图保存在该目录中？

目前正在与硒网络驱动程序和代码Java 我有一种情况我需要在 C 目录中创建一个文件夹并在该文件夹中创建我通过 selenium Web 驱动程序代码拍摄的屏幕截图它需要存储在带有时间戳的文件夹中如果我每天按计划运行脚本所有屏幕截
在 java 类和 android 活动之间传输时音频不清晰

我有一个android活动它连接到一个java类并以套接字的形式向它发送数据包该类接收声音数据包并将它们扔到 PC 扬声器该代码运行良好但在 PC 扬声器中播放声音时会出现持续的抖动中断安卓活动 public class Sen
Java JDBC：更改表

我希望对此表进行以下修改添加状态列 varchar 20 日期列时间戳我不确定该怎么做 String createTable Create table aircraft aircraftNumber int airLineCompa
在 HTTPResponse Android 中跟踪重定向

我需要遵循 HTTPost 给我的重定向当我发出 HTTP post 并尝试读取响应时我得到重定向页面 html 我怎样才能解决这个问题代码 public void parseDoc final HttpParams params n
制作一个交互式Windows服务

我希望我的 Java 应用程序成为交互式 Windows 服务用户登录时具有 GUI 的 Windows 服务我搜索了这个我发现这样做的方法是有两个程序第一个是服务第二个是 GUI 程序并使它们进行通信服务将从 GUI 程序获取
Final字段的线程安全

假设我有一个 JavaBeanUser这是从另一个线程更新的如下所示 public class A private final User user public A User user this user user public void
无法展开 RemoteViews - 错误通知

最近我收到越来越多的用户收到 RemoteServiceException 错误的报告我每次给出的堆栈跟踪如下 android app RemoteServiceException Bad notification posted fro
多个 Maven 配置文件激活多个 Spring 配置文件

我想在 Maven 中构建一个环境在其中我想根据哪些 Maven 配置文件处于活动状态来累积激活多个 spring 配置文件目前我的 pom xml 的相关部分如下所示
磁模拟

假设我在 n m 像素的 2D 表面上有 p 个节点我希望这些节点相互吸引使得它们相距越远吸引力就越强但是如果两个节点之间的距离比如 d A B 小于某个阈值比如 k 那么它们就会开始排斥谁能让我开始编写一些关于如何随时间更新
我可以使用 HSQLDB 进行 junit 测试克隆 mySQL 数据库吗

我正在开发一个 spring webflow 项目我想我可以使用 HSQLDB 而不是 mysql 进行 junit 测试吗如何将我的 mysql 数据库克隆到 HSQLDB 如果您使用 spring 3 1 或更高版本您可以使用 s
JRE 系统库 [WebSphere v6.1 JRE]（未绑定）

将项目导入 Eclipse 后我的构建路径中出现以下错误 JRE System Library WebSphere v6 1 JRE unbound 谁知道怎么修它右键单击项目特性 gt Java 构建路径 gt 图书馆 gt JRE
使用Caliper时如何指定命令行？

我发现 Google 的微型基准测试项目 Caliper 非常有趣但文档仍然除了一些示例完全不存在我有两种不同的情况需要影响 JVM Caliper 启动的命令行我需要设置一些固定最好在几个固定值之间交替 D 参数我需要指定
总是使用 Final？

我读过将某些东西做成最终的然后在循环中使用它会带来更好的性能但这对一切都有好处吗我有很多地方没有循环但我将 Final 添加到局部变量中它会使速度变慢还是仍然很好还有一些地方我有一个全局变量final 例如android Pa
如何在 javadoc 中使用“<”和“>”而不进行格式化？

如果我写
如何从终端运行处理应用程序

我目前正在使用加工 http processing org对于一个小项目但是我不喜欢它附带的文本编辑器我使用 vim 编写所有代码我找到了 pde 文件的位置并且我一直在从 vim 中编辑它们然后重新打开它们并运行它们重新加载脚
Android 中麦克风的后台访问

是否可以通过 Android 手机上的后台应用程序服务持续监控麦克风我想做的一些想法不断聆听背景中的声音信号收到有趣的音频信号后执行一些网络操作如果前台应用程序需要的话后台应用程序必须能够智能地放弃对麦克风的访问除非可
玩！框架：运行“h2-browser”可以运行，但网页不可用

当我运行命令时activator h2 browser它会使用以下 url 打开浏览器 192 168 1 17 8082 但我得到使用 Chrome 此网页无法使用奇怪的是它以前确实有效从那时起我唯一改变的是JAVA OPTS以启用
有没有办法为Java的字符集名称添加别名

我收到一个异常埋藏在第 3 方库中消息如下 java io UnsupportedEncodingException BIG 5 我认为发生这种情况是因为 Java 没有定义这个名称java nio charset Charset Ch
节拍匹配算法

我最近开始尝试创建一个移动应用程序 iOS Android 它将自动击败比赛 http en wikipedia org wiki Beatmatching http en wikipedia org wiki Beatmatching 两

随机推荐

如何使用 ActiveRecord 映射非标准表还是应该使用其他 ORM？

我正在使用一个工具 UltraSms 它需要三个名为 smsin smsout 和 smsparts 的表我需要在具有其他表的同一个 Rails 应用程序中使用这些表对于 ActiveRecrod 我知道按照惯例表名称必须是 Acti
Angular Mat 日历根据休息结果禁用日期

我正在使用 Angular 材质日历即 mat calendar 我正在尝试根据动态值禁用日历中的某些日期 HTML
QFileDialog：是否可以仅过滤可执行文件（在Linux下）？

我想使用 QFileDialog 让用户选择一个可执行文件除了目录之外该对话框应该只显示实际的可执行文件我的 Windows 版本运行得很好只需检查扩展名是否为 exe 然而在Linux中我无法按照我的意愿做到这一点在 C 中
Alfresco：在另一个任务中显示任务字段（查看它们）

我正在将新的工作流程部署到 alfresco 4 0 e 我有一个 formkey cwf submitLeaveTask 的任务这是代码
带有 Chart.js 的笛卡尔坐标系

我正在尝试使用 Chart js 创建一个笛卡尔坐标系即坐标几何该文档实际上指出了笛卡尔轴但我没有看到任何证据表明这样的名称是有道理的我的图表如下
在可执行文件的资源中，如何找到默认图标？

我需要以编程方式找到 Windows 可执行文件 PE 文件 dll exe com 的默认图标我确实知道如何遍历资源并识别什么是图标什么是光标等但据我所知没有一个图标以任何方式标记为默认图标那么有人知道如何找到默认图标吗此外
如何使用必应翻译API？

我正在尝试使用 Bing Translation API 但我很困惑似乎有很多可能性旧的和新的但我不明白我必须做什么有人可以帮帮我吗我想发送一个 HTTP 请求例如http api microsofttranslator com
如何将十六进制转换为 ASCII

我正在编写一个 go 程序将十六进制转换为 int 二进制和 ascii int 和二进制工作正常但 ascii 引起了问题如果输入文本短于 2 个字符则可以正常工作但任何更长的字符都会导致出现格式错误的文本我的代码如下 pack
实现 ISerialized 时，永远不会命中 GetObjectData() 方法

XmlSerializer从不打电话GetObjcetData on my ISerializable 什么时候GetObjectData 叫谢谢 class Program static void Main string args va
Angular 5：如何在中心文件中定义调色板

我想在项目的中央文件中声明我的调色板目前我正在使用包含贴图的 Injectable 以引用我使用的所有颜色例子 Injectable export class COLOR DICTIONARY private static COLOR
获取 Android 上的自动旋转信息

我正在开发一个 Android 应用程序我想知道是否启用了自动旋转有人知道我怎样才能得到这个吗因此为了清楚起见我只需要知道用户是否在其设置中启用了自动旋转您可以使用以下命令打开关闭自动旋转信息Settings System A
计算 Skyfield 中两个物体的表观角距的更好方法？

UPDATE Skyfield 刚刚进行了重大修订包括扩展文档和角度分离方法请参阅已接受的答案我正在使用以下方法计算两个物体之间的表观角距Skyfield http rhodesmill org skyfield 我没有在包中找到方法
如何创建右键上下文 shell 快捷方式“使用 Emacs 编辑”？

Notepad 自动添加 shell 快捷方式以便当您在 Windows 资源管理器中时可以右键单击文件并选择使用 Notepad 编辑我怎样才能用 emacs 做同样的事情我正在使用适用于 Windows 的 GNU Emacs
为什么 Android 在我的 SpinnerAdapter 中回收了错误的视图类型？

我正在尝试制作一个带有分隔符的 ActionBar 微调器我已经实施了一个SpinnerAdapter有 2 种项目视图类型感谢getViewTypeCount 问题是我被发送了一些convertViews来自其他类型这是我的 Spi
从 P 帧和 B 帧创建 I 帧

我编写了一个基于 FFMpeg 的 C 转换器它可以接收 hls stream 的链接并将其转换为本地 mp4 视频到目前为止一切都很好转换器工作起来就像一个魅力对此没有任何疑问 PROBLEM 无论我向转换器提供什么输入源在转
如何限制单个Linux进程的内存使用而不杀死该进程

如何限制单个 Linux 进程的内存使用而不杀死该进程我知道 ulimit 可以限制内存使用但如果超过限制将会杀死进程是否有其他命令或 shell 可以限制内存使用而不杀死进程除此之外还有另一种方式设置限制 http man7 o
尽管使用了 @Primary，但两个同名的 bean 仍会导致 ConflictingBeanDefinitionException

我有一个应用程序初始值设定项类用于将应用程序特定数据插入到数据库中 Component applicationInitializer public class ApplicationInitializer PostConstruct pu
如何向标准信号处理程序添加代码？

我有一个在 Linux 上运行的 C 应用程序我需要向标准信号处理程序添加一些代码我的想法是设置我的处理程序将指针保存到标准处理程序并从我的代码中调用保存的处理程序不幸的是 signal 和 sigaction 都没有返回指向标准
如何使用 Erlang/OTP 25 编译器重新编译 rebar3？运行灵药 1.13.4

我正在关注免费的截屏视频教程凤凰城 LiveView 启动器 https online pragmaticstudio com courses liveview starter modules 2但我什至无法开始因为mix setup失
逐行过滤输入流

我正在从 Amazon S3 检索大型 gzip 压缩文件我希望能够即时转换这些文件的每一行并将输出上传到另一个 S3 存储桶上传 API 需要一个InputStream https docs aws amazon com AWSJav

逐行过滤输入流

逐行过滤输入流 的相关文章

随机推荐

热门标签

逐行过滤输入流的相关文章