如何处理来自 S3 的大文件并在 Spring Batch 中使用它

2024-04-10

我有一个 CSV 文件，其中包含数百万条记录，大小约为 2GB。我的用例是从 S3 读取 CSV 文件并对其进行处理。请在下面找到我的代码：

在下面的代码中，我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中平面文件项读取器 reader.setResource(new InputStreamResource(inputStream));

根据此实现，我在内存中保存 2GB 内容并对其进行处理，这不是一种有效的方法 - 有人可以建议从 S3 存储桶中读取大文件并在 S3 存储桶中处理它的有效方法是什么吗？春季批次。

提前感谢您的帮助！谢谢。

@Component
public class GetFileFromS3 {

    public S3ObjectInputStream dowloadFile(String keyName, String bucketName, String region) {
        try {
            AmazonS3 s3Client = AmazonS3ClientBuilder.standard().withClientConfiguration(new ClientConfiguration())
                    .withRegion(region).build();

            S3Object s3object = s3Client.getObject(bucketName, keyName);
            return s3object.getObjectContent();
        } catch (AmazonServiceException e) {
            e.printStackTrace();
        }
        return null;
    }

}




public class SpringBatch {

    @Autowired
    private GetFileFromS3 getFileFromS3;


 @Bean(name = "csvFile")
    public Step step1() {
        return stepBuilderFactory.get("step1").<Employee, Employee>chunk(10)
                .reader(reader())
                .processor(processor())
                .writer(writer())
                .build();
    }

    @Bean
    public FlatFileItemReader<Employee> reader() {
        S3ObjectInputStream inputStream = getFileFromS3.dowloadFile("employee.csv", "testBucket", "us-east-1");
        FlatFileItemReader<Employee> reader = new FlatFileItemReader<Employee>();
        reader.setResource(new InputStreamResource(inputStream));
        reader.setLinesToSkip(1);
        reader.setLineMapper(new DefaultLineMapper() {
            {
                setLineTokenizer(new DelimitedLineTokenizer() {
                    {
                        setNames(Employee.fields());
                    }
                });
                setFieldSetMapper(new BeanWrapperFieldSetMapper<Employee>() {
                    {
                        setTargetType(Employee.class);
                    }
                });
            }
        });
        return reader;
    }

    @Bean
    public ItemProcessor<Employee, Employee> processor() {
        return new ItemProcessor();
    }

    @Bean
    public ItemWriter<Employee> writer() {
        return new ItemWriter<Event>();
    }

    }

利用ResourceLoader，我们可以像其他资源一样在ItemReader中读取S3中的文件。这将有助于以块的形式读取 S3 中的文件，而不是将整个文件加载到内存中。

随着依赖注入ResourceLoader and AmazonS3 client，已更改阅读器配置如下：

替换值sourceBucket and sourceObjectPrefix如所须。

@Autowired
private ResourceLoader resourceLoader;

@Autowired
private AmazonS3 amazonS3Client;

// READER
@Bean(destroyMethod="")
@StepScope
public SynchronizedItemStreamReader<Employee> employeeDataReader() {
    SynchronizedItemStreamReader synchronizedItemStreamReader = new SynchronizedItemStreamReader();
    List<Resource> resourceList = new ArrayList<>();
    String sourceBucket = yourBucketName;
    String sourceObjectPrefix = yourSourceObjectPrefix;
    log.info("sourceObjectPrefix::"+sourceObjectPrefix);
    ListObjectsRequest listObjectsRequest = new ListObjectsRequest()
            .withBucketName(sourceBucket)
            .withPrefix(sourceObjectPrefix);
    ObjectListing sourceObjectsListing;
    do{
        sourceObjectsListing = amazonS3Client.listObjects(listObjectsRequest);
        for (S3ObjectSummary sourceFile : sourceObjectsListing.getObjectSummaries()){

            if(!(sourceFile.getSize() > 0)
                    || (!sourceFile.getKey().endsWith(DOT.concat("csv")))
            ){
                // Skip if file is empty (or) file extension is not "csv"
                continue;
            }
            log.info("Reading "+sourceFile.getKey());
            resourceList.add(resourceLoader.getResource("s3://".concat(sourceBucket).concat("/")
                    .concat(sourceFile.getKey())));
        }
        listObjectsRequest.setMarker(sourceObjectsListing.getNextMarker());
    }while(sourceObjectsListing.isTruncated());

    Resource[] resources = resourceList.toArray(new Resource[resourceList.size()]);
    MultiResourceItemReader<Employee> multiResourceItemReader = new MultiResourceItemReader<>();
    multiResourceItemReader.setName("employee-multiResource-Reader");
    multiResourceItemReader.setResources(resources);
    multiResourceItemReader.setDelegate(employeeFileItemReader());
    synchronizedItemStreamReader.setDelegate(multiResourceItemReader);
    return synchronizedItemStreamReader;
}

@Bean
@StepScope
public FlatFileItemReader<Employee> employeeFileItemReader()
{
    FlatFileItemReader<Employee> reader = new FlatFileItemReader<Employee>();
    reader.setLinesToSkip(1);
    reader.setLineMapper(new DefaultLineMapper() {
        {
            setLineTokenizer(new DelimitedLineTokenizer() {
                {
                    setNames(Employee.fields());
                }
            });
            setFieldSetMapper(new BeanWrapperFieldSetMapper<Employee>() {
                {
                    setTargetType(Employee.class);
                }
            });
        }
    });
    return reader;
}

以 MultiResourceItemReader 为例。即使您正在查找的特定 S3 路径中有多个 CSV 文件，这也可以工作。

如果只处理某个位置的一个 CSV 文件，它也可以隐式地使用Resources[] resources包含一个条目。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

amazons3

SpringBatch

largedata

largefiles

如何处理来自 S3 的大文件并在 Spring Batch 中使用它的相关文章

任务“:app:dexDebug”执行失败

我目前正在处理我的项目我决定将我的 Android Studio 更新到新版本但在我导入项目后它显示如下错误 Information Gradle tasks app assembleDebug app preBuild UP TO
如何从另一个xml文件动态更新xml文件？

我想从另一个 xml 文件更新 xml 文件我使用了一个 xml 文件如下所示 one xml
带有非字符串值的 AWS S3 x-amz-meta 错误：InvalidHeader 和 InvalidParameterType

尝试使用node js AWS sdk时s3Client upload带有元数据的可选参数 const AWS require aws sdk const s3Client new AWS S3 params Key key secret
PropertySources 中各种源的优先级

Spring引入了新的注释 PropertySources对于所有标记为的类 Configuration since 4 0 需要不同的 PropertySource作为论证 PropertySources PropertySource c
Java 变量的作用域

我不明白为什么这段代码的输出是10 package uno public class A int x 10 A int x 12 new B public static void main String args int x 11 new
使用 Java 在浏览器中下载 CSV 文件

我正在尝试在 Web 应用程序上添加一个按钮单击该按钮会下载一个 CSV 文件该文件很小大小仅约 4KB 我已经制作了按钮并附加了一个侦听器文件也准备好了我现在唯一需要做的就是创建单击按钮时下载 csv 文件的实际事件假设 fi
所有junit测试后的清理

在我的项目中我必须在所有测试之前进行一些存储库设置这是使用一些棘手的静态规则来完成的然而在所有测试之后我不知道如何进行清理我不想保留一些神奇的静态数字来引用所有测试方法的数量我应该一直维护它最受赞赏的方法是添加一些侦听器该侦
为什么我在 Mac 上看到“java.lang.reflect.InaccessibleObjectException: Unable to make private java.nio.DirectByteBuffer(long,int)accessibl

我已经在工作中愉快地构建代码好几天了但突然我的一个项目不是全部失败并出现此错误消息看看下面的答案吧我是如何修复它的起初我用谷歌搜索看到很多有这个问题的人正在使用 Java 16 但我认为错误我正在使用 Java 11 因为
cucumber-junit-platform-engine 中的功能文件发现

In cucumber junit我使用的库 CucumberOptions定义功能文件位置 package com mycompany cucumber import cucumber api CucumberOptions import
参数动态时如何构建 JPQL 查询？

我想知道是否有一个好的解决方案来构建基于过滤器的 JPQL 查询我的查询太富有表现力我无法使用 Criteria 就像是 query Select from Ent if parameter null query WHERE fiel
如何在java中使jpeg无损？

有没有人可以告诉我如何使用编写 jpeg 文件losslessjava中的压缩我使用下面的代码读取字节来编辑字节 WritableRaster raster image getRaster DataBufferByte buffer Da
将 RSA 密钥从 BigIntegers 转换为SubjectPublicKeyInfo 形式

WARNING 最初的问题是关于 PKCS 1 编码密钥而问题中的实际示例需要SubjectPublicKeyInfo X 509 编码密钥我目前正致力于在 java 中从头开始实现 RSA 算法特别是密钥生成方面现在我的代码可以给
使用 Java 从 S3 上的文件在 S3 上创建 zip 文件

我在 S3 上有很多文件需要对其进行压缩然后通过 S3 提供压缩文件目前我将它们从流压缩到本地文件然后再次上传该文件这会占用大量磁盘空间因为每个文件大约有 3 10MB 而且我必须压缩多达 100 000 个文件所以一个 z
阻止 OSX 变音符号为所有用户禁用 Java 中的 KeyBindings？

注我知道这个问题 https stackoverflow com questions 40335285 java keybinds stop working after holding down a key用户必须输入终端命令才能解决此问
从java中的字符串数组中删除空值

java中如何从字符串数组中删除空值 String firstArray test1 test2 test4 我需要像这样没有 null 空值的 firstArray String firstArray test1 test2 test4
如何移动图像（动画）？

我正在尝试在 x 轴上移动船还没有键盘我如何将运动动画与boat png而不是任何其他图像 public class Mama extends Applet implements Runnable int width height i
如何将实例变量传递到 Quartz 作业中？

我想知道如何在 Quartz 中外部传递实例变量下面是我想写的伪代码如何将 externalInstance 传递到此作业中 public class SimpleJob implements Job Override public v
Java中有类似分支/跳转表的东西吗？

Java有类似分支表或跳转表的东西吗分支表或跳转表是根据维基百科 http en wikipedia org wiki Branch table 用于描述使用分支指令表将程序控制分支转移到程序的另一部分或可能已动态加载的不同程序
使用 eclipse IDE 配置 angularjs

我想开始使用 AngularJs 和 Java Spring 进行开发我使用 Eclipse 作为 IDE 我想配置我的 Eclipse 以使这些框架无缝工作我知道我可能要求太多但相信我我已经做了很多研究你们是我最后的选择任何帮
尝试使用带有有效购买令牌的 Java Google Play Developer API v3 检索应用内购买信息时出现错误请求（无效值）

当使用 Java Google Play Developer API 版本 3 并请求有效购买令牌的购买信息时我收到以下异常 API 调用返回 400 Bad Request 响应以及以下消息 code 400 errors domain

随机推荐

当从单独的类调用 PopupWindow 方法时，如何从 xml 文件定义 PopupWindow 中的布局

当从单独的类调用 PopupWindow 方法时我希望能够从 xml 文件定义 PopupWindow 中的布局下面的代码可以根据需要工作除了布局是从 java 文件而不是 xml 文件中提取的我不知道在这种情况下如何正确访问 xm
主干导航在 Firefox 中触发两次

尝试使用 Backbone 的导航属性 this navigate week companyName employeeNo weekEnd trigger true replace false 上面的代码执行一次它击中了这个 routes
如何将 UISearchBar 图标更改为自定义图像？

目前我使用默认的放大镜作为我的搜索栏图标但是我想在其位置放置一个自定义图像特别是此图像自定义箭头图标如何将搜索栏默认图标更改为自定义图像您可以使用setImage功能 searchBar setImage UIImage na
尝试使用 max_element 计算数组中的最大数字时出错

int a max element highesthuman 0 highesthuman 2 if win gt loss cout lt lt You won lt lt win loss lt lt games more than t
Clojure Repl 无法解析所有函数的符号

我用 Leiningen 创建了项目并在中添加了以下代码Core clj file ns hyperstring core use clojure pprint only pprint require clojure java io as
如何获取 RightScale 厨师食谱中正在运行的食谱的完整路径？

从我当前正在执行的食谱食谱中我想访问它在我的执行机器上的当前位置我需要它来访问它的缓存目录结构我有一种感觉它位于 node 内部的某个地方但我根本找不到有关其结构的任何文档有什么建议吗 Thanks 刚刚通过检查 run co
Django查询集附加或注释相关对象字段

需要附加到查询集结果相关的对象字段 Models class User models Model name models CharField max length 50 friends models ManyToManyField self
JSP - 我可以在中使用吗？异常：“必须使用 jsp:body 来指定标记主体”

我在 JSP 中有以下内容
为什么这个 JSON.parse 返回错误：“意外的令牌非法”？

我正在使用 AJAX 请求这是我第一次使用 JSON 或其任何方法 ajax 实用程序将一个参数作为我请求的文件的responseText 或responseXML 返回到onreadystatechange 回调使用一个简单的info
相当于“medium”的 git Pretty 格式是什么？（或者：为什么 %s 中没有 LF）

我正在尝试解决git log pretty format 相当于默认值git log行为我可以发现默认值是中但无法追踪对应的漂亮格式字符串以便我可以复制其中的一部分我真正的问题是为什么 s将提交消息作为一行提供给我吞掉所有换行符
我可以使用 AWS API Gateway 作为 S3 网站的反向代理吗？

我在 AWS S3 上有一个无服务器网站但 S3 有一个我想克服的限制它不允许我拥有友好的 URL 例如我想替换网址 www mywebsite com user html login daniel 对于这个 URL 友好 www m
如何返回 Google App Engine 中的所有 memcached 值？

我想使用我的 python 应用程序引擎内存缓存中的所有数据我事先不知道钥匙我如何获取所有数据唯一读过的功能 http code google com appengine docs python memcache functions
Eclipse Marketplace 错误 - 意外异常：org/eclipse/equinox/internal/p2/repository/RepositoryTransport

当我尝试在 Eclipse 中浏览 Marketplace 时它给出了以下信息 Unexpected exception org eclipse equinox internal p2 repository RepositoryTran
如何让React Flexbox拉伸到全屏高度

我正在尝试创建一个针对移动设备进行优化的 React 应用程序并且使用 Flexbox 完成大部分布局我无法强制应用程序的主容器自动扩展到整个设备高度我可以应用哪些规则特别是我的 html 容器 div div 和我的主应用程序容器
在 PHP 中调整图像大小而不使用第三方库？

在我的一个应用程序中我使用下面的代码片段将上传的图像复制到目录中它工作正常但复制大图像 gt 2MB 比理想情况花费更多时间而且我真的不需要这么大的图像所以我正在寻找一种调整图像大小的方法如何使用 PHP 来实现这一点
在 C++ Windows API 中，在运行时调整窗口大小？

当单击按钮时如何在运行时调整全局 hwnd 变量的大小或者只是在运行时调整窗口大小的任何方法 IE HWND hwnd global int buttonid 250 an id for a button also global int
在 Python 中搜索二维元组/列表

我想搜索一个tuple of tuples对于特定字符串并返回父元组的索引我似乎经常遇到这种搜索的变体最Pythonic的方法是什么 I E derp Cat Pet Dog Pet Spock Vulcan i None for in
访问者模式 VS 迭代器模式：跨层次结构类访问？

我正在研究访客模式的优点并引用设计模式 http it wikipedia org wiki Design Patterns 但是迭代器不能跨具有不同结构的对象工作元素类型例如页面上定义的 Iterator 接口 295 只能访问I
使用 Windows 加密文件系统 (EFS) 对 FILESTREAMS 进行 SQL Server 2012 全文搜索

这基本上是一个是否问题但如果答案包括支持参考资料以及答案如果答案是是我们将不胜感激奇怪的是我在 MSDN 或 TechNet 中找不到明确的答案我的直觉和实验让我得出了不的结论是否可以将 Windows EFS 与 S
如何处理来自 S3 的大文件并在 Spring Batch 中使用它

我有一个 CSV 文件其中包含数百万条记录大小约为 2GB 我的用例是从 S3 读取 CSV 文件并对其进行处理请在下面找到我的代码在下面的代码中我从 S3 存储桶读取文件并使用inputStream直接在 Spring 批处理中

如何处理来自 S3 的大文件并在 Spring Batch 中使用它

如何处理来自 S3 的大文件并在 Spring Batch 中使用它 的相关文章

随机推荐

热门标签

如何处理来自 S3 的大文件并在 Spring Batch 中使用它的相关文章