从 apache Spark 读取/写入 dynamo 数据库 [关闭]

2024-04-24

我想知道是否有任何 Java 库支持从 apache Spark(Mesos) 读取/写入 dynamo db (AWS)，我知道根据本文有一些库支持 EMR Sparkhttps://aws.amazon.com/blogs/big-data/analyze-your-data-on-amazon-dynamodb-with-apache-spark/ https://aws.amazon.com/blogs/big-data/analyze-your-data-on-amazon-dynamodb-with-apache-spark/。请指教。

谢谢普拉迪普

您可以使用以下命令从 DynamoDB 表中读取项目或将项目写入其中阿帕奇火花 and emr-dynamodb-连接器图书馆。要读取数据，您可以使用javaSparkContext.hadoopRDD(jobConf, DynamoDBInputFormat.class, Text.class, DynamoDBItemWritable.class);以及将数据写入 DynamoDB：javaPairRDD.saveAsHadoopDataset(jobConf);。以下是一个示例（适用于 EMR 和非 EMR 环境）：

public static void main(String[] args) throws Exception {
    SparkConf conf = new SparkConf()
            .setAppName("DynamoDBApplication")
            .setMaster("local[4]")
            .registerKryoClasses(new Class<?>[]{
                    Class.forName("org.apache.hadoop.io.Text"),
                    Class.forName("org.apache.hadoop.dynamodb.DynamoDBItemWritable")
            });

    JavaSparkContext sc = new JavaSparkContext(conf);

    JobConf jobConf = getDynamoDbJobConf(sc, "TableNameForRead", "TableNameForWrite");

    // read all items from DynamoDB table with name TableNameForRead
    JavaPairRDD<Text, DynamoDBItemWritable> javaPairRdd = sc.hadoopRDD(jobConf, DynamoDBInputFormat.class, Text.class, DynamoDBItemWritable.class);
    System.out.println("count: " + javaPairRdd.count());

    // process data in any way, below is just a simple example
    JavaRDD<Map<String, AttributeValue>> javaRDD = javaPairRdd.map(t -> {
        DynamoDBItemWritable item = t._2();
        Map<String, AttributeValue> attrs = item.getItem();
        String hashKey = attrs.get("key").getS();
        Long result = Long.valueOf(attrs.get("resultAttribute").getN());
        System.out.println(String.format("hashKey=%s, result=%d", hashKey, result));
        return attrs;
    });
    System.out.println("count: " + javaRDD.count());

    // update JavaPairRdd in order to store it to DynamoDB, below is just a simple example with updating hashKey
    JavaPairRDD<Text, DynamoDBItemWritable> updatedJavaPairRDD = javaPairRdd.mapToPair(t -> {
        DynamoDBItemWritable item = t._2();
        Map<String, AttributeValue> attrs = item.getItem();
        String hashKey = attrs.get("key").getS();
        String updatedHashKey = hashKey + "_new";
        attrs.get("key").setS(updatedHashKey);
        return new Tuple2<>(t._1(), item);
    });

    // write items to DynamoDB table with name TableNameForWrite
    updatedJavaPairRDD.saveAsHadoopDataset(jobConf);

    sc.stop();
}


private static JobConf getDynamoDbJobConf(JavaSparkContext sc, String tableNameForRead, String tableNameForWrite) {
    final JobConf jobConf = new JobConf(sc.hadoopConfiguration());
    jobConf.set("dynamodb.servicename", "dynamodb");

    jobConf.set("dynamodb.input.tableName", tableNameForRead);
    jobConf.set("dynamodb.output.tableName", tableNameForWrite);

    jobConf.set("dynamodb.awsAccessKeyId", "YOUR_AWS_ACCESS_KEY");
    jobConf.set("dynamodb.awsSecretAccessKey", "YOUR_AWS_SECRET_KEY");
    jobConf.set("dynamodb.endpoint", "dynamodb.us-west-1.amazonaws.com");
    jobConf.set("mapred.output.format.class", "org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat");
    jobConf.set("mapred.input.format.class", "org.apache.hadoop.dynamodb.read.DynamoDBInputFormat");

    return jobConf;
}

要运行此代码，您需要以下 Maven 依赖项：

<dependencies>

    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-core</artifactId>
        <version>2.6.0</version>
    </dependency>
    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-databind</artifactId>
        <version>2.6.0</version>
    </dependency>
    <dependency>
        <groupId>com.fasterxml.jackson.core</groupId>
        <artifactId>jackson-annotations</artifactId>
        <version>2.6.0</version>
    </dependency>
    <dependency>
        <groupId>com.fasterxml.jackson.module</groupId>
        <artifactId>jackson-module-scala_2.10</artifactId>
        <version>2.6.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.10</artifactId>
        <version>${spark.version}</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.10</artifactId>
        <version>${spark.version}</version>
    </dependency>

    <dependency>
        <groupId>com.amazonaws</groupId>
        <artifactId>aws-java-sdk-emr</artifactId>
        <version>1.11.113</version>
    </dependency>
    <dependency>
        <groupId>com.amazonaws</groupId>
        <artifactId>aws-java-sdk-dynamodb</artifactId>
        <version>1.11.113</version>
    </dependency>

    <!-- https://github.com/awslabs/emr-dynamodb-connector -->
    <dependency>
        <groupId>com.amazon.emr</groupId>
        <artifactId>emr-dynamodb-hadoop</artifactId>
        <version>4.2.0</version>
    </dependency>

    <dependency>
        <groupId>org.apache.hadoop</groupId>
        <artifactId>hadoop-aws</artifactId>
        <version>2.8.0</version>
    </dependency>

</dependencies>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

amazondynamodb

从 apache Spark 读取/写入 dynamo 数据库 [关闭] 的相关文章

如何强制 Spark 执行代码？

我如何强制 Spark 执行对 map 的调用即使它认为由于其惰性求值而不需要执行它我试过把cache 与地图调用但这仍然没有解决问题我的地图方法实际上将结果上传到 HDFS 所以它并非无用但 Spark 认为它是无用的简短回
在 AWS Quicksight 中可视化 DynamoDB 数据

我正在寻找一个以 AWS 为中心的解决方案如果可能的话避免使用第三方的东西来可视化非常简单的 DynamoDB 表中的数据我们使用 AWS Quicksight 为客户提供许多其他报告和仪表板以便在那里提供可视化效果我非常惊讶地
在 Spark 中写入 JSON 时保留具有空值的键

我正在尝试使用 Spark 编写 JSON 文件有一些键有null作为价值这些在中显示得很好DataSet 但是当我写入文件时密钥会丢失我如何确保它们被保留写入文件的代码 ddp coalesce 20 write mode ov
dynamodb.transactWriteItems 在 Lambda 上不是函数错误，但在使用 VS Code 时不是函数错误

我已经使用 VS Code node js 成功测试了 dynamodb transactWriteItems 但是当我将代码移至 Lambda 时它总是抛出类型错误 dynamodb transactWriteItems 不是函数请注
如何在spark中将矩阵转换为RDD[Vector]

如何转换自org apache spark mllib linalg Matrix to RDD org apache spark mllib linalg Vector 在火花该矩阵是由 SVD 生成的我正在使用 SVD 的结果进行聚
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string
是否可以使用 AWS AppSync 构建离线优先的移动应用程序？

我想使用 AWS AppSync 进行移动开发 Android iOS 但我不确定其离线功能根据文档数据将在离线时访问并在客户端再次上线时自动同步但我找不到任何有关应用程序客户端在使用 AppSync 创建和修改离线数据之前是否需要
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
SparkSession 初始化需要很长时间

SparkSession 初始化需要很长时间才能成功这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
如何在 AWS S3 中保存和使用 Spark History Server 日志

我想在AWS S3中记录和查看Spark历史服务器的事件日志以下是spark defaults conf中记录的属性 spark hadoop fs s3a impl org apache hadoop fs s3a S3AFileSys
如何从 Spark MLLib 中的 TF Vector RDD 获取单词详细信息？

我使用创建了术语频率HashingTF在斯帕克我已经使用术语频率tf transform对于每个单词但结果是以这种格式显示的
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Sparklyr - 在 Apache Spark Join 中包含空值

问题在 Apache Spark Join 中包含空值 https stackoverflow com questions 41728762 including null values in an apache spark join有 Sc
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
boto 库是线程安全的吗？

具体来说我对从多个线程放置获取更新等使用 DynamoDB 表对象感兴趣如果这不安全那么是否有一种安全的方法即每个线程可能有一个表对象关于在 boto 中使用线程的任何其他陷阱或技巧表示赞赏 boto 库使用 httpli
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
对多列应用窗口函数

我想执行窗口函数具体为移动平均值但针对数据帧的所有列我可以这样做 from pyspark sql import SparkSession functions as func df df select func avg df col
不支持的身份验证令牌，仅当禁用身份验证时才允许 schema='none'：{ schema='none' } - Neo4j 身份验证错误

我正在尝试使用 neo4j spark connector 从 Spark 连接到 Neo4j 当我尝试连接到 Neo4j 时遇到身份验证问题org neo4j driver v1 exceptions AuthenticationExce

随机推荐

每当应用程序运行或不运行时显示通知

在我的程序中无论应用程序是否运行都必须激活通知我应该将通知方法放在 onCreate 中吗我的通知就像闹钟一样请稍微检查一下 public String getCurrentTime Calendar c Calendar get
如何在最新的azure webjob 3.03中指定AzureWebJobsStorage

我将旧的 azure webjob 代码更新为打包到 3 03 然后它就不起作用了我设法修复了所有编译时错误但在本地运行时它会抛出以下错误 Microsoft Azure WebJobs Host Indexers FunctionI
带有自定义 json 数据的 JsTree

我在 json 中有这个结构无法根据请求进行修改 Object url http www google com id 1 name Redirection Rule Object frequency 1 trigger 1 Object
如何使用 Express 在 NodeJS 中的 GET 请求中发出 GET 请求

基本上我试图在回调 GET 方法中从 Facebook 获取访问令牌下面是我的代码 getAccessToken根本没有被调用正确的实施方法是什么 app get fbcallback function req res var cod
React - setState 不更新值

我正在尝试使用 DidMount 中的 localStorage 值更新状态但它没有更新 type Props type State id evaluation string class Evaluation extends Compon
在c#中查找编译类的源文件

我正在寻找一组已编译的 net 程序集中特定类的关联源文件 e g MyAsm Namespace Foo gt C Source foo cs MyAsm Namespace Bar gt C Source Code MoreCode C
如何使用 Google Apps 脚本限制文件的复制/下载/打印访问

有没有人找到一种方法来限制使用谷歌应用程序脚本复制下载打印电子表格的访问权限背景信息我创建了一个使用 setShareableByEditors false 限制编辑者共享权限的脚本唯一的问题是编辑者仍然可以轻松地复制电子表格然
Rails 4 link_to 更大的静态图像

我的文件存储在app assets images subdirectory image png and app assets images subdirectory image full png In my app views home h
lseek() 的复杂度是 O(1) 吗？

我知道我的问题在这里有答案 QFile 寻道性能 https stackoverflow com questions 6171403 qfile seek performance 但我对这个答案并不完全满意即使在查看了以下实现之后gene
是否可以将jsp预编译到eclipse中？

标题很简单我想知道是否有可能直接在eclipse中看到编译好的jsp 生成的servlet 无需部署到任何服务器上如果您使用 JSP 我建议购买我的Eclipse http www myeclipseide com 因为它可以编译 JS
显示表格单元格不一致。

嘿我想知道为什么会发生这种情况 http jsfiddle net dSVGF http jsfiddle net dSVGF 按钮尚未填充容器锚确实如此有什么本质上的不同两个标签之间的风格 div class table a hr
如何在 SQL 中替换 PIVOT 中的 Null 值

我有以下代码我试图用零替换使用枢轴时出现的 Null 我执行了以下操作但它说 ISNULL 附近的语法不正确我不确定我做错了什么有什么建议请 select from tempfinaltable pivot ISNULL sum T
无法更新 android studio 3.1：配置冲突：同步项目期间“armeabi-v7a，x86”

这是我的构建 gradle 应用程序文件 apply plugin com android application apply plugin io fabric apply plugin checkstyle def versions a
Angular2 ngNoForm 还可以进行角度形式验证

我有一个遗留后端服务器它将表单数据作为请求参数进行处理我们将 angular2 放在前端我想提交 angular2 表单以便所有字段都作为请求参数这样就不必更改旧后端为此我有
捆绑安装不起作用

我正在 Windows 上开发 Ruby on Rails 我们的本地网络出现问题无法访问https www rubygems org https www rubygems org 好像被屏蔽了什么的但我可以通过访问它http www
Ruby on Rails 3：Devise::LdapAdapter.get_ldap_param 未定义方法错误

我在跑步红宝石 1 9 3p0 轨道 3 1 1 设计1 4 9 Devise ldap authenticatable 0 4 10 我正在使用 Devise 通过 LDAP 服务器验证我的 Rails 应用程序我使用用户名而不是电子
Is Type 和 Is Type(object, object) 抛出 TypeException

我试图断言方法调用返回的对象属于以下类型List
EC2 t2.medium 可爆发信用“储蓄”计算

我正在使用 T2 medium 实例一天的三分之一的时间我都在做密集的统计计算并计算出剩下的 2 3 的时间我将以每小时 24 小时的速度赚取学分但这并没有发生这是我这两天的使用情况这是我的信用账户直到昨天下午 6 点我已经
在 Ruby 中模拟 int64 溢出

我是一名资深程序员但对 Ruby 还很陌生我正在尝试移植一种名为 CheckRevision 的算法用于在登录 Battle net 的在线游戏服务之前检查游戏文件的完整性该算法使用给定的公式对文件进行哈希没有无聊的细节而是不
从 apache Spark 读取/写入 dynamo 数据库 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我想知道是否有任何 Java 库支持从 apache Spark Mesos 读取写入 dynamo

从 apache Spark 读取/写入 dynamo 数据库 [关闭]

从 apache Spark 读取/写入 dynamo 数据库 [关闭] 的相关文章

随机推荐

热门标签