Spark 中简单的 RDD 写入 DynamoDB

2024-02-16

刚刚在尝试将基本 RDD 数据集导入 DynamoDB 时陷入困境。这是代码：

import org.apache.hadoop.mapred.JobConf

var rdd = sc.parallelize(Array(("", Map("col1" -> Map("s" -> "abc"), "col2" -> Map("n" -> "123")))))

var jobConf = new JobConf(sc.hadoopConfiguration)
jobConf.set("dynamodb.output.tableName", "table_x")
jobConf.set("mapred.output.format.class", "org.apache.hadoop.dynamodb.write.DynamoDBOutputFormat")

rdd.saveAsHadoopDataset(jobConf)

这是我得到的错误：

16/02/28 15:40:38 WARN TaskSetManager: Lost task 7.0 in stage 1.0 (TID 18, ip-172-31-9-224.eu-west-1.compute.internal): java.lang.ClassCastException: java.lang.String cannot be cast to org.apache.hadoop.io.Text
at org.apache.hadoop.dynamodb.write.DefaultDynamoDBRecordWriter.convertValueToDynamoDBItem(DefaultDynamoDBRecordWriter.java:10)
at org.apache.hadoop.dynamodb.write.AbstractDynamoDBRecordWriter.write(AbstractDynamoDBRecordWriter.java:90)
at org.apache.spark.SparkHadoopWriter.write(SparkHadoopWriter.scala:96)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply$mcV$sp(PairRDDFunctions.scala:1199)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply(PairRDDFunctions.scala:1197)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13$$anonfun$apply$6.apply(PairRDDFunctions.scala:1197)
at org.apache.spark.util.Utils$.tryWithSafeFinally(Utils.scala:1250)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13.apply(PairRDDFunctions.scala:1205)
at org.apache.spark.rdd.PairRDDFunctions$$anonfun$saveAsHadoopDataset$1$$anonfun$13.apply(PairRDDFunctions.scala:1185)
at org.apache.spark.scheduler.ResultTask.runTask(ResultTask.scala:66)
at org.apache.spark.scheduler.Task.run(Task.scala:89)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:213)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1145)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:615)
at java.lang.Thread.run(Thread.java:745)

我可以做什么来解决这个问题？

您需要将对象转换为文本对象。

我建议你看看这里：

https://aws.amazon.com/blogs/big-data/using-spark-sql-for-etl/ https://aws.amazon.com/blogs/big-data/using-spark-sql-for-etl/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

apachespark

amazondynamodb

amazonemr

Spark 中简单的 RDD 写入 DynamoDB 的相关文章

Spark SQL 广播提示中间表

我在使用广播提示时遇到问题可能是缺乏 SQL 知识我有一个查询例如 SELECT broadcast a FROM a INNER JOIN b ON INNER JOIN c on 我想要做 SELECT broadcast a F
Hive 聚集在多个列上

据我所知当配置单元表聚集在一列上时它会执行该分桶列的哈希函数然后将该行数据放入其中一个桶中每个桶都有一个文件即如果有 32 个桶那么 hdfs 中就有 32 个文件将 clustered by 放在多个列上意味着什么例如假
Spark 和 Ipython 中将非数字特征编码为数字的问题

我正在做一些我必须做出预测的事情numeric数据每月员工支出使用non numeric特征我在用Spark MLlibs Random Forests algorthim 我有我的features数据在一个dataframe看起来像
Protobuf RPC 在 Hadoop 2.2.0 单节点服务器上不可用？

我正在尝试在按照本教程安装的本地单节点集群上运行 hadoop 2 2 0 mapreduce 作业 http codesfusion blogspot co at 2013 10 setup hadoop 2x 220 on ubuntu
如何从 SparkSQL DataFrame 中的 MapType 列获取键和值

我的镶木地板文件中有数据该文件有 2 个字段 object id String and alpha Map lt gt 它被读入 SparkSQL 中的数据帧其架构如下所示 scala gt alphaDF printSchema ro
通过Oozie命令行指定多个过滤条件

我正在尝试通过命令行搜索一些特定的 oozie 作业我使用以下语法进行相同的操作 oozie jobs filter status RUNNING status KILLED 但是该命令仅返回正在运行的作业而不是已杀死的作业需要帮助
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
MapReduce 中 1 个任务的减速器数量

在典型的 MapReduce 设置如 Hadoop 中 1 个任务使用多少个减速器例如计算单词数我对 Google MapReduce 的理解意味着只涉及 1 个减速器那是对的吗例如单词计数会将输入分为 N 个块并且 N 个
Hadoop fs 查找块大小？

在 Hadoop fs 中如何查找特定文件的块大小我主要对命令行感兴趣例如 hadoop fs hdfs fs1 data 但看起来这并不存在有Java解决方案吗 The fsck其他答案中的命令列出了块并允许您查看块的数量但是要
Spark 1.3.1 上的 Apache Phoenix（4.3.1 和 4.4.0-HBase-0.98）ClassNotFoundException

我正在尝试通过 Spark 连接到 Phoenix 并且在通过 JDBC 驱动程序打开连接时不断收到以下异常为简洁起见下面是完整的堆栈跟踪 Caused by java lang ClassNotFoundException org a
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
Hadoop 减速器数量配置选项优先级

以下3个设置reduce数量的选项的优先级是什么换句话说如果三者都设置了会考虑哪一个呢 Option1 setNumReduceTasks 2 within the application code Option2 D mapredu
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
行类型 Spark 数据集的编码器

我想写一个编码器Row https spark apache org docs 2 0 0 api java index html org apache spark sql Row html输入 DataSet 用于我正在执行的地图操作本
Spark EC2 SSH连接错误SSH返回代码255

每次我尝试通过 Spark ec2 spark ec2 py 文件在 AWS 上启动 Spark 集群时都会收到 SSH 连接错误最终解决了但是浪费了很多时间在您将其标记为重复之前我知道有很多类似的问题被问到但有两个关键区别 a
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
通过 Java 连接 Apache Drill

在 Apache Drill 的 Wiki 中我只能看到通过 SqlLine 客户端运行的查询除了 REST API 之外是否有任何编程方式可以在 Drill 中运行查询有任何示例或指示吗或者它与使用 JDBC 驱动程序运行 SQ
DynamodB：如何更新排序键？

该表有两个键 filename 分区键和eventTime 排序键我要更新eventTime对于某些filename Tried put item and update item 发送相同的filename与新的eventTime但这些
AWS 将 MQTT 消息存储到 DynamoDB

我构建了一个定期发送 MQTT 消息的 python 脚本这是发送到后端的 JSON 字符串 Id 1234 Ut 1488395951 Temp 22 86 Rh 48 24 在后端我想将 MQTT 消息存储到 DynamoDB 表中

随机推荐

如何使用 Storyboard 在 AppDelegate 中使用自定义导航控制器

我有一个关于 AppDelegate 中的 Navigationcontroller 的问题我正在使用故事板如下所示由于使用推送通知我的 AppDelegate 文件中具有以下功能 void application UIApplic
对角循环二维数组

我编写了以下代码来遍历数组的一半对角线 String b a b c d e f g h i public void LoopDiag for int i b length 1 i gt 0 i String temp for int j
当 main() 退出时，分离的线程会发生什么？

假设我正在开始一个std thread进而detach 它所以线程继续执行即使std thread曾经代表它的东西已经超出了范围 Assume further that the program does not have a relia
如何使用 Jackson 将对象转换为具有前导零的整数字段的 JSON？

当我尝试转换具有整数字段的对象时其值为0000 转换后的 JSON 包含0代替0000 我该如何配置杰克逊的ObjectMapper转换0000 to 00000 前导 0 表示八进制数因此 JSON 中的数值不允许有前导零请参阅以下
组合变音符号未使用 unicodedata.normalize (PYTHON) 进行标准化

我明白那个unicodedata normalize将变音符号转换为非变音符号 import unicodedata join c for c in unicodedata normalize NFD u B u0153uf if unic
在上传文件夹中存储图像时出错

我的控制器 Home php
如何用listview实现autocompletetextview？

我从服务器收到响应并使用列表视图显示它它工作正常现在我正在尝试添加自动完成文本视图来按名称搜索项目但是当我运行我的应用程序时它崩溃并显示错误我已经问过这个 Tab1Activity java public class Tab1Ac
如何在没有临时文件的情况下将流从 Web API 传递到 Azure Blob 存储？

我正在开发一个经常发生文件上传的应用程序并且文件大小可能非常大这些文件正在上传到 Web API 然后该 API 将从请求中获取流并将其传递到我的存储服务然后将其上传到 Azure Blob 存储我需要确保 Web API 实例上
类成员变量的decltype，是否被禁止？为什么？

我可以写 int a decltype a b 但是我的编译器 Microsoft Visual Studio 2010 cl版本 16 00 40219 01 禁止我 class A int a decltype a b error C2
我们怎样才能将数组向左旋转呢？

例如我有一个数组 1 2 3 4 5 和一个整数7它会旋转7右边的空格如 4 5 1 2 3 我也有那个数组 1 2 3 4 5 和一个整数 7它会旋转7左边的空格如 3 4 5 1 2 我使用以下方法将数组旋转到右侧 for int i
使用 NodeJS 将文件上传到 Amazon S3

我在尝试将文件上传到 S3 存储桶时遇到问题除了我的文件参数似乎不合适之外一切正常我正在使用 Amazon S3 sdk 从 nodejs 上传到 s3 这些是我的路线设置 var multiparty require connect
不支持在 c 或 c++ 中添加两个指针。为什么？

为什么 C 或 C 不支持两个指针相加当我做 int ptr ptr1 int sum ptr ptr1 C 或 C 会引发错误虽然支持 int diff ptr ptr1 指针包含地址添加两个地址是没有意义的因为你不知道你会指向什
通过关联 update_all

我正在尝试通过关联使用 update all 并且收到 mysql 错误有人知道为什么吗 class Basket lt ActiveRecord Base has many basket items has many articles
有没有实现按键删除并同时获取值？ [复制]

这个问题在这里已经有答案了我正在做一个性能关键的程序一些学术性的东西我希望尽可能地优化不像它证明的这是瓶颈我有一个自定义字典结构 NET 的包装器Dictionary lt gt 并且我会在一个阶段不断地删除项目通过Key价
如何使用按钮触发回调更新？

我刚刚开始使用破折号举个例子here https plot ly dash getting started part 2 interactivity 我想转换下面的破折号应用程序 import dash from dash depende
批处理文件变量范围问题

当尝试创建 dos Windows 7 命令行批处理文件时我遇到了一个奇怪的变量范围问题该文件执行一些字符串操作来创建新的文件路径谁能明白为什么在下面的示例中 OUTPUT FILENAME 变量总是最终为空 echo Enter
Java 8 元空间与堆使用

我有这段代码可以动态生成类并加载它 import javassist CannotCompileException import javassist ClassPool public class PermGenLeak private st
测试覆盖率 React，伊斯坦布尔 -_registerComponent(...)：目标容器不是 DOM 元素

我正在使用 React Redux Webpack 编写一个应用程序我正在使用 karma mocha 构建测试并希望使用 istanbul 进行测试覆盖为了使覆盖范围与业力覆盖范围一起工作我设置了以下内容karma config
是否可以根据批次标签（y_true）分布更新每个批次的学习率？

编辑请参阅此问题的结尾以获取解决方案 TL DR 我需要找到一种方法来计算每批次的标签分布并更新学习率有没有办法访问当前模型的优化器来更新每批的learning rate 下面是如何计算标签分布它可以在损失函数中完成因为默认情况下
Spark 中简单的 RDD 写入 DynamoDB

刚刚在尝试将基本 RDD 数据集导入 DynamoDB 时陷入困境这是代码 import org apache hadoop mapred JobConf var rdd sc parallelize Array Map col1 gt

Spark 中简单的 RDD 写入 DynamoDB

Spark 中简单的 RDD 写入 DynamoDB 的相关文章

随机推荐

热门标签