使用 Spark 2.0.1 将数据写入 Redshift

2024-02-24

我正在做一个 POC，我想将一些简单的数据集写入 Redshift。

我有以下 sbt 文件：

name := "Spark_POC"

version := "1.0"

scalaVersion := "2.10.6"


libraryDependencies += "org.apache.spark" % "spark-core_2.10" % "2.0.1"

libraryDependencies += "org.apache.spark" % "spark-sql_2.10" % "2.0.1"

resolvers += "jitpack" at "https://jitpack.io"

libraryDependencies += "com.databricks" %% "spark-redshift" % "3.0.0-preview1"

和以下代码：

object Main extends App{

  val conf = new SparkConf().setAppName("Hello World").setMaster("local[2]")

  System.setProperty("hadoop.home.dir", "C:\\Users\\Srdjan Nikitovic\\Desktop\\scala\\hadoop")

  val spark = SparkSession
    .builder()
    .appName("Spark 1")
    .config(conf)
    .getOrCreate()


  val tempS3Dir = "s3n://access_key:secret_access_key@bucket_location"

  spark.sparkContext.hadoopConfiguration.set("fs.s3n.impl", "org.apache.hadoop.fs.s3native.NativeS3FileSystem")
  spark.sparkContext.hadoopConfiguration.set("fs.s3n.awsAccessKeyId", "access_key")
  spark.sparkContext.hadoopConfiguration.set("fs.s3n.awsSecretAccessKey", "secret_access_key")

  val data =
    spark
      .read
      .csv("hello.csv")

  data.write
    .format("com.databricks.spark.redshift")
    .option("url", "jdbc:redshift://redshift_server:5439/database?user=user_name&password=password")
    .option("dbtable", "public.testSpark")
    .option("forward_spark_s3_credentials",true)
    .option("tempdir", tempS3Dir)
    .mode("error")
    .save()
}

我正在本地 Windows 计算机上通过 Intellij 运行代码。

我收到以下错误：

线程“main”中出现异常 java.lang.ClassNotFoundException：无法加载 Amazon Redshift JDBC 驱动程序；有关下载和配置亚马逊官方驱动程序的说明，请参阅自述文件。

我尝试过几乎所有版本的 Spark-Redshift 驱动程序（1.0.0、2.0.0、2.0.1 和现在的 3.0.0-PREVIEW），但我无法让此代码工作。

有什么帮助吗？

您首先需要下载来自 Amazon 的 Redshift JDBC 驱动程序 http://docs.aws.amazon.com/redshift/latest/mgmt/configure-jdbc-connection.html#download-jdbc-driver.

然后你必须在这段代码运行的环境中告诉Spark。例如。为一个spark-shell在 EMR 上运行：

spark-shell … --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC41.jar

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

apachesparksql

amazonredshift

使用 Spark 2.0.1 将数据写入 Redshift 的相关文章

使用 databricks 列出 Azure Blob 中的所有文件

我正在使用 pyspark python 脚本来列出 Azure blob 存储中的所有文件包括子目录我在 scala 中找到了一个用于此目的的脚本需要帮助将此脚本转换为 pyspark https learn microsoft c
Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

import org apache spark SparkContext import org apache spark SparkConf import play api libs json import java util Date i
将结构数组分解为 Spark 中的列

我想将结构数组分解为列由结构字段定义例如 root arr array nullable true element struct containsNull true id long nullable false name string
必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

这个错误是什么意思我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存我在这里错过了什么吗最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器你应该避免这种情况并获得Igni
Spark 上的 Kubernetes 驱动程序 pod 清理

我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后执行程序 Pod 就会被清理但驱动程序 Pod 仍处于完成状态驱动程序完成后如何清理要设置任何配置选项吗 NAME READY STATUS RESTA
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

当我尝试在 Spark conf 中设置包依赖项 spark sftp 时我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
使用 Spark SQL 从 ISO 8601 解析日期时间

想做this https stackoverflow com questions 9321809 format date in mysql select as iso 8601但反之亦然 My dates 采用这种格式YYYY MM DDT
使用 Glue 将数据输入到 AWS Elastic Search

我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

我通过 pycharm 和 pyspark shell 分别运行 Spark 我已经堆积了这个错误 java lang OutOfMemoryError Java heap space at org apache spark api pyt
有条件地删除 Redshift 中的临时表

我们正在使用http aws amazon com redshift http aws amazon com redshift 我正在报告中创建删除临时表有时我们会遇到有人创建了临时表但无法删除它的情况在其他数据库中例如 Redsh
Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

例如我们用Spark引擎执行下面的SQL 我们需要my udf row 返回 Spark 中的分区 id add jar hdfs dir udf udf jar create temporary function my udf as co
Spark RDD默认分区数

版本 Spark 1 6 2 Scala 2 10 我正在执行以下命令spark shell 我试图查看 Spark 默认创建的分区数量 val rdd1 sc parallelize 1 to 10 println rdd1 getNum
Pyspark显示最大值(S)和多重排序

感谢这里的一些帮助使用Pyspark 请不能使用SQL 所以我有一个存储为 RDD 对的元组列表城市1 2020 03 27 X1 44 城市1 2020 03 28 X1 44 City3 2020 03 28 X3 15 City4
Spark/Yarn：HDFS 上不存在文件

我在 AWS 上设置了 Hadoop Yarn 集群有 1 个主服务器和 3 个从服务器我已经验证我有 3 个活动节点在端口 50070 和 8088 上运行我在客户端部署模式下测试了 Spark 作业一切正常当我尝试使用 Spa
为什么 Databricks Connect Test 无法在 Mac 上运行？

我已经阅读了配置文档databricks connect但运行时仍然出现以下错误databricks connect test 来自终端的错误 java lang NoSuchMethodError org apache spark int
有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

我使用 Spark 将多个 parquet 文件读取到单个 RDD 中并使用标准通配符路径约定换句话说我正在做这样的事情 val myRdd spark read parquet s3 my bucket my folder parq
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
为什么 Spark 没有使用本地计算机上的所有核心

当我在 Spark Shell 中或作为作业运行一些 Apache Spark 示例时我无法在单台计算机上实现完全的核心利用率例如 var textColumn sc textFile home someuser largefile t
使用spark phoenix从表中读取rdd分区号为1

当我运行我的火花代码时 val sqlContext spark sqlContext val noact table primaryDataProcessor getTableData sqlContext zookeeper table

使用 Spark 2.0.1 将数据写入 Redshift

apachespark

apachesparksql

amazonredshift

使用 Spark 2.0.1 将数据写入 Redshift 的相关文章

使用 databricks 列出 Azure Blob 中的所有文件

Spark运行错误java.lang.NoClassDefFoundError: org/codehaus/jackson/annotate/JsonClass

将结构数组分解为 Spark 中的列

必须设置 Ignite 网格名称线程本地，或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法

Spark 上的 Kubernetes 驱动程序 pod 清理

如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中？

使用 Spark SQL 从 ISO 8601 解析日期时间

使用 Glue 将数据输入到 AWS Elastic Search

PySpark 应用程序因 java.lang.OutOfMemoryError: Java 堆空间而失败

有条件地删除 Redshift 中的临时表

Spark引擎执行SQL时如何获取hive UDF中Spark的partitionId或taskContext？

Spark RDD默认分区数

Pyspark显示最大值(S)和多重排序

Spark/Yarn：HDFS 上不存在文件

为什么 Databricks Connect Test 无法在 Mac 上运行？

有没有办法捕获 Spark 中使用通配符读取的多个 parquet 文件的输入文件名？

Spark 结构化流中具有不同计数的聚合抛出错误

使用 Spark DataFrame 获取组后所有组的 TopN

为什么 Spark 没有使用本地计算机上的所有核心

使用spark phoenix从表中读取rdd分区号为1

随机推荐

如何获取android设备上向MIC吹气时的振幅

如何检查您的内核是否支持硬件上的 GPIO？

如何在WebStorm中调试firebase云功能？

C#：string[] 到分隔字符串。有单线吗？

如何在nodejs中渲染doT.js模板？