apachesparksql

Spark Dataframe 列与其他列的最后一个字符

我正在寻找一种方法来从数据帧列中的字符串中获取最后一个字符并将其放入另一列中我有一个 Spark 数据框如下所示 animal cat mouse snake 我想要这样的东西 lastchar t e e 现在我可以使用如下 UDF

apachespark PySpark apachesparksql

Spark 数据帧的 null 值和 countDistinct

我有一个非常简单的数据框 df spark createDataFrame None 1 3 2 1 3 2 1 3 a b c a b c null 1 3 2 1 3 2 1 3 当我申请一个countDistinct在此数据框上我发

apachespark PySpark apachesparksql

根据另一个指定拒绝列表条件的 DataFrame 过滤 Spark DataFrame

我有一个largeDataFrame 多列和数十亿行和smallDataFrame 单列和 10 000 行我想过滤所有行largeDataFrame每当some identifier栏目中的largeDataFrame匹配中的某一行s

DataFrame apachespark PySpark apachesparksql

Pandas 数据帧到 Spark 数据帧，处理 NaN 转换为实际 null？

我想将数据帧从 pandas 转换为 Spark 我正在使用spark context createDataFrame 创建数据框的方法我还在中指定架构createDataFrame 方法我想知道的是特殊情况如何处理例如 NaN在 p

python pandas apachespark apachesparksql

重新分区(1) 和合并(1) 之间的区别

在我们的项目中我们使用repartition 1 将数据写入表中我有兴趣知道为什么coalesce 1 不能在这里使用因为repartition与coalesce I know repartition跨分区均匀分布数据但是当输出文件

apachespark apachesparksql

如何将多个语句传递到 Spark SQL HiveContext

例如我有一些 Hive HQL 语句想要传递到 Spark SQL 中 set parquet compression SNAPPY create table MY TABLE stored as parquet as select fr

apachespark HiveQL apachesparksql

如何将空数组转换为 null？

我有下面的数据框我需要将空数组转换为空 id count AS count asdr 1110 12 45 50 55 1111 1112 45 46 50 50 1113 我尝试过下面的代码但它不起作用 df na fill null

apachespark PySpark apachesparksql

SparkSQL SQL 查询写入 JDBC 表的是什么？

用于 Spark 中的 SQL 查询对于读取我们可以通过以下方式读取 jdbc CREATE TEMPORARY TABLE jdbcTable USING org apache spark sql jdbc OPTIONS dbtab

JDBC apachespark hive apachesparksql HiveQL

基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快？

我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有性能改进查询速度通常我将如下所示的 CS

apachespark apachesparksql parquet

在 Spark SQL 中查找多个双数据类型列的中位数

我需要找到多个双数据类型列的中位数请求建议以找到正确的方法下面是我的示例数据集其中有一列我期望我的样本的中值返回为 1 scala gt sqlContext sql select num from test show num 0

apachespark apachesparksql hiveudf

Spark RDD 到 DataFrame python

我正在尝试将 Spark RDD 转换为 DataFrame 我已经看过该方案传递给的文档和示例sqlContext CreateDataFrame rdd schema 功能但我有 38 个列或字段并且还会进一步增加如果我手动给出指

python apachespark PySpark apachesparksql

Spark 2.0 中访问向量列时出现 MatchError

我正在尝试在 JSON 文件上创建 LDA 模型使用 JSON 文件创建 Spark 上下文 import org apache spark sql SparkSession val sparkSession SparkSession b

scala apachespark apachesparksql apachesparkmllib apachesparkml

在python中按时间（TimestampType）连接两个spark数据帧

我有两个数据帧我想基于一列连接它们但需要注意的是该列是一个时间戳并且该时间戳必须在一定的偏移量 5 秒内才能连接记录更具体地说记录在dates df with date 1 3 2015 00 00 00应该加入events

join apachespark apachesparksql PySpark

连接两个连接键不同的 DataFrame，并且仅选择某些列

我想做的是连接两个 DataFrameA and B使用各自的id列a id and b id 我想从中选择所有列A和两个特定的列B 我尝试了类似下面用不同引号放置的内容但仍然不起作用我觉得在 pyspark 中应该有一个简单的方法

apachespark join PySpark apachesparksql

Spark 数据集过滤器性能

我一直在尝试不同的方法来过滤类型数据集事实证明性能可能会有很大不同该数据集是基于 1 6 GB 行 33 列 4226047 行的数据创建的 DataSet 通过加载 csv 数据创建并映射到案例类 val df spark read

apachespark apachesparksql apachesparkdataset

编写 UDF 在 Java 中的 Map 中查找，给出不支持的文字类型类 java.util.HashMap

我正在使用 java8 和 Spark v2 4 1 我正在尝试使用 UDF 使用 Map 进行查找如下所示 Data code1 code2 code3 1 7 5 2 7 4 3 7 3 4 7 2 5 7 1 预期数据 code1

DataFrame java8 apachesparksql userdefinedfunctions

在 Apache Spark Join 中包含空值

我想在 Apache Spark 连接中包含空值默认情况下 Spark 不包含带有 null 的行这是默认的 Spark 行为 val numbersDf Seq 123 456 null toDF numbers val letter

sql scala apachespark join apachesparksql

如何在 Apache Spark 中获取上一行的数据

从 Spark Data 框架中查找每个城市上个月的销售情况 City Month Sale c1 JAN 2017 49 c1 FEB 2017 46 c1 MAR 2017 83 c2 JAN 2017 59 c2 MAY 2017 6

DataFrame scala apachespark apachesparksql

如何使用 Java 在 Spark SQL 中连接多个列以在 DataFrame 中进行过滤

DataFrame a 包含列 x y z k DataFrame b 包含列 x y a a join b

Java apachespark DataFrame apachesparksql

Spark 中优雅的 Json 扁平化 [重复]

这个问题在这里已经有答案了我在 Spark 中有以下数据框 val test sqlContext read json path path to jsonfiles test printSchema root properties str

json scala apachespark apachesparksql