Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark Dataframe 列与其他列的最后一个字符
我正在寻找一种方法来从数据帧列中的字符串中获取最后一个字符并将其放入另一列中 我有一个 Spark 数据框 如下所示 animal cat mouse snake 我想要这样的东西 lastchar t e e 现在我可以使用如下 UDF
apachespark
PySpark
apachesparksql
Spark 数据帧的 null 值和 countDistinct
我有一个非常简单的数据框 df spark createDataFrame None 1 3 2 1 3 2 1 3 a b c a b c null 1 3 2 1 3 2 1 3 当我申请一个countDistinct在此数据框上 我发
apachespark
PySpark
apachesparksql
根据另一个指定拒绝列表条件的 DataFrame 过滤 Spark DataFrame
我有一个largeDataFrame 多列和数十亿行 和smallDataFrame 单列和 10 000 行 我想过滤所有行largeDataFrame每当some identifier栏目中的largeDataFrame匹配中的某一行s
DataFrame
apachespark
PySpark
apachesparksql
Pandas 数据帧到 Spark 数据帧,处理 NaN 转换为实际 null?
我想将数据帧从 pandas 转换为 Spark 我正在使用spark context createDataFrame 创建数据框的方法 我还在中指定架构createDataFrame 方法 我想知道的是特殊情况如何处理 例如 NaN在 p
python
pandas
apachespark
apachesparksql
重新分区(1) 和合并(1) 之间的区别
在我们的项目中 我们使用repartition 1 将数据写入表中 我有兴趣知道为什么coalesce 1 不能在这里使用 因为repartition与coalesce I know repartition跨分区均匀分布数据 但是当输出文件
apachespark
apachesparksql
如何将多个语句传递到 Spark SQL HiveContext
例如 我有一些 Hive HQL 语句想要传递到 Spark SQL 中 set parquet compression SNAPPY create table MY TABLE stored as parquet as select fr
apachespark
HiveQL
apachesparksql
如何将空数组转换为 null?
我有下面的数据框 我需要将空数组转换为空 id count AS count asdr 1110 12 45 50 55 1111 1112 45 46 50 50 1113 我尝试过下面的代码 但它不起作用 df na fill null
apachespark
PySpark
apachesparksql
SparkSQL SQL 查询写入 JDBC 表的是什么?
用于 Spark 中的 SQL 查询 对于读取 我们可以通过以下方式读取 jdbc CREATE TEMPORARY TABLE jdbcTable USING org apache spark sql jdbc OPTIONS dbtab
JDBC
apachespark
hive
apachesparksql
HiveQL
基于 CSV 的 Spark DataFrame 查询是否比基于 Parquet 的 Spark DataFrame 查询更快?
我必须使用 Spark 从 HDFS 加载 CSV 文件到DataFrame 我想知道由 CSV 文件支持的 DataFrame 与由 parquet 文件支持的 DataFrame 是否有 性能 改进 查询速度 通常 我将如下所示的 CS
apachespark
apachesparksql
parquet
在 Spark SQL 中查找多个双数据类型列的中位数
我需要找到多个双数据类型列的中位数 请求建议以找到正确的方法 下面是我的示例数据集 其中有一列 我期望我的样本的中值返回为 1 scala gt sqlContext sql select num from test show num 0
apachespark
apachesparksql
hiveudf
Spark RDD 到 DataFrame python
我正在尝试将 Spark RDD 转换为 DataFrame 我已经看过该方案传递给的文档和示例sqlContext CreateDataFrame rdd schema 功能 但我有 38 个列或字段 并且还会进一步增加 如果我手动给出指
python
apachespark
PySpark
apachesparksql
Spark 2.0 中访问向量列时出现 MatchError
我正在尝试在 JSON 文件上创建 LDA 模型 使用 JSON 文件创建 Spark 上下文 import org apache spark sql SparkSession val sparkSession SparkSession b
scala
apachespark
apachesparksql
apachesparkmllib
apachesparkml
在python中按时间(TimestampType)连接两个spark数据帧
我有两个数据帧 我想基于一列连接它们 但需要注意的是 该列是一个时间戳 并且该时间戳必须在一定的偏移量 5 秒 内才能连接记录 更具体地说 记录在dates df with date 1 3 2015 00 00 00应该加入events
join
apachespark
apachesparksql
PySpark
连接两个连接键不同的 DataFrame,并且仅选择某些列
我想做的是 连接两个 DataFrameA and B使用各自的id列a id and b id 我想从中选择所有列A和两个特定的列B 我尝试了类似下面用不同引号放置的内容 但仍然不起作用 我觉得在 pyspark 中 应该有一个简单的方法
apachespark
join
PySpark
apachesparksql
Spark 数据集过滤器性能
我一直在尝试不同的方法来过滤类型数据集 事实证明 性能可能会有很大不同 该数据集是基于 1 6 GB 行 33 列 4226047 行的数据创建的 DataSet 通过加载 csv 数据创建并映射到案例类 val df spark read
apachespark
apachesparksql
apachesparkdataset
编写 UDF 在 Java 中的 Map 中查找,给出不支持的文字类型类 java.util.HashMap
我正在使用 java8 和 Spark v2 4 1 我正在尝试使用 UDF 使用 Map 进行查找 如下所示 Data code1 code2 code3 1 7 5 2 7 4 3 7 3 4 7 2 5 7 1 预期数据 code1
DataFrame
java8
apachesparksql
userdefinedfunctions
在 Apache Spark Join 中包含空值
我想在 Apache Spark 连接中包含空值 默认情况下 Spark 不包含带有 null 的行 这是默认的 Spark 行为 val numbersDf Seq 123 456 null toDF numbers val letter
sql
scala
apachespark
join
apachesparksql
如何在 Apache Spark 中获取上一行的数据
从 Spark Data 框架中查找每个城市上个月的销售情况 City Month Sale c1 JAN 2017 49 c1 FEB 2017 46 c1 MAR 2017 83 c2 JAN 2017 59 c2 MAY 2017 6
DataFrame
scala
apachespark
apachesparksql
如何使用 Java 在 Spark SQL 中连接多个列以在 DataFrame 中进行过滤
DataFrame a 包含列 x y z k DataFrame b 包含列 x y a a join b
Java
apachespark
DataFrame
apachesparksql
Spark 中优雅的 Json 扁平化 [重复]
这个问题在这里已经有答案了 我在 Spark 中有以下数据框 val test sqlContext read json path path to jsonfiles test printSchema root properties str
json
scala
apachespark
apachesparksql
«
1 ...
40
41
42
43
44
45
46
47
»