Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
创建涉及 ArrayType 的 Pyspark 架构
我正在尝试为我的新 DataFrame 创建一个架构 并尝试了括号和关键字的各种组合 但无法弄清楚如何完成这项工作 我目前的尝试 from pyspark sql types import schema StructType StructF
PySpark
schema
apachesparksql
RDD
Spark SQL/Hive 查询通过 Join 永远持续下去
所以我正在做一些应该很简单的事情 但显然它不在 Spark SQL 中 如果我在 MySQL 中运行以下查询 查询将在不到一秒的时间内完成 SELECT ua address id FROM user u inner join user a
mysql
apachespark
apachesparksql
Spark 数据帧分组、排序和选择一组列的顶部行
我正在使用 Spark 1 5 0 我有一个包含以下列的 Spark 数据框 user id description fName weight 我想做的是为每个用户选择前 10 行和后 10 行 基于列权重的值 数据类型为 Double 如
apachespark
DataFrame
apachesparksql
如何在 Spark 数据帧 groupBy 中执行 count(*)
我的目的是做相当于基本sql的事情 select shipgrp shipstatus count cnt from shipstatus group by shipgrp shipstatus 我见过的 Spark 数据帧的示例包括其他列
scala
apachespark
apachesparksql
在 Spark 2.4 上的 pyspark.sql.functions.max().over(window) 上使用 .where() 会引发 Java 异常
我关注了一个帖子堆栈溢出 https stackoverflow com questions 48829993 groupby column and filter rows with maximum value in pyspark 488
apachespark
Exception
PySpark
apachesparksql
PySpark DataFrame 上分组数据的 Pandas 式转换
如果我们有一个由一列类别和一列值组成的 Pandas 数据框 我们可以通过执行以下操作来删除每个类别中的平均值 df DemeanedValues df groupby Category Values transform lambda g
python
pandas
apachespark
PySpark
apachesparksql
使用列的长度过滤 DataFrame
我想过滤一个DataFrame使用与列长度相关的条件 这个问题可能很简单 但我在SO中没有找到任何相关问题 更具体地说 我有一个DataFrame只有一个Column哪一个ArrayType StringType 我想过滤DataFrame
python
apachespark
DataFrame
PySpark
apachesparksql
在 Databricks / Spark 中的 SQL 中为变量分配动态值
我觉得我一定在这里遗漏了一些明显的东西 但我似乎无法在 Spark SQL 中动态设置变量值 假设我有两张桌子 tableSrc and tableBuilder 我正在创建tableDest 我一直在尝试变体 SET myVar FLOA
apachespark
apachesparksql
Databricks
Scala 中的行聚合
我正在寻找一种方法在 Scala 的数据框中获取一个新列来计算min max中的值col1 col2 col10对于每一行 我知道我可以使用 UDF 来做到这一点 但也许有一种更简单的方法 Thanks Porting 这个Python答案
scala
apachespark
apachesparksql
如何向数据框spark添加标题和列?
我有一个数据框 我想在其中添加标题和第一列 手动 这是数据框 import org apache spark sql SparkSession val spark SparkSession builder master local appN
scala
apachesparksql
sparkcsv
createOrReplaceTempView 在 Spark 中如何工作?
我是 Spark 和 Spark SQL 的新手 如何createOrReplaceTempView在 Spark 工作 如果我们注册一个RDD对象作为表 Spark 会将所有数据保留在内存中吗 createOrReplaceTempVie
apachespark
apachesparksql
Pyspark - 根据条件重置累积和列
我有以下数据框 id date reset cumsum 1001 2023 04 01 false 0 1001 2023 04 02 false 0 1001 2023 04 03 false 1 1001 2023 04 04 fal
python
apachespark
PySpark
apachesparksql
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT
针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
Hadoop
apachespark
hive
apachesparksql
在地图类型中创建 DataFrame 分组列
My 数据框具有以下结构 df spark createDataFrame B a 10 B b 20 C c 30 Brand Type Amount df show Brand Type Amount B a 10 B b 20 C c
python
apachespark
Dictionary
PySpark
apachesparksql
Spark 中的 RDD 和 Dataframe 有什么区别? [复制]
这个问题在这里已经有答案了 嗨 我对 apache Spark 比较陌生 我想了解 RDD 数据帧和数据集之间的区别 例如 我正在从 s3 存储桶中提取数据 df spark read parquet s3 output unattribu
apachespark
PySpark
apachesparksql
Pyspark dataframe:如何按组应用 scipy.optimize 函数
我有一段运行良好的代码 但使用 pandas 数据帧 groupby 处理 但是 由于文件很大 gt 7000 万组 我需要转换代码以使用 PYSPARK 数据框架 这是使用 pandas dataframe 和小示例数据的原始代码 imp
apachespark
DataFrame
groupby
PySpark
apachesparksql
Spark 在执行 jdbc 保存时给出空指针异常
您好 当我执行以下代码行时 我得到以下堆栈跟踪 transactionDF write format jdbc option url SqlServerUri option driver driver option dbtable full
sqlserver
apachespark
apachesparksql
嵌套 json 中的结构化流式传输不同模式
您好 我有一个场景 传入的消息是一个 Json 其标题为表名 数据部分包含表列数据 现在我想将其写入镶木地板到单独的文件夹 emp and dept 我可以通过根据表名聚合行来在常规流式传输中实现此目的 但在结构化流媒体中我无法分割它 我怎
apachespark
apachesparksql
SparkStreaming
SparkStructuredStreaming
如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充?
我基本上是在尝试进行前向填充插补 下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
python
apachespark
PySpark
apachesparksql
使用 Spark sql DataFrame 删除功能
我需要为我的 Spark 应用程序从 postgres 数据库加载 删除特定记录 为了加载 我使用以下格式的 Spark 数据框 sqlContext read format jdbc options Map url gt postgres
postgresql
apachespark
apachesparksql
1
2
3
4
5
6
...45
»