Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如果两个阶段使用相同的 DataFrame,spark 是否会读取同一文件两次?
以下代码读取相同的 csv 两次 即使只调用一个操作 端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
apachespark
PySpark
apachesparksql
Spark:查找前 n 个值的高性能方法
我有一个很大的数据集 我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
scala
apachespark
apachesparksql
如何加速spark df.write jdbc到postgres数据库?
我是 Spark 新手 正在尝试使用 df write 加速将数据帧的内容 可以有 200k 到 2M 行 附加到 postgres 数据库 df write format jdbc options url psql url spark d
postgresql
apachespark
PySpark
apachesparksql
使用 scalapb 在 Spark Streaming 中解码 Proto Buf 消息时出错
这是一个 Spark Streaming 应用程序 它使用编码的 Kafka 消息Proto Buf Using scalapb图书馆 我收到以下错误 请帮忙 gt com google protobuf InvalidProtocolBu
scala
apachesparksql
protocolbuffers
SparkStreaming
scalapb
如何根据条件添加新列(而不面临 JaninoRuntimeException 或 OutOfMemoryError)?
尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
apachespark
apachesparksql
Spark.sql.shuffle.partitions 的最佳值应该是多少,或者在使用 Spark SQL 时如何增加分区?
我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询 我遇到了 OOM 问题 所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
apachespark
apachesparksql
从 pyspark.sql 中的列表创建数据框
我完全陷入了有线的境地 现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
python
DataFrame
apachespark
PySpark
apachesparksql
Spark 2.2 无法将 df 写入 parquet
我正在构建一个聚类算法 我需要存储模型以供将来加载 我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
scala
apachespark
apachesparksql
parquet
计算 pyspark df 列中子字符串列表的出现次数
我想计算子字符串列表的出现次数 并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
python
hive
PySpark
apachesparksql
IntelliJ:线程“主”java.lang.NoClassDefFoundError中的异常:org/apache/spark/sql/types/DataType
附言 有一个类似的问题here https stackoverflow com questions 40287289 java lang noclassdeffounderror org apache spark logging 但那是在
scala
apachespark
intellijidea
apachesparksql
sbt
Spark DataFrame 序列化为无效 json
TL DR 当我倾倒 Spark 时DataFrame作为 json 我总是得到类似的结果 key1 v11 key2 v21 key1 v12 key2 v22 key1 v13 key2 v23 这是无效的 json 我可以手动编辑转储
json
apachespark
apachesparksql
使用 Scala 获取 Spark 数据集中最新时间戳对应的行
我对 Spark 和 Scala 比较陌生 我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
scala
apachespark
apachesparksql
如何使用 Spark 2 屏蔽列?
我有一些表 我需要屏蔽其中的一些列 要屏蔽的列因表而异 我正在读取这些列application conf file 例如 对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
scala
apachespark
apachesparksql
apachespark20
更改 Spark SQL 中的 Null 顺序
我需要能够按升序和降序对列进行排序 并且还允许空值位于第一个或空值位于最后一个 使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用 我想知道是否有使用 Dataset API 的相应方法 我了解如何将 desc asc
apachespark
apachesparksql
过滤字符串上的 Spark DataFrame 包含
我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
scala
apachespark
DataFrame
apachesparksql
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值?
import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
apachespark
PySpark
apachesparksql
如何从字符串列中提取数字?
我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中 输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
scala
apachespark
apachesparksql
通过过滤对 Pyspark Dataframe 进行分组
我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户 看看他们有多少要求 看看
python
apachespark
PySpark
apachesparksql
Spark:出现心跳错误后丢失数据
我有一个在 Spark 集群上运行的 Python 程序 有四个工作线程 它处理一个包含大约 1500 万条记录的巨大 Oracle 表 检查结果后发现大约有600万条记录没有插入 我的写入功能如下 df write format jdbc
scala
apachespark
PySpark
apachesparksql
Spark:替换嵌套列中的空值
我想更换所有n a以下数据框中的值unknown 它可以是scalar or complex nested column 如果它是一个StructField column我可以循环遍历列并替换n a using WithColumn 但我希
scala
apachespark
apachesparksql
1
2
3
4
5
6
...43
»