Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如果两个阶段使用相同的 DataFrame,spark 是否会读取同一文件两次?
以下代码读取相同的 csv 两次 即使只调用一个操作 端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
apachespark
PySpark
apachesparksql
Spark:查找前 n 个值的高性能方法
我有一个很大的数据集 我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
scala
apachespark
apachesparksql
了解 Spark 中的 DAG
问题是我有以下 DAG 我认为当需要洗牌时 火花将工作划分为不同的阶段 考虑阶段 0 和阶段 1 有些操作不需要洗牌 那么为什么 Spark 将它们分成不同的阶段呢 我认为跨分区的实际数据移动应该发生在第 2 阶段 因为这里我们需要cogr
Java
scala
apachespark
pyspark 将 twitter json 流式传输到 DF
我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理 但根据我的用例 我需要所有字段twitter J
python
json
apachespark
如何加速spark df.write jdbc到postgres数据库?
我是 Spark 新手 正在尝试使用 df write 加速将数据帧的内容 可以有 200k 到 2M 行 附加到 postgres 数据库 df write format jdbc options url psql url spark d
postgresql
apachespark
PySpark
apachesparksql
火花内存不足
我有一个文件夹 里面有 150 G 的 txt 文件 大约 700 个文件 平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据 我认为有两种可能的方法可以做到这一点 手动循环所有文件 对每个文件进行计算并最终合
scala
apachespark
一旦自定义 PySpark Transformer 成为安装的 ML Pipeline 中的一个阶段,如何为它设置参数?
我编写了一个自定义 ML PipelineEstimator and Transformer对于我自己的 Python 算法 遵循所示的模式here https stackoverflow com a 37279526 1843329 然而
apachespark
PySpark
apachesparkml
在spark-kafka中使用schema将ConsumerRecord值转换为Dataframe
我正在使用 Spark 2 0 2 和 Kafka 0 11 0 并且 我正在尝试在火花流中使用来自卡夫卡的消息 以下是代码 val topics notes val kafkaParams Map String Object bootst
scala
apachespark
ApacheKafka
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列?
我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道 我们可以将生成的 DataFrame 转换为 DataSet 我的问题是 如果我们仍然遵循传统的
scala
apachespark
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值
我想与 Python 共享这个特定的 Apache Spark 解决方案 因为它的文档非常贫乏 我想通过 KEY 计算 K V 对 存储在 Pairwise RDD 中 的平均值 示例数据如下所示 gt gt gt rdd1 take 10
python
apachespark
Aggregate
Average
RDD
从 PySpark RDD 中的每个组中取出前 N 个元素(不使用 groupByKey)
我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
apachespark
PySpark
如何将包含多个字段的大型 csv 加载到 Spark
新年快乐 我知道以前曾提出 回答过此类类似的问题 但是 我的问题有所不同 我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
csv
apachespark
PySpark
如何根据条件添加新列(而不面临 JaninoRuntimeException 或 OutOfMemoryError)?
尝试根据这样的条件创建具有多个附加列的 Spark 数据框 df withColumn name1 someCondition1 withColumn name2 someCondition2 withColumn name3 someCo
apachespark
apachesparksql
Scala 案例类忽略 Spark shell 中的导入
我希望这个问题有一个明显的答案 我刚刚升级到 Spark v2 0 并且遇到了一个奇怪的问题火花外壳 Scala 2 11 版本 如果我输入以下最小的 Scala import java sql Timestamp case class C
scala
apachespark
apachespark20
Spark 在 WholeTextFiles 上创建的分区少于 minPartitions 参数
我有一个文件夹 里面有 14 个文件 我在一个集群上使用 10 个执行器运行 Spark Submit 该集群的资源管理器为 YARN 我创建了我的第一个 RDD 如下所示 JavaPairRDD
apachespark
HDFS
hadoopyarn
distributedcomputing
partitioning
Spark scala 模拟 Spark.implicits 用于单元测试
当尝试使用 Spark 和 Scala 简化单元测试时 我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
scala
unittesting
apachespark
Mockito
implicit
Spark.sql.shuffle.partitions 的最佳值应该是多少,或者在使用 Spark SQL 时如何增加分区?
我实际上正在使用 Spark SQLhiveContext sql 它使用 group by 查询 我遇到了 OOM 问题 所以考虑增加价值spark sql shuffle partitions从默认的 200 到 1000 但这没有帮助
apachespark
apachesparksql
纱线上的火花,连接到资源管理器 /0.0.0.0:8032
我正在我的开发机器 Mac 上编写 Spark 程序 hadoop的版本是2 6 spark的版本是1 6 2 hadoop集群有3个节点 当然都在linux机器上 我在idea IDE中以spark独立模式运行spark程序 它运行成功
Java
Hadoop
apachespark
hadoopyarn
从 pyspark.sql 中的列表创建数据框
我完全陷入了有线的境地 现在我有一个清单li li example data map lambda x get labeled prediction w x collect print li type li 输出就像 0 0 59 0 0
python
DataFrame
apachespark
PySpark
apachesparksql
Spark 2.2 无法将 df 写入 parquet
我正在构建一个聚类算法 我需要存储模型以供将来加载 我有一个具有以下架构的数据框 val schema new StructType add StructField uniqueId LongType add StructField tim
scala
apachespark
apachesparksql
parquet
1
2
3
4
5
6
...100
»