Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
将 for 循环替换为 pyspark 中的并行进程
我在脚本中使用 for 循环来为 size DF 数据帧 的每个元素调用函数 但这需要很多时间 我尝试通过地图删除 for 循环 但没有得到任何输出 size DF 是我从表中获取的大约 300 个元素的列表 用于 import call
python
apachespark
PySpark
apachesparksql
向数据框添加新列的问题 - Spark/scala
我是 Spark scala 的新手 我正在尝试将一些数据从配置单元表读取到 Spark 数据帧 然后根据某些条件添加一列 这是我的代码 val DF hiveContext sql select from select from test
scala
apachespark
DataFrame
apachesparksql
userdefinedfunctions
四舍五入数据框中的所有列 - 两位小数 pyspark
我使用此命令将数据框中的所有列四舍五入到小数点后两位 data data withColumn columnName1 func round data columnName1 2 我不知道如何通过一个命令对所有数据框进行四舍五入 不是每一列
apachespark
PySpark
apachesparksql
使用什么工具来可视化逻辑和物理查询计划?
我很熟悉explain 还有 WebUI 我很好奇是否有任何工具可以生成优化前后逻辑 物理计划的树结构图像 也就是返回的信息explain 作为图像 PNG 或 JPG 之类的图片 我自己从未听说过 但您可以使用 Web UI 查看物理计划
apachespark
apachesparksql
Spark Shuffle 写入超慢
为什么对于 1 6MB shuffle 写入和 2 4MB 输入 spark shuffle 阶段如此缓慢 为什么 shuffle 写入仅发生在一个执行器上 我正在运行一个 3 节点集群 每个集群有 8 个核心 火花用户界面 Code Ja
apachespark
apachesparksql
collect_list() 是否保持行的相对顺序?
想象一下我有以下 DataFrame df id featureName featureValue id1 a 3 id1 b 4 id2 a 2 id2 c 5 id3 d 9 想象一下我运行 df groupBy id agg coll
scala
apachespark
apachesparksql
pyspark.sql.utils.AnalysisException:u'Path不存在
我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业 而不是 S3 来存储我的文件 我在 hdfs user hive warehouse 有一个配置单元表 但当我的 Spark 作业运行时找不到它 我配置了 Spar
Hadoop
apachespark
PySpark
EMR
apachesparksql
如何获取使用 concat_ws 生成的结果的大小?
我正在表演groupBy在 COL1 上并使用 COL2 的串联列表concat ws 我怎样才能获得该列表中的值的计数 这是我的代码 Dataset
Java
apachespark
apachesparksql
DataFrame 分区到单个 Parquet 文件(每个分区)
我想重新分区 合并我的数据 以便将其保存到每个分区的一个 Parquet 文件中 我还想使用 Spark SQL partitionBy API 所以我可以这样做 df coalesce 1 write partitionBy entity
apachespark
apachesparksql
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数
尝试从 oracle 表加载数据 其中我有几列保存浮点值 有时它最多保存 DecimalType 40 20 即点后 20 位数字 目前 当我使用加载其列时 var local ora df DataFrameReader ora df l
scala
apachespark
apachesparksql
Databricks
缩放数据框的每一列
我正在尝试缩放数据框的每一列 首先 我将每一列转换为向量 然后使用 ml MinMax Scaler 除了简单地重复它之外 是否有更好 更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
apachespark
apachesparksql
apachesparkmllib
如何将 Spark DataFrame 以 csv 格式保存在磁盘上?
例如 这样的结果 df filter project en select title count groupBy title sum 将返回一个数组 如何将 Spark DataFrame 作为 csv 文件保存在磁盘上 Apache Sp
scala
apachespark
apachesparksql
pyspark 数据框中的自定义排序
是否有推荐的方法在 pyspark 中实现分类数据的自定义排序 我理想地寻找 pandas 分类数据类型提供的功能 因此 给定一个数据集Speed列 可能的选项是 Super Fast Fast Medium Slow 我想实现适合上下文的
python
pandas
apachespark
PySpark
apachesparksql
如何将数据帧转换为 JSON 并使用密钥写入 kafka 主题
我正在尝试以 JSON 格式向 kafka 写入一个数据帧 并在 Scala 中向该数据帧添加一个键 我目前正在使用 kafka spark 中的这个示例 df selectExpr CAST key AS STRING CAST valu
scala
DataFrame
apachespark
apachesparksql
sparkstreamingkafka
Spark 请求最大计数
我是 Spark 的初学者 我尝试请求允许我检索最常访问的网页 我的要求如下 mostPopularWebPageDF logDF groupBy webPage agg functions count webPage alias cntW
python
apachespark
apachesparksql
更改 Spark Streaming 中的输出文件名
我正在运行一个 Spark 作业 就逻辑而言 它的性能非常好 但是 当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时 输出文件的名称格式为 part 00000 part 00001 等 有没有办法更改输出文件名 谢谢
Hadoop
apachespark
SparkStreaming
apachesparksql
如何将 Dataframe 列名称与 Scala 案例类属性相匹配?
本示例中的 Spark sql 列名来自case class Person case class Person name String age Int val people RDD Person An RDD of case class o
scala
apachespark
apachesparksql
parquet
pyspark加入多个条件
我如何指定很多条件 当我使用pyspark时 join 例子 与蜂巢 query select a NUMCNT b NUMCNT as RNUMCNT a POLE b POLE as RPOLE a ACTIVITE b ACTIVIT
apachespark
PySpark
apachesparksql
如何使用 Scala 从 Spark 更新 ORC Hive 表
我想更新 orc 格式的 hive 表 我可以从 ambari hive 视图进行更新 但无法从 sacla spark shell 运行相同的更新语句 objHiveContext sql select from table name 能
scala
apachespark
apachesparksql
HiveQL
hivecontext
如果两个阶段使用相同的 DataFrame,spark 是否会读取同一文件两次?
以下代码读取相同的 csv 两次 即使只调用一个操作 端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
apachespark
PySpark
apachesparksql
«
1
2
3
4
5
6
7
...47
»