Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Spark SQL 解析 JSON 对象数组
现在 JSON 数据如下 Id 11 data package com browser1 activetime 60000 package com browser6 activetime 1205000 package com browse
json
scala
apachespark
apachesparksql
Bigdata
如何将编码器作为参数传递给数据帧的 as 方法
我想通过使用不同的案例类将 dataFrame 转换为 dataSet 现在 我的代码如下所示 case Class Views views Double case Class Clicks clicks Double def conver
Windows:Apache Spark 历史服务器配置
我想使用 Spark 的 History Server 来利用 Web UI 的日志记录机制 但我发现在 Windows 计算机上运行此代码有些困难 我做了以下事情 设置我的 Spark defaults conf 文件以反映 spark
Windows
git
bash
apachespark
apachesparksql
Spark 无法检测 ES 版本 - 如果网络/Elasticsearch 集群不可访问,通常会发生这种情况
我正在尝试从本地elasticsearch读取数据并收到 无法检测ES版本 es nodes wan only 错误 但是当我启用TRACE日志时 应用程序能够连接到elasticsearch 我使用elasticsearch spark
apachespark
elasticsearch
如何在pyspark中访问RDD上元组中的单个元素?
假设我有一个像这样的RDD u Some1 u ABC 9989 u Some2 u XYZ 235 u Some3 u BBB 5379 u Some4 u ABC 5379 我在用map一次获取一个元组 但如何访问元组的单个元素 例如查
python
apachespark
PySpark
RDD
我应该为 Spark 选择哪种集群类型? [关闭]
Closed 这个问题是基于意见的 help closed questions 目前不接受答案 我是 Apache Spark 的新手 刚刚了解到 Spark 支持三种类型的集群 独立 意味着 Spark 将管理自己的集群 YARN 使用
apachespark
hadoopyarn
mesos
apachesparkstandalone
如何将 JavaPairRDD 转换为数据集?
SparkSession createDataset 只允许List RDD or Seq 但不支持JavaPairRDD 所以如果我有一个JavaPairRDD
Java
apachespark
RDD
apachesparkdataset
创建SparkContext失败
我正在用 scala 代码在 Spark shell 中测试 Spark 我正在构建使用 Kafka 和 Spark 的原型 我跑了spark shell像下面这样 spark shell jars spark external kafka
scala
apachespark
ApacheKafka
如何迭代scalawrappedArray? (火花)
我执行以下操作 val tempDict sqlContext sql select words pName token collect set words pID as docids from words group by words p
scala
apachespark
apachesparksql
pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么?
在 pyspark 的近似计数不同 https spark apache org docs 3 1 2 api python reference api pyspark sql functions approx count distinct
sql
apachespark
PySpark
apachesparksql
Spark任务内存分配
我正在尝试找出在集群节点上配置内存的最佳方法 但我相信为此我需要进一步了解一些事情 例如 Spark 如何跨任务处理内存 例如 假设我有 3 个执行器 每个执行器最多可以并行运行 8 个任务 即 8 个核心 如果我有一个有 24 个分区的
apachespark
SparkStreaming
Spark任务内存分配
我正在尝试找出在集群节点上配置内存的最佳方法 但我相信为此我需要进一步了解一些事情 例如 Spark 如何跨任务处理内存 例如 假设我有 3 个执行器 每个执行器最多可以并行运行 8 个任务 即 8 个核心 如果我有一个有 24 个分区的
apachespark
SparkStreaming
SPARK:如何监控Spark集群的内存消耗?
很抱歉问了这个基本问题 但我自己无法弄清楚 我试图在 Spark UI 上弄清楚每个工作人员和驱动程序有多少可用内存和使用量 有没有什么简单直接的方法simple如何监控这些信息 我的目标是根据我的数据在工人和司机上的占用量来决定我的持久化
apachespark
SPARK:如何监控Spark集群的内存消耗?
很抱歉问了这个基本问题 但我自己无法弄清楚 我试图在 Spark UI 上弄清楚每个工作人员和驱动程序有多少可用内存和使用量 有没有什么简单直接的方法simple如何监控这些信息 我的目标是根据我的数据在工人和司机上的占用量来决定我的持久化
apachespark
如何使用 Apache Spark 读取/写入协议缓冲区消息?
我想使用 Apache Spark 从 HDFS 读取协议缓冲区消息 向 HDFS 写入协议缓冲区消息 我发现了这些建议的方法 1 使用Google的Gson库将protobuf消息转换为Json 然后通过Spark Sql读取 写入它们
apachespark
HDFS
protocolbuffers
sequencefile
使用空值更新嵌套结构
我有一个数据框 其中有一列是嵌套的 StructType StructType 是深层嵌套的 并且可能包含其他结构 现在我想在最底层更新这个专栏 我尝试了 withField 但如果任何顶级结构为空 它就不起作用 我将不胜感激任何帮助 示例
apachespark
PySpark
apachesparksql
Pyspark:将平均值作为新列添加到 DataFrame 中
我正在计算数据帧中一列的平均值 但它导致所有值为零 有人可以帮我解释为什么会发生这种情况吗 以下是列转换前后的代码和表格 在计算平均值并添加 平均值 列之前 result select dis price released show 10
python
sql
apachespark
PySpark
输入spark-shell时找不到spark提交
我一直在按照本教程为 scala 安装 Spark https www tutorialspoint com apache spark apache spark installation htm https www tutorialspoi
Linux
scala
apachespark
输入spark-shell时找不到spark提交
我一直在按照本教程为 scala 安装 Spark https www tutorialspoint com apache spark apache spark installation htm https www tutorialspoi
Linux
scala
apachespark
忽略非 Spark 配置属性:hive.exec.dynamic.partition.mode
如何运行 Spark shellhive exec dynamic partition mode nonstrict 我尝试 如在这里建议 https stackoverflow com a 53581393 287948 export S
apachespark
Hadoop
sparkshell
1
2
3
4
5
6
...100
»