Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何使用 Spark SQL 解析 JSON 对象数组
现在 JSON 数据如下 Id 11 data package com browser1 activetime 60000 package com browser6 activetime 1205000 package com browse
json
scala
apachespark
apachesparksql
Bigdata
如何将编码器作为参数传递给数据帧的 as 方法
我想通过使用不同的案例类将 dataFrame 转换为 dataSet 现在 我的代码如下所示 case Class Views views Double case Class Clicks clicks Double def conver
Windows:Apache Spark 历史服务器配置
我想使用 Spark 的 History Server 来利用 Web UI 的日志记录机制 但我发现在 Windows 计算机上运行此代码有些困难 我做了以下事情 设置我的 Spark defaults conf 文件以反映 spark
Windows
git
bash
apachespark
apachesparksql
如何迭代scalawrappedArray? (火花)
我执行以下操作 val tempDict sqlContext sql select words pName token collect set words pID as docids from words group by words p
scala
apachespark
apachesparksql
pyspark的approx_count_distinct中rsd的解释是什么以及更改它的后果是什么?
在 pyspark 的近似计数不同 https spark apache org docs 3 1 2 api python reference api pyspark sql functions approx count distinct
sql
apachespark
PySpark
apachesparksql
使用空值更新嵌套结构
我有一个数据框 其中有一列是嵌套的 StructType StructType 是深层嵌套的 并且可能包含其他结构 现在我想在最底层更新这个专栏 我尝试了 withField 但如果任何顶级结构为空 它就不起作用 我将不胜感激任何帮助 示例
apachespark
PySpark
apachesparksql
PySpark 将模型预测与未转换的数据对齐:最佳实践
使用 PySpark 的 ML 模块 经常会发生以下步骤 在数据清理之后等 执行特征和目标转换管道 创建模型 从模型生成预测 将预测和原始数据集合并在一起 供业务用户和模型验证之用 摘取一段精简的代码片段 predictions model
python
apachespark
PySpark
apachesparksql
如何在 Spark 2.1 中保存分区的 parquet 文件?
我正在尝试测试如何使用 Spark 2 1 在 HDFS 2 7 中写入数据 我的数据是一个简单的虚拟值序列 输出应按属性进行分区 id and key Simple case class to cast the data case cla
scala
apachespark
apachesparksql
parquet
Spark SQL中如何按时间间隔分组
我的数据集如下所示 KEY Event Type metric Time 001 event1 10 2016 05 01 10 50 51 002 event2 100 2016 05 01 10 50 53 001 event3 20
sql
apachespark
apachesparksql
使用另一个 RDD/df 在 Spark RDD 或数据帧中执行查找/转换
我很难实现一些看起来应该很容易的事情 我的目标是使用第二个 RDD 数据帧作为查找表或翻译字典在 RDD 数据帧中进行翻译 我想在多个专栏中进行这些翻译 解释问题的最简单方法是举例 假设我有以下两个 RDD 作为输入 Route Sourc
apachespark
PySpark
apachesparksql
javax.xml.stream.XMLStreamException:尝试输出第二个根 Spark-XML Spark 程序
我正在尝试运行这个小的 Spark xml 示例 但当我执行 Spark Submit 时 它会失败并出现异常 示例回购协议 https github com punithmailme spark xml new https github
apachespark
apachesparksql
datastaxenterprise
apachesparkxml
PySpark:根据与另一列中的字符串匹配的字典值创建新列
我有一个数据框 A 如下所示 ID SOME CODE TITLE 1 024df3 Large garden in New York New York 2 0ffw34 Small house in dark Detroit Michig
python
string
Dictionary
PySpark
apachesparksql
将高度嵌套的列从字符串更新为结构
x array nullable true element struct containsNull true y long nullable true z array nullable true element struct contain
scala
apachespark
PySpark
apachesparksql
pysparkschema
Spark - 如何使用 - Thirft - Hive Interactor 获得逻辑/物理查询执行
Spark 如何使用以下命令执行逻辑 物理查询 通过节俭 通过 SparkInteractor 您可以通过 thrift 在 beeline 中使用带有查询的解释语句 如下所示 EXPLAIN EXTENDED select from sr
apachespark
apachesparksql
在 Spark 中访问数组列
Spark DataFrame 包含类型为 Array Double 的列 当我尝试将其返回到 map 函数时 它会抛出 ClassCastException 异常 以下 Scala 代码生成异常 case class Dummy x Ar
Arrays
scala
apachespark
apachesparksql
ClassCastException
Spark 有效地过滤大数据框中存在于小数据框中的条目
我有一个 Spark 程序 它读取一个相对较大的数据帧 3 2 TB 其中包含 2 列 id name 和另一个相对较小的数据帧 20k 条目 其中包含单个列 id 我想做的是从大数据框中获取 id 和名称 如果它们出现在小数据框中 我想知
performance
join
apachespark
apachesparksql
Java Spark DataFrameReader java.lang.NegativeArraySizeException
学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作 因为我不断收到异常java lang NegativeArraySizeExcep
Java
apachespark
apachesparksql
为什么spark在sql查询末尾附加'WHERE 1=0'
我正在尝试使用 Apache Spark 执行简单的 mysql 查询并创建一个数据框 但由于某些原因 Spark 附加 WHERE 1 0 在我想要执行的查询末尾并抛出异常说明 You have an error in your SQL
apachespark
apachesparksql
Spark中DataFrame、Dataset、RDD的区别
我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花 你能将其中一种转换为另一种吗 首先是DataFrame是从SchemaRDD 是的
DataFrame
apachespark
apachesparksql
RDD
apachesparkdataset
从单个字符串创建 Spark DataFrame
我正在尝试采用硬编码字符串并将其转换为 1 行 Spark DataFrame 具有单列类型StringType 这样 String fizz buzz 将得到一个 DataFrame 其 show 方法如下 fizz buzz 迄今为止我
scala
apachespark
apachesparksql
1
2
3
4
5
6
...49
»