Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
takeOrdered 降序 Pyspark
我想按值对 K V 对进行排序 然后取最大的五个值 我设法用第一个地图恢复 K V 用 FALSE 按降序排序 然后将 key value 反转到原始 第二个地图 然后取前 5 个最大的值 代码是这样的 RDD map lambda x x
python
apachespark
将 PySpark RDD 作为新列添加到 pyspark.sql.dataframe
我有一个 pyspark sql dataframe 其中每一行都是一篇新闻文章 然后我有一个 RDD 来表示每篇文章中包含的单词 我想将单词的 RDD 作为名为 单词 的列添加到我的新文章数据框中 我试过 df withColumn wo
python
apachespark
PySpark
java.lang.NoSuchMethodError:com.fasterxml.jackson.databind.type。使用 apache beam Spark runner 运行 go 示例时
我想跑grades https github com apache beam tree master sdks go examples gradesapache beam go sdk 提出的示例 在一个主服务器和两个从服务器 spark2
Java
apachespark
go
ApacheBeam
jacksondatabind
我如何判断我的 Spark 工作是否有进展?
我有一个正在运行的 Spark 作业YARN它似乎只是挂起并且没有进行任何计算 这是当我这样做时纱线所说的yarn application status
apachespark
PySpark
hadoopyarn
如何在 AWS S3 中保存和使用 Spark History Server 日志
我想在AWS S3中记录和查看Spark历史服务器的事件日志 以下是spark defaults conf中记录的属性 spark hadoop fs s3a impl org apache hadoop fs s3a S3AFileSys
scala
apachespark
amazons3
使用 Glue 将数据输入到 AWS Elastic Search
我正在寻找使用 AWS Glue python 或 pyspark 将数据插入 AWS Elastic Search 的解决方案 我见过用于 Elastic Search 的 Boto3 SDK 但找不到任何将数据插入 Elastic Se
amazonwebservices
apachespark
PySpark
awsglue
awselasticsearch
Spark Collect_list 并限制结果列表
我有以下格式的数据框 name merged key1 internalKey1 value1 key1 internalKey2 value2 key2 internalKey3 value3 我想做的是将数据框分组name 收集列表并l
scala
apachespark
DataFrame
LIMIT
在 pyspark 中创建一个包含单列元组的数据框
我有一个 RDD 其中包含以下内容 column 1 value column 2 value column 3 value column 100 value 我想创建一个包含带有元组的单列的数据框 我得到的最接近的是 schema Str
apachespark
DataFrame
PySpark
apachesparksql
SparkSession 初始化需要很长时间
SparkSession 初始化需要很长时间才能成功 这是我的代码 import findspark findspark init import pyspark from pyspark sql import SparkSession sp
python
apachespark
PySpark
如何将 Spark-sftp 等新库添加到我的 Pyspark 代码中?
当我尝试在 Spark conf 中设置包依赖项 spark sftp 时 我收到 ClassNotFoundException 但当我使用以下命令执行脚本时它会起作用 Spark submit packages com springml
scala
apachespark
PySpark
apachesparksql
Spark 上的 Kubernetes 驱动程序 pod 清理
我在 kubernetes 1 19 上运行 Spark 3 1 1 作业完成后 执行程序 Pod 就会被清理 但驱动程序 Pod 仍处于完成状态 驱动程序完成后如何清理 要设置任何配置选项吗 NAME READY STATUS RESTA
apachespark
Kubernetes
必须设置 Ignite 网格名称线程本地,或者应在 org.apache.ignite.thread.IgniteThread 下访问此方法
这个错误是什么意思 我正在尝试从 Apache Spark 映射函数中检索 Ignite 缓存 我在这里错过了什么吗 最有可能的Ignite or IgniteCache实例被序列化并与函数一起发送到执行器 你应该避免这种情况并获得Igni
Java
apachespark
ignite
在 Scala 中创建 Java 对象
我有一个 Java 类 Listings 我在 Java MapReduce 作业中使用它 如下所示 public void map Object key Text value Context context throws IOExcept
Java
scala
class
apachespark
从 Spark 数据帧中过滤大量 ID
我有一个大型数据框 其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行 最直接的方
python
apachespark
PySpark
将结构数组分解为 Spark 中的列
我想将结构数组分解为列 由结构字段定义 例如 root arr array nullable true element struct containsNull true id long nullable false name string
scala
apachespark
DataFrame
将 PySpark 连接到 AWS Redshift 时出错
一直在尝试将我的 EMR 5 11 0 集群上的 Spark 2 2 1 连接到我们的 Redshift 存储 我遵循的方法是 使用内置的 Redshift JDBC pyspark jars usr share aws redshift
amazonwebservices
apachespark
PySpark
connection
amazonredshift
如何在spark中将矩阵转换为RDD[Vector]
如何转换自org apache spark mllib linalg Matrix to RDD org apache spark mllib linalg Vector 在火花 该矩阵是由 SVD 生成的 我正在使用 SVD 的结果进行聚
scala
apachespark
警告 ReliableDeliverySupervisor:与远程系统的关联失败,地址现已门控 [5000] 毫秒。原因:[已解除关联]
我正在 aws Spark 上运行以下句子 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits case class Wiki
apachespark
apachesparksql
EMR
根据条件组合 Spark 数据帧列中的多行
我正在尝试根据条件组合 Spark 数据框中的多行 这是我的数据框 df username qid row no text a 1 1 this a 1 2 is d 2 1 the a 1 3 text d 2 2 ball 我希望它看起
apachespark
PySpark
apachesparksql
Apache Spark 从 S3 读取异常:内容长度分隔消息正文过早结束(预期:2,250,236;收到:16,360)
我想从 S3 资源创建 Apache Spark DataFrame 我在 AWS 和 IBM S3 Clout 对象存储上尝试过 都失败了 org apache spark util TaskCompletionListenerExcep
apachespark
amazons3
apachesparksql
ibmcloudstorage
«
1
2
3
4
5
6
7
...100
»