toDF 的值不是 org.apache.spark.rdd.RDD 的成员

2024-01-16

我在其他帖子中读到过这个问题，但我仍然不知道我做错了什么。原则上，添加这两行：

val sqlContext = new org.apache.spark.sql.SQLContext(sc)
import sqlContext.implicits._

应该可以解决问题，但错误仍然存在

这是我的 build.sbt：

name := "PickACustomer"

version := "1.0"

scalaVersion := "2.11.7"


libraryDependencies ++= Seq("com.databricks" %% "spark-avro" % "2.0.1",
"org.apache.spark" %% "spark-sql" % "1.6.0",
"org.apache.spark" %% "spark-core" % "1.6.0")

我的斯卡拉代码是：

import scala.collection.mutable.Map
import scala.collection.immutable.Vector

import org.apache.spark.rdd.RDD
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.sql._


    object Foo{

    def reshuffle_rdd(rawText: RDD[String]): RDD[Map[String, (Vector[(Double, Double, String)], Map[String, Double])]]  = {...}

    def do_prediction(shuffled:RDD[Map[String, (Vector[(Double, Double, String)], Map[String, Double])]], prediction:(Vector[(Double, Double, String)] => Map[String, Double]) ) : RDD[Map[String, Double]] = {...}

    def get_match_rate_from_results(results : RDD[Map[String, Double]]) : Map[String, Double]  = {...}


    def retrieve_duid(element: Map[String,(Vector[(Double, Double, String)], Map[String,Double])]): Double = {...}




    def main(args: Array[String]){
        val conf = new SparkConf().setAppName(this.getClass.getSimpleName)
        if (!conf.getOption("spark.master").isDefined) conf.setMaster("local")

        val sc = new SparkContext(conf)

        //This should do the trick
        val sqlContext = new org.apache.spark.sql.SQLContext(sc)
        import sqlContext.implicits._

        val PATH_FILE = "/mnt/fast_export_file_clean.csv"
        val rawText = sc.textFile(PATH_FILE)
        val shuffled = reshuffle_rdd(rawText)

        // PREDICT AS A FUNCTION OF THE LAST SEEN UID
        val results = do_prediction(shuffled.filter(x => retrieve_duid(x) > 1) , predict_as_last_uid)
        results.cache()

        case class Summary(ismatch: Double, t_to_last:Double, nflips:Double,d_uid: Double, truth:Double, guess:Double)

        val summary = results.map(x => Summary(x("match"), x("t_to_last"), x("nflips"), x("d_uid"), x("truth"), x("guess")))


        //PROBLEMATIC LINE
        val sum_df = summary.toDF()

    }
    }

我总是得到：

toDF 的值不是 org.apache.spark.rdd.RDD 的成员[摘要]

现在有点迷失了。有任何想法吗？

将您的案例类别移出main:

object Foo {

  case class Summary(ismatch: Double, t_to_last:Double, nflips:Double,d_uid: Double, truth:Double, guess:Double)

  def main(args: Array[String]){
    ...
  }

}

它的范围限制导致 Spark 无法处理模式的自动派生Summary。仅供参考，我实际上得到了一个不同的错误sbt:

没有可用于摘要的 TypeTag

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

apachesparksql

toDF 的值不是 org.apache.spark.rdd.RDD 的成员的相关文章

如何在 apache Spark 作业中执行阻塞 IO？

如果当我遍历 RDD 时我需要通过调用外部阻塞服务来计算数据集中的值怎么办您认为如何才能实现这一目标值 Future RDD Double Future sequence tasks 我尝试创建一个 Futures 列表但由于
将 yaml 中的列表映射到 Scala 中的对象列表（Spring Boot）

背景我已经阅读了很多关于如何使用的示例ConfigurationProperties从配置中读取列表见下文 https github com konrad garus so yaml https github com konrad ga
Scalatest PlusPlay Selenium 无法调整窗口大小

对此已经研究了一段时间我似乎找不到使用 scalatest plus 调整窗口大小的方法我发现在线搜索或文档的唯一方法http doc scalatest org 2 1 5 index html org scalatest selen
Akka 2 中的调度程序有哪些差异和使用模式？

我很难理解它们的差异和推荐用法Akka 2 中的调度程序 http doc akka io docs akka current scala dispatchers html 我想我明白了平衡调度程序 http doc akka io api
如何使用 log4j 自定义附加程序在 HDFS 上创建日志？

Overview 我们希望使用 log4j 记录 Spark 作业活动并将日志文件写入 HDFS Java 8 Spark 2 4 6 Scala 2 1 2 Hadoop 3 2 1 我们无法找到本地 apache log4j 附加程序
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多
使用 Scala 进行网页抓取 [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
Scala 交互式解释器 (REPL) - 如何将输出重定向到文本文件？

是否可能如果可能是如何做到的通常 gt and gt gt 在 Windows 或 Linux 命令行上工作的命令在这种情况下不起作用您可以从控制台以编程方式执行此操作 import java io FileOutputStream
到底什么是单例类型？

什么是单例类型有什么应用和影响我们非常欢迎示例更欢迎外行术语如果将类型视为一组值则值的单例类型x是仅包含该值的类型 x 用法示例模式匹配 case Foo type检查匹配的对象是否与Foo using eq where cas
如何减少使用 AWS Glue 将 parquet 文件写入 s3 所需的时间

我正在创建一个胶水作业需要处理来自 s3 路径的每日 4TB 数据量 s3
PySpark 使用统计信息写入 Parquet 二进制列（signed-min-max.enabled）

我找到了这张 apache parquet 票https issues apache org jira browse PARQUET 686 https issues apache org jira browse PARQUET 686被标
将字符串转换为枚举值的 Scala 安全方法

假设我有枚举 object WeekDay extends Enumeration type WeekDay Value val Mon Tue Wed Thu Fri Sat Sun Value 我希望能够将 String 转换为 Wee
在 DataFrame.withColumn 中，如何检查列的值是否为 null 作为第二个参数的条件？

如果我有一个名为 df 的 DataFrame 如下所示 a1 a2 foo bar N A baz null etc 我可以有选择地替换值如下所示 val df2 df withColumn a1 when a1 N A a2 这样 d
在案例类中重载 unapply 方法：scala

考虑下面的代码 case class User id Int name String object User def unapply str String Some User 0 str Scala 抱怨错误无法解析重载未应用案例类
java.lang.OutOfMemoryError：Scala 上超出了 GC 开销限制

我是 Scala 开发人员我在Routes它包含的文件1008行如果我添加另一行则会抛出下面的错误 Uncaught error from thread sbt web scheduler 1 shutting down JVM sin
Play 2.0 意外异常 StackOverflowError: null

当我尝试编译我的项目时出现以下异常 Internal server error for request GET gt play api UnexpectedException Unexpected exception StackOverf
将 DStream 转换为 JavaDStream

我知道我们有一个选择RDD JavaRDD
Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
Scala：如何获取数据框中的行范围

我有一个DataFrame通过运行创建sqlContext readParquet 文件的一个 The DataFrame由 300 M 行组成我需要使用这些行作为另一个函数的输入但我想以较小的批次进行操作以防止 OOM 错误目前

随机推荐

以编程方式配置 Eclipse 安装的 JRE

我想将 Eclipse 环境配置为使用 JDK 而不是标准 JRE 我这样做是因为我使用 m2eclipse 它需要 JDK 中的 tools jar 才能运行我在 Windows 7 32 位和 JDK 1 6 0 16 上运行 Ecl
clang format 可以格式化 C/C++ 函数以在逗号之前打破参数列表吗？

我注意到你可以做到这一点 From https clang llvm org docs ClangFormatStyleOptions html https clang llvm org docs ClangFormatStyleOptio
为什么 document.body.offsetHeight + document.body.bottomMargin 不等于 document.documentElement.offsetHeight

我正在尝试计算 iFrame 的高度但不明白为什么 document body offsetHeight document body bottomMargin 不相等 document documentElement offsetHeig
哈斯克尔空间泄漏

all 在尝试解决一些编程测验时 https www hackerrank com challenges missing numbers https www hackerrank com challenges missing numbers
Postgresql 增量物化视图维护 (IVM) 挑战，为什么再次推迟到目标版本 16？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案来自 commit fest 的最新消息https wiki postgresql org wiki Incremental View Main
在进程启动之前向进程注入 dll 的优雅方法

我正在制作一个 mod dll 来修改目标进程的行为我成功地注入了我的dll并挂钩了目标的一些函数但是当我需要在主模块启动之前更清楚地说在入口点之前挂钩一些 API 时需要做更多的工作我需要使用 CREATE SUSPEND
如何将 270 度旋转的文本对齐到左上角？

这应该是一个你会想到的非常简单的问题我有一个带有一些标题文本的框我想将其旋转 90 度我希望它是绝对定位的以便单词的末尾被轻推到左上角我可以很容易地将其对齐到底部但问题是对于可变长度文本在对齐到顶部时似乎不可能始终将其保留在
Java 中的日语字符编码

这是我的问题我现在正在使用 Java Apache POI 读取 Excel xls 或 xlsx 文件并显示内容电子表格中有一些日语字符我得到的所有日语字符都是在我的输出中我尝试过使用Shift JIS UTF 8等多种编码方
抽象超类中的通用 @Inject'd 字段

考虑一组类似 MVP 的类型存在一个抽象的 Presenter 带有一个 View 接口 public interface View public abstract class AbstractPresenter
在 TextView 中省略文本大小而不指定 maxLines

我有一个 TextView 其高度会根据屏幕中的其他组件而变化我要在此 TextView 中设置很长的文本因此我想省略它简单地指定 android ellipsize end 是行不通的只有同时指定 maxLines 时椭圆化才起
将图像序列转换为视频文件 android java

我知道这是一个老问题我对此进行了很多研究但似乎没有适当的解决方案我已经看到了一些方法可以做到这一点例如使用 FFmpeg 但它取决于本机代码所以对我来说不是一个选择 Xuggler API 与上面的原因相同我正在寻找可以将多个
如何使用R连接两台计算机？

是否可以在两台不同计算机上的两个 R 会话之间打开通信流如果会话位于同一台计算机上我使用套接字来连接会话我想对于两台不同的计算机我应该尝试网络套接字 httpuv支持 R 作为 Web 套接字服务器但不幸的是我找不到任何支持 R
WPF MVVM 在代码后面绑定动态控件并传入View

我正在使用 MVVM 开发 WPF 应用程序我有两页我在第 1 页中有多个 UserControl 在从第 1 页选择 UserControl 时我想在第 2 页中显示所选的 userControl 下面是我的代码视图模型代码 pu
无法在 Android Studio 中启动模拟器

我尝试在 ubuntu 14 04 中的 android Studio 模拟器中启动应用程序它显示以下错误 gradle 构建过程中显示错误 home next NTE MachineSetup android sdk linux too
JSF 和 f:ajax 用于隐藏/显示 div

我正在考虑在我的网络应用程序上制作一个可隐藏可显示的菜单在此之前我为此目的广泛使用了 PHP 和 AJAX 然而由于 HTML 元素 id 在 JSF 框架中重新生成我发现这种方法至少在我的范围内不再可行我已经阅读了 JSF 中
AMD 结构化网络应用程序中的 Mixpanel 2.2 - 例如需要.js

我正在尝试在基于 Backbone js 和 require js 的单页面站点中使用 Mixpanel 事件跟踪看着snippet https mixpanel com help reference tracking an event
PHP - preg_match - 如何将字符串大写/小写与其之前或之后的任何内容匹配？

我有一个函数的一部分如下所示 if preg match bscript b userInput bannedWord script logHax return TRUE 这给我想要完成的任务带来了问题因为它只会匹配确切的单词 scri
C# 自定义属性必需如果

我刚刚开始接触自定义属性我非常喜欢它们我想知道是否可以创建一个应用于属性并表示同一对象中另一个属性的名称的属性如果会检查引用的属性是否有值如果有则需要装饰属性像这样的东西 RequiredIfNotNull ApprovedDa
距某一点最近的地点

我有下表 create table places lat lng point place name varchar 50 insert into places values POINT 126 4 45 32 Food Bar 要获取靠近特
toDF 的值不是 org.apache.spark.rdd.RDD 的成员

我在其他帖子中读到过这个问题但我仍然不知道我做错了什么原则上添加这两行 val sqlContext new org apache spark sql SQLContext sc import sqlContext implicits

toDF 的值不是 org.apache.spark.rdd.RDD 的成员

toDF 的值不是 org.apache.spark.rdd.RDD 的成员 的相关文章

随机推荐

热门标签

toDF 的值不是 org.apache.spark.rdd.RDD 的成员的相关文章