Spark-1.6.1 上的 DMLC 的 XGBoost-4j

2024-05-20

我正在尝试在 Spark-1.6.1 上使用 DMLC 的 XGBoost 实现。我能够使用 XGBoost 训练我的数据，但在预测方面面临困难。我实际上想以在 Apache Spark mllib 库中完成的方式进行预测，这有助于计算训练误差、精度、召回率、特异性等。

我发布了下面的代码，以及我收到的错误。我在spark-shell中使用了这个xgboost4j-spark-0.5-jar-with-dependencies.jar来启动。

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.util.MLUtils
import org.apache.spark.SparkContext._
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.regression.LabeledPoint
import ml.dmlc.xgboost4j.scala.Booster
import ml.dmlc.xgboost4j.scala.spark.XGBoost
import ml.dmlc.xgboost4j.scala.DMatrix
import ml.dmlc.xgboost4j.scala.{Booster, DMatrix}
import ml.dmlc.xgboost4j.scala.spark.{DataUtils, XGBoost}
import org.apache.spark.{SparkConf, SparkContext}




//Load and parse the data file.
val data = sc.textFile("file:///home/partha/credit_approval_2_attr.csv")
val data1 = sc.textFile("file:///home/partha/credit_app_fea.csv")


val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}.cache()

val parsedData1 = data1.map { line =>
    val parts = line.split(',').map(_.toDouble)
    Vectors.dense(parts)
}



//Tuning Parameters
val paramMap = List(
      "eta" -> 0.1f,  
      "max_depth" -> 5,
      "num_class" -> 2,
      "objective" -> "multi:softmax" ,
      "colsample_bytree" -> 0.8,
       "alpha" -> 1,
       "subsample" -> 0.5).toMap

  //Training the model  
val numRound = 20
val model = XGBoost.train(parsedData, paramMap, numRound, nWorkers = 1)
val pred = model.predict(parsedData1)
pred.collect()

pred 的输出：

res0: Array[Array[Array[Float]]] = Array(Array(Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(0.0), Array(0.0), Array(1.0), Array(1.0), Array(0.0), Array(1.0), Array(0.0), Array(0.0), Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(0.0), Array(1.0), Array(1.0), Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(1.0), Array(0.0), Array(0.0), Array(0.0), Array(0.0), Array(1.0), Array(0.0), Array(0.0), Array(0.0), Array(0.0), Array(0.0), Array(0.0), Array(1.0), Array(1.0), Array(1.0), Array(...

现在当我使用时：

val labelAndPreds = parsedData.map { point =>
          val prediction = model.predict(point.features)
          (point.label, prediction)
        }

Output:

<console>:66: error: overloaded method value predict with alternatives:
  (testSet: ml.dmlc.xgboost4j.scala.DMatrix)Array[Array[Float]] <and>
  (testSet: org.apache.spark.rdd.RDD[org.apache.spark.mllib.linalg.Vector])org.apache.spark.rdd.RDD[Array[Array[Float]]]
 cannot be applied to (org.apache.spark.mllib.linalg.Vector)
                  val prediction = model.predict(point.features)
                                     ^

然后尝试这个，因为预测需要 RDD[Vector]。

val labelAndPreds1 = parsedData.map { point =>
          val prediction = model.predict(Vectors.dense(point.features))
          (point.label, prediction)
        }

结果是：

<console>:66: error: overloaded method value dense with alternatives:
  (values: Array[Double])org.apache.spark.mllib.linalg.Vector <and>
  (firstValue: Double,otherValues: Double*)org.apache.spark.mllib.linalg.Vector
 cannot be applied to (org.apache.spark.mllib.linalg.Vector)
                  val prediction = model.predict(Vectors.dense(point.features))
                                                         ^

显然这是我正在尝试解决的 RDD 类型问题，这对于 Spark 上的 GBT 来说很容易（http://spark.apache.org/docs/latest/mllib-ensembles.html#gradient-boosted-trees-gbts http://spark.apache.org/docs/latest/mllib-ensembles.html#gradient-boosted-trees-gbts).

我是否尝试以正确的方式做到这一点？

任何帮助或建议都会很棒。

实际上，这在 XGboost 算法中不可用。我在这里面临同样的问题并实现了以下方法：

import ml.dmlc.xgboost4j.scala.spark.DataUtils // thanks to @Z Simon

def labelPredict(testSet: RDD[XGBLabeledPoint],
               useExternalCache: Boolean = false,
               booster: XGBoostModel): RDD[(Float, Float)] = {
val broadcastBooster = testSet.sparkContext.broadcast(booster)
testSet.mapPartitions { testData =>
  val (auxiliaryIterator, testDataIterator) = testData.duplicate
  val testDataArray = auxiliaryIterator.toArray
  val prediction = broadcastBooster.value.predict(new DMatrix(testDataIterator)).flatten
  testDataArray
    .zip(prediction)
    .map {
      case (labeledPoint, predictionValue) =>
        (labeledPoint.label, predictionValue)
    }.toIterator
}

}

这与 XGBoost 实际具有的代码几乎相同，但它在预测返回中使用labeledpoint 的标签。当您将 Labeledpoint 传递给此方法时，它将返回一个元组 RDD，其中每个值都有（标签，预测）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark-1.6.1 上的 DMLC 的 XGBoost-4j 的相关文章

Java 表达式树 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案是否有相当于 net的 LINQ 下的表达式树JVM 我想实现一些类似 LINQ 的代码结构Scala
Spark 结构化流中具有不同计数的聚合抛出错误

我正在尝试在 Spark 结构化流中获取 Parentgroup childgroup 和 MountingType 组的唯一 id 代码下面的代码抛出错误 withWatermark timestamp 1 minutes val ag
使用 Spark DataFrame 获取组后所有组的 TopN

我有一个 Spark SQL DataFrame user1 item1 rating1 user1 item2 rating2 user1 item3 rating3 user2 item1 rating4 如何按用户分组然后返回TopN
SPARK SQL - 当时的情况

我是 SPARK SQL 的新手 SPARK SQL 中是否有相当于 CASE WHEN CONDITION THEN 0 ELSE 1 END 的内容 select case when 1 1 then 1 else 0 end from
Play Framework 2.3 (Scala) 中的自定义 JSON 验证约束

我设法使用自定义约束实现表单验证但现在我想对 JSON 数据执行相同的操作如何将自定义验证规则应用于 JSON 解析器示例客户端的 POST 请求包含用户名 username 我不仅要确保该参数是非空文本而且还要确保该用户确实存在
Scala：如何在超类上实现克隆方法，并在子类中使用它？

我可能会以错误的方式处理这个问题但我想要一个像这样的对象 class MyDataStructure def myClone val clone new MyDataStructure do stuff to make clone the
Scala Tuple2Zipped 与 IterableLike zip

两种实现有什么区别这个比那个好吗有一篇博客文章说 Tuple2Zipped 性能更好但没有提供原因并且查看源代码我没有看到差异 val l1 List 1 2 3 val l2 List 5 6 7 val v1 l1 zip l2
Spark Scala 将列从一个数据帧复制到另一个数据帧

我有一个原始数据框的修改版本我在其上进行了聚类现在我想将预测列恢复为原始 DF 索引没问题因此匹配我该怎么做使用这段代码我得到一个错误 println Predicted dfWithOutput show println Ori
如何在Spark结构化流中指定批处理间隔？

我正在使用 Spark 结构化流并遇到问题在 StreamingContext DStreams 中我们可以定义批处理间隔如下所示 from pyspark streaming import StreamingContext ssc
运行具有外部依赖项的 Scala 脚本

我在 Users joe scala lib 下有以下 jar commons codec 1 4 jar httpclient 4 1 1 jar httpcore 4 1 jar commons logging 1 1 1 jar ht
Spark的distinct()函数是否仅对每个分区中的不同元组进行洗牌

据我了解 distinct 哈希分区 RDD 来识别唯一键但它是否针对仅移动每个分区的不同元组进行了优化想象一个具有以下分区的 RDD 1 2 2 1 4 2 2 1 3 3 5 4 5 5 5 在此 RDD 上的不同键上所有重复键
懒惰背景下的变革与行动

正如 Learning Spark 闪电般快速的大数据分析一书中提到的由于 Spark 计算 RDD 的方式不同转换和操作也有所不同在对惰性进行一些解释之后我发现转换和操作都是惰性地进行的那么问题来了这句话的意思是什么对比
将 yaml 中的列表映射到 Scala 中的对象列表（Spring Boot）

背景我已经阅读了很多关于如何使用的示例ConfigurationProperties从配置中读取列表见下文 https github com konrad garus so yaml https github com konrad ga
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
在 Scala 中调用 WebSocket 中的方法

我是 scala Play 框架和 Akka 的新手我的函数定义为 def socket WebSocket accept String String request gt ActorFlow actorRef out gt MyWebS
您可以为 None 指定类型参数或告诉编译器它是一个 Option[String] 吗？

我想知道我是否可以在我的代码中写这样的东西 None String 我很惊讶没有人提到它的存在Option empty scala gt Option empty String res0 Option String None 请注意在许多
如何将 DataFrame 作为输入传递给 Spark UDF？

我有一个数据框我想对每一行应用一个函数该函数依赖于其他数据帧简化的例子我有如下三个数据框 df sc parallelize a b 1 c d 3 toDF feat1 feat2 value df other 1 sc para
如何从spark中的hbase表中获取所有数据

我在 hbase 中有一个大表名称为 UserAction 它具有三个列族歌曲专辑歌手我需要从歌曲列族中获取所有数据作为 JavaRDD 对象我尝试了这段代码但效率不高有更好的解决方案来做到这一点吗 static Spa
是否有适用于 Haskell 或 Scala 等函数式语言的 LL 解析器生成器？

我注意到明显缺乏用函数式语言创建解析器的 LL 解析器我一直在寻找但没有成功的理想发现是为 ANTLR 风格的 LL 语法生成 Haskell 解析器语法的模小数重新格式化并且令我惊讶的是每个最后一个解析器生成器都具有函数我发现的语
关于 scala.math.Integral 的问题

有什么方法mkNumericOps andmkOrderingOps of scala math Integral http www scala lang org api current scala math Integral html我们

随机推荐

ASP.NET MVC 中的经典 ASP (C#)

我有一个应用程序想要最终转换为 ASP NET MVC 我想要进行全面的服务升级到 ASP NET 但想要使用当前的 ASP 内容来运行当前的功能这样我就可以在对新框架进行增量升级的同时升级小部分该站点严重依赖于不太成熟的 VB6
has_object_permission 和 has_permission 有什么区别？

我很困惑BasePermission在 Django rest framework 中这里我定义了一个类 IsAuthenticatedAndOwner class IsAuthenticatedAndOwner BasePermissi
PHP print_r() 中 _r 的含义是什么？

我见过这个答案 https stackoverflow com questions 13103410 what does r suffix mean就这样但我不确定它对于 PHP 是否相同如果是可重入的含义是什么 From PHP n
python suds SOAP 请求中的名称空间前缀错误

我使用 python suds 来实现客户端并且在发送的 SOAP 标头中得到了错误的命名空间前缀用于定义由element ref 在 wsdl 中 wsdl 正在引用数据类型 xsd 文件请参见下文问题出在函数上GetRecord
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
在 MySQL 数据库中保持 TEXT 字段唯一的最佳方法

我想让 TEXT 字段的值在我的 MySQL 表中唯一经过小型研究我发现由于性能问题每个人都不鼓励在 TEXT 字段上使用 UNIQUE INDEX 我现在想用的是 1 创建另一个字段来包含 TEXT 值的哈希值 md5 text v
将整个包传递给雪簇

我正在尝试并行化使用snow parLapply 一些依赖于包即除snow 调用函数中引用的对象parLapply必须使用显式传递给集群clusterExport 有没有办法将整个包传递到集群而不必显式命名每个函数包括用户函数调用的
OpenCv读/写视频色差

我试图简单地使用 openCV 打开视频处理帧并将处理后的帧写入新的视频文件我的问题是即使我根本不处理帧只是打开视频使用 VideoCapture 读取帧并使用 VideoWriter 将它们写入新文件输出文件看起来比输入更绿
如何通过在 Python 3.x 上按键来启动和中断循环

我有这段代码当按下 P 键时会中断循环但除非我按下非 P 键否则循环不会工作 def main openGame while True purchase imageGrab if a sum gt 1200 fleaButton ti
asp.net 文本框文本模式数字，仅允许数字

我只是想知道 ASP NET 中是否有一种方法只允许文本框中的数字textmode number 当我使用这个时
如何使用 JavaScript 获取没有 HTML 元素的纯文本？

我的 HTML 中有 1 按钮和一些文本如下所示 function get content I don t know how to do in here
在 Instruments 中查找内存泄漏行

我是 iOS 中的仪器新手我正在尝试使用 Xcode 4 5 2 并按照本教程查找仪器中的内存泄漏 http soulwithmobiletechnology blogspot sg 2011 04 how to check memory
OpenAI ChatGPT (GPT-3.5) API：如何根据微调数据制作微调 GPT-3.5 模型的唯一答案？

OpenAI 现在允许我们微调 GPT 3 5 模型我已经用自己的数据集测试和微调了模型但问题是微调模型随机生成答案而不是根据我的自定义数据集正确生成答案有什么方法可以使模型仅根据我自己的微调数据集给出答案这是一种完全错误的方法
切换到移动屏幕尺寸时自动关闭 Bootstrap 手风琴面板

使用 Bootstrap 2 3 2 我有一个带有单个面板的手风琴该面板在加载页面时打开 div class accordion div class accordion heading a class accordion toggle h
在搜索 List 时，为什么 Enumerable.Any(Func predicate) 比带有 if 语句的 foreach 慢

最近有件事引起了我的好奇心 Why is the Enumerable Any Func
对图像块进行多重处理

我有一个函数必须循环遍历图像的各个像素并计算一些几何形状此函数需要很长时间才能运行在 24 兆像素图像上大约需要 5 小时但似乎应该很容易在多个内核上并行运行然而我一生都找不到一个有据可查解释充分的例子来使用 Multiproc
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何处理 Xcode“嵌入应用程序扩展”构建阶段

通过添加新目标创建共享扩展时 Xcode 在应用程序目标设置的应用程序构建阶段选项卡中添加名为嵌入应用程序扩展的构建阶段可以删除此阶段但如果您尝试通过按左上角的来添加它您会发现可用选项中未列出嵌入应用程序扩展为什么会
迭代变量并查找特定类型实例的技术

我想迭代进程中内存中的变量通过插件动态加载并查找特定类型的实例以前我可以找到特定类型或内存中的所有类型我可以创建类型的实例我可以获取作为不同类型的字段包含的实例但我无论如何都不知道只是搜索特定类型的实例一种方法是使用 W
Spark-1.6.1 上的 DMLC 的 XGBoost-4j

我正在尝试在 Spark 1 6 1 上使用 DMLC 的 XGBoost 实现我能够使用 XGBoost 训练我的数据但在预测方面面临困难我实际上想以在 Apache Spark mllib 库中完成的方式进行预测这有助于计算训练

Spark-1.6.1 上的 DMLC 的 XGBoost-4j

Spark-1.6.1 上的 DMLC 的 XGBoost-4j 的相关文章

随机推荐

热门标签