使用树输出预测 Spark 中梯度提升树情况下的类概率

2024-04-09

众所周知，Spark 中的 GBT 目前可以为您提供预测标签。

我正在考虑尝试计算一个类的预测概率（假设所有实例都落在某个叶子下）

构建 GBT 的代码

import org.apache.spark.SparkContext
import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.Vectors
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel
import org.apache.spark.mllib.util.MLUtils

//Importing the data
val data = sc.textFile("data/mllib/credit_approval_2_attr.csv") //using the credit approval data set from UCI machine learning repository

//Parsing the data
val parsedData = data.map { line =>
    val parts = line.split(',').map(_.toDouble)
    LabeledPoint(parts(0), Vectors.dense(parts.tail))
}

//Splitting the data
val splits = parsedData.randomSplit(Array(0.7, 0.3), seed = 11L)
val training = splits(0).cache() 
val test = splits(1)

// Train a GradientBoostedTrees model.
// The defaultParams for Classification use LogLoss by default.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 2 // We can use more iterations in practice.
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 2
boostingStrategy.treeStrategy.maxBins = 32
boostingStrategy.treeStrategy.subsamplingRate = 0.5
boostingStrategy.treeStrategy.maxMemoryInMB =1024
boostingStrategy.learningRate = 0.1

// Empty categoricalFeaturesInfo indicates all features are continuous.
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(training, boostingStrategy)  

model.toDebugString

为了简单起见，这给了我两棵深度为 2 的树，如下所示：

 Tree 0:
    If (feature 3 <= 2.0)
     If (feature 2 <= 1.25)
      Predict: -0.5752212389380531
     Else (feature 2 > 1.25)
      Predict: 0.07462686567164178
    Else (feature 3 > 2.0)
     If (feature 0 <= 30.17)
      Predict: 0.7272727272727273
     Else (feature 0 > 30.17)
      Predict: 1.0
  Tree 1:
    If (feature 5 <= 67.0)
     If (feature 4 <= 100.0)
      Predict: 0.5739387416147804
     Else (feature 4 > 100.0)
      Predict: -0.550117566730937
    Else (feature 5 > 67.0)
     If (feature 2 <= 0.0)
      Predict: 3.0383669122382835
     Else (feature 2 > 0.0)
      Predict: 0.4332824083446489

我的问题是：我可以使用上面的树来计算预测概率，例如：

对于用于预测的特征集中的每个实例

exp(树 0 的叶子分数 + 树 1 的叶子分数)/(1+exp(树 0 的叶子分数 + 树 1 的叶子分数))

这给了我一种概率。但不确定这是否是正确的方法。另外，是否有任何文档解释如何计算叶子分数（预测）。如果有人可以分享，我将非常感激。

任何建议都会很棒。

这是我使用 Spark 内部依赖项的方法。稍后您需要导入线性代数库进行矩阵运算，即将树预测与学习率相乘。

import org.apache.spark.mllib.linalg.{Vectors, Matrices}
import org.apache.spark.mllib.linalg.distributed.{RowMatrix}

假设您使用 GBT 构建模型：

val model = GradientBoostedTrees.train(trainingData, boostingStrategy)

使用模型对象计算概率：

// Get the log odds predictions from each tree
val treePredictions = testData.map { point => model.trees.map(_.predict(point.features)) }

// Transform the arrays into matrices for multiplication
val treePredictionsVector = treePredictions.map(array => Vectors.dense(array))
val treePredictionsMatrix = new RowMatrix(treePredictionsVector)
val learningRate = model.treeWeights
val learningRateMatrix = Matrices.dense(learningRate.size, 1, learningRate)
val weightedTreePredictions = treePredictionsMatrix.multiply(learningRateMatrix)

// Calculate probability by ensembling the log odds
val classProb = weightedTreePredictions.rows.flatMap(_.toArray).map(x => 1 / (1 + Math.exp(-1 * x)))
classProb.collect

// You may tweak your decision boundary for different class labels
val classLabel = classProb.map(x => if (x > 0.5) 1.0 else 0.0)
classLabel.collect

以下是您可以直接复制并粘贴到 Spark-Shell 中的代码片段：

import org.apache.spark.mllib.regression.LabeledPoint
import org.apache.spark.mllib.linalg.{Vectors, Matrices}
import org.apache.spark.mllib.linalg.distributed.{RowMatrix}
import org.apache.spark.mllib.tree.GradientBoostedTrees
import org.apache.spark.mllib.tree.configuration.BoostingStrategy
import org.apache.spark.mllib.tree.model.GradientBoostedTreesModel

// Load and parse the data file.
val csvData = sc.textFile("data/mllib/sample_tree_data.csv")
val data = csvData.map { line =>
  val parts = line.split(',').map(_.toDouble)
  LabeledPoint(parts(0), Vectors.dense(parts.tail))
}
// Split the data into training and test sets (30% held out for testing)
val splits = data.randomSplit(Array(0.7, 0.3))
val (trainingData, testData) = (splits(0), splits(1))

// Train a GBT model.
val boostingStrategy = BoostingStrategy.defaultParams("Classification")
boostingStrategy.numIterations = 50
boostingStrategy.treeStrategy.numClasses = 2
boostingStrategy.treeStrategy.maxDepth = 6
boostingStrategy.treeStrategy.categoricalFeaturesInfo = Map[Int, Int]()

val model = GradientBoostedTrees.train(trainingData, boostingStrategy)

// Get class label from raw predict function
val predictedLabels = model.predict(testData.map(_.features))
predictedLabels.collect

// Get class probability
val treePredictions = testData.map { point => model.trees.map(_.predict(point.features)) }
val treePredictionsVector = treePredictions.map(array => Vectors.dense(array))
val treePredictionsMatrix = new RowMatrix(treePredictionsVector)
val learningRate = model.treeWeights
val learningRateMatrix = Matrices.dense(learningRate.size, 1, learningRate)
val weightedTreePredictions = treePredictionsMatrix.multiply(learningRateMatrix)
val classProb = weightedTreePredictions.rows.flatMap(_.toArray).map(x => 1 / (1 + Math.exp(-1 * x)))
val classLabel = classProb.map(x => if (x > 0.5) 1.0 else 0.0)
classLabel.collect

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Tree

Probability

Prediction

apachesparkmllib

boosting

使用树输出预测 Spark 中梯度提升树情况下的类概率的相关文章

使用加权概率和值查找数组中的项目

上周我正在做的一个简单程序遇到了一些问题这里有人帮助了我现在我遇到了另一个问题我目前有这个代码 var findItem function desiredItem var items item rusty nail probabili
如何使用KDTrees实现最近邻搜索？

所以我正在实施一个KD Tree http en wikipedia org wiki Kd tree进行最近邻搜索我已经构建了树部分但我认为我没有完全理解搜索部分关于遍历树来搜索邻居维基百科文章如下 Starting with
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何将模型结果保存到文本文件？

我正在尝试将从模型生成的频繁项集保存到文本文件中该代码是 Spark ML 库中 FPGrowth 示例的示例 Using saveAsTextFile直接在模型上写入 RDD 位置而不是实际值 import org apache spa
非二叉树的中序树遍历

对于比二叉树更宽的树术语中序遍历是否有明确定义的含义或者前和后顺序是唯一有意义的 DFS 类型吗我的意思是与n每个节点 gt 2 个子节点我猜是为了n这甚至可能意味着之后要转到根 n 2孩子们但这曾经这样使用过吗那
R 多元一步预测和准确性

我想使用 R 来比较两个预测模型的 RMSE 均方根误差第一个模型使用 1966 年至 2000 年的估计值来预测 2001 年然后使用 1966 年至 2001 年的估计值来预测 2002 年依此类推直至 2015 年第二个模型使
我该如何实现这个折叠功能呢？

给出了两种数据类型颜色和植物 data Color Red Pink White Blue Purple Green Yellow deriving Show Eq data Plant Leaf Blossom Color Stal
如何在 Flutter 的 widget 树中打开新的 MaterialPageRoute 作为子项

在下面的示例中当我推送新的 MaterialPageRoute 时它会在与 Flutter 小部件树中的 Home 小部件相同的级别上创建我希望将它作为小部件 Home 的子部件因此 Home 将是 Child 小部件的父部件这
最低共同祖先算法

所以我一直在研究实现最低共同祖先算法我研究了许多不同的算法主要是 Trajan 解决方案的变体或 RMQ 的变体我正在使用非二叉树我的树经常会在查询之间发生变化因此预处理不一定值得树的节点数不应超过 50 75 个我想知道的是
与 6 位随机字母数字代码发生冲突的概率是多少？

我使用以下 Perl 代码生成随机字母数字字符串仅限大写字母和数字用作 MySQL 数据库中记录的唯一标识符数据库的行数可能会保持在 1 000 000 行以下但实际的绝对最大值约为 3 000 000 行我是否有 2 条记录具有
如何从此 d3.js layout.tree 获取树祖先和树后代的列表？

我正在尝试和修改this https bl ocks org mbostock 4339083d3 js 的示例用于根据 JSON 树结构绘制树这就是树的一部分开始时的样子我正在尝试进行两个单独的修改但我不知道该怎么做当单击节点的
将 Lambda 表达式树与 IEnumerable 结合使用

我一直在尝试了解有关使用 Lamba 表达式树的更多信息因此我创建了一个简单的示例这是代码如果作为 C 程序粘贴到 LINQPad 中它可以工作 void Main IEnumerable
缓存感知树的实现

I have a tree where every node may have 0 to N children 用例是以下查询给定指向两个节点的指针这些节点是否位于树的同一分支内 Examples q 2 7 gt true q 5 4
Spark DataFrame 不尊重架构并将所有内容视为字符串

我面临着一个多年来一直无法克服的问题我使用的是 Spark 1 4 和 Scala 2 10 我现在无法升级大型分布式基础设施我有一个包含几百列的文件其中只有 2 列是字符串其余都是长列我想将此数据转换为标签特征数据框我已经
字符串 c 的二叉树

我正在尝试实现一个能够在 c 中保存字符串的二叉树在让代码适用于整数之后我尝试稍微修改它以处理字符数组现在我似乎完全破解了代码但不知道如何破解任何帮助表示赞赏 include
从 xgb.train() 获取概率

我是 Python 和机器学习的新手我在网上搜索了我的问题并尝试了人们建议的解决方案但仍然没有得到它如果有人能帮助我我将非常感激我正在开发我的第一个 XGboost 模型我已经使用 xgb XGBClassifier 调整了参
如何在Python中对类别进行加权随机抽样

给定一个元组列表其中每个元组都包含一个概率和一个项目我想根据其概率对项目进行采样例如给出列表 3 a 4 b 3 c 我想在 40 的时间内对 b 进行采样在 python 中执行此操作的规范方法是什么我查看了 random 模
在 Spark 中计算逻辑回归系数的标准误差

我知道这个问题之前已经被问过here https stackoverflow com questions 37816701 calculating standard error of estimate wald chi square sta
GXT 3 中树的单击处理程序？

我一直在翻阅GXT3 s Tree API http dev sencha com deploy gxt 3 0 0 rc2 javadoc gxt com sencha gxt widget core client tree Tree h
使用加权行概率从 PostgreSQL 表中选择随机行

输入示例 SELECT FROM test id percent 1 50 2 35 3 15 3 rows 你会如何编写这样的查询平均 50 的时间我可以获得 id 1 的行 35 的时间 id 2 的行 15 的时间 id 3 的行

随机推荐

如何在JTable中动态添加图像[关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 BufferedImage img null ImageIcon icon null try img ImageIO r
Microsoft SQL 中的 MySQL 长文本类似物？

我是 Microsoft SQL 新手我正在尝试从 MySQL 导入数据库我遇到的唯一问题是 MySQL 数据库使用longtext多个表列的数据类型 Microsoft SQL 的哪些数据类型与 MySQL 类似longtext 感谢
使用 Titanium Framework 开发针对 iPhone 和 Android 的应用程序的最佳实践是什么？

我计划使用 Titanium Framework 为 iPhone 和 Android 开发一个应用程序有人可以根据您使用该框架的经验列出开发的最佳实践该做和不该做的事情吗首先有关于 Titanium 最佳实践的 Appcelera
增加堆大小后无法启动 Glassfish

我想增加 Glassfish 的堆大小为此我知道我可以达到 4GB java Xmx4000M version java version 1 6 0 26 Java TM SE Runtime Environment build 1 6
是否有一个标志可以检查我的代码以查看 PyCharm 的调试器是否正在运行？

我想在我的代码中执行一些操作条件是 PyCharm 调试器是否已连接并正在运行例如我已使用 IDE 的调试命令启动了我的代码就像是 if pycharm debugger is running do something else
当源代码管理资源管理器显示变更集的分支和合并时，这意味着什么？

我试图了解驻留在 TFS 2005 中的代码库的历史记录并且遇到了一个变更集其中所有更改都被标记为分支和合并 Name Change Folder A cs merge branch Root Solution Project 我无法找
Gnuplot 5：曲线之间的颜色渐变阴影

这是用 Matplotlib 创建的是否可以在 Gnuplot 5 中制作相同类型的阴影我不知道 gnuplot 有渐变填充选项但我可能是错的以下是一个有点丑陋的解决方法您基本上创建了 3 个相互重叠的图您可能需要调整调色板
为什么无法读取收据数据以进行设备上验证

我正在使用以下代码来读取收据数据我可以使用 OpenSSL 静态库 1 1 1k 成功验证收据签名 private func readReceipt receiptPKCS7 UnsafeMutablePointer
git commit 命令无限期挂起

当我尝试使用进行提交时git commit Sublime Text 编辑器确实打开了我编写了提交消息并保存并关闭了编辑器但更改并未提交终端挂在git commit 我在网上搜索发现有人有同样的问题并且不假思索地应用了相同的修复程
如何在WPF中为数据触发提供多个条件？

如何在WPF中为数据触发提供多个条件 Use 多数据触发 http msdn microsoft com en us library system windows multidatatrigger aspx type
Wix如何隐藏功能选项

我正在使用 Wix 3 5 构建 MSI 安装程序我想知道是否有任何方法可以隐藏功能自定义安装对话框中的某些选项您可以在其中从功能树中选择要安装的内容我只想有将安装在本地硬盘上和整个功能将不可用的选项目前除了这两个选项
java DOM xml 文件创建 - 输出文件中没有制表符或空格

我已经浏览了 stackoverflow 上的帖子但似乎没有任何帮助这是有的 write the content into xml file TransformerFactory transformerFactory Transform
取消分配准备好的查询

编辑我感谢丹尼尔和丹尼斯问题现在已经解决了正如他们巧妙地指出的那样这种情况下的问题是程序员特别是没有彻底思考我希望我能接受这两个答案注意说我是 postgresql 新手是在侮辱新手我正在编写一个 Web 应用程序它将利
在iPhone编程中从服务器下载mp3文件[重复]

这个问题在这里已经有答案了可能的重复从服务器下载音乐文件并保存在我的应用程序中 https stackoverflow com questions 5620849 download music file from server and
如何在颤振中使用精度对整数进行舍入

我试图使折线图的 Y 轴间隔在颤动中动态化这里MaxVal将获取Y轴的最大值 int interval maxVal 6 toInt int length interval toString length toInt 所以在这里我将 ma
如何组合 List> 中的所有谓词

我有一个问题我相信你能帮助我解决我的皱纹 I have List
如何在 C# WinForms 中的 Label 上编写二次方程？

我们正在制作统计软件我们需要在任何地方放置公式例如ax2 bx c怎么做ax2表示x平方2 我想在x的上侧显示2 与 c 相同我想在后缀处显示 c 您是否有用户可以选择但无法编辑的固定公式列表然后为每个公式生成一个图像将它们存储在
将向量列表添加到 R 中的 data.frame

如何将向量列表添加到预先分配的 data frame 中以便向量形成 data frame 的行 eg ll lt list c 1 2 3 c 2 3 4 dd lt data frame matrix nrow 10 ncol 3 我
无法使用 NGINX Plus 替换 NGINX 作为使用 Kubernetes 的 Google Cloud 上微服务的反向代理

我正在关注this https cloudplatform googleblog com 2016 06 creating a scalable API with microservices html关于如何使用 Kubernetes 在
使用树输出预测 Spark 中梯度提升树情况下的类概率

众所周知 Spark 中的 GBT 目前可以为您提供预测标签我正在考虑尝试计算一个类的预测概率假设所有实例都落在某个叶子下构建 GBT 的代码 import org apache spark SparkContext import o

使用树输出预测 Spark 中梯度提升树情况下的类概率

使用树输出预测 Spark 中梯度提升树情况下的类概率 的相关文章

随机推荐

热门标签

使用树输出预测 Spark 中梯度提升树情况下的类概率的相关文章