查找决策树中到决策边界的距离

2023-12-14

我想找到样本到经过训练的决策树分类器的决策边界的距离scikit学习。特征都是数字的，特征空间可以是任何大小。

到目前为止，我有一个基于示例 2D 案例的可视化here:

import numpy as np
import matplotlib.pyplot as plt

from sklearn.tree import DecisionTreeClassifier
from sklearn.datasets import make_moons

# Generate some example data
X, y = make_moons(noise=0.3, random_state=0)

# Train the classifier
clf = DecisionTreeClassifier(max_depth=2)

clf.fit(X, y)

# Plot
x_min, x_max = X[:, 0].min() - 1, X[:, 0].max() + 1
y_min, y_max = X[:, 1].min() - 1, X[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1), np.arange(y_min, y_max, 0.1))

Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(X[:, 0], X[:, 1], c=y, s=20, edgecolor='k')
plt.xlabel('a'); plt.ylabel('b');

据我所知，对于像 SVM 这样的其他分类器，这个距离可以通过数学计算 [1, 2, 3]。训练决策树后学到的规则定义了边界，也可能有助于通过算法计算距离[4, 5, 6]:

# Plot the trained tree
from sklearn import tree
import graphviz 
dot_data = tree.export_graphviz(clf, feature_names=['a', 'b'],  class_names=['1', '2'], filled=True)  
graph = graphviz.Source(dot_data)

由于样本周围可能有多个决策边界，因此我假设这里的距离是指到最近决策边界的距离。

解决方案是递归树遍历算法。请注意，决策树不允许样本位于边界上，例如SVM，特征空间中的每个样本必须属于其中一个类。因此，在这里，我们将继续以小步骤修改样本的特征，每当这导致一个具有不同标签的区域（与最初由训练有素的分类器分配给样本的标签相比）时，我们就假设我们已经达到了决策边界。

详细来说，就像任何递归算法一样，我们有两种主要情况需要考虑：

基本情况，即我们位于叶节点。我们简单地检查当前样本是否具有不同的标签：如果是则返回它，否则返回None.
非叶节点。有两个分支机构，我们将样品发送给两个分支机构。我们不会修改样本以将其发送到它自然会采用的分支。但在将其发送到另一个分支之前，我们查看节点的（特征，阈值）对，并修改样本的给定特征，使其足以将其推到阈值的另一侧。

完整的Python代码：

def f(node,x,orig_label):
    global dt,tree
    if tree.children_left[node]==tree.children_right[node]: #Meaning node is a leaf
        return [x] if dt.predict([x])[0]!=orig_label else [None]

    if x[tree.feature[node]]<=tree.threshold[node]:
        orig = f(tree.children_left[node],x,orig_label)
        xc = x.copy()
        xc[tree.feature[node]] = tree.threshold[node] + .01
        modif = f(tree.children_right[node],xc,orig_label)
    else:
        orig = f(tree.children_right[node],x,orig_label)
        xc = x.copy()
        xc[tree.feature[node]] = tree.threshold[node] 
        modif = f(tree.children_left[node],xc,orig_label)
    return [s for s in orig+modif if s is not None]

这将返回给我们一个样本列表，这些样本会导致具有不同标签的叶子。我们现在需要做的就是取最近的一个：

dt =  DecisionTreeClassifier(max_depth=2).fit(X,y)
tree = dt.tree_
res = f(0,x,dt.predict([x])[0]) # 0 is index of root node
ans = np.min([np.linalg.norm(x-n) for n in res])

举例说明：

蓝色是原始样本，黄色是“在”决策边界上最近的样本。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

machinelearning

scikitlearn

Classification

Decisiontree

查找决策树中到决策边界的距离的相关文章

让 VoiceChannel.members 和 Guild.members 返回完整列表的问题

每当我尝试使用 VoiceChannel members 或 Guild members 时它都不会提供适用成员的完整列表我从文本命令的上下文中获取 VoiceChannel 和 Guild 如下所示 bot command name
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
如何处理分类中的低频样本？

我面临一个文本分类问题我需要将示例分类为 34 组问题是 34组的训练数据大小不平衡对于某些组我有 2000 多个示例而对于某些组我只有 100 多个示例对于一些小群体分类准确率相当高我想这些群体可能有特定的关键词来识别和
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
使用 python/numpy 重塑数组

我想重塑以下数组 gt gt gt test array 11 12 13 14 21 22 23 24 31 32 33 34 41 42 43 44 为了得到 gt gt gt test2 array 11 12 21 22 13 14
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
如何将 ascii 值列表转换为 python 中的字符串？

我在 Python 程序中有一个列表其中包含一系列数字这些数字本身就是 ASCII 值如何将其转换为可以在屏幕上回显的常规字符串您可能正在寻找 chr gt gt gt L 104 101 108 108 111 44 32 1
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
Firebase Firestore：获取文档的生成 ID (Python)

我可以创建一个新文档带有自动生成的 ID 并存储对其的引用如下所示 my data key value doc ref db collection u campaigns add my data 我可以像这样访问数据本身 print d
如何使用 Boto3 启动具有 IAM 角色的 EC2 实例？

我无法弄清楚如何使用指定的 IAM 角色在 Boto3 中启动 EC2 实例以下是迄今为止我如何成功创建实例的一些示例代码 import boto3 ec2 boto3 resource ec2 region name us west 2
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有

随机推荐

使用闭包来跟踪变量：好主意还是肮脏的伎俩？

好的我需要能够跟踪值类型对象这些对象是另一个对象上的属性如果这些属性不实现 IObservable 接口或类似接口这是无法完成的然后我想到了闭包和 Jon Skeet 的著名例子以及如何多次打印 9 或 10 而不是按升序排列的
如何使用 REST Api 从 salesforce 中的字段获取所有选项列表值？

我正在尝试使用 REST API 从 salesforce 中的字段获取所有选项列表值可以这样做吗如果是的话那该怎么办呢 Thanks Raj 这很简单您需要访问与此类似的资源 services data v26 0 sobjects
ANSI C：__DATE__ 和 __TIME__ 字符串大小的标准定义？

ANSI C 中 DATE 和 TIME 字符串的大小是否有标准定义这个问题背后的动机是我有两个应用程序在两个不同的 CPU 上运行在运行时应用程序 1 从应用程序 2 接收日期和时间作为版本信息的一部分当然应用程序 2 从预
Javascript 类中的方法链接[重复]

这个问题在这里已经有答案了我正在尝试在我的子类中实现方法链接定位球 class Ball constructor name size power this name name this size size this power powe
匿名方法 - 3 种不同的方式 - 异步

不确定在标题中写什么它们可能并不都是匿名方法但这里是假设我们有这个异步函数 public async Task Delete something 我正在使用 Blazor 服务器端我对以下四种调用函数的方式感到好奇假设它们位于 d
Android In App BIlling v3 - 错误的订阅试用期

我正在使用 Android In App BIlling v3 库当我调用 bp subscribe Activity subscriptionID 我获得了 Google Play 购买窗口但计费周期始终为每天试用期始终为 1 天
Symfony2 Twig 无限子深度

我有一个自连接表其中每个文件夹都有一个父文件夹并且其深度是无限的一个文件夹可以有另一个文件夹作为父文件夹没有深度限制今天我的代码看起来像这样我正在寻找一种根据需要深入挖掘的方法而无需对每个步骤进行硬编码是否有一种方法可以用循
Cpdf.php 第 3855 行中的 ErrorException：未定义索引：位于 barryvdh/laravel-dompdf

我正在使用 laravel 5 2 dompdf 在本地主机上运行良好但当移动到 AWS 时它不断显示ErrorException in Cpdf php line 3855 Undefined index 在这一行 3855 中有字体
带有 ssl 本地证书的 QNetworkRequest

我需要与需要本地证书 crt 文件的服务器交换数据我试试这个 loginRequest QNetworkRequest QUrl https somesite com login QSslConfiguration sslConf lo
打印特定类型的金字塔

对于uni 我们必须打印特定类型的金字塔这是代码 h 10 def build string pyramid s for i in range 1 h 1 print 1 end for j in range 2 i 1 print en
致命错误：找不到类“Swift_smtpTransport”

我正在尝试添加从我的网站后端向客户发送电子邮件的功能并尝试使用 swiftmailer 来执行此操作不幸的是我不断收到错误消息 Fatal error Class Swift smtpTransport not found in ho
使用翻译行为时如何查询翻译的内容？

我的网站有多种语言因此文章的标题取决于当地语言但有一个问题如何搜索另一种语言的文章目前唯一的方法是输入英文标题以便 cakePHP 检索法文名称我无法用法语搜索它例如当我搜索 Hello 时我找到了名为 Bonjour
如何从 Windows 剪贴板读取位图

我正在编写一个非常小的 C 程序来帮助我制作精灵动画我希望它能够获取从 Photoshop 复制到剪贴板的数据在我的程序中对其进行操作然后使用转换覆盖剪贴板但问题是我不知道如何从 Photoshop 读取初始剪贴板我可以加载剪贴板
如何以编程方式或定期清除操作 PrintService 事件日志？

我们正在尝试对在 Windows Server 2008 R2 上运行的打印机进行一些内部打印审核通过事件查看器启用日志后应用程序和服务日志 gt Microsoft gt Windows gt PrintService gt 操作我
如何从 weka API 计算置信度？

我正在使用weka java API 在训练集上训练后我可以得到预测的类标签双 pred fc classifyInstance test instance i 但我想知道类标签的置信概率我应该使用什么函数在 GUI 中我可以选择将
如何使 webpack 开发服务器在端口 80 和 0.0.0.0 上运行以使其可公开访问？

我对整体是新的nodejs reactjs如果我的问题听起来很愚蠢世界深表歉意我目前正在玩反应性 js 每当我做一个npm start它总是继续运行localhost 8080 我如何将其更改为运行0 0 0 0 8080使其公开我一
检查线程是否是boost线程

为了进行线程本地清理我需要创建一个断言来检查当前线程是否是通过 boost thread 创建的我怎样才能检查是否是这种情况也就是说如何检查当前线程是否由 boost thread 处理我只需要在线程退出时清理线程本地存储 Boo
获取消息：来自 AWS API 网关的禁止回复

我正在尝试在 AWS 上创建 lambda 服务并通过 API 网关从外部访问它无需身份验证或限制为了让事情变得简单我现在将网关设置为模拟在 API 的 Get 方法中授权设置为NoneAPI 密钥是not required 当
如何在插入工作时更新 BLOB 列，错误 ORA-00932

我无法更新 BLOB 字段但插入可以请参阅下面的代码我的猜测是这与在大量记录中存储一个 BLOB 值的问题有关涉及复制大数据就我而言我知道只会更新一条记录但 Oracle 可能认为可能需要更新多条记录使用插入时可以保证只
查找决策树中到决策边界的距离

我想找到样本到经过训练的决策树分类器的决策边界的距离scikit学习特征都是数字的特征空间可以是任何大小到目前为止我有一个基于示例 2D 案例的可视化here import numpy as np import matplotlib

查找决策树中到决策边界的距离

查找决策树中到决策边界的距离 的相关文章

随机推荐

热门标签

查找决策树中到决策边界的距离的相关文章