用特征名称绘制特征重要性

2024-01-21

在 R 中，有预先构建的函数来绘制随机森林模型的特征重要性。但在python中似乎缺少这样的方法。我在寻找一种方法matplotlib.

model.feature_importances给了我以下内容：

array([  2.32421835e-03,   7.21472336e-04,   2.70491223e-03,
         3.34521084e-03,   4.19443238e-03,   1.50108737e-03,
         3.29160540e-03,   4.82320256e-01,   3.14117333e-03])

然后使用以下绘图函数：

>> pyplot.bar(range(len(model.feature_importances_)), model.feature_importances_)
>> pyplot.show()

我得到一个条形图，但我想得到带有标签的条形图，同时以排序的方式水平显示重要性。我也在探索seaborn并且找不到方法。

给没有时间浪费的数据科学家的快速回答：

将特征重要性加载到按列名称索引的 pandas 系列中，然后使用其绘图方法。对于分类器model训练使用X:

feat_importances = pd.Series(model.feature_importances_, index=X.columns)
feat_importances.nlargest(20).plot(kind='barh')

稍微详细一点的答案和完整的例子：

假设您使用 pandas 数据框中包含的数据训练模型，如果您将特征重要性加载到 pandas 的系列中，那么这相当轻松，然后您可以利用其索引来轻松显示变量名称。情节论证kind='barh'给了我们一个水平条形图，但你可以很容易地用这个参数代替kind='bar'如果您愿意，可以使用沿 x 轴显示特征名称的传统条形图。

nlargest(n)是一个 pandas Series 方法，它将返回具有最大序列的子集n价值观。如果您的模型中有很多特征并且您只想绘制最重要的特征，那么这非常有用。

使用经典 Kaggle Titanic 数据集的快速完整示例...

import pandas as pd
from sklearn.ensemble import RandomForestClassifier
%matplotlib inline            # don't forget this if you're using jupyter!

X = pd.read_csv("titanic_train.csv")
X = X[['Pclass', 'Age', 'Fare', 'Parch', 'SibSp', 'Survived']].dropna()
y = X.pop('Survived')

model = RandomForestClassifier()
model.fit(X, y)

(pd.Series(model.feature_importances_, index=X.columns)
   .nlargest(4)
   .plot(kind='barh'))        # some method chaining, because it's sexy!

这会给你这个：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

matplotlib

RandomForest

Seaborn

用特征名称绘制特征重要性的相关文章

Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
Python 3d 绘图设置固定色阶

我正在尝试绘制两个 3d 数组第一个数组的 z 值在范围内 0 15 0 15 第二个来自 0 001 0 001 当我绘图时色标自动遵循数据范围如何设置自定义比例我不想看到 0 001 的浅色而应该看到 0 15 的浅色如何修
为什么 web2py 在启动时崩溃？

我正在尝试让 web2py 在 Ubuntu 机器上运行所有文档似乎都表明要在 nix 系统上运行它您需要下载源代码并执行以下操作蟒蛇 web2py py 我抓住了source http www web2py com examples
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
PySpark groupByKey 返回 pyspark.resultiterable.ResultIterable

我试图找出为什么我的 groupByKey 返回以下内容 0
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

如何从AJAX事件中获取源元素？

我有一个表格其中的控件成行我想在输入更改时处理行中的其他元素
如何在调用和事件 VB.net 时传递附加参数

Public Event DocumentCompleted As WebBrowserDocumentCompletedEventHandler Dim arg As Object homeTeam guestTeam AddHandle
如何从 Windows 8 中的 MediaCapture API 获取反馈

我正在尝试在 Windows 8 应用程序中执行面部跟踪应用程序我知道为了访问相机流我必须使用MediaCapture AddEffectAsync 必须与 C 结合起来如图所示在这个样本中 http code msdn micros
为什么一些专业的网页设计师使用绝对路径而不是相对路径（例如 CSS、Javascript、图像等）？

我曾经认为每个人都使用相对路径例如 styles style css 但我想知道为什么一些受欢迎的网页设计师例如http www getfinch com http www getfinch com and http 31two com
使用 Visual Studio 2015 新模拟器调试 Cordova 应用程序 (android)

我不确定这是我在做一些愚蠢的事情还是只是在前沿我正在开发一个简单的 Cordova 应用程序但这是学术性的因为我可以使用标准的 Wizzard 生成默认应用程序重复此问题我让应用程序在 VS2013 上使用 Ripple 并偶尔在
将全局变量传递给函数

为什么下面的代码给我的是 0 而不是 1 我希望我的函数更改在函数外部声明的变量但我不想在函数声明中指定该变量 that 0 function go input input go that console log that 正如 Orio
从给定的物理和有效地址查找段地址

如何从给定的数据中找到段地址物理地址 0x119B 有效地址 0x10AB 公式可能是什么 x86 16位实模式下的有效地址只是20位的偏移量部分段偏移量 address https thestarman pcministry com
正则表达式 - 将数字与常量进行比较

如果我想匹配所有小于 2000 的数字我使用正则表达式 01 1 0 9 3 如果我想匹配 1 到 5 之间的所有数字我可以使用表达式 2 4 1 但是如果我想匹配 5 到 123 之间的所有数字怎么办有语法吗要匹配数字 gt 5
混合内容 - 不安全的样式表

在浏览器中我收到以下错误混合内容页面位于 https www website com https www website com 通过 HTTPS 加载但请求不安全的样式表 http fonts googleapis com css
使用自定义错误处理程序时如何从中止命令访问错误消息

使用 python Flask 服务器我希望能够使用 abort 命令抛出 http 错误响应并在正文中使用自定义响应字符串和自定义消息 app errorhandler 400 def custom400 error response
Python-LDAP 无法编译[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 所以我从源代码中获得了最新的 pyt
Django heroku 静态目录

我是 Heroku 的新手我尝试了一个没有 css 的简单 django 应用程序但我刚刚在我的应用程序中添加了一个 css 文件当我这样做时 git push heroku master 静态文件收集失败 gt Collecting
无论数据源如何，使用 Django/Django Rest Framework 验证和保存数据的正确过程是什么？

我有一个特定的模型我想对其执行自定义验证我想保证在创建新实例时始终存在至少一个标识符字段这样就不可能在没有这些字段之一的情况下创建实例尽管没有特别需要单独的字段 from django db import models class
Huggingface 分类与预测作斗争

我正在微调 longformer 然后使用进行预测TextClassificationPipeline and model inputs 方法我不确定为什么会得到不同的结果 import pandas as pd import datas
解析器未共享给依赖的 sbt 项目？

在这个似乎涉及 xsbt web plugin 的奇怪情况下我收到错误 unresolved dependency play play json 2 10 2 2 SNAPSHOT not found 当加载时server子项目依赖项和
使用 Validating 事件和 ErrorProvider 进行验证 - 显示错误摘要

当我的 WinForms 中存在错误时如何显示消息框数据无效尝试过类似的东西但它不起作用 if errorprovider1 null MessageBox Show Data is invalid 也许我必须使用 bool 来解决
不区分大小写的三元搜索树

我一直在使用三元搜索树 http en wikipedia org wiki Ternary search tree有一段时间作为数据结构来实现一个自动完成下拉组合框这意味着当用户输入 fo 时将显示下拉组合框富食物足球问题
线性图表中 x 轴上的多条线未显示

我有一个单轴折线图用户会选择year从下拉菜单中选择loan type从另一个下拉菜单然后图表应加载 12 个月的记录annual payment and scheduled payment 两者都是线性线仪表板 vue div cl
按发布日期列出的可用.packages

是否可以从 R 中获取 CRAN 包的发布日期我想获取 k 个最近发布的 CRAN 软件包的列表或者获取 dd mm yy 日期之后发布的所有软件包的列表类似于上面的信息available packages by date html
用特征名称绘制特征重要性

在 R 中有预先构建的函数来绘制随机森林模型的特征重要性但在python中似乎缺少这样的方法我在寻找一种方法matplotlib model feature importances给了我以下内容 array 2 32421835e 0

用特征名称绘制特征重要性

用特征名称绘制特征重要性 的相关文章

随机推荐

热门标签

用特征名称绘制特征重要性的相关文章