如何对变长特征进行一种热编码？

2023-11-23

给定一个变长特征列表：

features = [
    ['f1', 'f2', 'f3'],
    ['f2', 'f4', 'f5', 'f6'],
    ['f1', 'f2']
]

其中每个样本都有不同数量的特征和特征dtype is str并且已经一热了。

为了使用 sklearn 的特征选择实用程序，我必须将features到一个二维数组，如下所示：

    f1  f2  f3  f4  f5  f6
s1   1   1   1   0   0   0
s2   0   1   0   1   1   1
s3   1   1   0   0   0   0

我如何通过 sklearn 或 numpy 实现它？

您可以使用多标签二值化器存在于 scikit 中，专门用于执行此操作。

您的示例代码：

features = [
            ['f1', 'f2', 'f3'],
            ['f2', 'f4', 'f5', 'f6'],
            ['f1', 'f2']
           ]
from sklearn.preprocessing import MultiLabelBinarizer
mlb = MultiLabelBinarizer()
new_features = mlb.fit_transform(features)

Output:

array([[1, 1, 1, 0, 0, 0],
       [0, 1, 0, 1, 1, 1],
       [1, 1, 0, 0, 0, 0]])

这也可以与其他 feature_selection 实用程序一起在管道中使用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

NumPy

scikitlearn

如何对变长特征进行一种热编码？的相关文章

在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
matplotlib 图中点的标签

所以这是一个关于已发布的解决方案的问题我试图在我拥有的 matplotlib 散点图中的点上放置一些数据标签我试图在这里模仿解决方案是否有与 MATLAB 的 datacursormode 等效的 matplotlib https s
嵌套列表的重叠会产生不必要的间隙

我有一个包含三个列表的嵌套这些列表由 for 循环填充并且填充由 if 条件控制第一次迭代后它可能类似于以下示例 a 1 2 0 0 0 0 0 0 4 5 0 0 0 0 0 0 6 7 根据条件它们不重叠在第二次迭代之后新
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
Django 视图中的“请求”是什么

在 Django 第一个应用程序的 Django 教程中我们有 from django http import HttpResponse def index request return HttpResponse Hello world
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Protobuf 如何编码 oneof 消息结构

对于这个 python 程序在编码时运行 protobuf 编码会给出以下输出 0a 10 08 7f8a 0104 08 02 10 0392 0104 08 02 10 03 18 01 我不明白的是为什么8a后面有一个01 为什么9
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
为什么 csv.DictReader 给我一个无属性错误？

我的 CSV 文件是 200 Service 我放入解释器的代码是 snav csv DictReader open screennavigation csv delimiter print snav fieldnames 200 for
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
JSON：TypeError：Decimal（'34.3'）不是JSON可序列化的[重复]

这个问题在这里已经有答案了我正在运行一个 SQL 查询它返回一个小数列表当我尝试将其转换为 JSON 时出现类型错误查询 res db execute SELECT CAST SUM r SalesVolume 1000 0 AS

随机推荐

如何获取使用标准库创建的线程的winapi id？

C 11 的标准库包含
Bootstrap 中的开始日期和结束日期

我正在使用 Bootstrap DatePicker 我要验证从日期 and To Date 开始日期正确选择今天的日期我有一个问题迄今为止没有选择开始日期即从日期值如何解决它 document ready function fro
从 Pandas DataFrame 创建时间序列

我有一个具有各种属性的数据框包括一个日期时间列我想提取其中一个属性列作为由日期时间列索引的时间序列这看起来非常简单我可以用随机值构造时间序列正如所有 pandas 文档所示但是当我从数据帧中这样做时我的属性值全部转换为 NaN
为什么我的 sqlite3 外键不起作用？

我从 python 解释器运行以下代码并期望插入语句失败并抛出某种异常但它没有发生 Python 2 6 5 r265 79096 Mar 19 2010 21 48 26 MSC v 1500 32 bit Intel on win3
Google 是否推送了会破坏多个帐户的 OAuth2.0 流程更新？

直到上周当我登录 Google 中的多个帐户并调用 OAuth2 0 流程时我都会看到一个功能正常的丑陋屏幕看起来像是被丑陋的棍子反复击打它将显示一个单选按钮列表其中包含我登录的所有帐户您选择一个并继续完成流程这周我现在得到了
使用 -fshort-wchar 的含义

在 Mac OS X 系统上查看文件 wchar h 时我发现当未定义 cplusplust 且 wchar t 的最大大小为 2 个字节通过使用编译器选项 fshort 时 wchar t 相当于 str 函数例如 wcscpy w
无法膨胀 ConstraintLayout

每次我的应用程序崩溃时因为它在类路径中找不到 Landroidx constraintlayout widget R styleable 我尝试重建使缓存无效但它总是在运行时给我同样的错误我尝试了 1 1 2 和 1 1 3 两个版
pandas 时间序列的线性回归

我有一个数据框对象其中包含 EUR USD 货币对的 1 秒间隔但理论上它可以是任何间隔在这种情况下它可能如下所示 2015 11 10 01 00 00 01 00 1 07616 2015 11 10 01 01 00 01 00
mat-form-field 必须包含 MatFormFieldControl

我们正在尝试在我们公司构建我们自己的表单字段组件我们正在尝试像这样包装材料设计的组件 field
使用数组进行 DocumentDB 查询

我有带有简单字符串数组属性的文档 id one tags A B id two tags A C 要检查值是否是数组的一部分我可以使用 ARRAY CONTAINS SELECT FROM c WHERE ARRAY CONTAINS
在 Rake 任务中使用环境变量

task some task environment do t args puts Rails env gt development production etc puts ENV gt end 我设置了一些环境变量通过本地 env 或通
删除后如何访问 Kubernetes 中 Pod 的日志

我们拥有基于 CentOS 的 kubernetes 基础设施并在此基础上使用 Openshift 我们已经终止了一个 Pod 现在它在主控制器上不再可见但是我们愿意分析它的日志我们还能访问它的日志吗如何当您发出命令时容器及其日
使用 from_json 制作的 MongoEngine 文档对象不保存

我正在尝试使用 from json 方法构建文档对象 object save 没有抛出错误但文档没有插入到 mongo 中另一方面如果我通过为每个字段分配值来创建对象它就可以正常工作我无法找到原因下面是这两种情况的代码 from
Scala 模块 2.12.3 需要 Jackson Databind 版本 >= 2.12.0 且 < 2.13.0，但我有 databind 2.12.3

对于一个项目我将 Spark 结构化流与 kafka 结合使用我有这个配置
沿线性回归线绘制条件密度曲线“P(Y|X)”

这是我的数据框有两列Y 回应和X 协变量 Editor edit use dat not data dat lt structure list Y c NA 1 793 0 642 1 189 0 823 1 715 1 623 0 9
简单的 Python 服务器设置

我正在尝试学习 python 来自 PHP 并且想要设置最简单的 Web 服务器以便我可以开始编码我找到了集成的 HTTP 服务器所以我认为这应该是最简单的方法 root ubuntu var py python m SimpleHT
核心数据关系（快速）

我正在构建一个需要核心数据关系的应用程序如下所示 entityA lt lt gt entityB e g any given entityA can hold many entityB objects 我有两个带有entityA 列表项
在容器中运行服务（upstart/init.d）

我正在尝试在 docker 中启动一个具有许多 init 和 upstart 服务的系统但出现此错误 initctl Unable to connect to Upstart Failed to connect to socket com
IntelliJ IDEA 没有 Java 10 'var' 的代码完成？

最近我安装了IntelliJ IDEA的新版本 2018 1 它增加了对Java 10的支持但是当我尝试使用var 对于局部变量类型推断我发现没有var在代码完成列表中见下面的截图如果我继续输入它将适用VarHandle作为该列表
如何对变长特征进行一种热编码？

给定一个变长特征列表 features f1 f2 f3 f2 f4 f5 f6 f1 f2 其中每个样本都有不同数量的特征和特征dtype is str并且已经一热了为了使用 sklearn 的特征选择实用程序我必须将features

如何对变长特征进行一种热编码？

如何对变长特征进行一种热编码？ 的相关文章

随机推荐

热门标签

如何对变长特征进行一种热编码？的相关文章