One-hot 编码多级列数据

2024-01-09

我有以下数据框，其中包含有关不同主题的特征的记录：

ID   Feature
-------------------------
1    A
1    B
2    A
1    A
3    B
3    B
1    C
2    C
3    D

我想获得另一个（聚合的？）数据帧，其中每一行代表一个特定主题，并且有所有单热编码功能的详尽列表：

ID   FEATURE_A FEATURE_B FEATURE_C FEATURE D
--------------------------------------------
1    1         1         1         0
2    1         0         1         0
3    0         1         0         0

如何用Python（Pandas）实现它？

奖励：如何实现一个版本，其中特征列包含出现次数，而不仅仅是二进制标志？

Use join http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.join.html with get_dummies http://pandas.pydata.org/pandas-docs/stable/generated/pandas.get_dummies.html, then groupby http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html并聚合max:

df =df[['ID']].join(pd.get_dummies(df['Feature']).add_prefix('FEATURE_')).groupby('ID').max()
print (df)
    FEATURE_A  FEATURE_B  FEATURE_C  FEATURE_D
ID                                            
1           1          1          1          0
2           1          0          1          0
3           0          1          0          1

Detail:

print (pd.get_dummies(df['Feature']))
   A  B  C  D
0  1  0  0  0
1  0  1  0  0
2  1  0  0  0
3  1  0  0  0
4  0  1  0  0
5  0  1  0  0
6  0  0  1  0
7  0  0  1  0
8  0  0  0  1

另一种解决方案是多标签二值化器 http://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MultiLabelBinarizer.html and DataFrame构造函数：

from sklearn.preprocessing import MultiLabelBinarizer

mlb = MultiLabelBinarizer()
df1 = pd.DataFrame(mlb.fit_transform(df['Feature']),
                   columns=['FEATURE_' + x for x in mlb.classes_], 
                   index=df.ID).max(level=0)
print (df1)
    FEATURE_A  FEATURE_B  FEATURE_C  FEATURE_D
ID                                            
1           1          1          1          0
2           1          0          1          0
3           0          1          0          1

Timings:

np.random.seed(123)
N = 100000
L = list('abcdefghijklmno'.upper()) 
df = pd.DataFrame({'Feature': np.random.choice(L, N),
                   'ID':np.random.randint(10000,size=N)})

def jez(df):
    mlb = MultiLabelBinarizer()
    return pd.DataFrame(mlb.fit_transform(df['Feature']),
                   columns=['FEATURE_' + x for x in mlb.classes_], 
                   index=df.ID).max(level=0)


#jez1
In [464]: %timeit (df[['ID']].join(pd.get_dummies(df['Feature']).add_prefix('FEATURE_')).groupby('ID').max())
10 loops, best of 3: 39.3 ms per loop

In [465]: %timeit (jez(df))
10 loops, best of 3: 138 ms per loop

#Scott Boston1
In [466]: %timeit (df.set_index('ID')['Feature'].str.get_dummies().add_prefix('FEATURE_').max(level=0))
1 loop, best of 3: 1.03 s per loop

#wen1
In [467]: %timeit (pd.crosstab(df.ID,df.Feature).gt(0).astype(int).add_prefix('FEATURE '))
1 loop, best of 3: 383 ms per loop

#wen2
In [468]: %timeit (pd.get_dummies(df.drop_duplicates().set_index('ID')).sum(level=0))
10 loops, best of 3: 47 ms per loop

Caveat

The results do not address performance given the proportion of Feature and ID, which will affect timings a lot for some of these solutions.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

One-hot 编码多级列数据的相关文章

Spark MLlib - 训练隐式警告

我在使用时不断看到这些警告trainImplicit WARN TaskSetManager Stage 246 contains a task of very large size 208 KB The maximum recommend
为什么 tkinter / window.update 在我的程序中随着时间的推移变得更慢？

我发现当我调用 window update 时当向窗口写入的内容较少时它的运行速度会更快但后来当我向窗口写入更多元素时 window update 需要更长的时间请参阅下面的我的代码您可以看到它在更新窗口之前一次向屏幕 100
Python 遍历目录树的方法是什么？

我觉得分配文件和文件夹并执行 item 部分有点黑客有什么建议么我正在使用Python 3 2 from os import from os path import def dir contents path contents list
Python的reduce()短路了吗？

If I do result reduce operator and False 1000 得到第一个结果后它会停止吗自从False anything False 相似地 result reduce operator or True 10
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
为什么导入 pdb 时出现此错误？ “模块”对象没有属性“ascii_letters”

尝试调试我的代码我正在导入库pdb import sys from subprocess import check call import pdb functions if name main Code 我收到此错误 File reg p
Pyspark 数据框逐行空列列表

我有一个 Spark 数据框我想创建一个新列其中包含每行中具有 null 的列名称例如原始数据框是 col 1 col 2 col 3 62 45 null 62 49 56 45 null null null null null
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
Django 的 URL 覆盖率测试为 0%，为什么？

使用姜戈鼻子我对 URL 进行了测试但 URL 覆盖率仍然为 0 为什么 python manage py 测试配置文件这是我的报道 Name Stmts Miss Cover Missing profiles 0 0 100 pro
网页抓取 - 前往第 2 页

如何访问数据集的第二页无论我做什么它都只返回第 1 页 import bs4 from urllib request import urlopen as uReq from bs4 import BeautifulSoup as sou
如何修复错误“AttributeError：‘模块’对象在 python3 中没有属性‘客户端’？

以下是我的代码 import http h1 http client HTTPConnection www bing com 我认为没问题但是 python 给了我以下错误 AttributeError 模块对象没有属性客户端我想知
一行Python和SQLite代码，为什么需要加“，”？ [复制]

这个问题在这里已经有答案了 c execute INSERT INTO numbers VALUES random randint 0 100 如果我将上面的代码更改为 c execute INSERT INTO numbers VALUE
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
从 IMDbPy 结果中的片目中获取电影 ID

我正在尝试创建一个数据集允许我根据 Python IMDb API 中的演员 ID 和电影 ID 加入演员和电影现在我正在尝试从演员的电影作品中提取电影 ID 列表但无法做到例如我知道 Rodney Dangerfield 在
如何正确消除字典中的元素直到只剩下一个字符串

我真的需要这方面的帮助 def get winner dict winner new dict for winner in dict winner first letter winner 0 value dict winner winner
SQLAlchemy：避免声明式样式类定义中的重复

我正在使用 SQLAlchemy 并且我的对象模型中的许多类具有相同的两个属性 id 和整数和主键以及名称字符串我试图避免在每个类中声明它们如下所示 class C1 declarative base id Column Inte
获取调用者文件的绝对路径

假设我在不同的目录中有两个文件 1 py 比如说在C FIRST FOLDER 1 py and 2 py 比如说在C SECOND FOLDER 2 py 文件1 py进口2 py using sys path insert 0 pa
issubclass() 对从不同路径导入的同一类返回 False

目的是实现某种插件框架其中插件是同一基类即 A 的子类即 B 基类使用标准导入加载而子类使用 imp load module 从众所周知的包即 pkg 的路径加载 pkg init py mod1 py class A mod2
在Python 3.2中，我可以使用http.client打开并读取HTTPS网页，但urllib.request无法打开同一页面

我想打开并阅读https yande re https yande re with urllib request 但我收到 SSL 错误我可以使用以下方式打开并阅读页面http client用这个代码 import http client
从数据集的给定日期范围中提取属于一天的数据

我有一个数据集日期范围为 2018 年 1 月 12 日到 8 月 3 日其中包含一些值维数为my df数据框是 my df shape 9752 2 每行包含半小时频率第一行开始于2018 01 12 my df iloc 0 D

随机推荐

java xml 删除项目

我有一个非常简单的 xml 文件我想创建一个简单的函数来从中删除项目这是我的 xml 文件
为什么我们需要将压缩对象转换为列表

我正在尝试完成一个数据营练习其中我需要将 2 个列表转换为zip object然后进入一个dict最终得到一个dataframe使用熊猫但是如果我使用zip 对列表进行函数并将它们转换为字典然后转换为数据框我没有得到任何错误但简
如何检查 bash 脚本中是否以 root 身份运行

我正在编写一个需要 root 级别权限的脚本并且我想这样做以便如果该脚本不以 root 身份运行它只是回显请以 root 身份运行并退出这是我正在寻找的一些伪代码 if whoami root then echo Please
如何使用 Excel 在 Outlook 365 Exchange 中引用组或共享日历？

我正在尝试让多个用户能够使用 Excel 将约会添加到共享日历以下代码对我有用我拥有共享日历它位于 Outlook365 中的我的日历文件夹中 Sub CreateAppt Const olFolderCalendar 9 Const
如何在 Dart 中创建一个空白的 Future + 如何返回当前正在进行的 Future？

我正在尝试创建一个服务器端 Dart 类来执行各种与数据相关的任务所有这些任务都依赖于首先初始化的数据库问题是数据库的初始化是异步发生的返回 Future 我首先尝试将初始化代码放入构造函数中但放弃了这种方法因为它似乎不可行我现
如何通过java代码在属性文件中写入值

我有一个问题我有一个属性文件我想在该文件中存储一些值并在需要时在代码中实现有什么办法可以做到这一点吗我在用Properties类来做到这一点使用加载属性文件java util Properties http docs oracl
为什么我无法将 firebase 电子邮件密码登录链接到 google 登录？

我已经成功实施了Firebase Google 登录 https firebase google com docs auth android google signin在我的 Android 应用程序中它工作正常但是我希望用户也使用电
获取与 SIM 卡关联的电话号码

如何获取与 CMDA 和 GSM 的 SIM 卡关联的电话号码以及服务提供商名称 Android TelephonyManager 可能不会在所有情况下都返回号码如果运营商未设置号码它可能不会返回号码您必须创建一个验证场景要求用户输
如何向 Spark RDD 添加新列？

我有一个 RDDMANY列例如 hundreds 如何在此 RDD 的末尾添加一列例如如果我的 RDD 如下所示 123 523 534 893 536 98 1623 98472 537 89 83640 9265 7297 983
更新（重新部署）现有的 azure webjob

我创建了一个按需网络作业在管理门户中没有上传新 zip 或更新它的选项我可以删除现有的网络作业并创建一个新的网络作业但我想保留我的日志有没有办法重新部署它覆盖旧版本维护日志您可以通过 FTP 连接到 Webjob 所在的网站
为什么 data-* 属性比普通 ID 属性更适合用于元素选择？

Cypress https docs cypress io guides references best practices html Selecting Elements和许多其他关于测试 Web 应用程序的帖子建议依赖像这样的数据属性d
原深感摄像头的拍摄范围是多少？

前置原深感摄像头可以检测到的最小和最大距离是多少 When 检测深度数据 https developer apple com documentation avfoundation cameras and media capture stre
WPF - 延迟多重绑定

我有一个多重绑定看起来像这样
如何在 Postgres 中获取时间间隔的平均值

我正在使用 PostgreSQL 9 6 我有一个这样的表 mac sn loc time date vin1 vin2 vin3 1a34 4as11111111 aaaa 7 06 18 1 1 2018 447 42 472 32 6
如何从 xcode 获取自己的应用程序版本？

我想知道是否有办法在将其放入 xCode 中的 Summary 选项卡后在代码中获取自己的应用程序版本一种方法似乎是搜索Info plist for CFBundleVersion关键但是还有其他更简单更方便的方法吗您可以在主包中
VB.NET LINQ 按多列分组

我有以下 LINQ 代码该代码有语法错误但我不知道如何修复它 Dim query From row In mainDatatable AsEnumerable the syntax Error is in the following l
保持当前页面呈现，直到加载下一页

我有一个基于 WebView loadUrl http www example com http www example com 当用户单击 URL 时默认行为是立即显示空白页面等待页面加载然后显示此页面我设法显示启动屏幕来代替空白
POSIX TIMER - 有多个计时器

我试图在我的系统中有两个计时器用于两个不同的目的但我不明白为什么它不起作用有人可以帮助我吗另外处理程序代码是否应该是最低限度的以便任务本身不会干扰滴答声我还可以定义单独的处理程序吗 include
如何在客户注册表中添加地址字段？

我使用的是magento 1 6 我想在客户注册表上显示地址字段我从 register phtml 中删除了以下几行但它不起作用所以我该怎么做如果您使用的是 magento 1 6 或更高版本并且只需在customers form
One-hot 编码多级列数据

我有以下数据框其中包含有关不同主题的特征的记录 ID Feature 1 A 1 B 2 A 1 A 3 B 3 B 1 C 2 C 3 D 我想获得另一个聚合的数据帧其中每一行代表一个特定主题并且有所有单热编码功能的详尽列表 I

One-hot 编码多级列数据

Caveat

One-hot 编码多级列数据 的相关文章

随机推荐

热门标签

One-hot 编码多级列数据的相关文章