使用另一个数据帧在数据帧中创建子列

2024-05-23

我对 python 和 pandas 很陌生。在这里，我有一个以下数据框。

did           features   offset   word   JAPE_feature  manual_feature 
0             200         0        aa      200          200 
0             200         11       bf      200          200
0             200         12       vf      100          100
0             100         13       rw      2200         2200
0             100         14       asd     2600         100 
0             2200        16       dsdd    2200         2200
0             2600        18       wd      2200         2600 
0             2600        20       wsw     2600         2600 
0             4600        21        sd     4600         4600

现在，我有一个数组，其中包含该 id 可以出现的所有特征值。

feat = [100,200,2200,2600,156,162,4600,100]

现在，我正在尝试创建一个数据框，它看起来像，

id                    Features 
           100   200   2200   2600  156   162    4600  100
0           0     1      0     0     0     0      0     0
1           0     1      0     0     0     0      0     0
2           0     1      0     0     0     0      0     0
3           0     1      0     0     0     0      0     0
4           1     0      0     0     0     0      0     0
5           1     0      0     0     0     0      0     0
7           0     0      1     0     0     0      0     0
8           0     0      0     1     0     0      0     0
9           0     0      0     1     0     0      0     0
10          0     0      0     0     0     0      1     0

所以，在进行比较时，

feature_manual
     1 
     1  
     0 
     0
     1
     1
     1
     1
     1

Here compairing the features and the manual_feature columns. if values are same then 1 or else 0. so 200 and 200 for 0 is same in both so 1

所以，这是预期的输出。在这里，我尝试在新的 csv 中为该特征添加值 1，并为其他值添加 0。

So, it is by row by row.

因此，如果我们检查第一行的特征为 200，那么 200 处有 1，其他为 0。

谁能帮我这个？

我尝试过的是

mux = pd.MultiIndex.from_product([['features'],feat)
df = pd.DataFrame(data, columns=mux)

所以，这里创建子列但删除所有其他值。谁能帮我？

Use get_dummies http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.get_dummies.html with DataFrame.reindex http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.reindex.html:

feat = [100,200,2200,2600,156,162,4600,100]
df = df.join(pd.get_dummies(df.pop('features')).reindex(feat, axis=1, fill_value=0))
print (df)
   id  100  200  2200  2600  156  162  4600  100
0   0    0    1     0     0    0    0     0    0
1   1    0    1     0     0    0    0     0    0
2   2    0    1     0     0    0    0     0    0
3   4    1    0     0     0    0    0     0    1
4   5    1    0     0     0    0    0     0    1
5   7    0    0     1     0    0    0     0    0
6   8    0    0     0     1    0    0     0    0
7   9    0    0     0     1    0    0     0    0
8  10    0    0     0     0    0    0     1    0

If need MultiIndex只能通过mux to reindex，还可以转换id列至index:

feat = [100,200,2200,2600,156,162,4600,100]
mux = pd.MultiIndex.from_product([['features'],feat])

df = pd.get_dummies(df.set_index('id')['features']).reindex(mux, axis=1, fill_value=0)
print (df)
   features                                   
       100  200  2200 2600 156  162  4600 100 
id                                            
0         0    0    0    0    0    0    0    0
1         0    0    0    0    0    0    0    0
2         0    0    0    0    0    0    0    0
4         0    0    0    0    0    0    0    0
5         0    0    0    0    0    0    0    0
7         0    0    0    0    0    0    0    0
8         0    0    0    0    0    0    0    0
9         0    0    0    0    0    0    0    0
10        0    0    0    0    0    0    0    0

EDIT:

cols = ['features', 'JAPE_feature', 'manual_feature']

df = pd.get_dummies(df, columns=cols)
df.columns = df.columns.str.rsplit('_',1, expand=True)
print (df)
  did offset  word features                    JAPE_feature                \
  NaN    NaN   NaN      100 200 2200 2600 4600          100 200 2200 2600   
0   0      0    aa        0   1    0    0    0            0   1    0    0   
1   0     11    bf        0   1    0    0    0            0   1    0    0   
2   0     12    vf        0   1    0    0    0            1   0    0    0   
3   0     13    rw        1   0    0    0    0            0   0    1    0   
4   0     14   asd        1   0    0    0    0            0   0    0    1   
5   0     16  dsdd        0   0    1    0    0            0   0    1    0   
6   0     18    wd        0   0    0    1    0            0   0    1    0   
7   0     20   wsw        0   0    0    1    0            0   0    0    1   
8   0     21    sd        0   0    0    0    1            0   0    0    0   

       manual_feature                     
  4600            100 200 2200 2600 4600  
0    0              0   1    0    0    0  
1    0              0   1    0    0    0  
2    0              1   0    0    0    0  
3    0              0   0    1    0    0  
4    0              1   0    0    0    0  
5    0              0   0    1    0    0  
6    0              0   0    0    1    0  
7    0              0   0    0    1    0  
8    1              0   0    0    0    1

如果想避免缺失值MultIndex在没有列的列中MultiIndex:

cols = ['features', 'JAPE_feature', 'manual_feature']
df = df.set_index(df.columns.difference(cols).tolist())

df = pd.get_dummies(df, columns=cols)
df.columns = df.columns.str.rsplit('_',1, expand=True)
print (df)
                features                    JAPE_feature                     \
                     100 200 2200 2600 4600          100 200 2200 2600 4600   
did offset word                                                               
0   0      aa          0   1    0    0    0            0   1    0    0    0   
    11     bf          0   1    0    0    0            0   1    0    0    0   
    12     vf          0   1    0    0    0            1   0    0    0    0   
    13     rw          1   0    0    0    0            0   0    1    0    0   
    14     asd         1   0    0    0    0            0   0    0    1    0   
    16     dsdd        0   0    1    0    0            0   0    1    0    0   
    18     wd          0   0    0    1    0            0   0    1    0    0   
    20     wsw         0   0    0    1    0            0   0    0    1    0   
    21     sd          0   0    0    0    1            0   0    0    0    1   

                manual_feature                     
                           100 200 2200 2600 4600  
did offset word                                    
0   0      aa                0   1    0    0    0  
    11     bf                0   1    0    0    0  
    12     vf                1   0    0    0    0  
    13     rw                0   0    1    0    0  
    14     asd               1   0    0    0    0  
    16     dsdd              0   0    1    0    0  
    18     wd                0   0    0    1    0  
    20     wsw               0   0    0    1    0  
    21     sd                0   0    0    0    1

EDIT:

如果想比较列表中的某些列manual_feature色谱柱使用DataFrame.eq http://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.eq.html转换为整数：

cols = ['JAPE_feature', 'features']
df1 = df[cols].eq(df['manual_feature'], axis=0).astype(int)
print (df1)
   JAPE_feature  features
0             1         1
1             1         1
2             1         0
3             1         0
4             0         1
5             1         1
6             0         1
7             1         1
8             1         1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

NumPy

使用另一个数据帧在数据帧中创建子列的相关文章

Visual Studio Code 调试控制台中的 pydevd 警告

我已经搜索了一段时间但找不到任何相关问题当使用 Visual Studio Code 和 Python 扩展来调试大型元素时计算表示或获取属性可能需要一些时间在这些情况下会出现如下警告 pydevd 警告计算 DataFrame
使用 Numpy 获取多项式的系数

我正在尝试获取 a 的系数numpy polynomial polynomial Polynomial通过获得这fit method import numpy polynomial as poly x 1 2 3 4 5 y 16 42
如何检查Docker中是否安装了python包？

我使用Dockerfile成功构建了一个容器但是我的代码在容器中不起作用如果我手动安装所有软件包它确实有效我假设我搞砸了一些导致 docker 没有正确安装软件包的事情所以我想检查Docker容器中是否安装了python包最
计算两个节点之间的最长路径 NetworkX

我正在尝试使用 Networkx 制作甘特图网络中的所有节点都是完成项目所需执行的任务使用 Networkx 可以轻松计算项目的总时间但是制作甘特图我需要每个节点的最新启动 NetworkX 包含一个函数 dag longest p
带剖面的 3D 曲面图

基本上我有一个由一组时间序列组成的曲面图我想在特定高度添加剖面图以更好地了解一年中值高于所选阈值的时期由此其中显示平面但不是剖面 To This 有什么建议吗使用 alpha 和相机仰角并没有解决问题平面似乎仍然在人物的前面
使用 Python 将 Json 转换为换行 Json 标准

我有一个获取嵌套对象并删除所有嵌套的代码使对象平坦 def flatten json y param y Unflated Json return Flated Json out def flatten x name if type x
如何在 Python 中从 C++/C# 紧密实现 ?: ？

在 C 中我可以轻松编写以下内容 string stringValue string IsNullOrEmpty otherString defaultString otherString 有没有一种快速的方法可以在 Python 中做同
调度算法，找到设定长度的所有非重叠区间

我需要为我的管理应用程序实现一种算法该算法将告诉我何时可以将任务分配给哪个用户我实现了一个蛮力解决方案它似乎有效但我想知道是否有更有效的方法来做到这一点为了简单起见我重写了算法以对数字列表进行操作而不是数据库查询等下面我将尝
如何在Python中的字符串中插入变量值

这是一个简单的例子 amount1 input Insert your value amount2 input Insert your value print Your first value is amount1 your second
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
python 3 configparser.read() 在给定不存在的文件时不会引发异常

当我尝试使用 configparser read 读取不存在的文件时我认为它应该引发异常事实并非如此它返回一个空列表显然我可以测试空列表并引发异常在我看来如果 configparser read 引发 FileNotFound
使用 pandas/beautiful soup 抓取表数据（而不是慢的 Selenium？），BS 实现不起作用

我正在尝试抓取该网站上的网络数据而我能够访问数据的唯一方法是迭代表的行将它们添加到列表中然后将它们添加到 pandas 数据框写入csv 然后单击下一页并重复该过程每次搜索大约 50 页我的程序执行 100 多个搜索它非常慢
当输入是 DataFrame 时，在seaborn中对箱线图进行分组

我打算在一个图中绘制多个列pandas dataframe 全部按另一列分组使用groupby inside seaborn boxplot 对于类似的问题这里有一个很好的答案matplotlib matplotlib 分组箱线图 ht
如何导入 boto3 ssm ParameterNotFound 异常？

我想import the exception当一个boto3 ssm找不到参数get parameter 我正在尝试添加一些额外的内容ssm的功能moto图书馆但我现在很困惑 gt gt gt import boto3 gt gt gt
通过 Selenium 和 python 切换到 iframe

我如何在硒中切换到这个 iframe 只知道您可以使用 XPath 来定位 iframe driver find element by xpath iframe name Dialogue Window Then switch to th
使用 pandas 中的正则表达式在另一列中查找一列中的值

我有一个包含两列字符串的 pandas 数据框我想识别第一列中字符串的所有行 s1 出现在第二列 s2 所以如果我的专栏是 abc abcd ef gh z1y xxyyzz 我想保留第一行但不想保留第二行我能想到的唯一方法是迭代数
删除aws beanstalk上的uuid python包

这是针对所提出问题的后续帖子问题here https stackoverflow com questions 44421761 flask beanstalk deployment errors 以防万一对其他人有用自从第一篇文章以来
忽略稀疏矩阵中的重复条目

我尝试过初始化csc matrix and csr matrix从列表中 data rows cols 值如文档所示 sparse csc matrix data rows cols shape n n 问题是我实际上拥有的生成方法dat
Flask-migrate：更改模型属性并重命名相应的数据库列

我对 Flask 有一些经验但对数据库 Flask migrate alembic SqlAlchemy 不太了解我正在跟进this https blog miguelgrinberg com post the flask mega t
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入

随机推荐

在Raspberry pi上升级skimage版本

我已经使用 Raspberry Pi 2 上的 synaptic 包管理器安装了 python 包然而 skimage 模块版本 0 6 是 synaptic 中最新的可用版本有人可以指导我如何将其升级到0 11 因为旧版本中缺少某些功
PHP-如何根据条件配对数组中的项目

如何将数组中的项目配对假设我有一个数组Fighters 我想根据他们的情况将他们配对Weights 体重最接近的拳手应作为配对最佳匹配但如果他们是在同一个团队中他们不应该配对团队 1 战斗机A体重为60 战斗机B体重为65 2队战
GWT 中出现“无法在类路径上找到 XXX.gwt.xml”错误

将 Maven GWT 项目导入 Eclipse 后调试器无法工作抱怨它 Unable to find ProjectName gwt xml on your classpath 你如何修复这个错误事实证明当您将某些 GWT 项目调
UNTimeIntervalNotificationTrigger nextTriggerDate() 是否给出了错误的日期？

我正在更新本地通知以与 iOS 10 配合使用但遇到了一个问题我认为 nextTrigger 函数返回的不是满足触发条件的下一个日期而是返回当前日期时间加上您最初设置 UNTimeInvervalNotificationTrigge
控制数据是否存在于数组中

我在mysql中有两个不同的表我正在使用curl从json文件中获取数据我的第一个表名称是 tblclients 该表存储客户端数据我的第二个表名称是 tblcustomfieldsvalues 该表使用 tblclients 表的
在 azure blob 存储中就地创建 zip 文件

我将文件存储在 Blob 存储帐户内的一个容器中我需要在第二个容器中创建一个 zip 文件其中包含第一个容器中的文件我有一个使用辅助角色和 DotNetZip 工作的解决方案但由于 zip 文件的大小最终可能达到 1GB 我担心在进
在 BIRT 中导出的 Excel 中表格单元格的文本换行

我在 eclipse 中使用 BIRT 4 4 1 来生成报告我想包装表头的文本它在网络查看器中工作正常但是当我导出到 Excel 时表单元格文本在一行中并且文本也溢出我不想使单元格宽度等于内容我想根据其容器宽度来换行文本我
在 Swift 中，如何为具有自动布局的 UIView 制作动画，就像页面滑入一样？

我尝试创建一个 UIView 来表示一个大小与设备屏幕相同的页面由于该应用程序支持方向因此我使用 AutoLayout 来构建它它工作正常直到我尝试将页面动画化以从右侧滑入经过一番研究后我能想到的最好的办法是 myView UI
IntelliJ IDEA gradle 项目设置

在 IntelliJ IDEA 12 1 3 中开始新 Gradle 项目的最佳程序是什么我创造了一个骷髅build gradle使用idea插件生成项目文件 apply plugin java apply plugin idea tas
Swift 错误：发出 SIGABRT 信号如何解决

我只是 Swift 编码的初学者我的想法很简单就是一个有两个按钮的应用程序单击时文本字段将更改其文本在 Main StoryBoard 中我添加一个文本字段和两个按钮在 ViewController swift 文件中我这样
如何使用 jQuery 从 REST xml 响应构建数据表？

我有来自 Ajax REST 调用的 XML 响应与下面的类似
Unity c# 四元数：将 y 轴与 z 轴交换

我需要旋转一个对象以相对于现实世界进行精确旋转因此调用Input gyro attitude返回表示设备位置的四元数另一方面这迫使我根据这个四元数作为默认旋转来计算每个旋转将某些对象设置为朝上的简单方法如下 Vector3 up I
缩放geom_密度以将geom_bar与y上的百分比相匹配

因为我对数学感到困惑上次我尝试问这个问题 https stackoverflow com questions 32412805 ggplot2 histogram with density curve that sums to 1 这是另一
如何从 Ant 启动聚合 jetty-server JAR？

背景免责声明 I have veryJava 经验很少我们之前在 Ant 构建期间使用了 Jetty 6 的包装版本来处理按需静态内容 JS CSS 图像 HTML 因此我们可以使用 PhantomJS 针对 HTTP 托管环境运行单元
受信任的网络活动 - 地址栏不隐藏（Android 72 的 Chrome）

我已经关注了this https developers google com web updates 2017 10 using twa了解如何使用受信任的 Web 活动的指南一切正常但地址栏仍然出现一开始我认为这是因为当应用程序正在
让网络摄像头在 OpenCV 中工作

我正在尝试让我的网络摄像头在 Windows 7 64 位中的 OpenCV 版本 2 2 中捕获视频但是我遇到了一些困难 OpenCV 附带的示例二进制文件都无法检测到我的网络摄像头最近我发现这篇文章表明答案在于重新编译一个文件 o
我们可以通过指针来改变const定义的对象的值吗？

include
如何使用固定宽度和自动布局正确缩放图像？

我有一个动态 UIImage 和一个固定宽度为 280 0px 的 UIImageView 并且我正在使用自动布局在 UIImage 视图上我设置了宽度和高度约束并降低了高度约束的优先级我选择了 aspect fit 并将内容拥抱和
在提交到 Mac App Store 的应用程序中调用 openssl 是否可以接受？

我有点不清楚调用提交到 App Store 的应用程序之外的进程的规则是什么我读到如果您想使用 Cocoa 和 OSX 库之外的其他库框架您必须将其包含在您的应用程序中例如如果使用 QT Python 或 Ruby 编写应用程序
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf

使用另一个数据帧在数据帧中创建子列

使用另一个数据帧在数据帧中创建子列 的相关文章

随机推荐

热门标签

使用另一个数据帧在数据帧中创建子列的相关文章