熊猫拆分列

2024-01-07

给定以下数据框：

import pandas as pd
import numpy as np
df = pd.DataFrame({
       'A' : ['a', 'b','c', 'd'],
       'B' : ['Y>`abcd', 'abcd','efgh', 'Y>`efgh']
    })
df

    A   B
0   a   Y>`abcd
1   b   abcd
2   c   efgh
3   d   Y>`efgh

我想将 '>`' 上的 A 列分成 2 列（C 和 D），这样我的数据

frame looks like this:
        A   C  D
    0   a   Y  abcd
    1   b      abcd
    2   c      efgh
    3   d   Y  efgh

提前致谢！

您可以使用str.extract http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.extract.html with fillna http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.fillna.html，最后一滴列B by drop http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.drop.html:

df[['C','D']] = df['B'].str.extract('(.*)>`(.*)', expand=True)
df['D'] = df['D'].fillna(df['B'])
df['C'] = df['C'].fillna('')
df = df.drop('B', axis=1)

print df

   A  C     D
0  a  Y  abcd
1  b     abcd
2  c     efgh
3  d  Y  efgh

下一个解决方案使用str.split http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.str.split.html with mask and numpy.where http://docs.scipy.org/doc/numpy-1.10.1/reference/generated/numpy.where.html:

df[['C','D']] =  df['B'].str.split('>`', expand=True) 
mask = pd.notnull(df['D'])
df['D'] = df['D'].fillna(df['C'])
df['C'] = np.where(mask, df['C'], '')
df = df.drop('B', axis=1)

Timings:

很大DataFrame is extract解决方案100快几倍，小1.5 times:

len(df)=4:

In [438]: %timeit a(df)
100 loops, best of 3: 2.96 ms per loop

In [439]: %timeit b(df1)
1000 loops, best of 3: 1.86 ms per loop

In [440]: %timeit c(df2)
The slowest run took 4.44 times longer than the fastest. This could mean that an intermediate result is being cached 
1000 loops, best of 3: 1.89 ms per loop

In [441]: %timeit d(df3)
The slowest run took 4.62 times longer than the fastest. This could mean that an intermediate result is being cached 
1000 loops, best of 3: 1.82 ms per loop

len(df)=4k:

In [443]: %timeit a(df)
1 loops, best of 3: 799 ms per loop

In [444]: %timeit b(df1)
The slowest run took 4.19 times longer than the fastest. This could mean that an intermediate result is being cached 
100 loops, best of 3: 7.37 ms per loop

In [445]: %timeit c(df2)
1 loops, best of 3: 552 ms per loop

In [446]: %timeit d(df3)
100 loops, best of 3: 9.55 ms per loop

Code:

import pandas as pd
df = pd.DataFrame({
       'A' : ['a', 'b','c', 'd'],
       'B' : ['Y>`abcd', 'abcd','efgh', 'Y>`efgh']
    })
#for test 4k    
df = pd.concat([df]*1000).reset_index(drop=True)
df1,df2,df3 = df.copy(),df.copy(),df.copy()

def b(df):
    df[['C','D']] = df['B'].str.extract('(.*)>`(.*)', expand=True)
    df['D'] = df['D'].fillna(df['B'])
    df['C'] = df['C'].fillna('')
    df = df.drop('B', axis=1)
    return df

def a(df):
    df = pd.concat([df, df.B.str.split('>').apply(
    lambda l: pd.Series({'C': l[0], 'D': l[1][1: ]}) if len(l) == 2 else \
        pd.Series({'C': '', 'D': l[0]}))], axis=1)
    del df['B']
    return df

def c(df):
    df[['C','D']] = df['B'].str.split('>`').apply(lambda x: pd.Series(['']*(2-len(x)) + x))
    df = df.drop('B', axis=1)    
    return df   

def d(df):
    df[['C','D']] =  df['B'].str.split('>`', expand=True) 
    mask = pd.notnull(df['D'])
    df['D'] = df['D'].fillna(df['C'])
    df['C'] = np.where(mask, df['C'], '')
    df = df.drop('B', axis=1) 
    return df

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

熊猫拆分列的相关文章

如何使用 pandas 进行左连接

我有 2 个数据框它看起来像这样 DF1 Product Region ProductScore AAA R1 100 AAA R2 100 BBB R2 200 BBB R3 200 DF2 Region RegionScore R1
如何使用 win32com.client api 访问 MS Word 的脚注

我正在尝试使用 win32com client api 访问 MS Word 文件的脚注我已经用谷歌搜索过但没能找到合适的方法我使用 python docx 来实现上述目的但我发现当前版本的 python docx 无法访问 MS
Python 3 如何知道如何 pickle 扩展类型，尤其是 Numpy 数组？

Numpy 数组是扩展类型也称为使用 C API 扩展定义的声明了 Python 解释器范围之外的附加字段例如data属性这是一个Buffer Structure 如 Numpy 中所述阵列接口 https docs scipy o
Python for 循环仅返回字典的最后一个值

我正在尝试在 python 中创建一个带有 xyz 坐标的 json 转储但是我用来遍历不同组的 for 循环仅返回最后一个组 self group strings CHIN L EYE BROW R EYE BROW L EYE R E
从 for 循环中的 if else 语句的最后一行提取信息 Python

我认为这是不可能的但我想我会问以防万一所以我试图编写一个内存高效的 p ython 程序来解析通常大小为 100 gigs 的文件我想做的是使用 for 循环读取一行多次分割不同的字符并将其全部写入同一个循环中诀窍是该文件包含以
xlwings: 删除一个列 | Excel 中的行

如何删除 Excel 中的一行 wb xw Book Shipment xlsx wb sheets Page1 1 range 1 1 clear clear 用于删除内容我想删除该行我很惊讶 clear 函数有效但 delete
导入错误：无法导入名称线程

这是我第一次学习Python 我继续尝试线程这篇博文 http www saltycrane com blog 2008 09 simplistic python thread example 问题是它似乎已经过时了 import time
循环列表的值[重复]

这个问题在这里已经有答案了我是编码新手正在尝试编写一个简单的代码该代码将采用一个列表例如 1 2 3 并循环元素 n 次所以如果n 1 我应该得到A 3 1 2 如果n 2 我应该得到A 2 3 1 我写的代码是 n 1 j 0
获取数据框中列与特定值匹配的整数行索引

给定一个 Pandas 数据框其中一列如下所示 Date 2016 04 15 2016 04 14 2016 04 13 2016 04 12 2016 04 11 2016 04 08 假设值是唯一的如何获取特定值的行索引例如 2
有没有更简单的方法来分割/重建字符串？

目前我正在使用String split 像这样 String tmp props get i getFullName split String name for int j 1 j lt tmp length j if j gt 1 nam
在 x 轴上操作日期 Pandas Matplotlib

我有一组非常简单的数据如下所示我正在寻找一种方法来绘制此堆积条形图并格式化 x 轴日期使其从 1996 年 31 月 12 日开始到 2016 年 31 月 12 日结束增量为 365 天我编写的代码绘制了每个日期因此 x
Python：numpy/pandas 根据条件更改值

我想知道是否有更快更 Pythonic 的方法来执行以下操作例如使用一些内置方法给定一个 pandas DataFrame 或 numpy 浮点数组如果该值等于或小于 0 5 我需要计算倒数并乘以 1 并用新计算的值替换旧值转变
无法使用 beautifulsoup 模块 python 从 HTML 检索温度值

我正在使用 BeautifulSoup4 来解析此 HTML 查看源代码 https weather com en IN weather today l 17 39 78 49 https weather com en IN weather
透视包含字符串的 Pandas Dataframe - “没有要聚合的数字类型”错误

关于此错误有很多问题但环顾四周后我仍然无法找到解决解决方案我正在尝试用字符串旋转数据框以使一些行数据变成列但到目前为止还没有成功我的 df 的形状
使用 pandas 中的数据透视表进行加权平均

我编写了一些代码来使用 pandas 中的数据透视表计算加权平均值但是我不确定如何添加执行加权平均的实际列添加一个新列其中每行包含累积计数值数据看起来像这样 VALUE COUNT GRID agb 1 43 1476 10
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
更改自动插入 tkinter 小部件的文本颜色

我有一个文本框小部件其中插入了三条消息一条是开始消息一条是结束消息一条是在单位被摧毁时发出警报的消息我希望开始和结束消息是黑色的但被毁坏的消息参见我在代码中评论的位置插入小部件时颜色为红色我不太确定如何去做这件事我看
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
Pandas 与 Numpy 数据帧

看这几行代码 df2 df copy df2 1 df 1 df 1 values 1 df2 ix 0 0 我们的教练说我们需要使用 values属性来访问底层的 numpy 数组否则我们的代码将无法工作我知道 pandas Data

随机推荐

Bootstrap 3 - 带侧边栏的 Scrollspy

我正在使用 Bootstrap 3 我想重新创建与侧边栏相同的功能Bootstrap 站点上的文档 http getbootstrap com javascript 下面是我的代码它也在这里 http bootply com 82119
使用带有信任证书的 ClickOnce 进行 WPF 应用程序部署

我已使用测试证书将 WPF 应用程序部署到生产环境现在我必须更改测试证书并购买新证书我浏览了 MSDN 网站但无法得出结论该怎么办所以我需要澄清以下内容在哪里购买这些证书文件以及它是什么类型的证书我们必须在客户端系统上安装这
MSBuild 无法使用临时密钥签署 ClickOnce 清单（错误 MSB3326 和 MSB3321）

我正在尝试构建 ClickOnceWindows 窗体 http en wikipedia org wiki Windows FormsWindows Server 计算机上的项目 NET 3 5 Visual Studio 2010 为了
create_proc_entry() 的替代方法是什么

As create proc entry函数已被弃用它的替代品是什么我试图使用创建一个简单的过程条目create proc entry但得到了这个错误错误函数 create proc entry 的隐式声明我摸索着create p
如何创建支持空值的结构？

我是 C 新手在 C 中我无法将结构的值设置为 null 如何创建支持 null 值的结构通过使用 Generic Nullable 类来包装结构和值类型可以使其可为空例如 Nullable
如何将字符串转换为字母数字并将空格转换为破折号？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我想获取一个字符串去掉所有非字母数字字符并将所有空格转换为破折号每当我想将标题或其他字符串转换为 URL slug
Javascript - 带蓝牙键盘的 iPad Tab 键检测

我有一个文本字段用户可以在其中输入数据他们可以使用 Tab 键然后字段会缩进除了带有蓝牙键盘的 ios 之外这对所有设备都适用如果我访问http www rapidtables com tools notepad htm htt
nmake：构建 OpenSSL 时未找到命令

我正在尝试使用 git bash 上的此说明来遵循 Windows 上 OpenSSL 的安装说明在 Windows 上仅选择一个目标进行配置 perl Configure VC WIN32 VC WIN64A VC WIN64I VC
怎样才能让Jasmine等待一个promise被解决或者被拒绝呢？

我有一个特定的函数我正在尝试使用 Angular 来测试它该函数返回一个承诺尽管在我的测试中我对 Promise 结果设定了期望但 Jasmine 不会等待 Promise 得到解决或拒绝警告错误规格 test 没有任何期望
如何让JavaFX Chart NumberAxis只显示Integer值，而不是double值

我正在尝试创建一个图表其轴旨在显示员工人数因此它必须仅显示整数但我发现这并不像我已经尝试过的那么容易yAxis setTickUnit 1 但当值很小时它就不起作用等等最大值是3 它仍然会显示0 5 1 5 我只想要刻度值如1
基准测试 - 如何计算发送到 CPU 的指令数以查找消耗的 MIPS

假设我有一个软件并想使用黑盒子 https en wikipedia org wiki Black box testing方法我有一个 3 0GHz CPU 有 2 个插槽和 4 个核心如您所知为了找出每秒指令数 IPS 我们必须使用
如何在 Eclipse 中打开现有的 Clojure 项目？

我尝试按照通常的方式进行操作文件 gt 导入 gt 常规 gt 现有项目对于java项目但是eclipse看不到clojure项目并且无法打开它你知道为什么吗 Install 逆时针 http doc ccw ide org docu
如何在 Android 中恢复文件上传过程？

我正在使用此代码在服务器上上传文件但我想要这样的功能如果在过程中由于网络丢失或任何其他中断而停止那么它不应该从第二次开始上传来自服务器的响应也是可定制的在安卓上可以吗我应该使用什么方法来做到这一点请指导我如果可能的话请向我
如何在 SunOs 的 df -k 命令中省略标题

Input df k Output Filesystem kbytes used avail capacity Mounted on dev dsk c0t0d0s0 10332220 443748 9785150 5 devices 0
MVVM + 用户控件 + 依赖属性

好吧这与这个问题有些相关 WPF 从单个视图模型打印多个页面 https stackoverflow com questions 15162274 wpf printing multiple pages from a single vie
检查 XML 中是否存在某个元素

XML
asp.net mvc TextAreaFor 未验证为必填字段

我有一个数据输入字段我可以在其中收集笔记每个注释都需要注释数据元素这是我的模型 public interface INoteDataEntryViewModel IMobilePageDataContract int CourseId
如何获取 svg:g 元素的宽度

我目前正在与一个svgJavaScript 中的元素我对此很陌生我的问题是我有一个svg我有多个元素svg g元素而在我的svg gelements 我有各种其他 svg 元素
现实世界中的递归示例[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案什么是真实世界除了深度优先搜索 DFS 之外递归方法是自然解决方案的问题吗我不考虑河内塔 http en wikipedia or
熊猫拆分列

给定以下数据框 import pandas as pd import numpy as np df pd DataFrame A a b c d B Y gt abcd abcd efgh Y gt efgh df A B 0 a Y gt

熊猫拆分列

熊猫拆分列 的相关文章

随机推荐

热门标签

熊猫拆分列的相关文章