如何在复杂数据的情况下分离行

2024-01-10

说实话这个问题本来就不是我的。这个问题 https://stackoverflow.com/q/67871768/2884859促使我把它放在一个简化的案例中。

因此，我必须根据分隔符将输入到单元格（列中）的数据分隔成单独的行，即;在目前的情况下。这可以很容易地使用tidyr::separate_rows()。近几列中的数据已经串联起来。现在的问题，实际上有两个，是——

可能有文本分隔;但可能在闭括号内() e.g. (text_A;text_B)这是要连接的而不是分开的。
每行中不同列的单元格之间的串联数量可能不均匀。在这种情况下，该行将被分成separate rows等于最大串联数。对于连接较少的其他每一列，最后一个 text_value 可能会重复。

可重现的示例如下

input <- data.frame(
  stringsAsFactors = FALSE,
  col_1 = c("A", "B", "C"),
  Col_2 = c("Text_A;Text_B","Text_C","Text_D;(Text_E;Text_F)"),
  Col_3 = c("Text_1", "Text_2;Text_3", "Text_4"),
  Col_4 = c("Text_a;(Text_b;Text_c);(Text_d;Text_dd)","Text_e","Text_f;Text_g")
)

input
  col_1                  Col_2         Col_3                                   Col_4
1     A          Text_A;Text_B        Text_1 Text_a;(Text_b;Text_c);(Text_d;Text_dd)
2     B                 Text_C Text_2;Text_3                                  Text_e
3     C Text_D;(Text_E;Text_F)        Text_4                           Text_f;Text_g

所需的输出如下：

output
#>   col_1           Col_2  Col_3            Col_4
#> 1     A          Text_A Text_1           Text_a
#> 2     A          Text_B Text_1  (Text_b;Text_c)
#> 3     A          Text_B Text_1 (Text_d;Text_dd)
#> 4     B          Text_C Text_2           Text_e
#> 5     B          Text_C Text_3           Text_e
#> 6     C          Text_D Text_4           Text_f
#> 7     C (Text_E;Text_F) Text_4           Text_g

答案除tidyverse也可以接受。

这是我的方法，仅假设没有顺序"<sep>"在您的专栏中：

input %>%
  mutate(across(-col_1,
                ~ str_replace_all(., "\\([^)]*\\)",
                                  \(x) str_replace_all(x, ";", "<sep>")))) %>%
  pmap(\(...) {
    args <- list(...)
    entries <- map(args[-1], ~ first(str_split(., ";")))
    map(entries, \(e) {
      c(e, rep(e[length(e)], do.call(max, map(entries, length)) - length(e)))
    }) %>%
    bind_rows() %>%
    bind_cols(args[1], .)
  }) %>%
  bind_rows() %>%
  mutate(across(-col_1, ~ str_replace_all(., "<sep>", ";")))

Returns:

# A tibble: 7 x 4
  col_1 Col_2           Col_3  Col_4
  <chr> <chr>           <chr>  <chr>
1 A     Text_A          Text_1 Text_a
2 A     Text_B          Text_1 (Text_b;Text_c)
3 A     Text_B          Text_1 (Text_d;Text_dd)
4 B     Text_C          Text_2 Text_e
5 B     Text_C          Text_3 Text_e
6 C     Text_D          Text_4 Text_f
7 C     (Text_E;Text_F) Text_4 Text_g

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

tidyverse

tidyr

delimiter

csv

如何在复杂数据的情况下分离行的相关文章

如何生成向量的所有组合[重复]

这个问题在这里已经有答案了假设我有 3 个绿球 2 个橙球和 8 个黄球我想订购它们鉴于所有相同颜色的球都是相同的如何生成所有可能的序列在 R 中使用gregmisc 我可以 balls lt c orange orange g
如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测？

我试图使用 R 中的插入符包使用 10 倍交叉验证和 3 次重复来运行 SVM 模型我想使用最佳调整的超参数获得每次折叠的预测结果我正在使用以下代码 Load packages library mlbench library caret
R 中的 NA 替换函数

我正在尝试替换矩阵中的 NA mat 零我在用着mat is na mat lt 0 当我有 18946 个变量的 94531 个观察值或更小的矩阵时效果很好但我在 22752 个变量的 112039 个观察值的矩阵上尝试它 R 显示
在 mac (iMac OSX ) 终端中远程运行脚本（r 脚本）到其他计算机

我有一个小示例脚本 script p r 如下所示打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
将 JSON URL 转换为 R 数据帧

我在将 JSON 文件从 API 转换为 R 中的数据帧时遇到问题例如 URL 我尝试了 S O 的一些不同建议包括将json数据转换为R中的数据框 https stackoverflow com questions 28683769
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
仅保留百分比的尾随零

给出以下示例 library pander tableAbs lt Titanic 1 1 tablePct lt round prop table tableAbs 100 2 table lt cbind tableAbs tableP
fread 将空导入为 NA

我正在尝试导入带有空白的 csv 读取为不幸的是他们都读作 NA now 为了更好地演示问题我还展示了如何NA NA and 都映射到同一事物除了最底部的示例这将妨碍简单的解决方法dt is na dt lt gt write cs
为绘图制作 2D 图例 - 双变量分区统计图

我一直在玩双变量 choropleth 地图并且一直在如何创建类似于 2d 图例的问题上陷入困境约书亚史蒂文斯 http www joshuastevens net cartography make a bivariate chorop
使用 R 进行项目组织 [重复]

这个问题在这里已经有答案了可能的重复统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
带 R 的多彩标题

我想添加颜色某些词在我的图表标题中我已经能够在这里找到一些先例 http blog revolutionanalytics com 2009 01 multicolor text in r html 具体来说我希望用撇号括起来的文本在
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
在 R 中使用 Huggingface Transformer 模型

我正在尝试在 R 中使用不同的 Huggingface 模型这是通过 reticulate 导入 Transformer 包来实现的谢谢 https rpubs com eR ic transfoRmers https rpubs co
为什么 geom_boxplot 比基本箱线图识别更多异常值？

这是一个可重复的示例与基本箱线图相比最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
使用 dplyr::filter 的整洁方式是什么？

使用下面的函数调用foo c b 输出以内联方式显示正确的写作方式是什么df gt filter x gt x 我已经包含了一个使用的示例mutate以整洁的风格与之对比filter foo lt function variables x
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv

随机推荐

使用“输入”事件动态更改背景颜色

我正在尝试使用 JavaScript 动态更改背景使用事件监听器监听输入类型颜色字段上的输入当我从调色板中选择颜色后单击颜色输入字段时背景颜色会正确更改但是我希望背景在用户滚动托盘时动态变化而不仅仅是在他选择最终颜色时希
包含嵌入/发布的 Google 文档的 Iframe 的自动高度

我有一个带有已发布的 Google 文档的 iframe 该文档的内容可能会发生变化因此我想根据其内容自动调整 iframe 的高度我找到了一些解决方案但它们都需要访问子文档的头部有谁知道如何做到这一点您可以查看下面我使用的代码的
在 Eclipse 中使用三星 Galaxy 5 作为设备

我无法在 Eclipse 中使用我的 Samsung Galaxy 5 例如将 s5 连接到我的计算机时我无法调试我的应用程序我在设备中看到该设备但其未知或处于离线状态我已经在开发者选项中激活了调试模式它适用于三星 Gala
用于修复损坏的序列化 PHP 数据的正则表达式/代码。

我有一个巨大的多维数组已由 PHP 序列化它已存储在MySQL中数据字段不够大末尾已被切断我需要提取数据 unserialize行不通有人知道可以关闭所有数组的代码重新计算字符串长度手动处理的数据太多了非常感谢这是重新计
附加到 asp.net 母版页中的默认标题

我正在使用 MVC 将标题添加到带有内容占位符的母版页默认的MVC母版页模板使用以下代码当我尝试将默认文本添加到内容容器的前面时它不会在最终呈现的页面中显示文本我试图让页面显示带有附加 contentp
Jquery 滚动到具有相同类的下一个/上一个 div

我有几个 div 都具有相同的类帖子并且我有一个简单的向上和向下导航
Python浮点精度和

我在 python 中有以下数组 n 565387674 45 321772103 48 321772103 48 214514735 66 214514735 65 357524559 41 如果我将所有这些元素相加我会得到 sum n
使用shutil移动文件时出错

我正在尝试创建一个简单的函数查找以某个字符串开头的文件然后将它们移动到新目录但我不断从shutil IOError Errno 2 没有这样的文件或目录 18 1 pdf 即使该文件存在 import os import shutil
组件中未定义渲染函数或模板：匿名

我遇到这样的问题重新加载页面后出现错误组件中未定义渲染函数或模板匿名我认为该错误是由于 socket io 造成的这个错误不是发生在本地机器上而是发生在生产上这是怎么回事开发者 https dev jujuway com u
如何在Python中编写字符串文字而不必转义它们？

有没有一种方法可以在Python中声明一个字符串变量这样它里面的所有内容都会自动转义或者有它的文字字符值 I m not询问如何用斜杠转义引号这是显而易见的我要求的是一种通用的方法用于将所有内容都放入字符串文字中这样我就不必手动
在查询中使用 TOP 1 时出现问题

我编写了以下查询来获取日期删除它的时间部分并添加我想要的时间如果我在没有 TOP 子句的情况下运行此查询则效果很好但是当我添加它时它返回以下异常从字符串转换日期和或时间时转换失败这是查询 SELECT TOP 1 CONVE
C# List .ConvertAll 效率和开销

我最近了解了 List 的 ConvertAll 扩展我今天在工作中在代码中使用了几次它将我的大量对象列表转换为其他对象的列表看起来效果真的很好但是我不确定与仅迭代列表和转换对象相比这有多高效或多快 ConvertAll 是否使
Android 应用内计费、非消耗品

我正在实施应用内计费用户将能够购买优质内容的访问权限这是典型的非消耗品假设优质内容是问题应用程序中的额外问题或类别我用过this http www techotopia com index php Integrating Googl
如何设置UILabel发光效果的颜色？

我们通常可以设置fontColorUILabel 的实现方式 label textColor self someTextColor 和阴影发光 label layer shadowColor self someGlowColor labe
如何在shell脚本中调用函数？

我有一个有条件调用函数的 shell 脚本例如 if choice true then process install elif choice false then process exit fi process install comm
通过句子或段落训练和评估 spaCy 模型

观察段落 I love apple I eat one banana a day句子 I love apple I eat one banana a day这一段有两句话 I love apple and I eat one banana
无法添加实体类型“X”的种子实体，因为没有为所需属性“..ID”提供值

我在玩机智EF Core 2 1 预览 2 我在使用 HasData Seed 方法时遇到问题OnModelCreating ModelBuilder modelBuilder 我的模型是简单的 POCO 类没有注释 public cla
无法使用“Regex::replace()”来替换编号的捕获组

我正在将复数器移植到 Rust 但在使用正则表达式时遇到了一些困难我无法获取Regex replace 正如我所期望的那样替换编号捕获组的方法例如以下显示空字符串 let re Regex new m l ouse unwrap p
从文件开头删除字节数

我想复制一个没有前 256 个字节的文件有没有一个好的方法可以用 python 来做到这一点我猜想简单的方法是用计数器读取字节然后仅在达到 256 时才开始复制我希望有更优雅的方式 Thanks with open input rb
如何在复杂数据的情况下分离行

说实话这个问题本来就不是我的这个问题 https stackoverflow com q 67871768 2884859促使我把它放在一个简化的案例中因此我必须根据分隔符将输入到单元格列中的数据分隔成单独的行即在目前的情况下

如何在复杂数据的情况下分离行

如何在复杂数据的情况下分离行 的相关文章

随机推荐

热门标签

如何在复杂数据的情况下分离行的相关文章