根据“列”列表的内容对数据框进行子集化

2023-12-10

Set-Up

我有一个列表矩阵，其中“列”之一是一个列表（我意识到这是一个奇怪的数据集，但我发现它对于其他操作很有用）。列表中的每个条目是： (1) 空 (integer(0))，(2) 整数，或 (3) 整数向量。

例如。 R 对象“d.f”，其中 d.f$ID 为索引向量，d.f$Basket_List 为列表。

ID <- c(1,2,3,4,5,6,7,8,9)
Basket_List <- list(integer(0),c(123,987),c(123,123),456,
                    c(456,123),456,c(123,987),c(987,123),987)
d.f <- data.frame(ID)
d.f$Basket_List <- Basket_List

我的问题

Issue 1

我想根据“Basket_List”是否包含某些值来创建一个新数据集，它是初始数据集的子集。例如。 d.f 中所有行的子集，使得 Bask_list 具有“123”或“123”和“987”——或其他更复杂的条件。

我尝试了以下各种变体，但没有成功。

d.f2 <- subset(d.f, 123 %in% Basket_List)
d.f2 <- subset(d.f, 123 == any(Basket_List))
d.f2 <- d.f[which(123 %in% d.f$Basket_List,]
# should return the subset, with rows 2,3,5,7 & 8

Issue 2

我的另一个问题是，我将在数百万行（它是事务数据）上运行此操作，因此我想尽可能地优化它以提高速度（我现在有一个复杂的 for 循环，但它花费太多时间）。

数据的替代设置

如果您认为它可能有用，数据也可以设置如下：

ID <- c(1,2,2,3,3,4,5,5,6,7,7,8,8,9)
Basket <- c(NA,123,987,123,123,456,456,123,456,123,987,987,123,987)
alt.d.f <- data.frame(ID,Basket)

您可以使用sapply为了这：

ID <- c(1,2,3,4,5,6,7,8,9)
Basket_List <- list(integer(0),c(123,987),c(123,123),456,
                    c(456,123),456,c(123,987),c(987,123),987)
d.f <- data.frame(ID)

sel <- sapply( Basket_List, function(bl,searchItem) {
  any(searchItem %in% bl)
}, searchItem=c(123) )

> sel
[1] FALSE  TRUE  TRUE FALSE  TRUE FALSE  TRUE  TRUE FALSE

> d.f[sel,,drop=FALSE]
  ID
2  2
3  3
5  5
7  7
8  8

请注意您的术语。 data.frame 不是矩阵。这是一种列表。

从速度上来说，sapply不是最快的，但选择会非常快，因为它是矢量化的。如果你需要更快的速度，data.table time.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

list

object

DataFrame

subset

根据“列”列表的内容对数据框进行子集化的相关文章

循环列表的值[重复]

这个问题在这里已经有答案了我是编码新手正在尝试编写一个简单的代码该代码将采用一个列表例如 1 2 3 并循环元素 n 次所以如果n 1 我应该得到A 3 1 2 如果n 2 我应该得到A 2 3 1 我写的代码是 n 1 j 0
numpy.histogram 的 hist 维度，密度 = True

假设我有这个数组 A array 0 0019879 0 00172861 0 00527226 0 00639585 0 00242005 0 00717373 0 00371651 0 00164218 0 00034572 0 008
在 R 中创建一个运行计数变量？

我有一个足球比赛结果的数据集我希望通过创建一组类似于世界足球 Elo 公式的运行评级来学习 R 我遇到了麻烦在 Excel 中看似简单的事情在 R 中并不完全直观例如 4270 个观察中的前 15 个具有必要的变量 date t 1
计算每个唯一值出现的次数

假设我有 v rep c 1 2 2 2 25 现在我想计算每个唯一值出现的次数 unique v 返回唯一值是什么但不返回它们的数量 gt unique v 1 1 2 我想要一些能给我的东西 length v v 1 1 25 le
R foreach问题（某些进程返回NULL）

我遇到了问题foreach我正在 R 中使用的程序的一部分该程序用于运行不同参数的模拟然后将结果返回到单个列表然后用于生成报告当并非所有分配的模拟运行都在报告上实际可见时就会出现问题从各方面来看似乎只有分配的运行的一个子集实际
使用部分函数短路列表映射

因此我创建了一个名为 tryMap 的函数如下所示 tryMap with failure and success continuations let rec tryMapC R gt U list gt R gt T gt U opt
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
将数据框中的每个 x 个字符拆分为字符串

我知道这里有一些关于每隔一段时间分割一个字符串的答案nth字符例如this one https stackoverflow com questions 23208490 split each character in r and this
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
pyomo + 网状错误 6 句柄无效

我正在尝试运行pyomo优化我收到错误消息 Error 6 The handle is invalid 不知道如何解释它环顾四周似乎与特权有关但我不太明白在下面找到完整的错误跟踪以及重现它的玩具示例完整的错误跟踪 py run f
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
在 r 中的 group_by 之后建模后取消列表列的嵌套

我想对所有组进行线性回归group by 将模型系数保存在列表列中然后使用 unnest 扩展列表列这里我用的是mtcars以数据集为例注我想用do here becausebroom tidy 不适用于所有型号 mtcars gt
相当于 min() 的 rowMeans()

我在 R 邮件列表上多次看到这个问题但仍然找不到满意的答案假设我有一个矩阵m m lt matrix rnorm 10000000 ncol 10 我可以通过以下方式获得每行的平均值 system time rowMeans m use
在 Pandas DataFrame Python 中添加新列[重复]

这个问题在这里已经有答案了例如我在 Pandas 中有数据框 Col1 Col2 A 1 B 2 C 3 现在如果我想再添加一个名为 Col3 的列并且该值基于 Col2 式中如果Col2 gt 1 则Col3为0 否则为1 所以

随机推荐

如何在 javascript/es6 中导入两个同名的类？

我的文件中有这两个导入语句 import Data from component Data js import Data from actions Data js 这两个文件都包含一个名为Data 我如何指定哪个是哪个如何避免名字冲突想
3D 最小二乘平面

给定一组 3D 数据点计算 x y z 空间中的最小二乘平面的算法是什么换句话说如果我有一堆点例如 1 2 3 4 5 6 7 8 9 等那么如何计算最佳拟合平面 f x y ax by c 从一组 3D 点中获取 a b 和 c
VHDL：按钮去抖动（或不去抖动，视情况而定）

我已阅读其他帖子但似乎无法修复我的我是 VHDL 新手所以我确信这是一个简单的修复简而言之按钮没有防抖代码编译和比特流程序在测试台中按下按钮可以工作但输出 LED 不会改变在板上按下按钮会使随机 LED 亮起我猜是因
从Python中的连续列表中识别连续数字组

python中从n个连续列表中选取多个n个连续整数从每个列表中选取一个整数的最有效方法是什么这里 n 相当大比如说 100 的数量级 L1 5 3 2 7 1 L2 3 5 6 8 9 21 2 L3 5 3 6 7 3 9 我想从
`正则表达式{n，}？` == `正则表达式{n}`？

编辑注意在的最后 2 我发现你可以写 2 是不是和下面的完全一样 2 No 2 表示两次或以上 2 means exactly两次量词默认是贪婪的所以给定字符串foo你会得到foo如果你使用 2 but fo如果你使用 2 因为你
Android 从 Gmail 应用程序获取附加文件名

我必须从 Gmail 应用程序中检索内容的文件名我得到的内容 uri 类似于内容 gmail ls messages mymailid 40gmail com 4 attachments 0 1 BEST false 我看到一些应用程序
在 Catalyst 控制器中处理可选 url 参数的最佳方法是什么？

例如我知道怎么搭配www domain com foo 21 sub foo Path foo Args 1 my self c foo id do stuff with foo 但我怎样才能匹配www domain com foo 21
删除数组内部的项目，该数组是字典 Swift 2 中的值

我知道以前可能已经回答过这个问题但是当我搜索时我找不到任何东西所以我有一本看起来像这样的字典 var dict String String 我想要做的是删除数组内的某个索引字典的值假设我想从此代码中删除字符串 Chair dict
结构体声明中的冒号是什么意思，例如：1、:7、:16 或:32？

下面的C 代码是什么意思 unsigned char a 1 unsigned char b 7 我猜它创建了两个字符 a 和 b 它们都应该是一个字节长但我不知道 1 和 7 部分的作用 1 和 7 是限制值范围的位大小它们通常出现在
打印第二个命令行参数

我正在编写一段代码来打印程序的第二个参数我明白那个ebp 8保存参数数量 ebp 12保存程序名称的地址等等到目前为止我有 include asm io inc SECTION data err1 db Incorrect number
与在 Dom4J 中使用 DOM 相比，XPath 的效率如何？

例如考虑以下 xml
“以管理员身份运行”和使用 requireAdministrator 的清单有什么区别？

我编写了一个程序其清单包含 requireAdministrator 在启用了 UAC 的 Windows 7 系统上 Windows 会弹出一个对话框询问权限这是理所当然的效果很好如果用户通过右键单击程序并选择以管理员身份运行
使用 sapply 时如何使用函数的参数？

我有一个通过列绑定创建的数据集cbindX函数从gdata包裹这个函数允许我绑定具有不同行数的列所以 NA当特定列中没有值时会引入现在我想计算每列的标准差我尝试使用 sapply dataset sd 这将返回包含所有行的值和的列
如何将 PDTextbox 的文本设置为颜色？

我想要一个 PDTextbox 有红色文本我可以写出红色文本并且可以设置文本框的值但我不确定如何将文本框内容设置为红色 ie if field instanceof PDTextbox field setValue field get
罗马数字转字符串中的数字

我有这个字符串 string Hello IV WorldX 我想将所有罗马数字替换为整数我有以下函数将罗马数字转换为整数 function roman2number roman conv array array letter gt I
如何在node和mongodb中查找？

这是我的用户组数据 id oid 58f7537ec422895572e988a1 name aaa groupname group north group south mobilenumber 0509867865 userid 60
如何使用 Android 从 Firebase 数据库更新特定节点？ [复制]

这个问题在这里已经有答案了我有一个相对简单的 Firebase 数据库如下所示我怎样才能更新Room1节点如果我使用此代码它不会更新节点而是添加另一个节点并使用新名称 Room2 databaseReference Fireb
检查文件是否已经存在于webview缓存android中

在我的应用程序中我有一个带有 webview 的活动它加载不同的图像在加载webview之前我需要知道图像是否已经缓存在webview缓存中我找到了适用于 2 3 Android 设备及更低版本的工作解决方案 String uri
在 CentOS 6.0 上安装 PyQt 4.9 失败

我完全厌倦了这个问题我正在尝试在运行 CentOS 6 0 的服务器上安装 PyQt 4 9 当我安装它时我得到这样的 root myserver PyQt python3 configure py k Determining the
根据“列”列表的内容对数据框进行子集化

Set Up 我有一个列表矩阵其中列之一是一个列表我意识到这是一个奇怪的数据集但我发现它对于其他操作很有用列表中的每个条目是 1 空 integer 0 2 整数或 3 整数向量例如 R 对象 d f 其中 d f ID 为

热门标签