purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致

2024-01-14

我使用 ks.test() 将两个向量（data_A_score、data_B_score）与另一个向量 K1 进行比较，我得到这个结果：

score_ref_k1 <- c(0.09651, 0.09543, 0.09122, 0.09458, 0.09382, 0.10158, 0.10339, 
  0.13594, 0.09458, 0.09296)
data_A_score_src <- c(0.09293, 0.09838, 0.09866, 0.10866, 0.09726, 0.10731, 
  0.09866, 0.09398, 0.10007, 0.10408)
data_B_score_src <- c(0.04741, 0.0621, 0.09606, 0.08851, 0.05063, 0.39775, 0.05509, 
  0.10784, 0.0468, 0.04782)
ks.test(data_A_score_src, score_ref_k1, exact = FALSE, alternative = "g")
#> Warning in ks.test(data_A_score_src, score_ref_k1, exact = FALSE,
#> alternative = "g"): p-value will be approximate in the presence of ties
#> 
#>  Two-sample Kolmogorov-Smirnov test
#> 
#> data:  data_A_score_src and score_ref_k1
#> D^+ = 0.1, p-value = 0.9048
#> alternative hypothesis: the CDF of x lies above that of y

ks.test(data_B_score_src, score_ref_k1, exact = FALSE, alternative = "g")
#> Warning in ks.test(data_B_score_src, score_ref_k1, exact = FALSE,
#> alternative = "g"): p-value will be approximate in the presence of ties
#> 
#>  Two-sample Kolmogorov-Smirnov test
#> 
#> data:  data_B_score_src and score_ref_k1
#> D^+ = 0.7, p-value = 0.007447
#> alternative hypothesis: the CDF of x lies above that of y

然后我尝试用同样的方法咕噜::地图 http://purrr.tidyverse.org/reference/map.html。首先这是数据：

library(tidyverse)

all_comb <- structure(list(src = structure(1:2, .Label = c("data_B", "data_A"), 
  class = "factor"), ref = structure(c(1L, 1L), .Label = "K1", class = "factor"), 
  data = list(structure(list(score_ref = c(0.09651, 0.09543, 0.09122, 0.09458, 
    0.09382, 0.10158, 0.10339, 0.13594, 0.09458, 0.09296), score_src = c(0.04741, 
    0.0621, 0.09606, 0.08851, 0.05063, 0.39775, 0.05509, 0.10784, 0.0468, 
    0.04782)), row.names = c(NA, -10L), class = c("tbl_df", "tbl", "data.frame"), 
    .Names = c("score_ref", "score_src")), structure(list(score_ref = c(0.09651, 
    0.09543, 0.09122, 0.09458, 0.09382, 0.10158, 0.10339, 0.13594, 0.09458, 
    0.09296), score_src = c(0.09293, 0.09838, 0.09866, 0.10866, 0.09726, 
    0.10731, 0.09866, 0.09398, 0.10007, 0.10408)), row.names = c(NA, -10L), 
    class = c("tbl_df", "tbl", "data.frame"), .Names = c("score_ref", "score_src")))), 
  class = c("tbl_df", "tbl", "data.frame"), row.names = c(NA, -2L), .Names = c("src", 
    "ref", "data"))

# just showing the content
all_comb %>% unnest(data)
#> # A tibble: 20 × 4
#>       src    ref score_ref score_src
#>    <fctr> <fctr>     <dbl>     <dbl>
#> 1  data_B     K1   0.09651   0.04741
#> 2  data_B     K1   0.09543   0.06210
#> 3  data_B     K1   0.09122   0.09606
#> 4  data_B     K1   0.09458   0.08851
#> 5  data_B     K1   0.09382   0.05063
#> 6  data_B     K1   0.10158   0.39775
#> 7  data_B     K1   0.10339   0.05509
#> 8  data_B     K1   0.13594   0.10784
#> 9  data_B     K1   0.09458   0.04680
#> 10 data_B     K1   0.09296   0.04782
#> 11 data_A     K1   0.09651   0.09293
#> 12 data_A     K1   0.09543   0.09838
#> 13 data_A     K1   0.09122   0.09866
#> 14 data_A     K1   0.09458   0.10866
#> 15 data_A     K1   0.09382   0.09726
#> 16 data_A     K1   0.10158   0.10731
#> 17 data_A     K1   0.10339   0.09866
#> 18 data_A     K1   0.13594   0.09398
#> 19 data_A     K1   0.09458   0.10007
#> 20 data_A     K1   0.09296   0.10408

然后我用这个计算相同的测试：

all_comb %>%
      mutate(vt = purrr::map(data,  ~ks.test(.$score_ref, .$score_src, exact=FALSE, alternative="g")),
      tidied = purrr::map(vt, broom::tidy)) %>%
      tidyr::unnest(tidied) %>%
      select(src, ref, p.value)

这使：

# A tibble: 2 × 3
     src    ref   p.value
  <fctr> <fctr>     <dbl>
1 data_B     K1 0.9048374
2 data_A     K1 0.0820850

请注意与最上面结果的差异：

#> data:  data_A_score_src and score_ref_k1
#> D^+ = 0.1, p-value = 0.9048
#> data:  data_B_score_src and score_ref_k1
#> D^+ = 0.7, p-value = 0.007447

为什么？如何修复我的 purrr、dplyr 方法？

如果您在 ks.test 中切换分数和测试，您会得到相同的值：

all_comb %>%
      mutate(vt = purrr::map(data,  ~ks.test(.$score_src,.$score_ref,  exact=FALSE, alternative="g")),
      tidied = purrr::map(vt, broom::tidy)) %>%
      tidyr::unnest(tidied) %>%
      select(src, ref, p.value) 
# A tibble: 2 <U+00D7> 3
      src    ref     p.value
   <fctr> <fctr>       <dbl>
1 bcdidsp     K1 0.007446583
2 bcdipsp     K1 0.904837418

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dplyr

tidyr

purrr

purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致的相关文章

在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
如何使用 usmap 标记数字而不是名称？

我知道 usmap 有一个选项label in plot usmap 我想标记一些数字而不是状态名称我想 usmap 中应该有与州质心坐标相关的数据但我不知道如何找到它如果我能得到坐标然后我可以用它来标记数字geom text 这
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
ggplot2：如何标记事件发生的日期

我想从第二个情节中获取第一个情节的信息第二张图表示事件发生的天数它看起来更宽因为它没有图例但它是相同的时间尺度我选择在第一个图中手动分配颜色 I would like to overlay the second plot dots
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
applyStrategy 错误

我是R新手最近运行后遇到以下错误applyStrategy函数来自quantstrat包裹 Error in eval expr envir enclos object signal not found Error in colnames
条件字体颜色 R Markdown

我无法找到一种方法来根据变量的值 gt 0 0 或 r setup include FALSE x lt 4 This is an R Markdown document r if x gt 0 textcolor red Markdown
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
在 ifelse() 语句内部和外部运行一行时的不同输出

我正在尝试运行一个简单的命令但不知道为什么在内部和外部运行它时输出不同ifelse 功能函数条件评估为FALSE 所以输出应该完全相同但是单独运行时输出为0 0 1 1 0 1 0 1 NA 根据需要但是从ifelse 函数输
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对

随机推荐

使用 awk 根据两个字段删除文件中的冗余

我试图根据前两列的值删除一个非常大的文件约 100 000 条记录中的重复行而不考虑它们的顺序然后打印这些字段其他列所以根据这个输入 A B XX XX A C XX XX B A XX XX B D XX XX B E XX
如何使用pymc参数化概率图模型？

如何使用 pymc 参数化概率图形模型假设我有一个带有两个节点的 PGMX and Y 可以说X gt Y是图表 And X有两个值 0 1 and Y也有两个值 0 1 我想使用 pymc 来学习分布的参数并填充用于运行推理的图形模型
如何将CAS认证与Spring Security集成？

我已将 spring security 集成到我的项目中并且之前使用 hibernate 验证用户详细信息现在我必须使用 CAS 来完成它这是我当前的 Spring security xml
Django 将 ImageField 指向已经存在的图像

我有一个具有图像字段的模型 class Foo models Model image models ImageField upload to bar blank True 我正在使用 urllib 通过互联网下载图像如下所示 urllib
如何告诉 VScode 将文件类型 A 格式化为文件类型 B，同时保留语法突出显示？

我遇到了这个问题在 VScode 中格式化 vue 文件时如何保留空行 https stackoverflow com questions 60930318 how to preserve empty lines when formatt
如何在 Visual Studio Code 中禁用语法着色

我想完全禁用语法着色我尝试禁用参数提示但这没有任何效果是否可以让编辑器只有前景色背景色而没有其他颜色你可以加 files associations plaintext to settings json
正则表达式可以在 regex101.com 上运行，但不能在 python 中运行

我正在尝试创建一个函数该函数获取文件夹名称数组和数字该函数应返回哪个季节文件夹并且我想检查是否存在具有正确季节编号的文件夹 Staffel 德语季节但是我不只是拥有简单的英语电视节目因此我的文件夹名为 Staffel 德国电视节目
在 STL 中将 char 缓冲区附加到 vector

附加 C 缓冲区内容的正确且有效方法是什么 char 到最后std vector
如何存储我的“子网站”的根目录[关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我需要将我的网络应用程序添加到现
Vue：无法在输入 vue-router 之前访问 Pinia Store

我正在使用 Vue 3 包括 Composition API 另外还使用 Pinia 作为状态管理在选项 API 中有一个方法 beforeRouteEnter 该方法内置于组件本身中不幸的是这个方法在组合 API 中不存在这里
在进行数据库规范化时，什么是将重复的行信息集组合成新的实体？

我对数据库规范化的某个部分有点困惑我想我应该问 StackOverflow 想象一下您有以下将产品与颜色联系起来的关系请注意产品 1 和产品 2 都使用同一组颜色蓝色和绿色 Product Color Color Product
本地化序数

对于 rank 0 rank 是否存在 gettext 函数将 suffix 本地化为当前语言并返回例如 Your rank 0th Your rank 1st Your rank 2nd Your rank 3rd Your rank
在 Gradle 中加载材料 - 无法下载“android-P”

我对 Android Studio 真的很陌生我想添加Material依赖于我的项目但同时sync我的 gradle 文件收到一条错误消息这个线程 link https stackoverflow com questions 5034
为什么webpack的输出路径需要是绝对路径？

每当你设置 Webpack 时你都必须指定一个绝对路径作为输出当您的条目文件完全可以获取相对路径时为什么这是必要的 const config entry src index js output path path resolve di
解析食谱的自然语言成分数量[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在构建一个红宝石配方管理应用程序作为其中的一部分我希望能够将成分数量解析为可以比较和缩放的形式我想知道执行此操作的最佳工具是
如何快速确定给定邮政编码的州？

我不需要城市或地址只需要州如果可能的话我不想进行 API 调用优先考虑的是轻量级解决方案最好只是 Javascript 我有一个用户输入zipcode 我想根据邮政编码所在的州显示一段文本我知道查找城市要复杂得多and国家为此
如何将命令的输出分配给 Makefile 变量

我需要有条件地执行一些 make 规则只有当安装的 Python 大于某个版本比如 2 5 时我想我可以做一些类似执行的事情 python c import sys print int sys version info gt 2 5
通过 CSS3 或 JS 或 jquery 帮助实现过渡效果

我想要移动到另一张图片时更改这张图片的背景图像在我的图像文件夹中像这样example http osc4 template help com wt 32608 index html 这是我的代码 CSS image position re
为什么我无法将一个 SKScene 添加到另一个 SKScene 中？

我试图让这个 SKScene 出现在游戏结束时场景的中间这样前一个场景在背景中仍然可见类似于 flappybird 的结局这是我希望它出现的图像到目前为止这是我所做的代码在游戏场景中 void dieFrom SKNode ki
purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致

我使用 ks test 将两个向量 data A score data B score 与另一个向量 K1 进行比较我得到这个结果 score ref k1 lt c 0 09651 0 09543 0 09122 0 09458 0 0

purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致

purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致 的相关文章

随机推荐

热门标签

purrr::map 和 dplyr 的组合给出的结果与简单的统计测试不一致的相关文章