在 R 中合并保留数据集的所有行

2023-11-26

我有两个数据框

不同的论文年份数据：

author_id      distinct_paper_year_count
     1                         3
     2                         1
     4                         1
     5                         4

作者数据：

author_id    paper_id  confirmed
   1         25733         1
   2         47276         1
   3         79468         1
   4         12856         0

现在我想合并，以便所需的输出如下所示：

author_id  paper_id     confirmed    distinct_paper_year_count
 1            25733          1               3
 2            47276          1               1 
 3            79468          1               0  
 4            12856          0               4

在这我需要author_ids 存在于表中author_data成为最终的输出。由于没有数据author_id==3在distinct_paper_year_count中，值distinct_paper_year_count最终结果中的列应为零（对于author_id==3).

通过使用合并我得到

   merge(distinct_paper_year_data,author_data,by="author_id") 

author_id    distinct_paper_year_count paper_id confirmed
     1                         3       25733         1
     2                         1       47276         1
     4                         1       12856         0

如何才能达到预期的输出？

您需要一个外部联接：

merge(distinct_paper_year_data,author_data,by="author_id", all=T)

注意：你会得到NA对于表不匹配的行，例如 {3,5} 中的author_id。也就是说，如果需要，您可以简单地修改 NA。您还可以使用all.x or all.y进行左外连接或右外连接。

最后检查一下data.table更快的连接（和更多功能）

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

MERGE

在 R 中合并保留数据集的所有行的相关文章

R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时
neo4j cypher更新现有节点或创建新节点

我有一个包含大约 900 万个节点和 1200 万个关系的图对于图中的每个节点每个节点都有一个属性子集这些属性通过标签形成节点的唯一标识该图正在通过各种数据源进行更新这些数据源会增加图中的现有节点或者在节点不存在时创建新节点我
时间戳半小时窗口内字段的平均值

我的数据框有列名Timestamp es看起来像 Timestamp es 2015 04 01 09 07 42 31 2015 04 01 09 08 01 29 5 2015 04 01 09 15 03 18 5 2015 04 0
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
从命令行运行 R 代码 (Windows)

我在名为 analysis r 的文件中有一些 R 代码我希望能够从命令行 CMD 运行该文件中的代码而无需通过 R 终端并且我还希望能够传递参数并在我的代码中使用这些参数例如就像下面的伪代码 C gt execute r scri
R独特的列或行与NA无可比拟

有谁知道如果incomparables的论证unique or duplicated 曾经被实施过incomparables FALSE 也许我不明白它应该如何工作无论如何我正在寻找一个巧妙的解决方案以仅保留与另一列相同的唯一列或行
以引用透明的方式从函数的省略号参数中提取符号

事情又发生了我正要按下发布答案按钮的问题被删除了我正在寻找一种方法来从函数的省略号参数中提取绑定到符号的对象的值以及符号也就是说我试图以引用透明的方式从省略号中提取符号我尝试过使用替代品和lazy dots 但没有成功 funct
R 中的列乘以子字符串

假设我有一个数据框其中包含多个组件及其在多个列中列出的属性并且我想对这些列运行多个函数我的方法是尝试将其基于每个列标题中的子字符串但我无法弄清楚如何做到这一点下面是数据框的示例 Basket F Type 1 F Qty 1 F
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
git Blame：合并后正确的作者

GIT 合并引入了新的提交这会导致 git Blame 问题合并的行似乎是由进行合并的开发人员提交的我可以理解这种情况冲突的变化因为他解决了冲突但是有没有办法让非冲突线路不发生这种情况呢一些 git Blame 的选择如果没有
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
如何使用 SparkR 1.6.0 写入 JDBC 源？

使用 SparkR 1 6 0 我可以使用以下代码从 JDBC 源读取数据 jdbc url lt jdbc mysql localhost 3306 dashboard user
R“错误：“}”中出现意外的“}”[重复]

这个问题在这里已经有答案了我有一个字符串变量对于缺少数据的情况它具有空值我想将空值重新编码为缺失而不是说空值我正在尝试编写一个循环来删除这些空值条目但我不断收到错误错误中出现意外的 for row in dat
SPSS 中的标准化残差与 R rstandard(lm()) 不匹配

在寻找 R 相关解决方案时我发现 R 和 SPSS 版本 24 在计算简单线性模型中的标准化残差方面存在一些不一致看来SPSS所谓的标准化残差匹配 R学生化残差我完全不认为某处存在软件错误但显然这两个程序之间存在差异看看这个例子
R：使用 tidyverse 将 NA 替换为 df 中的其他变量

我想使用 tidyverse 替换 df 中的 NA 值我想要的值应该从其他列中计算出来 input ID X1 X2 X3 A 0 96 NA 0 97 B 1 00 NA 1 01 C 0 98 0 03 NA A 1 00 NA 1
如何绘制具有显着性水平的箱线图？

前段时间问了一个关于绘制箱线图的问题Link1 https stackoverflow com questions 14604439 plot multiple boxplot in one graph 我有一些包含 3 个不同组或标签
如何使用 tidymodels 和工作流集在同一数据集上拟合多个不同的线性模型

我想评估同一数据集上多个主要是线性回归模型的性能我想也许使用tidymodels包连同workflowsets workflow set 可能会起作用我按照这个例子here https workflowsets tidymodels

随机推荐

预期的 EventLogQuery 时间格式？

我正在尝试使用 EventLogQuery 类来查询事件日志我按照上所示的示例进行操作http msdn microsoft com en us library bb671200 28v vs 90 29 aspx Y0 我在 Googl
从 Web Api 控制器返回 http 状态代码

我正在尝试返回未针对 Web api 控制器中的 GET 方法进行修改的状态代码 304 我成功的唯一方法是这样的 public class TryController ApiController public User GetUser i
C++ 奇怪的构造函数行为

谁能向我解释一下两者之间的区别复合体a and 复数 b include
将 IAM 角色与 PHP SDK 结合使用时出现问题

我正在使用此脚本来填充 DynamoDB https docs aws amazon com amazondynamodb latest developerguide LoadDataPHP html 我使用 AWS 开发工具包时收到此错误
C# P/Invoke结构问题

我正在尝试为 C API 本机 Win dll 编写 C P Invoke 包装器通常工作正常唯一的例外是 C 代码中采用结构体作为参数的特定方法该函数被调用时没有任何异常但它返回 false 表明执行过程中出现了失败 API头文件
在 Angular 指令中嵌入将元素放入单个“范围”内

这是我的指令 myapp directive envtable function return restrict E replace true transclude true template table class table table
NodeJS HTTP - 侦听 80 以外的其他端口

我在 Windows 上运行 XAMPP 以在端口 80 上托管 Apache 服务器现在我尝试在后台运行 NodeJS 脚本但问题是它只能侦听端口 80 如果确实如此一切都会正常运行应该但我不能同时运行 Apache 因为 Apa
Ada 中的派生类型和子类型

有什么区别首先术语它是 Ada 不是 ADA 它是以 Ada Lovelace 命名的它不是一个缩写词子类型与其基类型兼容因此您可以将基类型的操作数与基类型的操作数混合例如 subtype Week Days is Integ
如何使用 facebook API 获取公共墙帖子

我正在尝试从 Facebook 个人资料中获取墙贴我对粉丝页面没有任何问题并且我的用户令牌有效至少对于粉丝页面这篇文章的例子 https www facebook com aurelia filion posts 101513423
如何以编程方式更改初始选项卡栏选择

更改应用程序上的初始选项卡栏选择时出现问题即在应用程序启动时选择中间选项卡而不是最左边的选项卡该应用程序使用故事板并且后来在开发过程中通过故事板方法添加了选项卡栏控制器 tabBarController selectedIndex 1
QtSQL + Sqlite 并支持 .size() 函数？

我想知道 QtSql Sqlite 是否支持 QSqlQuery size 函数不事实并非如此但是您可以同时使用 last 和 at 来获取结果 QSqlQuery q q exec select from table q last
Python 请求多部分 HTTP POST

我想知道如何使用 Python 请求翻译这样的内容在 urllib2 中您可以手动操作通过网络发送到 API 服务的数据但 Requests 声称分段文件上传很容易但是当尝试使用 Requests 库发送相同的请求时我认为它没有
ImportError：没有名为“matplotlib”的模块——使用 Anaconda tensorflow 环境

我只是想学习 Tensorflow 但对 Python 完全陌生所以我使用 Anaconda 我创建了一个conda环境 conda create n tensorflow python 3 5 当然我激活了我的 conda 环境 sou
Visual Studio 2012 - C#：从资源中读取“.txt”文件

我正在尝试从 Visual Studio 中的资源访问并读取文本文件 achInfo txt 该网站上已经列出了一些解决方法但似乎没有一个对我有用他们只是给了我两个错误之一我稍后会解释这是到目前为止的整个方法 private str
当所有协程都已用 CouroutineExceptionHandler 包装时，如何找出“作业被取消”异常的来源？

我读了所有kotlinx 用户界面文档并实现一个 ScopedActivity 就像那里描述的那样参见下面的代码在我的 ScopedActivity 实现中我还添加了一个 CouroutineExceptionHandler 尽管我将
在没有模型的情况下使用 CarrierWave 将文件上传到 S3，可以吗？

CarrierWave 拥有令人惊叹的文档直到您需要在没有模型的情况下完成它我已经设置了上传器和雾设置并且在模型上使用安装的上传器时它们都工作正常但现在我想在没有模型的情况下执行此操作我有这个 uploader CsvUpload
在 Python 3.5 中，如何指定函数作为类型提示？

指定变量应该是函数相当于委托 Func
为什么 Erlang 的浮点数中不允许使用“Infinity”？

Erlang 以及扩展 Elixir 支持浮点数一些可能的浮动 1 2345 1 0e10 1 0e 42 Erlang 支持 NaN nan 在 Erlang 中但是我还没有发现一种输出的方法nan本身然而 Erlang 不支持In
为什么我可以创建类的实例而不将其存储到变量中并且仍然可以正常工作？

我有一个名为的非静态类ImplementHeaderButtons其中包含一个名为的非静态公共方法Implement 类和方法的名称并不重要重要的是它们不是静态的因此需要实例化才能使用对吧所以我曾经这样做过 var implemen
在 R 中合并保留数据集的所有行

我有两个数据框不同的论文年份数据 author id distinct paper year count 1 3 2 1 4 1 5 4 作者数据 author id paper id confirmed 1 25733 1 2 4727

在 R 中合并保留数据集的所有行

在 R 中合并保留数据集的所有行 的相关文章

随机推荐

热门标签

在 R 中合并保留数据集的所有行的相关文章