不知道为什么 dcast() 这个数据集会导致变量丢失

2023-12-20

我有一个数据框，如下所示：

   id fromuserid touserid from_country to_country length
1   1   54525953 47195889           US         US      2
2   2   54525953 54361607           US         US      1
3   3   54525953 53571081           US         US      2
4   4   41943048 55379244           US         US      1
5   5   47185938 53140304           US         PR      1
6   6   47185938 54121387           US         US      1
7   7   54525974 50928645           GB         GB      1
8   8   54525974 53495302           GB         GB      1
9   9   51380247 45214216           SG         SG      2
10 10   51380247 43972484           SG         US      2

每行描述从一个用户发送到另一用户的消息数量（长度）。

我想做的是创建每个国家/地区之间发送的消息的可视化（通过 D3 中的和弦图）。

有近200个国家。我使用 dcast 函数如下：

countries <- dcast(chats,from_country ~ to_country,drop=FALSE,fill=0)

以前，当我有较小的数据集和较少的变量时，这对我来说是有效的，但是这个数据集超过 3M 行，并且可以说不容易调试。

无论如何，我现在得到的是一个不是正方形的矩阵，我不明白为什么不是。我期望得到的本质上是一个矩阵，其中(i,j)th单元格代表发送的消息country i to country j。我最终得到的结果与此非常接近，但明显缺少一些行和列，这很容易发现，因为 US->US 消息显示移动了一行或一列。

这是我的问题。我所做的事情有明显错误吗？如果不是，我应该在数据集中寻找一些“奇怪的”东西来解决这个问题吗？

确保您的“from_country”和“to_country”变量是因子，并且它们具有相同的级别。使用您共享的示例数据：

chats$from_country <- factor(chats$from_country, 
                             levels = unique(c(chats$from_country, 
                                               chats$to_country)))
chats$to_country <- factor(chats$to_country, 
                           levels = levels(chats$from_country))
dcast(chats,from_country ~ to_country, drop = FALSE, fill = 0)
# Using length as value column: use value.var to override.
# Aggregation function missing: defaulting to length
#   from_country US GB SG PR
# 1           US  5  0  0  1
# 2           GB  0  2  0  0
# 3           SG  1  0  1  0
# 4           PR  0  0  0  0

如果您的“from_country”和“to_country”变量已经是因子，但级别不同，则第一步可以执行以下操作：

chats$from_country <- factor(chats$from_country, 
                             levels = unique(c(levels(chats$from_country), 
                                               levels(chats$to_country)))

为什么这是必要的？如果他们are已经因素，那么c(chats$from_country, chats$to_country)会将因子强制为数字，并且由于它与因子的任何字符值都不匹配，因此会导致<NA>.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

不知道为什么 dcast() 这个数据集会导致变量丢失的相关文章

Rsolnp：在 cbind(temp, funv) 中：结果的行数不是向量长度的倍数（arg 1）

我是 stackoverflow 的新手搜索了很多但找不到我的问题的答案我正在尝试使用优化包 Rsolnp 来最小化以下问题尽管求解器为我提供了解决方案但每次运行代码时我都会收到以下警告消息警告消息 1 在 cbind temp
R 脚本自动化时的不同结果

以下命令对 pdf 文件执行 Ghostscript 这pdf file变量包含该 pdf 的路径 bbox lt system paste C gs gs8 64 bin gswin32c exe sDEVICE bbox dNOPAUS
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
如何在R中删除重复项

我有一个非常大的数据集如下所示 df lt data frame school c a a a b b c c c year c 3 3 1 4 2 4 3 1 GPA c 4 4 4 3 3 3 2 2 school year GPA
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
如何删除箱线图上的刻度线

我试图从箱线图中删除 x 轴刻度线但保留与刻度线关联的标签这在基础 R 中可能吗 colors lt c lightskyblue3 gray78 gold1 wheat1 boxplot avgscore module data mi
在 R 中向散点图添加线条

如何向图表添加线条我做了以下 dat lt data frame xvar 1 20 rnorm 20 sd 10 yvar 1 20 rnorm 20 sd 10 zvar 1 20 rnorm 20 sd 10 plot dat 1
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
为什么 dplyr filter() 不能在函数内工作（即使用变量作为列名）？

使用 dplyr 函数对数据进行过滤分组和变异的函数基本管道序列在函数之外工作得很好这就是我使用真实列名称的地方将其放入一个函数中其中列名称是一个变量并且某些函数可以工作但有些函数则不能尤其是 dplyr filter 例如
Purrr::map_df() 删除 NULL 行

使用时purrr map df 我偶尔会传递一个数据框列表其中一些项目是NULL 当我做 map df 返回行数少于原始列表的数据框我想发生的事情是这样的map df calls dplyr bind rows 它忽略了NULL价值观
在 R 中使用 lapply 绘制多个数据帧

我正在尝试使用 lapply 函数绘制多个数据帧每个数据帧一个图但是尽管有关此主题的所有帖子我都找不到答案因为我不断收到错误图的输出列表为空我的数据结构如下 df1 lt mtcars gt group by cyl gt tal
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不

随机推荐

Java 在 cmd 中运行，但不能在 PowerShell 中运行

我刚刚将 java 文件夹添加到我的环境变量中例如当我尝试执行时 javac HelloWorld java and java HelloWorld从 Windows 命令行 cmd 中它可以正常执行但如果我打开 Windows P
使用 Ruby on Rails 3 显示“file_field”的“size”属性时出现问题

我正在使用 Ruby on Rails 3 并且有一个如下所示的表单当我查看页面源代码时这是生成的 HTML 代码
如何指定随机数的范围？

我有随机插入数字的二叉搜索树代码我每次都可以修改大小但是我想修改数字的范围例如我希望随机数只是一位数或只是2位我怎样才能做到这一点 public static void main String args BinarySearchT
Solaris 不支持 Filebeat。如何收集日志？

我们的服务器托管在 Solaris 操作系统中但我们无法安装 Filebeat 将日志转发到所需端口因为 Solaris 不支持 Filebeat 这里有人可以建议任何方法来解决这个问题请注意我们被告知不要在服务器托管计算机上安装
关于 CIContext、OpenGL 和 Metal (SWIFT) 的混淆。 CIContext默认使用CPU还是GPU？

因此我正在制作一个应用程序其中一些主要功能围绕将 CIFilters 应用于图像进行 let context CIContext let context CIContext eaglContext EAGLContext api ope
以编程方式重新启动 IIS7 (C#)

是否可以使用C 重新启动IIS7 如果是这样怎么办 System Diagnostics Process Start C windows system32 iisreset exe 应该可以解决问题 Dan
使用 Tensorflow 构建 Kivy Android 应用

最近我想在移动设备 Android iOS 上部署深度学习模型 Tensorflow 我发现 Kivy Python 是编写跨平台应用程序的不错选择我对Java Android不熟悉但我不知道在构建 apk 文件时如何集成 Tenso
Firebird：使用全局变量

我想为 firebird 中的 sql 代码中使用的变量分配一个值 MySQL 代码为 SET x 1 SELECT x 对应的 Firebird 代码是什么感谢帮助要在 Firebird 中定义用户定义的特定于会话的变量您可以使用r
webpack-dev-server 不会在 html 或 sass 更改时重新加载

我的项目有这样的结构 root webpack config js public index html css directives views dist webpack output app js index html app js ma
如何修改 GitHub 上的拉取请求以更改要合并到的目标分支？

我有一个请求请求从我的分支合并到 master 但所有者希望我更改请求以合并到与我的分支不同的分支这可能吗可能的解决方案有哪些 2016 年 8 月更新更改拉取请求的基础分支 https github com blog 2224 ch
确定用户是否在线的最简单方法是什么？ (PHP/MYSQL)

有没有办法可以通过会话来了解用户是否在线即使用日志我设置一个 SESSION 变量用户超时 cookie 垃圾收集器更新数据库以将其状态更新为离线 EDIT 我想要一个不涉及时间或日期的解决方案我想要一些可以在会议上骑行的东西或类
致命错误 C1083：无法打开包含文件：'iostream'：没有这样的文件或目录

我已重新安装 Visual Studio 2010 Professional 多次以尝试使其正常工作我不得不卸载 Visual Studio 2012 Professional 因为它无法编译我们在课堂上所做的事情我完全卸载了包括 SQ
xmlns、xmlns:xsi、xsi:schemaLocation 和 targetNamespace？

对于以下 XML 片段
实体框架和存储过程

我注意到在实体框架设计器中您可以映射插入更新和删除操作的存储过程有没有什么方法可以对 Select 操作执行此操作或者数据库访问代码是否有一个新的方向我们不再为基本的选择操作编写存储过程我工作的公司非常坚持始终对每个数据库操作使
Python 中的双大于号

我在查看一些Python源代码时发现了这个 print gt gt sys stderr doc gt gt 是什么意思我以前从未见过这样的语法请参阅打印 V 形说明Python 2 7 文档 https docs python
客户端Flash(SWF)应该如何与服务器端.NET通信？

所以我在IIS7的服务器上运行ASP NET 我想我将使用 MVC 来处理一些静态页面和基本动态表单但大多数客户端都是用 Flash ActionScript 编写的在客户端和服务器之间构建生成代理的最简单最简洁最DRY的方法是什
如何在不写入文件的情况下将 DataVisualization.Charting.Chart 的图像获取到 iTextSharp.text.Image？

我正在编写一个用于测量数据可视化的软件为此我使用 System Windows Forms DataVisualization Charting Chart 并且我确实知道我可以通过 ChartObj SaveImage 获取显示的图像
python dict.add_by_value(dict_2)?

问题 gt gt gt a dict a 1 b 2 gt gt gt b dict b 3 c 2 gt gt gt c c a 1 b 5 c 2 因此这个想法是通过 int float 值以最短的形式添加到字典中这是我设计的一种解
SQL Server 如何决定隐式日期时间转换的格式？

declare str datetime varchar 50 set str datetime 30 04 2012 19 01 45 30th April 2012 declare dt datetime datetime select
不知道为什么 dcast() 这个数据集会导致变量丢失

我有一个数据框如下所示 id fromuserid touserid from country to country length 1 1 54525953 47195889 US US 2 2 2 54525953 54361607 U

不知道为什么 dcast() 这个数据集会导致变量丢失

不知道为什么 dcast() 这个数据集会导致变量丢失 的相关文章

随机推荐

热门标签

不知道为什么 dcast() 这个数据集会导致变量丢失的相关文章