data.table 设置 key 时如何对字符串进行排序

2023-11-25

昨天我不得不花一些时间试图找到我的代码中的错误，我发现data.tablepackage 对字符串的排序方式与 base 略有不同。这是正常行为吗？最有效的方法是什么（其优点是data.table）重现使用碱基获得的结果order功能？这是一个可重现的玩具示例：

library(data.table)
options(stringsAsFactors = FALSE)

d <- data.frame(cn=c("USA","Ubuntu","Uzbekistan"))
d[order(d$cn),,drop=F]

#          cn
#2     Ubuntu
#1        USA
#3 Uzbekistan

dt <- data.table(d)
setkey(dt, cn)
dt

#           cn
#1:        USA
#2:     Ubuntu
#3: Uzbekistan

options(stringsAsFactors = default.stringsAsFactors())

操作系统 Windows 7

2014 年 3 月更新

关于这一点存在一些争论。从 v1.9.2 开始，我们暂时解决了setkey使用 C 语言环境进行排序；例如，无论用户的区域设置如何，所有大写字母都位于所有小写字母之前。这是 v1.8.8 中所做的更改，我们原本打算撤销该更改，但目前仍保留该更改。

考虑save()- 在您所在地区和同事中创建一个键控表load()- 在不同的语言环境中使用它。当它们加入该表时，如果它是区域设置排序顺序，则它可能不再正常工作。我们必须更仔细地考虑一下，如果setkey是允许再次进行语言环境排序，可能是通过将语言环境名称与“已排序”属性一起保存，所以data.table至少可以比较并检测当前区域设置是否与运行的区域设置不同setkey.

这也是出于速度原因，因为根据语言环境进行排序比 C 语言环境慢得多。尽管如此，我们可以尽可能高效地做到这一点，并且有选择地允许它是理想的。

因此，这现在是一个功能请求，非常欢迎进一步的评论。

FR#4842 setkey 使用会话的语言环境而不是 C 语言环境进行排序

不错的收获！致电给setkey依次调用setkeyv这就是所谓的fastorder对依次调用的列/条目进行“排序”chorder.

chorder依次调用C函数Ccountingcharacter.c。现在，我认为问题是由于“区域设置”造成的。

让我们看看我的 Mac 上的“区域设置”是什么。

Sys.getLocale()
# [1] "en_US.UTF-8/en_US.UTF-8/en_US.UTF-8/C/en_US.UTF-8/en_US.UTF-8"

现在让我们看看如何order对其进行排序：

x <- c("USA", "Ubuntu", "Uzbekistan")
order(x)
# [1] 2 1 3

现在，让我们将“区域设置”更改为“C”。

Sys.setlocale("LC_ALL", "C")
# [1] "C/C/C/C/C/en_US.UTF-8"

order(x)
# [1] 1 2 3

From ?order:

字符向量的排序顺序将取决于所使用的语言环境的整理顺序：请参阅Comparison.

From ?Comparison:

字符向量中的字符串比较是使用所使用的语言环境的整理顺序在字符串中按字典顺序进行的：请参阅语言环境。 en_US 等语言环境的整理顺序通常与 C（应使用 ASCII）不同，并且可能会令人惊讶。请注意不要对排序顺序做出任何假设：例如在爱沙尼亚语中，Z 位于 S 和 T 之间，并且排序规则不一定是逐个字符的 - 在丹麦语中，aa 排序为单个字母，位于 z 之后......

所以，基本上，order以及在“C”语言环境下，给出的顺序与data.table's setkey。我的猜测是 C 函数调用chorder自动在 C 语言环境上运行，它将比较“S”在“b”之前的 ascii 值。

让 @MatthewDowle 注意到这一点可能很重要（如果他还没有意识到）。所以，我建议您将此作为错误归档here（只是要确定）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

dataTable

data.table 设置 key 时如何对字符串进行排序的相关文章

如何让 print() 将参数传递给 R 中用户定义的打印方法？

我在 R 中定义了一个 S3 类它需要自己的打印方法当我创建这些对象的列表并打印它时 R 按其应有的方式对列表中的每个元素使用我的打印方法我想对打印方法实际显示的数量进行一些控制因此我的类的 print 方法需要一些额外的参数但
par(mfrow=c(1,2)) 不显示并排密度图[重复]

这个问题在这里已经有答案了 par mfrow c 1 2 plot 1 12 log y plot 1 2 xaxs i 然而当我尝试做并排密度图时图会单独输出 load the stud recs dataset library U
R 根据事件更新值

我最近发布了这个问题该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关由于我在 Mysql 中没有找到问题的解决方案其他人似乎也没有找到解决方案所以我想再次发布它但现在与 R 相关我使用带有 RMysql 包的数据库
如何在R中计算文本中的句子数？

我使用 R 将文本读入readChar 功能我的目的是测试文本句子中字母 a 出现次数与字母 b 出现次数一样多的假设我最近发现了 stringr 包它帮助我对文本做很多有用的事情例如计算字符数以及整个文本中每个字母出现的总数现在
.wav 文件长度/持续时间，无需读入文件

有没有办法提取有关 wav 文件长度持续时间的信息而无需在 R 中读取文件我有数千个这样的文件如果我必须阅读每个文件才能找到其持续时间那将需要很长时间 Windows 文件资源管理器为您提供了打开长度字段的选项并且您可以查看
kableExtra 中的 row_spec() 函数不会在 html 输出中创建水平线

我想在 kableextra 表中的某一行下方添加一条水平线 row spec 函数的参数 hline after 应该在行下方添加水平线 row spec 文档 https www rdocumentation org packages
删除ggplot2中的负图区域[重复]

这个问题在这里已经有答案了如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域请参见下面的示例我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
在shiny中过滤传单地图数据

我在用传单地图设置这个闪亮的东西时遇到了麻烦我的原帖 https stackoverflow com questions 50111566 applying leaflet map bounds to filter data within
如何删除箱线图上的刻度线

我试图从箱线图中删除 x 轴刻度线但保留与刻度线关联的标签这在基础 R 中可能吗 colors lt c lightskyblue3 gray78 gold1 wheat1 boxplot avgscore module data mi
纵向序列数据的三次样条方法？

我有一个串行数据格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
选择 R 中的数据表中隐藏时（在绿色加号下方）列的显示顺序

Context 使用 DataTables 库制作交互式表格时当屏幕宽度对于列的数量和宽度来说太窄时列将隐藏在绿色号下我有一个非常宽的表格有 20 多列其中一些内容非常冗长因此某些列在所有屏幕宽度下总是隐藏的每次隐藏新列时
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
Dendextend：关于如何根据定义的组为树状图的标签着色

我正在尝试使用一个名为 dendextend 的很棒的 R 包来绘制树状图并根据一组先前定义的组为其分支和标签着色我已阅读您在 Stack Overflow 中的答案以及 dendextend vignette 的常见问题解答但我仍然不
在 R 中绘制 Likert 变量的堆积条形图

假设我有一个如下所示的数据框 P Q1 Q2 1 1 4 1 2 2 3 4 3 1 1 4 其中的列告诉我哪个人相应地回答了问题 q1 q2 中的哪一个这些问题需要按照 4 分李克特量表进行回答例如批准表示 1 稍微批准表示 2
API 请求和curl::curl_fetch_memory(url, handle = handle) 中的错误：SSL 证书问题：证书已过期

几天前我运行了代码几个月没有任何问题 GET url myurl query 今天我遇到一个错误 Error in curl curl fetch memory url handle handle SSL certificate pro
ggplot2 geom_密度和geom_histogram在一个图中

如何制作一个所有条形加起来为 1 的直方图并在适合的上方添加一个密度层 set seed 1234 df lt data frame sex factor rep c F M each 200 weight round c rnorm 2
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
使用 Shiny 发布平行坐标图表时出现“错误：路径[1]="”：没有这样的文件或目录”

我有一个似乎很常见但我还没有找到解决方案的问题当尝试使用 rCharts Parcoords 发布 Web 应用程序时出现以下错误错误路径 1 没有这样的文件或目录奇怪的是该应用程序在我的笔记本电脑上运行得很好下面是我正在使用
更改闪亮 R 中的默认浏览器

我在 RStudio 中使用 01 hello 虽然在 IE 中默认打开程序时它不会显示直方图但即使在 Chrome 中滑块也不起作用我无法滑动条形图并看到直方图中的变化如何更改 R 中的默认浏览器以便闪亮启动 Chrome 而不
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集

随机推荐

如何为 django javascript_catalog 视图提供包名称？

来自 django 文档 js info dict packages your app package urlpatterns 模式 r jsi18n django views i18n javascript catalog js info
REST 集合，好的做法：GET api/CollectionS//Collection?

我需要能够基于对象集合来获取集合为此我正在考虑几种方法但不确定哪一种最有意义所以我将两种方法都发布如果有我可能没有考虑过的更好的方法请随时发表您的建议例如我将使用产品和评论即产品评论作为资源客观的我们希望获得所有产品
无法将类型“string”隐式转换为“bool”[重复]

这个问题在这里已经有答案了可能的重复帮助转换类型无法将类型 string 隐式转换为 bool 我有这个代码 private double Price private bool Food private int count priva
Java ldap认证问题

我试图让我的自定义 java 应用程序使用我们的 Active Directory 服务器进行身份验证但由于某种原因我无法让它工作谁能明白这是为什么吗下面是我的方法 private boolean authenticate Strin
Activity 或 Fragment 哪种使用方式性能和可靠性更好？ [复制]

这个问题在这里已经有答案了我是 Android 新手我正在开发一个 Android 应用程序现在正在启动它是一种可保存的具有特定日期时间的用户输入信息并向用户回顾以前存储的数据并且还存储一些设置信息这可能看起来很简单但会花
像“typedef int (f)(void)”这样带括号的 typedef 是什么意思？它是函数原型吗？

typedef int fc name void Here fc name是任何有效的 C 符号这与函数指针有什么不同typedef It s a typedef到一个函数类型目的是将其用于函数指针但在本例中使用它的语法是 int b
尝试使用 NDK 构建适用于 Android 的 PocketSphinx 时出现问题

我正在尝试使用 PocketSphinxAndroidDemo 项目构建 Android 版 PocketSphinx 我已经放弃了使用 Cygwin 和 Windows 构建它的追求并安装了 Ubuntu VM 我正在取得进展但我似乎
针对不同环境进行 web.config 转换时出错

我试图将我的应用程序部署到不同的环境中然后我开始遵循以下方法使用 Visual Studio 或 Visual Web Developer 将 ASP NET Web 应用程序部署到托管提供商 Web Config 文件转换 3 of
使用 Bigquery（标准 SQL）获取每组分组结果的前 n 条记录

我见过这个问题这几乎正是我想要的但我无法使用标准 SQL 在 Bigquery 上运行它因为 BQ 不允许用户定义变量 Note 我有任意数量的组所以UNION按照链接问题中的第一个答案来处理所有这些是不可行的以下是最简单的示例
两个具有相同函数名的jquery插件之间的冲突

我正在一个大型网站工作该网站有两个相互冲突的 jquery 插件用于执行自动完成 1 jquery autocomplete js 不是jquery ui的一部分它的作用是 fn extend autocomplete function
从特定父级获取 WordPress 子类别

我正在构建一个小型缩略图库其中包含 ID 为 406 的类别中的帖子有些帖子属于多个类别我不确定如何获取 406 的子类别名称 post cat 0 gt name 返回一个类别但我只需要它来返回 406 的子级 thumbnail
捕获 Ruby 方法中的变量

在咖啡脚本中 f gt v 5 g gt v g f returns 5 as expected In Ruby def f v 5 def g v undefined local variable or method v for main
MySQL 基准测试

我正在尝试使用 MySQL 基准测试来测试一些查询但是我遇到了错误 SELECT benchmark 10000 select title from user 作为回报我得到这个错误 ERROR 1242 21000 Subquery
析构函数中是否需要删除？

我有以下代码我想知道是否如此delete b这里有必要吗我的操作系统会自动清除分配的内存区域吗 class A B b A b new B A delete b 非常感谢是的你必须delete使用创建的每个对象new 你拥有的在这
如何使用 Spring Boot 通过 Outlook 发送邮件？

我的 application properties 文件包含以下配置 spring mail properties mail smtp connecttimeout 5000 spring mail properties mail smtp
为对话框创建阴影

我想为我的自定义对话框创建阴影这可能吗 GhazalActivity public void viewShareMenu Dialog share new Dialog this R style shareDialogStyle shar
实体框架代码优先 IQueryable

我正在使用实体框架代码优先但遇到了一个小障碍我有一个类 Person 定义如下 public class Person public Guid Id get set public virtual ICollection
Android Facebook Api 异常 - Remote_app_id 与存储的 id 不匹配

我有一个问题如本文标题所示我无法登录 SessionState currentstate session getState 给我一个状态CLOSED LOGIN FAILED 我看了这个帖子 Android Facebook SDK 3
Windows 批量检查变量是否以特定字符串开头、结尾并包含特定字符串

我正在尝试检查批处理文件中的变量是否以包含BETA某处并结束于是否可以如果是的话有人可以帮我吗假设您的变量不包含任何换行符或回车符那么所需要的只是一个 FINDSTR 命令它具有有限的正则表达式支持足以解决这个问题 echo
data.table 设置 key 时如何对字符串进行排序

昨天我不得不花一些时间试图找到我的代码中的错误我发现data tablepackage 对字符串的排序方式与 base 略有不同这是正常行为吗最有效的方法是什么其优点是data table 重现使用碱基获得的结果order功能这是

data.table 设置 key 时如何对字符串进行排序

data.table 设置 key 时如何对字符串进行排序 的相关文章

随机推荐

热门标签

data.table 设置 key 时如何对字符串进行排序的相关文章