R - 缓慢地工作 lapply 对有序因子进行排序

2024-01-04

根据问题创建语料库和 DTM 的更有效方法 https://stackoverflow.com/questions/25330753/more-efficient-means-of-creating-a-corpus-and-dtm/25333858我已经准备了自己的方法，用于从大型语料库构建术语文档矩阵，（我希望）不需要术语 x 文档内存。

sparseTDM <- function(vc){
  id = unlist(lapply(vc, function(x){x$meta$id}))
  content = unlist(lapply(vc, function(x){x$content}))
  out = strsplit(content, "\\s", perl = T)
  names(out) = id
  lev.terms = sort(unique(unlist(out)))
  lev.docs = id

  v1 = lapply(
    out,
    function(x, lev) {
      sort(as.integer(factor(x, levels = lev, ordered = TRUE)))
    },
    lev = lev.terms
  )

  v2 = lapply(
    seq_along(v1),
    function(i, x, n){
      rep(i,length(x[[i]]))
    },
    x = v1,
    n = names(v1)
  )

  stm = data.frame(i = unlist(v1), j = unlist(v2)) %>%
    group_by(i, j) %>%
    tally() %>%
    ungroup()

  tmp = simple_triplet_matrix(
    i = stm$i,
    j = stm$j,
    v = stm$n,
    nrow = length(lev.terms),
    ncol = length(lev.docs),
    dimnames = list(Terms = lev.terms, Docs = lev.docs)
  )

  as.TermDocumentMatrix(tmp, weighting = weightTf)
}

它在计算时减慢v1。它运行了30分钟，我把它停了下来。

我准备了一个小例子：

b = paste0("string", 1:200000)
a = sample(b,80)
microbenchmark(
  lapply(
    list(a=a),
    function(x, lev) {
      sort(as.integer(factor(x, levels = lev, ordered = TRUE)))
    },
    lev = b
  )
)

结果是：

Unit: milliseconds
expr      min       lq      mean   median       uq      max neval
...  25.80961 28.79981  31.59974 30.79836 33.02461 98.02512   100

Id 和 content 有 126522 个元素，Lev.terms 有 155591 个元素，所以看来我已经过早停止处理了。由于最终我将处理约 6M 的文档，我需要问...有什么方法可以加快这段代码的速度吗？

现在我已经加快了更换速度

sort(as.integer(factor(x, levels = lev, ordered = TRUE)))

with

ind = which(lev %in% x)
cnt = as.integer(factor(x, levels = lev[ind], ordered = TRUE))
sort(ind[cnt])

现在时间安排是：

expr      min       lq     mean   median       uq      max neval
...  5.248479 6.202161 6.892609 6.501382 7.313061 10.17205   100

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R - 缓慢地工作 lapply 对有序因子进行排序的相关文章

重复测量引导统计数据，按多个因素分组

我有一个看起来像这样的数据框但显然还有更多行等 df lt data frame id c 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 cond c A A B B A A B B A A B B A A B B co
R中的一元加/减是什么？

来自 R 的详细信息部分Syntax http stat ethz ch R manual R patched library base html Syntax html帮助页面定义了以下一元和二元运算符他们被列出在优先级组中从最高
R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
如何计算R中移动窗口内的平均斜率

我的数据集包含2个变量y 和 t 05s y 每 05 秒测量一次我正在尝试计算移动中的平均坡度20秒窗口即计算第一个 20 秒斜率值后窗口向前移动一个时间单位 05 秒并计算下一个 20 秒窗口在以下位置生成连续 20 秒斜率值
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
通过间接引用列来修改数据框中的某些值

我正在整理一些数据我们将失败的数据分类到垃圾箱中并按批次计算每个分类箱的有限产量我有一个描述排序箱的元表这些行按升序测试顺序排列一些排序标签带有非语法名称 sort tbl lt tibble tribble weight lab
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
twitterR 和 ROAuth R 软件包安装

我在安装 CRAN 上的 twitteR 和 RAOuth 软件包时遇到一些问题我尝试了几种不同的方法在 Windows 下使用源代码在 Ubuntu 下使用 RStudio 我尝试了以下命令 sudo apt get install
将每列的值乘以 R 中另一个 data.frame 中的权重

我有两个data frames df and weights 代码如下 df看起来像这样 id a b d EE f 1 this 0 23421153 0 02324956 0 5457353 0 73068586 0 5642554 2
朴素贝叶斯分类器仅基于先验概率做出决策

我试图根据推文的情绪将推文分为三类买入持有卖出我正在使用 R 和包 e1071 我有两个数据框一个训练集和一组需要预测情绪的新推文训练集数据框 text sentiment this stock is a good buy Bu
文本挖掘 pdf 文件/词频问题

我正在尝试挖掘一篇具有丰富 pdf 编码和图表的文章的 pdf 我注意到当我挖掘一些 pdf 文档时我得到的高频词是 phi taeoe toe sigma gamma 等它与某些 pdf 文档配合良好但与其他文档配合使用时却得到这
如何在 R 中匹配多个 ggplot2 图中的调色板？

自从被问到这个问题以来已经有一段时间了但我知道一个事实我很快就会提取新数据我想弄清楚如何用这种技术来绘制它看起来评论和答案中的人知道如何做到这一点但我无法完全弄清楚所给我的内容还有人想尝试一下吗我正在尝试使用具有多个级别的因子
所有 x 轴标签未以 45 度显示

I m having the code as like below But I m not getting all the x axis labels and it is not displaying in 45 degree when I
将不均匀的层次列表转换为数据框

我认为还没有有人问过这个问题但是有没有一种方法可以将具有多个级别和不均匀结构的列表的信息组合成长格式的数据帧具体来说 library XML library plyr xml inning lt http gd2 mlb com c
删除极坐标图边缘的多余空间和圆环

我有一个极坐标图ggplot2我已经非常接近完成相当简单的情节我已经能够在删除矩形边框方面获得帮助但我不需要删除最后一个范围轮廓与带有方位角标签的绘图周围的环之间的额外空间我希望该图的边界为 15 000 而不是 15 214 我编
如何在将两根柱子保持在一起的同时熔化柱子？

我有这种宽格式的数据我想将其转换为长格式 Cond Construct Line Plant Tube shoot weight shoot Tube root weight root 1 Standard NA NA 2 199 95
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
麦当劳 omega：R 中的警告

我正在计算几种不同尺度的欧米茄并在 R 中使用不同的 omega 函数获取不同比例的不同警告消息我的问题是如何解释这些警告以及报告检索到的 omega 统计数据是否安全当我使用从 alpha 到 omega 内部一致性估计普遍问题的
在 Shiny 中的用户会话之间共享反应数据集

我有一个相当大的反应数据集该数据集是通过轮询文件然后按预定义的时间间隔读取该文件而派生的数据更新频繁需要不断重新加载诚然重新加载可以增量完成并附加到 R 中的现有对象但事实并非如此然而目前尽管会话中的数据相同但此操作是针对
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

使用 pyinstaller 制作的 exe 文件被 Windows Defender 报告为病毒威胁

我正在尝试使用 pyinstaller 为学校项目创建一个 exe 但是 Windows Defender 似乎报告病毒威胁并阻止该文件我想将此 exe 发送给其他人但除非我修复此问题否则我无法做到这一点所以这些是我的疑问为什么e
用PHP替换JAVA进行PKCS5加密

我的任务是用运行 PHP 的系统替换旧的 Java 系统我在用 PHP 代码替换 java 加密方面遇到了一些困难 cipherAlgorythm PBEWithMD5AndDES cipherTransformation PBEWith
R 错误“加载命名空间‘timetk’时未找到对象‘required_pkgs’”

我在 macOS 11 1 上使用 R 4 0 3 和 RStudio 1 2 5033 我已经使用成功安装了该软件包install packages timetk 当尝试加载包时library timetk 我收到以下错误错误 time
禁用有关程序尝试发送电子邮件的警告

我使用 Outlook 2010 和 Access VBA 发送电子邮件我收到来自 Microsoft Outlook 的关于某个程序试图发送电子邮件的警告我被迫按下允许我有 VBA 参考中的 Microsoft Outlook 对象
while 循环会在一段时间后停止执行吗？ [复制]

这个问题在这里已经有答案了所以我目前正在尝试多线程因为我对 Java 还很陌生现在我有多个线程它们都影响同一个长变量然而似乎在除了检查 if 语句之外不做任何事情之后 while 循环就停止执行如它无限循环如果我只是在
WCF 中 IIS 下的一个虚拟目录中是否可以有多个 .svc 文件？

WCF 中 IIS 下的一个虚拟目录中是否可以有多个 svc 文件如果是这样怎么办您需要有两份服务合同并且web config部分您需要注册这两项服务
非id字段的环回关系

我想指定 2 个 mssql 表之间的关系付款类别和付款 paymentcategory id 连接到 payout category 列在 payout json 模型中我指定为foreignKey id relations pay
跟踪像素是否需要具有 alt 属性才能实现可访问性（WCAG 2.0）？

我们正在运行一个网站并拥有第三方跟踪像素但我们正在接收alt在我们的网站上进行 webaim WCAG 2 0 扫描时出现属性错误我不确定在这种情况下跟踪像素是否确实需要仍然有空白alt属性或者某些屏幕阅读器仍然会读取src alt 在
最长公共子序列实现-python

我已经按照本中的说明实现了最长公共子序列问题video https www youtube com watch v xnWqLAI3TKs 它只执行第一组代码并生成一个空列表这个实现有什么问题吗 def lcs recursive xli
为什么在 C++20 中删除了许多标准库类型的运算符！=？

根据参考参数 https en cppreference com w cpp types type info operator cmp std type info operator 然而 C 20 已将其删除 std type info o
Bash：带有变量的彩色输出

我有以下功能 function pause for prompted pause until ENTER prompt 3 echo e n E 36m 3 color output text cyan echo e n E 0m ends
如何解决pytorch RuntimeError: Numpy is not available without Upgrade numpy to the最新版本，因为其他依赖项

我正在使用 Pytorch 在 Python 3 9 2 64 位上的 Raspberry Pi 4 上运行一个简单的 CNN 进行一些音频分类对于所需的音频操作我使用 librosa librosa 依赖于 numba 包该包仅与
停止 Flask 中的后台进程而不创建僵尸进程

当有人访问特定视图时我需要使用子进程启动长时间运行的后台进程 My code from flask import Flask import subprocess app Flask name app route def index sub
随机排列 .NET 文件中的行

考虑我有一个文件 new txt 例如 asdfg qwerty zcx poi 现在我需要shuffle该文本文件的行我怎样才能在 C 中做到这一点 var lines File ReadAllLines test txt var rn
如何在Python上高效创建交互式有向网络图（带箭头）？

为了构建有向网络图 Plotly 目前的做法似乎是使用注释当边缘很少并且可以通过图形布局手动填充每一条边缘时此方法有效例如这个例子 https community plot ly t arrows between markers j
MVCGrid/MVCForm 更新 MVCFord 后更新 MVCGrid 行

似乎是一个简单的问题但我找不到解决方案我有一个 MVCGrid 使用链接到 MVCForm 的 Expander 列我可以通过表单轻松应用更新但更新后我需要刷新 MVCGrid 在本例中我在 MVCgrid 中显示 PhysCit
PDO::rowCount VS COUNT(*)

我有一个使用 PDO 的查询首先计算行数如果行 gt 1 则获取数据 SELECT WHERE id id row SQL gt rowCount if row gt 0 while data SQL gt fetch PDO FETC
DX TreeList - 如何更改某些节点的颜色

我有 DX treeList 它有一些功能如复制粘贴删除等如何在 C 代码中将某些节点颜色更改为其他颜色你可以看一下here http 64 237 51 130 Help document XtraTreeList 单个细胞的外
“托管共享内存”应该分配多少内存？（促进）

我正在寻找一个明确的答案如果确实存在关于通过创建静态共享内存块时应该分配多少内存boost interprocess s managed shared memory Even 官方例子 http www systomath com in
R - 缓慢地工作 lapply 对有序因子进行排序

根据问题创建语料库和 DTM 的更有效方法 https stackoverflow com questions 25330753 more efficient means of creating a corpus and dtm 25333

R - 缓慢地工作 lapply 对有序因子进行排序

R - 缓慢地工作 lapply 对有序因子进行排序 的相关文章

随机推荐

热门标签

R - 缓慢地工作 lapply 对有序因子进行排序的相关文章