将标记列表转换为 n 元语法

2023-12-07

我有一个已经标记化的文档列表：

dat <- list(c("texaco", "canada", "lowered", "contract", "price", "pay", 
"crude", "oil", "canadian", "cts", "barrel", "effective", "decrease", 
"brings", "companys", "posted", "price", "benchmark", "grade", 
"edmonton", "swann", "hills", "light", "sweet", "canadian", "dlrs", 
"bbl", "texaco", "canada", "changed", "crude", "oil", "postings", 
"feb", "reuter"), c("argentine", "crude", "oil", "production", 
"pct", "january", "mln", "barrels", "mln", "barrels", "january", 
"yacimientos", "petroliferos", "fiscales", "january", "natural", 
"gas", "output", "totalled", "billion", "cubic", "metrers", "pct", 
"billion", "cubic", "metres", "produced", "january", "yacimientos", 
"petroliferos", "fiscales", "added", "reuter"))

我正在尝试有效地将这个标记列表转换为 n 元语法列表。这是我到目前为止编写的函数：

find_ngrams <- function(x, n){

  if (n==1){ return(x)}

  out <- as.list(rep(NA, length(x)))

  for (i in 1:length(x)){
    words <- x[[i]]
    out[[i]] <- words

    for (j in 2:n){

      phrases <- sapply(1:j, function(k){
        words[k:(length(words)-n+k)]
      })

      phrases <- apply(phrases, 1, paste, collapse=" ")

      out[[i]]  <- c(out[[i]], phrases)

    }
  }
  return(out)
}

这对于查找 n 元语法来说效果很好，但似乎效率很低。将 for 循环替换为*apply函数仍然会让我陷入 3 层深度的循环：

result <- find_ngrams(dat, 2)
> result[[2]]
 [1] "argentine"                "crude"                    "oil"                     
 [4] "production"               "pct"                      "january"                 
 [7] "mln"                      "barrels"                  "mln"                     
[10] "barrels"                  "january"                  "yacimientos"             
[13] "petroliferos"             "fiscales"                 "january"                 
[16] "natural"                  "gas"                      "output"                  
[19] "totalled"                 "billion"                  "cubic"                   
[22] "metrers"                  "pct"                      "billion"                 
[25] "cubic"                    "metres"                   "produced"                
[28] "january"                  "yacimientos"              "petroliferos"            
[31] "fiscales"                 "added"                    "reuter"                  
[34] "argentine crude"          "crude oil"                "oil production"          
[37] "production pct"           "pct january"              "january mln"             
[40] "mln barrels"              "barrels mln"              "mln barrels"             
[43] "barrels january"          "january yacimientos"      "yacimientos petroliferos"
[46] "petroliferos fiscales"    "fiscales january"         "january natural"         
[49] "natural gas"              "gas output"               "output totalled"         
[52] "totalled billion"         "billion cubic"            "cubic metrers"           
[55] "metrers pct"              "pct billion"              "billion cubic"           
[58] "cubic metres"             "metres produced"          "produced january"        
[61] "january yacimientos"      "yacimientos petroliferos" "petroliferos fiscales"   
[64] "fiscales added"           "added reuter"

该代码中是否有任何可以矢量化的重要部分？

/edit：这是 Matthew Plourde 函数的更新版本，它执行“up-to-n-grams”并且适用于整个列表：

find_ngrams_base <- function(x, n) {
  if (n == 1) return(x)
  out <- lapply(1:n, function(n_i) embed(x, n_i))
  out <- sapply(out, function(y) apply(y, 1, function(row) paste(rev(row), collapse=' ')))
  unlist(out)
}

find_ngrams_plourde <- function(x, ...){
  lapply(x, find_ngrams_base, ...)
}

我们可以对我编写的函数进行基准测试，发现它有点慢：

library(rbenchmark)
benchmark(
  replications=100,
  a <- find_ngrams(dat, 2),
  b <- find_ngrams(dat, 3),
  c <- find_ngrams(dat, 4),
  d <- find_ngrams(dat, 10),
  w <- find_ngrams_plourde(dat, 2),
  x <- find_ngrams_plourde(dat, 3),
  y <- find_ngrams_plourde(dat, 4),
  z <- find_ngrams_plourde(dat, 10),
  columns=c('test', 'elapsed', 'relative'),
  order='relative'
)
                               test elapsed relative
1          a <- find_ngrams(dat, 2)   0.040    1.000
2          b <- find_ngrams(dat, 3)   0.081    2.025
3          c <- find_ngrams(dat, 4)   0.117    2.925
5  w <- find_ngrams_plourde(dat, 2)   0.144    3.600
6  x <- find_ngrams_plourde(dat, 3)   0.212    5.300
7  y <- find_ngrams_plourde(dat, 4)   0.277    6.925
4         d <- find_ngrams(dat, 10)   0.361    9.025
8 z <- find_ngrams_plourde(dat, 10)   0.669   16.725

然而，它也发现了我的函数遗漏的很多 ngram（哎呀）：

for (i in 1:length(dat)){
  print(setdiff(w[[i]], a[[i]]))
  print(setdiff(x[[i]], b[[i]]))
  print(setdiff(y[[i]], c[[i]]))
  print(setdiff(z[[i]], d[[i]]))
}

我觉得这两个函数都可以改进，但我想不出任何方法来避免三重循环（循环遍历向量，循环遍历所需的 ngram 数量，1-n，循环遍历单词以构造 ngram）

/编辑2：这是根据马特的回答修改后的函数：

find_ngrams_2 <- function(x, n){
  if (n == 1) return(x)
  lapply(x, function(y) c(y, unlist(lapply(2:n, function(n_i) do.call(paste, unname(rev(data.frame(embed(y, n_i), stringsAsFactors=FALSE))))))))
}

它似乎返回了正确的 ngram 列表，并且（在大多数情况下）比我原来的函数更快：

library(rbenchmark)
benchmark(
  replications=100,
  a <- find_ngrams(dat, 2),
  b <- find_ngrams(dat, 3),
  c <- find_ngrams(dat, 4),
  d <- find_ngrams(dat, 10),
  w <- find_ngrams_2(dat, 2),
  x <- find_ngrams_2(dat, 3),
  y <- find_ngrams_2(dat, 4),
  z <- find_ngrams_2(dat, 10),
  columns=c('test', 'elapsed', 'relative'),
  order='relative'
)

                         test elapsed relative
5  w <- find_ngrams_2(dat, 2)   0.039    1.000
1    a <- find_ngrams(dat, 2)   0.041    1.051
6  x <- find_ngrams_2(dat, 3)   0.078    2.000
2    b <- find_ngrams(dat, 3)   0.081    2.077
7  y <- find_ngrams_2(dat, 4)   0.119    3.051
3    c <- find_ngrams(dat, 4)   0.123    3.154
4   d <- find_ngrams(dat, 10)   0.399   10.231
8 z <- find_ngrams_2(dat, 10)   0.436   11.179

这是一种方法embed.

find_ngrams <- function(x, n) {
    if (n == 1) return(x)
    c(x, apply(embed(x, n), 1, function(row) paste(rev(row), collapse=' ')))
}

您的功能似乎存在错误。如果你解决了这个问题，我们就可以做一个基准测试。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

vectorization

NGram

将标记列表转换为 n 元语法的相关文章

查找嵌套列表中元素的索引？

我有一个类似的列表 mylist lt list a 1 b list A 1 B 2 c list C 1 D 3 是否有一种无循环方法来识别元素的位置例如如果我想用 5 替换 C 的值并且在哪里找到元素 C 并不重要我可以这样
在 Shiny 中设置一个绘图缩放以匹配另一个绘图缩放

我正在尝试使用情节重排获取一个图的 x 轴缩放限制并将它们应用到 Shiny 中的另一个图到目前为止我可以从 plot1 x轴限制获取相关的plotly relayout数据将其转换从数字到日期并在绘制 plot2 之前将其提
有没有办法在 RStudio 中调试 RScript 调用？

假设我从命令行运行 R 脚本如下所示 Rscript prog R x y z 我想检查某一行的代码目前我无法在 RStudio 中以交互方式调试它因为我不知道如何传递参数由于它设计为从命令行运行因此如何通过命令行 RStudi
在 R 中进行 Cox 回归后，将预测危险比列添加到数据帧中

在 R 中运行 Cox PH 回归后我需要在数据框中添加预测风险比的列数据框是面板数据其中 numgvkey 如果公司标识符和年龄是时间标识符您可以从此链接下载一小部分日期 https drive google com file
可以明确声明包依赖项的版本吗？

我倾向于对我编写的代码进行明确而不是隐含的描述因此在成功创建自己的包之后我立即想到的下一件事是如何最好地确保代码的健壮性和可靠性其中一部分与我的包所依赖的包有关实际问题在这方面是否可以明确声明需要期望哪个版本的包依赖项我正
指定 R 中 hist() 中的 bin 数量？

我尝试指定垃圾箱的数量hist R为10 如下 gt hist x breaks 10 但垃圾箱的数量并不完全是 10 我尝试了几个其他数量的垃圾箱结果发生了同样的情况 hist says breaks可以指定给出直方图单元格数量的单个
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di
如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测？

我试图使用 R 中的插入符包使用 10 倍交叉验证和 3 次重复来运行 SVM 模型我想使用最佳调整的超参数获得每次折叠的预测结果我正在使用以下代码 Load packages library mlbench library caret
分离并重新附加“tools:rstudio”

又名玩火以下不起作用 rstd obj lt as environment tools rstudio detach tools rstudio attach rstd obj name tools rstudio 好吧它似乎有效但随
使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
在函数内部调用 clusterApply 时，性能会下降

我遇到了一个奇怪的问题clusterApply 我已经能够尽可能地隔离它如下所示首先我从全局环境运行以下代码 require parallel cl lt makeCluster rep localhost 20 SOCK xl lt
将列表中的列转换为 R 中的数据框

我有使用 R 创建的以下列表 set seed 326581 X1 rnorm 10 0 1 Y1 rnorm 10 0 2 data data frame X1 Y1 lst lt replicate 100 df smpl lt dat
如何获得属于五分位数的x？

我正在大学学习使用 R 进行计量经济学项目所以请原谅我的笨拙基本上使用并给出一个矩阵股票价格行天列公司股票价格另一个矩阵市值行天列公司市值我必须收集第三个矩阵每天观察的属于市值分布第一五分位数的股票价格然后
R 更改小数位且不四舍五入

gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
逻辑回归/二项式的 glmnet 误差

当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
glmnet 未从 cv.glmnet 收敛 lambda.min

我跑了20倍cv glmnet套索模型以获得 lambda 的最佳值但是当我尝试重现结果时glmnet 我收到一个错误内容如下 Warning messages 1 from glmnet Fortran code error c
R：表格格式

我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
使用outer代替expand.grid

我正在寻找尽可能快的速度并留在基地做该做的事expand grid做我用过outer为过去类似的目的创建一个向量像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
R 中的 Websocket

我设法在 R 中建立到 Mtgox websocket 的连接规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr
单击 R 中的 Sankey Chart 线时添加额外的标签值

以下 R 闪亮脚本创建一个桑基图如下面的快照所示我的要求是当我单击左右节点之间的任何链接即 a1 和 a2 时我希望相应的 a3 的总和出现在标签中例如 a1 中的 A 和 a2 中的 E 总共具有值 50 和 32 因此我想

随机推荐

使用 .htaccess 文件扩展名删除程序代码时，网站表单不携带任何值

我在 HTACCESS 文件中有这段代码它工作正常因为它删除了 php 文件扩展名它还允许加载没有扩展名的页面 For security reasons Option followsymlinks cannot be overridd
在x86（32位）Linux上启动x86_64代码，在x86_64 CPU上运行

是否可以在 i686 Linux x86 32 位上启动 x86 64 代码我的 CPU 是现代 Core 2 它本身可以运行 x86 64 64 位代码但操作系统是 32 位启动的代码是纯数学的几乎不需要与操作系统交互我想测量
理解 C 中的 Char 数组相等

提前为我的无知表示歉意我不完全理解如何比较 C 中的 char 数组我最初是用简单的方法比较 c 中的两个 char 数组操作员所以在 C 函数中我会做这样的事情 char a test char b test if a b do
log4j2 JsonTemplateLayout 无法与 Maven 阴影插件一起使用

我正在尝试使用 log4j2 JsonTemplateLayout 以 LogstashJsonEventLayoutV1 json 作为模板生成 Json 格式的日志当我使用 intellij 运行代码时一切都按预期工作但是使用 j
如何在Python中查找两个日期之间不包括周末和某些假期的小时数？营业时间套餐

我正在尝试找到一种非常干净的方法来计算数量hours两个日期之间不包括weekends and 某些假期我发现 BusinessHours 包 https pypi python org pypi BusinessHours 1 01 可
Android：NTLM 身份验证、ksoap 和持久连接

在使用 iOS 并在没有太多学习曲线的情况下处理身份验证挑战之后我发现 Windows 身份验证在 Java Android 中的过程要复杂得多我尝试了多种不同的方法因此无需过多讨论这些方法我将采用最有效的方法我现在使用为 NTL
模板函数中的“C4430：缺少类型说明符 - 假定为 int”

这段代码这么简单难道不能编译通过吗我真的对这个迷失了 include
如何在一个 .NET 解决方案中跨项目进行通信？

我有一个 NET Core UWP 解决方案应用程序它有 3 个不同的项目我们称它们为 A B 和 C A 和 B 是 Windows 运行时组件 C 是一个简单的类库项目 A 和 B 引用了项目 C 我想访问项目 C 的一个类其
我的函数的输入数量不确定

我最近遇到一个问题我应该定义一个输入数量不确定的函数即输入数量可能会根据实际情况而变化我应该使用二维数组还是其他数组我不知道 struct2cell 是否有帮助以及它是否真的有效有谁知道执行此操作的最佳方法吗我可能说得不太清楚
通过捏合手势缩放图像

我正在使用 jQuerytouchy用于检测捏合事件的插件使用户能够放大缩小图像这是我的代码的要点 var w 800 h 600 img on touchy pinch function e target data this css
使用EF中的通用方法检查数据库中是否存在记录[重复]

这个问题在这里已经有答案了我正在开发一个 Asp Net MVC 应用程序并尝试创建一个通用方法来通过使用传递给此方法的实体 ID 来检查数据库中是否存在特定记录像下面这样 public bool CheckIfUserExistsB
angularjs 和 requirejs 中“Q”和“q”的区别

我正在创建一个基于 AngularJS Breeze 和 RequireJS 构建的单页应用程序在使用 requirejs 设置 AMD 以与 Angular 和 Breeze 配合使用时我遇到了 Breeze 对 q 的依赖问题如果
在 Windows 7 上安装 Visual Studio 2013

我想在 Windows 7 64 位上安装 Visual Studio 2013 由于某种原因安装程序显示安装被阻止并显示错误此版本的 Visual Studio 需要一台装有较新版本 Windows 的计算机此错误并不能准确描述
按字母和数字拆分字符串

有人能帮我一些正则表达式吗我想将以下字符串拆分为字母和数字例子细绳ns01sp0001分割后应该是 ns01sp and 0001 我尝试使用下面的正则表达式 String array str split A Z0 9 lt A Z
ArrayFormula 连接中的过滤器（Google 电子表格）

我进行了长时间的搜索但找不到我要找的东西也许有人可以帮忙我的 Google 电子表格中有这个公式我将在下面解释它的作用 Join FILTER Sheet1 B B Sheet1 A A A1 表 1 中有一个表格 A 列是名字例
使用 Apache poi 将 ppt 转换为 png

您好我正在尝试使用 Apache Poi 框架将 ppt 的每张幻灯片转换为单独的 png 问题是有些幻灯片变形了例如有一张幻灯片的背景是彩虹色某些幻灯片上的图像根本不会出现在 png 文件中这是代码 FileInputStrea
SQL Server 2014 Express (VBA) 的连接字符串

我正在尝试通过 VBA 找出 SQL Server 连接字符串中需要包含哪些内容这是我现在的代码 Sub ConnectSqlServer Dim conn As ADODB Connection Dim rs As ADODB Reco
在 PDF 文件中使用 JavaScript 代码的文档 [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案我在哪里可以找到文档在 PDF 中运行 JavaScript 代码我从未在 PDF 文档中添加过 JavaScript 操作不过我已经使用 J
在 MATLAB 中对矩阵进行排序时如何维护行？

我有一个 2 3 矩阵我想根据第一列对其进行排序这是一个例子 data will change to gt new data 11 33 10 22 22 44 11 33 10 22 22 44 我有这个用于对矩阵进行排序的代码A但效
将标记列表转换为 n 元语法

我有一个已经标记化的文档列表 dat lt list c texaco canada lowered contract price pay crude oil canadian cts barrel effective decrease b

将标记列表转换为 n 元语法

将标记列表转换为 n 元语法 的相关文章

随机推荐

热门标签

将标记列表转换为 n 元语法的相关文章