使用常用词按行合并两个数据框[重复]

2023-12-01

df1 <- data.frame(freetext = c("open until monday night", "one more time to insert your coin"), numid = c(291,312))
df2 <- data.frame(freetext = c("open until night", "one time to insert your be"), aid = c(3,5))

我将使用自由文本列作为选项来合并两个数据框。然而,文本与删除或显示的一些文字并不完全相同。

是否有任何选项可以找到行之间相同单词的最大数量并根据此合并它们?

这是预期输出的示例

df3 <- data.frame(freetext = c("open until night", "one time to insert your be"), aid = c(3,5), numid = c(291,312))

也许,你可以看看stringdist加入自fuzzyjoin和一起玩max_dist适合您的数据的参数。

fuzzyjoin::stringdist_inner_join(df1, df2, by = 'freetext', max_dist = 10)

#  freetext.x                        numid freetext.y                   aid
#  <chr>                             <dbl> <chr>                      <dbl>
#1 open until monday night             291 open until night               3
#2 one more time to insert your coin   312 one time to insert your be     5
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用常用词按行合并两个数据框[重复] 的相关文章

  • R - 在浏览器中获取帮助而不是内置的 R 帮助程序

    我见过 R help 的两种不同行为 当你输入 density例如 帮助已在您的默认浏览器中打开 帮助在内置 R 帮助程序中打开 R 中的窗口 我目前有第二种行为 但我想在浏览器中打开帮助 我可以轻松地在这两种行为之间切换吗 无需重新安装
  • 有没有办法在 RStudio 中调试 RScript 调用?

    假设我从命令行运行 R 脚本 如下所示 Rscript prog R x y z 我想检查某一行的代码 目前 我无法在 RStudio 中以交互方式调试它 因为我不知道如何传递参数 由于它设计为从命令行运行 因此如何通过命令行 RStudi
  • 如何生成向量的所有组合[重复]

    这个问题在这里已经有答案了 假设我有 3 个绿球 2 个橙球和 8 个黄球 我想订购它们 鉴于所有相同颜色的球都是相同的 如何生成所有可能的序列 在 R 中 使用gregmisc 我可以 balls lt c orange orange g
  • 如何使用 r 中的 caret 包在最佳调整超参数的 10 倍交叉验证中获得每次折叠的预测?

    我试图使用 R 中的插入符包使用 10 倍交叉验证和 3 次重复来运行 SVM 模型 我想使用最佳调整的超参数获得每次折叠的预测结果 我正在使用以下代码 Load packages library mlbench library caret
  • R从列表中提取数据框,列名中没有前缀

    我在列表中放置了一个数据框 然后 当尝试将其提取回来时 我得到了该数据帧的所有以列表键为前缀的列名称 有没有办法完全按照最初传递的方式提取数据帧 cols lt c column1 Column2 Column3 df1 lt data f
  • 在 mac (iMac OSX ) 终端中远程运行脚本(r 脚本)到其他计算机

    我有一个小示例脚本 script p r 如下所示 打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
  • 如何在不循环的情况下添加组ID?

    我有数据框 例如 productid ordernum p1 10 p2 20 p3 30 p4 5 p5 20 p6 8 我想添加另一列 称为 groupid 它将产品按顺序分组在一起 一旦 sum ordernum 达到 30 分配一个
  • R 中的发散积分可在 Wolfram 中求解

    我知道我以前问过同样的问题 但由于我是新来的 这个问题问得不好而且不可重现 因此我在这里尝试做得更好 如果我只编辑旧的 可能没有人会读它 我有一个想要积分的二重积分 ff lt function g t exp 16 g exp 8 t t
  • 将 VLMC 拟合到很长的序列

    我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集 我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
  • 在另一个 Rmd 中运行选定的块

    我已经在源 Rmd 文件中运行了分析 并且希望仅使用few来自源的块 我已经看到了一些关于从源 Rmd 中提取所有块的答案来自另一个 Rmd 中的 Rmd 文件的源代码 https stackoverflow com questions 4
  • 如何更改 Shiny 中 navbarPage 折叠的断点

    我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时 将导航元素折叠到菜单中 默认情况下 当浏览器宽度小于 940 像素时会触发折叠 有什么方法可以改变这一点 以便在稍大的浏
  • R 更改小数位且不四舍五入

    gt signif 1 89 digits 2 1 1 9 我想要1 8 这有点笨拙 但它会起作用并保持所有数字 x lt 1 829380 trunc dec lt function x n floor x 10 n 10 n Resul
  • 逻辑回归/二项式的 glmnet 误差

    当尝试将 glmnet 与 family binomial 配合以进行逻辑回归拟合时 出现此错误 gt data lt read csv DAFMM HE16 matrix csv header F gt x lt as data fram
  • 解析,用三点参数替换

    让我们考虑一个典型的deparse substitute R call f1 lt function u x y print deparse substitute x varU vu varX vx varY vy f1 u varU x
  • 比较 R 中的两个字符向量

    我有两个 ID 字符向量 我想比较这两个字符向量 特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中 有多少个ID在B但不在A 我还想画维恩图 以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
  • 使用 R 进行项目组织 [重复]

    这个问题在这里已经有答案了 可能的重复 统计分析和报告撰写的工作流程 https stackoverflow com questions 1429907 workflow for statistical analysis and repor
  • R 中的字符串作为函数参数

    数据框chocolates列出了糖果的类型以及每种糖果的一组评级 ID sweetness filling crash snickers 0 67 0 55 0 40 milky way 0 81 0 53 0 56 我正在编写一个函数 它
  • 使用outer代替expand.grid

    我正在寻找尽可能快的速度并留在基地做该做的事expand grid做 我用过outer为过去类似的目的创建一个向量 像这样的东西 v lt outer letters LETTERS paste0 unlist v lower tri v
  • 为什么 geom_boxplot 比基本箱线图识别更多异常值?

    这是一个可重复的示例 与基本箱线图相比 最后一个治疗组又发现了一个异常值 dta lt structure list Treatment c A A A A A A A A A A A A A A A A B B B B B B B B B
  • R 中的 Websocket

    我设法在 R 中建立到 Mtgox websocket 的连接 规格如下 url https socketio mtgox com mtgox Currency USD https socketio mtgox com mtgox Curr

随机推荐

  • 两个线程可以同时读取同一个QList吗?

    对于线程来说相当陌生 我有一个线程在它们之间共享的 QList 它们都有自己可以工作的空间 并且 GUI 模型 视图 不断访问该列表 然后我得到了指向 QDataList size 的崩溃 调试并没有真正帮助我 因为如果我单步执行代码 并且
  • 如何在 Spring MVC 中正确配置 Stomp 和 SockJS 端点?

    这是 可能是以下内容的重复 Websocket InvalidStateError 连接尚未建立 我正在实施通知系统 并希望在用户登录时初始化套接字连接 并向他显示他的通知 以及如果发生某些事件 我的代码片段如下 websocket js
  • 在 LINQ to Entities 中使用 GLOB 函数

    我需要 SQLiteglob C 方法中必须返回的函数Expression
  • 如何在 C++ 中将字符串向量转换为整数向量?

    我有一个字符串向量 需要帮助弄清楚如何将其转换为整数向量 以便能够进行算术处理 谢谢 include
  • Youtube 请求无法完成,因为您已超出配额 [关闭]

    Closed 这个问题不符合堆栈溢出指南 目前不接受答案 我的应用程序显示 Youtube V3 API 超出配额限制错误 我在 Google 控制台中的每日限制是 0 我无法更改该值 如何解决这个问题 单击旁边的小铅笔图标0并将其增加到1
  • $("#id") 仅选​​择第一个元素,但 $("div#id") 选择两个元素? [关闭]

    这个问题不太可能对任何未来的访客有帮助 它只与一个较小的地理区域 一个特定的时间点或一个非常狭窄的情况相关 通常不适用于全世界的互联网受众 为了帮助使这个问题更广泛地适用 访问帮助中心 div Hello buddy div div Hel
  • 跳过Delphi中的默认参数

    有没有办法跳过默认参数 假设我的方法声明是这样的 procedure MyProc1 var isAttr1 Boolean FALSE var isAttr2 Boolean FALSE var isAttr3 Boolean FALSE
  • 油漆组件不工作

    这可能是一个愚蠢的问题 但是我如何调用paintComponent 它根本不显示该对象 在其内部 公共类 Ball 扩展了 JPanel 实现了 Runnable public class Balls public static void
  • .htaccess 重定向域别名/停放域

    我有一个与 htaccess 相关的问题 例如 如果我有两个域 a com 和 b com 全部引用一台主机 b com 是 a com 的域别名 我希望访问 a com 的访问者将被引用到带有 www 的 url http www a c
  • Firebase JS API 身份验证 - 具有不同凭据的帐户存在

    我们在尝试解决此问题时遇到了实际问题 因此希望获得一些 Firebase 帮助 那些已经解决了相同问题的人 该应用程序是 React Native 0 43 2 并使用 Firebase JS API 最新 我们提供 Facebook 和
  • 为什么不鼓励 setAnimationDidStopSelector ?

    我在苹果关于 setAnimationDidStopSelector 的文档中看到以下内容 在 iOS 4 0 及更高版本中不鼓励使用此方法 如果您使用基于块的动画方法 则可以将委托的结束代码直接包含在块内 我尝试添加要放入动画块内的动画停
  • 将对象数组转换为单个对象

    例如 我有以下数组 name abc value 1 name xyz value 2 name abc value 3 name abc value 4 name xyz value 5 现在 我想通过分组将该数组减少为单个对象value
  • SPOJ 你能回答这些问题吗?

    我正在尝试解决这个问题SPOJ 我在线段树部分发现了这个问题 所以我很确定可能有一些使用线段树的可能解决方案 但我无法想出应该存储在树节点中的元数据 最大总和可以使用以下公式计算卡丹算法 但是如何使用线段树来计算它 如果我们只存储某个范围的
  • 找不到颤振命令

    这个问题的答案是社区努力 编辑现有答案以改进这篇文章 目前不接受新的答案或互动 显然 所有 Flutter 命令都无法在 Android Studio 的终端中运行 我相信我正在尝试在项目的根目录下运行它 Output bash flutt
  • R:将一个(大)数据帧的坐标匹配到另一个(大)数据帧的网格单元

    我有一个包含 X Y 坐标的大型数据框 约 200 000 行 例如 points lt data frame X c 1 3 2 5 4 Y c 4 3 2 2 1 另一个大型数据框 约 1 000 000 行 包含空间 矩形 网格的角单
  • LINQtoSQL 中的多重继承?

    伙计们 我一直在网上冲浪 寻找一种可以在 LINQ To SQL 中使用多表继承的方法 但看起来它只支持单表继承 这不是在 ORM 框架中实现继承的最佳方式 我了解到这个问题将在下一个 LINQ 和实体框架实现中得到解决 但我们谈论的停留时
  • android中如何过滤Json数据?

    我正在获取数据json形式就像 Users category id 1 user email email protected category id 5 user email email protected category id 1 us
  • 通过 HTML5 Canvas 上的一组坐标移动对象

    我想移动一个物体 在这种情况下画圈 通过坐标数组 例如 300 400 200 300 300 200 400 400 在 HTML5 Canvas 上 我可以将对象移动到一个坐标 如下所示 以下代码在 100 100 处绘制一个圆并将其移
  • 为什么 .ToString() 在空字符串上会导致空错误,而 .ToString() 在具有空值的可空 int 上运行良好?

    selectedItem有两个字段 int cost string serialNumber 在这个例子中 cost and serialNumber of selectedItem均为空 我正在阅读以下领域selectedItem通过它们
  • 使用常用词按行合并两个数据框[重复]

    这个问题在这里已经有答案了 df1 lt data frame freetext c open until monday night one more time to insert your coin numid c 291 312 df2