使用 R 提取多条推文中的主题标签

2024-03-31

我迫切需要一个从 R 中的集体推文中提取主题标签的解决方案。例如：

[[1]]
[1] "RddzAlejandra: RT @NiallOfficial: What a day for @johnJoeNevin ! Sooo proud t have been there to see him at #London2012 and here in mgar #MullingarShuffle"

[[2]]
[1] "BPOInsight: RT @atos: Atos completes delivery of key IT systems for London 2012 Olympic Games http://t.co/Modkyo2R #london2012"

[[3]]
[1] "BloombergWest: The #Olympics sets a ratings record for #NBC, with 219M viewers tuning in. http://t.co/scGzIXBp #london2012 #tech"

我如何解析它以提取所有推文中的主题标签单词列表。以前的解决方案仅在第一条推文中显示主题标签，并在代码中显示以下错误消息：

> string <-"MonicaSarkar: RT @saultracey: Sun kissed #olmpicrings at #towerbridge #london2012   @ Tower Bridge http://t.co/wgIutHUl"
> 
> [[2]]
Error: unexpected '[[' in "[["
> [1] "ccrews467: RT @BBCNews: England manager Roy Hodgson calls #London2012 a \"wake-up call\": footballers and fans should emulate spirit of #Olympics http://t.co/wLD2VA1K" 
Error: unexpected '[' in "["
> hashtag.regex <- perl("(?<=^|\\s)#\\S+")
> hashtags <- str_extract_all(string, hashtag.regex)
> print(hashtags)
[[1]]
[1] "#olmpicrings" "#towerbridge" "#london2012"

Using regmatches and gregexpr这为您提供了每条推文的主题标签列表，假设主题标签的格式为 # 后跟任意数量的字母或数字（我对 twitter 不太熟悉）：

foo <- c("RddzAlejandra: RT @NiallOfficial: What a day for @johnJoeNevin ! Sooo proud t have been there to see him at #London2012 and here in mgar #MullingarShuffle","BPOInsight: RT @atos: Atos completes delivery of key IT systems for London 2012 Olympic Games http://t.co/Modkyo2R #london2012","BloombergWest: The #Olympics sets a ratings record for #NBC, with 219M viewers tuning in. http://t.co/scGzIXBp #london2012 #tech")

regmatches(foo,gregexpr("#(\\d|\\w)+",foo))

Returns:

[[1]]
[1] "#London2012"       "#MullingarShuffle"

[[2]]
[1] "#london2012"

[[3]]
[1] "#Olympics"   "#NBC"        "#london2012" "#tech"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

使用 R 提取多条推文中的主题标签的相关文章

R - Plm 和 lm - 固定效应

我有一个平衡面板数据集 df 本质上由三个变量组成 A B and Y 对于一堆独特识别的区域来说它会随着时间的推移而变化我想运行一个回归其中包括区域下面等式中的区域和时间年份固定效应如果我没记错的话我可以通过不同的方式来
使用 purrr 迭代替换数据帧列中的字符串

我想用purrr使用以下命令在数据框列上迭代运行多个字符串替换gsub 功能这是示例数据框 df lt data frame Year 2019 Text c rep a aa 5 rep a bb 3 rep a cc 2 gt df
使用 pracma::findpeaks 识别持续峰值

我的语法有问题peakpat内的选项findpeaks内的函数pramcaR 包 v 2 1 1 我使用的是 R 3 4 3 x64 Windows 我希望该函数能够识别可能有两个重复值的峰值并且我相信该选项peakpat这就是我能做到的
多功能测试仪替代 system.time

我已经看到我认为是这样使用了类似于 system time 的函数它可以同时评估多个函数的时间并输出一个输出我不记得它是什么并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应有人知道我正在谈论的功能的名称位置吗你想要
R 中的快速 QR 分解

我有大量矩阵需要对其执行 QR 分解并存储生成的 Q 矩阵进行归一化以便 R 矩阵在其对角线上具有正数除了使用之外还有其他方法吗qr 功能这是工作示例 system time Parameters for the matrix t
尝试读取 CSV 文件时出现“无法识别的字符串转义”

我正在尝试导入一个 csv文件以便我可以观看此视频 R ggplot2 图形直方图 http www youtube com watch v 47kWynt3b6M 我安装了所有正确的软件包包括ggplot以及相关的包视频中的第一个说
r 中训练和测试数据的最小最大缩放/归一化

我正在创建一个函数它将训练集和测试集作为其参数最小最大缩放标准化并返回训练集并使用这些same最小值和最小最大范围的值标准化并返回测试集到目前为止这是我想出的功能 min max scaling lt function tr
只读取选定的列

谁能告诉我如何仅读取下面每年数据的前 6 个月 7 列例如使用read table Year Jan Feb Mar Apr May Jun Jul Aug Sep Oct Nov Dec 2009 41 27 25 31 31 39 2
ddply 和aggregate 之间的区别

有人可以通过以下示例帮助我了解聚合和 ddply 之间的区别数据框 mydat lt data frame first rpois 10 10 second rpois 10 10 third rpois 10 10 group c re
基于时间窗口的不规则时间序列的优化滚动函数

有没有办法使用 rollapply 来自zoo包或类似的东西优化功能 rollmean rollmedian等使用基于时间的窗口计算滚动函数而不是基于大量观察的函数我想要的很简单对于不规则时间序列中的每个元素我想计算一个具有 N
将阴影区域添加到五分位数之间的直方图中

All 我有一个包含 2 个直方图的图表其中我还绘制了代表第 20 40 60 和 80 个百分位数的线条下面的代码使用虚拟数据重现了类似的图表 data lt rbind data frame x rnorm 1000 0 1 g o
旋转 Markdown 的表格 pdf 输出

我想将 pdf 上的表格输出旋转 90 度我正在使用 Markdown 生成报告并kable循环显示表格如果可以的话我想继续使用kable因为还有很多其他依赖于它的东西我没有包含在这个 MWE 中这是一个简单的例子使用iris数据集
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
在 Rcpp 中使用其他包中的 C 函数

我试图从 C 函数中的 cubature 包调用 C 例程来执行多维积分我试图重现的基本 R 示例是 library cubature integrand lt function x sin x adaptIntegrate integr
纵向比较 R 中的值...并进行扭转

我有许多人在多达四个时间段进行的测试结果这是一个示例 dat lt structure list Participant ID c A A A A B B B B C C C C phase structure c 1L 2L 3L 4L
使用 template.docx 从 Shiny App 编织 Word 文档

我正在尝试使用 template docx 文件从闪亮的应用程序编写一个 Word 文档我收到以下错误消息 pandoc exe template docx openBinaryFile 不存在没有这样的文件或目录以下 3 个文件当前
闭包作为数据合并习惯的解决方案

我正在尝试解决闭包问题而且我think我发现了一个案例他们可能会有所帮助我有以下几部分需要处理一组正则表达式旨在清理状态名称位于函数中具有州名称上述函数创建的标准化形式和州 ID 代码的 data frame 用于链接两者
如何使用 tidymodels 和工作流集在同一数据集上拟合多个不同的线性模型

我想评估同一数据集上多个主要是线性回归模型的性能我想也许使用tidymodels包连同workflowsets workflow set 可能会起作用我按照这个例子here https workflowsets tidymodels
如何修复 R 中 Kaplan Meier 图的风险表计算错误

以下是一个数据帧其中 6 个参与者中的每一个都有唯一的 record ID 我想绘制一个生存分析图其中包含感兴趣事件的复发以及在时间间隔 tstart 到 tstop 内暴露药物剂量数值变量的时间依赖性协变量每个参与者的最大
如何使用 dplyr 独立过滤每列的行

我有以下内容 library tidyverse df lt tibble tribble gene colB colC a 1 2 b 2 3 c 3 4 d 1 1 df gt A tibble 4 x 3 gt gene colB c

随机推荐

Google 图表堆叠列的 JSON 格式

我有如下数据 store 1 Store 2 store id walk ins walk ins morning 20 25 noon 35 40 night 50 55 有 20 个商店可以用图表堆叠每行的值 Google Charts
Python 构造函数和 __init__

为什么构造函数确实被称为构造函数它们的目的是什么以及它们与类中的方法有何不同另外还可以多一个吗 init 在课堂上我尝试了以下操作有人可以解释一下结果吗 gt gt gt class test def init self pri
如何获取 Spark 中的默认属性值

我正在使用这个版本的 Spark spark 1 4 0 bin hadoop2 6 我想检查一些默认属性所以我在中发表了以下声明spark shell scala gt sqlContext getConf spark sql hive
硒网络驱动程序，Chrome。我在运行 Python 测试期间（在开始和结束时）收到未实现的错误

Errors 6944 3028 0128 220426 ERROR chrome views delegate cc 176 NOT IMPLEMENTED 6944 3028 0128 220426 ERROR desktop root
CocoaPods 用于“pod try”命令的启发式记录是否在任何地方都有记录？

在 CocoaPods v 0 29 中添加了 pod try 命令请参阅http blog cocoapods org CocoaPods 0 29 http blog cocoapods org CocoaPods 0 29 从文档
使用 C# 参数调用 PowerShell 脚本

我有一个存储在文件中的 PowerShell 脚本在 Windows PowerShell 中我执行脚本为 MergeDocuments ps1 1 docx 2 docx merge docx 我想从 C 调用脚本目前我正在使用 P
(Laravel) 从一个表中获取数据，该表的 ID 与与该表链接的另一个表相对应

我正在玩我的第一个 Laravel 项目上面的问题可能有点令人困惑但让我解释一下我有 3 张桌子实际上我还有更多但让我们忽略它我有standards stddetails sections如图所示所以外键对应如下 column
如何使用 Jest 和 Enzyme 测试 getDerivedStateFromProps

我有这个简单的代码它使用新的getDerivedStateFromProps生命周期 static getDerivedStateFromProps nextProps Props prevState State if nextProps
如何在 twig 中显示 Unix 时间戳的格式化日期？

我想通过对 Unix 时间戳应用过滤器来在 twig 中显示格式化日期 twig 有这样的功能吗有一个过滤器叫date http twig sensiolabs org doc filters date html 在下面的例子中mydat
通过 FileSystem 对象从文件系统读取

为了列出类路径上特定目录的文件内容我正在使用新的FileSystem and PathJava 7 的功能在一次部署中目录直接存储在文件系统上在另一个部署中它存储在 JAR 文件中我的方法适用于 JAR 文件我创建了一个Fil
Node.js 中的长循环：使用计时器产生结果？

我在用着Node js http nodejs org 循环通过最终会是什么一个漂亮大阵的帖子如果我正在做类似的事情客户端 JavaScript 我会使用计时器正如这里所解释的 http oreilly com server admini
如何使用 Spark 从 .sql 转储中提取包含数据的表？

我有大约四个 sql 独立转储每个大约 20GB 我需要将它们转换为 Apache Spark 中的数据集我尝试过使用 InnoDB 安装和制作本地数据库并导入转储但这似乎太慢花了大约 10 个小时我直接使用将文件读入spark
如何将数据从 Amazon SQS 流式传输到 Amazon S3 中的文件

如何快速创建从 Amazon SQS 读取 json 数据并将其保存在 s3 存储桶中的 avro 文件可能是其他格式中的机制并按 json 消息中给定字段的日期和值进行分区你可以写一个AWS Lambda 函数由发送到 Amazo
最低成本流程

R 中是否有实现最小成本流算法的包 The igraph包似乎只有最大流量通过graph maxflow 函数这里或上面没有其他内容rseek org http www rseek org 看起来很有帮助也许您可以返回所有流然后按值
以编程方式添加的用户控件不会创建其子控件

我的项目中有一个用户控件 ascx 我在页面的 Page Load 事件处理程序中以编程方式将其添加到页面如下所示 Controls Add new MyProject Controls ControlWidget Databind 当我
如何允许传入连接到 VirtualBox 内的服务器？

我配置了一个 NAT 以便在 VitualBox 中加载我最喜欢的 Linux 发行版时运行这使得传出连接能够成功工作如何允许传入此框的连接例如 Web 流量 IP 地址是 10 0 2 15 来自我的主机的 ping 请求导致超时
iOS 部署目标

如果我在提交到应用程序商店时将应用程序的部署目标设置为 iOS 4 2 则使用 iOS 3 2 或低于 4 2 的任何版本的用户是否能够下载并安装该应用程序并且该应用程序将无法运行或无法运行下载并安装应用程序本身 Thanks 他们将无
管理归档表单和结果页面的最佳方式

在 Symfony 中管理过滤器页面和结果页面的最佳方式是什么我有一个管理过滤器表单并执行查询的控制器该查询的结果必须传入另一个控制器操作结果必须显示在另一个控制器操作中因为我使用了 knp paginator 如果我在过滤器表单的
Android ==> ant 和 proguard？

我在混淆我的应用程序时收到以下错误如何在 build xml 中定义输出 jar java Shrinking java java io IOException The output jar is empty Did you specif
使用 R 提取多条推文中的主题标签

我迫切需要一个从 R 中的集体推文中提取主题标签的解决方案例如 1 1 RddzAlejandra RT NiallOfficial What a day for johnJoeNevin Sooo proud t have been t

使用 R 提取多条推文中的主题标签

使用 R 提取多条推文中的主题标签 的相关文章

随机推荐

热门标签

使用 R 提取多条推文中的主题标签的相关文章