Twitter 中的表情符号 R 中的情感分析

2024-01-23

如何处理/摆脱表情符号,以便我可以对推文进行排序以进行情感分析?

得到: sort.list(y) 中的错误: 输入无效

Thanks

这就是从 twitter 到 r 的表情符号的显示方式:

\xed��\xed�\u0083\xed��\xed��
\xed��\xed�\u008d\xed��\xed�\u0089 

这应该摆脱表情符号,使用iconv正如恩杜根所建议的。

一些可重现的数据:

require(twitteR) 
# note that I had to register my twitter credentials first
# here's the method: http://stackoverflow.com/q/9916283/1036500
s <- searchTwitter('#emoticons', cainfo="cacert.pem") 

# convert to data frame
df <- do.call("rbind", lapply(s, as.data.frame))

# inspect, yes there are some odd characters in row five
head(df)

                                                                                                                                                text
1                                                                      ROFLOL: echte #emoticons [humor] http://t.co/0d6fA7RJsY via @tweetsmania  ;-)
2 “@teeLARGE: when tmobile get the iphone in 2 wks im killin everybody w/ emoticons &amp; \nall the other stuff i cant see on android!" \n#Emoticons
3                      E poi ricevi dei messaggi del genere da tua mamma xD #crazymum #iloveyou #emoticons #aiutooo #bestlike http://t.co/Yee1LB9ZQa
4                                                #emoticons I want to change my name to an #emoticon. Is it too soon? #prince http://t.co/AgmR5Lnhrk
5  I use emoticons too much. #addicted #admittingit #emoticons <ed><U+00A0><U+00BD><ed><U+00B8><U+00AC><ed><U+00A0><U+00BD><ed><U+00B8><U+0081> haha
6                                                                                         What you text What I see #Emoticons http://t.co/BKowBSLJ0s

这是删除表情符号的关键行:

# Clean text to remove odd characters
df$text <- sapply(df$text,function(row) iconv(row, "latin1", "ASCII", sub=""))

现在再次检查,看看奇数字符是否消失了(参见第 5 行)

head(df)    
                                                                                                                               text
1                                                                     ROFLOL: echte #emoticons [humor] http://t.co/0d6fA7RJsY via @tweetsmania  ;-)
2 @teeLARGE: when tmobile get the iphone in 2 wks im killin everybody w/ emoticons &amp; \nall the other stuff i cant see on android!" \n#Emoticons
3                     E poi ricevi dei messaggi del genere da tua mamma xD #crazymum #iloveyou #emoticons #aiutooo #bestlike http://t.co/Yee1LB9ZQa
4                                               #emoticons I want to change my name to an #emoticon. Is it too soon? #prince http://t.co/AgmR5Lnhrk
5                                                                                 I use emoticons too much. #addicted #admittingit #emoticons  haha
6                                                                                        What you text What I see #Emoticons http://t.co/BKowBSLJ0s
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Twitter 中的表情符号 R 中的情感分析 的相关文章

  • R:ggplot2,我可以使构面/条带文本环绕吗?

    我发现这段对于文本换行非常有用的代码here https stackoverflow com questions 2631780 r ggplot2 can i set the plot title to wrap around and s
  • 在 R 中迭代多个回归模型和数据子集

    我正在尝试学习如何使用 R 中的 purrr 和 broom 包在数据集的子集上自动运行 3 个或更多回归模型 我正在使用 Nest gt mutate map gt unnest 执行此操作流淌在心中 当只有一个回归模型应用于多个数据子集
  • 逐对计算行相似度百分比并将其添加为新列

    我有一个像这个示例一样的日期框架 我想找到相似的行 不重复 并逐个计算相似度 我发现这个解决方案 https stackoverflow com questions 52650932 how to calculate the similar
  • 无法使用 RODBC 附加到具有自动编号列的表

    我正在尝试使用 RODBC 将新行插入到 Microsoft Access 数据库中的表中 问题是主键列是一个自动编号 它似乎不允许我省略此列 我正在使用带有append TRUE 的sqlSave 函数和带有单行的数据框 我已经尝试过以下
  • 使用填充美学两次,具有两种不同的比例[重复]

    这个问题在这里已经有答案了 我正在尝试在一组多边形的顶部使用分组箱线图来绘制一个图 并且希望使用填充美学来基于连续变量为多边形着色 并且箱线图基于单独的分组变量 我发现了几篇文章可以帮助我获得多边形上的箱线图 并且找到了其他有相关问题的人
  • 如何在 RSM (R) 中填充轮廓颜色并写入轴名称

    我有以下数据 ct lt structure list Conc c 50L 100L 150L 50L 100L 150L 50L 100L 150L 100L 100L 100L kGy c 10L 10L 10L 15L 15L 15
  • 如何获得 STAN 中最大似然估计的标准误差?

    我在 Stan 中使用最大似然优化 但不幸的是optimizing 函数不报告标准错误 gt MLb4c lt optimizing get stanmodel fitb4c data win data init inits STAN OP
  • R 根据事件更新值

    我最近发布了这个问题 该问题已经与我在笔记本电脑上本地使用的 Mysql 数据库相关 由于我在 Mysql 中没有找到问题的解决方案 其他人似乎也没有找到解决方案 所以我想再次发布它 但现在与 R 相关 我使用带有 RMysql 包的数据库
  • 将命名参数列表传递给函数?

    我想编写一个小函数来从适当的分布生成样本 例如 makeSample lt function n dist params values lt makeSample 100 unif list min 0 max 10 values lt m
  • R::bigmemory - 如何创建角色big.matrix?

    我尝试使用bigmemory封装在R我一开始就陷入困境 我愿意 temp lt matrix paste a 1 10 5 2 并得到一个字符矩阵 没关系 但后来我尝试 x lt as big matrix temp type char 我
  • 将 Instagram/youtube 嵌入 Shiny R 应用程序

    我想通过点击图表来播放 Instagram 或 Youtube 视频 例如显示异常值等 到目前为止 明确告诉 Shiny 视频内容是有效的 require shiny require ggplot2 data df lt data fram
  • 如何对同一列上的数据帧列表中的所有数据帧进行排序?

    我有一个数据框列表dataframes list 举个例子 我把dput dataframes list 在底部 我想对列列表中的所有数据框进行排序enrichment 我可以对一个数据框进行排序 first dataframe lt da
  • .wav 文件长度/持续时间,无需读入文件

    有没有办法提取有关 wav 文件长度 持续时间的信息 而无需在 R 中读取文件 我有数千个这样的文件 如果我必须阅读每个文件才能找到其持续时间 那将需要很长时间 Windows 文件资源管理器为您提供了打开 长度 字段的选项 并且您可以查看
  • 如何在 ggplot 中保持配色方案,同时删除每个图中未使用的级别?

    我想比较一个图中的数据的一些子组和另一图中的一些其他子组 如果我绘制一个图 其中绘制了所有子组 那么这个数字将是巨大的 并且每个单独的比较都会变得困难 我认为如果给定的子组在所有图中都具有相同的颜色 这对读者来说会更有意义 这是我尝试过的两
  • 如何从 R 运行带有特定模块的 perl 脚本?

    我可以从终端运行 perl 脚本 myperlscript pl 没有任何问题 但是 如果我尝试从 RStudio 中运行相同的 perl 脚本 则会出现以下错误 command lt myperlscript pl outputfile
  • 删除ggplot2中的负图区域[重复]

    这个问题在这里已经有答案了 如何删除 ggplot2 中 x 轴和 y 轴下方的绘图区域 请参见下面的示例 我尝试了几个主题元素 panel border panel margin plot margin 但没有任何运气 p lt ggpl
  • 如何从 Fortran 调用 R 函数?

    根据http gallery rcpp org articles r function from c http gallery rcpp org articles r function from c Rcpp 允许用户从 C 调用 R 函数
  • 正则表达式字符串中第一个和最后一个非点的位置

    我希望找到字符串的第一个和最后一个非点元素的位置 理想情况下我想这样做regex在基地R 我已经写过R解决问题的代码 不过 我对一个感兴趣regex解决方案 感谢您的任何建议 这是一个示例数据集和R代码以获得所需的结果 此代码拆分字符串并使
  • 纵向序列数据的三次样条方法?

    我有一个串行数据 格式如下 time milk Animal ID 30 25 6 1 31 27 2 1 32 24 4 1 33 17 4 1 34 33 6 1 35 25 4 1 33 29 4 2 34 25 4 2 35 24
  • 多功能测试仪替代 system.time

    我已经看到 我认为是这样 使用了类似于 system time 的函数 它可以同时评估多个函数的时间并输出一个输出 我不记得它是什么 并且用我正在使用的术语进行互联网搜索并没有得到我想要的响应 有人知道我正在谈论的功能的名称 位置吗 你想要

随机推荐

  • 如何使用 Cython 将 Python 3 编译为 C

    我正在尝试将 Python 3 脚本转换为 C 然后将该 C 文件编译为可执行文件 我有这个简单的 python 脚本 def greet name print Hello 0 format name if len name gt 0 el
  • 更改命名空间前缀 WCF 信封

    我想知道是否可以更改 WCF SOAP 请求的命名空间前缀 正如您在下面的示例中看到的 The Envelope 的命名空间为 http www w3 org 2005 08 addressing 前缀为 a 我想将其更改为 foo 我怎样
  • 如何将任务的已取消状态传播到继续任务

    我在我的应用程序中使用任务并行库 我有一个任务 我们称之为 DoSomething 可能会被取消 无论任务出现故障 取消还是成功完成 我都会向该任务附加一个延续来执行一些清理工作 在启动此任务的代码中 我想返回一个 Task 对象 其状态
  • SWIG C++ 到 Python:警告(362):运算符=被忽略

    我正在将 C 类导出到 Python 我注意到在编译过程中 SWIG 发出以下警告 Warning 362 operator ignored 我不确定为什么操作符超载 因为它在SWIG 文档 http www swig org Doc1 3
  • camera2 捕获的图片 - 从 YUV_420_888 转换为 NV21

    通过camera2 API 我们接收以下格式的图像对象YUV 420 888 然后我们使用以下函数转换为NV21 private static byte YUV 420 888toNV21 Image image byte nv21 Byt
  • Oracle中INSTR和LIKE有什么区别?

    有人可以告诉我两者之间的区别吗INSTR and LIKE在甲骨文中 Oracle10g中哪一个更快 这取决于数据和模式 如果你使用like a 那么 Oracle 可以使用 BTree 索引来查找匹配项 因为它可以以模式开头搜索 BTre
  • Angular CLI 无法创建新项目

    如何从 angular cli 创建新项目 Angular CLI 有问题 已经关门了 我认为仍然存在问题https github com angular angular cli issues 5543 event 1009616731 h
  • 故事板静态单元:dequeueReusableCellWithIdentifier 返回 nil

    使用故事板 静态单元格cellForRowAtIndexPath 线 UITableViewCell cell tableView dequeueReusableCellWithIdentifier CellIdentifier 总是返回n
  • Capybara webkit 不传递来自 Angular 的参数

    我正在尝试将 selenium 测试套件移植到 capybara webkit Rails 应用程序在 Rails 视图中嵌入了一个角度应用程序 并且其行为不符合预期webkit 像这样的测试 需要 spec helper feature
  • CSS 线性渐变和 Canvas 线性渐变与不透明度设置不同

    我想在画布上实现 CSS 定义的相同线性渐变外观 使用了一种在不使用透明度设置之前效果很好的方法 当使用相同的线性渐变颜色设置定义 rgba 颜色值时 结果看起来不一样 请参阅以下链接 JSFiddle Example https jsfi
  • 如何通过 System.out.println("Morning") 创建对象,REACHABLE?

    在下面的声明中 System out println Morning 包含值 Morning 的对象是在字符串池中创建的 而且我们没有明确存储它的地址 但这个对象仍然是可达的 如果我们尝试重新做System out println Morn
  • C++ 中 main 之前发生了什么?

    我知道在 C 中 在应用程序可以开始之前main 某些实体必须 初始化全局变量 将堆栈指针设置为最低堆栈区域地址 假设堆栈向上增长 问题 1 做这些事情的实体是什么 谁写的 问题 2 C 中还有其他东西吗 我假设对象构造函数和初始化都是在应
  • 如何将浮点数存储为文本而不丢失精度?

    就像问题所说的那样 与 截断的 字符串表示形式之间的转换可能会影响其精度 但是将它们存储为其他格式 例如 pickle 会使它们不可读 是的 我也想要这个 如何在文本中存储浮点数而不丢失精度 将其存储为二进制或其幂 gt gt gt 3 4
  • Pytest Finalizers - 执行顺序

    我正在编写 py test 程序 考虑以下 py test 夹具代码 pytest fixture scope class def my fixture request def fin1 print fin1 request addfina
  • 预编译 ASP.NET 2.0 站点上出现编译错误 CS0433

    当我启动调试器来调试我的网站时 我经常收到此错误 我使用 Telerik 控件 通常错误出现在我的选项卡条中 这是我现在正在查看的错误的示例 Compiler Error Message CS0433 The type ASP contro
  • 改变可观察值中的值

    如果我有一个可观察的student Observable
  • 在带有 GPU 加速的 arrayfun 中使用匿名函数 (Matlab)

    我是 Matlab R2012b 并行工具箱的新手 想知道克服以下问题的最佳方法是什么 我正在分析图像中每个像素的邻域 这是并行化的绝佳案例 但是 我似乎无法让它发挥作用 问题的主要问题是一些 常量 参数应该传递给函数 因此 应该为每个像素
  • 模板如何导致C++代码膨胀?

    我从来不理解模板的这个问题 对我来说 为不同类型的参数实例化多种类型的方法与在函数重载方面实现相同的方法相同 如果是这种情况 模板如何导致代码膨胀或超出二进制大小达到一定限制 请澄清这一点 有时我不确定是否使用模板或函数重载 模板代码膨胀是
  • TypeError: _this.handler.handle 不是函数错误

    我收到此错误 表明 this handler handle 不是我使用 karma jasmine 在 Angular 6 中进行单元测试的函数 当我在项目文件夹中键入 ng test 命令时 我的命令行中会出现此错误 Chrome 67
  • Twitter 中的表情符号 R 中的情感分析

    如何处理 摆脱表情符号 以便我可以对推文进行排序以进行情感分析 得到 sort list y 中的错误 输入无效 Thanks 这就是从 twitter 到 r 的表情符号的显示方式 xed xed u0083 xed xed xed xe