检测 R 中的文本语言

2024-01-01

我有一个推文列表，我想只保留英文推文。

我怎样才能做到这一点？

The textcat http://cran.r-project.org/web/packages/textcat/index.html包就是这样做的。它可以检测 74 种“语言”（更准确地说，是语言/编码组合），还有更多其他扩展。详细信息和示例位于这篇免费提供的文章中：

Hornik, K.、Mair, P.、Rauch, J.、Geiger, W.、Buchta, C. 和 Feinerer, I.用于基于 n-Gram 的文本分类的 textcat 包 http://www.jstatsoft.org/v52/i06/载于《R. 统计软件杂志》，52, 1-17。

摘要如下：

识别所使用的语言通常是大多数情况下的第一步自然语言处理任务。在种类繁多的语言中文献中讨论的识别方法，采用的方法 Cavnar 和 Trenkle (1994) 的文本分类方法基于字符 n 元语法频率特别成功。这论文提出了基于 n-gram 的文本的 R 扩展包 textcat 同时实施 Cavnar 和 Trenkle 方法的分类以及旨在消除冗余的简化 n-gram 方法原来的方法。多语言语料库取自有关精选主题的维基百科页面用于说明该包的功能和性能提供了语言识别方法。

这是他们的例子之一：

library("textcat")
textcat(c(
  "This is an English sentence.",
  "Das ist ein deutscher Satz.",
  "Esta es una frase en espa~nol."))
[1] "english" "german" "spanish"

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

textmining

检测 R 中的文本语言的相关文章

grep() 搜索数据框的列名

有没有更清晰更简单更直接更短的方法来做到这一点其中 df1 是数据框 names df1 grep Yield names df1 我想返回任何包含单词 yield 的列名称 Thanks grep has a value应该适用于
如何调整ggplot直方图的时间刻度轴

我正在使用一个数据框其中一列包含POSIXct日期时间值我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周我尝试提供 di
将summary()写入as.data.frame以在ggplot / R中使用

请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果这很好但需要更好的图形曾经有一个ggtrans etm函数将数据导入ggplot 然而这个功能显然被删除了
dplyr 中的 Summarize 是否可以不删除数据框中的其他列？

我有一个包含三列的数据框我正在尝试进行简单的总结以查找数据框中每个城市的最高温度但同时保留每个最高温度列出的日期这是数据框我们称之为 maxT new ID Date Max TemperatureF 1 TUS 1960 04 0
在 mac (iMac OSX ) 终端中远程运行脚本（r 脚本）到其他计算机

我有一个小示例脚本 script p r 如下所示打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
使用 R 的 flextable 包时，有没有办法将传递给 add_header_lines() 的字符串部分加粗

我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格但是我在将表格标题中的部分文本加粗时遇到了一些麻烦例如我希望标题为 Table 1 我的表格标题的其余部分而不是表 1 我的表格标题的其余部分 I 找到这个
如何更新条件公式？

让我直接进入示例考虑以下等式 frml lt formula y a b x z 使用这样的公式规范例如和AER ivreg 我想更新这个公式使其显示为 frml2 lt y a b c x z w 但是我不确定如何更新条件标志之前
dplyr，do()，从模型中提取参数而不丢失分组变量

R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行每个数据帧的最后一列称为Chemicals并包含一些字符例如Sulfate or Ammonia 但是这一列有很多行Chemic
错误：“rjags”的包或命名空间加载失败

在终端的 conda 环境之一中我能够成功安装包 rjags 但是当我在该环境中运行 R 并运行库 rjags 时出现以下错误加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
R.matlab/readMat：readTag(this) 中出错

我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
将 VLMC 拟合到很长的序列

我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
如何更改 Shiny 中 navbarPage 折叠的断点

我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时将导航元素折叠到菜单中默认情况下当浏览器宽度小于 940 像素时会触发折叠有什么方法可以改变这一点以便在稍大的浏
将函数应用于 3d 数组的每一层，返回一个数组

假设您有一个包含行列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数它接受一个矩阵作为输入并返回一个矩阵作为输出就像t 如何将该函数应用于数组的每一层返回与第一层大小相同的另一个数组我觉得我应该
如何按 data.table 中的十分位数组计算统计数据

我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
比较 R 中的两个字符向量

我有两个 ID 字符向量我想比较这两个字符向量特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中有多少个ID在B但不在A 我还想画维恩图以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
R：表格格式

我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
为什么这些数字不相等？

下面的代码显然是错误的有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
如何计算嵌套函数中的粘合表达式？

我正在尝试嵌套一个函数该函数将两个字符串粘合在一起该函数使用组合字符串来命名数据帧的列然而问题似乎是粘合表达式没有足够早地评估为字符串我可以并且应该强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
如何在R中同时对三个字段进行网络分析

如何在 R 中同时对三个字段进行网络分析下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF

随机推荐

陷入 C# 正则表达式困境

我的数据库中的字段中包含以下文本 quote 5a7b87febe mr smith This is some text This is more text on another line quote 5a7b87febe 我正在尝试构建一
将 Java 对象转换为 XML 时的 XStream 撇号问题

我在用com thoughtworks xstream XStream生成 xml 字符串我将对象解析为 xstream toXML方法我根据我需要的方式获得 xml 输出
ggplot 更改 x 轴标签而不更改基础数据

我在 x 轴上绘制小平面和离散数据如何更改 x 轴标签without改变底层数据 IE 而不是标签阅读 a b c d 他们应该阅读 Lab 1 Lab 2 Lab 3 Lab 4 df lt data frame x factor re
邮件枪 - 401 禁止

我尝试使用 mailgun 发送电子邮件我使用 node js nest js 这是我的邮件服务我应该改变什么当我尝试发送第一封电子邮件 mailgun 官方网站上的说明时我收到了相同的错误消息 import Injectable
哪个“if”结构更快 - 语句还是三元运算符？

有两种类型ifjava 中的语句经典 if else 和简写 exp value1 value2 一个比另一个快还是它们相同陈述 int x if expression x 1 else x 2 三元运算符 int x expressi
如何添加后退按钮功能MFSlidemenu？

我已经在我的项目中实现了 MFSideMenu 它效果很好但现在我想为每个视图实现后退按钮功能我尝试这个但不起作用 NSArray array self navigationController viewControllers self
Java 详细类加载

我试图列出 Java 类加载器加载我的类的顺序如果我使用 verbose参数它将列出它加载的每个接口类包括大量接口例如可序列化异常等有没有办法调整此输出以便它只显示我的主要方法定义的类中加载了哪些类我想你最好的选择是执行以下
Web Worker 在 Chrome 中被主线程阻止

我有一个网络工作者 https developer mozilla org en US docs Web API Web Workers API basic usage 我希望用它定期发出网络请求我特别想要的一件事是即使主 JS 执行线程
如何从 JSP 和 Struts 操作类中的文件对话框中选择文件名？

我正在开发一个网络应用程序用户注册时必须选择个人资料图片然后单击上传按钮所以我的问题是如何获得FileName哪个用户选择并显示我正在使用 Struts 2 和 JSP 如果您使用该房产uploadFileName随着upload
yii2 的 REST API，身份验证器 (HttpBearerAuth) 在服务器上不起作用

我刚刚创建了一个使用 REST API 的项目使用 yii2 框架 REST API 的所有问题在本地主机上都运行得非常好但是当将项目放在服务器上时也使用相同的数据库授权不可用现在我正在使用 yii filters auth Ht
IE 中存在“JSON”未定义问题，但 chrome 中没有

我在 IE9 中使用 Json stringify 时我的 jquery ajax 调用出现以下错误 Microsoft JScript 运行时错误 JSON 未定义直到昨天相同的功能仍然适用于我并且仍然适用于我同事的机器和我机器上
桌面桥应用程序中的桌面快捷方式。我们从哪里获取AppUserModelId

当第一次使用我的 Desktop Bridge 应用程序时我尝试创建桌面快捷方式我可以成功创建一个指向Application ExecutablePath 但是当用户打开快捷方式时会生成错误该错误与用户无权访问该文件夹有关我在互联网
为什么使用 sha1/sha256 哈希进行 Base64 处理？

谁能告诉我为什么亚马逊想要 hmac sha1 sha256 哈希值的 base64 http docs amazonwebservices com AmazonSimpleDB latest DeveloperGuide HMACAuth
PHP 字符串中的美元符号

我不明白为什么 PHP 不替换包含美元符号的字符串看下面的例子
MySQL 管理员备份：“兼容模式”，这到底是做什么的？

在Mysql Administrator中做备份时兼容模式到底是什么我正在尝试桥接由以下方式生成的备份webmin http www webmin com 里面有可用的上传工具mysql管理员 http www mysql com
是否可以从 .net pdb 创建 mono mdb？

是否可以从 net pdb 创建 mono mdb 或者我需要使用两个编译器构建二进制文件找到了 http www mono project com FAQ 技术 http www mono project com FAQ Technic
从Mysql导入数据到Sql Server的最简单方法

对于新项目我必须从 MySql 导入预先存在的数据 In 这个网站 http www connectionstrings com carrier mysql我发现了很多选项其中一些包括安装驱动程序最快且最简单的方法是什么更新这只是
Delphi TFileStream.Seek，如何检查无效的查找偏移量

我正在 Delphi 2006 中使用 TFileStream 当我使用超出范围的偏移量调用 TFileStream Seek 时我得到不同的返回值当我寻找到流开头下方的位置时该函数返回 1 如果我寻找超出流大小的位置该函数将返回流
无法让我的 div 与布局保持固定

我对 css div 以及介于两者之间的所有内容都很陌生所以我为我的乐队创建了一个基本布局不需要一堆无用的链接例如个人简介商品商店等等所以我决定为我们的视频播放器和 Facebook 窗口安排单独的空间我设法为 youtub
检测 R 中的文本语言

我有一个推文列表我想只保留英文推文我怎样才能做到这一点 The textcat http cran r project org web packages textcat index html包就是这样做的它可以检测 74 种语言更

检测 R 中的文本语言

检测 R 中的文本语言 的相关文章

随机推荐

热门标签

检测 R 中的文本语言的相关文章