检测 R 中的文本语言

2024-01-01

我有一个推文列表,我想只保留英文推文。

我怎样才能做到这一点?


The textcat http://cran.r-project.org/web/packages/textcat/index.html包就是这样做的。它可以检测 74 种“语言”(更准确地说,是语言/编码组合),还有更多其他扩展。详细信息和示例位于这篇免费提供的文章中:

Hornik, K.、Mair, P.、Rauch, J.、Geiger, W.、Buchta, C. 和 Feinerer, I.用于基于 n-Gram 的文本分类的 textcat 包 http://www.jstatsoft.org/v52/i06/载于《R. 统计软件杂志》,52, 1-17。

摘要如下:

识别所使用的语言通常是大多数情况下的第一步 自然语言处理任务。在种类繁多的语言中 文献中讨论的识别方法,采用的方法 Cavnar 和 Trenkle (1994) 的文本分类方法基于 字符 n 元语法频率特别成功。这 论文提出了基于 n-gram 的文本的 R 扩展包 textcat 同时实施 Cavnar 和 Trenkle 方法的分类 以及旨在消除冗余的简化 n-gram 方法 原来的方法。多语言语料库取自 有关精选主题的维基百科页面用于 说明该包的功能和性能 提供了语言识别方法。

这是他们的例子之一:

library("textcat")
textcat(c(
  "This is an English sentence.",
  "Das ist ein deutscher Satz.",
  "Esta es una frase en espa~nol."))
[1] "english" "german" "spanish" 
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

检测 R 中的文本语言 的相关文章

  • grep() 搜索数据框的列名

    有没有更清晰 更简单 更直接 更短的方法来做到这一点 其中 df1 是数据框 names df1 grep Yield names df1 我想返回任何包含单词 yield 的列名称 Thanks grep has a value应该适用于
  • 如何调整ggplot直方图的时间刻度轴

    我正在使用一个数据框 其中一列包含POSIXct日期时间值 我正在尝试使用绘制这些时间戳的直方图ggplot2但我有两个问题 我不知道如何设置 binwidthgeom histogram 我想将每个垃圾箱设置为一天或一周 我尝试提供 di
  • 将summary()写入as.data.frame以在ggplot / R中使用

    请查找 af 数据样本t below 我正在使用以下方法进行竞争风险分析etmCIF来自etm package 产生以下结果 这很好 但需要更好的图形 曾经有一个ggtrans etm函数将数据导入ggplot 然而 这个功能显然被删除了
  • dplyr 中的 Summarize 是否可以不删除数据框中的其他列?

    我有一个包含三列的数据框 我正在尝试进行简单的总结以查找数据框中每个城市的最高温度 但同时保留每个最高温度列出的日期 这是数据框 我们称之为 maxT new ID Date Max TemperatureF 1 TUS 1960 04 0
  • 在 mac (iMac OSX ) 终端中远程运行脚本(r 脚本)到其他计算机

    我有一个小示例脚本 script p r 如下所示 打算在终端中运行 usr bin Rscript sink output capture txt mn lt mean 1 10 and so on much longer list of
  • 使用 R 的 flextable 包时,有没有办法将传递给 add_header_lines() 的字符串部分加粗

    我正在使用我喜欢的 flextable 包为 Word 文档创建几个表格 但是 我在将表格标题中的部分文本加粗时遇到了一些麻烦 例如 我希望标题为 Table 1 我的表格标题的其余部分 而不是 表 1 我的表格标题的其余部分 I 找到这个
  • 如何更新条件公式?

    让我直接进入示例 考虑以下等式 frml lt formula y a b x z 使用这样的公式规范 例如和AER ivreg 我想更新这个公式 使其显示为 frml2 lt y a b c x z w 但是 我不确定如何更新条件标志之前
  • dplyr,do(),从模型中提取参数而不丢失分组变量

    R 帮助中关于 do 的示例略有不同 by cyl lt group by mtcars cyl models lt by cyl gt do mod lm mpg disp data coefficients lt models gt d
  • 查找数据帧列表中同一列中的所有重复值并将其转换为 NULL

    我有一个清单BELGIAN COAST list包含数百个数据帧 df1 df2 15 列 X 1000 行 每个数据帧的最后一列称为Chemicals并包含一些字符 例如Sulfate or Ammonia 但是这一列有很多行Chemic
  • 错误:“rjags”的包或命名空间加载失败

    在终端的 conda 环境之一中 我能够成功安装包 rjags 但是 当我在该环境中运行 R 并运行库 rjags 时 出现以下错误 加载所需的包 coda 错误 rjags 的包或命名空间加载失败 rjags 的 loadNamespac
  • R.matlab/readMat:readTag(this) 中出错

    我正在尝试使用 R matlab 将 matlab 文件读入 R 但遇到此错误 require R matlab r lt readMat file mat verbose T Trying to read MAT v5 file stre
  • 将 VLMC 拟合到很长的序列

    我正在尝试将 VLMC 拟合到最长序列为 296 个状态的数据集 我这样做如下所示 Load libraries library PST library RCurl library TraMineR Load and transform d
  • 如何更改 Shiny 中 navbarPage 折叠的断点

    我想用shiny navbarPage collapsible TRUE 当在小屏幕上查看我的 Shiny 应用程序时 将导航元素折叠到菜单中 默认情况下 当浏览器宽度小于 940 像素时会触发折叠 有什么方法可以改变这一点 以便在稍大的浏
  • 将函数应用于 3d 数组的每一层,返回一个数组

    假设您有一个包含行 列和层的 3 维数组 A lt array 1 27 c 3 3 3 想象你有一个函数 它接受一个矩阵作为输入并返回一个矩阵作为输出 就像t 如何将该函数应用于数组的每一层 返回与第一层大小相同的另一个数组 我觉得我应该
  • 如何按 data.table 中的十分位数组计算统计数据

    我有一个 data table 想按组计算统计数据 R set seed 1 R DT data table a rnorm 100 b rnorm 100 这些组应该定义为 R quantile DT a probs seq 1 9 1
  • 比较 R 中的两个字符向量

    我有两个 ID 字符向量 我想比较这两个字符向量 特别是我对以下数字感兴趣 A和B各有多少个ID 有多少个ID在A中但不在B中 有多少个ID在B但不在A 我还想画维恩图 以下是一些可以尝试的基础知识 gt A c Dog Cat Mouse
  • R:表格格式

    我有一个包含以下列的 Excel 文件 Column1 Column2 Column3 ab bb 0 5 ab bc 0 1 ab cd 0 7 ab dd 0 8 ac bb 0 2 ac bg 0 8 ac ee 0 8 ac dd
  • 为什么这些数字不相等?

    下面的代码显然是错误的 有什么问题 i lt 0 1 i lt i 0 05 i 1 0 15 if i 0 15 cat i equals 0 15 else cat i does not equal 0 15 i does not eq
  • 如何计算嵌套函数中的粘合表达式?

    我正在尝试嵌套一个函数 该函数将两个字符串粘合在一起 该函数使用组合字符串来命名数据帧的列 然而 问题似乎是粘合表达式没有足够早地评估为字符串 我可以 并且应该 强制在将表达式作为参数传递给另一个函数之前对其进行求值吗 library ti
  • 如何在R中同时对三个字段进行网络分析

    如何在 R 中同时对三个字段进行网络分析 下面是示例数据以及desired output在最后一栏中 df lt data frame stringsAsFactors FALSE id 1 c ABC ABC BCD CDE DEF EF

随机推荐

  • 陷入 C# 正则表达式困境

    我的数据库中的字段中包含以下文本 quote 5a7b87febe mr smith This is some text This is more text on another line quote 5a7b87febe 我正在尝试构建一
  • 将 Java 对象转换为 XML 时的 XStream 撇号问题

    我在用com thoughtworks xstream XStream生成 xml 字符串 我将对象解析为 xstream toXML方法 我根据我需要的方式获得 xml 输出
  • ggplot 更改 x 轴标签而不更改基础数据

    我在 x 轴上绘制小平面和离散数据 如何更改 x 轴标签without改变底层数据 IE 而不是标签阅读 a b c d 他们应该阅读 Lab 1 Lab 2 Lab 3 Lab 4 df lt data frame x factor re
  • 邮件枪 - 401 禁止

    我尝试使用 mailgun 发送电子邮件 我使用 node js nest js 这是我的邮件服务 我应该改变什么 当我尝试发送第一封电子邮件 mailgun 官方网站上的说明 时 我收到了相同的错误消息 import Injectable
  • 哪个“if”结构更快 - 语句还是三元运算符?

    有两种类型ifjava 中的语句 经典 if else 和简写 exp value1 value2 一个比另一个快还是它们相同 陈述 int x if expression x 1 else x 2 三元运算符 int x expressi
  • 如何添加后退按钮功能MFSlidemenu?

    我已经在我的项目中实现了 MFSideMenu 它效果很好 但现在我想为每个视图实现后退按钮功能 我尝试这个但不起作用 NSArray array self navigationController viewControllers self
  • Java 详细类加载

    我试图列出 Java 类加载器加载我的类的顺序 如果我使用 verbose参数它将列出它加载的每个接口 类 包括大量接口 例如可序列化 异常等 有没有办法调整此输出 以便它只显示我的主要方法定义的类中加载了哪些类 我想你最好的选择是执行以下
  • Web Worker 在 Chrome 中被主线程阻止

    我有一个网络工作者 https developer mozilla org en US docs Web API Web Workers API basic usage 我希望用它定期发出网络请求 我特别想要的一件事是即使主 JS 执行线程
  • 如何从 JSP 和 Struts 操作类中的文件对话框中选择文件名?

    我正在开发一个网络应用程序 用户注册时必须选择个人资料图片 然后单击上传按钮 所以 我的问题是如何获得FileName哪个用户选择并显示 我正在使用 Struts 2 和 JSP 如果您使用该房产uploadFileName随着upload
  • yii2 的 REST API,身份验证器 (HttpBearerAuth) 在服务器上不起作用

    我刚刚创建了一个使用 REST API 的项目 使用 yii2 框架 REST API 的所有问题在本地主机上都运行得非常好 但是当将项目放在服务器上时 也使用相同的数据库 授权不可用 现在我正在使用 yii filters auth Ht
  • IE 中存在“JSON”未定义问题,但 chrome 中没有

    我在 IE9 中使用 Json stringify 时 我的 jquery ajax 调用出现以下错误 Microsoft JScript 运行时错误 JSON 未定义 直到昨天 相同的功能仍然适用于我 并且仍然适用于我同事的机器和我机器上
  • 桌面桥应用程序中的桌面快捷方式。我们从哪里获取AppUserModelId

    当第一次使用我的 Desktop Bridge 应用程序时 我尝试创建桌面快捷方式 我可以成功创建一个指向Application ExecutablePath 但是当用户打开快捷方式时会生成错误 该错误与用户无权访问该文件夹有关 我在互联网
  • 为什么使用 sha1/sha256 哈希进行 Base64 处理?

    谁能告诉我为什么亚马逊想要 hmac sha1 sha256 哈希值的 base64 http docs amazonwebservices com AmazonSimpleDB latest DeveloperGuide HMACAuth
  • PHP 字符串中的美元符号

    我不明白为什么 PHP 不替换包含美元符号的字符串 看下面的例子
  • MySQL 管理员备份:“兼容模式”,这到底是做什么的?

    在Mysql Administrator中 做备份时 兼容模式 到底是什么 我正在尝试桥接由以下方式生成的备份webmin http www webmin com 里面有可用的上传工具mysql管理员 http www mysql com
  • 是否可以从 .net pdb 创建 mono mdb?

    是否可以从 net pdb 创建 mono mdb 或者我需要使用两个编译器构建二进制文件 找到了 http www mono project com FAQ 技术 http www mono project com FAQ Technic
  • 从Mysql导入数据到Sql Server的最简单方法

    对于新项目 我必须从 MySql 导入预先存在的数据 In 这个网站 http www connectionstrings com carrier mysql我发现了很多选项 其中一些包括安装驱动程序 最快且最简单的方法是什么 更新 这只是
  • Delphi TFileStream.Seek,如何检查无效的查找偏移量

    我正在 Delphi 2006 中使用 TFileStream 当我使用超出范围的偏移量调用 TFileStream Seek 时 我得到不同的返回值 当我寻找到流开头下方的位置时 该函数返回 1 如果我寻找超出流大小的位置 该函数将返回流
  • 无法让我的 div 与布局保持固定

    我对 css div 以及介于两者之间的所有内容都很陌生 所以 我为我的乐队创建了一个基本布局 不需要一堆无用的链接 例如个人简介 商品商店等等 所以我决定为我们的视频 播放器和 Facebook 窗口安排单独的空间 我设法为 youtub
  • 检测 R 中的文本语言

    我有一个推文列表 我想只保留英文推文 我怎样才能做到这一点 The textcat http cran r project org web packages textcat index html包就是这样做的 它可以检测 74 种 语言 更