我有一个推文列表,我想只保留英文推文。
我怎样才能做到这一点?
The textcat http://cran.r-project.org/web/packages/textcat/index.html包就是这样做的。它可以检测 74 种“语言”(更准确地说,是语言/编码组合),还有更多其他扩展。详细信息和示例位于这篇免费提供的文章中:
Hornik, K.、Mair, P.、Rauch, J.、Geiger, W.、Buchta, C. 和 Feinerer, I.用于基于 n-Gram 的文本分类的 textcat 包 http://www.jstatsoft.org/v52/i06/载于《R. 统计软件杂志》,52, 1-17。
摘要如下:
识别所使用的语言通常是大多数情况下的第一步
自然语言处理任务。在种类繁多的语言中
文献中讨论的识别方法,采用的方法
Cavnar 和 Trenkle (1994) 的文本分类方法基于
字符 n 元语法频率特别成功。这
论文提出了基于 n-gram 的文本的 R 扩展包 textcat
同时实施 Cavnar 和 Trenkle 方法的分类
以及旨在消除冗余的简化 n-gram 方法
原来的方法。多语言语料库取自
有关精选主题的维基百科页面用于
说明该包的功能和性能
提供了语言识别方法。
这是他们的例子之一:
library("textcat")
textcat(c(
"This is an English sentence.",
"Das ist ein deutscher Satz.",
"Esta es una frase en espa~nol."))
[1] "english" "german" "spanish"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)