字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

2023-11-28

至少可以考虑 3 种类型的 n-gram 来表示文本文档:

  • 字节级 n 元语法
  • 字符级 n 元语法
  • 词级 n 元语法

我不清楚应该使用哪一个来完成给定的任务(聚类、分类等)。我在某处读到,当文本包含拼写错误时,字符级 n-gram 优于单词级 n-gram,因此“Maryloves dogs”仍然类似于“Mary lpves dogs”。

选择“正确”的表示形式还需要考虑其他标准吗?


Evaluate。选择表示的标准是任何有效的方法.

事实上,字符级别(!=字节,除非您只关心英语)可能是最常见的表示形式,因为它对拼写差异具有鲁棒性(如果您查看历史记录,则不一定是错误;拼写变化)。因此,出于拼写纠正的目的,这很有效。

另一方面,Google 图书 n-gram观众在他们的图书语料库中使用单词级 n-gram。因为他们不想分析拼写,而是分析术语随时间的使用情况;例如“儿童保育”,单个词并不像它们的组合那么有趣。这在机器翻译中被证明非常有用,通常被称为“冰箱磁铁模型”。

如果您不处理国际语言,字节也可能有意义。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

字节 vs 字符 vs 单词 - n-gram 的粒度是什么? 的相关文章

  • 如何对德语文本进行词形还原?

    我有一篇德语文本 我想对其应用词形还原 如果不可能进行词形还原 那么我也可以接受词干提取 Data 这是我的德语文本 mails Hallo Ich spielte am fr hen Morgen und ging dann zu ein
  • NLTK 中的 wordnet lemmatizer 不适用于副词 [重复]

    这个问题在这里已经有答案了 from nltk stem import WordNetLemmatizer x WordNetLemmatizer x lemmatize angrily pos r Out 41 angrily 这是 nl
  • SpaCy 中的自定义句子边界检测

    我正在尝试在 spaCy 中编写一个自定义句子分段器 它将整个文档作为单个句子返回 我编写了一个自定义管道组件 它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
  • R tm 包创建 N 个最常见术语的矩阵

    我有一个termDocumentMatrix使用创建的tmR 中的包 我正在尝试创建一个包含 50 个最常出现的术语的矩阵 数据框 当我尝试转换为矩阵时 出现此错误 gt ap m lt as matrix mydata dtm Error
  • 如何在Python中使用多处理来加速循环执行

    我有两个清单 列表 A 包含 500 个单词 列表 B 包含 10000 个单词 我正在尝试为列表 A 找到与 B 相关的相似单词 我正在使用 Spacy 的相似函数 我面临的问题是计算需要很长时间 我是多处理使用的新手 因此请求帮助 如何
  • 缩短文本并仅保留重要句子

    德国网站 nandoo net 提供了缩短新闻文章的可能性 如果使用滑块更改百分比值 文本会发生变化并且某些句子会被遗漏 您可以在这里看到它的实际效果 http www nandoo net read article 299925 http
  • 如何在R中使用OpenNLP获取POS标签?

    这是 R 代码 library NLP library openNLP tagPOS lt function x s lt as String x word token annotator lt Maxent Word Token Anno
  • URL路径相似度/字符串相似度算法

    我的问题是我需要比较 URL 路径并推断它们是否相似 下面我提供了要处理的示例数据 GROUP 1 robots txt GROUP 2 bot html GROUP 3 phpMyAdmin 2 5 6 rc1 scripts setup
  • 除非 POS 显式,否则 WordNetLemmatizer 不会返回正确的引理 - Python NLTK

    我正在对 Ted 数据集成绩单进行词形还原 我注意到一些奇怪的事情 并非所有单词都被词形还原 要说的是 selected gt select 哪个是对的 然而 involved gt involve and horsing gt horse
  • 用于词性标记的优秀 Java 库是什么? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • Lucene 标准分析器与 Snowball

    刚刚开始使用 Lucene Net 我使用标准分析器索引了 100 000 行 运行了一些测试查询 并注意到如果原始术语是单数 则复数查询不会返回结果 我知道雪球分析器增加了词干支持 这听起来不错 不过 我想知道 超过标准的雪球锣是否有任何
  • 从 Penn Treebank 格式的文本中提取子句

    说我有一句话 After he had eaten the cheese Bill went to the grocery 在我的程序中 我得到以下输出 PARSE TREE ROOT S SBAR IN After S NP PRP he
  • 获取 NLTK 索引的所有结果

    我正在使用 NLTK 来查找单词的一致性 但我不知道如何获取所有结果并将它们放入list or set 例如 text concordance word 仅打印前 25 个结果 TL DR text concordance lines 10
  • 如何使用FeatureUnion转换PipeLine中的多个特征?

    我有一个 pandas 数据框 其中包含有关用户发送的消息的信息 对于我的模型 我感兴趣的是预测消息的缺失收件人 即给定消息的收件人 A B C 我想预测还有谁应该成为收件人的一部分 我正在使用 OneVsRestClassifier 和
  • 使用 OpenNLP 获取句子的解析树。陷入困境。

    OpenNLP 是一个关于自然语言处理的 Apache 项目 NLP 程序的目标之一是解析一个句子 并给出其语法结构的树 例如 天空是蓝色的 这句话 可能会被解析为 S NP VP The sky is blue where S是句子 NP
  • 计算机AI算法写句子?

    我正在寻找有关处理文本句子或在创建在正常人类语言 例如英语 中有效的句子时遵循结构的算法的信息 我想知道这个领域是否有我可以学习或开始使用的项目 例如 如果我给一个程序一个名词 为其提供同义词库 相关单词 和词性 以便它理解每个单词在句子中
  • spacy 如何使用词嵌入进行命名实体识别 (NER)?

    我正在尝试使用以下方法训练 NER 模型spaCy识别位置 人 名和组织 我试图理解如何spaCy识别文本中的实体 但我无法找到答案 从这个问题 https github com explosion spaCy issues 491在 Gi
  • 在 Python 中识别大型字符串列表中的项目之间的文本相似性的最有效方法是什么?

    下面的代码实现了我想要实现的结果 有一个称为 引理 的字符串列表 其中包含特定类别单词的可接受形式 另一个列表称为 形式 包含在不同时期和特定语言的不同方言的大量文本中发现的单词的许多拼写变体 对于 forms 中的每个单词 我想获取 le
  • 使用印度名字训练 Spacy NER

    我正在尝试自定义 Spacy 的 NER 来识别印度名字 遵循本指南https spacy io usage training https spacy io usage training这是我正在使用的数据集https gist githu
  • Rails sunspot-solr - 带连字符的单词

    我正在使用 sunspot rails gem 到目前为止一切都很完美 但是 我没有得到带有连字符的单词的任何搜索结果 例子 字符串 tron 返回很多结果 所有文章中提到的词都是e tron 字符串 e tron 返回 0 个结果 即使这

随机推荐

  • 如何在 Git 历史记录中 grep(搜索)已提交的代码

    我过去删除过一个文件或文件中的某些代码 我可以搜索内容 而不仅仅是提交消息 吗 一个非常糟糕的解决方案是 grep 日志 git log p grep
  • 将子 iframe 中的事件附加到父窗口中的处理程序

    我无法直接访问此 iframe 的源代码 因此如果可能的话 我想这样做 我有一个由 JS 生成的 iframe 里面有一个提交按钮和一个取消按钮 提交按钮工作正常 但我希望取消按钮关闭包含 iframe 的此模式 我还希望提交按钮发送 th
  • 如何在 ASP.NET 5 Identity 中设置PasswordHasherCompatibilityMode.IdentityV3?

    目前看来默认设置为PasswordHasherCompatibilityMode IdentityV2这是 ASP NET 5 中的 HMAC SHA1 我尝试创建一个实例PasswordHasherOptions添加到服务 DI 但无法使
  • 用户控制验证组问题

    我在页面上有两个用户控件实例 两者都有字段和一个提交按钮 我已经在字段和验证器上设置了验证组 但由于某种原因 在验证两个用户控件的验证器时会触发 这个方法也有效 Dim valGroup String format 0 validation
  • GCC默认main返回值不为零

    我有一些没有从 main 显式返回的 C 程序 如下所示 int main int argc char argv blah blah 如果我使用 GCC 4 6 3 和以下选项编译它们 gcc file c Wall Wextra 程序不会
  • ImmutableList.builder() 错误?

    我刚刚开始学习番石榴 我注意到一些奇怪的事情ImmutableList builder 这不能编译 List
  • 根据变量快速调整窗口大小

    我有一个NSViewController和一个变量num 我想根据该变量动态更改窗口的大小 有什么办法可以快速做到这一点吗 假设您的窗口有一个名为 window 的 IBOutlet 并且您的动态号码名为 myDynamicNumber f
  • Scala 2.10 中的 Iterator.size 错误?

    这是正常的吗 scala gt val x Iterator List String str lol Iterator List String non empty iterator scala gt x size res1 Int 1 sc
  • 在 iFrame 中显示的 PDF 上绘制坐标

    首先 我很感激我的要求相当 雄心勃勃 但非常感谢任何帮助 因为我不确定继续进行的最佳方式 在我的网站 使用 PHP MySQL 构建 上 用户上传 PDF 后 我想在页面上内嵌显示 PDF 我假设在 iFrame 中 然后我需要他们能够在
  • 处理 jQuery.getScript 中的错误

    jQuery 的获取脚本函数似乎不支持错误回调函数 我不能在这里使用全局 ajax 错误处理代码 本地错误函数将是理想的选择 回调获取 data textStatus 的文档似乎不正确 回调两者都没有获取 关于如何检测 getScript
  • Flask 上下文堆栈的用途是什么?

    我已经使用请求 应用程序上下文一段时间了 但没有完全理解它是如何工作的或者为什么它是这样设计的 当涉及到请求或应用程序上下文时 堆栈 的目的是什么 这两个堆栈是独立的 还是同一个堆栈的一部分 请求上下文是压入堆栈 还是堆栈本身 我可以在彼此
  • 像在android市场中一样滑动标签栏[关闭]

    Closed 这个问题需要多问focused 目前不接受答案 有谁知道如何像android市场中那样实现该栏 类别 特色 最高付费 我也在新版本的SuperUser中看到了它 所以我知道它可以完成 谢谢你的回复 感谢塞尔文的回复 按照建议查
  • 以最佳方式将矩形装配在一起

    我想知道是否有人知道任何适合将 N 个未知大小的矩形组装成可能的最小包含矩形的算法 我所说的最佳是指减少生成的包含矩形中剩余的空白量 我想用它从一系列图像生成 css 精灵 非常感谢 Ian 我认为你所描述的是 二维装箱 问题的一个变体 唯
  • 隐式转换:const 引用与非 const 引用与非引用

    考虑这段代码 struct A struct B B const A void f B cout lt lt f lt
  • 如何使用 Rails 和 minitest 模拟 OmniAuth 哈希?

    我正在使用 Rails 5 和 minitest 我想模拟登录到我的会话控制器 它依赖于omniauth 我使用Google和FB进行登录 我的控制器测试中有这个 test controllers rates controller test
  • 为什么这个明显的无限递归不会给出编译器警告? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心以获得指导 许多个月前 我不得不修复一
  • .NET Windows 窗体设计时规则

    我有一个对象启动一个线程 打开一个文件 并等待来自其他类的输入 当它接收输入时 会将其写入磁盘 基本上 它是一个线程安全的数据记录类 这是奇怪的部分 当我在使用该对象的设计器 Visual Studio 2008 中打开表单时 就会创建文件
  • MongoDB 多维数组投影

    我刚刚开始学习 MongoDB 找不到解决我的问题的方法 得到那个文件 gt db test insert name Anika arr 11 22 33 44 请注意 arr 字段 它是一个多维数组 现在我正在寻找一个仅返回 arr 0
  • 非 PIE 二进制文件 - 可执行文件“项目名称”不是位置无关的可执行文件。

    我将二进制文件上传到 iTunes Connect 它经过验证并接受发布到 App Store 我收到一封来自 Apple 的电子邮件 称我的应用程序是无效的二进制文件 亲爱的开发者 我们发现您最近的交货存在一个或多个问题 项目名 要处理您
  • 字节 vs 字符 vs 单词 - n-gram 的粒度是什么?

    至少可以考虑 3 种类型的 n gram 来表示文本文档 字节级 n 元语法 字符级 n 元语法 词级 n 元语法 我不清楚应该使用哪一个来完成给定的任务 聚类 分类等 我在某处读到 当文本包含拼写错误时 字符级 n gram 优于单词级