NLTK 感知器标记器的标记集是什么？

2024-04-14

NLTK 感知器标记器的标记集是什么？预训练模型使用的语料是什么？

我尝试从NLTK网站上找到官方信息。但他们没有那个。

From https://github.com/nltk/nltk/pull/1143 https://github.com/nltk/nltk/pull/1143，我们看到它是一个来自https://spacy.io/blog/part-of-speech-pos-tagger-in-python https://spacy.io/blog/part-of-speech-pos-tagger-in-python

训练后的标签集tagdict包括以下标签：

>>> from nltk.tag import PerceptronTagger
>>> tagger = PerceptronTagger()
>>> set(tagger.tagdict.values())
set(['PRP$', 'VBG', 'VBD', '``', 'VBN', "''", 'VBP', 'WDT', 'JJ', 'WP', 'VBZ', 'DT', '#', '$', 'NN', ')', '(', ',', '.', 'TO', 'PRP', 'RB', ':', 'NNS', 'NNP', 'VB', 'WRB', 'CC', 'CD', 'EX', 'IN', 'WP$', 'MD', 'JJS', 'JJR'])

完整的标签集是：

>>> sorted(tagger.classes)
['#', '$', "''", '(', ')', ',', '.', ':', 'CC', 'CD', 'DT', 'EX', 'FW', 'IN', 'JJ', 'JJR', 'JJS', 'LS', 'MD', 'NN', 'NNP', 'NNPS', 'NNS', 'PDT', 'POS', 'PRP', 'PRP$', 'RB', 'RBR', 'RBS', 'RP', 'SYM', 'TO', 'UH', 'VB', 'VBD', 'VBG', 'VBN', 'VBP', 'VBZ', 'WDT', 'WP', 'WP$', 'WRB', '``']

这是 Penn Treebank 标签集，来自：https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html https://www.ling.upenn.edu/courses/Fall_2003/ling001/penn_treebank_pos.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NLTK

NLTK 感知器标记器的标记集是什么？的相关文章

NLTK 资源的 Pyodide 文件系统：丢失文件

我正在尝试使用NLTK https www nltk org 在浏览器中感谢pyodide https pyodide org en stable Pyodide 启动良好成功加载 NLTK 打印其版本尽管如此虽然包下载看起来不错
对停用词进行标记，生成的标记 ['ha', 'le', 'u', 'wa'] 不在 stop_words 中

我正在使用 Python 制作一个聊天机器人代码 import nltk import numpy as np import random import string f open home hostbooks ML stewy spee
将朴素贝叶斯训练分类器保存在 NLTK 中

我对如何保存经过训练的分类器有点困惑例如每次我想使用分类器时重新训练它显然非常糟糕且缓慢我如何保存它并在需要时再次加载它代码如下提前感谢您的帮助我正在使用 Python 和 NLTK 朴素贝叶斯分类器 classifier nl
使用 NLTK 和德语语料库从名词获取性别

我正在尝试 NTLK 我的问题是图书馆是否可以检测德语名词的性别我想接收此信息以确定文本是否是性别中立的浏览此处获取更多信息 https en wikipedia org wiki Gender neutrality in langua
显示 NLTK 中的标签概率/置信度

我正在使用 Python NLTK 库中的 MaxEnt 分类器对于我的数据集我有许多可能的标签并且正如预期的那样 MaxEnt 仅返回一个标签我已经训练了我的数据集并获得了大约 80 的准确率我还在未知数据项上测试了我的模型结
使用 NLTK 解析 CoNLL-U 文件

我知道有CoNLL U https universaldependencies org docs format htmlPython 中的解析器我只是想得到确认NLTK没有解析 CoNLL U 或具有依赖语法的其他 CoNLL 格式的本
如何从另一种语言单词创建英文字母字符串？

我需要找到一种方法将某些语言的单词翻译重写为英语例如俄语听起来像privet 用英语讲含义和语法并不重要但我希望它听起来更相似一切都应该用Python编写我在网上努力查找但没有找到好的方法例如类似这样的事情 tran
使用 NLTK 的块解析器匹配单词

NLTK的块解析器的正则表达式可以匹配POS标签但是它们也可以匹配特定的单词吗所以假设我想用名词后跟动词 left 来对任何结构进行分块将此模式称为 L 例如句子 the DT dog NN left VB 应被分块为 S DT
“LazyCorpusLoader”对象不可迭代

以下示例创建一个字谜词典然而它抛出一个TypeError LazyCorpusLoader object is not an iterator import nltk from nltk corpus import words anag
如何在Python中使用保存模型进行预测

我正在 python 中进行文本分类我想在生产环境中使用它来对新文档进行预测我正在使用 TfidfVectorizer 来构建 bagofWord 我在做 X train vectorizer fit transform clean d
非英语单词的词形还原？

我想应用词形还原来减少单词的屈折形式我知道对于英语 WordNet 提供了这样的功能但我也对对荷兰语法语西班牙语和意大利语单词应用词形还原感兴趣有没有可靠且可靠的方法来解决这个问题谢谢你 Try pattern来自 CLIPS
如何调整 NLTK 句子标记器

我正在使用 NLTK 来分析一些经典文本但我在按句子标记文本时遇到了麻烦例如这是我从以下内容中得到的片段莫比迪克 http www gutenberg org cache epub 2701 pg2701 txt import nlt
下载NLTK数据时出现PermissionError

我使用 Anaconda 的 Python 3 6 3 发行版它安装了 NLTK 但没有安装我项目所需的 NLTK DATA 问题是当我尝试安装时 nltk download I get PermissionError Errno 13
如何提取数字（以及比较形容词或范围）

我正在用 Python 开发两个 NLP 项目它们都有类似的任务提取数值和比较运算符来自句子如下所示 greater than 10 weight not more than 200lbs height in 5 7 feets fas
用于估计（一元）困惑度的 NLTK 包

我正在尝试计算我所拥有的数据的困惑度我正在使用的代码是 import sys sys path append usr local anaconda lib python2 7 site packages nltk from nltk co
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
如何在 Python 中使这个随机文本生成器更加高效？

我正在研究一个随机文本生成器不使用马尔可夫链目前它的工作没有太多问题首先这是我的代码流程输入一个句子作为输入这称为触发字符串被分配给一个变量获取触发字符串中最长的单词在所有古腾堡计划数据库中搜索包含该单词的句子无论大写还
在Python中确定句子中2个单词之间的邻近度

我需要确定 Python 句子中两个单词之间的接近度例如在下面的句子中 the foo and the bar is foo bar 我想确定单词之间的距离foo and bar 确定之间出现的单词数foo and bar 请注意该词
手动安装开放多语言世界网 (NLTK)

我正在使用一台只能访问专用网络并且无法从命令行发送指令的计算机因此每当我必须安装 Python 包时我都必须手动安装我什至不能使用 Pypi 幸运的是 NLTK 允许我手动下载语料库从here https www nltk org
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars

随机推荐

如何使用可分页Spring数据JPA选择不同的值？

我想在我的表中使用分页进行不同的选择但它声称存在此错误有谁知道如何解决它 Error org postgresql util PSQLException ERROR for SELECT DISTINCT ORDER BY expres
需要生成的 JSON 文档与 iOS 中 NSMutableDictionary 中插入的对象的顺序相同

我正在从 NSMutableDictionary 生成一个 JSON 文档该文档由指向 NSStrings 的键以及两个依次指向其他 NSMutableDictionary 的键组成我的问题是当我输出 JSON 文档时我注意到 JS
如何在iOS Objective-C中实现php的openssl_encrypt()方法？

我想实现php的openssl encrypt 中的方法iOS Objective C 因此我尝试了这段代码 import
在经典 ASP 中设置 SessionId？

在 PHP 中我可以通过使用 Session id 作为 setter 来选择使用特定的 Session Classic ASP VBScript 中有类似的功能吗我有一个 VBScript 站点根据页面的不同该站点可以直接从浏览器
批量执行R脚本

我无法从 Windows 命令行获取脚本输入以下命令 C Program Files RStudio bin rstudio exe CMD BATCH vanilla slave E myfile R 打开 Rstudio 和相关脚本
http.max_content_length 的 Amazon OpenSearch 等效项是什么？我可以增加它吗？

在非 AWS 管理的 ElasticSearch 中您可以增加以下值http max content length configuration https www elastic co guide en elasticsearch ref
获取 ASP.NET MVC 4 中视图的嵌套级别

我一直在寻找一种方法来确定视图的嵌套级别我发现确定视图嵌套级别 https stackoverflow com questions 4982588 determine view nesting level在 stackoverflo
ROUGE评价方法给出零值

我已经按照中所述设置了所有参数http kavita ganesan com rouge howto http kavita ganesan com rouge howto 但我得到的精确召回率和 f 1 值为零请帮帮我我能做什么如果
创建自定义注释作为框架注释的别名？

是否可以创建一个自定义的别名注释来代替 SuppressWarnings unused EventBus public void onEvent SomeMessage msg like EventBusListener public vo
是否应该重用 SqlConnection、SqlDataAdapter 和 SqlCommand 对象？

我正在使用一个 DAL 对象该对象的布局类似于以下代码我简化了很多代码只是为了展示设置 public class UserDatabase IDisposable private SqlDataAdapter UserDbAdapter
从字符串中删除包含特定字符的行

我正在开发一个 Java 项目来读取 java 类并将所有 DOC 注释提取到 HTML 文件中我无法清理一串我不需要的线路假设我有一个字符串例如 Bla bla bla bla bla bla CODE CODE CODE Bla
检查客户端是否可以访问资源的 RESTful 方法是什么？

我正在尝试确定 REST API 中用于确定客户端是否可以访问特定资源的最佳实践两个简单的示例场景电话簿查找服务客户端通过访问例如查找电话号码 GET http host directoryEntries numbers 12345
抛出自定义异常并显示来自自定义 AuthenticationProvider 的错误消息

这是后续这个问题 https stackoverflow com questions 6412591 hooking into pre authentication with spring security core 我有一个扩展 Abst
统计foreach循环中当前迭代次数的百分比

我正在尝试构建一个脚本来获取循环迭代的当前百分比 I have
正则表达式与 antMatcher URL 模式不匹配

我试图忽略身份验证中的 url 我尝试了多种不同的模式但 java 似乎无法识别它们我的配置如下所示 Override public void configure WebSecurity web throws Exception sup
如果可能的话，如何在 C 中定义 2 位数字？

对于我的大学过程我正在模拟一个称为随机顺序吸附的过程我必须做的一件事是随机地将正方形不能重叠放置到格子上直到没有更多空间为止重复该过程几次以找到平均干扰覆盖率基本上我正在对一个大的整数数组执行操作其中存在 3 个可能的值
Swift 相当于 @encode

是否有与 Objective C 相当的 Swift encode 例如 encode void gt v 搜索一无所获不不存在因为在底层 Swift 类不使用 Objective C 内省来完成它们的工作不需要计算这个像 Obj
使用 Response.Redirect() 时出现线程中止异常

我在更新面板下的页面中编写了以下代码 protected void myGrid RowCommand object sender GridViewCommandEventArgs e try if e CommandName EditNa
从 SQL 中的存储过程获取 RETURN 值

我有一个存储过程它以 RETURN 值 0 或 1 结尾我想在另一个存储过程的 IF 语句中使用该值如何获取前一个存储过程的返回值并将其保存在后一个存储过程的变量中我找不到任何相关的东西所有问题都与在 C 中获取 RETURN 值
NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么预训练模型使用的语料是什么我尝试从NLTK网站上找到官方信息但他们没有那个 From https github com nltk nltk pull 1143 https github com nl

NLTK 感知器标记器的标记集是什么？

NLTK 感知器标记器的标记集是什么？ 的相关文章

随机推荐

热门标签

NLTK 感知器标记器的标记集是什么？的相关文章