NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？

2024-01-04

我将 NLTK WordNet Lemmatizer 用于词性标记项目，首先将训练语料库中的每个单词修改为其词干（就地修改），然后仅在新语料库上进行训练。然而，我发现词形还原器没有按我的预期运行。

例如，这个词loves被词形还原为love这是正确的，但是这个词loving遗迹loving即使在词形还原之后。这里loving就像“我喜欢它”这句话一样。

Isn't love变形词的词干loving？同样，许多其他“ing”形式在词形还原后仍保持原样。这是正确的行为吗？

还有哪些其他准确的词形还原器？（不需要在 NLTK 中）是否有形态分析器或词形还原器在决定词干时也考虑单词的词性标记？例如，这个词killing应该有kill作为茎如果killing用作动词，但应该有killing如果它用作名词，则作为词干（如the killing was done by xyz).

WordNet 词形还原器does考虑 POS 标签，但它并不能神奇地确定它：

>>> nltk.stem.WordNetLemmatizer().lemmatize('loving')
'loving'
>>> nltk.stem.WordNetLemmatizer().lemmatize('loving', 'v')
u'love'

如果没有 POS 标签，它会假设您提供的所有内容都是名词。所以在这里它认为你正在向它传递名词“love”（如“sweetlove”）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NLP

NLTK

NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？的相关文章

为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
VSCode Settings.json 丢失

我正在遵循教程并尝试将 vscode 指向我为 Scrapy 设置的虚拟工作区但是当我在 VSCode 中打开设置时工作区设置选项卡不在用户设置选项卡旁边我还尝试通过以下方式手动转到文件 APPDATA Code User s
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
当字段是数字时怎么说...在 mongodb 中匹配？

所以我的结果中有一个名为城市的字段结果已损坏有时它是一个实际名称有时它是一个数字以下代码显示所有记录 db zips aggregate project city substr city 0 1 sort city 1 我需要修
Python - 如何确定解析的 XML 元素的层次结构级别？

我正在尝试使用 Python 解析 XML 文件中具有特定标记的元素并生成输出 excel 文档该文档将包含元素并保留其层次结构我的问题是我无法弄清楚每个元素解析器在其上迭代的嵌套深度 XML 示例摘录 3 个元素它们可以任意嵌套
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
每当使用 import cv2 时 OpenCV 都会出错

我在终端上使用 pip3 install opencv contrib python 安装了 cv2 并且它工作了但是每当我尝试导入 cv2 或运行导入了 cv2 的 vscode 文件时在 python IDLE 上它都会说 Trac
重新分配唯一值 - pandas DataFrame

我在尝试着assign unique值在pandas df给特定的个人 For the df below Area and Place 会一起弥补unique不同的价值观jobs 这些值将分配给个人总体目标是使用尽可能少的个人诀窍在于这
根据 Pandas 中的列表选择数据框行的子集

我有一个数据框df1并列出x In 22 import pandas as pd In 23 df1 pd DataFrame C range 5 B range 10 20 2 A list abcde In 24 df1 Out 24
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
python 对浮点数进行不正确的舍入

gt gt gt a 0 3135 gt gt gt print 3f a 0 314 gt gt gt a 0 3125 gt gt gt print 3f a 0 312 gt gt gt 我期待 0 313 而不是 0 312 有没有
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

JSLint 说“缺少基数参数”

我在这段 JavaScript 代码上运行 JSLint 它显示第 32 行第 30 行字符出现问题缺少基数参数这是有问题的代码 imageIndex parseInt id substring id length 1 1 这里有什么
iOS7 中的 UIRefreshControl 与 UICollectionView

在我的应用程序中我使用带有集合视图的刷新控件 UICollectionView collectionView UICollectionView alloc initWithFrame UIScreen mainScreen bounds
在 JSF 中使用绑定属性有什么优点？ [复制]

这个问题在这里已经有答案了请看下面的代码
为什么我应该使用 Runnable 而不是 Thread？ [复制]

这个问题在这里已经有答案了我刚刚学习了有关线程的理论还有Thread和Runnable class A extends Thread public void run while true System out println Hi cl
在 firestore 中按位置查询的最佳方式

我正在使用 Firebase 8 10 0 和 Vue js 2 6 14 我正在尝试在 Firestore 中查询距离我所在位置不到 3 公里的文档并发现我无法在 firestore 中执行此查询坦白说我很失望然后在观看视频后弗兰克
如何使用 Javascript 在浏览器中解析非 UTF8 XML？

我有一个用 big5 编码的 XML 字符串 atob PD94bWwgdmVyc2lvbj0iMS4wIiBlbmNvZGluZz0iYmlnNSIgPz48dGl0bGU pKSk5TwvdGl0bGU 以 UTF 8 格式我想提取内
Android 中如何检查应用程序是否为非系统应用程序？

我收到一份清单ApplicationInfo对象与packageManager getInstalledApplications 0 http developer android com reference android content
Joomla 2.5 Jquery 无法调用 null 的方法

大家好我正在使用 Joomla 2 5 和 Jquery 我在 chrome 控制台中遇到了这个奇怪的错误 Uncaught TypeError Cannot call method slideUp of null 这是index php
重复的“IInAppBillingService.aidl”文件 - 库 + 应用程序

近两个月以来我一直在寻找以下问题的解决方案我在我的应用程序中实现了一个库其中还包括 IInAppBillingService aidl 文件和 Google 的应用内计费库的其他部分当我尝试编译我的应用程序的发行版本时它只会抛出以
我如何知道 SwiftUI 按钮是否已启用/禁用？

没有isEnabledSwiftUI 按钮的属性我如何判断它是否已启用在常规 UIKit 中我会简单地做 if button isEnabeld true else 但没有 SwiftUI 等效项在视图内如果您希望对由 disab
我的 Ruby IRC 机器人无法连接到 IRC 服务器。我究竟做错了什么？

require socket server irc rizon net port 6667 nick Ruby IRC Bot channel 0x40 s TCPSocket open server port s print USER T
在 Facebook 应用程序之外打开网站链接

我已经找到了一种方法来检测页面是否已加载到 Facebook 应用程序内方法如下 var ua navigator userAgent navigator vendor window opera if ua indexOf FBAN gt
Python Jupyter Notebook：在类的 _repr_html_() 方法中嵌入交互式绘图

我试图在其中嵌入一个交互式图表 repr html 一个类的方法C 到目前为止我所尝试的方法似乎不适用于我的 Jupyter Notebook 情节蟒蛇这是一个使用示例图Plotly https plotly com python l
使用 Projection 的 Spring JPA 本机查询给出“ConverterNotFoundException”

我正在使用 Spring JPA 并且需要一个本机查询通过该查询我只需要从表中获取两个字段因此我尝试使用预测 https docs spring io spring data jpa docs current reference ht
多个线程对资源的独占访问

对于线程来说是否有相当于 SIGSTOP 和 SICONT 的东西我正在使用 pthreads 谢谢编辑我正在实现线程之间文件访问同步的粗略形式因此如果一个文件已被一个线程打开而另一个线程想要再次打开它我需要在第二个线程执行
Firefox 选择文本范围

一个简单的问题如何在 FireFox 中以编程方式选择页面的文本片段例如有一段文本用户单击按钮然后选择第 10 到 15 个符号就像用户以常规方式拖动鼠标一样在 Firefox 中您可以使用Range https devel
暂停应用程序后出现 com.android.volley.NoConnectionError

我正在使用 Google Volley 和 Gson 编写我的应用程序以使用 OkHttp 作为 HTTP Stack 与 REST 服务进行通信这在大多数情况下都工作得很好但是当我暂停我的应用程序并返回到它时 HTTP 请求无法处理
有没有办法在 Kubernetes 中保留传出流量的源端口？

在大多数 TCP 客户端服务器通信中客户端使用随机通用端口号进行传出流量但是我的客户端应用程序在 Kubernetes 集群内运行必须使用特定的端口号进行传出流量这是由于服务器的要求当应用程序在外部运行时这通常工作正常但在
如何在 Android 中以编程方式在小米手机安全应用程序中启用我的应用程序的自动启动选项

我的应用程序在除 MI 之外的所有移动设备上都得到了良好的评价因为MI限制了我的App后台服务的运行在安全中启用自动启动中的应用程序后它可以完美运行那么我可以通过编程方式在 MI Security App 中为我的应用程序启
NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？

我将 NLTK WordNet Lemmatizer 用于词性标记项目首先将训练语料库中的每个单词修改为其词干就地修改然后仅在新语料库上进行训练然而我发现词形还原器没有按我的预期运行例如这个词loves被词形还原为love这是

NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？

NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？ 的相关文章

随机推荐

热门标签

NLTK WordNet Lemmatizer：它不应该对单词的所有词形变化进行词形还原吗？的相关文章