如何对 pandas 数据框中的字符串进行词形还原？

2023-12-25

我有一个 Python Pandas 数据框，我需要对其中两列中的单词进行词形还原。我正在使用 spacy 来实现这一点。

import spacy
nlp = spacy.load("en")

我正在尝试基于此示例使用词形还原（效果非常好）：

doc3 = nlp(u"this is spacy lemmatize testing. programming books are more better than others")
for token in doc3: 
    print (token, token.lemma, token.lemma_)

我已经重写了它以循环遍历数据框中一列的每一行：

for row in example['col1']:
    for token in row:
        print(token.lemma_)

这是可行的，但是，我无法弄清楚如何用词形还原的单词替换 col1 中的单词。

我已经尝试过，它不会返回错误，但也不会替换任何单词。知道出了什么问题吗？

for row in example['col1']:
    for token in row:
        token = token.lemma_

在最后for代码循环中，您重复分配给变量token它的属性token.lemma_然后一次又一次地这样做（在每次迭代时覆盖它并且不跟踪以前的值）。

相反，假设您的数据框包含字符串，如

example = pd.DataFrame({"col1":["this is spacy lemmatization testing.", "some programming books are better than others", "sounds like a quote from the Smiths"]})

apply列表推导式可以完成以下工作：

example["col1"].apply(lambda row: " ".join([w.lemma_ for w in nlp(row)]))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

spacy

lemmatization

如何对 pandas 数据框中的字符串进行词形还原？的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Python 中将列表元素作为单独的项目返回

Stackoverflow 的朋友们大家好我有一个计算列表的函数我想单独返回列表的每个元素如下所示接收此返回的函数旨在处理未定义数量的参数 def foo my list 1 2 3 4 return 1 2 3 4 列表中的元素数
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
我应该使用 Python 双端队列还是列表作为堆栈？ [复制]

这个问题在这里已经有答案了我想要一个可以用作堆栈的 Python 对象使用双端队列还是列表更好元素数量较少还是数量较多有什么区别您的情况可能会根据您的应用程序和具体用例而有所不同但在一般情况下列表非常适合堆栈 append is
更好地相当于这个疯狂的嵌套 python for 循环

for a in map for b in map a for c in map b for d in map c for e in map d print a b c d e 上面的代码用于创建图中一定长度的所有路径 map a 表示从
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
Pycharm 在 os.path 连接上出现“未解析的引用”

将pycharm升级到2018 1 并将python升级到3 6 5后 pycharm报告未解析的引用 join 最新版本的 pycharm 不会显示以下行的任何警告 from os path import join expanduser
GUI（输入和输出矩阵）？

我需要创建一个 GUI 将数据输入到矩阵或表格中并读取此表单数据完美的解决方案是限制输入表单仅允许float 例如 A 1 02 0 25 0 30 0 515 0 41 1 13 0 15 1 555 0 25 0 14 1 21 2
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
如何使用 Python 3 检查目录是否包含文件

我到处寻找这个答案但找不到我正在尝试编写一个脚本来搜索特定的子文件夹然后检查它是否包含任何文件如果包含则写出该文件夹的路径我已经弄清楚了子文件夹搜索部分但检查文件却难倒了我我发现了有关如何检查文件夹是否为空的多个建议并且我尝
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
等待子进程使用 os.system

我用了很多os system在 for 循环内调用创建后台进程如何等待所有后台进程结束 os wait告诉我没有子进程 ps 我使用的是Solaris 这是我的代码 usr bin python import subprocess imp
在virtualenv中下载sqlite3

我正在尝试使用命令创建应用程序python3 manage py startapp webapp但我收到一条错误消息 django core exceptions ImproperlyConfigured 加载时出错 pysqlite2 或
如何使用 PrimaryKeyRelatedField 更新多对多关系上的类别

Django Rest 框架有一个主键相关字段 http www django rest framework org api guide relations primarykeyrelatedfield其中列出了我的 IDmany to m

随机推荐

脚本错误：溢出：'CInt' - VBScript

将计数器添加到 5 位以上的下一个数字时有溢出如果是 5 位数字则不会出现错误我用的是VBScript Counter CInt Counter CInt Qty 我想在分子中使用 7 位数字如何解决这个问题呢很确定这个问题之前
使用 class-validator 包在 Nest.js 创建用于图像上传的自定义验证器

我想验证 Nest js 中文件的 mimetype 但我不能 UseInterceptors FileInterceptor image Post upload profile photo async uploadProfilePhoto
为什么 el.style.backgroundImage 在此功能上下文中不起作用？

我针对这个问题写了一个答案根据 url 新背景 https stackoverflow com questions 13000944 new background according to url 我在答案中发布的代码是检查 URL 中是
城市飞艇在起飞时坠毁。非法参数异常

我在 Application onCreate 中的代码该应用程序崩溃于UAirship takeoff this options 请帮忙 public class LiveVideoApplication extends Applica
React：如何仅显示特定 div 的模式弹出窗口

为了更清楚地说基本上我想做的就是像亚马逊一样将会有一堆产品一旦您单击该产品只有该产品及其详细信息将显示在弹出模态上就我而言我已将 3 个数据存储在一个数组中我已将其映射出来这将创建 3div 和 3Modal Popup 每
重新排列字符串中字符的 C# 算法

我想要一个 C 算法来重新排列长度动态的字符串中的字符很难找到一个但我知道一定有一个该算法必须重新排列元素以在所有可能的组合中形成新的字符串例如 cat 会产生以下结果猫 cta tca tac 行为 atc 这是一个相当常见的
如何挑选出发送到仅采用可变参数的宏的第一个参数

我尝试获取发送到可变参数宏的第一个实际参数这是我尝试过的在 VS2010 中不起作用 define FIRST ARG N N define MY MACRO decltype FIRST ARG VA ARGS 当我查看预处理器输出时
Python 中的 MongoDB 通知

我正在将 MongoDB 与 Python Web 应用程序一起使用我想知道来自 mongodb 的通知无论我在 mongodb 中进行了更改我正在使用代码 from pymongo import Connection import
无法访问类中的 Winforms 控件

我目前正在使用 Visual studio 2008 使用 C 开发一个小型 Windows 窗体项目我已向项目添加了一个自定义类但在该类中我无法访问表单控件如列表框文本框按钮以便以编程方式更改其属性该类文件包含 using
如何使用 POST 请求将动态获取的输入数据发送到服务器

import React Component from react import Link from react router class Modals extends Component constructor props super p
为什么 Windows Phone 7 模拟器比 iPhone OS 模拟器慢？

我无意在 iPhone 与 Windows Phone 7 之间发起战争也无意反对 Windows Phone 7 但我注意到我的两台计算机上的 Windows Phone 7 模拟器 Beta 版和 CTP 都滞后就像在蹩脚机器上运行
在 Rails 中，什么会导致一个用户拥有另一个用户的会话？

我有一个 Rails 应用程序它与使用 Restful Authentication 的身份验证系统一起使用无需任何修改用户报告发现自己以错误的用户身份登录至少在一个案例中这是他们的第一个页面视图之前从未登录过他们的会话 ID
菜单切换按钮在 bootstrap 4 中不起作用

In bootstrap 4当标题变得响应时面包屑按钮无法按原样工作我已经包括了Bootstrap 4 CSS和引导程序 4js 请帮我解决这个问题 Code navbar height 100px
无法访问 Azure ML 中安装的 python 包

我正在尝试将预先训练的 ML 模型另存为 h5 文件部署到 Azure ML 我创建了一个 AKS 集群并尝试部署模型如下所示 from azureml core import Workspace from azureml core
使用 PyQt 获取显示器序列号

我帮助开发一个使用 PyQt 5 的 FOSS 应用程序它是一个双屏应用程序我想跟踪已连接的显示器并在它们断开连接时保留设置我们正在使用QScreen https doc qt io qt 5 qscreen html对于我们需要的
到底如何在 Asp.NET MVC 4 中使用角色？

我已经阅读了大量的文章和论坛但我仍然无法弄清楚我正在使用 Visual Studio Express 2012 for Web 和 MVC4 Razor Entity Framework CodeFirst 构建一个互联网应用程序据我
我的事件日志充满了 ViewState 无效和未处理的异常

我的网站上有 HealthMonitoring 我的 90 的页面都是以这种格式访问的 http www itsmywebsite com showproduct aspx id somenumber 我正在检查 WebEvents eve
Ansible 发出有关 localhost 的警告

我正在运行以下命令ansible剧本 hosts localhost connection local vars files vars config values yaml gather facts no tasks name Set co
z-index 不适用于固定元素

当我偶然发现这个有趣的事实时我正在编写代码 z index不适用于固定元素因此固定元素将始终位于前面有没有办法将非固定元素放置在固定元素前面 Thanks fixed background color red width 500px
如何对 pandas 数据框中的字符串进行词形还原？

我有一个 Python Pandas 数据框我需要对其中两列中的单词进行词形还原我正在使用 spacy 来实现这一点 import spacy nlp spacy load en 我正在尝试基于此示例使用词形还原效果非常好 doc3

如何对 pandas 数据框中的字符串进行词形还原？

如何对 pandas 数据框中的字符串进行词形还原？ 的相关文章

随机推荐

热门标签

如何对 pandas 数据框中的字符串进行词形还原？的相关文章