从 python 数据帧列表中删除重复项

2024-04-04

我有一个 pandas df，其中每一行都是单词列表。该列表有重复的单词。我想删除重复的单词。

我尝试在 for 循环中使用 dict.fromkeys(listname) 来迭代 df 中的每一行。但这将单词分成字母表

filepath = "C:/abc5/Python/Clustering/output2.csv"
df = pd.read_csv(filepath,encoding='windows-1252')

df["newlist"] = df["text_lemmatized"]
for i in range(0,len(df)):
    l = df["text_lemmatized"][i]
    df["newlist"][i] = list(dict.fromkeys(l))

print(df)

预期结果是==>

['clear', 'pending', 'order', 'pending', 'order']   ['clear', 'pending', 'order']
 ['pending', 'activation', 'clear', 'pending']   ['pending', 'activation', 'clear']

实际结果是

['clear', 'pending', 'order', 'pending', 'order']  ...   [[, ', c, l, e, a, r, ,,  , p, n, d, i, g, o, ]]
['pending', 'activation', 'clear', 'pending', ...  ...  [[, ', p, e, n, d, i, g, ,,  , a, c, t, v, o, ...

Use set删除重复项。

而且你也不需要 for 循环

  df["newlist"] = list(set( df["text_lemmatized"] ))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

从 python 数据帧列表中删除重复项的相关文章

Flask 和 uWSGI - 无法加载应用程序 0 (mountpoint='')（找不到可调用或导入错误）

当我尝试使用 uWSGI 启动 Flask 时出现以下错误我是这样开始的 gt cd gt root localhost uwsgi socket 127 0 0 1 6000 file path to folder run py ca
keras加载模型错误尝试将包含17层的权重文件加载到0层的模型中

我目前正在使用 keras 开发 vgg16 模型我用我的一些图层微调 vgg 模型拟合我的模型训练后我保存我的模型model save name h5 可以毫无问题地保存但是当我尝试使用以下命令重新加载模型时load mod
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
运行多个 scrapy 蜘蛛的正确方法

我只是尝试使用在同一进程中运行多个蜘蛛新的 scrapy 文档 http doc scrapy org en 1 0 topics practices html但我得到 AttributeError CrawlerProcess objec
使用 Pycharm 在 Windows 下启动应用程序时出现 UnicodeDecodeError

问题是当我尝试启动应用程序 app py 时我收到以下错误 UnicodeDecodeError utf 8 编解码器无法解码位置 5 中的字节 0xb3 起始字节无效整个文件app py coding utf 8 from flask
IRichBolt 在storm-1.0.0 和 pyleus-0.3.0 上运行拓扑时出错

我正在运行风暴拓扑 pyleus verbose local xyz topology jar using storm 1 0 0 pyleus 0 3 0 centos 6 6并得到错误线程 main java lang NoClass
将数据框中重叠的范围合并到唯一的组中

我有一个 n 行 3 的数据框 df lt data frame start c 178 400 983 1932 33653 end c 5025 5025 5535 6918 38197 group c 1 1 2 2 3 df sta
python 集合可以包含的值的数量是否有限制？

我正在尝试使用 python 设置作为 mysql 表中 ids 的过滤器 python集存储了所有要过滤的id 现在大约有30000个这个数字会随着时间的推移慢慢增长我担心python集的最大容量它可以包含的元素数量有限制吗您最大
Geopandas 设置几何图形：MultiPolygon“等于 len 键和值”的 ValueError

我有 2 个带有几何列的地理数据框我将一些几何图形从 1 个复制到另一个这对于多边形效果很好但对于任何有效多多边形都会返回 ValueError 请指教如何解决这个问题我不知道是否如何为什么应该更改 MultiPolygon
使用 OpenPyXL 迭代工作表和单元格，并使用包含的字符串更新单元格[重复]

这个问题在这里已经有答案了我想使用 OpenPyXL 来搜索工作簿但我遇到了一些问题希望有人可以帮助解决以下是一些障碍待办事项我的工作表和单元格数量未知我想搜索工作簿并将工作表名称放入数组中我想循环遍历每个数组项并搜索包含特
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
Python：计算字典的重复值

我有一本字典如下 dictA unit1 test1 alpha unit1 test2 beta unit2 test1 alpha unit2 test2 gamma unit3 test1 delta unit3 test2 gamm
如何从没有结尾的管道中读取 python 中的 stdin

当管道来自打开时不知道正确的名称我无法从 python 中的标准输入或管道读取数据文件我有作为例子管道测试 py import sys import time k 0 try for line in sys stdin k k
glpk.LPX 向后兼容性？

较新版本的glpk没有LPXapi 旧包需要它我如何使用旧包例如COBRA http opencobra sourceforge net openCOBRA Welcome html 与较新版本的glpk 注意COBRA适用于 MATL
如何使用google colab在jupyter笔记本中显示GIF？

我正在使用 google colab 想嵌入一个 gif 有谁知道如何做到这一点我正在使用下面的代码它并没有在笔记本中为 gif 制作动画我希望笔记本是交互式的这样人们就可以看到代码的动画效果而无需运行它我发现很多方法在 Goo
使用基于正则表达式的部分匹配来选择 Pandas 数据帧的子数据帧

我有一个 Pandas 数据框它有两列一列进程参数列包含字符串另一列值列包含相应的浮点值我需要过滤出部分匹配列过程参数中的一组键的子数据帧并提取与这些键匹配的数据帧的两列 df pd DataFrame Proce
在 Python 类中动态定义实例字段

我是 Python 新手主要从事 Java 编程我目前正在思考Python中的类是如何实例化的我明白那个 init 就像Java中的构造函数然而有时 python 类没有 init 方法在这种情况下我假设有一个默认构造函数就像
Python - 字典和列表相交

给定以下数据结构找出这两种数据结构共有的交集键的最有效方法是什么 dict1 2A 3A 4B list1 2A 4B Expected output 2A 4B 如果这也能产生更快的输出我可以将列表不是 dict1 组织到任何其他数
Python：元类属性有时会覆盖类属性？

下面代码的结果让我感到困惑 class MyClass type property def a self return 1 class MyObject object metaclass MyClass a 2 print MyObject

随机推荐

Django+MongoDB 与 Node.js+MongoDB

我已经建立并运行了一个带有使用 Python Django MySQL 构建的同步服务的网站很长一段时间以来我一直在关注 Node js 和 MongoDB 方面我即将做出决定将系统的一部分迁移到 MongoDB 该系统托管来自用户
在回发期间保留 C# 对象

我有一个 asp net 页面其中包含 C 代码隐藏它在 Page Load 方法中执行一些操作例如查询数据库并进行一些其他调用以使用数据填充对象然后我在页面上显示这些数据这一切都很好我设置了几个回发以便当单击列表框中的值时
R中按字符串列名聚合

我想按两列对 data frame 中的数据进行分组然后对特定的第三列进行求和例如 gt aggregate mpg gear cyl data mtcars FUN sum gear cyl mpg 1 3 4 21 5 2 4 4
GUI 开发人员如何处理可变像素密度？

当今的显示器在尺寸和分辨率方面具有相当大的范围例如我的 34 5 厘米 19 5 厘米显示屏对角线为 39 6 厘米或 15 6 英寸具有 1366 768 像素而对角线为 15 英寸的 MacBook Pro 第三代具有 28
使用 dplyr 将组汇总为区间

H 我有一个像这样的数据框 d lt data frame v1 seq 0 9 9 0 1 v2 rnorm 100 v3 rnorm 100 gt head d v1 v2 v3 1 0 0 0 01431916 0 5005415 2
如何使用 JodaTime 获取一年中的天数？

我已尝试以下方法但无济于事 new Period Years ONE getDays new Period 1 0 0 000 getDays 我想要的答案显然是365 你想要的答案并不明显365 它是365 or 366 您在示例中没有考
Rancher - 如何公开我的服务？

我有一个正在运行的 Rancher 设置如下所示主机运行牧场主 https github com rancher rancher容器在公共IP上无法从 Internet 访问专用网络 10 1 1 0 24 中的节点我的目标是使
bootstrap-vue 选择带有过滤器选项的组件？

在带有 bootstrap vue 的 vue 项目中我搜索选择组件的工作原理https bootstrap vue js org docs components form select https bootstrap vue js or
在同一个“分配”对象上多次调用初始化程序是否安全？

我可以构建一个UIImageView对象与myImageView UIImageView alloc initWithImage image 如果我想更改 UIImageView 上的图像则影响显示的应用程序活动如下我可以通过重新分配它
现代 x86 成本模型

我正在编写一个带有 x86 后端的 JIT 编译器并一边学习 x86 汇编程序和机器代码我大约 20 年前使用过 ARM 汇编器对这些架构之间成本模型的差异感到惊讶具体来说内存访问和分支在 ARM 上的成本很高但等效的堆栈操作和
当模态弹出窗口打开时，防止移动“后退按钮”退出网站，而是关闭弹出窗口

当模式弹出对话框打开时即使我添加关闭按钮通常是右上角的 X 移动设备上的一些用户也会使用移动设备的后退按钮来关闭弹出窗口但这将退出该网站如何让手机后退按钮关闭弹窗而不是退出网站 document getElementById
Firebase - 更改我的项目的国家/地区

我在 firebase 中创建项目时错误地选择了错误的国家地区正如你在这里看到的这可以解决吗我知道项目 ID 无法更改而且我喜欢我选择的 ID As 文档说 https firebase google com support gu
Apollo 3 分页与字段策略

有人可以提供使用 Apollo Client 3 0 字段策略实现分页的示例吗我一直在遵循文档中的示例来实现无限滚动但在我的控制台中我收到以下警告 The updateQuery callback for fetchMore is de
有没有比输入 | 更快的方法来计算 powershell 中的行数？测量对象[重复]

这个问题在这里已经有答案了我使用的是 macbook m1 当我使用本机时wc l file我闪电般地得到结果几乎可以肯定是因为我可以直接传递文件但是我不知道如何使用 powershell 执行此操作并且我被迫将数据汇集到stdo
UISwipeGestureRecognizer 被调用两次

我正在实施的视图遇到问题这是一个在 CATiledLayer 中显示 pdf 页面的视图该平铺视图位于 UISCrollView 内部我让视图控制自身作为 ZoomingPDFView 苹果示例我做了一些修改以便在未启用滚动时识别
我如何使用 Python Tornado 通过 HTTP 实现“tail”？

我正在尝试使用 Python 通过 HTTP 实现类似 tail f 的东西目前我正在尝试使用 Tornado 但它一次只能处理一个连接即使我执行异步请求也是如此 import socket import subprocess imp
Android：如何创建带有文本的闪屏

如何向启动屏幕添加一些文本我的启动画面不是一个单独的活动我不想将其作为标准活动我按照这篇文章创建了它 https android jlelse eu launch screen in android the right way aca
在php中计算地球上两个坐标之间的行驶距离

好吧我正在基于位置的应用程序中工作我需要在服务器端找到地球上两个位置之间的驾驶距离我正在用 php 编写 Web 服务到目前为止我可以使用半正弦公式计算空中距离但现在我想计算行驶距离这个问题可能有重复但我无法找到任何帮助来计
如何使用 Java 返回部分 JSON 响应？

我正在构建一个 RESTful API 并希望为开发人员提供选择在 JSON 响应中返回哪些字段的选项这篇博文 http blog apigee com detail restful api design can your api giv
从 python 数据帧列表中删除重复项

我有一个 pandas df 其中每一行都是单词列表该列表有重复的单词我想删除重复的单词我尝试在 for 循环中使用 dict fromkeys listname 来迭代 df 中的每一行但这将单词分成字母表 filepath C

从 python 数据帧列表中删除重复项

从 python 数据帧列表中删除重复项 的相关文章

随机推荐

热门标签

从 python 数据帧列表中删除重复项的相关文章