尝试映射具有重复值的系列时出现 InvalidIndexError

2024-04-04

我正在尝试将医院名称映射到其英国邮政编码。我有这些医院（在英国称为“Trusts”）的脊柱手术的 csv，该 csv 是 kate_spine.csv

我从中导入一列（信任）以简化操作。

import pandas as pd
spine = pd.read_csv('~/Dropbox/Work/NNAP/Spine/Kate_W/kate_spine2.csv', usecols = ['Trust'])

显示导入：

spine.head()


Trust
0   THE WALTON CENTRE NHS FOUNDATION TRUST
1   CAMBRIDGE UNIVERSITY HOSPITALS NHS FOUNDATION ...
2   KING'S COLLEGE HOSPITAL NHS FOUNDATION TRUST
3   LEEDS TEACHING HOSPITALS NHS TRUST
4   NT424

这些是信任名称并有一个索引。我的邮政编码位于 csv all_all.csv 中。我将文件作为一列导入，也“信任”以简化。下面表格的格式很差，但邮政编码在那里。

postcodes_all = pd.read_csv('all_all.csv', index_col = 'Trust')
postcodes_all.head()

    Unnamed: 0  postcode
Trust       
MANCHESTER UNIVERSITY NHS FOUNDATION TRUST  0   M13 9WL
SOUTH TYNESIDE AND SUNDERLAND NHS FOUNDATION TRUST  1   SR4 7TP
WORCESTERSHIRE HEALTH AND CARE NHS TRUST    2   WR5 1JR
SOLENT NHS TRUST    3   SO19 8BR
SHROPSHIRE COMMUNITY HEALTH NHS TRUST   4   SY3 8XL

我正在尝试使用地图从 14,000 个 csv 中获取大约 200 个代码。这是我的代码：

spine['Trust'].map(postcodes_all['postcode'])

和错误：

InvalidIndexError                         Traceback (most recent call last)
<ipython-input-6-25212fe14f16> in <module>
----> 1 spine['Trust'].map(postcodes_all['postcode'])

~/anaconda3/lib/python3.7/site-packages/pandas/core/series.py in map(self, arg, na_action)
   3826         dtype: object
   3827         """
-> 3828         new_values = super()._map_values(arg, na_action=na_action)
   3829         return self._constructor(new_values, index=self.index).__finalize__(self)
   3830 

~/anaconda3/lib/python3.7/site-packages/pandas/core/base.py in _map_values(self, mapper, na_action)
   1275                 values = self.values
   1276 
-> 1277             indexer = mapper.index.get_indexer(values)
   1278             new_values = algorithms.take_1d(mapper._values, indexer)
   1279 

~/anaconda3/lib/python3.7/site-packages/pandas/core/indexes/base.py in get_indexer(self, target, method, limit, tolerance)
   2983         if not self.is_unique:
   2984             raise InvalidIndexError(
-> 2985                 "Reindexing only valid with uniquely" " valued Index objects"
   2986             )
   2987 

InvalidIndexError: Reindexing only valid with uniquely valued Index objects

Trust 列中的脊柱文件确实包含重复值，因为每行描述了 Trust 内各个医生的手术活动，并且该系列中最多有 10 名医生（因此有 10 个重复的 Trust 名称）。我想在提取唯一的信任名称后尝试此操作。理想情况下，我希望能够对其重复的系列进行此操作。

Trust 列中的脊柱文件确实包含重复值，因为每行描述了 Trust 内各个医生的手术活动，并且该系列中最多有 10 名医生（因此有 10 个重复的 Trust 名称）。

这就是问题所在。当索引重复时，pandas 不知道使用哪个值。请参阅下面的示例。

import pandas as pd

s = pd.Series(['cat', 'dog', 'rabbit', 'cat'])
s

## Out
0       cat
1       dog
2    rabbit
3       cat
dtype: object

s2 = pd.Series(['carnivore', 'omnivore', 'herbivore', 'carnivore'])
# Set the value of `s` as the index of `s2`, since map looks at the Series index.
s2.index = s
s2

## Out
cat       carnivore
dog        omnivore
rabbit    herbivore
cat       carnivore
dtype: object

由于有两次出现cat在索引中s2，pandas 不知道映射时使用哪个值s2 to s（您可以说动物与猫的进食行为存在一对二的映射）。因此，现在尝试使用地图会抛出InvalidIndexError：

s.map(s2)

## Out
---------------------------------------------------------------------------

InvalidIndexError                         Traceback (most recent call last)

<ipython-input-43-1950a0742767> in <module>()
----> 1 s.map(s2)


~/miniconda3/envs/ds/lib/python3.7/site-packages/pandas/core/series.py in map(self, arg, na_action)
   3826         dtype: object
   3827         """
-> 3828         new_values = super()._map_values(arg, na_action=na_action)
   3829         return self._constructor(new_values, index=self.index).__finalize__(self)
   3830 


~/miniconda3/envs/ds/lib/python3.7/site-packages/pandas/core/base.py in _map_values(self, mapper, na_action)
   1275                 values = self.values
   1276 
-> 1277             indexer = mapper.index.get_indexer(values)
   1278             new_values = algorithms.take_1d(mapper._values, indexer)
   1279 


~/miniconda3/envs/ds/lib/python3.7/site-packages/pandas/core/indexes/base.py in get_indexer(self, target, method, limit, tolerance)
   2983         if not self.is_unique:
   2984             raise InvalidIndexError(
-> 2985                 "Reindexing only valid with uniquely" " valued Index objects"
   2986             )
   2987 


InvalidIndexError: Reindexing only valid with uniquely valued Index objects

您需要检查重复值并决定使用哪一个。你可以这样做：

s2[s2.index.duplicated(keep=False)]

## Out
cat    carnivore
cat    carnivore
dtype: object

在这种情况下，两个值cat是相同的，我们可以摆脱其中任何一个（您的描述表明在您的情况下是相同的）。如果它们不同，您就必须选择保留哪一个。

# `~` negates/inverses the indexing
s2 = s2[~s2.index.duplicated()]
s2

## Out
cat       carnivore
dog        omnivore
rabbit    herbivore
dtype: object

s2现在有了动物与进食行为的一对一映射，我们可以安全地映射s2 onto s.

s.map(s2)

## Out
0    carnivore
1     omnivore
2    herbivore
3    carnivore
dtype: object

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

尝试映射具有重复值的系列时出现 InvalidIndexError 的相关文章

如何在 Matplotlib 饼图周围绘制箭头以将每个标签指向圆圈中各自的部分？

我一直在用 Matplotlib 绘制一些图表我有一个饼图想要在图表周围绘制箭头使每个标签都指向图表我有一个例子这是我当前的代码 import matplotlib pyplot as plt plt rcParams font
为什么 dataclasses.astuple 返回类属性的深层副本？

在下面的代码中astuple函数正在执行数据类的类属性的深层复制为什么它不能产生与函数相同的结果my tuple import copy import dataclasses dataclasses dataclass class Dem
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何使用 Selenium 和 ChromeDriver 解决 TypeError: 'module' object is not callable 错误 [重复]

这个问题在这里已经有答案了代码试验 from selenium import webdriver from selenium webdriver chrome options import Options as Chromeoptions
Python 3：将字符串转换为变量[重复]

这个问题在这里已经有答案了我正在从 txt 文件读取文本并且需要使用我读取的数据之一作为类实例的变量 class Sports def init self players 0 location name self players pla
导入错误：没有名为flask.ext.login的模块

我的flask login 模块有问题我已经成功安装了flask login模块另外从命令提示符我可以轻松运行此脚本不会出现错误 Python 2 7 r27 82525 Jul 4 2010 07 43 08 MSC v 1500
未知错误：Chrome 无法启动：异常退出

当我使用 chromedriver 对 Selenium 运行测试时出现此错误 selenium common exceptions WebDriverException Message unknown error Chrome fail
尽管我已在 python ctypes 中设置了信号处理程序，但并未调用它

我尝试过使用 sigaction 和 ctypes 设置信号处理程序我知道它可以与python中的信号模块一起使用但我想尝试学习当我向该进程发送 SIGTERM 时但它没有调用我设置的处理程序只打印终止为什么它不调用处理程序
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
pandas - 包含时间序列数据的堆积条形图

我正在尝试使用时间序列数据在 pandas 中创建堆积条形图 DATE TYPE VOL 0 2010 01 01 Heavy 932 612903 1 2010 01 01 Light 370 612903 2 2010 01 01 Me
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何以正确的方式为独立的Python应用程序制作setup.py？

我读过几个类似的主题但还没有成功我觉得我错过或误解了一些基本的事情这就是我失败的原因我有一个用 python 编写的应用程序我想在标准 setup py 的帮助下进行部署由于功能复杂它由不同的 python 模块组成但单独
如果 PyPy 快 6.3 倍，为什么我不应该使用 PyPy 而不是 CPython？

我已经听到很多关于PyPy http en wikipedia org wiki PyPy项目他们声称它比现有技术快 6 3 倍CPython http en wikipedia org wiki CPython口译员开启他们的网站 ht
如何将 Django 中的权限添加到模型并使用 shell 进行测试

我在模型中添加了 Meta 类并同步了数据库然后在 shell 中创建了一个对象它返回 false 所以我真的无法理解错误在哪里或者缺少什么是否在其他文件中可能存在某种配置 class Employer User Employer in
pandas.read_csv 将列名移动一倍

我正在使用位于的 ALL zip 文件here http www fec gov disclosurep PDownload do 我的目标是用它创建一个 pandas DataFrame 但是如果我跑 data pd read csv
将索引与值交换的最快方法

考虑pd Series s s pd Series list abcdefghij list ABCDEFGHIJ s A a B b C c D d E e F f G g H h I i J j dtype object 交换索引和值并

随机推荐

单元测试作为构建的一部分

我有一个 CMake 项目分为三个部分我的库的编译编译许多单元测试程序来测试这些库的每个精确子部分使用这些库编译程序示例 My question is about the 2nd part My unit tests executa
如何使用 django-filters 重命名（在 API 中公开）过滤器字段名称？

正如问题所述我正在尝试重命名 API 中公开的过滤器字段名称我有以下型号 class Championship Model class Group Model championship ForeignKey Championship c
qwt 图表示例 [关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案大家好我正在使用 qwt 我是新手我想使用 qwt 和 qt 创建者绘制图表我不知道要在我的 qt 项目中包含哪些库来绘制图表我已
在 Python 中下载、解压并读取 gzip 文件

我想在 Python 中下载提取和迭代文本文件而无需创建临时文件基本上这个管道但是在 python 中 curl ftp ftp theseed org genomes SEED SEED fasta gz gunzip proc
Array.prototype.filter.call(forms, function(form) 这是做什么的？

我很难完全理解这段代码是如何工作的这只是表单验证代码复制并从引导程序粘贴我的问题从这一行开始 var 验证 Array prototype filter call forms function form 在我看来它正在创建一个名为va
如果启用身份验证，Azure 上的查询/标头太大

我有一个在本地运行良好的节点快速应用程序我已将其上传到 Azure Web App 只要我不启用身份验证它就可以正常工作当我启用 AAD 身份验证时应用程序失败并显示状态 500 1011 错误请求我的网址中有很多查询参数如果
在 Git 中：为什么经常提交是件好事？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案所以我对 Git 和 DVCS 总体来说还很陌生而且我一直在到处读到至少在私有分支上一直提交总是好的问题是为什么我正在使用 Sour
纯Python四叉树实现

All 有一些使用 Python 实现四叉树的示例但我的问题是有谁知道用纯 python 编写的类在单个 py 文件中我可以轻松地将其包含在我的项目中这里列出了三个最受欢迎的软件包这些四叉树库中的任何一个都好吗 https sta
Silverlight：如何处理标准程序集

一个常见的 Silverlight 任务减小 xap 文件的大小有很多热门手册解释了如何使应用程序模块化但我没有找到任何人解释如何制作模块化标准库我的 xap 文件的最大部分 1 7Mb 当整体大小为 1 8Mb 时被标准程序
访问 Scala 中可用但 PySpark 中不可用的依赖项

我正在尝试访问 RDD 的依赖项在 Scala 中这是一个非常简单的代码 scala gt val myRdd sc parallelize 0 to 9 groupBy 2 myRdd org apache spark rdd RDD
Java 执行器无法对任务进行排队

我需要一个 Java 执行器如果正在处理其他任务它会拒绝任务我想不可能操纵工作队列大小有人可能会奇怪为什么我首先需要一个具有这种特征的执行者我需要能够轻松更改策略并允许非零队列大小有任何想法吗 Use a 线程池执行器 htt
对 href 使用 JavaScript 单引号和双引号

我在转义单引号和双引号时遇到问题hrefJavaScript 函数我里面有这段 JavaScript 代码href 就像是 a href a fileName doc true gt click this 现在由于双引号内的双引号无效
如何在 Sails.js 策略中使用错误处理程序回调？

问完后这个问题 https stackoverflow com questions 22160043 how to use a callback array as the handler for a sails js route 我发现我可
lubuntu 的洞察调试器有其他选择吗？

你能告诉我是否有其他选择洞察力调试器或者如何使用调试器运行和调试 Jeff Duntemann 的汇编语言分步第三版中的汇编代码其中输出与书中示例中描述的输出相同吗我在汇编计划学习方面完全是菜鸟所以有人向我推荐了这本书但是我
使用 Vee-Validate 和 vue js 2 在提交时验证子输入组件

我目前正在尝试创建一个包含多个输入字段组件的注册表单这些组件都需要在按下提交后进行验证目前当其中的文本发生更改时它们都会自行验证但我发现很难对所有输入字段进行全局调用以验证所有输入字段我想要实现的目标如下 http ve
.Net Mvc 3 触发器（提交按钮除外）非侵入式验证

我想要什么我想通过我选择的事件在我的视图中触发客户端验证它可能是 onblur 也可能是另一个按钮但不是提交按钮相关链接如何在不使用提交按钮的情况下触发验证 https stackoverflow com questions 57
删除字符串中不需要的字符

我想问如何从字符串中删除特殊字符从废弃页面中提取 4 30am 我只是想获得时间所以我尝试使用以下方法过滤它 str 4 30am new string preg replace A Za z0 9 str echo pre new s
使用 pandas 读取带有 numpy 数组的 csv

我有一个csv包含 3 列的文件emotion pixels Usage包含由组成35000行例如0 70 23 45 178 455 Training I used pandas read csv阅读csv文件为pd read csv
XPath 元素包含 2 个子元素，每个子元素都与特定文本匹配

我正在使用 Selenium 来定位页面上的某些元素我有一张看起来像这样的桌子 table tbody tr td Text1 td td Text2 td tr tbody table Each 元素与此模式匹配我想传入两个字符串 t
尝试映射具有重复值的系列时出现 InvalidIndexError

我正在尝试将医院名称映射到其英国邮政编码我有这些医院在英国称为 Trusts 的脊柱手术的 csv 该 csv 是 kate spine csv 我从中导入一列信任以简化操作 import pandas as pd spine pd

尝试映射具有重复值的系列时出现 InvalidIndexError

尝试映射具有重复值的系列时出现 InvalidIndexError 的相关文章

随机推荐

热门标签