多索引数据框 pandas 中的操作

2024-02-23

我需要处理大数据 csv 中的地理和统计数据。它包含来自地理行政和地统计的数据。城市、区位、地统计基本区划和区块构成层次指标。

我必须为地理索引中数据的最大值的每个元素创建一个新列 ['data2']，并将每个块值除以该值。对于每个索引级别，索引级别值必须不为0，因为0索引级别值会考虑计算中未使用的其他类型的信息。

                       data1  data2
mun  loc  geo  block
1    0    0    0       20     20
1    1    0    0       10     10
1    1    1    0       10     10   
1    1    1    1       3      3/4
1    1    1    2       4      4/4
1    1    2    0       30     30   
1    1    2    1       1      1/3
1    1    2    2       3      3/3
1    2    1    1       10     10/12
1    2    1    2       12     12/12
2    1    1    1       123    123/123
2    1    1    2       7      7/123
2    1    2    1       6      6/6
2    1    2    2       1      1/6

有任何想法吗？我尝试过使用 for 循环，使用 reset_index() 转换列中的索引并按列和行值进行迭代，但计算会持续很长时间，我认为这不是执行此类操作的正确方法。

另外，如果我想要像这样得到我的面具，这样我就可以在每个级别上运行我的计算，该怎么办？

mun  loc  geo  block
1    0    0    0     False       
1    1    0    0     False       
1    1    1    0     True          
1    1    1    1     False        
1    1    1    2     False        
1    1    2    0     True          
1    1    2    1     False        
1    1    2    2     False        

mun  loc  geo  block
1    0    0    0     False       
1    1    0    0     True       
1    1    1    0     False          
1    1    1    1     False        
1    1    1    2     False
1    2    0    0     True
1    2    2    0     False          
1    2    2    1     False        

mun  loc  geo  block
1    0    0    0     True       
1    1    0    0     False       
1    1    1    0     False          
1    1    1    1     False        
1    1    1    2     False
2    0    0    0     True
2    1    1    0     False          
2    1    2    1     False

您可以先创建mask from MultiIndex http://pandas.pydata.org/pandas-docs/stable/generated/pandas.MultiIndex.html，与之比较0并检查至少一项True（最后一个0) by any http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.any.html:

mask = (pd.DataFrame(df.index.values.tolist(), index=df.index) == 0).any(axis=1)
print (mask)
mun  loc  geo  block
1    0    0    0         True
     1    0    0         True
          1    0         True
               1        False
               2        False
          2    0         True
               1        False
               2        False
     2    1    1        False
               2        False
2    1    1    1        False
               2        False
          2    1        False
               2        False
dtype: bool

然后得到max http://pandas.pydata.org/pandas-docs/stable/generated/pandas.core.groupby.GroupBy.max.html值由groupby http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.groupby.html每个第一、第二和第三索引，但在过滤之前boolean indexing http://pandas.pydata.org/pandas-docs/stable/indexing.html#boolean-indexing只取不存在的值True in mask:

df1 = df.ix[~mask, 'data1'].groupby(level=['mun','loc','geo']).max()
print (df1)
mun  loc  geo
1    1    1        4
          2        3
     2    1       12
2    1    1      123
          2        6

Then reindex http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reindex.html df1 by df.index，删除最后一层Multiindex by reset_index http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.reset_index.html, mask http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.mask.html没有改变的值mask（也有必要删除最后一级）和fillna http://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.fillna.html by 1，因为除法返回相同的值。

df1 = df1.reindex(df.reset_index(level=3, drop=True).index)
         .mask(mask.reset_index(level=3, drop=True)).fillna(1)
print (df1)
Name: data1, dtype: int64
mun  loc  geo
1    0    0        1.0
     1    0        1.0
          1        1.0
          1        4.0
          1        4.0
          2        1.0
          2        3.0
          2        3.0
     2    1       12.0
          1       12.0
2    1    1      123.0
          1      123.0
          2        6.0
          2        6.0
Name: data1, dtype: float64

最后除以div http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.div.html:

print (df['data1'].div(df1.values,axis=0))
mun  loc  geo  block
1    0    0    0        20.000000
     1    0    0        10.000000
          1    0        10.000000
               1         0.750000
               2         1.000000
          2    0        30.000000
               1         0.333333
               2         1.000000
     2    1    1         0.833333
               2         1.000000
2    1    1    1         1.000000
               2         0.056911
          2    1         1.000000
               2         0.166667
dtype: float64

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

多索引数据框 pandas 中的操作的相关文章

使用 openCV 对图像中的子图像进行通用检测

免责声明我是计算机视觉菜鸟我看过很多关于如何在较大图像中查找特定子图像的堆栈溢出帖子我的用例有点不同因为我不希望它是具体的而且我不确定如何做到这一点如果可能的话但我感觉应该如此我有大量图像数据集有时其中一些图像是数据集的
Pycharm Python 控制台不打印输出

我有一个从 Pycharm python 控制台调用的函数但没有显示输出 In 2 def problem1 6 for i in range 1 101 2 print i end In 3 problem1 6 In 4 另一方面像
如何收集列表、字典等中重复计算的结果（或制作修改每个元素的列表的副本）？

There are a great many existing Q A on Stack Overflow on this general theme but they are all either poor quality typical
DreamPie 不适用于 Python 3.2

我最喜欢的 Python shell 是DreamPie http dreampie sourceforge net 我想将它与 Python 3 2 一起使用我使用了添加解释器 DreamPie 应用程序并添加了 Python 3 2
导入错误：没有名为 _ssl 的模块

带 Python 2 7 的 Ubuntu Maverick 我不知道如何解决以下导入错误 gt gt gt import ssl Traceback most recent call last File
如何打印没有类型的defaultdict变量？

在下面的代码中 from collections import defaultdict confusion proba dict defaultdict float for i in xrange 10 confusion proba di
如何在Windows上模拟socket.socketpair

标准Python函数套接字套接字对 https docs python org 3 library socket html socket socketpair不幸的是它在 Windows 上不可用从 Python 3 4 1 开始我
Python tcl 未正确安装

我刚刚为 python 安装了graphics py 但是当我尝试运行以下代码时 from graphics import def main win GraphWin My Circle 100 100 c Circle Point 50
在循环中每次迭代开始时将变量重新分配给原始值（在循环之前定义）

在Python中你使用在每次迭代开始时将变量重新分配给原始值在循环之前定义时也就是说 original 1D o o o for i in range 0 3 new original 1D revert back to orig
python pandas 中的双端队列

我正在使用Python的deque 实现一个简单的循环缓冲区 from collections import deque import numpy as np test sequence np array range 100 2 resha
Python：字符串不会转换为浮点数[重复]

这个问题在这里已经有答案了我几个小时前写了这个程序 while True print What would you like me to double line raw input gt if line done break else f
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
为美国东部以外地区的 Cloudwatch 警报发送短信？

AWS 似乎没有为美国东部以外的 SNS 主题订阅者提供 SMS 作为协议我想连接我的 CloudWatch 警报并在发生故障时接收短信但无法将其发送到 SMS YES 经过一番挖掘后我能够让它发挥作用它比仅仅选择一个主题或输入闹钟
如何在 Django 中使用并发进程记录到单个文件而不使用独占锁

给定一个在多个服务器上同时执行的 Django 应用程序该应用程序如何记录到单个共享日志文件在网络共享中而不保持该文件以独占模式永久打开当您想要利用日志流时这种情况适用于 Windows Azure 网站上托管的 Django 应
用于运行可执行文件的python多线程进程

我正在尝试将一个在 Windows 上运行可执行文件并管理文本输出文件的 python 脚本升级到使用多线程进程的版本以便我可以利用多个核心我有四个独立版本的可执行文件每个线程都知道要访问它们这部分工作正常我遇到问题的地方是当它们
对输入求 Keras 模型的导数返回全零

所以我有一个 Keras 模型我想将模型的梯度应用于其输入这就是我所做的 import tensorflow as tf from keras models import Sequential from keras layers imp
在python中，如何仅搜索所选子字符串之前的一个单词

给定文本文件中的长行列表我只想返回紧邻其前面的子字符串例如单词狗描述狗的单词例如假设有这些行包含狗 hotdog big dog is dogged dog spy with my dog brown dogs 在这种情况下期望
Spark.read 在 Databricks 中给出 KrbException

我正在尝试从 databricks 笔记本连接到 SQL 数据库以下是我的代码 jdbcDF spark read format com microsoft sqlserver jdbc spark option url jdbc sql
改变字典的哈希函数

按照此question https stackoverflow com questions 37100390 towards understanding dictionaries 我们知道两个不同的字典 dict 1 and dict 2例
Python 分析：“‘select.poll’对象的‘poll’方法”是什么？

我已经使用 python 分析了我的 python 代码cProfile模块并得到以下结果 ncalls tottime percall cumtime percall filename lineno function 13937860 9

随机推荐

创建相对于 jetpack 中其他元素的垂直链组成 ConstraintLayout？

我想使用 chainStyle Packed 将标题和描述文本链接到以图像为中心的位置如何在 jetpack compose 中实现此目的当我使用时createVerticalChain 它相对于父容器的创建链不是我想要的有没有办法实
使用 Visual Studio 2013 构建 64 位 Live555

我正在尝试在 Windows 7 上使用 Visual Studio 2013 64 位构建 Live555 的组件我尝试编辑 win32config 和 mak 文件但没有成功我已经在互联网上搜索了几个小时并使用命令提示符尝试了各
在 Code Igniter 2.02 中设置电子邮件

我收到很多错误我已经在不同的站点尝试了几个建议删除了父函数删除了数组更新了我的 php ini 文件但没有运气这是我收到的 13 个错误中的第一个遇到 PHP 错误严重性警告消息 fsockopen function f
std::list 析构函数不阻塞

我有一个多线程应用程序有一个循环作为主线程等待用户输入在正确的输入上它应该停止循环并等待所有其他线程正确结束为此我创建了一个 std list 其中放置了为创建线程而创建的 std future 对象 std list
如何在Silverlight中创建类似WPF的数据触发器？

我如何为 Silverlight 数据网格创建一个触发器其中单元格背景颜色根据单元格值而变化我前段时间参与过一个 WPF 项目我记得通过 xaml 中的 DataTriggers 实现这一点非常简单然而此功能似乎在 Silverl
实体框架数据库第一次重新生成让我失去了手动更改

我正在使用 MVC NET 制作一个网站由于我是一名老派程序员首先学习设计数据库所以我选择了数据库优先方法我还使用代码生成来创建具有扩展名的文件 tt 到目前为止除了一件让我困扰的事情之外一切都正常经典场景我意识到我缺少
如何在类库项目中正确定义 DBContext？

我正在使用实体框架 7 并创建了两个项目一个项目是 ASP NET 5 Web API 项目另一个是类库项目包我想在其中存储所有数据访问层逻辑这样我就可以将此包用于另一个报告项目并且我可能提供的其他附加服务基本上我在 Web
假设自动线程化的 scipy 和 numpy 函数没有利用多核

我正在运行 Mac OS X 10 6 8 并使用 Enthought Python 发行版我希望 numpy 函数能够利用我的两个核心我遇到了与这篇文章类似的问题 python numpy 中的多线程 blas https stack
Android getResources().getDrawable() 已弃用 API 22

使用新的 Android API 22getResources getDrawable 现已弃用现在最好的方法是只使用getDrawable 发生了什么变化您可以选择一些选项来正确处理此弃用并且未来证明方式具体取决于您正在加载哪种
QLineEdit 的背景图像

如何设置背景图片QLineEdit 以下样式表不起作用 QLineEdit background image url images 13 png QLineEdit border 1px solid 000000 image work wi
如何在Python中记录源文件名和行号

是否可以装饰扩展Python标准日志记录系统以便在调用日志记录方法时它还记录文件和调用它的行号或者调用它的方法当然检查一下格式化程序 http docs python org library logging html formatt
Jenkins 多分支 - 如何扫描 jenkinsfile 放置在子模块上的分支？

我有一个主存储库其中包含一个子模块其中包含 Jenkinsfile 有了这个我想为该主存储库创建一个多分支管道作业但这不起作用当 Jenkinsfile 不在子模块中时它可以工作但当 Jenkinsfile 位于子模块中时它不会
在 HERE 地图中的标记上悬停时显示内容 Div

我是这里的地图新手需要在标记悬停时显示一个 div 我已经能够放置带有图标的标记但现在需要显示带有一些额外信息的 div HERE 地图 API 是否提供此功能任何文档 URL 或一段代码都将受到赞赏注意我正在使用 HERE 网络
如何在 Twitter Bootstrap 中使用 CSS 将文本对齐到元素的中间？

我在用引导程序 http twitter github com bootstrap javascript html alerts警报这是我的成功警报消息 div class alert alert success a class clos
调度程序未在 Spring Boot 中运行

我创建了一个 Spring Boot 应用程序我已经配置了包含调度程序方法的类startService 下面是我的代码服务等级 package com mk service import org springframework bean
CSS 使文本左对齐并同时对齐

有没有办法让文本左对齐并同时对齐意思是左对齐之类的有什么办法可以实现这一点吗感谢帮助您可能正在寻找最后一行的左对齐 text align justify text align last left
如何让用户输入不区分大小写？

我想创建一个函数来过滤我要打开的文件以及具体的月份和日期这样用户需要输入他们想要在哪个特定月份或日期分析哪个城市文件但是我希望用户能够输入不区分大小写的内容例如用户可以输入 chicago CHICAGO ChIcAgO 它仍
如何设置shell脚本的进程组

如何设置shell脚本的进程组我还希望所有子进程都位于同一个进程组中我期望类似的东西setpgid in C As 普斯科西克指出 https stackoverflow com a 45112755在大多数 shell 中通过激活作
使用 WebFlux 的 Spring Boot 在测试中总是抛出 403 状态

非常感谢您查看我的问题我有一些奇怪的主题我的 Spring Boot 测试不起作用它们启动成功但在向任何控制器发出请求时总是抛出 403 HTTP 状态我有一些具有下一个依赖项的项目 buildscript ext kotlin
多索引数据框 pandas 中的操作

我需要处理大数据 csv 中的地理和统计数据它包含来自地理行政和地统计的数据城市区位地统计基本区划和区块构成层次指标我必须为地理索引中数据的最大值的每个元素创建一个新列 data2 并将每个块值除以该值对于每个索引级别索引级别

多索引数据框 pandas 中的操作

多索引数据框 pandas 中的操作 的相关文章

随机推荐

热门标签

多索引数据框 pandas 中的操作的相关文章