Dataframe unstack 性能 - pandas

2024-05-22

我正在尝试拆开数据框。它工作正常，但问题是我正在处理 CSV 文件中的巨大数据集（约 10 亿）。这是示例数据集。

236539~!#48512569874~!#Name~!#Danny
236539~!#48512569874~!#Class~!#12
236539~!#48512569874~!#Building~!#X4
236539~!#48512569875~!#Name~!#John
236539~!#48512569875~!#Class~!#10
236539~!#48512569875~!#Shelf~!#Yes
236539~!#48512569875~!#Desk_ID~!#2018_5D
236539~!#48512569876~!#Name~!#Xian
236539~!#48512569876~!#Desk_ID~!#2018_3D
236539~!#48512569876~!#Country~!#CHN

我正在使用以下方法读取上述庞大数据集chunksize in read_csv()方法，然后将数据集连接成完整的数据帧。

虽然拆垛需要花费很多时间（虽然从 csv 读取数据也花费时间，但应用chunksize and pd.concat提高性能）以下是我用于取消堆叠的代码：

df = pd.read_csv('panda1.csv', delimiter='~!#', engine='python',header=None, keep_default_na=False, na_values=[''])
df.columns = ['School_Id', 'Student_Id', 'Attribute_Name', 'Attribute_Value']
var_list = ['Name','Class','Building','Shelf','Desk_ID','Country']
df = df.set_index(['School_Id', 'Student_Id', 'Attribute_Name'])['Attribute_Value'].unstack(fill_value='').fillna('')[var_list].reset_index()

拆开后，它正是我想要的。

School_Id   Student_Id  Name    Class   Building    Shelf   Desk_ID Country
236539      48512569874 Danny   12      X4           ''      ''       ''
236539      48512569875 John    10                   Yes    2018_5D   ''
236539      48512569876 Xian    ''      ''           ''     2018_3D   CHN

但是，当我尝试创建一个包含大型数据集（约 10 亿）的数据框并将其拆开时，要么需要很长时间来处理，要么存在内存错误，那么是否有任何选项可以按块进行拆栈操作以获得所需的结果。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

Dataframe unstack 性能 - pandas 的相关文章

如何分组显示argparse子命令？

对于具有许多子命令的程序我想在 help 输出中显示它们按逻辑分组 Python argparse 有一个add argument group http docs python org library argparse html argp
pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
我应该将Python的pyc文件添加到.dockerignore吗？

我见过几个例子 dockerignorePython 项目的文件其中 pyc文件和或 pycache 文件夹被忽略 pycache pyc 由于无论如何这些文件文件夹都会在容器中重新创建我想知道这样做是否是一个好习惯是的这是一个
Python 中字典的合并层次结构

我有两本词典而我想做的事情有点奇怪基本上我想合并它们这很简单但它们是字典的层次结构我想以这样的方式合并它们如果字典中的项目本身就是字典并且存在于两者中我也想合并这些字典如果它不是字典我希望第二个字典中的值覆盖第一个字典中
如何获取一个类的所有实例

我是一名初学者正在学习 Python 我想创建一个课程Person 在构造函数中我想将我创建的每个实例放入一个名为实例的集合中然后我希望实例方法返回所有实例我怎样才能做到这一点 class Person Type annota
如何在 matplotlib 图中禁用 xkcd？

您可以通过以下方式打开 xkcd 风格 import matplotlib pyplot as plt plt xkcd 但如何禁用它呢 I try self fig clf 但这行不通简而言之要么使用 Valentin 提到的上下文管
使用 Python 将 Json 转换为换行 Json 标准

我有一个获取嵌套对象并删除所有嵌套的代码使对象平坦 def flatten json y param y Unflated Json return Flated Json out def flatten x name if type x
使用字符串迭代 url - python

我现在完全被我的代码困住了首先我尝试从 volkskrant 的存档页面检索所有网址这是我被打击的第一步某一特定日期的 url 如下所示 http www volkskrant nl archief detail 01012016
如何在Python中使用内联正则表达式修饰符[重复]

这个问题在这里已经有答案了我有一个正则表达式 n DOCUMENTATION n n n 2 s 女巫我正在尝试处理这样的一些文件 usr bin python coding utf 8
django 密码重置功能中出现 NoReverseMatch 错误

我正在尝试在 django 中实现密码重置功能下面是我的代码 urls py urlpatterns patterns url r signup accounts views signup name signup email url r
从 SQL 数据库导入表并按日期过滤行时，将 Pandas 列解析为日期时间

我有一个DataFrame列名为date 我们如何将日期列转换解析为DateTime object 我使用 Postgresql 数据库加载日期列sql read frame 的一个例子date列是2013 04 04 我想做的是选择
python 3 configparser.read() 在给定不存在的文件时不会引发异常

当我尝试使用 configparser read 读取不存在的文件时我认为它应该引发异常事实并非如此它返回一个空列表显然我可以测试空列表并引发异常在我看来如果 configparser read 引发 FileNotFound
删除aws beanstalk上的uuid python包

这是针对所提出问题的后续帖子问题here https stackoverflow com questions 44421761 flask beanstalk deployment errors 以防万一对其他人有用自从第一篇文章以来
忽略稀疏矩阵中的重复条目

我尝试过初始化csc matrix and csr matrix从列表中 data rows cols 值如文档所示 sparse csc matrix data rows cols shape n n 问题是我实际上拥有的生成方法dat
当没有 main 函数时，为什么 sys.settrace 不触发？

import sys def printer frame event arg print frame event arg return printer sys settrace printer x 1 sys settrace None 上
检查一个数是否是完全平方数

如何检查一个数是否是完全平方数速度并不重要目前只是工作 See also Integer square root in python https stackoverflow com questions 15390807 依赖任何浮点计
Python 3d 金字塔

我是 3D 绘图新手我只想用 5 个点建造一个金字塔并通过它切出一个平面我的问题是我不知道如何填充两侧 points np array 1 1 1 1 1 1 1 1 1 1 1 1 0 0 1 fig plt figure ax fi
捕获 subprocess.run() 的输入

我在 Windows 上有一个交互式命令行 exe 文件是由其他人编写的当程序出现异常时它会终止并且我对程序的所有输入都会丢失所以我正在编写一个 python 程序它调用一个阻塞子进程subprocess run 并捕获所有输入
网站可以检测您何时将 Selenium 与 chromedriver 结合使用吗？

我一直在使用 Chromedriver 测试 Selenium 我注意到有些页面可以检测到您正在使用 Selenium 即使根本没有自动化即使我只是通过 Selenium 使用 Chrome 手动浏览 Xephyr https en wi
如何将 pygame Surface 转换为 PIL 图像？

我正在使用 PIL 来透视地变换屏幕的一部分原始图像数据是一个 pygame Surface 需要转换为 PIL 图像因此我发现了 pygame 的 tostring 函数就是为了这个目的而存在的然而结果看起来很奇怪见附图这段代码

随机推荐

如何为多个元素添加Class？

我正在使用这段 javascript 向多个元素添加一个类我试图引用多个 div 并向它们添加类它只适用于第一个 JavaScript
如何知道并加载特定文件夹中的所有图像？

我有一个应用程序 C Builder 6 0 需要知道特定文件夹中的图像总数然后我必须加载它们在 ImageList 或 ComboBoxEx 中或任何其他控件中我怎样才能做到这一点我知道如何在控件中加载图像或保存在 TList
在 Julia 中保存和检索字典的正确方法是什么？

我已经看到 Julia 充分解释了 MAT 文件这些文件中的结构可以毫无问题地作为字典读取现在我创建了自己的字典其结构如下 String String gt Int Int Int 在每个条目上我可以保存它writedlm它产生了一
如何以编程方式设置 ConstraintLayout 的 XML 属性“layout_constrainedWidth”？

ConstraintLayout中如何转换xml属性 app layout constrainedWidth true false in code 如果你想设置constrainedWidth Height以编程方式那么你必须采取Con
如何向 UWP 项目添加 .NET dll 引用？

我有几个适用于 NETv4 x 的 NET dll 项目我将版本更改为 4 6 1 并重新构建没有出现问题当我尝试从 UWP 项目向它们添加引用时出现错误项目的目标是 NETCore 而文件引用的目标是 NET框架这不是受支持的
data.table 相当于 dplyr::filter_at

考虑数据 library data table library magrittr vec1 lt c Iron Copper vec2 lt c Defective Passed Error set seed 123 a1 lt sampl
如何使用 SQLite R-Trees 将简单空间索引移植到 Postgres？

我通过遵循 SQLite R Tree 实现了一个基于边界框的简单空间索引模式tutorial https www sqlite org rtree html 这给了我以下架构 CREATE VIRTUAL TABLE events reg
如何从当前 .NET 表单/应用程序发送密钥 F12

我非常确定以下按钮激活的表单代码应该在我的 C 应用程序中引发 Control F12 SendKeys F12 但它似乎并没有继续进入 Windows shell 并激活另一个正在侦听它的程序我的键盘可以用看起来发送键在某处被拦截并
如何调试参数化 SQL 查询

我使用 C 连接到数据库然后使用 Ad hoc SQL 来获取数据这个简单的 SQL 查询非常方便调试因为我可以记录 SQL 查询字符串如果我使用参数化 SQL 查询命令有没有办法记录 sql 查询字符串以进行调试我想就是这样的
是否可以在打字稿中重用泛型类型？

我想做这样的事情 namepace Namespace
使用Python处理Sqlite数据库中的换行符“\n”？

我有一个名为 test db 的 Sqlite 数据库其中包含两个表其结构如下表 1 ID 整数主键自动增量名称 varchar 500 颜色 varchar 500 表2 ID INTEGER PRIMARY KEY AUTOIN
React-Router v5 History.push 不触发组件

很抱歉朋友们又问这个问题了我找到了解决这个问题的几个方法但他们让我很困惑我只是想问一个优雅的方法来做到这一点正如你通过标题所理解的我有一个关于反应路由的问题让我解释我有一个按钮其名称是Login 单击按钮后我执行了一些逻辑
即时应用程序上的文本转语音崩溃

我正在实现一个即时应用程序该应用程序利用 Android 设备上提供的文本转语音功能我已经设法得到了TextToSpeech按照 Android 开发博客文章中详细说明的说明实例已初始化并可在非即时应用程序中正常工作Android 中
，' aria-label='keras 模型拟合：ValueError：无法找到可以处理输入的数据适配器：，'> keras 模型拟合：ValueError：无法找到可以处理输入的数据适配器：，

我正在构建一个简单的 CNN 模型用于多类分类训练和测试数据位于data path根据所需的类子目录flow from directory的函数ImageDataGenerator 这是我根据数据构建和训练模型的代码 from tenso
使用 Symfony 3 / Doctrine 进行属性形式的一对多对一

问题是这样的我有一个包含 3 个类的模型 person 人员工作 job 一个人可以有多个工作任何工作与人的关系都可以有 date start 属性 date end 和 comment 因此我使用持有这些属性的可连接 person
System.Net.HttpListenerException：无法侦听前缀“http://localhost:8080”

我正在运行以下代码Scott Allen 的 ASP Net 基础课程 http www pluralsight com courses aspdotnet mvc5 fundamentals using System using Micr
在 IE 中使用
标签时，填充不起作用

我在我的应用程序中使用 HTML5 标签标签的填充在 chrome ff 和 safari 中工作正常但在 IE 中不起作用我尝试添加显示块与部分样式但它没有用有什么解决办法吗许多旧浏览器不理解 HTML5 标签例如sec
创建新的合并请求时，GitLab 不运行 CI/CD 管道

当我执行以下操作时我的 GitLab CI CD 就会运行 click Create merge request 创建分支中的每个提交当合并请求分支合并到master时我想跳过第一个管道在创建合并请求时因为我想优化紧固我的 C
结构等效和名称等效

我似乎无法准确理解名称等效是什么我很确定我的结构性下降了我的教授举的一个例子是这样的 Type TI integer Type TTI TI a integer b TTI f ref float g ref float a 和 b 都
Dataframe unstack 性能 - pandas

我正在尝试拆开数据框它工作正常但问题是我正在处理 CSV 文件中的巨大数据集约 10 亿这是示例数据集 236539 48512569874 Name Danny 236539 48512569874 Class 12 236539

Dataframe unstack 性能 - pandas

Dataframe unstack 性能 - pandas 的相关文章

随机推荐

热门标签