【pandas】在Pandas中降低dataframe使用的内存

2023-05-16

想要降低dataframe的内存占用主要有两种方法:

使用小一点的数值型 datatype
把object类型的列转为categorical类型

df = pd.DataFrame({"col_1":[x for x in range(0, 21)],
                   "col_2":['even' if val%2==0 else 'odd' for val in range(0, 21)]})
df

在这里插入图片描述

# 用info(memory_usage='deep') 看一下真实的内存使用情况
df.info(memory_usage='deep')

可以看到原始memory usage是 1.5KB
在这里插入图片描述

1. 把数值字段的datatype换成一个更小的数据类型

但是要注意这些数据的最大值和最小值，确保他们都在这个更小的数据类型的能保留的数据范围之内

datatype	数值范围
`int8`	-128 ~ 127
`int16`	-32768 ~ 32767
`int64`	-9223372036854775808 ~ 9223372036854775807

df['col_1'] = df['col_1'].astype('int8')
df.info(memory_usage='deep')

数值类型减小之后memory usage是 1.4KB
在这里插入图片描述

2. 把object类型转为categorical类型

df['col_2'] = df['col_2'].astype('category')
df.info(memory_usage='deep')

在这里插入图片描述
转categorical类型之后之后memory usage是 371 bytes

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

DataFrame

使用的内存

【pandas】在Pandas中降低dataframe使用的内存的相关文章

Pandas：向量化局部范围操作（[i:i+2] 行的最大值和总和）

我希望在数据帧中的每一行的局部范围内进行计算同时避免速度缓慢for环形例如对于下面数据中的每一行我想找到未来 3 天内包括当天的最高气温以及未来 3 天内的总降雨量 Day Temperature Rain 0 30 4 1 3
如何使用 Python Pandas 制作 DataFrame 切片并在特定切片中“fillna”？

问题让我们从 Kaggle 获取泰坦尼克号数据集我有包含 Pclass 性别和年龄列的数据框我需要用特定组的中位数填充年龄列中的 NaN 如果是来自一等的女性我想用一等女性的中位数填写她的年龄而不是整个年龄列的中位数问
如何使用固定的 pandas 数据框进行动态 matplotlib 绘图？

我有一个名为的数据框benchmark returns and strategy returns 两者具有相同的时间跨度我想找到一种方法以漂亮的动画风格绘制数据点以便它显示逐渐加载的所有点我知道有一个matplotlib animat
pandas 替换多个值

以下是示例数据框 gt gt gt df pd DataFrame a 1 1 1 2 2 b 11 22 33 44 55 gt gt gt df a b 0 1 11 1 1 22 2 1 33 3 2 44 4 3 55 现在我想根据
为 pandas 数据透视表中的每个值列定义 aggfunc

试图生成具有多个值列的数据透视表我知道我可以使用 aggfunc 按照我想要的方式聚合值但是如果我不想对两列求和或求平均值而是想要一列的总和同时求另一列的平均值该怎么办那么使用 pandas 可以做到这一点吗 df pd D
Pandas Dataframe 中 bool 值的条件前向填充

问题如何转发 fill boolTruepandas 数据框中的值如果是当天的第一个条目 True 到一天结束时请参阅以下示例和所需的输出 Data import pandas as pd import numpy as np df
通过数据框与函数进行交互

如果我有这样的日期框架氮 EG 00 04 NEG 04 08 NEG 08 12 NEG 12 16 NEG 16 20 NEG 20 24 datum von 2017 10 12 21 69 15 36 0 87 1 42 0 76
协方差矩阵的对角元素不是 1 pandas/numpy

我有以下数据框 A B 0 1 5 1 2 6 2 3 7 3 4 8 我想计算协方差 a df iloc 0 values b df iloc 1 values 使用 numpy 作为 cov numpy cov a b I get ar
如果值在列表 pandas 中，则布尔向量

在 pandas 中创建布尔向量来测试值很容易例如 DF a gt 10 但是你怎么写 DF a in list 根据某个列表或其他列表中系列中每个值的成员资格生成布尔向量我收到一个值错误我知道我可以非常简单地循环数据但是不必这样做
计算 R 中各列的唯一值

我正在尝试创建一个新变量其中包含来自两个不同列的字符串值的唯一计数所以我有这样的东西例如 A tibble 4 x 2 names partners
使用 on_bad_lines 将 pandas.read_csv 中的无效行写入文件

我有一个 CSV 文件我正在使用 Python 来解析该文件我发现文件中的某些行具有不同的列数 001 Snow Jon 19801201 002 Crom Jake 19920103 003 Wise Frank 19880303 l
Pandas：merge_asof() 对多行求和/不重复

我正在处理两个数据集每个数据集具有不同的关联日期我想合并它们但因为日期不完全匹配我相信merge asof 是最好的方法然而有两件事发生merge asof 不理想的数字重复数字丢失以下代码是一个示例 df a pd Da
Shiny：动态数据框构建； renderUI、观察、reactiveValues

我认为如何使用 Shiny 的 renderUI 功能动态子集数据的问题经常出现但我很难理解何时使用 renderUI 带有 uiOutput 而不是其他功能包括观察反应反应值甚至条件面板我想构建一个完全交互式的数据框架其中每个
识别 pandas 数据框中各组之间的差异

我有一个按日期和 ID 索引的 pandas 数据框我想识别日期之间增删的ID 将 ID 添加到另一个数据帧以及添加删除的日期 date ID value 12 31 2010 13 0 124409 9 0 555959 1 0 7
将 Excel 读取到从第 5 行开始并包括标题的 Python 数据框

我有一个 Excel 工作簿它在打开时运行一些 vba 刷新数据透视表并执行其他一些操作然后我希望将数据透视表刷新的结果导入到 python 中的数据框中以进行进一步分析 import xlrd wb xlrd open workboo
在 R 中打印具有长字符串的数据帧

让我们有一列包含长字符串的数据框 df lt data frame short rnorm 10 0 1 long replicate 10 paste rep sample letters runif 1 5 8 collapse 如何打
将 JSON 文件读入 Spark 时出现 _corrupt_record 错误

我有这个 JSON 文件 a 1 b 2 这是通过Python json dump方法获得的现在我想使用 pyspark 将此文件读入 Spark 中的 DataFrame 根据文档我正在这样做 sc SparkContext sql
“DataFrame”对象没有属性“isna”

我为我的一个项目改编了一种机器学习代码在我的笔记本电脑上运行良好的代码现在在我的台式机上出现问题我正在检查所有数据框列是否有缺失值 File g100 py line 11 in
pandas 系列值之间的过滤

If s is a pandas Series http pandas pydata org pandas docs stable dsintro html series 我知道我可以这样做 b s lt 4 or b s gt 0 但我做
我可以在某些网格中打印带有颜色的 pandas 数据框吗？

我有一个 pandas DataFrame 我想突出显示一些数据例如 In 1 import pandas as pd In 2 import numpy as np In 3 df pd DataFrame np reshape ran

随机推荐

[WPF] HamburgerMenu

有两个库支持的 xff1a Metro App库中的 VS自己的控件 xff1a https docs microsoft com zh cn windows communitytoolkit archive hamburgermenu
面积误差三种计算表达的比较

引自 xff1a 面积误差三种计算表达的比较有三种理论 xff0c 最基本的经典的 xff0c 引用一个吧 xff1a 网上有个题目 xff0c 求桌面面积的测量结果桌面为矩形用米尺测量 xff0c 长L为100 0 cm xff0c
【转】WPF：Canvas中元素的定位

概述 xff1a Canvas中的元素的大小和位置都是相对于Canvas容器的 xff0c 他的左上角为原点 xff0c 长度也是相对于他的 WPF xff1a Canvas中元素的定位 https blog csdn net chz cs
【转】C#中计时

一般可以用Environment TickCount xff0c 但是25天后会翻转有很多 xff0c 见下面两个转的 C 中精确计时的一点收获 https www cnblogs com jintianhu archive 2010 0
利用python分析微信聊天记录

文章目录前言一任务分析二工具三步骤1 数据获取获取DB计算密码导出数据库 2 数据清洗 xff08 具体方法以后补充 xff09 3 数据分析前言昨天跟女朋友讨论谁给对方发的消息比较多 xff0c 两人各执一词 xff0c 事实
C++学习之模板

文章目录 xff1a 一模板二函数模板三类模板一模板模板也称泛型编程泛型编程 xff1a 编写与类型无关的通用代码 xff0c 是代码复用的一种手段模板是泛型编程的基础在这之前我们可以利用C 43 43 的函数重载来
ROS2 创建python包

1 创建python包 ros2 pkg create build type ament python span class token string 39 demo 39 span dependencies rclpy 以上指令为创建一个
Springboot集成SpringSecurity过程中遇到的问题

Spring Security 开发文档 xff1a https www springcloud cc spring security zhcn html 一配置的免登录访问接口不生效 span class token annotatio
在sublime text3中配置c/c++运行环境

在参考网上诸多大神配置sublime text3后 xff0c 自己也想写一篇有关在sublime中配置c c 43 43 的运行环境的文章 xff0c 顺便总结一下安装sublime text3 xff1a 下载地址 xff08 官方地
STM32CubeMX 新建工程详细步骤

STM32CubeMX 新建工程详细步骤 1 MPU CPU选择step1 打开CubeMX 软件 xff0c 在主页面上点击如下按钮 xff0c 进入芯片选择界面step2 在Part Number Search 栏搜索我们需要用到的芯
macOS 10.11、macOS 10.12、macOS 10.13、macOS 10.14、macOS 10.15 制作可用于虚拟机安装的 CDR/ISO 系统镜像指导教程

开篇说明 xff1a 不论是用 UltraISO xff0c 或者是用 MacOS 系统中的磁盘工具的格式转换功能进行原版 DMG 61 61 gt CDR ISO 转换出来的 CDR ISO 文件只是进行了格式 xff08 容器 x
win10安装wsl2

一环境准备 1 确保bios开启虚拟化支持各品牌主板进入bios的方式可百度或看主板说明书 2 查看当前win10版本是不是最新版 xff0c 如果不是则升级到最新版查看当前版本 xff0c win 43 r打开运行窗口输入 34 w
snprintf 函数用法心得

前人挖坑 xff0c 后人种树不能对同一段内存 xff08 同一个buf 或是两个重叠的内存使用snprintf xff0c 换句等方面说 xff0c 在使用snprintf 时 xff0c 就确保内存不重叠先来看看一段问题代码的执行结
VMware改变虚拟机文件在真实机的位置2208262201

VMware 改变虚拟机文件位置 1 查看打开i虚拟机文件目录2 关闭虚拟机将虚拟机文件夹复制或剪切到想要的位置3 用VMware打开复制的文件夹下的 vmx 文件生成一个新的同名的虚拟机4 开启这个新生成的虚拟机出现对话框选择意图
Ubuntu22.04.01Desktop桌面版允许root用户远程登陆笔记221110

先给root设置密码 span class token function sudo span span class token function passwd span root 启用远程密码登录和允许root远程ssh登陆进入 etc
MySQL8 创建用户,设置修改密码,授权

MySQL8 创建用户设置修改密码授权 MySQL5 7可以创建用户设置密码授权一步到位 x1f447 span class token keyword GRANT span span class token keyword A
win10远程桌面AlmaLinux9.1,用xrdp

win10远程桌面AlmaLinux9 1 用xrdp 默认 yum 和 dnf 都下载不到 xrdp 要先 install epel release 安装EPEL源 span class token function sudo span
Rocky9.1安装xrdp远程桌面 230315

Rocky9 1安装xrdp远程桌面 230315 要先 install epel release 安装EPEL源 span class token function sudo span yum span class token funct
DNS默认的端口号是: 53

DNS默认的端口号是 53 DNS 域名系统主机命名系统 DNS 是 Domain Name System 的缩写 DNS协议运行在UDP协议之上 xff0c 使用端口号53
【pandas】在Pandas中降低dataframe使用的内存

想要降低dataframe的内存占用主要有两种方法使用小一点的数值型 datatype把object类型的列转为categorical类型 df span class token operator 61 span pd span clas

【pandas】在Pandas中降低dataframe使用的内存

1. 把数值字段的datatype换成一个更小的数据类型

2. 把object类型转为categorical类型

【pandas】在Pandas中降低dataframe使用的内存 的相关文章

随机推荐

热门标签

【pandas】在Pandas中降低dataframe使用的内存的相关文章