Python中的pandas库简介及其使用

2023-11-15

pandas模块

pandas是一个强大的分析结构化数据的工具集;它的使用基础是Numpy(提供高性能的矩阵运算);用于数据挖掘和数据分析,同时也提供数据清洗功能。

Pandas中常见的数据结构有两种:

Series DateFrame
类似一维数组的对象, 类似多维数组/表格数组;每列数据可以是不同的类型;索引包括列索引和行索引。

Series

  • 构建Series:ser_obj = pd.Series(range(10))
  • 由索引和数据组成(索引在左<自动创建的>,数据在右)。
  • 获取数据和索引:ser_obj.index; ser_obj.values
  • 预览数据: ser_obj.head(n);ser_obj.tail(n)

DateFrame

  • 获取列数据:df_obj[col_idx]或df_obj.col_idx
  • 增加列数据:df_obj[new_col_idx] = data
  • 删除列:del df_obj[col_idx]
  • 按值排序:sort_values(by = “label_name”)

常用方法

Count 非NA值得数量
describe 针对Series或各DataFrame列计算汇总统计
min\max 计算最小值和最大值
argmin\argmax 计算能够获取到最大值或最小值的索引位置
idxmin\idxmax 计算能够获取到最小值和最大值的索引值
quantile 计算样本的分位数(0-1)
sum 值得总和
mean 值得平均值
median 值的算术中位数(50%分位数)
mad 根据平均值计算平均绝对离差
var 样本值得方差
std 样本值得标准差
skew 样本值的偏度(三阶距)
kurt 样本值的峰度(四阶距)
cumsum 样本值的累计和
cummin\cummax 样本值的累计最大值和累计最小值
cumprod 样本值的累计积
diff 计算一阶差分(对时间序列很有用)
pct_change 计算百分数变化

处理缺失数据

  • Dropna()丢弃缺失数据
  • Fillna()填充缺失数据

数据过滤
Df[filter_condition]依据filter_condition(条件)对Df(数据)进行过滤。

绘图功能

Plot(kind,x,y,title,figsize)
Kind(绘制什么形式的图),x(x轴内容),y(y轴内容),title(图标题),figsize(图大小)

保存图片:plt.savefig()


"The fool doth think he is wise, but the wise man knows himself to be a fool." --威廉·莎士比亚

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python中的pandas库简介及其使用 的相关文章

  • 如何在 Ubuntu、Debian 和 LinuxMint 上安装 Python 3.7

    在撰写本文时 Python 3 7 系列的最新稳定版本已可供安装 本文将帮助您在 Ubuntu 和 LinuxMint 操作系统上安装 Python 3 7 9 你可以拜访here阅读有关 Python 版本的更多信息 先决条件 保持软件包
  • 使用ddt实现unittest的参数化测试

    0 前言 本文介绍如何使用ddt库来完成unitest的参数化设置 ddt的github地址 ddt的官方文档 1 为什么需要参数化 我们在写单测中 需要考虑到各种场景 通过输入各种场景的值执行目的的方法 来判断输出是否是我们所期待的值 如
  • 如何在 Pygame 中按住“按键”?

    我使用 Pygame 1 9 6 和 Python 3 7 4 我想按住空格键 它会不断地一遍又一遍地执行相同的操作 我知道如何按下按钮KEYDOWN 我看了下问题 如何在 Pygame 中有效地按住键 寻求答案 但无法理解一个答案 whi
  • 如何解决与 Windows 10 上安装 dlib 相关的问题?

    我正在尝试在 Windows 10 上为 python 3 7 安装 dlib 以进行人脸识别 我探索了几种方法 但遇到了错误 我尝试了以下步骤 使用 pip install cmake 安装了 cmake 这奏效了 从 Python 包索
  • Python Instagram 使用请求登录

    我正在尝试使用 python 登录 Instagram 我能够获得 csrf 令牌 但是requests Session post 似乎没有正确地将登录数据发布到网站 我总是得到class no js not logged in clien
  • 如何读取/加载带有前导零的 yaml 参数作为字符串?

    如何读取 加载带有前导零的 YAML 参数作为字符串并在 python 3 7 中进行操作 从使用 yaml cpp yaml 1 2 的 C 工具中 我得到一个文本文件 其中包含leading zero 00005 读取 加载这行代码 似
  • 无法在 Anaconda 中安装聊天机器人

    安装时chatterbot在 Anaconda 中使用 Python 3 7 我收到以下错误 找到现有安装 PyYAML 3 13 无法卸载 PyYAML 它 是一个 distutils 安装项目 因此我们无法准确地 确定哪些文件属于它 这
  • 无法安装 pyHook 包“无法找到满足 pyHook 要求的版本”

    我正在尝试安装pyHook封装在pycharm但得到标题中的错误 我已经在cmd中成功安装了它pip install pyHook 1 5 1 cp37 cp37m win amd64 whl 但是当我在 pycharm 中安装它时 我得到
  • 使用Python 3.7+进行100k API调用,使用asyncio并行进行100个[重复]

    这个问题在这里已经有答案了 使用 asyncio async await 和 Python 3 7 来交付 100k API 调用的最佳方法是什么 这个想法是始终并行使用 100 个任务 应该是什么avoided is 1 开始处理所有 1
  • Python.requests 安全吗?

    我正要使用Python requests从我自己的网上获取数据api到我的本地电脑 我的 api 需要身份验证 目前只需发布用户 密码即可完成 params user username pass password requests post
  • 更新错误“模块”对象不可调用后,pip 不再工作

    pip 更新后 pip 已完全停止工作 Z gt pip install matplotlib Traceback most recent call last File c program files python37 lib runpy
  • 安装Tensorflow时出现环境错误

    安装 Tensorflow 时 它说我丢失了一个文件 但我不知道如何修复它和 或获取该文件 我已尝试重新下载 python 但仍然缺少该文件 pip install Tensorflow 我想要的是安装完成 这是错误消息 C Users M
  • 如何在 pdb 中等待协程

    我正在使用异步库 asyncpg https github com MagicStack asyncpg 并且我想调试一些异步调用来查询数据库 我放置了一个 pdb 断点并想尝试一些查询 pdb await asyncpg fetch se
  • 无法导入数据类模块

    今天我从 apt get 安装了 python 3 7 来尝试新的 dataclasses 模块 我单独安装了它 因为 python3 6 无法升级到 3 7 当我输入 python3 7 version 它给了我 gt gt gt Pyt
  • 如何在 Windows Server 上托管 Python 3.7 Flask 应用程序?

    由于 wfastcgi 模块与 Python 3 7 不兼容 在 Windows Server 上托管 python Flask 应用程序的最佳方法是什么 你需要在你的服务器上安装 python wfastcgi 和 Flask 您可以从以
  • Python3.7 venv不创建虚拟环境目录

    我正在尝试使用以下命令在 Windows 中创建虚拟环境 python3 m venv
  • RAY Python 框架内存不足

    我用 ray 创建了一个简单的远程函数 它占用的内存很少 然而 运行一小段时间后 内存稳步增加 并且出现 RayOutOfMemoryError 异常 下面的代码是这个问题的一个非常简单的例子 result transformed nump
  • 无法在 MacOS Big Sur 上安装/运行 Python 3.6.x 和 3.7.x [已关闭]

    Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案 我将 mac 操作系统升级到最新的 MacOS Big Sur 更新后我以前使用 python 3 6 x 3 7 x
  • 异常:加载数据时 URL 获取失败

    我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题 我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
  • GAE 生产 + Django + Gunicorn 错误:HaltServer 'Worker 无法启动。' 3

    我通过 python manage py runserver 在本地主机上运行我的 Django 项目 它有效 我将其部署在 Google App Engine 上 在 xxx appspot com 上打印502 错误网关 由 Nginx

随机推荐

  • Android 蓝牙打印机Service Intent must be explicit

    安卓htc m8手机 链接蓝牙热敏打印机 佳博gp5890xIII 提示 Service Intent must be explicit 根据打印机官方提供的demo 修改为 private void connection conn new
  • 【基础知识】智能指针shared_ptr、weak_ptr、unique_ptr

    目录 一 shared ptr 共享智能指针 1 初始化 1 use count 成员函数 2 构造函数初始化 3 拷贝构造和移动构造函数初始化 4 std make shared 初始化 5 reset方法初始化 2 获取原始指针 二 w
  • 2019/5/13 基于模型的强化学习方法

    注 论文写作四项工作 工作一 查阅100篇 挑选30篇 核心参考3 5篇 看懂 一篇 工作二 提出难点问题 提出新概念 例 多光谱 注意力机制 工作三 修改算法 网络结构 损失函数 步数 工作四 写写写 改改改 图片精修 丰富实验 首句中心
  • ARM64撬开逆向大门

    图片
  • QML和QWidget混合开发(初探)

    为什么要搞混合开发 Qml已经越来越成为Qt开发的主流 相比与QWidget的界面开发更快 也更容易上手 实现效果上也更好 但老旧项目都是QWidget的框架 大家不可能一次性的把QWidget项目界面全部换成qml 这时候我们可以将新开发
  • python条件运算符_Python中的条件运算符

    python条件运算符 如果条件运算符 if else conditional operator Just like other programming languages Python also provides the feature
  • Spring全家桶

    Spring Spring的架构体系 spring是一个基于java语言写的一个轻量级的一站式解决方案框架 它的最底层是核心容器 在核心容器上面提供了AOP这些中间层技术 然后再往上就可以去集成别人的技术 比如像Dao层的MyBatis J
  • 银河麒麟V10 wireshark安装说明(断网离线)

    下载离线安装包 链接 https pan baidu com s 11QFRmCGlIJrJaiKcHh9Hag pwd u9wv 提取码 u9wv 安装步骤 tar zxvf wireshark tar gz cd wireshark s
  • python连接wss走自己的代理

    我开了一个vpn 然后用py写wss连接 怎么才能让他这个连接走我系统代理呢 vpn 开9090端口 set https proxy socks5 127 0 0 1 9090 set http proxy socks5 127 0 0 1
  • 类的六大默认构造函数

    缺省的构造函数和析构函数 等于放弃了自己初始化和清除的机会 缺省的拷贝构造和缺省的赋值函数 采用 位拷贝和值拷贝 若类中出现指针时 这两个函数出错 class String public String const char str NULL
  • 整理Rapid object detection using a boosted cascade of simple features论文中的要点

    整理Rapid object detection using a boosted cascade of simple features论文中的要点 使用haar特征 在24 24像素的框内有180000以上不同的haar特征 怎么算的 终于
  • openwrt路由器-timeout while waiting for PADS.

    最近使用openwrt路由器进行PPPoE拨号的时候 经常出现 远程服务器无响应 的错误 log打印日志如下 pppoe Timeout waiting for PADS packets Unable to complete PPPoE D
  • c语言错误不允许使用不完整的类型,C语言中的void和void*的定义及用法

    void void最常见的用法 就是在函数中限定函数的参数和返回值的 void draw void 表明函数draw没有参数也没有返回值 void在别的的地方的应用我也没见过 实际上 如果把void 和int char double等类型放
  • 「猜题第一篇」2019年大学生电子设计竞赛

    点击上方 大鱼机器人 选择 置顶 星标公众号 福利干货 第一时间送达 昨天出了清单之后 第一时间我是懵逼的 脑子里想的是 这都是啥啊 后面仔细的理了一下 关于三脚架和小车的用处 极大概率三脚架会是和无人机使用 但也不排除 和小车一起使用然后
  • MYSQL8-快速生成表结构(用于生成文档)

    MYSQL8 快速生成表结构 用于生成文档 SELECT rownum rownum 1 AS 序号 column name AS 代码 CASE WHEN column comment IS NULL OR TRIM column com
  • C语言技巧 ----------调试----------程序员必备技能

    作者前言 作者介绍 作者id 老秦包你会 简单介绍 喜欢学习C语言和python等编程语言 是一位爱分享的博主 有兴趣的小可爱可以来互讨 个人主页 小小页面 gitee页面 秦大大
  • 解决端口被占用问题,安装MySQL出现端口被占用

    1 快捷键 Win R 打开命令提示符 输出命令 netstat ano 目的 查看占用3306端口的 PID 值 上图可以看出 占用3306 窗口的 PID值为 13620 2 打开任务管理器 点击 详细信息 选中该程序 鼠标右键 点击
  • 密度聚类DBSCAN、主成分分析PCA算法讲解及实战(附源码)

    需要源码请点赞关注收藏后评论区留言私信 一 基于密度的聚类 基于密度的聚类算法的主要思想是 只要邻近区域的密度 对象或数据点的数目 超过某个阀值 就把它加到与之相近的聚类中 也就是说 对给定类中的每个数据点 在一个给定范围的区域中必须至少包
  • 操作系统最全面试题汇总

    1 操作系统的特点 共享 资源可被多个并发执行的进程使用 并发 可以在同一时间间隔处理多个进程 需要硬件支持 异步 进程走走停停 每次执行的速度不一样 但是要保证进程每次执行结果相同 虚拟 将物理实体映射成为多个虚拟设备 操作系统的组成 驱
  • Python中的pandas库简介及其使用

    pandas模块 pandas是一个强大的分析结构化数据的工具集 它的使用基础是Numpy 提供高性能的矩阵运算 用于数据挖掘和数据分析 同时也提供数据清洗功能 Pandas中常见的数据结构有两种 Series DateFrame 类似一维