pandas 数据结构

2023-11-16

Series常用操作【知道】

Series创建:传入一个Python列表
- 如果传入的数据类型是统一的数字，那么最终的dtype类型是int64
- 如果传入的数据类型是统一的字符串，那么最终的dtype类型是object
- 如果传入的数据类型是多种类型，那么最终的dtype类型也是object

# data=,传入要python列表;index=指定行索引,不传的话行索引默认为0,1,2...
pd.Series(data=,index=)

# 例子1
s = pd.Series(['banana', 42])
# 输出结果如下
0    banana
1        42
dtype: object

#例子2
s = pd.Series(['Wes McKinney','Male'],index = ['Name','Gender'])
# 输出结果如下
Name      Wes McKinney
Gender            Male
dtype: object

Series常用属性

s.index # 获取行索引,属性
s.keys() # 获取行索引,方法
# 属性后面不加(),方法后面加()

s.values # 获取值

Series常用方法

s.mean() # 平均值
s.max() # 最大值
s.min() # 最小值
s.std() # 标准差
s.value_counts() # 不同值(不同类别)的条目数量
s.count() # 非空值个数

s.describe() 
# 输出数值列统计描述:①count非空值个数,②mean平均值,③std标准差,④max最小值,⑤25%四分之一分位值,⑥50%二分之一分位值,⑦75%四分之三分位值,⑧最大值
# 输出非数值列统计描述:①count非空值个数,②unique唯一值个数,③top出现次数最多的值,④freq出现最多值的次数

通过布尔值列表获取Series部分数据

s[[True,False,True,False]]
# 返回为True的值,最后返回两个值

Series运算
- series和数值型变量计算
  - 变量和series中的每个元素逐一进行计算
- 两个Series之间计算
  - 根据索引匹配规则进行计算,相同的索引进行计算,不同的索引无法计算,用NaN填充

DataFrame常用操作【重要】

常用属性和方法

df.shape # 查看行数,列数
df.size # 查看数据个数
len(df) # 查看数据行数
df.count() # 查看各列非空值个数
df.max() # 查看各列最大值,数值列返回最大值,非数值列返回出现次数最多的值
df.min()
df.describe() # 返回数值列统计描述

DataFrame的布尔索引
- 同Series一样，DataFrame也可以使用布尔索引获取数据子集

# 获取前5行数据中的第1、2、4个
movie.head()[[True,True,False,True,False]]

dataframe的运算
- 当DataFrame和数值进行运算时，DataFrame中的每一个元素会分别和数值进行运算
- 两个DataFrame之间进行计算，和series一样会根据索引的值进行对应计算
- 当两个DataFrame索引值不能对应时，不匹配的会返回NaN
- DataFrame中如果有非数值列,只能进行相加或者相乘的操作,对非数值列进行复制,其他计算会发生报错
指定某列为DataFrame索引

df.set_index('列名') # 括号里列为指定索引列
pd.read_csv('path',index_col='列名') # 加载数据时通过index_col指定某列为df的索引

df.reset_index() # 重置索引,变为0,1,2,3...

修改行名列名

# 方法一
df.rename(index={'原行名1':'新行名1','原行名2':'新行名2'...},columns={'原列名1':'新列名1','原列名2':'新列名2'...},inplace=True)
# index=,columns= 后跟要修改的行列名字典
# inplace=True 在源数据上修改,默认False,在内存或者副本上修改,源数据并没有修改
# 涉及到df修改删除操作,不指定inplace=True,默认源数据不会进行修改,或者将修改的数据重新保存为一个变量名

# 方法二
将df.index 和 df.columns属性提取出来，修改之后，再赋值回去

添加删除插入

通过dataframe['列名']添加新列，添加至最后

df['新列名'] = 常数
df['新列名'] = df['列名1'] + df['列名2'] # 数值列加减乘除都可以,一行一行计算

删除列

df.drop('列名',axis='columns',inplace=True) # inplace=True源数据上删除,axis='columns',默认按行删除,axis='index'

插入列

df.insert(loc=列下标数字, column='列名', value=该列所有的值)
# loc= 插入列的位置,按列索引序号
# column= 新插入列的名字
# value= 新插入列的值,可以是常用,也可以是计算完的结果

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

pandas

数据结构

python

pandas 数据结构的相关文章

计算另一个字符串中多个字符串的出现次数

在 Python 2 7 中给定以下字符串 Spot是一只棕色的狗斑点有棕色的头发斑点的头发是棕色的查找字符串中 Spot brown 和 hair 总数的最佳方法是什么在示例中它将返回 8 我正在寻找类似的东西string c
Gunicorn 工作人员无论如何都会超时

我正在尝试通过gunicorn运行一个简单的烧瓶应用程序但是无论我做什么我的工作人员都会超时无论是否有针对应用程序的活动工作人员在我设置任何内容后总是会超时timeout值到是什么导致它们超时当我发出请求时请求成功通过但工作
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
MongoEngine 查询具有以列表中指定的前缀开头的属性的对象的列表

我需要在 Mongo 数据库中查询具有以列表中任何前缀开头的特定属性的元素现在我有一段这样的代码 query mymodel terms term in query terms 并且这会匹配在列表 term 上有一个项目的对象该列表中的
矩形函数的数值傅里叶变换

本文的目的是通过一个众所周知的分析傅里叶变换示例来正确理解 Python 或 Matlab 上的数值傅里叶变换为此我选择矩形函数这里报告了它的解析表达式及其傅立叶变换https en wikipedia org wiki Rectan
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
Python 内置的 super() 是否违反了 DRY？

显然这是有原因的但我没有足够的经验来认识到这一点这是Python中给出的例子docs http docs python org 2 library functions html super class C B def method se
如何将 GAE 中一种 Kind 中的所有实体复制到另一种 Kind 中，而无需显式调用每个属性

我们如何使用function clone entity 如中所述在 Python 中复制 Google App Engine 数据存储中的实体而无需在编译时知道属性名称 https stackoverflow com question
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
Django REST Framework - CurrentUserDefault 使用

我正在尝试使用CurrentUserDefault一个序列化器的类 user serializers HiddenField default serializers CurrentUserDefault 文档说为了使用它请求必须作为
找到一个数字所属的一组范围

我有一个 200k 行的数字范围列表例如开始位置停止位置该列表包括除了非重叠的重叠之外的所有类型的重叠列表看起来像这样 3 5 10 30 15 25 5 15 25 35 我需要找到给定数字所属的范围并对 100k 个数字重复该
Spider 必须返回 Request、BaseItem、dict 或 None，已“设置”

我正在尝试从以下位置下载所有产品的图像我的蜘蛛看起来像 from shopclues items import ImgData import scrapy class multipleImages scrapy Spider name m
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
制作一份 Python 文档的 PDF 文件

Python 官方网站提供 PDF 文档下载但它们是按章节分隔的我下载了源代码并构建了 PDF 文档这些文档也是单独的 PDF 我怎么能够从源代码中的 Makefile 构建一个 PDF 文件我认为这样阅读起来会更方便如果连接单独
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
NLTK：查找单词大小为 2k 的上下文

我有一个语料库我有一个词对于语料库中该单词的每次出现我想获取一个包含该单词之前的 k 个单词和该单词之后的 k 个单词的列表我在算法上做得很好见下文但我想知道 NLTK 是否提供了一些我错过的功能来满足我的需求 def size
如何在Python脚本中从youtube-dl中提取文件大小？

我是 python 编程新手我想在下载之前提取视频音频大小任何 YouTube 视频 gt gt gt from youtube dl import YoutubeDL gt gt gt url https www youtube c

随机推荐

win10+ubuntu20.04 双系统卸载ubuntu20.04

清除Ubuntu系统分区使用磁盘管理器比较省事也可使用diskgenius 打开磁盘管理器后可以看到Ubuntu分区如图所示右键删除卷即可删除开启引导启动项删除了Ubuntu系统所有分区后 Windows的EFI分区里仍然会有U
Linux下C编译系统

Linux下C编译系统编译过程概述了解一些编译知识的读者都知道所谓编译就是在编译程序读取源程序字符流对之进行词法和语法的分析将高级语言指令转换为功能等效的汇编代码再由汇编程序转换为机器语言并且按照操作系统对可执行文件感谢格
蓝桥杯第十四届省赛完整题解 C/C++ B组

没有测评不知道对不对仅仅过样例而已试题 A 日期统计本题总分 5 分问题描述小蓝现在有一个长度为 100 的数组数组中的每个元素的值都在 0 到 9 的范围之内数组中的元素从左至右如下所示 5 6 8 6 9 1 6 1
虚拟服务器lan网段地址,lan侧服务器ip地址

lan侧服务器ip地址内容精选换一换云平台支持修改主网卡的私有IP地址具体操作请参见本节内容如需修改扩展网卡的私有IP地址请删除网卡并挂载新网卡云服务器已关机如果网卡绑定了虚拟IP或者DNAT规则需要先解绑如果网卡上有
双向交错CCM图腾柱无桥单相PFC学习仿真与实现（2）SOGI_PLL学习仿真总结

目录前言 SOGI基本原理锁相环基本原理仿真实现及说明总结前言前面总结了双向交错CCM图腾柱无桥单相PFC系统实现后面把问题细分关于SOGI锁相环的应用和学习在这里总结下双向交错CCM图腾柱无桥单相PFC学习仿真与实现 1
大数据流处理(Spark Streaming + Kafka)面试常考考点

1 ack Kafka Producer的参数是把数据写到Kafka broker里面去时需要的参数常见的值有1 0 all 1 0 leader不做等待只管发不管结果延时性最低持久性最差 1 默认只要leader写数据到本地即
Windows 安装 Nginx

Nginx下载nginx documentation Nginx 是一个高性能的网页服务器能够反向代理HTTP HTTPS SMTP POP3 IMAP的协议链接也可以作为一个负载均衡器和 HTTP 缓存是一个免费开源高性能的 H
LeGO-LOAM建图

1 安装LeGO LOAM LeGO LOAM需要依赖 ROS 环境和 gtsam 遇到github下载慢的情况可以从gitee导入仓库下载 1 1安装依赖项 wget wget O software gtsam zip https g
win10程序员计算器面板按钮介绍

HEX 十六进制 DEC 十进制 OCT 八进制 BIN 二进制注意这里的二进制为二进制补码形式每输入一个数进制转换会自动进行 QWORD 四字 64位 DWORD 双字 32位 WORD 字 16位 BYTE 字节 8位 Lsh 左
递归实现逆序输出整数——C语言

本题目要求读入1个正整数n 然后编写递归函数reverse int n 实现将该正整数逆序输出输入格式输入在一行中给出1个正整数n 输出格式对每一组输入在一行中输出n的逆序数输入样例 12345 结尾无空行输出样例 54321
BFC渲染机制

BFC block formatting context 块级格式化上下文实际就是一个隔离罩 W3C CSS2 1 规范中的一个概念它是页面中的一块渲染区域并且有一套渲染规则它决定了其子元素将如何定位以及和其他元素的关系和相互作用
2013年9月24日星期二（demo5_1参数化2D直线）

现在很想封装下3D的将所谓的难度踏在脚下好现在准备了代码到哪里分析到哪里首先包含各种头文件 include common h include DDraw Interface h using namespace std HWND
iMazing传输 iPhone 备忘录和通话记录功能

对于经常需要进行客户联系的业务员来说通过整理通话记录能够统计到拜访客户的次数效果等数据如果是通过手动统计的方式将耗费大量的时间与精力 iMazing为苹果设备用户提供了功能齐全的通话管理功能用户可以通过使用该功能查询相关的通话
使用Python搭建代理服务器- 爬虫代理服务器详细指南

搭建一个Python爬虫代理服务器可以让你更方便地管理和使用代理IP 下面是一个详细的教程来帮助你搭建一个简单的Python爬虫代理服务器 1 首先确保你已经安装了Python 你可以在官方网站 https www python org
打开c语言生成exe文件，出现闪退的解决方法

额在给大一学弟上第一节实验课的时候经常有学弟问我为什么打开c语言生成的exe文件立马闪退起初个别问的时候我只是简单的说明程序运行完了就自动关了现在先不用涉及这个以后自然懂了但是后来问的人多了我就觉得有必要先给他们提一下
Entity Framework Core系列教程-24-使用存储过程

在Entity Framework Core中使用存储过程在这里您将学习如何在Entity Framework Core中执行数据库存储过程 EF Core提供了以下方法来执行存储过程 DbSet
【总结】C++各种进制转换函数汇总

文章目录前言一指定格式转换输出二任意2 36进制数转化为10进制数三 10进制数转换为任意的n进制数四使用字符串流string stream进制转换前言进制之间的转换有两种方法自定义进制转换函数将一个n进制的数转换为
FFmpeg中AVDictionary介绍

FFmpeg中的AVDictionary是一个结构体简单的key value存储经常使用AVDictionary设置或读取内部参数声明如下具体实现在libavutil模块中的dict c h 提供此结构体是为了与libav兼容但它
gcc命令生成静态库和动态库

一基本概念1 1什么是库在windows 平台和linux 平台下都大量存在着库本质上来说库是一种可执行代码的二进制形式可以被操作系统载入内存执行由于windows 和linux 的平台不同主要是编译器汇编器和连接器的不同因此
pandas 数据结构

Series常用操作知道 Series创建传入一个Python列表如果传入的数据类型是统一的数字那么最终的dtype类型是int64 如果传入的数据类型是统一的字符串那么最终的dtype类型是object 如果传入的数据类型是多种

pandas 数据结构

Series常用操作【知道】

DataFrame常用操作【重要】

pandas 数据结构 的相关文章

随机推荐

热门标签

pandas 数据结构的相关文章