python数据分析处理库-Pandas

2023-11-04

1、读取数据

import pandas
food_info = pandas.read_csv("food_info.csv")
print(type(food_info)) # <class 'pandas.core.frame.DataFrame'>

2、数据类型

3、数据显示

food_info.head() # 显示读取数据的前5行
food_info.head(3) # 显示读取数据的前3行
food_info.tail(3) # 显示读取数据的后3行
food_info.columns # 列名
food_indo.shape # 数据规格
food_info.loc[0] # 第0行数据
food_info.loc[3:6] # 第3-6行数据
food_info.log[83,"NDB_No"] # 读取第83行的NDB_No数据
food_info["NDB_No"] # 通过列名读取列
columns = ["Zinc_(mg)", "Copper_(mg)"]
food_info[columns] # 读取多个列

# 读取单位为g的列
col_names = food_info.columns.tolist() # 列名
gram_columns = []
for c in col_names:
    if c.endswith("(g)"):
        gram_columns.append(c)
gram_df = food_info[gram_columns]

4、数据操作

# 对该列每一个值都除以1000，+-*同理
food_info["Iron_(mg)"] / 1000 
# 维度相同的列对应元素相乘
water_energy = food_info["Water_(g)"] * food_info["Energ_Kcal"]
# 添加新的一列
iron_grams = food_info["Iron_(mg)"] / 1000  
food_info["Iron_(g)"] = iron_grams
# 最大值
food_info["Energ_Kcal"].max()
# 排序 inplace-是否新生成一个DataFrame ascending-默认为True
food_info.sort_values("Sodium_(mg)", inplace=True, ascending=False) 
# 将排序后的数据的索引值重置，生成新的索引
new_titanic_survival = titanic_survival.sort_values("Age",ascending=False)
new_titanic_survival.reset_index(drop=True)

5、缺失值处理

# 缺失值
pd.isnull(age)
titanic_survival["Age"].mean() # 去掉缺失值后的平均值

#去掉含有缺失值的数据
titanic_survival.dropna(axis=1)	# 丢掉含有缺失值的列
titanic_survival.dropna(axis=0,subset=["Age", "Sex"]) # 丢掉"Age"与"Sex"中含有缺失值的行

6、简单的统计函数

# 统计在不同船舱中获救人数的平均值 aggfunc-默认为求均值
passenger_survival = titanic_survival.pivot_table(index="Pclass", values="Survived", aggfunc=np.mean)

7、自定义函数

# 返回行值
def hundredth_row(column):
    # Extract the hundredth item
    hundredth_item = column.loc[99]
    return hundredth_item
hundredth_row = titanic_survival.apply(hundredth_row)

# 置换列值
def which_class(row):
    pclass = row['Pclass']
    if pd.isnull(pclass):
        return "Unknown"
    elif pclass == 1:
        return "First Class"
    elif pclass == 2:
        return "Second Class"
    elif pclass == 3:
        return "Third Class"
classes = titanic_survival.apply(which_class, axis=1)

8、Series结构

from pandas import Series
series_custom = Series(rt_scores , index=film_names)
series_custom[['Minions (2015)', 'Leviathan (2014)']]

转载于:https://www.cnblogs.com/hgc-bky/p/9914207.html

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python数据分析处理库-Pandas 的相关文章

与 iexact 一起使用时，Django get_or_create 无法设置字段

我想用name iexact with get or create尽可能避免用户输入字段的重复我的提供者模型有一个名称字段我在其中使用get or create 查找工作正常但在第一次创建实例时如下面的 p1 Timber 示例名
Pandas apply 与 np.vectorize 从现有列创建新列的性能

我正在使用 Pandas 数据框并希望创建一个新列作为现有列的函数我还没有看到关于之间速度差异的很好的讨论df apply and np vectorize 所以我想我会在这里问熊猫apply 功能很慢根据我的测量在一些实验中如下
具有多处理功能的 Python 代码无法在 Windows 上运行

以下简单的绝对初学者代码在 Ubuntu 14 04 Python 2 7 6 和 Cygwin Python 2 7 8 上运行 100 但在 Windows 64 位 Python 2 7 8 上挂起我使用另一个片段观察到了同样的情况
为什么我不能使用“exclude”从 python 轮子中排除“tests”目录？

考虑以下包结构与以下setup py内容 from setuptools import setup find packages setup name dfl client packages find packages exclude te
Python：记录垃圾收集器

我有一个 python 应用程序有一些性能问题我想将垃圾收集器的事件特别是何时调用添加到我的日志中是否可以 thanks http docs python org library gc html gc set debug http
为什么在 Windows 中使用 GetConsoleScreenBufferInfoEx 时控制台窗口会缩小？

我正在尝试使用 GetConsoleScreenBufferInfoEx 和 SetConsoleScreenBufferInfoEx 设置 Windows 命令行控制台的背景和前景色我正在 Python 中使用 wintypes 进行此
在Python中创建一个新表

我正在尝试从数控机床中提取数据事件每毫秒发生一次我需要过滤掉一些用管道分隔的变量分隔符 PuTTy exe 程序生成的日志文件我尝试阅读熊猫但列不在同一位置 df pd read table data log sep 日志文件的一
Django 的 URL 覆盖率测试为 0%，为什么？

使用姜戈鼻子我对 URL 进行了测试但 URL 覆盖率仍然为 0 为什么 python manage py 测试配置文件这是我的报道 Name Stmts Miss Cover Missing profiles 0 0 100 pro
用Python中的嵌套for循环替换重复的if语句？

在我编写的下面的代码中 n 4 所以有五个 if 语句所以如果我想将 n 增加到比如说 10 那么就会有很多 if 语句因此我的问题是如何用更优雅的东西替换所有 if 语句 n p 4 5 number of trials prob
如何对这个 Flask 应用程序进行单元测试？

我有一个 Flask 应用程序它使用 Flask Restless 来提供 API 我刚刚写了一些身份验证来检查如果消费者主机被识别该请求包含一个哈希值通过加密 POST 的请求内容和 GET 的 URL 以及秘密 API 密钥来计
在Python中删除带有重音符号的字符串中的所有非字母字符

我正在尝试使用 Python 3 7 从包含重音符号的字符串中删除所有非字母字符空格除外我尝试了以下方法 import re text 29 1981 4 2008 clean text re sub W d text print cl
RuntimeError: 预期所有张量都在同一设备上，但发现至少有两个设备，cpu 和 cuda:0！使用我的模型进行预测时

我使用变压器训练了一个序列分类模型 BertForSequenceClassification 我收到错误预计所有张量都在同一设备上但发现至少有两个设备 cpu 和 cuda 0 在方法wrapper index select中检查参
pip 安装软件包两次

不幸的是我无法重现它但我们已经见过几次了 pip 将一个软件包安装两次如果卸载第一个第二个就会可见并且也可以被卸载我的问题如果一个包安装了两次如何用 python 检查背景我想编写一个测试来检查这一点 devOp Updat
Python正则表达式从字符串中获取浮点数

我正在使用正则表达式来解析字符串中的浮点数 re findall a zA Z d d t 是我使用的代码这段代码有问题如果数字和任何字符之间没有空格则不会解析该数字例如 0 1 2 3 4 5 6 7 8 9 的预期输出为 0 1
Spark中的count和collect函数抛出IllegalArgumentException

当我使用时抛出此异常时我尝试在本地 Spark 上加载一个小数据集count 在 PySpark 中 take 似乎有效我试图搜索这个问题但没有找到原因看来RDD的分区有问题有任何想法吗先感谢您 sc stop sc Spark
smooth_idf 是多余的吗？

The scikit learn 文档 http scikit learn org stable modules generated sklearn feature extraction text TfidfTransformer html
numpy.cov() 返回意外的输出

我有一个 X 数据集有 9 个特征和 683 行 683x9 我想获取这个 X 数据集和另一个与 X 具有相同形状的数据集的协方差矩阵我使用np cov originalData generatedData rowvar False 代
如何设置 matplotlib 表中列的背景颜色

我在一个目录中有多个 txt 文件例如 d memdump 0 txt 1 txt 10 txt 示例文本文件如下 Applications Memory Usage kB Uptime 7857410 Realtime 7857410
SQLAlchemy：避免声明式样式类定义中的重复

我正在使用 SQLAlchemy 并且我的对象模型中的许多类具有相同的两个属性 id 和整数和主键以及名称字符串我试图避免在每个类中声明它们如下所示 class C1 declarative base id Column Inte
为什么用字符串和时间增量转置 DataFrame 会转换数据类型？

这种行为对我来说似乎很奇怪 id列字符串在转置后转换为时间戳df如果另一列是时间增量 import pandas as pd df pd DataFrame id 00115 01222 32333 val 12 14 170 df v

随机推荐

keil4 破解心得

keil4 破解心得 Obj STM32 FD SDCard MP3 axf error L6047U The size nb 在编译时出现 Obj STM32 FD SDCard MP3 axf error L6047U The size
bes2300之环境搭建（一）

目录环境搭建 sdk文件结构介绍编译烧录配置烧录选项选择端口启动升级简单使用环境搭建安装编译工具链 gcc arm none eabi 4 9 2014q4 20141203 win32 exe make 3 81 exe
GPIO工作模式

参考链接 STM32 STM32F4 GPIO八种模式及工作原理详解 Z小旋 CSDN博客 stm32io口的八种工作模式 GPIO 即通用I O 输入输出端口是STM32可控制的引脚 STM32芯片的GPIO引脚与外部设备连接起来
[备忘]域用户登陆出现“此工作站和主域间的信任关系失败”错误解决方法

症状登陆域用户出现错误此工作站和主域间的信任关系失败并无法登陆解决方案 1 使用本地用户登录更改当前域为工作组如默认的WORKGROUP等并输入具有域管理权限的用户名密码随后此电脑上的域将会被删除 2 重启电脑
Flink入门看完这篇文章就够了

文章目录第一章概述第一节什么是Flink 第二节 Flink特点第三节 Flink应用场景第四节 Flink核心组成第五节 Flink处理模型流处理和批处理第六节流处理引擎的技术选型拓展什么是最多一次最少一次和仅一
算法基础之数组理论

算法基础之数组理论 1 前言 2 数组基础定义 3 数组增删改查 3 1基本功能 3 2添加元素 3 3查询和修改元素 3 4包含搜索和删除元素 3 5其他 3 6检验 4 动态数组及其时间复杂度 4 1动态数组的实现 4 2增删改查时间
阿里云通义千问向全社会开放，近期将开源更大参数规模大模型

9月13日阿里云宣布通义千问大模型已首批通过备案并正式向公众开放广大用户可登录通义千问官网体验企业用户可以通过阿里云调用通义千问API 通义千问在技术创新和行业应用上均位居大模型行业前列 IDC最新的AI大模型评估报告显示通义千问
【YModem】YModem串口IAP升级例程+YModem串口工具

目录 YModem协议传输的过程 IAP例程 YModem串口工具 YModem技术手册手把手教你如何实现自动固件更新 YModem协议是由XModem协议演变而来的每包数据可以达到1024字节是一个非常高效的文件传输协议 Ymode
ChatGPT多场景应用之基本应用

人工智能 AI 无疑是近年来最流行和最先进的技术之一生成式 AI模型正在促进众多任务实现效率和自动化目前 ChatGPT是风靡互联网的主要生成人工智能模型据 Similar Web 称自 2022 年 11 月发布以来其访问量已
【c语言五子棋】自定义类型五子棋/井字棋：胜负判断

一算法思路由于五子棋规则比较简单我们可以胜负判断分为以下几个方面分别判断 1 横向判断 2 竖向判断 3 斜向判断从左下到右上 4 斜向判断从左上到右下二算法原理算法来源参考字符串匹配的处理方法具体可以参考从头到尾彻底
腾讯COS，Cloudbase API用法教程详细

Chinar blog www chinar xin 腾讯云 COS Cloudbase API 本文提供全流程中文翻译 Chinar 的初衷是将一种简单的生活方式带给世人使有限时间具备无限可能 Chinar 心分享心创新助力快速
使用GCC和Makefile编译c文件

Ubuntu下使用GCC和Makefile编译c文件目录 Ubuntu下使用GCC和Makefile编译c文件前言一 GGC命令行模式 1 vim创建文件 2 gcc编译 1 编译出目标文件 2 链接为可执行文件 3 运行二 VS2
没有苹果开发者账号能否创建ios证书-最新

在2020年以前注册苹果开发者账号后就可以使用香蕉云编生成证书但2020年后因为注册苹果开发者账号需要使用Apple Developer app注册开发者账号所以需要缴费才能创建ios证书了所以新政策出来后只能使用香蕉云编注
quill富文本编辑器自定义字体和大小以及提交和回显

第一步引入quill样式我是下载到本地了第二步引入js
网购平台用户行为分析

1 背景对于电子商务网站来说每天都会产生海量的关于用户的行为数据分析用户的行为对于企业来说至关重要从海量用户行为数据中可以挖掘出网购用户的个人喜好行为特征购买倾向等隐藏信息从而为电子商务服务商提供有价值的信息本文基于SQL从
kex_exchange_identification: Connection closed by remote host问题解决

今天动了一下代码打算提交到github 结果使用git push 的时候报错 kex exchange identification Connection closed by remote host 在网上找了半天各种方法都试过了终于找
个人学习日记—CSS字体样式属性调试工具

font字体 font size 大小作用 font size属性用于设置字号 p font size 20px 单位可以使用相对长度单位也可以使用绝对长度单位相对长度单位比较常用推荐使用像素单位px 绝对长度单位使用较少注意
Spring系列之依赖注入---手动注入

本文内容主要介绍xml中依赖注入的配置构造器注入的3种方式详解 set方法注入详解注入容器中的其他bean的2种方式其他常见类型注入详解依赖回顾通常情况下系统中类和类之间是有依赖关系的如果一个类对外提供的功能需要通过调用其他
CocosCreator3.8研究笔记（二）windows环境 VS Code 编辑器的配置

一设置文件显示和搜索过滤步骤为了提高搜索效率以及文件列表中隐藏不需要显示的文件 VS Code 需要设置排除目录用于过滤比如 cocoscreator 中编辑器运行时会自动生成一些目录 build temp library 所以应该
python数据分析处理库-Pandas

1 读取数据 import pandas food info pandas read csv food info csv print type food info

python数据分析处理库-Pandas

python数据分析处理库-Pandas 的相关文章

随机推荐

热门标签