pandas入门

2023-11-13

pandas is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool

一、读取文本文件中的数据

# 导入pandas库
import pandas as pd

1.1 读取csv文件，以逗号作为分隔符。

file_path = "./ratings.csv"
datas = pd.read_csv(file_path)

# 查看数据的前几行
datas.head()

	userId	movieId	rating	timestamp
0	1	296	5.0	1147880044
1	1	306	3.5	1147868817
2	1	307	5.0	1147868828
3	1	665	5.0	1147878820
4	1	899	3.5	1147868510

# 查看数据的形状，返回行数以及列数
datas.shape
(25000095, 4)

# 查看列表名称，以列表的形式返回
datas.columns
Index(['userId', 'movieId', 'rating', 'timestamp'], dtype='object')

# 查看索引值
datas.index
RangeIndex(start=0, stop=25000095, step=1)

# 查看每列的数据类型
datas.dtypes

userId         int64
movieId        int64
rating       float64
timestamp      int64
dtype: object

1.2 读取txt文件，以 \t 作为分隔符

file_path = "./demo.txt"
datas = pd.read_csv(file_path, sep='\t', header=None, names=['Year', 'month', 'day'])
datas

	Year	month	day
0	2019	1	2
1	2020	2	3
2	2021	3	7
3	2022	4	9

1.3 读取excel文件

file_path = "./books.xlsx"
datas = pd.read_excel(file_path)
datas

	年	月	日
0	2019	1	1
1	2020	2	2
2	2021	3	3
3	2022	4	4

1.4 读取MySQL数据表

# 安装sqlalchemy包
!pip install sqlalchemy

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple
Collecting sqlalchemy
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/b4/03/8102d7442498ba2dc915673c6617b1d1729cd3c762f275eb83c6bdc78dd0/SQLAlchemy-1.4.40-cp310-cp310-win_amd64.whl (1.6 MB)
     ---------------------------------------- 1.6/1.6 MB 1.2 MB/s eta 0:00:00
Collecting greenlet!=0.4.17
  Downloading https://pypi.tuna.tsinghua.edu.cn/packages/ac/3f/3af852c44090814ba41b9a4b5bcfd977f49c9fee83d19b65829e164fc11d/greenlet-1.1.3-cp310-cp310-win_amd64.whl (101 kB)
     -------------------------------------- 101.7/101.7 KB 1.5 MB/s eta 0:00:00
Installing collected packages: greenlet, sqlalchemy
Successfully installed greenlet-1.1.3 sqlalchemy-1.4.40


WARNING: You are using pip version 22.0.4; however, version 22.2.2 is available.
You should consider upgrading via the 'D:\Software\Python310\python.exe -m pip install --upgrade pip' command.

1.4.1 老版本

import pymysql
conn = pymysql.connect(host='127.0.0.1', user='root', password='wangpeng', database='mydatabase', charset='utf8')
datas = pd.read_sql('select * from books', con=conn)
datas

D:\Software\anaconda3\lib\site-packages\pandas\io\sql.py:761: UserWarning: pandas only support SQLAlchemy connectable(engine/connection) ordatabase string URI or sqlite3 DBAPI2 connectionother DBAPI2 objects are not tested, please consider using SQLAlchemy
  warnings.warn(

	id	name	price
0	1	数据结构	45.0
1	2	操作系统	48.0
2	3	计算机网络	56.0
3	4	计算机组成原理	54.0
4	5	编译原理	65.0

1.4.2 新版本

from sqlalchemy import create_engine
sql_statement = 'select * from books'
engine = create_engine('mysql+pymysql://root:wangpeng@localhost:3306/mydatabase?charset=utf8')
datas = pd.read_sql(sql_statement, engine)
datas

	id	name	price
0	1	数据结构	45.0
1	2	操作系统	48.0
2	3	计算机网络	56.0
3	4	计算机组成原理	54.0
4	5	编译原理	65.0

二、DataFrame和Series

2.1 Series

Series是一种类似于一维数组的对象，它是由一组数据（可以是不同数据类型）以及一组与之相关的数据标签（即索引）组成。

2.1.1 默认创建Series（默认索引）

s1 = pd.Series(['hello', 1, True, 3.5])
s1  # 左侧为索引，右侧为数据

0    hello
1        1
2     True
3      3.5
dtype: object

# 获取索引
s1.index
RangeIndex(start=0, stop=4, step=1)

# 获取数据
s1.values
array(['hello', 1, True, 3.5], dtype=object)

2.1.2 创建指定索引的Series

s2 = pd.Series(['a', False, 5], index=[1, 2, 3])
s2

1        a
2    False
3        5
dtype: object

2.1.3 使用Python字典创建Series

dict_one = {'name': 'wangpeng', 'age': 18, 'province': 'JiangXi'}
s3 = pd.Series(dict_one)
s3

name        wangpeng
age               18
province     JiangXi
dtype: object

# 获取值
s3['name']
'wangpeng'

# 获取多个值
s3[['name', 'age']]

name    wangpeng
age           18
dtype: object

type(s3['name'])
str

2.2 DataFrame

DataFrame是一个表格型的数据结构

每列可以是不同的值类型（数值、字符串、布尔值等）
既有行索引index，也有列索引columns
可以被看做由Series组成的字典

2.2.1 根据多个字典序列创建DataFrame

datas = {
    'State': ['New York', 'Michigan', 'Nevada', 'California', 'Florida'],
    'GDP': [14406, 13321, 10003, 12563, 15364]
}
df = pd.DataFrame(datas)
df

	State	GDP
0	New York	14406
1	Michigan	13321
2	Nevada	10003
3	California	12563
4	Florida	15364

df.dtypes

State    object
GDP       int64
dtype: object

df.columns
Index(['State', 'GDP'], dtype='object')

df.index
RangeIndex(start=0, stop=5, step=1)

2.3 从DataFrame中查询出Series

如果只查询一行、一列，返回的是pd.Series
如果查询多行、多列，返回的是pd.DataFrame

2.3.1 查询列

# 查询单列，也就是一个Series
df['State']

0      New York
1      Michigan
2        Nevada
3    California
4       Florida
Name: State, dtype: object

# 查询多列，也就是一个DataFrame
df[['State', 'GDP']]

df.loc[0]

State    New York
GDP         14406
Name: 0, dtype: object

# 返回索引0到3行的数据，包含第三行
df.loc[0:3]

	State	GDP
0	New York	14406
1	Michigan	13321
2	Nevada	10003
3	California	12563

# 取所有行，限制列（保留GDP列）
df.loc[:, 'GDP']

0    14406
1    13321
2    10003
3    12563
4    15364
Name: GDP, dtype: int64

# 取所有行，限制列（保留State列）
df.loc[:, 'State']

0      New York
1      Michigan
2        Nevada
3    California
4       Florida
Name: State, dtype: object

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

pandas

python

pandas入门的相关文章

Python - 比较同一字典中的值

我有一本字典 d Trump MAGA FollowTheMoney Clinton dems Clinton Stein FollowTheMoney Atlanta 我想删除字符串列表中的重复字符串该字符串是键的值对于这个例子期望
在 Celery 任务中调用 Google Cloud API 永远不会返回

我正在尝试拨打外部电话Google Cloud Natural Language API从一个内Celery任务使用google cloud python包裹问题是对 API 的调用永远不会返回挂起 celery task def g
pandas DataFrame.join 的运行时间是多少（大“O”顺序）？

这个问题更具概念性理论性与非常大的数据集的运行时间有关所以我很抱歉没有一个最小的例子来展示我有一堆来自两个不同传感器的数据帧我需要最终将它们连接成两个very来自两个不同传感器的大数据帧 df snsr1 and df snsr2
NLTK 2.0分类器批量分类器方法

当我运行此代码时它会抛出一个错误我认为这是由于 NLTK 3 0 中不存在batch classify 方法我很好奇如何解决旧版本中的某些内容在新版本中消失的此类问题 def accuracy classifier gold resu
如何从Python中的函数返回多个值？ [复制]

这个问题在这里已经有答案了如何从Python中的函数返回多个变量您可以用逗号分隔要返回的值 def get name you code return first name last name 逗号表示它是一个元组因此您可以用括号将值括
从Django中具有外键关系的两个表中检索数据？ [复制]

这个问题在这里已经有答案了 This is my models py file from django db import models class Author models Model first name models CharFie
python multiprocessing 设置生成进程等待

是否可以生成一些进程并将生成进程设置为等待生成的进程完成下面是我用过的一个例子 import multiprocessing import time import sys def daemon p multiprocessing curr
在 Django Admin 中调整字段大小

在管理上添加或编辑条目时 Django 倾向于填充水平空间但在某些情况下当编辑 8 个字符宽的日期字段或 6 或 8 个字符的 CharField 时这确实是一种空间浪费字符宽然后编辑框最多可容纳 15 或 20 个字符我如何告
PyQt 使用 ctrl+Enter 触发按钮

我正在尝试在我的应用程序中触发确定按钮我当前尝试的代码是这样的 self okPushButton setShortcut ctrl Enter 然而它不起作用这是有道理的我尝试查找一些按键序列here http ftp ics
打印包含字符串和其他 2 个变量的变量

var a 8 var b 3 var c hello my name is var a and var b bye print var c 当我运行程序时 var c 会像这样打印出来 hello my name is 8 and 3 b
如何将特定范围内的标量添加到 numpy 数组？

有没有一种更简单更节省内存的方法可以单独在 numpy 中执行以下操作 import numpy as np ar np array a l r ar c a a 0 l ar tolist a r 它可能看起来很原始但它涉及获取给定数
从 Powershell 脚本安装 Python

当以管理员身份从 PowerShell 命令行运行以下命令时可以在 Windows 11 上成功安装 Python c temp python 3 11 4 amd64 exe quiet InstallAllUsers 0 Instal
Pandas 组合不同索引的数据帧

我有两个数据框df 1 and df 2具有不同的索引和列但是有一些索引和列重叠我创建了一个数据框df索引和列的并集因此不存在重复的索引或列我想填写数据框df通过以下方式 for x in df index for y in df
在 Google App Engine 中，如何避免创建具有相同属性的重复实体？

我正在尝试添加一个事务以避免创建具有相同属性的两个实体在我的应用程序中每次看到新的 Google 用户登录时我都会创建一个新的播放器当新的 Google 用户在几毫秒内进行多个 json 调用时我当前的实现偶尔会创建重复的播放器
带有 LSTM 的 GridSearchCV/RandomizedSearchCV

我一直在尝试通过 RandomizedSearchCV 调整 LSTM 的超参数我的代码如下 X train X train reshape X train shape 0 1 X train shape 1 X test X test
如何使用 AWS Lambda Python 读取 AWS S3 存储的 Word 文档（.doc 和 .docx）文件内容？

我的场景是我尝试使用 python 实现从 Aws Lambda 读取 AWS 存储的 S3 word 文档 doc 和 docx 文件内容下面的代码是我使用的我的问题是我可以获取文件名但无法读取内容 def lambda hand
python 中的“槽包装器”是什么？

object dict 和其他地方的隐藏方法设置为这样的
Python：Goslate 翻译请求返回“503：服务不可用”[关闭]

Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案我们不允许提出寻求书籍工具软件库等推荐的问题您可以编辑问题以便用事实和引文来回答这个问题似乎不是关于主要由程序员使用的特定编程问
如何从pandas中的多列计算多列

我正在尝试使用函数从 pandas 数据框中的多个列计算多个列该函数采用三个参数 a b 和 c 并返回三个计算值 sum prod 和 quot 在我的 pandas 数据框中我有三个列 a b 和 c 我想从中计算列 sum pro
pytest找不到模块[重复]

这个问题在这里已经有答案了我正在关注pytest 良好实践 https docs pytest org en latest explanation goodpractices html test discovery或者至少我认为我是但是

随机推荐

第三方支付 -----支付宝支付流程

大家都知道第三方支付已经普遍都在使用所以我今天就说一下支付宝的支付流程首先进入支付宝平台点击开发中心研发服务获得沙盒的appid以及商户公钥和支付宝公钥然后利用秘钥生成软件生成私钥和公钥建立keys文件夹将私钥和公钥文件
将日期字符串转成LocalDateTime

如果直接用LocalDateTime parse将日期字符串 yyyy MM dd 转成LocalDateTime会导致报错所以我这里提供了将日期字符串转成LocalDateTime的方法仅供参考如有更好方式欢迎大家分享 impor
WSL2报错：nvidia-smi Command ‘nvidia-smi‘ not found, but can be installed with:

这里写自定义目录标题找了很多方法解决分割线 WSL2部署找了很多方法在社区找了很多方法结果在b站评论区找到了一个方法给解决了原本一开始有人说是驱动版本问题我nvcc V是ok的但是nvidia smi一直报错 Comman
LaTeX排版（一）：字体、页眉页脚、页边距、行距的设置

目录字体设置布局设置页眉页脚设置行距的设置其他字体设置字体设置需要用到宏包fontspec 需要在导言区添加如下指令 usepackage fontspec 中英文字体都可以分为如下3种正文字体族无衬线字体族打字机字体族
十进制转十六进制 C++

目录题目描述思路分析 AC代码题目描述编写一个函数传入一个十进制的正整数将十进制整数转换为十六进制的字符串并返回十六进制字符串中的字母全部大写输入描述键盘输入一个十进制的正整数输出描述输出该十进制整数转换后的十六进制字
硬盘柱面损坏怎么办_最靠谱的机械硬盘坏道修复工具一：DiskGenius

DiskGenius是一款硬盘分区数据修复软件 DiskGenius的功能非常丰富然而很多时候我们都只是用DiskGenius来分区硬盘对硬盘进行一些常规性能的操作常常忽略了DiskGenius最重要的一个功能那就是机械硬盘的坏
vue 按钮权限

项目中按钮的操作权限我们可以直接使用 v if 判断就行但是每个页面都要写一堆判断不太雅观所以可以写一个全局函数或者自定义指令两种方式优雅的实现一全局函数一般在登陆接口中后台就把权限列表信息提供了可以把他存到缓存或者vuex
从零开始完成YOLOv5目标识别（三）用PyQt5展示YOLOv5的识别结果

往期内容从零开始完成Yolov5目标识别二制作并训练自己的训练集从零开始完成Yolov5目标识别一准备工作目录往期内容一项目框架二核心内容 1 QtDesign设计 2 检测部分 2 1 导包 2 2 main py
js-image-compressor 图片压缩插件

1 安装插件 npm i js image compressor 2 引入 import ImageCompressor from js image compressor 3 使用 compressionImage file return
加入ehcache后，系统出现内存泄漏，解决办法

最近在系统中加入缓存ehcache 但发现每隔一天服务器就会报出内存溢出问题严重后来在网上查资料发现一篇解释的网文 spring中的提供了一个名为org springframework web util Introspector
Android从源码分析RecyclerView四级缓存复用机制一（缓存ViewHolder）

RecyclerView相比较ListView先说多了多布局和缓存目前已经在Android列表中大量普及使用面试中也经常问到所以对于RecyclerView的四级缓存机制也叫复用回收机制的分析很有必要这部分很重要请全村人来听先说
Understanding Dataset Design Choices for Multi-hop Reasoning

Understanding Dataset Design Choices for Multi hop Reasoning NAACL 2019 阅读笔记记录论文中几个有趣的实验 1 单句包含答案实验首先做了一个简单的实验给模型输入一个
游戏盾原理和优势

什么是游戏盾呢游戏盾是DDoS高防IP产品系列中针对游戏行业的安全解决方案游戏盾专为游戏行业定制针对性解决游戏行业中复杂的DDoS攻击游戏CC攻击等问题目前以对抗的形式存在的高防产品形态也就是防御带宽要大于攻击者的流量游戏盾有
最大熵算法及简单例子

最近在学模式识别正在看Introduction to Pattern Recognition这本书挺不错的一本书好下面和大家一起来学习最大熵算法首先最大熵算法是干什么的呢一般是用来估计一个分布至于把分布估计出来之后用来干什么
程序员必备的画图工具

作者 CUGGZ 来源前端充电宝 XMind 是一个跨平台的思维导图软件具有多种结构样式除了普通的思维导图还包括树形图逻辑图鱼骨图时间轴树状表格等等不同的结构样式可以自由组合混用同时支持一键更换结构样式最近经常有小伙伴
编译安装 Nginx 提示：/configure: error: C compiler cc is not found

问题产生背景反向代理服务器需要增加探活功能需要对前置nginx 进行重新编译安装第三方模块发现在编译安装配置时候一直过不去百度查询过很多解决办法基本都是没有安装好编译环境之类的说法但是在确定编译环境所涉及的包全部都安装以后还是
idea必备开发插件.

1 lombok 支持lombok的各种注解从此不用写getter setter这些可以把注解还原为原本的java代码非常方便 https plugins jetbrains com plugin 6317 lombok plugin
2022 RoboCom 世界机器人开发者大赛-本科组（省赛）-RC-u5 树与二分图

2022 RoboCom 世界机器人开发者大赛本科组省赛 RC u5 树与二分图文章目录 2022 RoboCom 世界机器人开发者大赛本科组省赛 RC u5 树与二分图题目描述输入格式输出格式输入样例输出样例思路 A
感知机分类学习

感知机 perceptron 是一种二类分类的线性分类模型也就是说使用于将数据分成两类的并且数据要线性可分的情况线性可分是指存在一个超平面能够将空间分成两部分每一部分为一类感知机的目的就在于找这样的一个超平面假设输入数据形式为
pandas入门

pandas is a fast powerful flexible and easy to use open source data analysis and manipulation tool 一读取文本文件中的数据导入pandas

pandas入门

一、读取文本文件中的数据

1.1 读取csv文件，以逗号作为分隔符。

1.2 读取txt文件，以 \t 作为分隔符

1.3 读取excel文件

1.4 读取MySQL数据表

1.4.1 老版本

1.4.2 新版本

二、DataFrame和Series

2.1 Series

2.1.1 默认创建Series（默认索引）

2.1.2 创建指定索引的Series

2.1.3 使用Python字典创建Series

2.2 DataFrame

2.2.1 根据多个字典序列创建DataFrame

2.3 从DataFrame中查询出Series

2.3.1 查询列

pandas入门 的相关文章

随机推荐

热门标签

pandas入门的相关文章