用pandas进行数据分析实战

2023-11-01

安装pandas模块包,载入练习数据。

在pandas中,常用的载入函数是read_csv。除此之外还有read_excel和read_table,table可以读取txt。若是服务器相关的部署,则还会用到read_sql,直接访问数据库,但它必须配合mysql相关包。

read_csv拥有诸多的参数,encoding是最常用的参数之一,它用来读取csv格式的编码。这里使用了gb2312,该编码常见于windows,如果报错,可以尝试utf-8。

sep参数是分割符,有些csv文件用逗号分割列,有些是分号,有些是\t,这些都需要具体设置。header参数为是否使用表头作为列名。

names参数可以为列设置额外的名字,比如csv中的表头是中文,但是在pandas中最好转换成英文。

通过输出我们可以看到其表格的行与列数,但由于篇幅原因,显示中部分数据省略。我们可以通过调整展示的长度及宽度显示更多文件信息。

因为数据集的数据比较多,如果我们只想浏览部分的话,可以使用head函数,显示头部的数据,默认5,也可以自由设置参数,如果是尾部数据则是tail。

不设置head函数参数,输出结果如下:

设置head函数参数值为7,结果输出如下:

不设置tail函数参数,输出结果如下: 

设置tail函数参数为6,输出结果如下: 

检查是否有重复数据,其中positionId是职位ID,具备唯一性,我们通过此列进行重复数据检查。

我们得到唯一值只有5031个,但根据表格共有6876个数据,我们需要将重复数据清除。

使用drop_duplicates清除重复数据。

drop_duplicates函数通过subset参数选择以哪个列为去重基准。keep参数则是保留方式,first是保留第一个,删除后余重复值,last还是删除前面,保留最后一个。duplicated函数功能类似,但它返回的是布尔值。

接下来处理salary薪资数据。计算出薪资下限以及薪资上限。薪资内容没有特殊的规律,既有小写k,也有大K,还有k以上等用法,k以上只能上下限默认相同。

这里需要用到pandas中的apply。它可以针对DataFrame中的一行或者一数据进行操作,允许使用自定义函数。

定义一个cut_word函数,它查找「-」符号所在的位置,并且截取薪资范围开头至K之间的数字,也就是我们想要的薪资上限。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

用pandas进行数据分析实战 的相关文章

  • Python 数据分析——Matplotlib相关知识

    Python 数据分析 Matplotlib相关知识 第五章 Matplotlib相关知识 样式 文章目录 Python 数据分析 Matplotlib相关知识 前言 一 matplotlib的绘图样式 style 1 matplotlib
  • Python教程:从零基础到编程高手

    Python 一门简洁而强大的编程语言 吸引着越来越多的初学者 本文将为你提供一份Python教程 带领你从零基础开始 逐步掌握这门语言 最终成为一名Python编程高手 第一部分 Python入门指南 首先 我们将介绍Python的基础知
  • 最近在对接电商供应链,说说开放平台API接口

    B2B电商开放平台的设计需要从以下几面去思考 开放平台API接口 的接入 主要是从功能需求的角度 设计满足业务需求的接口及对应的字段 平台与商家之间信息的对接 对接的方法有哪些 对接过程中需要可能会遇到什么问题 同步开关及权限的设计 处理信
  • 用RPA实现高效批量下载图片,轻松解决繁琐操作!

    在电商行业中 高质量的商品图片是吸引客户的重要因素之一 然而 传统的下载方式需要逐个点击商品链接并手动保存图片 费时费力且容易出错 为了解决这个问题 八爪鱼抓取淘宝商品图片rpa机器人应运而生 它可以模拟人在电脑上的操作 根据用户的配置自动
  • 用与球形粒子散射的MIE解

    光的散射是最基本的光效应之一 对于大小与光的波长相当的散射粒子 例如空气中的液滴或气态污染物 需要进行精确的处理才能建立足够精确的模型 米氏解 也称为洛伦兹 米氏解 或米氏散射 已在VirtualLab Fusion中用于研究球形粒子的散射
  • Python获取去哪儿旅游数据并作可视化攻略

    嗨喽 大家好呀 这里是爱看美女的茜茜呐 开发环境 版 本 python 3 8 编辑器 pycharm 第三方库 requests gt gt gt pip install requests parsel gt gt gt pip inst
  • 基于激光的迈克尔逊干涉仪和干涉条纹探测

    摘要 迈克尔逊干涉仪是光学干涉测量的典型装置 装置中的不同配置可能导致不同的干涉条纹 因此 它们之间的关系非常值得去深入研究 借助VirtualLab Fusion中的非序列追迹技术 可以轻松设置和配置迈克尔逊干涉仪 并在不同情况下显示干涉
  • Python数据分析学习路线详细版总结

    数据分析人人都有必要掌握一点 哪怕只是思维也行 下面探讨Python数据分析需要学习的知识范畴 结合自己的经历和理解 总结的 学习大纲 有些章节带有解释 有些没有 当然 关于学习范畴 可能每个人的理解都不太一样 以下仅供参考 1 数据分析思
  • 如何学习Python数据分析,最全路径图送给你(100天Get新技能)

    和很多同学接触过程中 我发现自学Python数据分析的一个难点是资料繁多 过于复杂 大部分网上的资料总是从Python语法教起 夹杂着大量Python开发的知识点 花了很多时间却始终云里雾里 不知道哪些知识才是真正有用的 本来以为上手就能写
  • 天猫数据分析-天猫查数据软件-11月天猫平台饮料市场品牌及店铺销量销额数据分析

    今年以来 饮料是快消品行业中少数保持稳定增长的品类之一 11月份 饮料市场同样呈现较好的增长态势 根据鲸参谋电商数据分析平台的相关数据显示 今年11月份 天猫平台上饮料市场的销量为2700万 环比增长约42 同比增长约28 销售额为13亿
  • 计算智能 | 蚁群算法——旅行商问题(TSP)python

    目录 一 求解TSP city31 问题的python代码 二 python运行结果 一 求解TSP city31 问题的python代码 import numpy as np import random import matplotlib
  • 干涉条纹研究

    干涉测量是用于精确测量中最广泛应用的技术之一 通过观察和研究条纹图案 可以判断表面形状质量或关于光谱带宽的仪表信息 利用VirtualLab Fusion中非序列场追迹技术 可以轻松地设置和分析光学干涉仪 在这里提出两个经典的基于迈克尔逊干
  • Python数据分析之Jupyter Notebook安装教程

    一 简介 Jupyter Notebook是基于网页的交互编程工具 以网页的形式打开 可以在网页页面中直接编写代码和运行代码 代码的运行结果也会直接在代码块下显示 特点 Jupyter Notebook中所有交互计算 编写说明文档 数学公式
  • 2018年第七届数学建模国际赛小美赛C题共享单车对城市交通的影响解题全过程文档及程序

    2018年第七届数学建模国际赛小美赛 C题 共享单车对城市交通的影响 原题再现 共享自行车改变了许多城市的交通状况 许多大城市引入共享自行车来解决交通问题 我们需要定量评估共享自行车对城市交通的影响 以及相关的经济 社会和环境影响 解决这一
  • Selenium库编写爬虫详细案例

    一 引言 Selenium作为一个强大的自动化测试工具 其在网络爬虫领域也展现出了许多技术优势 首先 Selenium可以模拟浏览器行为 包括点击 填写表单 下拉等操作 使得它能够处理一些其他爬虫工具无法应对的情况 比如需要登录或者页面使用
  • Pendulum详解1——Pendulum库入门指南 - 时光的艺术

    写在开头 时间 是编程世界中不可或缺的元素 无论是事件调度 数据分析 还是用户界面的显示 时间都扮演着关键的角色 然而 在Python的标准库 datetime 中 我们经常面临繁琐的操作和限制 为了摆脱这些束缚 我们引入了一个更加强大和灵
  • 民安智库(第三方满意度调研公司):满意度调查,选择适合的数据分析方法

    满意度调查是企业了解客户对其产品或服务满意程度的重要工具 而选择适合的数据分析方法则是解读调查结果的关键步骤 不同的数据分析方法可以提供不同的洞察和见解 帮助企业更好地理解客户需求 优化产品和服务 本文将分享民安智库 北京第三方绩效管理评估
  • 数据分析求职-面试技巧

    之前咱们已经分享了岗位介绍 求职准备思路 简历如何准备 今天咱俩聊一聊面试的技巧 1 面试流程 咱们先聊聊面试的基本流程 简历 笔试筛选 gt 技术初面 gt 技术二面 gt 技术三面 gt 技术交叉面 gt HR面 这个过程中有几个点值得
  • 天猫数据分析工具推荐(天猫第三方数据平台)

    在电商迅速发展的大背景下 做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺 塑造品牌 如通过数据分析了解消费者的需求 购买偏好 这有利于品牌商家及时调整商品结构 产品推广 商品宣传等等 灵活制定品牌的销售策略 那么 天猫平台行业 品牌
  • Python爬虫实战:IP代理池助你突破限制,高效采集数据

    当今互联网环境中 为了应对反爬虫 匿名访问或绕过某些地域限制等需求 IP代理池成为了一种常用的解决方案 IP代理池是一个包含多个可用代理IP地址的集合 可以通过该代理池随机选择可用IP地址来进行网络请求 IP代理池是一组可用的代理IP地址

随机推荐

  • Linux入门级命令

    目录 1 开启终端 2 Linux命令格式 3 扩展 Linux下的命令补全 4 切换用户 5 uname命令 6 ls命令 用法一 用法二 用法三 7 pwd命令 8 cd命令 9 clear命令 10 reboot命令 11 shutd
  • MySQL表字段设置默认值

    环境 MySQL 5 1 命令行工具 问题 MySQL表字段设置默认值 解决 SQL CREATE TABLE test i a int NOT NULL DEFAULT 1 ts b timestamp NOT NULL DEFAULT
  • chrome启动参数设置

    chrome禁止本地浏览时加载本地其他文件 可以采用添加启动参数的方式来支持 添加参数为 allow file access from files 或者 disable web security Google Chrome 浏览器默认安装路
  • KDD‘21华为数值型特征做embedding,An Embedding Learning Framework for Numerical Features in CTR Prediction

    本文是针对数值型特征做embedding的方法 背景 图1 常用的数值型embedding方法可以分为以下三类 No Embedding 这类方法不做embedding 而是直接用原始的数值作为特征 或者在数值上面做一些改进 例如youtu
  • React 核心概念(3)

    React 核心概念 3 1 事件处理 React 元素的事件处理和 DOM 元素的很相似 但是有一点语法上的不同 引自 事件处理 React 事件的命名采用小驼峰式 camelCase 而不是纯小写 使用 JSX 语法时你需要传入一个函数
  • 写网关介绍比较好的文章地址

    https www jianshu com p 5bc4c0f58bf3
  • 自带内网穿透的文件同步工具Syncthing介绍

    文章目录 特征简介 下载与安装 简单介绍 后记 特征简介 Syncthing是一个文件同步工具 可以实现异地电脑间的文件同步 Syncthing自带内网穿透功能 文件同步过程将以P2P方式进行 Syncthing支持Windows MacO
  • QT中QDockWidget使用详解

    Qt系列文章目录 文章目录 Qt系列文章目录 前言 一 具体操作 1 QDockWidget控件配置函数 2 代码 1 头文件 2 实现文件 效果 遇到的问题 前言 QDockWidget提供了dock widget的概念 也称为工具面板或
  • shell脚本基础5——常用命令写作技巧

    文章目录 一 grep命令 二 sed命令 2 1 选项参数 2 2 常用命令 三 AWK命令 3 1 常用参数 3 2 常用示例 四 find与xargs 五 date命令 六 对话框 6 1 消息框 6 2 yes no对话框 6 3
  • 信息安全风险评估---矩阵法计算风险

    矩阵法计算风险 假设 有以下信息系统中资产面临威胁利用脆弱性的情况 共有两项重要财产 资产A1和资产A2 资产A1面临一个主要威胁T1 资产A2面临两个主要威胁T2 T3 威胁T1可以利用资产A1存在的两个脆弱性 脆弱性V1和V2 威胁T2
  • 小程序DOM如何转为图片并将图片分享给朋友?

    方案一 h5中转页 1 利用web端插件html2canvas将dom转成图片 h5端 入参请参考文档 http www dtmao cc ios 65361 html html2canvas refdom useCORS true sca
  • 可穿戴设备未来市场巨大

    可穿戴设备将冲击智能手机的存在 不可否认 可穿戴设备未来的市场非常之大 甚至极有可能冲击智能手机的存在 从功能角度讲 可穿戴设备有机会一步步替代智能手机 现阶段来讲 许多可穿戴设备只能算是手机的附庸产品 通讯 社交等功能以手机为基础 可穿戴
  • STM32定时器(输入捕获)

    上一章讲了输出比较的内容 输出比较就是定时器自增 同时和CCR比较 按照自己设置的比较要求 输出REF高低电平 这一章我们讲下面结构图输出比较左边部分 也就是输入捕获 首先 介绍一下输入捕获 IC input capture 输入捕获 输入
  • Vuforia SDK分析

    Vuforia Architecture 高通组件 camera 单实例 在需要摄像头的时候会返回唯一的摄像头实例 Image Converter 单实例 像素级的图像转换器 在相机的 OpenGL ES rendering 格式和 tra
  • Android中保存当前按钮的状态 按back键返回之后再次进入没有改变

    博主前些天发现了一个巨牛的人工智能学习网站 通俗易懂 风趣幽默 忍不住也分享一下给大家 点击跳转到网站 一 使用SharedPreferences类 把用户操作记录保存到里面 因为是按钮的状态 所以在点击事件里面保存用户的操作数据 获取用户
  • 哨向 Mika & Lelush 1

    Report On Sentinels Guides of Atypical Combinations 非典型性哨兵向导结合报告 1 你是我的灯塔
  • HTML5 地理定位 【来自百度应用分享平台】

    百度给的地图API接口相当完善 复制过来一下 以后备用 基本使用方法
  • Day2:跨站脚本攻击

    目标 持续输出 每日分享关于web前端常见知识 面试题 性能优化 新技术等方面的内容 篇幅不会过长 方便理解和记忆 主要面向群体 前端开发工程师 初 中 高级 应届 转行 培训等同学 Day2 今日话题 想必大家经常会在面试中或者工作生活中
  • QT从入门到实战x篇_30_绘图设备(QPixmap、QBitmap、QImage和 QPicture;QPixmap、QBitmap绘制及保存;QImage像素操作;QPicture记录和重现)

    前面QT从入门到实战x篇 27 绘图事件QPainter 绘图事件void painterEvent 声明一个画家对象 QPainter painter this 画笔QPen 画刷QBrush QT从入门到实战x篇 28 绘图事件QPai
  • 用pandas进行数据分析实战

    安装pandas模块包 载入练习数据 在pandas中 常用的载入函数是read csv 除此之外还有read excel和read table table可以读取txt 若是服务器相关的部署 则还会用到read sql 直接访问数据库 但