数据清洗工作小结

2023-05-16

今天帮课题组的老师处理了一部分数据,由于长时间不做数据清洗的工作,本栗子进行了长达2个小时的百度。这篇文档主要是针对该清洗工作的小结。

  1. 从xlsx文件中读取指定的几列数据,为数据框格式
xls=pd.ExcelFile('ABC.xlsx')
#选取连续的6列BG、BH、BI、BJ、BK、BL列
#sheet的名字为Data
df=pd.read_excel(xls, 'Data',usecols="BG:BL")
#选取不连续的列
df_year_CUX=pd.read_excel(xls, 'Data',usecols="B,CU,CX,BG:BL")

获取数据框的所有列名

columns_list=df.columns.tolist()#返回列表
  1. 查看每列数据的空值情况
df.isna().sum()

数据框中的NAN被空字符代替’’

for column_name in columns_list[1:]:
    df[column_name].fillna('', inplace=True)
  1. 对于某列数据(列名gname),挑选出满足以下条件的记录。
    数据为unknown,以AB, BC, KK这三个单词结尾
gname = df['gname'].copy()
gname.head(15)
gname_splitted = list(gname.str.split(' ').values)#split() 通过空格' '对字符串进行切片

enumerate() 函数用于将一个可遍历的数据对象(如列表、元组或字符串)组合为一个索引序列。同时列出数据和数据下标,一般用在 for 循环当中

for gname_ind, gname in enumerate(gname_splitted):#loc_ind:索引,loc:数据值
    #print(gname)
    if gname[0]=='Unknown' or gname[0]=='unknown':
        gname_index_list.append(gname_ind)
    if gname[-1]=='AB':
        gname_index_list.append(gname_ind)
    elif gname[-1]=='BC':
        gname_index_list.append(gname_ind)
    elif gname[-1]=='KK':
        gname_index_list.append(gname_ind)
print('被删除的记录的序列号:', gname_index_list)
print('根据第一个标准,删除了%d条记录', len(gname_index_list))
df_v1=df.drop(gname_index_list)
  1. 对于每行数据来说,这6列里面仅有两列有值(不为空)
    df.index可以得到数据框的行索引名
for ix in list(df_v1.index):
    row_list=list(df_v1.loc[ix].values)
    NA_counter=row_list.count('')#之前把NAN都替换为了''
    if NA_counter==4:
        v2_index_list.append(ix)
        
print('满足条件的记录的序列号:', v2_index_list)            
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据清洗工作小结 的相关文章

  • Ubuntu实用安装

    1 用DVD xff0f 服务器版 ubuntu 来安装命令行系统 2 编辑更新软件源 sudo cp etc apt source list etc apt source list bak 3 安装 X 窗口系统 xff1a sudo a
  • 关于Haar名称一点想说的:Haar而非Harr

    见到一些中文文献 博客 师兄们的简历都出现以一个叫 Harr 的特征 xff0c 有些疑惑 刨根问底一下 xff0c 最后得出结论Harr应该是对Haar的误写 Haar特征因为使用的是Haar小波变换而得名 xff0c 哈尔小波转换 是于
  • 安装远程连接Ubuntu Server 的图形界面——x2go远程连接桌面

    想要远程连接你的Ubuntu服务器的图形界面么 xff1f 这里有个简单的指导告诉你如何使用X2Go来实现 xff0c 这是一个NX远程桌面协议的衍生版本 你所需要做的就是 1 在服务器上面安装X2Go服务端和桌面环境 xff0c 2 在客
  • PHP正则表达式之\A、\Z、 \z、^、$

    文章目录 A Z z 断言与 之间的区别单行模式和多行模式的差异换行符匹配的差异 示例代码及解读文中提到的模式修饰符D PCRE DOLLAR ENDONLY m PCRE MULTILINE A Z z 断言与 之间的区别 A xff0c
  • #发布npm包遇到错误,因为用了淘宝镜像地址的原因的解决方法-403 403 Forbidden - PUT https://registry.npmmirror.com/-/user/org.cou

    使用npm login 也可以使用npm adduser 登录准备发布npm依赖包到npm时 xff0c 遇到问题 xff1a span class token function npm span ERR span class token
  • 面向对象设计和结构化分析设计(软件设计师备考笔记)

    目录 第十章 面向对象设计和结构化分析设计 第一节 结构化设计 第二节 UML 第三节 面向对象设计 设计原则 第四节 面向对象设计 设计模式 第五节 结构化分析 数据流图 DFD 必考 下午第一道题 第六节 面向对象设计方法 多态与绑定
  • 大厂Mysql高频面试题!java操作excelpoi

    微服务的发展 微服务倡导将复杂的单体应用拆分为若干个功能简单 松耦合的服务 xff0c 这样可以降低开发难度 增强扩展性 便于敏捷开发 当前被越来越多的开发者推崇 xff0c 很多互联网行业巨头 开源社区等都开始了微服务的讨论和实践 微服务
  • 知已知彼 ^.^

    如何做一个让男人尊敬的精致女人 转贴 作者 LUKECYK 浏览 160 1 如果一个男人开始怠慢你 xff0c 请你离开他 不懂得疼惜你的男人不要为之不舍 xff0c 更不必继续付出你的柔情和爱情 2 任何时候 xff0c 不要为一个负心
  • 单片机 -定时器计数器工作原理及工作方式

    时钟周期 时钟周期 T 是时序中最小的时间单位 xff0c 具体计算的方法就是 1 时钟源频率 xff0c 假如单片的晶振是 11 0592M xff0c 那么对于我们这个单片机系统来说 xff0c 时钟周期 61 1 11059200 秒
  • 单片机 LCD1602

    LCD1602为工业字符型液晶 xff0c LCD表示LiquidCrystal Display 能够同时显示16 x 2 xff08 16列2行 xff09 即32个字符 1602液晶也叫1602字符型液晶 xff0c 它是一种专门用来显
  • javascript进制及进制之间的转换

    计算机中常用的进制数有二进制 八进制 十进制 十六进制 一 十进制 转 其他 span class token keyword var span x span class token operator 61 span span class
  • 解决进入Ubuntu系统花屏的问题

    安装ubuntu后进入系统花屏 详细步骤 详细步骤 开机选择进入Ubuntu的高级系统模式 gt 恢复模式 xff0c 选择root xff0c 进入命令行界面 输入 xff1a sudo vim etc default grub 打开gr
  • 李沐:用随机梯度下降来优化人生

    用SGD来优化人生 要有目标目标要大坚持走痛苦的卷可以躺平四处看看快也是慢赢在起点很远也能到达独一无二简单最好 转载 xff0c 用随机梯度下降来优化人生1 xff1a https zhuanlan zhihu com p 41400931
  • Ubuntu18.04 + kinova joca2机械臂 + RealSense D435i深度相机进行eye to hand手眼标定

    文章目录 前言一 前期准备1 RealSense D435i安装2 Kinova ROS安装 二 手眼标定环境配置1 visip2 aruco ros3 easy handeye 三 标定前准备1 终端python版本设置2 opencv4
  • 相机成像原理详解

    ybwu 64 whu edu cn 被摄景物反射出的光线通过照相镜头 xff08 摄景物镜 xff09 和控制曝光量的快门聚焦后 xff0c 被摄景物在暗箱内的感光材料上形成潜像 xff0c 经冲洗处理 xff08 即显影 定影 xff0
  • python和numpy matplotlib版本匹配,以及安装指定版本库

    python和numpy matplotlib版本匹配 xff0c 以及安装指定版本库 文章目录 python和numpy matplotlib版本匹配 xff0c 以及安装指定版本库一 卸载二 安装三 验证 Matplotlib is a
  • wegame桌面丢失(所有软件都可用)

    1 打开此电脑 2 右上角搜索引擎里输入代码tgp daemon 即可 如果想要放在左面或者添加快捷方式邮寄此软件 会出现 创建快捷方式 或者固定到 开始位置
  • 人脸识别的LOSS(多分类Softamx)

    人脸1 xff1a N应用 xff1a https blog csdn net intflojx article details 81278330 超多分类的Softmax 早期深度人脸识别方法 xff0c 框架为CNN 43 Softma
  • 一些范冰冰的照片

    你可以说她YD xff0c 也可以说她XJ xff0c 但是你不能否认她的美丽 偶就是无敌小超人 xff0c 克塞前来拜访 热门圈子 xff1a 王仁甫 张佑赫 王绍伟 tony 明道 快速评论 共 19 条回复

随机推荐

  • vnc的默认端口修改

    http inthirties com 90 thread 1261 1 1 html vnc的默认端口是5901 xff0c 这个说法是不对的 vnc并不是只有一个端口 以前另一个文章介绍了nvcserver的配置用户的过程 xff0c
  • JavaScript 关于进制之间的转换实现

    JS要实现进制之间的转换 xff0c 可以利用parseInt xff0c toString完成 1 n进制 gt 10进制 xff1a parseInt string radix 2 n进制 gt radix进制 xff1a a toSt
  • VNC Server配置

    VNC登录用户缺省是root xff0c 但在安装oracle时必须用oracle用户的身份登录 xff0c 下面我们就以oracle为例说明如何配置VNC xff0c 从而可以使用不同的用户登录到主机 步骤描述如下 xff1a 步骤一 x
  • 文字检测识别技术的未来发展趋势和面临的选择

    未来发展趋势和面临的挑战 1文本检测与识别技术的未来发展趋势 场景文本检测与识别的研究发展趋势 场景文本检测识别目前来讲大概分为场景文本检测 场景文本识别 以及端到端文本检测和识别三个主要的方向 其中文本检测方法主要是包括基于文本框回归的分
  • [SIGCOMM2016]Robotron: Top-down Network Management at Facebook Scale

    Facebook面临的问题 分布式配置 xff1a 有很多配置需要在不同的系统中更改 多个Domain xff1a Facebook需要管理网络的网络版本控制 xff1a 需要管理不同版本的网络同时运行 依赖 xff1a 将新路由器添加到
  • Adversary Attack(对抗攻击)论文阅读笔记

    引言 最近开始学习Adversary Attack 对抗攻击 有关的内容 xff0c 于是便从Ian GoodFollow的论文开始读起 xff0c 后面每篇博客都会列举三篇的阅读笔记 xff0c 来记录学习的经历 如果有讲得不到位或者您有
  • 海睿思分享 | 浅谈数仓指标体系管理

    什么是指标 xff1f 指标 xff0c 是用于衡量事物发展程度的单位或方法 xff0c 也常被称作度量 xff0c 通常情况下也是报表统计的字段 xff0c 例如 xff1a 人口数 营业收入 用户数 利润率 成功率 失败率 覆盖率等 1
  • PyTorch 实战:计算 Wasserstein 距离

    xff08 给 Python开发者 加星标 xff0c 提升Python技能 xff09 编译 xff1a 机器之心 xff0c 作者 xff1a Daniel Daza 最优传输理论及 Wasserstein 距离是很多读者都希望了解的基
  • Java8 Lambda表达式教程

    1 什么是 表达式 表达式本质上是一个匿名方法 让我们来看下面这个例子 xff1a public int add int x int y return x 43 y 转成 表达式后是这个样子 xff1a int x int y gt x 4
  • VNC连接失败:The connection was refused by the host computer

    解决方法 xff1a 1 用Xshell登陆自己的服务器 2 在命令行中输入vncserver 命令行中出现 xff1a Warning optimal6 2 is taken because of tmp X2 lock Remove t
  • ACM会用到的一点数学知识

    1 费马小定理 xff1a a p mod p 61 a p为素数 xff0c 且a不是p的倍数 2 数n的约数个数 xff1a n分解因数为p1 s1 p2 s2 pm sm 则约数个数为 s1 43 1 s2 43 1 sm 43 1
  • SVN的Status总结

    执行SVN up和svn merge等命令出现在首位置的各字母含义如下 xff1a 无修改 A 新增 C 冲突 D 删除 G 合并 I 忽略 M 改变 R 替换 X 未纳入版本控制 xff0c 但被外部定义所用 未纳入版本控制 该项目已遗失
  • linux 下中文编码转换问题

    目标 xff1a 接收网络传过来的字节序 xff0c 转换字符串 全英文的情况下直接保存string即可 xff0c 带中文的情况试了好久故做如下记录 1 首先确认gcc 应该是utf 8的格式来存储字符串的 通过cmake 加入 fexe
  • Go 语言汇编快速入门

    在 Go 的源码中包含大量汇编语句 xff0c 最优秀的示例代码位于 math big runtime 和 crypto 这些库中 xff0c 但是从这里入门的话实在太过于痛苦 xff0c 这些示例都是着力于系统操作和性能的运行代码 对于没
  • 从零开始搭建Raspberry Pi机器视觉编程环境

    从零开始搭建Raspberry Pi机器视觉编程环境 本文主要包括如下内容 xff1a 安装Raspbian系统 连接和设置网络 安装中文支持 用电脑控制树莓派 通过SSH远程登录树莓派命令行界面 安装VNC远程登录树莓派图形桌面 通过串口
  • loss函数之margin改进方法

    最近sphereface人脸方法是目前开源人脸中最有效的方法 xff0c 通过改进我也获得了lfw acc 99 7 的结果 xff0c 下面几篇也是对sphereface改进的论文 xff1a AM Additive Margin Sof
  • mininet学习记录之openflow

    一 FAQ mn 指令的默认controller是ovs controller xff0c 最多只支持16个switch xff0c 如果要支持更多 xff0c 必须换controller OpenFlow reference implem
  • Open vSwitch常用指令

    link設定 OpenvSwitch by roan xff0c 内容相对比较全面 xff0c 但是给出的网页链接废了好多 流表中数字越大 xff0c 优先级越高 各个组件的命令有什么子命令和功能 xff0c 直接 help e g ovs
  • CVS使用手册 zz

    CVS使用手册 CVS是一个C S系统 xff0c 多个开发人员通过一个中心版本控制系统来记录文件版本 xff0c 从而达到保证文件同步的目的 工作模式如下 xff1a CVS服务器 xff08 文件版本库 xff09 xff08 版 本
  • 数据清洗工作小结

    今天帮课题组的老师处理了一部分数据 xff0c 由于长时间不做数据清洗的工作 xff0c 本栗子进行了长达2个小时的百度 这篇文档主要是针对该清洗工作的小结 从xlsx文件中读取指定的几列数据 xff0c 为数据框格式 xls span c