numpy平均值插补步骤及详细说明

2023-11-05


利用 numpy对数据进行插补是一个非常常见的方法,代码也很多。但是网上的代码一般没有很详细的解释,不利于初学者学习。本帖就是在源代码的基础上添加了相关注释,便于初学者理解。

1.导入numpy工具并读取数据

在文件的同级目录下,建一个名为textdata.txt的数据,然后导入。为了进行示范,数据如下所示。

# numpy 采用平均值法插补缺失数据
import numpy as np

# numpy读取
"""
数据如下所示
A,b,c,d,e
1,9,20,90,100
2,3,15,m,88
3,6,18,n,100
"""
data = np.genfromtxt("textdata.txt", delimiter=",")

2.定义平均值插补函数

1.首先确定数据的列数,然后对每一列开始循环;
2.计算缺失值Nan值个数,如果Nan个数为0,表示没有Nan值,不需要替换,执行下一个列循环;
3.如果有Nan值(Nan值个数大于零),则对该列非Nan的值进行求和,并求出非Nan值的平均值;
4.将计算出的平均值赋值给该列的Nan值;
5.最后将插补后的新列赋值给原始列,完成插补值替换。

# 定义平均值插补函数
def fill_nan_by_column_mean(t):
    for i in range(t.shape[1]):    # 循环01234
        # data.shape表示矩阵的行列维度
        # data.shape[0]表示行维度
        # data.shape[1]表示列维度
        
        # 计算缺失值nan的个数
        nan_num = np.count_nonzero(t[:,i] != t[:,i])
        # np.count_nonzero统计非0值的数量,就是和,True算1
        # data[:,i],i表示列号,表示在i列从头到尾的意思
        # nan不能比较大小,所以nan != nan是True,就表示一个空值
        
        if nan_num > 0:    # 表示有nan
            now_col = t[:,i]
            # 对列求和
            now_col_not_nan = now_col[np.isnan(now_col) == False].sum()
            # np.isnan(now_col)找出空值nan,是nan返回True,不是nan返回False
            # now_col[np.isnan(now_col) == False].sum()表示对所有非nan求和
            
            # 平均值=和/个数
            now_col_mean = now_col_not_nan / (t.shape[0] - nan_num)
            # shape[0]表示行数
            # nan_num表示nan个数
            # t.shape[0] - nan_num 表示非nan的个数
            
            # 赋值给now_col
            now_col[np.isnan(now_col)] = now_col_mean
            # 对nan值进行赋值
            
            # 赋值给t,即更新t的当前列
            t[:,i] = now_col
    return t

3.调用平均值插补函数

# 调用平均值插补函数
fill_nan_by_column_mean(data)

4.插补结果

通过以上步骤,可以得出以下插补结果:

array([[  2.        ,   6.        ,  17.66666667,  90.        ,96.        ],
       [  1.        ,   9.        ,  20.        ,  90.        ,100.        ],
       [  2.        ,   3.        ,  15.        ,  90.        ,88.        ],
       [  3.        ,   6.        ,  18.        ,  90.        ,100.        ]])
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

numpy平均值插补步骤及详细说明 的相关文章

随机推荐

  • atd服务报错 Failed with result ‘exit-code‘

    有需求需要测试下 at 单次计划任务 系统环境 isoftserveros v5 1 oe1 aarch64 系统默认没有at软件包 使用本地yum源安装 yum y install at 安装完后不小心执行了下atd atd 因为at计划
  • 嵌入式设计中对于只有两种状态的变量存储设计,如何高效的对循迹小车进行偏差量化

    前言 1 在嵌入式程序设计中 我们常常会要对各类传感器进行数据存储 大多时候的传感器 例如红外光传感器 返回的数据要么是0 要么是1 因此 只需要一bit就能够存储 而很多人却常常使用char型数组存储 这样真正申请到的内存只使用了八分之一
  • Java基础-内部类

    注意 在成员内部类中访问所在外部类对象 格式 外部类名 this
  • ARP代理

    一个物理网络子网中的源主机向另一个物理网络子网中的目的主机发送ARP Request 和源主机直连的网关用自己接口的mac地址代替目的主机回复 arp reply 这个过程成为arp代理 arp代理的几种方式以及每种方式针对的问题如下图所示
  • 2023届电子设计大赛E题(控制类)

    先上视频 1 首先我们来看看题目 题目还是比较简单明白的 基础题只需要用到一个云台去做这个题目 发挥题需要用到两个云台去解决 首先前几题除了写死没有更好的办法了 我们直接来说一下发挥题怎么做吧 怎么去解决这个问题吧 做发挥题的时候我是遇到了
  • 西电B测——基于simulink的2PSK和2DPSK调制解调系统实现

    这是学校的B级测试实验 仅供学习交流使用 误码率曲线绘制需要用到bertool工具 bertool工具教程 通信专业Simulink 画误码率曲线 使用bertool工具 Enpiyahh的博客 CSDN博客 simulink误码率曲线 报
  • MySQL中对于事务完整的超详细介绍

    MySQL事务详细理解 一 事务基本介绍 1 什么是事务 2 为什么出现事务 3 事务四大特性 原子性 一致性 隔离性 持久性 4 事务的隔离级别 四种级别 不同隔离级别所具有的问题 二 操作演示 1 自动提交和手动提交 2 回滚操作 3
  • 组和OU介绍

    组和OU介绍 https daiker gitbook io windows protocol ldap pian 9 0x00 前言 这篇文章主要介绍AD里面的组和组织单位 OU 0x01 一些LDAP高级搜索语法 1 LDAP 查找中的
  • argparse.ArgumentParser()用法解析

    此模块有中文文档 建议看到此文的读者链接到中文文档查看 本文只是自己学习 个人理解的重点总结 argparse模块 官方文档 argparse是一个Python模块 命令行选项 参数和子命令解析器 argparse 模块可以让人轻松编写用户
  • unable to access android sdk add-on list解决方案

    unable to access android sdk add on list解决方案 问题 原因 解决方案 1 配置Proxy 2 跳过检测 在Android Studio的安装目录下 找到 bin idea properties 在尾
  • List集合遍历过程中修改元素,这个坑踩一次就够了

    简介 java系列技术分享 持续更新中 初衷 一起学习 一起进步 坚持不懈 如果文章内容有误与您的想法不一致 欢迎大家在评论区指正 希望这篇文章对你有所帮助 欢迎点赞 收藏 留言 更多文章请点击 文章目录 问题描述 一 将List集合中的每
  • 华为OD机试 - 找单词(Python)

    题目描述 给一个字符串和一个二维字符数组 如果该字符串存在于该数组中 则按字符串的字符顺序输出字符串每个字符所在单元格的位置下标字符串 如果找不到返回字符串 N 1 需要按照字符串的字符组成顺序搜索 且搜索到的位置必须是相邻单元格 其中 相
  • centos7或8安装google-authenticator身份令牌

    1 系统基础环境 说明 使用云服务器安装与本地系统两种方式安装google authenticator 基于云服务器centos7 root linux tes lsb release a LSB Version core 4 1 amd6
  • 什么是HTML语义化标签?常见HTML语义化标签大全,以及不同标签比较

    一 什么是HTML语义化标签 语义化的标签 旨在让标签有自己的含义 p 一行文字 p span 一行文字 span 如上代码 p 标签与 span 标签都区别之一就是 p 标签的含义是 段落 而 span 标签责没有独特的含义 二 语义化标
  • SQL:基础概念 + 在线数据库

    文章目录 1 基础 2 数据库基础概念整理 2 1 ER图 2 2 数据库管理工具 2 3 在线数据库 1 基础 推荐阅读 https www w3school com cn sql sql orderby asp https www ru
  • 优化器算法总结(BGD、SGD、MBGD、Momentum、NAG、Adagrad 未总结完)

    参考的两篇博文 1 优化算法总结 深度学习 https blog csdn net fengzhongluoleidehua article details 81104051 2 深度学习 优化器算法Optimizer详解 BGD SGD
  • Spring-动态代理深入了解

    前言 本篇的Spring AOP系类文章第二篇扩展了Spring 动态代理然后开发了简易的AOP类 个人主页 尘觉主页 个人简介 大家好 我是尘觉 希望我的文章可以帮助到大家 您的满意是我的动力 在csdn获奖荣誉 csdn城市之星2名 J
  • JVM内存溢出和内存泄漏的区别

    1 概念的区分 1 1 内存泄露 memory leak 程序运行结束后 没有释放 所占用的内存空间 一次内存泄漏 似乎不会有大的影响 但内存泄漏 不断累积 最终可用内存会变得越来越少 比如说 总内存大小是100 MB 有40MB的内存一直
  • 一个无源晶振和外围电路(如图)组成的振荡电路,就能发挥类似有源晶振的功能吗?

    一个无源晶振和外围电路 如图 组成的振荡电路 就能发挥类似有源晶振的功能吗 2012 06 21 22 01 曾佳乐曾佳乐曾 分类 工程技术科学 浏览1232次 从output端输出的电压只有正半周还是正半周 负半周都有 这个电路通电后 能
  • numpy平均值插补步骤及详细说明

    numpy平均值插补步骤及详细说明 1 导入numpy工具并读取数据 2 定义平均值插补函数 3 调用平均值插补函数 4 插补结果 利用 numpy对数据进行插补是一个非常常见的方法 代码也很多 但是网上的代码一般没有很详细的解释 不利于初