数据标准化处理

2023-05-16

一、为什么进行标准化处理

在多指标评价体系中,由于各评价指标的性质不同,通常具有不同的量纲和数量级。当各指标间的水平相差很大时,如果直接用原始指标值进行分析,就会突出数值较高的指标在综合分析中的作用,相对削弱数值水平较低指标的作用。因此,为了保证结果的可靠性,需要对原始指标数据进行标准化处理。

数据的标准化(normalization)是将数据按比例缩放,使之落入一个小的特定区间。在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理,即将数据统一映射到[0,1]区间上。

二、有哪些常用方法呢?

1. 规范化方法

min-max标准化(Min-maxnormalization)也叫离差标准化,是对原始数据的线性变换,使结果落到[0,1]区间,转换函数如下:其中max为样本数据的最大值,min为样本数据的最小值。这种方法有一个缺陷就是当有新数据加入时,可能导致max和min的变化,需要重新定义。

2. 正规化方法

  • 这种方法基于原始数据的均值(mean)和标准差(standard deviation)进行数据的标准化。将A的原始值x使用z-score标准化到x’。
  • z-score标准化方法适用于属性A的最大值和最小值未知的情况,或有超出取值范围的离群数据的情况。
  • spss默认的标准化方法就是z-score标准化。
  • 用Excel进行z-score标准化的方法:在Excel中没有现成的函数,需要自己分步计算,其实标准化的公式很简单。

步骤如下:
1.求出各变量(指标)的算术平均值(数学期望)xi和标准差si ;
2.进行标准化处理:
zij=(xij-xi)/si
其中:zij为标准化后的变量值;xij为实际变量值。
3.将逆指标前的正负号对调。
标准化后的变量值围绕0上下波动,大于0说明高于平均水平,小于0说明低于平均水平。

3. 归一化方法

4. 其他

log函数转换通过以10为底的log函数转换的方法同样可以实现归一下,具体方法如下:看了下网上很多介绍都是x*=log10(x),其实是有问题的,这个结果并非一定落到[0,1]区间上,应该还要除以log10(max),max为样本数据最大值,并且所有的数据都要大于等于1。

atan函数转换用反正切函数也可以实现数据的归一化:使用这个方法需要注意的是如果想映射的区间为[0,1],则数据都应该大于等于0,小于0的数据将被映射到[-1,0]区间上。而并非所有数据标准化的结果都映射到[0,1]区间上,其中最常见的标准化方法就是Z标准化,也是SPSS中最为常用的标准化方法:z-score 标准化(zero-meannormalization)也叫标准差标准化,经过处理的数据符合标准正态分布,即均值为0,标准差为1,其转化函数为:其中μ为所有样本数据的均值,σ为所有样本数据的标准差。

PS 对数化处理

一、 为什么要进行对数化处理

1. 缩小数据的绝对数值,方便计算。

例如,每个数据项的值都很大,许多这样的值进行计算可能对超过常用数据类型的取值范围,这时取对数,就把数值缩小了;在实证模型中,缩小值之后相关系数数值会更大一些(原值可能需要四到五位有效数字)。

2. 取对数后,可以将乘法计算转换称加法计算。

3. 某些情况下,在数据的整个值域中的在不同区间的差异带来的影响不同。

从log函数的图像可以看到,自变量x的值越小,函数值y的变化越快,还是前面的例子,同样是相差了300,但log500-log200>log800-log500,因为前面一对的比后面一对更小。也就是说,对数值小的部分差异的敏感程度比数值大的部分的差异敏感程度更高。这也是符合生活常识的,例如对于价格,买个家电,如果价格相差几百元能够很大程度影响你决策,但是你买汽车时相差几百元你会忽略不计了。

4. 取对数之后不会改变数据的性质和相关关系,但压缩了变量的尺度。

例如800/200=4, 但log800/log200=1.2616,数据更加平稳,也消弱了模型的共线性、异方差性等。

5. 且所得到的数据易消除异方差问题。

6. 在经济学中,常取自然对数再做回归,这时回归方程为 lnY=a lnX+b ,两边同时对X求导,1/Y*(DY/DX)=a*1/X, b=(DY/DX)*(X/Y)=(DY*X)/(DX*Y)=(DY/Y)/(DX/X) 这正好是弹性的定义。

当然,如果数据集中有负数当然就不能取对数了。实践中,取对数的一般是水平量,而不是比例数据,例如变化率等。

二、在进行对数化处理的过程中为什么要加1

如果在原始数据中,有一些数为0,在进行对数化的过程中可能会造成数据的缺失。+1不会让有效样本量变少

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

数据标准化处理 的相关文章

  • 程序员做一辈子?

    首先 xff0c 程序员真有必要干一辈子吗 xff1f 如果你是个搬砖的 xff0c 你会考虑一辈子搬砖吗 xff1f 你肯定会想着过几年挣钱了 xff0c 买个车跑运输 xff0c 或者自己做工头 对程序员来说 xff0c 真心没有必要干
  • linux 远程桌面

    文章目录 linux 远程桌面服务端tigervnc设置VNC设置开机自启VNC设置开机自启修改防火墙配置 客户端使用MobaXterm连接 linux 远程桌面 使用tigervnc实现远程桌面 服务端 tigervnc设置 1 安装ti
  • vxWorks学习笔记

    vxWorks学习笔记 1 xff0e VxWorks开发方式 xff1a 交叉开发 xff0c 即将开发分为主机 xff08 host xff09 和目标机 xff08 target xff09 两部分 类似于dos下C语言程序的开发 合
  • android:stateNotNeeded="true"的作用

    这个属性默认情况为false xff0c 若设为true xff0c 则当Activity重新启动时不会调用onSaveInstanceState xff08 xff09 方法 xff0c 同样 xff0c onCreate xff08 x
  • 三种文件分配方式的区别

    文件分配方式分为三种 xff1a 连续分配 链接分配 索引分配 其中链接分配又分为隐式链接分配和显式链接分配 xff1b 索引分配又分为单级索引分配 两级 xff08 多级 xff09 索引分配 xff0c 混合索引分配 这里要说的是显式链
  • java 读取文件的几种方式和通过url获取文件

    public class ReadFromFile 以字节为单位读取文件 xff0c 常用于读二进制文件 xff0c 如图片 声音 影像等文件 public static void readFileByBytes String fileNa
  • C语言常见英文词汇表

    前言 今天整理资料的时候发现了大一的好玩的资料 xff0c 就放出来吧 xff01 词汇表 int integer 整性 xff08 数 xff09 auto automatic 自动的 float float 浮点 xff08 数 xff
  • WIFI安全测试之WPS(PIN)加密暴力破解

    前言 无线AP的接入验证有很多种方式 xff0c 家用无线路由器的验证方式包括OPEN WEP WPA WPA2 xff0c WPS的出现降低了接入验证的复杂度 xff0c 但是这种方式却隐含带来许多问题 同时由于很早就入手了第一批WIFI
  • Arduino+蜂鸣器制作有趣的小音乐

    Arduino相关姿势 Arduino是一个开源的硬件平台 xff0c 包括开发套组 xff08 开发板和相关的模块以及连线 xff09 和IDE 开发语言基于C 核心是一块8位ATmega328的处理器 xff0c 这块处理器是AVR单片
  • 计算机图形学笔记

    前言 图形学还是相对比较重要的课程 xff0c 趁着刚刚学完简要记录一下 基本内容 基本几何元素及其表示 xff0c 点 线 面 环以及三维形体 一般的 xff0c 我们使用参数方程来表示一个几何元素 参数方程中未知数的个数为元素的维数 三
  • 深入理解Java中的String

    深入理解Java中的String 本篇转载自博客园 xff0c 原作者平凡希 xff0c 特此说明
  • 反爬虫

    反爬虫
  • 设计模式——生产消费者模式

    设计模式 生产消费者模式 生产者消费者问题是线程模型中的经典问题 xff1a 生产者和消费者在同一时间段内共用同一存储空间 xff0c 生产者向空间里生产数据 xff0c 而消费者取走数据 像图片下载加载的模型就可以参考这个模型 UML图
  • win10如何修改mac地址(亲测通过)

    1 查看现有的mac地址 步骤 xff1a 打开cmd界面 xff0c 输入ipconfig all按回车 如下图 xff0c 箭头所指即为当前mac地址 2 屏幕右下角右键点击网络图标 xff0c 见下图 打开网络和共享中心 xff0c
  • eclipse怎么恢复默认界面

    Eclipse里面将界面恢复到默认状态 xff1a 1 选择Eclipse的工具栏里面的 窗口 xff08 Window xff09 xff0c xff08 Window Perspective Reset Perspective xff0
  • fatal: Authentication failed could not read from remote repository

    Git 无法clone pull fetch 异常 xff1a fatal could span class hljs operator not span span class hljs built in read span span cl
  • Mybatis Plus 自定义方法实现分页

    一般物理分页 xff0c 即通过sql语句分页 xff0c 都是在sql语句后面添加limit分页语句 xff0c 在xml文件里传入分页的参数 xff0c 再多配置一条sql xff0c 用于查询总数 xff1a lt select id
  • mac远程桌面Microsoft Remote Desktop for Mac - Mac-连接Windows远程桌面

    好记星不如烂笔头 xff0c 这里记录平时工作中用到的东西 xff0c 不喜可以留言 1 xff1a 在mac电脑远程桌面可以使用 xff0c Microsoft 远程桌面 使用 Microsoft Remote Desktop 这个还是很
  • 安装gentoo的点点滴滴(三)

    1 每次启动电脑都不能启动swap分区 xff0c 都要用swapon dev sdb3来激活交换分区 再去看gentoo的安装手册 xff0c 原来是 etc fstab没有编辑好 xff0c 使用其自动生成的有问题 现在将自己修改的贴上

随机推荐

  • keil5 串口打印的实现

    目的 xff1a 在keil5中实现串口打印 xff0c debug信号 方法 xff1a 首先安装串口调试工具 添加 include lt stdio h gt 重定向fputc函数 xff1a int fputc int ch FILE
  • 在Ubuntu中使用apt-get的时候,始终显示“E:无法定位软件包”

    可能的一个原因是因为安装过后没有更新软件源 xff0c 试试用 sudo apt get update 命令更新一下软件源
  • Linux安装nginx启动时出错:error while loading shared libraries: libpcre.so.0: cannot open shared object file

    启动linux的时候出现 xff1a error while loading shared libraries libpcre so 0 cannot open shared object file 解决方法 xff1a 1 cd lib6
  • Ubuntu 安装Chrome

    去官网下载安装包 google chrome stable current amd64 deb 地址 https www google com intl zh CN chrome browser sudo dpkg i google chr
  • redis集群搭建过程中踩过的几个坑

    这两天在玩redis的集群 xff0c 搭建过程中遇到了以下几个问题 首先是redis ERR Not all 16384 slots are covered by nodes 不是所有的slot都被分配了 xff0c 可以考虑使用redi
  • 业务分析系列主题:业务场景

    本文介绍了了业务场景的概念 要素以及创建方法 xff0c 与大家分享 xff01 业务场景作为一种需求分析技术用途十分广泛 本文涛哥就和大家聊聊业务场景是什么 xff0c 以及如何创建业务场景 一 业务场景是什么 xff1f 所谓 场景 x
  • 业务分析主题系列:常见的业务场景

    常见的业务场景 场景1 xff1a 数据涨跌异常如何处理 xff1f 场景2 xff1a 如何评估渠道质量 xff0c 确定投放优先级 xff1f 场景3 xff1a 一个功能 内容上线后 xff0c 如何评估其价值 xff1f 场景4 x
  • docker、firewalld和iptables之间的关系

    要注意docker命令中使用 p 暴露端口时 xff0c 实现需要依赖iptables CentOS 7默认使用的是firewalld 但是是否需要关闭firewalld并启动iptables呢 xff1f 参考多篇博文 xff0c 答案应
  • UBUNTU停留在登录界面一直循环但进不去的原因

    如标题所述 xff0c 这种情况一是动了 etc profile或者 etc environment文件 xff0c 改了里面的环境变量 xff0c 一是 Xauthority文件的所有权变成了root xff0c 导致普通用户无法进入桌面
  • VMWare中的Ubuntu磁盘大小扩展

    虚拟机一般情况下我们会分配大约20G左右的磁盘空间大小 xff0c 但是在使用的过程中 xff0c 比如此次在编译android源码所占磁盘空间较大的包的时候 xff0c 往往发现虚拟机的磁盘空间大小不够用了 xff0c 这个时候就需要我们
  • Android Nfc Beam数据传输

    从NfcAdapter的官方文档我们可以得知 xff0c Android Beam技术可以实现简单的信息的传输 xff0c 同样支持文件的传输 简单消息的传输 一 简单信息的传输API xff1a 1 enableForegroundNde
  • apt-get无法找到安装包解决方法--添加源

    When you try to install a package using apt get APT searches it s own database for the package name if the package is av
  • 音视频开发之旅(四)Camera视频采集

    目录 Camera基础知识 视频采集的流程 遇到的问题和常见的坑 xff08 重点 xff09 收获 一 Camera基础知识 Camera 有几个重要的基础概念 facing相机的方向 xff0c 一般后置摄像头和前置摄像头 Orient
  • 音视频开发之旅(50)-边缓存边播放之缓存分片(1)

    目录 什么是缓存分片为什么要缓存分片如何实现资料收获 一 什么是缓存分片 我们在上一篇介绍AndroidVideoCache时 xff0c 知道它会一直下载数据直到完全下载 这会带来流量的浪费 比如一个5MB的视频 xff0c 码率是2Mb
  • 音视频开发之旅(64) - 部分android手机编码的视频在ios上无法播放

    目录 问题描述 问题分析 问题原因 问题解决 资料 收获 一 问题描述 用小米11 录制视频上传后 xff0c 在iPhone的Safari浏览器或者应用的H5中无法播放 xff0c 而android设备上的确实可以正常播放 同样的操作 x
  • 音视频开发之旅(66) - 音频变速不变调的原理

    目录 声音的基本知识时域压扩 xff08 TSM 的原理波形相似叠加 xff08 WSOLA xff09 资料收获 音频的原始pcm数据是由 采样率 采样通道数以及位宽而定 常见的音频采样率是44100HZ xff0c 即一秒内采样4410
  • 音视频开发之旅(67) - 变速不变调之sonic源码分析

    目录 基音周期 浊音的概念Sonic源码分析资料收获 上一篇我们学习了音频变速不变调的原理以及WSOLA波形相似叠加算法进行时域压扩处理 其中在寻找相似帧方面 xff0c Sonic采用AMDF xff08 平均幅度差函数法 xff09 方
  • 通过串口使用AT指令发送短消息

    转自 xff1a http blog csdn net feelinghappy article details 9344605 Q 用串口连接GSM手机发送和接收短消息 xff0c 在应用程序中如何编程实现 xff1f Q 我们打算开发一
  • ARM常用重要的寄存器及指令解释 和 指令英文全称

    一 常用的寄存器 r0 r3 临时变量 用于传递参数 xff0c 传递返回指 xff0c 当传递参数的参数大于4个时 xff0c 用栈空间 即开辟sp fp xff1a frame pointer 记录回溯sp ip 很少用 xff0c 临
  • 数据标准化处理

    一 为什么进行标准化处理 在多指标评价体系中 xff0c 由于各评价指标的性质不同 xff0c 通常具有不同的量纲和数量级 当各指标间的水平相差很大时 xff0c 如果直接用原始指标值进行分析 xff0c 就会突出数值较高的指标在综合分析中