两个常用的数据标准化方法及Matlab和Python实现

2023-11-12

参考：数据归一化和两种常用的归一化方法，博主对原文进行了润色并添加了Matlab和Python实现。

数据标准化处理是数据挖掘的一项基础工作，不同评价指标往往具有不同的量纲和量纲单位，这样的情况会影响到数据分析的结果。为了消除指标（特征）之间的量纲影响，数据集需要进行数据标准化处理，以解决数据指标之间的可比性。原始数据经过数据标准化处理后，各指标处于同一数量级，适合进行综合对比评价。

为什么原文题目是归一化而本文题目采用标准化呢？虽然原文的题目为归一化，但是提及两种方法时用的是标准化。另外，需要指出的是，归一化和标准化是不同的概念，因为意思相近，而且大家讨论的概念内涵不统一，导致"标准化"和"归一化"这两个词长期被混用并被传播。

这里我理解的也比较有限，也说不太清楚，感兴趣的参考一下：

一、两种常用的标准化方法

1. Min-Max标准化

Min-Max标准化称也为离差标准化，是对原始数据的线性变换，使结果值映射到 [ 0 , 1 ] [0, 1] [0,1]之间。转换函数为： x ∗ = x − m i n m a x − m i n x^* = \frac {x - min}{max-min} x∗=max−minx−min，其中 m a x max max为原始样本数据的最大值， m i n min min为原始样本数据的最小值。这种方法有个缺陷就是当有新数据加入时，可能导致 m a x max max和 m i n min min的变化，需要重新定义。

2. Z-score标准化

这种方法基于原始数据的均值（mean）和标准差（standard deviation）进行数据的标准化。经过处理的数据符合标准正态分布，即均值为0，标准差为1。转化函数为： x ∗ = x − μ σ x^* = \frac {x-\mu}{\sigma} x∗=σx−μ，其中 μ \mu μ为原始样本数据的均值， σ \sigma σ为原始样本数据的标准差。

二、Matlab实现

在Matlab中，Min-Max标准化和Z-score标准化的函数分别是mapminmax和zscore，help查看一下文档吧。

% Min-Max标准化(Min=0,Max=1)
normalized_data = mapminmax(source_data', 0, 1)';
normalized_data = normalized_data';
% Z-score标准化
normalized_data = zscore(source_data);

自己实现：

function [normalized_data] = normalize(source_data, kind)
% 数据的标准化（归一化）处理
% 参数 source_data 可用格式的源数据
% 参数 kind 代表何种归一化, 默认为1. 1代表Min-Max标准化,2代表Z-score标准化.
% 返回归一化后的数据

if nargin < 2 % 如果参数少于2个,默认进行Min-Max标准化
    kind = 1; 
end;

[m, n]  = size(source_data);
normalized_data = zeros(m, n);

%% Min-Max标准化(Min=0,Max=1)
if kind == 1
    for i = 1:n
        ma = max( source_data(:, i) ); % Matlab中变量名不宜和函数名相同，所以不用max、min、mean等变量名
        mi = min( source_data(:, i) );
        normalized_data(:, i) = ( source_data(:, i)-mi ) / ( ma-mi );
    end
end
%% Z-score标准化
if kind == 2
    for i = 1:n
        mea = mean( source_data(:, i) );
        st = std( source_data(:, i) );
        normalized_data(:, i) = ( source_data(:, i)-mea ) / st;
    end
end

三、Python实现

在Python中，Min-Max标准化和Z-score标准化的函数一般借助sklearn中的preprocessing模块。

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.dataset import load_iris
import numpy as np

iris = load_iris()
data = iris.data
# 写法一
# Min-Max 标准化
minMaxScaler = MinMaxScaler().fit(data) 
data_transformed = minMaxScaler.transform(data)
# Z-score标准化
standardScaler = StandardScaler().fit(data)
data_transformed = standardScaler.transform(data)

# 写法二
data_transformed = MinMaxScaler().fit_transform(data)
data_transformed = standardScaler().fit_transform(data)

写法一更为灵活，可以使用返回的scaler对象对相同数据集中的数据进行预处理。比如数据集被分成训练集和测试集时，对训练集进行标准化后得到scaler对象，之后借助其对测试集进行相同的处理。如下

from sklearn.preprocessing import MinMaxScaler
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.dataset import load_iris
from sklearn import svm
import numpy as np

iris = load_iris()
data = iris.data
target = iris.target

X_train, X_test, y_train, y_test = train_test_split(data, target, test_size=0.2)
scaler = MinMaxScaler().fit(X_train)
X_train_transformed = scaler.transform(X_train) # 对训练集进行标准化处理
# 训练
clf = svm.SVC()
clf.fit(X_train_transformed, y_train)
# 测试
X_test_transformed = scaler.transform(X_test) # 对测试集进行标准化处理
y_test_pred = clf.predict(X_test_transformed)

参考资料：

数据归一化汇总

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)