数据标准化指的是使用一定的数学变换手段,将原始数据转换成特定的统一规格,使数据保持在一个小的区间内,比如0~1或-1~1的区间内,以消除不同变量之间性质、量纲、数量级等属性特征的差异,从而转化为无量纲的标准化数值,保障各指标的数值处于同一数量级,便于指标间进行综合分析和比较。
数据标准化处理的类型
数据标准化处理主要分为两种类型,分别为指标一致化处理和无量纲化处理。
一、指标一致化处理
指标一致化处理主要应对不同性质数据的问题。例如我们在对多个不同指标进行作用评价时,一部分指标数据值越大越好,称为正指标;还有一部分指标数值越小越好,称为逆指标。
在这种情况下,如果直接同时评价这两类指标的综合作用,将不同性质的指标作用相加,迫于他们的作用方向相反,将无法正确反映不同作用方向产生的综合结果。此时,就需要对其中一项指标进行指标一致化处理,通过数学手段改变指标的性质和方向,是的两个指标的作用方式一致,最终通过分析比较得出评价结果。
针对逆指标的一致化处理的方法有两种:
1.倒数一致化:取原始数据的倒数,X’ = 1 / x(x>0)
2.减法一致化:利用该指标最大范围临界值(M),减去每一个原始数据,X’ = M - x
倒数一致化很有可能会改变原始数据的分散程度,从而导致数据的实际差异扩大,不利综合评价;减法一致化不会对数据的分散程度造成影响,因此减法一致化的结果较倒数一致化而言会更加稳定。
二、无量纲化处理
数据无量纲化处理旨在解决数据之间可比性的问题,这也是我们对数据进行标准化处理的首要目标。
在数据标准化实践过程中,不同变量自身的量纲和数量级存在较大差异,在进行综合评价时不同变量所占的作用比重也会有所不同。例如,某个变量的数值在1-10之间,另一个变量的数值范围在100-1000之间,从数值的角度分析,数值范围大的变量的绝对作用、所占的比重会比较大。
无量纲化处理就是为了消除量纲、变量自身变异和数值大小的影响,以比较不同变量之间的相对作用,将其转化为无量纲的纯数值来进行评价和比较。
常用的数据标准化方法
一、极差标准化法
消除变量量纲和变异范围影响最简单的方法之一就是极差标准化法:
首先确定该指标的最大值(Xmax)和最小值(Xmin),并计算二者的差值(R = Xmax - Xmin),然后用该变量的不同指标(X)减去最小值(Xmin),再除以最大值和最小值的差值(R),即:
X’ = (X-Xmin) / (Xmax-Xmin)
通过极差标准化法处理,可以使该变量各个观察值的数值范围都满足0≤X’≤1,均转化为正向指标,并且作用方向一致。但在新数据加入时,会导致最大值(Xmax)和最小值(Xmin)发生变化,重新计算极差(R),并进行重新定义。
二、Z-score标准化法
在无法使用极差标准化法时,比如某个指标的最大值和最小值未知,或有超出取值范围的离群数值时,还有另一种数据标准化最常用的方法可以采用,即标准差标准化法,也叫Z-score标准化法:
经过Z-score标准化后,数据将符合标准正态分布,即将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的均值为0,标准差为1,变化范围为-1≤X’≤1。
在SPSS中,Z-score标准化法作为默认的标准化方法。操作步骤如下:
1. Analyze → Descriptive Statistics → Descriptives
2.在Variable(s)框中 将需要标准化的变量Y选入,勾选Save standardized values as variables,点击完成。
3. 变量列表中生成一列经过Z-score标准化转化后生成的新变量Zscore(Y)。
三、线性比例标准化法
1、极大化法
正指标取最大值Xmax,然后用每一个观察值除以最大值:X’=X / Xmax。(X≥0)
2、极小化法
逆指标取最小值Xmin,然后用最小值除以每一个观察值:X’ = Xmin / X。(X>0)
以上两种方法都不适用于X<0的情况。对于逆向指标使用线性比例法进行标准化后,实际上是进行了非线性的变换,变换后的指标无法客观地反映原始指标的相互关系,转换时需要注意。
四、log函数标准化法
指标最大值(Xmax)以10为底的log值除以每一个观察值以10为底的log值:
X’=log10X / log10 Xmax
要求指标的范围X≥1。
五、反正切函数标准化法
可以通过反正切函数(arctan)实现数据的标准化转换:
X’ = arctan(X)*2 / π
在原始数据为正、负实数的情况下,通过此方法标准化后的数据区间为-1≤X’≤1,如果想得到的标准化数据区间为0≤X’≤1区间,则需要保证原始数据的范围为X≥0。
数据标准化的处理还有很多,但是最常用的还是极差标准化法和Z-score标准化法这两种方法。如果你对数据治理和数据标准化方法有需求的话,可以进一步了解一下数据治理、数据架构设计及数据标准化方法课程。