您现在的位置:首页 > 知识库 > 5种常用的数据标准化方法(赶紧收藏吧!)

5种常用的数据标准化方法(赶紧收藏吧!)

2023/7/5 14:32:10 | 来源:Admin

 

        数据标准化指的是使用一定的数学变换手段,将原始数据转换成特定的统一规格,使数据保持在一个小的区间内,比如0~1-1~1的区间内,以消除不同变量之间性质、量纲、数量级等属性特征的差异,从而转化为无量纲的标准化数值,保障各指标的数值处于同一数量级,便于指标间进行综合分析和比较。



数据标准化处理的类型

 

数据标准化处理主要分为两种类型,分别为指标一致化处理和无量纲化处理。

 

一、指标一致化处理

指标一致化处理主要应对不同性质数据的问题。例如我们在对多个不同指标进行作用评价时,一部分指标数据值越大越好,称为正指标;还有一部分指标数值越小越好,称为逆指标。

 

在这种情况下,如果直接同时评价这两类指标的综合作用,将不同性质的指标作用相加,迫于他们的作用方向相反,将无法正确反映不同作用方向产生的综合结果。此时,就需要对其中一项指标进行指标一致化处理,通过数学手段改变指标的性质和方向,是的两个指标的作用方式一致,最终通过分析比较得出评价结果。

 

针对逆指标的一致化处理的方法有两种:

 

1.倒数一致化:取原始数据的倒数,X’ = 1 / xx>0

 

2.减法一致化:利用该指标最大范围临界值M),减去每一个原始数据,X’ = M - x

 

倒数一致化很有可能会改变原始数据的分散程度,从而导致数据的实际差异扩大,不利综合评价;减法一致化不会对数据的分散程度造成影响,因此减法一致化的结果较倒数一致化而言会更加稳定。

 

二、无量纲化处理

数据无量纲化处理旨在解决数据之间可比性的问题,这也是我们对数据进行标准化处理的首要目标。

 

在数据标准化实践过程中,不同变量自身的量纲和数量级存在较大差异,在进行综合评价时不同变量所占的作用比重也会有所不同。例如,某个变量的数值在1-10之间,另一个变量的数值范围在100-1000之间,从数值的角度分析,数值范围大的变量的绝对作用、所占的比重会比较大。

 

无量纲化处理就是为了消除量纲、变量自身变异和数值大小的影响,以比较不同变量之间的相对作用,将其转化为无量纲的纯数值来进行评价和比较。

 

常用的数据标准化方法

 

一、极差标准化法

消除变量量纲和变异范围影响最简单的方法之一就是极差标准化法:

 

首先确定该指标的最大值(Xmax)和最小值(Xmin),并计算二者的差值R = Xmax - Xmin),然后用该变量的不同指标X)减去最小值(Xmin),再除以最大值和最小值的差值R),即:

 

X’ = (X-Xmin) / (Xmax-Xmin)

 

通过极差标准化法处理,可以使该变量各个观察值的数值范围都满足0X’≤1均转化为正向指标,并且作用方向一致。但在新数据加入时,会导致最大值(Xmax)和最小值(Xmin)发生变化,重新计算极差(R,并进行重新定义。

 

二、Z-score标准化法

在无法使用极差标准化法时,比如某个指标的最大值和最小值未知,或有超出取值范围的离群数值时,还有另一种数据标准化最常用的方法可以采用,即标准差标准化法,也叫Z-score标准化法

 

经过Z-score标准化后,数据将符合标准正态分布,即将有约一半观察值的数值小于0,另一半观察值的数值大于0,变量的均值为0,标准差为1,变化范围为-1X’≤1

 

SPSS中,Z-score标准化法作为默认的标准化方法。操作步骤如下:

 

1. Analyze → Descriptive Statistics → Descriptives

 

2.在Variable(s)框中 将需要标准化的变量Y选入,勾选Save standardized values as variables,点击完成

 

3. 变量列表中生成一列经过Z-score标准化转化后生成的新变量ZscoreY)。

 

三、线性比例标准化法

1、极大化法

 

正指标取最大值Xmax,然后用每一个观察值除以最大值:X=X / Xmax。(X0

 

2、极小化法

 

逆指标取最小值Xmin,然后用最小值除以每一个观察值:X’ = Xmin / X。(X0

 

以上两种方法都不适用于X<0的情况。对于逆向指标使用线性比例法进行标准化后,实际上是进行了非线性的变换,变换后的指标无法客观地反映原始指标的相互关系,转换时需要注意。

 

四、log函数标准化法

指标最大值(Xmax)以10为底的log除以每一个观察值以10为底的log值:

 

X=log10X / log10 Xmax

 

要求指标的范围X1

 

五、反正切函数标准化法

可以通过反正切函数(arctan)实现数据的标准化转换:

 

X’ = arctan(X)*2 / π

 

在原始数据为正、负实数的情况下,通过此方法标准化后的数据区间为-1X’≤1如果想得到的标准化数据区间为0X’≤1区间,则需要保证原始数据的范围为X0



数据标准化的处理还有很多,但是最常用的还是极差标准化法和Z-score标准化法这两种方法。如果你对数据治理和数据标准化方法有需求的话,可以进一步了解一下数据治理、数据架构设计及数据标准化方法课程

标签: 大数据

相关阅读

近期开班