您现在的位置:首页 > 知识库 > 数据标准化真的那么重要吗?

数据标准化真的那么重要吗?

2023/7/5 15:00:55 | 来源:Admin


数据标准化应用场景

       当数据集的各个特征取值范围或各特征取值单位存在较大差异时,则需要使用数据标准化来对数据进行预处理的。

 

数据标准化的目的

我们在进行数据分析时,通常数据指标不是单一的,是由多个评价指标构成的,这些评价指标往往具有不同的属性、数量级和单位,这会造成我们在对不同的指标进行比较、加权、求和等后续的操作时受到阻碍。为了便于数据分析中对于数据进行比较等操作,要消除数据指标之间存在的差异,手段就是对数据进行标准化处理。

 

一个目标变量(y)可以认为对应多个特征变量(x)影响和控制的,这些特征变量通常具备不同的量纲和数值的量级;而通过标准化处理,可以使具备不同特征变量的数据具有相同的尺度(也就是说将特征的值控制在某个范围内),目标变量就可以由多个相同尺度的特征变量进行控制,进而使用梯度下降法学习参数的时候,不同特征对参数的权重影响程度就一样了。

 

简而言之,对数据标准化的目的就是消除数据之间的特征差异性。

 

数据标准不统一的弊端

 

举例,假设我们将3个城市分成两类,变量为面积和教育程度占比;三个城市分别是这样的:

 

城市A:面积大,但是治安差,教育程度低;

 

城市B:面积也挺大,治安良好,教育程度高;

 

城市C:面积中等,治安也挺好,教育程度也挺高;

  

在这种情况下,如果不进行数据标准化,直接做聚类模型,会导致A城市和B城市聚在一起:一个治安好的城市和一治安差城市分在一起,违反了数据分析的初衷。

 

数据标准是在制定及发布后相对稳定的静态文件,而数据标准化是一项系统性、复杂性、困难性、长期性特征的动态管理工作,在某种程度上是对数据标准的落地过程。

 

数据标准化面临挑战

在实际的数据管理工作中,数据标准是相对容易指定的,但数据标准的落地难度则相对难度高多了。其实数据标准化工作在国内企业的开展已经有一定的时间了,每个行业和组织都在建设自己的数据标准,但是真正取得显著效果的案例并不多见。

数据标准化是一项战略性、长期性、艰巨性、系统性,以及持续进行的组织内部的数据治理工作。可以说,数据标准化必然是一个漫长而持续的过程,没有立竿见影的途径,唯有企业持之以恒、不懈努力,才能达到预期目标。


关于数据治理及数据标准具体的方法和实施介绍,可以参考数据治理、数据架构设计及数据标准化方法课程课程内容涉及数据标准最佳实践从企业业务术语、参考数据、主数据、数据元、指标数据标准提出要求,构建全面的数据标准管理体系,并阐述行业最佳实践案例,欢迎学习!


标签: 大数据

相关阅读

近期开班