您现在的位置:首页 > IT资讯 > 数据分析与数据挖掘,二者不同但却紧密相关

数据分析与数据挖掘,二者不同但却紧密相关

2023/7/18 17:31:42 | 来源:Admin

我们身处信息爆炸的时代,我们每个人每天都要和无数的数据打交道,对从事大数据行业的人来说更是如此。在大数据行业有两个热门的技术词汇:数据分析、数据挖掘。这两个概念在数据领域十普及,那么这两个概念之间有什么区别和联系呢?接下来本文就将对数据分析和数据挖掘两个概念从几个不同的方面进行讨论,希望能给大家带来帮助,有不足的地方欢迎指正!

 

数据分析的定义

 

数据分析是用适当的统计分析方法对收集来的海量数据进行分析,从中提取有用信息并形成结论从而对数据有一个详细研究和概括总结的过程。

 

数据分析的目标是把信息从一大批看似杂乱无章的数据背后集中和提炼出来,借此总结出所研究对象的内在规律。管理者了可以借助数据分析成果进行判断和决策,有助于采取适当策略和行动。

 

数据分析依据的数学基础最早建立于20世纪,但是数据分析的实际操作应用一直到计算机出现才成为可能,此时数据分析开始推广。数据分析是数学与计算机科学相结合的产物。

 

数据分析的特点

 

通过对数据分析定义的理解,我们不难看出数据分析的特点:

 

首先,数据分析进行分析的对象是数据。数据当然不是数字这一种元素,而是涵盖了数值、音频、视频、文字等多种表现形式。

 

统计分析方法是数据分析主要应用的方法,包括描述性统计等简单的统计性方法,也包括了推断性统计、预测性统计分析等高级统计分析方法。

 

数据分析旨在从海量业务数据中获得有用信息,以便更好地为决策服务。

 

数据分析的基础是数学,但是数据分析行业依赖计算机技术。

 

总的来说,数据分析就是为了组织业务顺利开展或者进行决策规划时,利用现代计算机技术,结合现代的数学与统计学理论,对数据进行分析。

 

数据分析含义还是比较好理解的。简单一点来说,就是对数据进行的分析。

 

那么,数据挖掘又是什么呢?

 

数据挖掘的定义

 

从数据库的海量数据中揭示出隐藏其中的、未知的的具有潜在价值的信息的过程被称为数据挖掘。

 


数据挖掘是一决策支持过程,数据挖掘一般基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,可以高度自动化的对数据进行分析,并归纳、推理,从而在其中挖掘出潜在的价值模式,以帮助管理者调整能够降低风险的市场策略,做出积极地决策。数据挖掘可以认为是通过分析每个数据,并从大量数据中寻找其中的规律的技术。

 

数据挖掘,顾名思义,就像从沙子中挖掘黄金。

 

数据挖掘的诞生背景:信息存储能力随着信息技术的发展越来越强,对数据的存储量级逐渐扩大。往往这些数据之间的关系错综复杂,简单的、常规的数据方法已经不适用于这些数据,所以数据挖掘技术应运而生。

 

数据挖掘实例

 

关于数据挖掘的最为经典的例子是一个已经讲过无数遍的沃尔玛超市的尿布与啤酒的故事。故事是这样的:

 

沃尔玛超市工作人员发现给孩子买尿布的男性顾客经常会同时购买尿布和啤酒两种商品,这两种商品看似没有关系,但是不然。可能对于男性顾客来说,买尿布是主要的目的,但是他们在看到啤酒商品后可能会考虑顺便买上一瓶。但是如果啤酒不容易找到的话,可能顾客就不会再购买啤酒了。根据这一信息,沃尔玛的工作人员把销售尿布和啤酒的货架布置到了一起,已增加二者的销量。

 

也许这个故事的真实性有待商榷,但是不妨碍他确实解释了数据挖掘的本职:数据挖掘其实就是要从一堆看似无关甚至是毫无关联的信息中,获取有用的信息。

 

数据挖掘的分类

 

按照有无指导进行分类,数据挖掘可以划分为有指导的数据挖掘和无指导的数据挖掘。有指导的数据挖掘是利用原有的数据建立一个模型,这个模型最终是有一个属性值的,这个属性值可能是一个连续型的变量,也有可能是一个离散型的变量,常用的有指导的数据挖掘包括分类(离散型变量)和预测(连续型变量)。无指导的数据挖掘,则是在所有属性中寻找一种关系,其最后的输出结果是没有一个属性值的。无指导的数据挖掘包括关联规则和聚类两类。

 

数据挖掘的常用算法

 

常用的分类与预测算法:

 

聚类算法:

 

 

关联规则算法:

AprioriFP-TreeEclat算法,灰色关联

 

数据分析与数据挖掘之间的区别

 

简而言之:数据分析一般是具有明确的分析目标的,而数据挖掘则是要从海量的数据中寻找潜在的规律从而获取价值。

 

主要区别体现在以下几个方面:

1.数据分析的重点在于观察数据,而数据挖掘的重点是从数据中发现潜在的有价值的规律。

 

2.数据分析主要依赖人工的技术操作活动,而数据挖掘主要是依托于计算机科学从庞大的数据集中提取有价值的信息。

 

3.通过数据分析得到的信息需要人工进一步提取价值,而通过数据挖掘得到的规律结论可以直接应用与业务进行预测。

 

4.数据分析不能直接建立数学模型,需要人工建模,而数据挖掘可以自动完成。传统的控制论建模本质就是描述输入变量与输出变量之间的函数关系。数据挖掘可以利用机器学习技术自动建立输入与输出的函数关系,根据数据中的规律给出输入参数,得出输出量。

 

举个具体的例子:

比如有一部分人不会按时交电话费,如何发现这部分人?

 

数据分析角度:通过对数据的分析,我们发现不及时缴费的人员里贫困人口占到了82%,得出收入低的人往往会缴费不及时的结论。进一步得出降低自费的规划。

 

数据挖掘角度:通过特定的算法可以发现更加深层的原因。比如可能发现家住五环以外的人由于环境偏远往往缴费不及时,得出需要多建设营业厅的结论。

 

在实际的大数据业务当中,数据分析与数据挖掘往往是并列展开的,企业依靠数据为业务创造价值是必然的发展趋势。想要数据为我们创造价值,就需要有全面的大数据技能。对数据分析和数据挖掘的了解只是一部分,在真正的业务当中需要把二者结合。在大数据普及率日益增长的时代,企业数据化只是早晚的事,到那时大数据行业将变得无可替代,成为大部分企业业务的支撑。

 

大数据分析挖掘与可视化最佳实践课程为数据从业人员提供了一个良好的学习契机,学员可以借此课程系统地了解大数据应用中的实用技巧以及前沿理论,作为自己的职业生涯的里程碑!

    

标签: 大数据

相关阅读

近期开班