您现在的位置:首页 > 知识库 > 数据可视化技术应用实例解析

数据可视化技术应用实例解析

2023/7/18 17:49:26 | 来源:Admin

对于同样的数据,是列出繁杂的数据表格还是做成简洁直观的视觉资料,大部分人都会选择更加容易看懂的数据资料。比如,在一些数据资料或者学术论文的前几页,通常人们都会加上一些图表,并且在上面做出清晰的注释,目的是便于直观理解。

 

随着大数据技术的发展和完善,一系列崭新的技术来到了我们的眼前。数据可视化作为其中应用最广泛的技术之一,能够将数据的分布情况以及分析重点情绪直观地展现在我们的面前,不由得让人感慨技术的便利。掌握并使用数据可视化技术将会为业务的开展带来无穷的潜力。

 

目前数据可视化技术主要分为两种功能:

1.是数据分析的结果更加有条理,更清晰的展示出来,通常更加直观易懂;

2.对数据进行有效的组织,为提出新的猜想做铺垫,引导项目的走向。

 

接下来本文将主要从十种不同的数据可视化技术进行介绍,这些技术对于推广理论,发展业务还是进行规划都有一定的帮助作用,是数据分析后的有力展现手段。

 

1. 直方图

直方图便于纵观某个数值变量出现的频率,以及其所有可能的值。直方图看似简单但是功能是很强大的。直方图也被称为频数分布图。直方图通常用于处理数值变量。

 

在视觉上,直方图需要把相关变量排布在X轴上,而每个值出现的频率Y轴显示

 

实际应用举例:某个公司为了提升自己的恒温器产品销量,采用了根据顾客邮政编码的不同来提供相应的折扣的营销策略。绘制出恒温器折扣相关的直方图就能清晰地了解各个值的范围,以及它们各自出现的频率。

 

恒温器折扣直方图(单位:美元)

 

上图展示出恒温器的折扣介于100120美元之间大约有半数。而折扣低于60美元或高于140美元的都只有一小部分。

 

2. 条形图与饼状图

条形图与饼状图则主要适用于类别变量。条形图或者饼状图适用于需要分析变量分布,并且变量存在固定的值,比如只存在低、正常、高,是、否,或者常规驱动、电驱动、混合驱动等有限选项的情况。

 

至于是选择条形图还是饼状图,其实两种方法都可以尝试,然后参考二者的效果进行选择。通常在选项更少的情况下饼状图更加美观。

 

还有一种情况:在数据类别过多时无论是条形图还是饼状图,效果都会差强人意。这时可以考虑只对前几项最大值进行可视化处理。

 

实际应用举例:分别用条形图和饼状图展示病人的血压情况。

 

病人血压条形图与饼状图

 

3. 散点图与折线图

散点图无非是最简洁直观的,它将所有数据展现在一个二维的坐标系中。研究两个变量之间的关系时散点图是最佳选择之一,他能对两种数据之间的关系进项直观地展现,有利于观察和研究。如果我们将散点图的点连起来便构成了折线图,折线图是散点图的一种。折线图通常应用于变量Y的值连续的情况。

 

实际应用举例:假如要调查房价与建筑面积之间的关系,可以应用散点图Y轴表示房价,X轴表示建筑面积。在下图中展示了建筑面积越大,房价越高。

 

还可以通过改变颜色和尺寸来使散点图三维化。比如我们可以根据每个房子卧室的数量来对点上色。

 

 

4. 时间序列图

时间序列图可以理解为X轴上标注时间范围的散点图。在时间序列图上,所有的点连接成一条线,表示时间是连续的。

 

时间序列是想要更加直观地研究某一数据随时间的变化趋势的绝佳选择。时间序列图广泛应用于分析财务数据和传感器数据上。

 

实际应用举例:20152017年间特斯拉股票每日的收盘价。

 

2015年至2017年特斯拉股票收盘价时间序列图

 

5. 关系图

关系图能直观地展现出数据之间的关系,非常适合于提出一个全面的猜想。

 

实际应用举例:假设一家医疗公司的科学家正在进行一个数据科学项目,目的是让提升医生开处方药时的便捷性。假设现在有四种药ACXY,并且医生只能给每个病人开其中一种药。而科学家拥有有一个数据集,包含病人开药的历史数据,病人的性别、血压和血糖等数据。

 

在关系图中,用不同的颜色表示数据集里的每一类数据,用每条线的粗细程度代表数据之间的相关性,也就是频次计数。

 

通过下面的关系图,可以看出:高血压病人都开了A低血压高血脂病人都开了C开了X药的病人都不是是高血压患者。

 

这个例子说明关系图可以通过有效信息提出一系列的假设,并且对新的领域进行研究。在这个例子中,机器学习分类器能够对A药、C药,或者是X药的使用做出准确的预测。但是Y药与所有的特征值都有关联,所以在做出预测之前需要补充其他的特征值。

 

患者处方关系图

 

6. 热图

一种能够把二维图升高一个维度的方法就是热图,这这是一种色彩丰富且功能强大的算法。在热图通常包含一个矩阵或者地图显示,并用颜色来表示频率或浓度。热图通常被认为是直观,且浅显易懂的,这是由于某些趋势以及需要特别关注的区域被图中颜色的浓度凸显出来了。

 

实际应用举例:下面这幅热图展示的是在互联网电影数据库中,各电影名之间的编辑距离。某个电影名与其他电影名之间的编辑距离越远,它在图中显示的颜色就越深。比如就编辑距离而言,《超人》 (Superman) 就离《永远的蝙蝠侠》 (BatmanForever) 很远,离《超人2(Superman2) 很近。

 

电影名编辑距离热图

 

7. 地图

绘制地图十分适用于数据里包含经度和纬度的信息,或者其它通过地理位置来组织数据的方法,比如邮政编码、区域代码、县级数据或者机场数据等情况。

 

实际应用举例:还列举那个关于恒温器折扣的例子。不同的地区所享受的折扣是不同的,这些数据包含地理信息,所以我们可以把他们在地图上列出来。用蓝色表示最低折扣用红色表示最高折扣,可以直观的表现出折扣未知的分布情况。

 

恒温器折扣地图

 

8. 词云

其实大量数据都是以自由文本的形式展现的。在对此类数据进进行处理室,可能试图了解这些词语在数据库中出现的频率。然而其他图标对于展现这种频率显得有些力不从心,而更适合分析数字数据的频率。这种情况下可以使用词云。

 

在处理自由文本类型的数据时,应先过滤掉一些常用词汇,比如a”、“and”、“but”、“how”等,并将所有词汇转为统一的格式。在数据整理好后,就可以使用词云可视化技术,来对语料库中的。

 

实际应用举例:以下是根据Large Movie Reviews Dataset数据库绘制的两个词云。

 

电影好评词云

 

电影差评词云

 

9. 三维图

在散点图的基础上增加一个维度,这就是常见的三维图。三维图具有交互性等有许多优势,通过使用旋转和缩放等互动功能,用户能够更加系统、直观地分析数据。

 

实际应用举例:以下展示了一个二维的高斯概率密度函数,可以看到其带一个支持自定义的控制面板。

 

二维高斯概率密度函数

 

10. 高维图

在分析高维数据时,可能需要同时对四项及以上的相关数据进行可视化处理,为了达到这个目的,可以在上文提到的技术基础上先建立二维或三维模型。

 

比方在上文的恒温器折扣地图中添加一个第三维度。具体来说,就是把地图上的每一个点都延伸为一条竖直线,用以表示该地区的平均能耗。通过以上步骤,获得一幅四维图,其中四个维度分别表示经度、纬度、折扣力度和平均能耗。

 

如果需要分析的数据维度比这还要更高,就需要先对数据进行降维处理。数据降维的方法主要有主成分分析法和t-SNE算法两种。

 

实际应用举例:下图中的数据信息取样自MNIST手写数字数据库³。该数据库包含从09十个数字的数千种手写体图像,研究人员可以使用该数据库对他们的聚类算法和分类算法进行测试。数据库中,这些手写体图像的分辨率是784像素(28*28),然而通过t-SNE算法的应用,可以直接将这些784维的数据降至二维。


 

应用于MNIST手写数字数据库的t-SNE算法

 

通过本篇文章对数据可视化实际应用例子的讲解,相信大家对这十种应用广泛的数据可视化技术有了一定的认知。要想在大数据领域深耕,必须要掌握一定的实践能力,大数据分析、挖掘与可视化都是当今大数据领域的热门技术,掌握这些实践技术需要将从业者的职业生涯带来推力。这里我像大家推荐大数据分析挖掘与可视化最佳实践课程,内容覆盖了大数据领域最前沿的实践案例,并结合了先进理论,对于提升数据业务能力是一个良好的途径。


 

标签: 大数据

相关阅读

近期开班