您现在的位置:首页 > 企业内训 > 数据湖应用实战和案例分析培训方案

数据湖应用实战和案例分析培训方案

2022/8/8 11:18:10 | 来源:中培IT学院


一、 大数据课程介绍

近年来,“大数据”已经深入人心,社会各个行业的企业都沉淀了大量的数据,如何把数据利用起来,创造价值,业务数据增值等命题已经成为业界的热门话题。自2010年以来,大数据技术已经成功地应用到新兴互联网企业(如电商企业、搜索引擎、社交网站、互联网广告服务提供商等)、金融企业(银行、保险、证券公司、互联网金融借贷公司等)、通信运营商(电信、移动、联通)等行业的企业。这些国内外的先驱企业通过对自身积累的数据进行分析挖掘利用,在不同程度上获得了数据分析带来的收益,带来了很大的数据价值增值作用,并从一定程度上拉开了与没有利用数据创造价值的企业之间的领先优势,提升了企业的竞争力。


通过本课程可让学员学习及掌握:

1,让学员充分掌握主流的数据湖技术、数据湖处理平台的技术架构、以及平台的安装部署、运维配置、应用开发实战技能,熟悉国内外主流的大数据处理解决方案、以及大数据应用案例。


2,强调主流的大数据关键技术及其在不同行业中企业的实际应用,立足于实际的行业应用需求,旨在让企业学员能够掌握大数据平台技术及应用如何落地,以及基于大数据平台的技术架构实现,让学员掌握业界主流的大数据平台的应用和部署,并且结合当前“互联网+行业信息化”应用场景下产生的大规模结构化与非结构化数据管理以及分析处理需求,详细讲解有机地集成大数据平台各个功能组件(大数据收集、大数据存储、大数据管理、大数据挖掘、大数据分析和大数据可视化组件)设计大数据项目,并分享大数据项目应用实施案例。


3,让企业学员掌握主流的Linux集群、大数据Hadoop处理平台与Spark实时内存计算处理平台的技术架构和实际应用,并用结合实际的生产系统案例进行教学,讲解利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及主流的大数据平台产品剖析。


4,培训过程中,着重讲解业界最流行Hadoop与Spark大数据平台,深入讲解Hadoop和Spark高性能大数据处理平台的生态系统组件,包括HDFS等数据湖大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理技术的实践应用。


5,采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。


二、 培训特色


定制授课+ 案例分析讲解 + 实战操作2 


三、培训形式


讲师提供实验软件与虚拟机镜像,并把Linux,Java,Hadoop,Spark,Mahout,MLlib等系统提前部署在虚拟机中,学员自带笔记本运行虚拟机实验集群,镜像在上课前给学员,学员笔记本推荐配置:i5以上CPU,8GB内存,100GB硬盘空间


、 课程大纲

时间

专题

详细内容

实践训练

第一天

业界主流的数据湖产品与项目解决方案

1. 什么是数据湖;

2. 数据湖的基本特征;

3. 数据湖基本架构;

4. 各厂商的数据湖解决方案;

5. 典型的数据湖应用场景;

6. 数据湖建设的基本过程

7. Apache大数据平台方案剖析

8. CDH大数据平台方案剖析

9. 开源的数据湖生态系统平台剖析

数据湖产品与解决方案

Hadoop数据湖平台及其部署

10. Hadoop数据湖发展历程以及产业界的实际应用介绍

11. Hadoop数据湖平台架构

12. 基于Hadoop平台PB级数据湖存储管理与分析处理工作原理机制

13. Hadoop的核心组件剖析

Hadoop大数据平台的部署搭建

HDFS数据湖存储

14. HDFS数据湖存储的简介

15. HDFS系统的主从式平台架构工作原理

16. HDFS核心组件技术讲解

17. HDFS NameNode的工作机制和元数据管理设计

18. HDFS  DataNode的数据存储机制设计

19. HDFS的副本机制设计

20. HDFS的可靠性机制设计

21. 基于HDFS的大型存储系统应用开发实战

22. HDFS集群的安装、部署、配置与性能优化实践

HDFS大数据存储项目开发

数据湖计算

23. MapReduce并行计算模型

24. MapReduce作业执行与调度技术

25. 第二代大数据处理框架Yarn的并行处理实战

26. MapReduce应用开发环境的部署以及大数据并行处理应用程序开发

27. MapReduceYarn大数据分析处理案例分析

MapReduce大数据并行处理

Hadoop数据湖部署操作简述

28. 部署与配置HDFS,熟练操作HDFS SHELLHDFSNFS操作以及HDFS API开发实践

29. 部署与配置MapReduce与Yarn及其开发实践

30. Hadoop大数据处理应用程序开发项目训练

Hadoop部署操作简述

数据湖数据仓库

31. 基于Hadoop的大型分布式数据仓库基础知识HIVE在行业中的数据仓库应用案例

32. Hive大数据仓库简介以及应用介绍

33. Hive数据仓库集群的平台体系结构、核心技术剖析

34. Hive Server的工作原理机制与应用

35. Hive数据仓库集群的安装部署与配置优化

36. Hive应用开发技巧

37. Hive SQL剖析与应用实践

38. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧

39. Hive数据仓库报表设计

40. Hive JDBC与ODBC的工作原理与实现机制

41. Hive HWICLI客户端操作以及UDF应用实践

数据湖仓库

第二天

数据湖仓库操作

42. 部署与配置HIVE集群,以及HIVE性能调优

43. 构建HIVE开发环境

44. HIVE数据仓库操作及项目实践

Hive项目操作简述

数据湖实时计算处理平台

45. 数据湖Spark的实时处理基础知识

46. 数据湖Spark生态系统概述以及发展历程

47. 数据湖Spark在处理实时数据的优势和处理模式

48. 数据湖Spark Core内存计算编程框架的基础原理

49. 数据湖Spark SQL的基础原理

50. 数据湖Spark Streaming的基础原理

51. 数据湖Spark MLlib的基础原理

52. 数据湖Spark GraphX的基础原理

53. 数据湖Spark在业界的实际应用场景与相关案例

Spark应用基础

数据湖Spark应用实践和性能调优

54. 部署与配置Spark集群

55. Spark程序运行以及操作

56. Spark性能调优

Spark性能优化

数据湖Spark SQL 数据

仓库分析应用实

57. Spark SQL 实时数据仓库的设计与操作

58. Spark SQL 核心代码剖析

59. Spark SQL 客户端开发包 API

60. Spark SQL 实时统计应用

61. Spark SQL 应用程序开发实践

SparkSQL 数据

仓库分析操作

数据湖Spark Streaming

流数据分析应用

实战

62. Spark Streaming 的实现机制与工作流程

63. Spark Streaming 在实时数据流(日志流)中的分析应用

64. Spark Streaming 流处理系统架构

65. Spark Streaming 流分析案例

66. Spark Streaming 应用程序开发实践

Spark Streaming 分析应用

数据湖Hadoop和Spark大数据分析挖掘平台

67. 数据湖数据分析挖掘实践

68. 数据湖Spark MLlib机器学习实践

Hadoop Spark大数据分析操作

数据湖项目实践

69. 根据讲师布置的实际应用案例,开展数据完整项目部署设计和应用开发实践、大数据项目的需求分析、应用实施以及解决方案分享咨询与交流讨论

数据湖咨询项目


相关阅读

近期开班