一、 大数据课程介绍
近年来,“大数据”已经深入人心,社会各个行业的企业都沉淀了大量的数据,如何把数据利用起来,创造价值,业务数据增值等命题已经成为业界的热门话题。自2010年以来,大数据技术已经成功地应用到新兴互联网企业(如电商企业、搜索引擎、社交网站、互联网广告服务提供商等)、金融企业(银行、保险、证券公司、互联网金融借贷公司等)、通信运营商(电信、移动、联通)等行业的企业。这些国内外的先驱企业通过对自身积累的数据进行分析挖掘利用,在不同程度上获得了数据分析带来的收益,带来了很大的数据价值增值作用,并从一定程度上拉开了与没有利用数据创造价值的企业之间的领先优势,提升了企业的竞争力。
通过本课程可让学员学习及掌握:
1,让学员充分掌握主流的数据湖技术、数据湖处理平台的技术架构、以及平台的安装部署、运维配置、应用开发实战技能,熟悉国内外主流的大数据处理解决方案、以及大数据应用案例。
2,强调主流的大数据关键技术及其在不同行业中企业的实际应用,立足于实际的行业应用需求,旨在让企业学员能够掌握大数据平台技术及应用如何落地,以及基于大数据平台的技术架构实现,让学员掌握业界主流的大数据平台的应用和部署,并且结合当前“互联网+行业信息化”应用场景下产生的大规模结构化与非结构化数据管理以及分析处理需求,详细讲解有机地集成大数据平台各个功能组件(大数据收集、大数据存储、大数据管理、大数据挖掘、大数据分析和大数据可视化组件)设计大数据项目,并分享大数据项目应用实施案例。
3,让企业学员掌握主流的Linux集群、大数据Hadoop处理平台与Spark实时内存计算处理平台的技术架构和实际应用,并用结合实际的生产系统案例进行教学,讲解利用Hadoop+Spark对行业大数据进行存储管理和分析挖掘的技术应用,掌握基于Hadoop大数据平台的数据挖掘和数据仓库分布式系统平台应用,以及主流的大数据平台产品剖析。
4,培训过程中,着重讲解业界最流行Hadoop与Spark大数据平台,深入讲解Hadoop和Spark高性能大数据处理平台的生态系统组件,包括HDFS等数据湖大数据存储管理、分布式数据库、大型数据仓库、大数据查询与搜索、大数据分析挖掘与分布式处理技术的实践应用。
5,采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
二、 培训特色
定制授课+ 案例分析讲解 + 实战操作,共2天
三、培训形式
讲师提供实验软件与虚拟机镜像,并把Linux,Java,Hadoop,Spark,Mahout,MLlib等系统提前部署在虚拟机中,学员自带笔记本运行虚拟机实验集群,镜像在上课前给学员,学员笔记本推荐配置:i5以上CPU,8GB内存,100GB硬盘空间)
四、 课程大纲
时间
|
专题
|
详细内容
|
实践训练
|
第一天
|
业界主流的数据湖产品与项目解决方案
|
1. 什么是数据湖;
2. 数据湖的基本特征;
3. 数据湖基本架构;
4. 各厂商的数据湖解决方案;
5. 典型的数据湖应用场景;
6. 数据湖建设的基本过程
7. Apache大数据平台方案剖析
8. CDH大数据平台方案剖析
9. 开源的数据湖生态系统平台剖析
|
数据湖产品与解决方案
|
Hadoop数据湖平台及其部署
|
10. Hadoop数据湖发展历程以及产业界的实际应用介绍
11. Hadoop数据湖平台架构
12. 基于Hadoop平台的PB级数据湖存储管理与分析处理的工作原理与机制
13. Hadoop的核心组件剖析
|
Hadoop大数据平台的部署搭建
|
HDFS数据湖存储
|
14. HDFS数据湖存储的简介
15. HDFS系统的主从式平台架构和工作原理
16. HDFS核心组件技术讲解
17. HDFS NameNode的工作机制和元数据管理设计
18. HDFS DataNode的数据存储机制设计
19. HDFS的副本机制设计
20. HDFS的可靠性机制设计
21. 基于HDFS的大型存储系统应用开发实战
22. HDFS集群的安装、部署、配置与性能优化实践
|
HDFS大数据存储项目开发
|
数据湖计算
|
23. MapReduce并行计算模型
24. MapReduce作业执行与调度技术
25. 第二代大数据处理框架Yarn的并行处理实战
26. MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发
27. MapReduce与Yarn大数据分析处理案例分析
|
MapReduce大数据并行处理
|
Hadoop数据湖部署操作简述
|
28. 部署与配置HDFS,熟练操作HDFS SHELL,HDFS与NFS操作,以及HDFS API开发实践
29. 部署与配置MapReduce与Yarn及其开发实践
30. Hadoop大数据处理应用程序开发项目训练
|
Hadoop部署操作简述
|
数据湖数据仓库
|
31. 基于Hadoop的大型分布式数据仓库基础知识,HIVE在行业中的数据仓库应用案例
32. Hive大数据仓库简介以及应用介绍
33. Hive数据仓库集群的平台体系结构、核心技术剖析
34. Hive Server的工作原理、机制与应用
35. Hive数据仓库集群的安装部署与配置优化
36. Hive应用开发技巧
37. Hive SQL剖析与应用实践
38. Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
39. Hive数据仓库报表设计
40. Hive JDBC与ODBC的工作原理与实现机制
41. Hive HWI、CLI客户端操作以及UDF应用实践
|
数据湖仓库
|
第二天
|
数据湖仓库操作
|
42. 部署与配置HIVE集群,以及HIVE性能调优
43. 构建HIVE开发环境
44. HIVE数据仓库操作及项目实践
|
Hive项目操作简述
|
数据湖实时计算处理平台
|
45. 数据湖Spark的实时处理基础知识
46. 数据湖Spark生态系统概述以及发展历程
47. 数据湖Spark在处理实时数据的优势和处理模式
48. 数据湖Spark Core内存计算编程框架的基础原理
49. 数据湖Spark SQL的基础原理
50. 数据湖Spark Streaming的基础原理
51. 数据湖Spark MLlib的基础原理
52. 数据湖Spark GraphX的基础原理
53. 数据湖Spark在业界的实际应用场景与相关案例
|
Spark应用基础
|
数据湖Spark应用实践和性能调优
|
54. 部署与配置Spark集群
55. Spark程序运行以及操作
56. Spark性能调优
|
Spark性能优化
|
数据湖Spark SQL 数据
仓库分析应用实
战
|
57. Spark SQL 实时数据仓库的设计与操作
58. Spark SQL 核心代码剖析
59. Spark SQL 客户端开发包 API
60. Spark SQL 实时统计应用
61. Spark SQL 应用程序开发实践
|
SparkSQL 数据
仓库分析操作
|
数据湖Spark Streaming
流数据分析应用
实战
|
62. Spark Streaming 的实现机制与工作流程
63. Spark Streaming 在实时数据流(日志流)中的分析应用
64. Spark Streaming 流处理系统架构
65. Spark Streaming 流分析案例
66. Spark Streaming 应用程序开发实践
|
Spark Streaming 分析应用
|
数据湖Hadoop和Spark大数据分析挖掘平台
|
67. 数据湖数据分析挖掘实践
68. 数据湖Spark MLlib机器学习实践
|
Hadoop Spark大数据分析操作
|
数据湖项目实践
|
69. 根据讲师布置的实际应用案例,开展数据完整项目部署设计和应用开发实践、大数据项目的需求分析、应用实施以及解决方案分享咨询与交流讨论
|
数据湖咨询项目
|
