您现在的位置：首页 > 企业内训 > 大数据关键技术与实战应用培训方案

大数据关键技术与实战应用培训方案

2022/7/1 11:13:46　|　来源：中培IT学院

培训背景

通过完整的大数据开发项目及一组实际项目训练与实战案例，课程内容完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。

课堂实践项目以项目小组的形式进行沙盘实操练习，重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点，同时掌握作为大数据项目管理者的基本技术与业务素养。

培训收益

1.掌握业界最流行的MapReduce分布式计算框架关键技术、工作机制与编程模型，以及MapReduce最佳实践开发技术，包括cominber、partition和shuffle优化；

2.掌握基于内存的大数据统一编程框Spark核心技术、RDD数据模型、DAG图执行模式、缓存机制、容错机制、分布式系统架构，以及基于Scala的编程开发模型、常用数据处理函数、性能优化技术；

3.掌握大数据分布式文件系统HDFS关键机制、分布式系统架构、高可用方案、扩容方案、运维参数与性能优化；

4.掌握Hadoop分布式集群部署、参数设置与运维关键技术；

5.掌握YARN框架工作机制、关键组件，以及资源调度器的工作原理、常用调度策略和优化方向；

6.掌握NoSQL分布式数据库HBase工作机制、分布式系统架构、数据组织方式、读写机制，以及HBase表模式设计最佳实践；

7.掌握基于MapReduce和Spark的大数据仓库Hive与SparkSQL的工作原理，常见SQL操作，存储格式优化，分区/分桶技术；

8.掌握经典数据挖掘与机器学习算法，掌握基于Spark的机器学习算法库MLlib，及其数据模型和编程开发模型，掌握基于大数据的推荐技术与协同过滤算法；

9.掌握大数据分布式协同管理系统Zookeeper原理知识和应用场景；

10.深入理解大数据平台主流技术架构和各关键组件适用场景；

11.娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求；

12.通过实战操作熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧。

培训特色

本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师

采用原理技术剖析和实战案例相结合的方式开展互动教学

强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询

在学习的同时促进讲师学员之间的交流，让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系，以及大数据技术应用实战技能，具备实际大数据应用项目的动手开发实践与运维管理部署能力。

课程大纲

日程	培训模块	培训内容
第一天上午	大数据存储系统与技术应用	1.分布式文件系统HDFS产生背景与适用场景 2.HDFS master-slave系统架构与读写工作原理 3.HDFS核心组件技术讲解，NameNode与fsimage、editslog，DataNode与数据块 4.HDFS Federation机制，viewfs机制，使用场景讲解 5.HDFS高可用保证机制，SecondaryNameNode，NFS冷备份，基于zookeeper的HA方案 6.HDFS运维参数调优与性能优化
第一天上午	大数据计算框架（一）批处理框架MapReduce	1.MapReduce产生背景与适用场景 2.MapReduce计算模型的基本原理 3.MapReduce作业执行流程 4.MapReduce编程模型: Map处理和Reduce处理 5.MapReduce处理流程：数据读取collect、中间数据sort、中间数据spill、中间数据shuffle、聚合分析reduce 6.MapReduce开发高级应用：Combiner技术与应用场景、Partitioner技术与应用场景、多Reducers应用 7.应用案例：基于HDFS+MapReduce集成的服务器日志分析采集、存储与分析MapReduce程序实例开发与运行 8.MapReduce参数调优与性能优化技巧
第一天下午	Hadoop YARN工作机制与资源管理	1.Hadoop的发展历程 2.Hadoop 1.0的核心组件Jobtracker，Tasktracker，以及适用范围 3.Hadoop 2.0的核心组件YARN工作原理，以及与Hadoop 1.0的联系与区别 4.YARN 关键机制：任务推测执行，任务容错，任务选择执行，心跳机制 5.Hadoop YARN的资源管理与作业调度机制：FIFO调度，Capacity调度器，Fair调度器 6.Hadoop YARN常用运维参数调优与性能优化技术
	大数据实战练习一	1. Hadoop分布式集群搭建、部署与应用实践，包含HDFS分布式文件系统，YARN资源管理软件，MapReduce计算框架软件 2. HDFS 文件、目录创建、上传、下载等命令操作，HDFS合并、归档操作，HDFS监控平台使用 3. MapReduce程序在YARN上运行，YARN监控平台使用 4. 面向HDFS文件系统的数据采集实践
	大数据计算模型（二）实时处理/内存计算 Spark	1.MapReduce计算模型的瓶颈 2.Spark产生动机、基本概念与适用场景 3.Spark编程模型与RDD弹性分布式数据集的工作原理与机制 4.Spark实时处理平台运行架构与核心组件 5.Spark RDD主要transformation：map, flatMap, filter, union, sample, join, reduceByKey, groupByKey 6.Spark RDD主要action：count，collect，reduce，saveAsTextFile 7.Spark宽、窄依赖关系与DAG图分析 8.Spark容错机制 9.Spark作业调度机制 10.Spark缓存机制：Cache操作，Persist操作与存储级别 11.Spark作业执行机制：执行DAG图、任务集、executor执行模型、 BlockManager管理 12.Spark standardalone，Spark on YARN运行模式 13.Scala开发介绍与函数编写 14.Spark常用transformation函数介绍 15.Spark调优：序列化机制、RDD复用、Broadcast机制、高性能算子、资源参数调优
第二天下午	大数据数据仓库查询工具 Hive与SparkSQL剖析	1.基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景 2.Hive数据仓库的平台架构与核心技术剖析 3.Hive metastore的工作机制与应用 4.Hive内部表和外部表 5.Hive 分区、分桶机制 6.Hive行、列存储格式 7.Hive结果保存与新表生成 8.基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景 9.Spark SQL实时数据仓库的实现原理与工作机制 10.SparkSQL数据模型DataFrame 11.基于DataFrame的SparkSQL程序开发 12.Spark-sql shell使用，共享使用Hive表进行SQL查询分析 13.SparkSQL数据读取与结果保存：json，Hive table，Parquet file，RDD 14.SparkSQL和Hive的区别与联系 15.制造行业Hive与SparkSQL应用案例介绍
第二天下午	大数据实战练习二	1.Spark分布式集群平台搭建、部署与配置Spark集群，Spark shell环境实践操作，Spark案例程序分析 2.基于sbt的Spark程序编译、开发与提交运行 3.应用案例一：基于Spark的服务器运行日志TopN分析、程序实例开发 4.应用案例二：基于Spark的搜索引擎日志热词与用户分析、程序实例开发 5.Hive数据仓库实践，Hive集群安装部署，基于文件的Hive数据仓库表导入导出与分区操作，Hive SQL操作，Hive客户端操作 6.SparkSQL数据仓库实战：shell实践操作：数据表读取、查询与结果保存
第三天上午	分布式NoSQL数据库关键技术及应用实践	1.关系型数据库瓶颈，以及NoSQL数据库的发展，概念，分类，及其在半结构化和非结构化数据场景下的适用范围 2.列存储NoSQL数据库HBase简介 3.HBase数据模型剖析：row key、列簇、单元格和时间戳版本号 4.HBase分布式集群系统架构：HMaster、RegionServer和Zookeeper 5.HBase LSM数据组织结构与读写机制，以及HBase读写性能特性 6.HBase表设计模式与primary key设计规范 7.HBase基本操作：数据插入、修改与删除，单键查询与范围查询
第三天上午	大数据分布式系统管理系统zookeeper	1.Zookeeper工作原理 2.Zookeeper系统架构：服务器集群和客户端 3.Zookeeper数据结构 4.Zookeeper watch机制 5.Zookeeper适用场景
第三天下午	数据挖掘与大数据机器学习技术	1.机器学习发展历程 2.机器学习与大数据关联与区别 3.数据挖掘经典算法 4.回归算法：线性回归与应用场景，非线性回归与应用场景 5.分类算法：逻辑回归与应用场景，决策树与应用场景，朴素贝叶斯算法与应用场景，支持向量机算法与应用场景 6.聚类算法； k-means与应用场景 7.大数据推荐技术：协同过滤，距离计算；基于物品的协同过滤算法，基于用户的协同过滤算法 8.基于Spark的机器学习库Spark MLlib 9.Spark MLlib支持的数据挖掘算法 10.Spark MLlib数据模型与使用 11.Spark MLlib编程模型与开发
	大数据实战练习三	1.大数据机器学习实战：基于Spark MLlib的数据分类；基于Spark MLlib的聚类 2.大数据推荐实战：基于用户产品购买记录，使用Spark进行数据清洗与预处理，使用Spark MLlib进行协同过滤与推荐
	大数据项目选型、实施、优化等问题交流讨论	大数据项目的需求分析、应用实施、系统优化，以及解决方案等咨询与交流讨论