一、 课程简介
大数据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值增值作用。
本次课程面向有一定的数据分析挖掘算法基础的工程师,带大家实践大数据分析挖掘平台的项目训练,系统地讲解:
(1)Hadoop和Spark大数据建模、分析挖掘技术体系及其平台方案实现;
(2)大数据分析挖掘和机器学习的模型、建模方法和案例,重点是决策树机器学习模型和关联规则机器学习模型及其应用;
(3)SPSS大数据建模与挖掘软件的应用实践,包括决策树,关联规则,朴素贝叶斯网络,SVM模型的实践与操作;
(4)Python朴素贝叶斯、决策树、逻辑回归机器学习模型及应用实践操作;
(5)Spark MLlib大数据建模与机器学习的应用实践;
(6)机器学习和大数据建模在电商、电信领域的用户画像应用案例。
学员需要准备的笔记本配置:i5及以上CPU,4GB及以上内存,硬盘空间预留50GB(可用移动硬盘),基本的大数据分析平台所依赖的软件包和依赖库等。
本课程基本的实践环境是操作系统:Windows或Linux。
大数据建模挖掘软件包括:SPSS Modeler 15,Python 3,Anaconda 4,Hadoop 2.7.*,Spark 2.1.*。
二、培训人群
1. 大数据分析应用开发工程师
2. 大数据分析项目的规划咨询管理人员
3. 大数据分析项目的IT项目高管人员
4. 大数据分析与挖掘处理算法应用工程师
5. 大数据分析集群运维工程师
6. 大数据分析项目的售前和售后技术支持服务人员
三、培训特色
定制授课+ 实战案例训练+ 互动咨询讨论,共4天(可扩展到6天和8天)
本课程采用技术原理与项目实战相结合的方式进行教学,在讲授原理的过程中,穿插实际的系统操作,本课程讲师也精心准备的实际的应用案例供学员动手训练。
四、培训目标
1. 让学员掌握在大数据、人工智能下的大数据建模、分析挖掘技术和机器学习算法模型的应用。
2. 让学员掌握大数据建模与分析挖掘软件的应用实践。
3. 让学员掌握SPSS Modeler,Python,Spark MLlib等大数据建模、分析、挖掘的应用实战。
五、培训大纲
时间
|
专题
|
详细内容与知识点
|
第一天
|
Hadoop大数据技术平台实战
|
1. Hadoop大数据平台
2. HDFS分布式存储
3. MapReduce分布式并行计算
4. Hadoop解决方案
5. Hive On Hadoop数据仓库方案
|
第二天
|
Spark大数据处理平台实战
|
6. Spark实时处理分析
7. Spark RDD编程
8. Spark SQL数据分析
9. Spark MLlib介绍
10. Spark Streaming流处理实践
|
第三天
|
大数据建模、分析挖掘技术体系及其平台方案实现
|
11. 大数据挖掘模型
12. 机器学习技术和模型
13. 有监督学习、无监督学习和半监督学习
14. 大数据建模和挖掘的应用场景、挖掘过程
15. 常见的大数据建模工具和机器学习工具(SPSS Modeler和Python)
16. 大数据分析建模的案例(运营商案例)
|
Python大数据决策树算法、模型、建模、挖掘和分析实践
|
17. 决策树的原理
18. 决策树的算法实现
19. 决策树用于分析挖掘的建模实现
20. 决策树的评估
21. 决策树的应用:客户流失预测
|
第四天
|
Python大数据建模与挖掘软件的应用实践
|
22. Python决策树建模实践操作
23. Python朴素贝叶斯分类实践操作
24. Python关联规则建模实践操作
|
大数据关联规则算法、模型、建模、挖掘和分析实践
|
25. 关联规则和频繁模式挖掘的原理
26. 关联规则的算法实现、建模
27. Apriori和FP-growth关联分析建模
28. 关联规则分析挖掘模型的评估
29. 关联规则挖掘的应用:交叉销售、个性化推荐
|
第五天
|
Python朴素贝叶斯、决策树、逻辑回归机器学习模型及应用实践操作
|
30. Python:大数据建模挖掘和机器学习概述
31. Python朴素贝叶斯建模与应用
32. Python决策树建模与应用
33. Python逻辑回归建模与应用
34. Python大数据建模与机器学习的实践操作
|
Python TensorFlow深度学习应用实践
|
35. TensorFlow深度学习框架
36. CNN深度学习实践
37. 非结构化文本数据分类实战
|
大数据、Python数据分析机器学习应用案例
|
38. 案例分享
39. 讨论、交流
|
讲师介绍
钟运琴老师,男,目前在中国科学院某研究所工作,高级工程师,副研究员,课题组长,团队成员二十余人,博士毕业于中国科学院,博士、博士后,获工学博士学位(计算机专业),博士后研究方向为人工智能与数据分析科学,曾在国内某高校和某大型通信企业工作过。
人工智能、大数据、云计算系列课程建设与教学专家,新技术课程开发组长。近八年来带领团队主要从事大数据管理与高性能分析处理(Hadoop、Spark、Storm)、大数据仓库(HIVE)和实时数据仓库(SparkSQL、Shark),大数据建模挖掘与机器学习(Mahout、MLib、Oryx、Pentaho BI、SAS、SPSS、R等)、MPP并行数据仓库(Greenplum etc)、NoSQL与NewSQL分布式数据库(HBase、MongoDB、Cassandra etc)、(移动)电子商务平台、大数据搜索平台(ElasticSearch、Solr、Lucene等)、云计算与虚拟化(OpenStack,VMware,XenServer,CloudStack,KVM,Docker,SaaS服务)、云存储系统、Swift对象存储系统、网络GIS地图服务器、互联网+在线教育云平台方面的项目研发与管理工作。