一、 培训特色
课程培训业界最流行、应用最广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目全过程沙盘模拟实战。
通过一个完整的大数据开发项目及一组实际项目训练案例,完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习,重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点,同时掌握作为大数据项目管理者的基本思维素养。
本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师,采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的技术讨论与咨询,在学习的同时促进讲师学员之间的交流,让每个学员都能在课程培训过程中学到实实在在的大数据技术知识,具备实际项目动手开发实践与部署运维能力。授课过程中学员可将具体工作中遇到的实际问题拿出来,讲师会根据学员的实际情况微调授课内容,并给出一定的时间让学员上台发言,由讲师带着全部学员积极讨论,
二、 培训目标
- 深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势,洞察大数据的潜在价值,结合业界市场需求和国内外最新的大数据技术潮流,掌握大数据项目解决方案以及业界大数据应用案例,从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考,帮助学员为企业在利用大数据方面体现出自身价值。
- 全面掌握业界最流行的Hadoop与Spark大数据技术体系,掌握包括大数据采集技术、大数据分布式存储技术、NoSQL与NewSQL分布式数据库技术、大数据仓库与统计机器学习技术、大数据分析挖掘与商业智能(BI)技术、大数据离线处理技术、Storm流式大数据处理技术、基于内存计算的大数据实时处理技术,以及大数据管理技术的原理知识和应用实战。
- 深入理解大数据平台技术架构和使用场景,能娴熟地运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求,部署符合生产环境要求的Hadoop大数据集群,熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧,并通过具体的实训项目贯穿整个课程进行实战锻炼。
- 课程安排
日程
|
培训模块
|
培训要点
|
第一天
上午
|
一、 大数据技术基础入门
|
- 大数据的产生背景、发展历程
- 大数据和云计算的关系
- 大数据应用需求以及潜在价值分析
- 业界最新的大数据技术发展态势与应用趋势
- 大数据项目的技术选型与架构设计
- “互联网+”时代下的电子商务、制造业、零售批发业、电信运营商、互联网金融业、网上银行、电子政务、移动互联网、教育信息化等行业应用实践与应用案例剖析
|
二、 业界主流的大数据技术产品与项目解决方案
|
- 国内外主流的大数据解决方案介绍
- 当前大数据解决方案与传统数据库方案的剖析比较
- Apache大数据平台方案剖析
- CDH大数据平台方案剖析
- HDP大数据平台方案剖析
- 开源的大数据生态系统平台剖析
|
三、 Hadoop与Spark大数据处理平台
|
- Hadoop的发展历程以及产业界的实际应用介绍
- Hadoop大数据平台架构,以及PB级大数据处理工作原理与机制
- Hadoop的核心组件剖析
- Spark的发展历程以及业界的实际应用介绍
- Spark实时大数据处理平台架构,以及内存大数据处理工作原理与机制
- Spark的核心组件剖析
|
第一天
下午
|
四、 大数据采集与分布式消息订阅系统
|
- Flume-NG数据采集系统的数据流模型、平台架构、集群部署与配置应用实战
- Kafka分布式消息订阅系统的应用介绍、平台架构、集群部署与配置应用实战
- Scribe分布式日志收集系统的简介、工作原理、平台架构、集群部署与配置应用实战
- ZooKeeper分布式协调服务系统的工作原理、平台架构、集群部署与配置应用实战
|
五、 大数据分布式存储系统
|
- 分布式文件系统HDFS的简介
- HDFS系统的主从式平台架构和工作原理
- HDFS核心技术讲解
- HDFS应用开发实战
- HDFS集群的安装、部署、配置与性能优化技巧
- 分布式键值存储系统介绍、平台架构、核心技术以及应用开发
- PB及大数据存储系统的项目案例分析
|
六、 大数据MapReduce与Yarn并行处理平台
|
- MapReduce并行计算模型
- MapReduce作业执行与调度技术
- 第二代大数据计算框架Yarn的工作原理以及DAG并行执行机制
- MapReduce应用开发环境的部署,以及大数据并行处理应用程序开发
- MapReduce高级编程技巧与性能优化实践
- MapReduce与Yarn项目案例实践
|
第二天
上午
|
七、 大数据Spark实时处理平台
|
- 内存计算模型和实时处理技术介绍
- Spark分布式实时处理框架及工作原理
- Spark集群的平台架构及其生态系统组件剖析
- Spark SQL应用实践
- Spark Streaming应用实践
- MLib/MLBase实时机器学习应用实践
- GraphX实时图数据处理应用实践
- Spark实时处理集群的安装部署与配置优化
- Spark的编程开发应用实战
- Spark与Hadoop的对接集成解决方案实践
|
八、 Storm流式数据处理平台
|
- Storm流式处理系统介绍、平台架构以及工作原理
- Storm集群安装部署与配置优化
- Storm日志分析项目应用实战
|
第二天
下午
|
九、 HBase分布式数据库管理系统
|
- NoSQL数据库与NewSQL数据库技术介绍,及其在半结构化和非结构化大数据方面的应用实践
- HBase分布式数据库简介、数据模型以及工作原理
- HBase分布式数据库集群的平台架构和关键技术剖析
- HBase应用项目开发技巧,以及客户端开发实战
- HBase表设计与数据操作以及数据库管理API调用
- HBase集群的安装部署与配置优化
- HBase集群的运维与监控管理
|
|
十、 Cassandra数据管理系统
|
- Cassandra数据存储管理系统的应用介绍
- Cassandra集群的平台架构以及核心关键技术
- Cassandra一致性哈希算法与数据对象分布策略
- Cassandra集群的安装部署与配置优化
- Cassandra应用开发实战
|
第三天
上午
|
十一、 内存数据库管理系统集群
|
- Impala实时查询系统的应用介绍
- Impala实时查询系统平台架构、核心关键技术剖析
- Impala实时查询系统的部署与应用开发实践
- Redis内存数据库介绍,以及业界应用案例
- Redis内存数据库集群架构以及核心技术剖析
- Redis集群的安装部署与应用开发实战
|
十二、 大型数据仓库Hive集群平台
|
- 基于Hadoop的大型分布式数据仓库基础知识,以及在行业中的应用实践案例
- 基于Spark的实时数据仓库集群基础知识,以及在行业中的应用实践案例
- Hive大数据仓库简介以及应用介绍
- Hive数据仓库集群的平台体系结构、核心技术剖析
- Hive Server工作原理与应用技巧
- Hive数据仓库集群的安装部署与配置优化
- Hive应用开发技巧
- Hive QL定义以及应用
- Hive数据仓库表与表分区、表操作、数据导入导出、客户端操作技巧
- Hive数据仓库报表设计、HWI、CLI客户端演示以及用户自定义函数(UDF)的开发实践
|
第三天
下午
|
十三、 Mahout大数据分析挖掘平台
|
- 大数据分析挖掘技术介绍,以及行业大数据挖掘应用案例
- Mahout大数据挖掘平台的体系架构、核心算法与关键技术运用
- 基于Mahout的数据挖掘应用程序开发实战
- Mahout集群的安装部署与配置优化
- 集成Mahout与Hadoop集成大数据挖掘平台应用实战
|
十四、 大数据智能化ETL操作以及Hadoop集群运维监控工具平台应用
|
- Hadoop与DBMS之间进行数据转换的框架
- Sqoop导入导出数据的工作原理,以及Sqoop集群安装部署与配置
- Kettle集群的平台架构、核心技术工作原理以及应用案例
- Kettle集群安装部署与配置,以及应用开发实战
- 利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互程序
- Hadoop大数据运维监控系统HUE平台的安装部署与配置优化
|
十五、 大数据项目应用实战
|
- 根据布置的实际应用案例,开展大数据完整项目部署设计和应用开发实践
|