课程简介

课程培训业界流行、应用广泛的Hadoop与Spark大数据技术体系。强化大数据平台的分布式集群架构和核心关键技术实现、大数据应用项目开发和大数据集群运维实践、以及Hadoop与Spark大数据项目应用开发与调优的全过程沙盘模拟实战。

通过一个完整的大数据开发项目及一组实际项目训练案例，完全覆盖Hadoop与Spark生态系统平台的应用开发与运维实践。课堂实践项目以项目小组的形式进行沙盘实操练习，重点强化理解Hadoop与Spark大数据项目各个阶段的工作重点，同时掌握作为大数据项目管理者的基本技术与业务素养。

本课程的授课师资都是有着多年在一线从事Hadoop与Spark大数据项目的资深讲师，采用原理技术剖析和实战案例相结合的方式开展互动教学、强化以建立大数据项目解决方案为主体的应用开发、技术讨论与交流咨询，在学习的同时促进讲师学员之间的交流，让每个学员都能在课程培训过程中学到实实在在的大数据技术知识体系，以及大数据技术应用实战技能，具备实际大数据应用项目的动手开发实践与运维管理部署能力。授课过程中，根据学员需求，增设交流环节，可将具体工作中遇到的实际问题展开讨论，讲师会根据学员的实际情况微调授课内容，由讲师带着全部学员积极讨论，并给出一定的时间让学员上台发言，现场剖析问题的症结，规划出可行的解决方案。

培训目标

l 深刻理解在“互联网+”时代下大数据的产生背景、发展历程和演化趋势

l 了解业界市场需求和国内外的大数据技术潮流，洞察大数据的潜在价值

l 理解大数据项目解决方案及业界大数据应用案例，从而为企业在大数据项目中的技术选型及技术架构设计提供决策参考

l 掌握业界流行的Hadoop与Spark大数据技术体系

l 掌握大数据采集技术

l 掌握大数据分布式存储技术

l 掌握NoSQL与NewSQL分布式数据库技术

l 掌握大数据仓库与统计机器学习技术

l 掌握大数据分析挖掘与商业智能（BI）技术

l 掌握大数据离线处理技术

l 掌握Storm流式大数据处理技术

l 掌握基于内存计算的大数据实时处理技术

l 掌握大数据管理技术的原理知识和应用实战

l 深入理解大数据平台技术架构和使用场景

l 娴熟运用Hadoop与Spark大数据技术体系规划解决方案满足实际项目需求

l 熟练地掌握基于Hadoop与Spark大数据平台进行应用程序开发、集群运维管理和性能调优技巧

课程大纲：

第一天上午

1. 大数据技术基础

Ø 大数据的产生背景与发展历程

Ø 大数据的4V特征，以及与云计算的关系

Ø 大数据应用需求以及潜在价值分析

Ø 业界新的大数据技术发展态势与应用趋势

Ø 大数据项目的系统与技术选型，及落地实施的挑战

Ø 互联网 ”时代下的电子商务、制造业、零售批发、电信运营商、互联网金融

业、电子政务、移动互联网、教育信息化等行业实践与应用案例介绍

2. 业界主流的大数据技术方案

Ø 大数据软硬件系统全栈与关键技术介绍

Ø 主流的大数据解决方案介绍

Ø Apache大数据平台方案剖析

Ø CDH大数据平台方案剖析

Ø HDP大数据平台方案剖析

Ø 大数据解决方案与传统数据库方案比较

3. 大数据计算模型（一）——批处理MapReduce

Ø MapReduce产生背景与适用场景

Ø MapReduce计算模型的基本原理

Ø MapReduce作业执行流程

Ø MapReduce基本组件，JobTracker和TaskTracker

Ø MapReduce高级编程应用，Combiner和Partitioner

Ø MapReduce性能优化技巧 MapReduce案例分析与开发实践操作

第一天下午

1. 大数据存储系统与应用实践

Ø 分布式文件系统HDFS产生背景与适用场景

Ø HDFS master-slave系统架构与工作原理

Ø HDFS核心组件技术讲解

Ø HDFS高可用机制

Ø HDFS集群的安装、部署与配置，熟练HDFS shell命令操作

Ø 分布式小文件存储系统的平台架构、核心技术与应用场景

Ø 分布式对象存储系统的平台架构、核心技术与应用场景

2. Hadoop框架与生态发展，以及应用实践操作

Ø Hadoop的发展历程

Ø Hadoop大数据生态圈系统与工具全貌介绍

Ø Hadoop 1.0的核心组件与适用范围

Ø Hadoop 2.0的核心组件YARN工作原理，以及与Hadoop 1.0的区别

Ø Hadoop资源管理与作业调度机制

Ø Hadoop 常用性能优化技术

Ø Hadoop集群安装与部署实践，以及MapReduce程序在YARN上执行

Ø YARN上执行

第二天上午

1. 大数据计算模型（二）——实时处理/内存计算 Spark

Ø MapReduce计算模型的瓶颈

Ø Spark产生动机、基本概念与适用场景

Ø Spark编程模型与RDD弹性分布式数据集的工作原理与机制

Ø Spark实时处理平台运行架构与核心组件

Ø Spark容错机制、Spark作业调度机制、Scala开发介绍与实践

Ø Spark集群部署与配置实践，Spark开发环境构建，Spark案例程序分析，Spark程序开发与运行，Spark与Hadoop集群集成实践

第二天下午

2. 大数据仓库查询技术Hive、SparkSQL、Impala，以及应用实践

Ø 基于MapReduce的大型分布式数据仓库Hive基础知识与应用场景

Ø Hive数据仓库的平台架构与核心技术剖析

Ø Hive metastore的工作机制与应用

Ø Hive数据仓库实践：Hive集群安装部署，数据仓库表导入导出与分区操作，Hive SQL操作，Hive客户端操作

Ø 基于Spark的大型分布式数据仓库SparkSQL基础知识与应用场景

Ø Spark SQL实时数据仓库的实现原理与工作机制

Ø SparkSQL应用分析与操作实践

Ø 基于MPP的大型分布式数据仓库Impala基础知识与应用场景

Ø Impala实时查询系统平台架构、关键技术剖析

3. Hadoop集群运维监控工具

Ø Hadoop大数据运维监控管理系统HUE平台介绍

Ø Hadoop运维管理监控系统Ambari工具介绍

Ø 第三方运维系统与工具Ganglia, Nagios

第三天上午

1. 大数据计算模型（三）——流处理Storm, SparkStreaming

Ø 流数据处理应用场景与流数据处理的特点

Ø 流数据处理工具Storm的平台架构与集群工作原理

Ø Storm关键技术与并发机制

Ø Storm编程模型与基本开发模式

Ø Storm数据流分组

Ø Storm可靠性与Acker机制

Ø Storm应用案例分析与实践：

Storm集群安装部署，Storm程序开发运行操作实践，Storm与Hadoop集群的集成

Ø 流数据处理工具Spark Streaming基本概念与数据模型

Ø Spark Streaming工作机制

2. 大数据ETL操作工具，与大数据分布式采集系统

Ø Hadoop与DBMS之间数据交互工具的应用

Ø Sqoop导入导出数据的工作原理，以及Sqoop工具的安装部署与实践操作，利用Sqoop实现MySQL与Hadoop集群之间的数据导入导出交互

Ø Flume-NG数据采集系统的数据流模型与系统架构

Ø Kafka分布式消息订阅系统的应用介绍与平台架构，及其使用模式

第三天下午

1. 面向OLTP型应用的NoSQL数据库及应用实践

Ø 关系型数据库瓶颈，以及NoSQL数据库的发展，概念，分类，及其在半结构化和非结构化数据场景下的适用范围

Ø 列存储NoSQL数据库HBase简介与数据模型剖析

Ø HBase分布式集群系统架构与读写机制，

ZooKeeper分布式协调服务系统的工作原理与应用

Ø HBase表设计模式与primary key设计规范

Ø HBase分布式集群安装、部署与操作实践

Ø 文档NoSQL数据库MongoDB简介与数据模型剖析

Ø MongoDB集群模式、读写机制与常用API操作

Ø Cassandra分布式数据库的平台架构以及关键技术

Ø Cassandra一致性哈希算法与数据分布策略，以及NWR策略

Ø 键值型NoSQL数据库Redis简介与数据模型剖析

Ø Redis多实例集群架构与关键技术

Ø NewSQL数据库技术简介及其适用场景

2. 大数据项目选型、实施、优化等问题交流讨论

大数据项目的需求分析、应用实施、系统优化，以及解决方案等咨询与交流讨论