简介
当前,我国已经进入大数据时代,在这样的时代背景下,以Hadoop和Spark为基础的大数据应用也逐渐深入,正在从互联网企业,逐渐拓展到电信,金融,政府,医疗这些传统行业。目前Hadoop和Spark应用场景已广泛应用于日志存储、查询和非结构化数据处理等大数据应用领域,随着Hadoop和Spark技术的不断成熟以及生态系统相关产品的完善,包括Hadoop和Spark对SQL不断加强的支持,以及主流商业软件厂商对Hadoop和Spark支持的不断增强,必定会带动Hadoop 和Spark渗透到越来越多的应用场景中。
目标
本课程将为大家全面而又深入的介绍Hadoop和Spark平台的运维实践经验,包括自动化运维、管理、监控以及报警平台的构建经验。
通过本课程实践,帮助学员对大数据运维系统有一个清晰明了的认识;
掌握常用的大数据运维工具和系统;
了解每个大数据系统的特点以及运维实践。
课程时长
4天(24H)
受众人群
各类IT/软件企业和研发机构的大数据工程师以及运维工程师。对于怀有大数据平台管理和运维疑问和问题,需要梳理解答的团队和个人,效果最佳。
时间 | 主题 | 内容 |
第一天 | 大数据运维系统基础&大数据架构概述 | 1.大数据技术特点 剖析开源、社区模式、更新快等特点 2.大数据六层架构 介绍大数据系统基本架构 3.Hadoop与Spark生态系统概述以及版本演化 概要介绍Hadoop与Spark生态系统及其版本演化历史 |
大数据自动化运维挑战 | 1.大规模集群 2.复杂的软件栈 3.问题的复杂性(操作系统、网络、软件、应用程序及用户) | |
大数据运维体系 | 1.大数据运维系统特点 2.大数据运维系统构成 包括自动化部署、自动化配置管理、监控、报警、自动审批系统(存储空间审核、计算资源审核)等 | |
大数据运维常用技术栈 | 1.Linux机器资源监控与报警 ganglia与nagios 2.常用linux命令 top、free、sar、iostat、nmon、jstack、ssh、rsync等 3. Java基础 JVM、内存管理、GC调优 4.用户管理 LDAP系统 5.自动化安装部署 6.ambari、cloudera manager等 | |
Linux系统基本配置 | 1.大数据系统对linux要求 2.大数据系统常见linux配置 | |
第二天 | 数据收集与存储系统运维&分布式数据收集系统运维 | 1.flume与sqoop基本架构与原理 介绍如何使用flume和sqoop两个系统将外部流式数据(比如网站日志,用户行为数据等)、关系型数据库(比如MySQL、Oracle等)中的数据导入Hadoop中进行分析和挖掘 2.Flume与sqoop运维 |
分布式存储系统运维 | 1. HDFS原理、特性与基本架构 2.介绍HDFS原理与架构 3.HDFS运维 4.用户管理 5.存储空间管理(目录组织方式、份额设置等) 6.HDFS冷热数据分析与优化 7.NameNode管理 8.动态增加新的结点 9.尝试恢复丢失的数据块 关键参数设置(垃圾桶、GC等) 10.HBase原理与基本架构 11.介绍HBase应用场景、原理和架构 13.表管理 14.常见参数调优 | |
第三天 | 资源管理系统运维&资源管理系统YARN基础 | 1.YARN产生背景及原理 2.YARN基本架构 3.YARN资源调度器 4.以YARN为核心的生态 |
资源管理系统YARN运维 | 1.参数配置与调优 2.用户管理 3.资源池划分 4.资源监控 | |
分布式协调服务Zookeeper | 1.Zookeeper产生背景 2.Zookeeper基本架构 3.Zookeeper设计原理 4.Zookeeper安装部署及运维 5.参数配置与调优 | |
第四天 | 分布式计算框架运维&分布式计算框架概述 | 1.批处理计算框架MapReduce与Spark 2.交互式分析框架Presto与Impala 3.流式计算框架Storm与Spark Streaming |
分布式计算框架(应用程序)运维 | 1.批处理应用监控指标 2.交互式框架运维实践 3.流式计算框架运维实战 | |
总结 大规模大数据集群的运维新挑战与应对方案 | 1.大规模集群新挑战 2.大规模集群自动化运维系统 |