简介
随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark、Storm、Impala等技术,其中Spark已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。采用Spark的目的,主要是为了使大数据处理任务速度更快,效率更高。Spark在使用过程中不可避免的需要进行一系列的性能优化,本培训尹老师总结和归纳多年工作经验,就Spark、Hive、Shark、Imapla等大数据技术的性能调优进行深入剖析,使学员从实操层面提升到大数据技术核心原理层面进行调优,并通过生动的案例展示优化过程与效果,调优的范围包括规划调优、部署调优、硬件调优、网络调优、参数调优、开发调优、算法调优、运行调优、作业调优、数据调优和资源调优等。
目标
1、使学员掌握大数据性能调优思路
2、使学员掌握分布式的技术原理以及应用场景;
3、使学员掌握云计算、虚拟化、大数据等新兴技术以及三者之间的关系;
4、使学员具体掌握Spark技术的调优思路、方法、参数设置、开发注意事项;
5、使学员具体掌握数据仓库工具Hive的调优思路、方法、参数设置;
6、使学员具体掌握大数据即时数据分析工具Impala的设计思路、运行原理、调优方法、参数设置;
课程时长
2天(12H)
受众人群
1、本课程适合于业务分析人员、大数据分析师、大数据挖掘工程师;
2、本课程适合于大数据高级开发工程师、项目经理、技术总监;
3、本课程适合于企业高层管理人员;
4、本课程适合于IT运维人员;
培训方式
以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。
分享提纲
时间 | 主题 | 内容 |
第一天 | 调优基础知识(深入剖析调优的概念为后续主题打下基础)(60分钟) | 1、什么是调优 2、调优什么内容 3、如何调优 4、工作中调优过程 5、案例:金融总帐调优案例 |
大数据技术核心原理(大数据思路、大数据技术核心原理、大数据技术框架剖析)(60分钟) | 1、大数据概念 2、大数据特征 3、大数据分布式集群 4、大数据分布式文件存储系统 5、计算迁移 6、数据迁移 7、数据就近原则 8、大数据分布式计算框架 9、大数据集群采购规划 10、大数据集群部署规划 11、大数据集群网络规划 12、案例:金融企业共享存储实施大数据案例 13、案例:Hadoop大数据技术核心实现原理 14、案例:Hadoop分布式与云计算整合的误区 15、案例:Hadoop分布式存储与RAID
| |
第3个主题: Spark调优基础知识(Spark大数据集群介绍)(30分钟) | 1、Spark集群部署 2、Spark RDD计算模型解析 3、Spark RDD操作剖析 4、Spark作业基本运行原理 5、Spark作业资源占用 6、Spark资源框架YARN、Mesos 7、案例:Spark RDD运行过程剖析案例 | |
Spark开发调优(Spark代码开发调优剖析)(60分钟) | 1、Spark开发调优原则 2、JVM调优 3、Spark内存Cache调优 4、常见Spark开发调优方法 5、Spark算法调优 6、案例:Spark Cache运行案例剖析 | |
Spark资源调优(深入剖析Spark资源调优)(90分钟) | 1、Spark运行参数调优 2、Spark配置参数调优 3、资源优化方法,如何设罝合适的资源 4、SparkTask数、Process数设置 5、案例:Spark Task调优案例 6、案例:Spark Process调优案例 | |
Spark数据倾斜调优(剖析Spark数据倾斜原因以及解决方案)(60分钟) | 1、数据倾斜现象,如何判断倾斜 2、倾斜发生原理 3、如何定位倾斜代码,如何查看倾斜数据 4、数据倾斜解决方案 5、数据重复因子优化 6、案例:数据倾斜案例 | |
Spark shuffle调优(深入剖析典型Spark shuffle原理以及优化方法)(90分钟) | 1、shuffle简介,运行原理 2、shuffle调优概述 3、shuffle调优方法,相关参数 4、案例:Spark shuffle优化案例 | |
第二天 | Spark调优总结(总结Spark的调优方案与流程)(30分钟) | 1、Spark调优通用流程和方法 2、Spark调优原则 3、案例:如何分析Spark作业日志 |
Hive调优基础知识(深入剖析Hive的运行原理)(30分钟) | 1、Hive部署架构 2、Hive作业基本运行原理 3、MapReduce性能分析 4、Hive作业资源占用 | |
Hive调优(深入剖析Hive调优的技术和方法)(60分钟) | 1、Hive调优概述 2、Hive参数调优 3、Hive SQL调优 4、Hive map数据调优 5、Hive的分区调优 6、Hive的桶调优 7、Hive UDF、UDAF调优 8、其他常用调优方法 9、数据倾斜处现方法 | |
Hive调优总结(总结Hive调优的流程、方法、原则)(60分钟) | 1、Hive调优通用流程和方法 2、Hive调优原则 3、案例:如何分析Hive作业日志 | |
Impala调优基础知识(深入剖析Impala实时数据探索工具)(60分钟) | 1、Impala分布式集群部署 2、Impala分布式架构原理 3、Impala数据模型 4、Impala作业基本运行原理 5、Impala使用注意事项 6、Impala DDL、DML、SQL、函数 7、Impala作业资源占用 8、案例:银行在线支付统计的案例 | |
Impala调优(Impala具体调优方法介绍)(60分钟) | 1、Impala调优可概述 2、Impala参数调优 3、Impala SQL调优 4、Impala分区调优 5、其他常用调优方法 6、数据倾斜处理方法 7、Impala与Shark、Hive、Pig区别剖析 8、案例:Impala调优案例 |
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员