Spark、Hive和Impala性能调优培训
Andrew Yin 查看讲师
百林哲咨询(北京)有限公司专家团队成员
资深大数据专家多年从事大数据、云计算研发工作经验,数学博士,IT从业近二十年,擅长OpenStack、Hadoop、HDFS、HBase、Hive、MapReduce、Zookeeper、等大数据技术和开源框架,曾主导过多个私有云建设项目。
浏览:5792次
详情 DETAILS

简介

随着大数据时代的快速到来,以及大数据在生产生活中迅速应用,大数据领域如雨后春笋般的出现大量的新技术,如Hadoop、Spark、Storm、Impala等技术,其中Spark已经成为大数据技术中最为重要的一部分,被越来越多的企业所使用。Spark的功能涵盖了大数据领域的离线批处理、SQL类处理、流式/实时计算、机器学习、图计算等各种不同类型的计算操作,应用范围广泛、前景非常广阔。采用Spark的目的,主要是为了使大数据处理任务速度更快,效率更高。Spark在使用过程中不可避免的需要进行一系列的性能优化,本培训尹老师总结和归纳多年工作经验,就Spark、Hive、Shark、Imapla等大数据技术的性能调优进行深入剖析,使学员从实操层面提升到大数据技术核心原理层面进行调优,并通过生动的案例展示优化过程与效果,调优的范围包括规划调优、部署调优、硬件调优、网络调优、参数调优、开发调优、算法调优、运行调优、作业调优、数据调优和资源调优等。

目标

1、使学员掌握大数据性能调优思路

2、使学员掌握分布式的技术原理以及应用场景;

3、使学员掌握云计算、虚拟化、大数据等新兴技术以及三者之间的关系;

4、使学员具体掌握Spark技术的调优思路、方法、参数设置、开发注意事项;

5、使学员具体掌握数据仓库工具Hive的调优思路、方法、参数设置;

6、使学员具体掌握大数据即时数据分析工具Impala的设计思路、运行原理、调优方法、参数设置;

课程时长

2天(12H)

受众人群

1、本课程适合于业务分析人员、大数据分析师、大数据挖掘工程师;

2、本课程适合于大数据高级开发工程师、项目经理、技术总监;

3、本课程适合于企业高层管理人员;

4、本课程适合于IT运维人员;

培训方式

以课堂讲解、演示、案例分析为主,辅以互动研讨、现场答疑、学以致用。

分享提纲

时间主题内容
第一天调优基础知识(深入剖析调优的概念为后续主题打下基础)(60分钟)

1什么是调优

2调优什么内容

3如何调优

4工作中调优过程

5案例:金融总帐调优案例

大数据技术核心原理(大数据思路、大数据技术核心原理、大数据技术框架剖析)(60分钟)

1大数据概念

2大数据特征

3大数据分布式集群

4大数据分布式文件存储系统

5计算迁移

6数据迁移

7数据就近原则

8大数据分布式计算框架

9大数据集群采购规划

10大数据集群部署规划

11大数据集群网络规划

12案例:金融企业共享存储实施大数据案例

13案例:Hadoop大数据技术核心实现原理

14案例:Hadoop分布式与云计算整合的误区

15案例:Hadoop分布式存储与RAID

 

3个主题: Spark调优基础知识(Spark大数据集群介绍)(30分钟)

1Spark集群部署

2Spark RDD计算模型解析

3Spark RDD操作剖析

4Spark作业基本运行原理

5Spark作业资源占用

6Spark资源框架YARNMesos

7案例:Spark RDD运行过程剖析案例

 Spark开发调优(Spark代码开发调优剖析)(60分钟)

1Spark开发调优原则

2JVM调优

3Spark内存Cache调优

4常见Spark开发调优方法

5Spark算法调优

6案例:Spark Cache运行案例剖析

 Spark资源调优(深入剖析Spark资源调优)(90分钟)

1Spark运行参数调优

2Spark配置参数调优

3资源优化方法,如何设罝合适的资源

4SparkTask数、Process数设置

5案例:Spark Task调优案例

6案例:Spark Process调优案例

 Spark数据倾斜调优(剖析Spark数据倾斜原因以及解决方案)(60分钟)

1数据倾斜现象,如何判断倾斜

2倾斜发生原理

3如何定位倾斜代码,如何查看倾斜数据

4数据倾斜解决方案

5数据重复因子优化

6案例:数据倾斜案例

 Spark shuffle调优(深入剖析典型Spark shuffle原理以及优化方法)(90分钟)

1shuffle简介,运行原理

2shuffle调优概述

3shuffle调优方法,相关参数

4案例:Spark shuffle优化案例

第二天

Spark调优总结(总结Spark的调优方案与流程)(30分钟)

1Spark调优通用流程和方法

2Spark调优原则

3案例:如何分析Spark作业日志

 Hive调优基础知识(深入剖析Hive的运行原理)(30分钟)

1Hive部署架构

2Hive作业基本运行原理

3MapReduce性能分析

4Hive作业资源占用

 Hive调优(深入剖析Hive调优的技术和方法)(60分钟)

1Hive调优概述

2Hive参数调优

3Hive SQL调优

4Hive map数据调优

5Hive的分区调优

6Hive的桶调优

7Hive UDFUDAF调优

8其他常用调优方法

9数据倾斜处现方法


Hive调优总结(总结Hive调优的流程、方法、原则)(60分钟)

1Hive调优通用流程和方法

2Hive调优原则

3案例:如何分析Hive作业日志

 Impala调优基础知识(深入剖析Impala实时数据探索工具)(60分钟)

1Impala分布式集群部署

2Impala分布式架构原理

3Impala数据模型

4Impala作业基本运行原理

5Impala使用注意事项

6Impala DDLDMLSQL、函数

7Impala作业资源占用

8案例:银行在线支付统计的案例

 Impala调优(Impala具体调优方法介绍)(60分钟)

1Impala调优可概述

2Impala参数调优

3Impala SQL调优

4Impala分区调优

5其他常用调优方法

6数据倾斜处理方法

7ImpalaSharkHivePig区别剖析

8案例:Impala调优案例



企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1