Spark平台开发实战培训
Semon Dong 查看讲师
百林哲咨询(北京)有限公司专家团队成员
目前就职于美国某著名视频公司,从事Hadoop及Spark平台相关的研发工作。资深Hadoop技术实践者和研究者,拥有超过7年的Hadoop/Spark平台研发经验,参与商用Hadoop原型研发,以及分布式日志系统等项目的设计与研发。
浏览:3846次
详情 DETAILS

简介

随着企业数据的积累,如何对数据有效分析是企业面临的一个实际问题,要分析数据,企业需要配备专业的数据分析团队,但是企业数据分析的需求是多样的,有些需求通过简单的ETL就能解决,有些可能需要复杂的算法模型,另外一些任务则可能需要做实时性分析,这对团队的要求也是相当高的,他们需要掌握不同的技能,在传统的数据分析背景下,这些技能往往也很难得到复用。

Spark正是为解决这些问题而生,它是一个基于内存的计算平台,目前已经成为Apache 基金会的顶级项目。Spark 吸引业界的地方在于其提供了稳定高效的计算框架和统一的技术栈,它不仅涵括了批处理,同时也支持SQL,流式计算,机器学习,图挖掘等方面的数据分析任务。如果说掌握了 Spark,就掌握了数据分析的核心利器一点也不夸张,但同时 Spark 本身入门简单,要正确的运用它则是有一定的难度,本系列课程希望通过对 Spark 的深入介绍为学员掌握 Spark 起到一个积极引导作用。

课程特点/亮点

系统化介绍+实际操作演练+对重难点进行深入浅出分析。

目标

本课程的目的是对Spark做一个深入浅出的讲解,通过本课程的学习,学员能够了解:

1. 了解什么是分布式计算,目前有哪些流行的技术框架;

2. 掌握Spark 的集群部署和任务提交过程;

3. 掌握 Spark 的内部原理和运行机制;

4. 掌握 Spark 编程的基本知识,能运用 Spark 进行编程;

5. 掌握如何运用 Spark 里面的SQL、Streaming、GraphX、MLLib进行数据分析;

6. 掌握 Spark 调优的基本方法。

课程时长:

2天(12H)

受众人群

从事大数据应用开发与挖掘分析的技术人员。

分享提纲

Day 1

1. Spark 编程I(50分钟)

1.1 RDD 概念介绍

1.2 RDD 的构建方法

1.3 RDD 的 Transformations 和 Actions

1.4 Pair RDD 介绍

1.5 Pair RDD 的 Transformations 和 Actions

2. Spark 编程II(50分钟)

2.1 文件格式介绍

2.2 如何操作 Text/JSON/Parquet/Hadoop_Format 等文件格式

2.3 实战演练

3. Spark 编程III(100分钟)

3.1 Spark 操作数据库 (HBase,MySql,Redis,MongoDB)

3.2 累加器

3.3 广播变量

3.4 --archives,--files等参数详解

3.5 实战演练

4. Spark 原理分析(120分钟)

4.1 Spark 架构解析

4.2 Spark 逻辑执行过程

4.3 Spark 物理执行过程

4.4 Spark Shuffle 过程详解

5. Spark 日志解读(20分钟)

Day 2

6. Spark SQL 介绍(90分钟)

6.1 DataFrame 介绍

6.2 DataFrame 的创建方法

6.3 DataFrame相关的操作

6.4 通过 SQL 语句操作 Table

6.5 读取 Hive Table

6.6 实战演练

7. Spark Streaming 介绍(150分钟)

7.1 DStreams 介绍

7.2 DStreams 上的转换和操作

7.3 Input DStreamsReceivers 介绍

7.4 在 Streaming 上运行 SQL

7.5 累加器和广播变量

7.6 Cache 和 Checkpoint

7.7 性能调优和监控

7.8 实战演练

8. Spark 调优(60分钟)

8.1 资源分配调优

8.2 并行化调优

8.3 数据的序列化调优

8.4 内存的管理调优

8.5 数据格式调优

8.6 代码调优

8.7 GC 调优




企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1