Spark核心技术与实战
Ivan Li 查看讲师
百林哲咨询(北京)有限公司专家团队成员
奇虎360技术经理,参与公司 Hadoop、Spark 等大数据平台的建设,工作中专注于解决平台中的各种 Bug 及用户遇到的各类问题,爱好开源,乐于学习和分享。目前主要关注 Spark、大规模机器学习/深度学习等领域。
浏览:4608次
详情 DETAILS

简介

Spark是继MapReduce之后新一代的大数据计算框架,相比MapReduce框架其具有可伸缩、基于内存计算等特点,以及可以直接读写HDFS上数据等优势,在进行批处理时更加高效,并有更低的延迟,已经成为轻量级大数据快速处理的统一平台。此外,Spark平台集成了Spark SQL、Spark Streaming、MLlib、GraphX、SparkR等模块,可以提供一站式解决方案,让从业者的工作变得越来越便捷。

课程特点/亮点

理论与案例相结合,循序渐进的阐述Spark平台的原理和使用方案。

目标

该课程使学员:

了解Spark平台的特性和优势;

掌握Spark平台架构和个组件的功能;

掌握利用Spark进行数据分析的基本方法;

掌握利用Spark进行数据挖掘/机器学习的基本方法;

学习基于Spark平台构建大数据项目的实际案例。

课程时长

1天(6H)

受众人群

大数据开发人员、大数据运维人员、大数据科学家、算法研究者及系统架构师等

分享提纲

1. Spark简介

1.1 Spark平台架构

1.2 Spark特点

1.3 Spark与MapReduce对比

1.4 Spark应用场景

1.5 Spark重要组件介绍

1.5.1 SparkSQL介绍

1.5.2 SparkStreaming介绍

1.5.3 Spark MLLib介绍

1.5.4 SparkGraphX介绍

2. Spark平台部署

和作业提交

   2.1 Local模式

   2.2 Standalone模式

   2.3 Yarn模式

   2.4 部署和作业提交参数详解

3. 编程模型

   3.1RDD介绍

   3.2创建RDD

   3.3RDD基本操作

   3.4共享变量

   3.5累加器

4. 外部数据源的存取

   4.1文件格式

   4.2文件系统

   4.3结构化数据

   4.4数据库连接

5. SparkSQL

  5.1SparkSQL概述

   5.2在应用中使用SparkSQL

   5.3 HiveContext介绍

   5.4 SparkSQL与Hive对比

   5.5 Thrift  JDBC/ODBC服务

   5.6 SparkSQL与BI工具的整合

   5.7SparkSQL调优

6. SparkMLLib

   6.1 机器学习概述

   6.2 Spark MLLib介绍

   6.3 Spark MLLib算法库

   6.4 MLLib实例

7. Spark GraphX

   7.1 GraphX概述

   7.2 GraphX编程接口

   7.3 Pregel框架介绍

   7.4 GraphX实例

8. Spark作业调优

   8.1 重要参数配置

   8.2关键性能考量


 


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1