Hadoop大数据实战课程

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：4233次

详情 DETAILS

课程简介

当下是大数据时代，为构建大数据平台，技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架，已经广为人知，且得到了广泛的应用，但MapReduce自身存在很多问题，包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下，不能很好地利用内存资源，编程复杂度较高等。为了克服MapReduce的众多问题，新型计算框架出现了。

课程收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构， Spark、Hadoop实战技巧，Spark、Hadoop经典案例等。

通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握Spark、Hadoop等初中级应用开发技能；搭建稳定可靠的Spark、Hadoop集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等。

受众人群

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。了解Linux系统及相关语言环境。

课程周期

3天

课程大纲

标题

授课内容

大数据在

国外的运用(第一天）

l 大数据在国外的发展情况

l 大数据在国外的应用

l Hadoop在国外的使用

l 大数据在金融业的使用案例

l 大数据的发展与展望

大数据在国内的运用(第一天）

l 大数据在国内的使用介绍

l 离线计算框架介绍

l 流式计算框架介绍

l 内存计算框架介绍

l 内存流式计算介绍

l 大数据实时请求框架介绍

l 大数据在证券的案例介绍

l 大数据在银行的案例介绍

大数据生态系统介绍(第一天）

l 分布式存储—HDFS

l 分布式并行计算—MapReduce

l 基于Hadoop的数据仓库—Hive

l 集群管理工具—ambari

l 工作流工具—Oozie

l 数据的并行采集—Flume

l MapReduce脚本工具—Pig

l 与关系型数据库之间的数据迁移—Sqoop

l 资源管理平台—Yarn

l 数据挖掘算法—Mahout

l 分布式统一服务—Zookeeper

l Hadoop安全工具—Knox

l 流式计算框架—Storm

l 内存计算框架—Spark

l 数据挖掘框架—Mahout、Mllib和Graphx

Hadoop核心组件详解(第一天）

l HDFS 基本结构

l HDFS 副本存放策略

l NameNode 详解

l SecondaryNameNode 详解

l HA的架构和原理

l DataNode 详解

l MapReduce并行计算架构

l JobTracker 详解

l TaskTracker 详解

l Yarn原理详解

l Resourcemanger详解

l Nodemanager详解

l ApplicationMaster详解

Hadoop的HDFS模块(第一天）

l HDFS架构介绍

l HDFS原理介绍

l NameNode功能详解

l DataNode功能详解

l SecondaryNameNode功能详解

l HSFD的fsimage和editslog详解

l HDFS的block详解

l HDFS的block的备份策略

l Hadoop的机架感知配置

l HDFS的shell命令介绍

l HDFS的thrift server服务介绍

l HDFS的API接口介绍

l HDFS的权限详解

l Hadoop的客服端接入案例

n Hadoop的shell命令演示

n Hadoop的API接口演示

n Hadoop的客服端接入案例

MapReducer入门（第二天）

l Mapreduce原理

l MapReduce流程

l 剖析一个MapReduce程序

l Mapper和Reducer抽象类详解

l Mapreduce的最小驱动类

l MapReduce自带的类型

l Combiner详解

l Partitioner详解

l DistributeFileSystem详解

l Hadoop Tools工具介绍

l Counter计数器详解

l 自定义Counter计数器

l 基于Hadoop二次开发实战

l MapReduce的优化

l Map和Reduce的个数设置

l Hadoop小文件优化

l 任务调度

l 默认的任务调度

l 公平任务调度

l 能力任务调度

l 使用 Hadoop MapReduce Streaming 编程

l MapReduce的单元测试

n 实现在内存随机生成100个数，分成两个Map来比较大小

n 多文件输出和自动定义MapReduce的输出名

n MapReduce实现Join算法案例

n MapReduce实现海量文档相似度算法

n 自定义Counter案例实现

n MapReduce实现Pangrank算法。

n MapReduce单元测试：Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

n 某公司使用MapReduce分析日志案例（10T数据以上）

n 配置公平调度器案例实战

Yarn实战（第二天）

l Yarn架构和原理

l ResourceManager工作原理

l NodeManager工作原理

l ApplicationMaster工作原理

l Yarn的资源控制机制

l 基于内存的控制设置

l 基于CPU的控制设置

l 基于Yarn的程序开发步骤

l Yarn为某个运用独立分配资源

l Yarn与Messos的区别

n 基于Yarn资源控制实战

n 基于Yarn的程序开发实战

n MapReduce on Yarn实战

n Hbase on Yarn 实战

Hive、impala和Tez实战

l Hive和Pig基础

l Hive、Impala和presto的比较

l Hive的作用和原理说明

l Hadoop仓库和传统数据仓库的协作关系

l Hadoop/Hive仓库数据数据流

l Hive 部署和安装

l Hive Cli 的基本用法

l Hive的server启动

l HQL基本语法

l Hive的加载数据本地加载和HDFS加载

l Hive的partition详解

l Hive的存储方式详解

l RCFILE、TEXTFILE和SEQUEUEFILE

l Hive的UDF和UDAF

l Hive的transform详解

l Hive的JDBC连接

l Impala实战

l Tez实战

Hbase使用（第三天）

l Hbase原理

l Hmaster详解

l RegionServer详解

l Zookeeper介绍

l Hbase安装

l Hbase逻辑视图介绍

l Hbase物理视图介绍

l Hbase的二级索引介绍

l Hbase 的DDL和DML

l Hbase表的设计案例

l Hbase的import功能介绍

l MapReduce操作Hbase

l Hbase的 thrift Server介绍

l Hbase 的API介绍

l Hbase使用场景介绍

l Hbase案例分析

n MapReduce操作Hbase实战

n Hbase的API实战

n Hbase表结构设计实战

n 银行信用卡刷卡记录的查询

互联网大数案例分享（第三天）

l 淘宝大数据平台深度解析

l 基于大数据平台的实时营销架构

l 淘宝大数据推荐架构介绍

l 大数据实时分析架构

某城商行大数据案例（第三天）

l 大数据架构详解

l POS商户的分析和交易流水分析

架构：Hadoop+Hive+Hbase+Storm

l 交易风险预测和实时营销

架构： Hadoop+Flume+Storm+

l Redis+Esper+Hbase

某国字头银行大数据案例（第三天）

l 大数据架构详解

l 基于Hadoop的数据仓库

架构：Hadoop+Hive+Hcatalog+oozie

l 担保圈分析、资金链上下游分析

架构：Hadoop+Spark Graphx+Mllib+R

l 网址选择

架构：Hadoop+Hive+高德地图

预约内训 APPLY

前往约课

前往提交您的需求，我们会及时与您联系

课程推荐 COURSE

大数据分析应用

4966次

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

DAMA数据治理体系和DCMM数据成熟度评估实战培训

数据治理

大数据架构

9330次

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

开源大数据(Hadoop、Spark)技术实战课程

Hadoop、Spark

大数据基础技术

7308次

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

Gavin Liu

百林哲咨询（北京）有限公司专家团队成员

大数据（Hadoop、Spark、NOSQL）案例分析与实践

Hadoop、Spark、NOSQL