Hadoop大数据实战课程
Gavin Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大数据架构师,擅长 MR 开发,基于 MR 的算法开发, Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。
浏览:3646次
详情 DETAILS

课程简介

当下是大数据时代,为构建大数据平台,技术人员需要对分布式计算平台有一定深入的理解和应用。MapReduce作为一个经典的分布式计算框架,已经广为人知,且得到了广泛的应用,但MapReduce自身存在很多问题,包括迭代式计算和DAG计算等类型的数据挖掘与机器学习算法性能低下,不能很好地利用内存资源,编程复杂度较高等。为了克服MapReduce的众多问题,新型计算框架出现了。

课程收益

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, Spark、Hadoop实战技巧,Spark、Hadoop经典案例等。

通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握Spark、Hadoop等初中级应用开发技能;搭建稳定可靠的Spark、Hadoop集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等。

受众人群

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。了解Linux系统及相关语言环境

课程周期

3天

课程大纲

标题

授课内容

大数据在

国外的运用(第一天)

大数据在国外的发展情况

大数据在国外的应用

Hadoop在国外的使用

大数据在金融业的使用案例

大数据的发展与展望

大数据在国内的运用(第一天)

大数据在国内的使用介绍

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍

大数据实时请求框架介绍

大数据在证券的案例介绍

大数据在银行的案例介绍

大数据生态系统介绍(第一天)

 

分布式存储—HDFS

分布式并行计算—MapReduce

基于Hadoop的数据仓库—Hive

集群管理工具—ambari

工作流工具—Oozie

数据的并行采集—Flume

MapReduce脚本工具—Pig

与关系型数据库之间的数据迁移—Sqoop

资源管理平台—Yarn

数据挖掘算法—Mahout

分布式统一服务—Zookeeper

Hadoop安全工具—Knox

流式计算框架—Storm

内存计算框架—Spark

数据挖掘框架—Mahout、Mllib和Graphx

Hadoop核心组件详解(第一天)

HDFS 基本结构

 HDFS 副本存放策略

NameNode 详解

SecondaryNameNode 详解

HA的架构和原理

 DataNode 详解

MapReduce并行计算架构

JobTracker 详解

TaskTracker 详解

Yarn原理详解

Resourcemanger详解

Nodemanager详解

ApplicationMaster详解

Hadoop的HDFS模块(第一天)

HDFS架构介绍

HDFS原理介绍

NameNode功能详解

DataNode功能详解

SecondaryNameNode功能详解

HSFD的fsimage和editslog详解

HDFS的block详解

HDFS的block的备份策略

Hadoop的机架感知配置

HDFS的shell命令介绍

HDFS的thrift server服务介绍

HDFS的API接口介绍

HDFS的权限详解

Hadoop的客服端接入案例

 

Hadoop的shell命令演示

Hadoop的API接口演示

Hadoop的客服端接入案例

MapReducer入门第二天

Mapreduce原理

MapReduce流程

剖析一个MapReduce程序

Mapper和Reducer抽象类详解

Mapreduce的最小驱动类

MapReduce自带的类型

Combiner详解

Partitioner详解

DistributeFileSystem详解

Hadoop Tools工具介绍

Counter计数器详解

自定义Counter计数器

基于Hadoop二次开发实战

MapReduce的优化

Map和Reduce的个数设置

Hadoop小文件优化

任务调度

默认的任务调度

公平任务调度

能力任务调度

使用 Hadoop MapReduce Streaming 编程

MapReduce的单元测试

 

实现在内存随机生成100个数,分成两个Map来比较大小

多文件输出和自动定义MapReduce的输出名

MapReduce实现Join算法案例

MapReduce实现海量文档相似度算法

自定义Counter案例实现

MapReduce实现Pangrank算法。

MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

某公司使用MapReduce分析日志案例(10T数据以上)

配置公平调度器案例实战

 

Yarn实战第二天

Yarn架构和原理

ResourceManager工作原理

NodeManager工作原理

ApplicationMaster工作原理

Yarn的资源控制机制

基于内存的控制设置

基于CPU的控制设置

基于Yarn的程序开发步骤

Yarn为某个运用独立分配资源

Yarn与Messos的区别

 

基于Yarn资源控制实战

基于Yarn的程序开发实战

MapReduce on Yarn实战

Hbase on Yarn 实战

Hive、impala和Tez实战

Hive和Pig基础

Hive、Impala和presto的比较

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive 部署和安装

Hive Cli 的基本用法

Hive的server启动

HQL基本语法

Hive的加载数据本地加载和HDFS加载

Hive的partition详解

Hive的存储方式详解

RCFILE、TEXTFILE和SEQUEUEFILE

Hive的UDF和UDAF

Hive的transform详解

Hive的JDBC连接

Impala实战

Tez实战

Hbase使用第三天

Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase 的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的 thrift Server介绍

Hbase 的API介绍

Hbase使用场景介绍

Hbase案例分析

 

MapReduce操作Hbase实战

Hbase的API实战

Hbase表结构设计实战

银行信用卡刷卡记录的查询

互联网大数案例分享第三天

淘宝大数据平台深度解析

基于大数据平台的实时营销架构

淘宝大数据推荐架构介绍

大数据实时分析架构

某城商行大数据案例第三天

大数据架构详解

POS商户的分析和交易流水分析

   架构:Hadoop+Hive+Hbase+Storm

交易风险预测和实时营销

架构: Hadoop+Flume+Storm+

Redis+Esper+Hbase

某国字头银行大数据案例第三天

大数据架构详解

基于Hadoop的数据仓库

架构:Hadoop+Hive+Hcatalog+oozie

担保圈分析、资金链上下游分析

 架构:Hadoop+Spark Graphx+Mllib+R

网址选择

架构:Hadoop+Hive+高德地图


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1