大数据(Hadoop、Spark、NOSQL)案例分析与实践
Gavin Liu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
大数据架构师,擅长 MR 开发,基于 MR 的算法开发, Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。
浏览:6231次
详情 DETAILS

简介

大数据技术具有高可靠性、高可拓展性、高容错性和高效性,正是这些设计上与生俱来的优点,才使得Hadoop 一出现就受到众多大公司的青睐,同时也引起了研究界的普遍关注。

对其进行分析和挖掘,能更好地了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop 平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。本课程将全面介绍Hadoop平台开发和运维的各项技术,对学员使用该项技术具有很高的应用价值。

目标

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程,涉及Spark、Hadoop系统基础知识,概念及架构, Spark、Hadoop实战技巧,Spark、Hadoo经典案例等。通过本课程实践,帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识;理解Spark、Hadoop系统适用的场景;掌握Spark、Hadoop等初中级应用开发技能;搭建稳定可靠的Spar、Hadook集群,满足生产环境的标准;了解和清楚大数据应用的几个行业中的经典案例,包括阿里巴巴,华为等

受众人群

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题,需要梳理解答的团队和个人,效果最佳。

课程时长

2天(12H)

学员基础

了解Linux系统及相关语言环境。

分享提纲

DAY1
大数据在国内的运用

大数据在国内的使用介绍

大数据技术体系架构介绍

离线计算框架介绍

流式计算框架介绍

内存计算框架介绍

内存流式计算介绍

大数据在国内的运用案例
Hadoop简介和生态系统介绍

传统大规模数据分析存在的问题

Hadoop概述

Hadoop与分布式文件系统

Hadoop生态系统

Hadoop的行业应用案例分析

Hadoop在云计算和大数据的位置和关系

Hadoop版本介绍

Hadoop与Google FS的关系

Hadoop在国内的使用情况和未来

Hadoop在推荐领域的使用案例介绍
Hadoop组件介绍

HadoopNameNode 介绍

HadoopSecondaryNameNode 介绍

HadoopDataNode 介绍

HadoopJobTracker 介绍

HadoopTaskTracker 介绍

Yarn Resourcemanager介绍

Yarn applicationMaster介绍

Yarn NodeManager介绍


Hadoop的HDFS模块

HDFS架构介绍

HDFS原理介绍

NameNode功能详解

DataNode功能详解

SecondaryNameNode功能详解

HSFD的fsimage和editslog详解

HDFS的block详解

HDFS的block的备份策略

Hadoop的机架感知配置

HDFS的shell命令介绍

HDFS的thrift server服务介绍

HDFS的API接口介绍

HDFS的权限详解

Hadoop的客服端接入案例

Hadoop的shell命令演示

Hadoop的API接口演示

Hadoop的客服端接入案例

MapReducer入门

Mapreduce原理

MapReduce流程

剖析一个MapReduce程序

Mapper和Reducer抽象类详解

Mapreduce的最小驱动类

MapReduce自带的类型

自定义Writables和WritableComparables

Mapreduce的输入InputFormats

MapReduce的输出OutputFormats

Combiner详解

Partitioner详解

DistributeFileSystem详解

Hadoop Tools工具介绍

Counter计数器详解

自定义Counter计数器

基于Hadoop二次开发实战

MapReduce的优化

Map和Reduce的个数设置

Hadoop小文件优化

任务调度

默认的任务调度

公平任务调度

能力任务调度

MapReduce实现海量数据比较大小案例

自定义Hadoop类型案例

自定义Partitioner案例

实现在内存随机生成100个数,分成两个Map来比较大小

多文件输出和自动定义MapReduce的输出名

MapReduce实现Join算法案例

MapReduce实现海量文档相似度算法

自定义Counter案例实现

MapReduce实现Pangrank算法。

MapReduce单元测试:Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。

某公司使用MapReduce分析日志案例(10T数据以上)

配置公平调度器案例实战

Hive

Hive和Pig基础

Hive、Impala和presto的比较     

Hive的作用和原理说明

Hadoop仓库和传统数据仓库的协作关系

Hadoop/Hive仓库数据数据流

Hive部署和安装

HiveCli的基本用法

Hive的server启动

HQL基本语法

Hive的加载数据本地加载和HDFS加载

Hive的partition详解

Hive的存储方式详解

RCFILE、TEXTFILE和SEQUEUEFILE

Hive的UDF和UDAF

Hive的transform详解

Hive的JDBC连接

使用JDBC连接Hive进行查询和分析

使用正则表达式加载数据

编写UDF函数

编写UDAF自定义函数

Partition使用实战

Transform使用实战

某些大型公司使用hive分析日志案例详解和实战。

DAY2Sqoop介绍

Sqoop是什么

Sqoop安装

Sqoop把mysql数据导入HDFS

Sqoop把HDFS数据导入Mysql

Sqoop吧Mysql数据导入Hive

Sqoop吧Mysql数据导入Hive分区

Mysql、HDFS和HIVE之间数据转换的演示
Hadoop集群配置和维护

Hadoop集群的部署要点

NameNode和SecondaryNameNode和JobTracker机器的配置要求

dataNode与tasktracker机器的配置要求

Hadoop集群管理的工具介绍

Ganglia和nigos监控Hadoop集群介绍

Ambri介绍

添加和删除节点演示

Namenode的单点解决方案

NameNode的NFS备份介绍

集群所有dataNode挂掉的故障介绍

集群NameNode的fsimage丢掉恢复方法

Hadoop集群维护的注意点

优化实战
NoSQL介绍

NoSql与SQL的区别

NoSQL的适用场景

NoSQL的比较

常用NoSQL介绍

           — Redis

           — MangoDB

           — Hbase

           — Cassandera

常用NoSQL的性能比较和适用的场景分享


Hbase使用

Hbase原理

Hmaster详解

RegionServer详解

Zookeeper介绍

Hbase安装

Hbase逻辑视图介绍

Hbase物理视图介绍

Hbase的二级索引介绍

Hbase的DDL和DML

Hbase表的设计案例

Hbase的import功能介绍

MapReduce操作Hbase

Hbase的thriftServer介绍

Hbase的API介绍

Hbase使用场景介绍

Hbase案例分析

Hbase安装实战

MapReduce操作Hbase实战

Hbase的API实战

Hbase表结构设计实战

Spark生态介绍

Spark产生背景

Spark 适用场景

Spark 与MapReduce的区别

Spark(内存计算框架)原理

SparkSteaming(流式计算框架)

SparkSQL(ad-hoc)

Mllib(MachineLearning)

GraphX(bagel将被代)


案例实战

大数据实时请求框架介绍

大数据在移动的案例介绍

大数据在银行的案例介绍

大数据在阿里的案例介绍



 

 


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1