大数据（Hadoop、Spark、NOSQL）案例分析与实践

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：6936次

详情 DETAILS

简介

大数据技术具有高可靠性、高可拓展性、高容错性和高效性，正是这些设计上与生俱来的优点，才使得Hadoop 一出现就受到众多大公司的青睐，同时也引起了研究界的普遍关注。

对其进行分析和挖掘,能更好地了解客户需求。传统经营分析系统小型机加关系型数据库的架构无法满足对海量非结构化数据的处理需求,搭建基于X86的Hadoop 平台,引入大数据处理技术的方式,实现高效率、低成本、易扩展的经营分析系统混搭架构成为电信运营商最为倾向的选择。本课程将全面介绍Hadoop平台开发和运维的各项技术，对学员使用该项技术具有很高的应用价值。

目标

本课程将为大家全面而又深入的介绍Spark、Hadoop平台的构建流程，涉及Spark、Hadoop系统基础知识，概念及架构， Spark、Hadoop实战技巧，Spark、Hadoo经典案例等。通过本课程实践，帮助学员对Spark、Hadoop生态系统有一个清晰明了的认识；理解Spark、Hadoop系统适用的场景；掌握Spark、Hadoop等初中级应用开发技能；搭建稳定可靠的Spar、Hadook集群，满足生产环境的标准；了解和清楚大数据应用的几个行业中的经典案例，包括阿里巴巴，华为等

受众人群

各类 IT/软件企业和研发机构的软件架构师、软件设计师、程序员。对于怀有设计疑问和问题，需要梳理解答的团队和个人，效果最佳。

课程时长

2天（12H）

学员基础

了解Linux系统及相关语言环境。

分享提纲

DAY1	大数据在国内的运用	大数据在国内的使用介绍大数据技术体系架构介绍离线计算框架介绍流式计算框架介绍内存计算框架介绍内存流式计算介绍	大数据在国内的运用案例
	Hadoop简介和生态系统介绍	传统大规模数据分析存在的问题 Hadoop概述 Hadoop与分布式文件系统 Hadoop生态系统 Hadoop的行业应用案例分析 Hadoop在云计算和大数据的位置和关系 Hadoop版本介绍 Hadoop与Google FS的关系 Hadoop在国内的使用情况和未来	Hadoop在推荐领域的使用案例介绍
	Hadoop组件介绍	HadoopNameNode 介绍 HadoopSecondaryNameNode 介绍 HadoopDataNode 介绍 HadoopJobTracker 介绍 HadoopTaskTracker 介绍 Yarn Resourcemanager介绍 Yarn applicationMaster介绍 Yarn NodeManager介绍
	Hadoop的HDFS模块	HDFS架构介绍 HDFS原理介绍 NameNode功能详解 DataNode功能详解 SecondaryNameNode功能详解 HSFD的fsimage和editslog详解 HDFS的block详解 HDFS的block的备份策略 Hadoop的机架感知配置 HDFS的shell命令介绍 HDFS的thrift server服务介绍 HDFS的API接口介绍 HDFS的权限详解 Hadoop的客服端接入案例	Hadoop的shell命令演示 Hadoop的API接口演示 Hadoop的客服端接入案例
	MapReducer入门	Mapreduce原理 MapReduce流程剖析一个MapReduce程序 Mapper和Reducer抽象类详解 Mapreduce的最小驱动类 MapReduce自带的类型自定义Writables和WritableComparables Mapreduce的输入InputFormats MapReduce的输出OutputFormats Combiner详解 Partitioner详解 DistributeFileSystem详解 Hadoop Tools工具介绍 Counter计数器详解自定义Counter计数器基于Hadoop二次开发实战 MapReduce的优化 Map和Reduce的个数设置 Hadoop小文件优化任务调度默认的任务调度公平任务调度能力任务调度	MapReduce实现海量数据比较大小案例自定义Hadoop类型案例自定义Partitioner案例实现在内存随机生成100个数，分成两个Map来比较大小多文件输出和自动定义MapReduce的输出名 MapReduce实现Join算法案例 MapReduce实现海量文档相似度算法自定义Counter案例实现 MapReduce实现Pangrank算法。 MapReduce单元测试：Map的单元测试测试、reduce单元测试和MapReduce整体的单元测试实战。某公司使用MapReduce分析日志案例（10T数据以上）配置公平调度器案例实战
	Hive	Hive和Pig基础 Hive、Impala和presto的比较 Hive的作用和原理说明 Hadoop仓库和传统数据仓库的协作关系 Hadoop/Hive仓库数据数据流 Hive部署和安装 HiveCli的基本用法 Hive的server启动 HQL基本语法 Hive的加载数据本地加载和HDFS加载 Hive的partition详解 Hive的存储方式详解 RCFILE、TEXTFILE和SEQUEUEFILE Hive的UDF和UDAF Hive的transform详解 Hive的JDBC连接	使用JDBC连接Hive进行查询和分析使用正则表达式加载数据编写UDF函数编写UDAF自定义函数 Partition使用实战 Transform使用实战某些大型公司使用hive分析日志案例详解和实战。
DAY2	Sqoop介绍	Sqoop是什么 Sqoop安装 Sqoop把mysql数据导入HDFS Sqoop把HDFS数据导入Mysql Sqoop吧Mysql数据导入Hive Sqoop吧Mysql数据导入Hive分区	Mysql、HDFS和HIVE之间数据转换的演示
	Hadoop集群配置和维护	Hadoop集群的部署要点 NameNode和SecondaryNameNode和JobTracker机器的配置要求 dataNode与tasktracker机器的配置要求 Hadoop集群管理的工具介绍 Ganglia和nigos监控Hadoop集群介绍 Ambri介绍添加和删除节点演示 Namenode的单点解决方案 NameNode的NFS备份介绍集群所有dataNode挂掉的故障介绍集群NameNode的fsimage丢掉恢复方法 Hadoop集群维护的注意点	优化实战
	NoSQL介绍	NoSql与SQL的区别 NoSQL的适用场景 NoSQL的比较常用NoSQL介绍 — Redis — MangoDB — Hbase — Cassandera 常用NoSQL的性能比较和适用的场景分享
	Hbase使用	Hbase原理 Hmaster详解 RegionServer详解 Zookeeper介绍 Hbase安装 Hbase逻辑视图介绍 Hbase物理视图介绍 Hbase的二级索引介绍 Hbase的DDL和DML Hbase表的设计案例 Hbase的import功能介绍 MapReduce操作Hbase Hbase的thriftServer介绍 Hbase的API介绍 Hbase使用场景介绍 Hbase案例分析	Hbase安装实战 MapReduce操作Hbase实战 Hbase的API实战 Hbase表结构设计实战
	Spark生态介绍	Spark产生背景 Spark 适用场景 Spark 与MapReduce的区别 Spark（内存计算框架）原理 SparkSteaming（流式计算框架） SparkSQL（ad-hoc） Mllib（MachineLearning） GraphX（bagel将被代）
	案例实战	大数据实时请求框架介绍大数据在移动的案例介绍大数据在银行的案例介绍大数据在阿里的案例介绍