简介
Hadoop是开源大数据框架,分布式计算的解决方案。
Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。
本内容涵盖Hadoop数据仓库中数据接入与存储模块、数据加工模块、数据建模、数据分析、数据可视化等五大部分,并分享知名互联网公司数据库构建实例。
目标
1.了解Handoop数据仓库概况;
2.熟悉Handoop数据仓库构建五大模块;
3.掌握Handoop数据仓库搭建方法
受众人群
数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIO和CTO。
课程时长
2天(12H)
分享提纲
主题 | 授课内容 |
Hadoop数据仓库概述 | 1.hadoop数据仓库与传统仓库区别 2.hadoop数据仓库架构 3.hadoop数据仓库关键模块 数据接入与存储、数据加工,数据建模,数据分析及可视化等模块 4.hadoop仓库关键点 数据质量把控 数据模型选择 OLAP引擎选择 |
Hadoop数据仓库:数据接入与存储模块 | 1.数据接入模块关键技术 讲解sqoop,flume,kafka以及databus等常用开源技术以及它们对应的应用场景 2.数据存储模块关键技术 讲解hdfs(不同存储格式及压缩格式对性能的影响)、hbase、kudu、hive等开源技术以及它们对应的应用场景 |
Hadoop数据仓库:数据加工模块 | 数据加工模块关键技术 讲解spark/hive及spark streaming相关技术以及对应应用场景 |
Hadoop数据仓库:数据建模 | 1.Hadoop数据模型 涉及原始表,聚集表以及cube等 涉及元信息管理系统hive metastore 2.数据模型选择原则 |
Hadoop数据仓库:数据分析 | 计算引擎的分类及对应应用场景 涉及hive,presto/impala以及kylin三类系统以及对应应用场景 |
Hadoop数据仓库:数据可视化 | 1.自研系统 C3,Echarts等 2.商业系统 tableau等 |
Hadoop数据仓库实例:某互联网公司TB及数据仓库构建案例 | 1.项目背景 2.系统架构 3.关键技术点和特色 4.经验分享 |
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员
Semon Dong
百林哲咨询(北京)有限公司专家团队成员