Hadoop的数据仓库建设
Semon Dong 查看讲师
百林哲咨询(北京)有限公司专家团队成员
目前就职于美国某著名视频公司,从事Hadoop及Spark平台相关的研发工作。资深Hadoop技术实践者和研究者,拥有超过7年的Hadoop/Spark平台研发经验,参与商用Hadoop原型研发,以及分布式日志系统等项目的设计与研发。
浏览:5941次
详情 DETAILS

简介

Hadoop是开源大数据框架,分布式计算的解决方案。

Hadoop的两个核心解决了数据存储问题(HDFS分布式文件系统)和分布式计算问题(MapRe-duce)。

本内容涵盖Hadoop数据仓库中数据接入与存储模块、数据加工模块、数据建模、数据分析、数据可视化等五大部分,并分享知名互联网公司数据库构建实例。

目标

1.了解Handoop数据仓库概况;

2.熟悉Handoop数据仓库构建五大模块;

3.掌握Handoop数据仓库搭建方法

受众人群

数据科学家、数据库管理员、分析师、高级工程师、系统架构师、项目经理,以及企业的CIO和CTO。

课程时长

2天(12H)

分享提纲

主题
授课内容
Hadoop数据仓库概述

1.hadoop数据仓库与传统仓库区别

2.hadoop数据仓库架构

3.hadoop数据仓库关键模块

数据接入与存储、数据加工,数据建模,数据分析及可视化等模块 

4.hadoop仓库关键点

数据质量把控

数据模型选择

OLAP引擎选择
Hadoop数据仓库:数据接入与存储模块

1.数据接入模块关键技术

讲解sqoop,flume,kafka以及databus等常用开源技术以及它们对应的应用场景

2.数据存储模块关键技术

讲解hdfs(不同存储格式及压缩格式对性能的影响)、hbase、kudu、hive等开源技术以及它们对应的应用场景
Hadoop数据仓库:数据加工模块

数据加工模块关键技术

讲解spark/hive及spark streaming相关技术以及对应应用场景
Hadoop数据仓库:数据建模

1.Hadoop数据模型

涉及原始表,聚集表以及cube等

涉及元信息管理系统hive metastore

2.数据模型选择原则
Hadoop数据仓库:数据分析

计算引擎的分类及对应应用场景

涉及hive,presto/impala以及kylin三类系统以及对应应用场景
Hadoop数据仓库:数据可视化

1.自研系统

C3,Echarts等

2.商业系统

tableau等
Hadoop数据仓库实例:某互联网公司TB及数据仓库构建案例

1.项目背景

2.系统架构

3.关键技术点和特色

4.经验分享


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1