简介
数据治理是数据分析的基础,大数据将打开各行各业的数据“潘多拉魔盒”。社交网络、电商巨头、电信运营商乃至金融、医疗、教育等行业,都将加入大数据的“淘金”热潮,政府部门同样会从大数据中获益匪浅。如何将海量数据应用于决策、营销和产品创新?如何利用大数据平台优化产品、流程和服务?如何利用大数据更科学地制定公共政策、实现社会治理?所有这一切,都离不开大数据治理。可以说,在大数据战略从顶层设计到底层实现的“落地”过程中,治理是基础,技术是承载,分析是手段,应用是目的。《大数据治理》系统地阐述了大数据治理的各个版块和大数据治理在典型行业的实践,并深入浅出地介绍了当今主流的大数据技术与平台。
目标
了解基于大数据平台的数据建模,了解数据湖架构、大数据安全、以及数据平台迭代在Hadoop平台开发;熟悉大数据平台的实时营销架构
受众人群
大数据开发人员、大数据运维人员、大数据科学家、算法研究者及系统架构师等
课程时长
2天(12H)
分享提纲
DAY1 | 数据治理范围 | v 数据治理面临的挑战 v 数据的多元化 v 数据的复杂性 v 数据的完整性 v 数据生命周期管理 v 统一元数据管理 v 数据集成方法 v 数据安全 v 数据湖架构 v 基于大数据平台的数据建模 v RMDBS数据的增量实时同步采集 |
大数据在国内的运用 | v 大数据在国内的使用介绍 v 离线计算框架介绍 v 流式计算框架介绍 v 内存计算框架介绍 v 内存流式计算介绍 v 大数据实时请求框架介绍 v 大数据在证券的案例介绍 v 大数据在银行的案例介绍 | |
大数据生态系统介绍 | v 分布式存储—HDFS v 分布式并行计算—MapReduce v 基于Hadoop的数据仓库—Hive v 统一元数据管理—Hcatlog v 集群管理工具—ambari v 工作流工具—Oozie v 数据的并行采集—Flume v MapReduce脚本工具—Pig v 与关系型数据库之间的数据迁移—Sqoop v 资源管理平台—Yarn v 数据生命周期管理—Falcon v 数据挖掘算法—Mahout v 分布式统一服务—Zookeeper v Hadoop安全工具—Knox v 流式计算框架—Storm v 内存计算框架—Spark v 数据挖掘框架—Mahout、Mllib和Graphx | |
统一元数据管理 | v 元数据概念 v Hadoop平台元数据处理面临的问题 v Hcatalog介绍 v Hcatlog原理和架构解析 v Hive与Hcatlog关系 v Hcatlog解决那些问题 v Hcatlog实战 v 元数据注册机制 v 基于Hadoop平台元数据处理方案 | |
数据生命周期管理 | v 数据质量 v 数据标准 v 数据生命周期管理的重要性 v 数据生命周期的概念 v 开源Falcon解决那些问题 v Falcon架构和原理 v Falcon实战 v Falcon+HDFS、Hive实战 v Falcon+Oozie实战 | |
DAY2 | 大数据平台安全 | v Hadoop平台安全介绍 v HDFS2.0的ACLS介绍 v Hive安全介绍 v Hbase基于namespace的安全介绍 v Hadoop访问安全控制Knox v Knox的架构和原理 v Knox与Kerberos介绍 v Ranger安全工具介绍 v Knox+Ranger整合控制Hadoop平台的安全 v 基于Hadoop平台的数据加密 |
数据湖 | v 数据湖概念 v 数据湖解决那些问题 v 数据湖架构 v 数据的整合 v 数据的landing zone功能 v 离线数据管理 v 流式数据管理 v RDBMS全量和增量数据实时采集 v Databus框架介绍 v Databus功能介绍 v Databus解决那些问题 | |
Think big基于Hadoop平台实战 | v 怎么快速迭代在Hadoop平台开发 v Hadoop平台设施的方法论 v 2个月快速基于Hadoop平台开发步骤 v Hadoop平台开发的难点 v Hadoop平台开的注意点 v Hadoop平台设施的流程 | |
互联网大数案例分享 | v 淘宝大数据平台深度解析 v 基于大数据平台的实时营销架构 v 淘宝大数据推荐架构介绍 v 大数据实时分析架构 |
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员