简介
随着互联网业务的快速发展,企业均加速大数据平台建设,以提高数据获取速度,提升数据分析效率,更快发挥数据价值。 本次内容将如何围绕和改造开源技术,以产品化思维打造大数据平台, 大数据平台构建和支撑互联网业务过程中面临的技术挑战,以在调度、安全、元数据管理、spark多租户、SQL流计算、高性能查询引擎等关键技术环节的实践经验、大数据平台未来的技术路线规划。
目标
1了解大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践;
2了解Hadoop大数据平台的生态系统组件、平台架构以及工作原理;
3深入了解Spark体系架构,RDD概念和操作;以及Spark和 Hadoop的整合等
受众人群
运维工程师、架构师、大数据工程师、资深工程师、技术经理等
课程时长
2天(12H)
分享提纲
主题 | 课程模块 | 课程内容 | 时长 |
大数据平台架构 | 大数据基础概念和数据平台相关概念 | 1.大数据技术的发展历程和应用背景、大数据产业链概况,以及大数据技术在互联网等行业中的应用实践; 2.数据平台的基本概念 3.数据平台的组成部分,功能和作用:包括数据存储、计算、传输(输入/输出)、任务调度系统、开发者平台、数据质量监控等 | 1.5H |
数据平台案例分享 | 1.美团点评数据平台整体架构 | 0.5H | |
Hadoop分布式存储HDFS和MapReduce计算介绍 | 1.Hadoop大数据平台的生态系统组件、平台架构以及工作原理 2.Hadoop大数据存储系统HDFS的技术原理及应用实战,以及分布式文件系统HDFS概述、功能、作用、优势、应用现状和发展趋势 3.HDFS分布式存储系统的核心关键技术、设计精髓、基本工作原理、系统架构、文件存储模式、工作机制、存储扩容与吞吐性能扩展。 4.大数据平台中的并行计算处理与函数式编程技术原理,以及数据并行技术—MapReduce技术的工作机制、工作原理、性能调优和大数据处理架构,以及MapReduce技术的发展趋势 5.Hadoop MapReduce并行处理平台的系统架构、核心功能模块、MapReduce编程应用开发实践 | 3H | |
Hadoop集群建设参考架构 | 1.Namenode\DataNode节点硬件以及网络选择 2.集群高可用配置 3.集群机房实际部署拓扑推荐 4.集群监控和自动化运维实践 5.案例:唯品会Hadoop集群架构 | 1H | |
Hive和数据仓库 | 1.Hive简介 2.Hive数据模型 3.Hive QL语法和使用 4.基于Hive的数据仓库建设 | 1H | |
Spark数据分析 | 1.Spark 简介 2.Spark安装与部署,Spark独立部署和YARN整合 3.深入了解Spark体系架构,RDD概念和操作;以及Spark和 Hadoop的整合 4.Spark SQL以及Spark和Hive的整合 5.Spark Streaming介绍,介绍其特点和使用建议 6.案例演示 | 3H | |
数据安全 | 1.Hadoop权限体系介绍 2.Hive权限体系简介 3.Kerberos和LDAP在Hadoop安全上的应用 4.如何构在hadoop上建自动化授权和鉴权体系 | 1H | |
实时流计算 | 1.介绍Storm相关概念和基础知识,以及如何使用Storm等。 2.以流量实时化和实时推荐为例,介绍实时系统的使用场景、系统架构和最佳实践 3.在流处理方向Spark Stream和Storm的区别和使用特点 | 1H | |
数据分析实践(以用户行为分析为例 | 1.打点框架,用户行为数据收集 2.数据、日志的收集和传输 3.ETL和数据建模 4.用户画像以及实际应用 5.Case分享:大众点评的数据驱动精准化营销实践 | 1.5H | |
总结 | 1.大数据和分布式系统新的发展方向和趋势 | 0.5H |