课程简介
在大数据的批处理领域,Hadoop是不可撼动的王者,然而在实时性上的延迟,Hadoop却是其天生的不足,为完善大数据实时性处理的需求,业界进行了不少的尝试,如Facebook在2011年发表的论文“Apache Hadoop Goes Realtime at Facebook”中介绍了其基于Hadoop上进行实时性系统的相关改进,同时开发了Puma对网站用户进行实时分析以便对自己的产品或服务进行营销,为解决广告计费(cost-per-click)Yahoo启动了S4用于实时计算、预测用户对广告的可能的点击行为,LinkedIn则基于Kafka开发了Samza用于实时新闻推送、广告和复杂的监控等,而Storm是由Twitter开源的实时计算框架,适用于实时分析、在线机器学习、连续计算、分布式RPC和ETL等场景。
大数据技术的发展日新月异,不断涌现的技术代表着需求的旺盛。在本次课程中,用深入浅出的方法系统介绍了Storm自身的体系架构、技术以及大数据的一些应用。包括如何使用Storm在实时Dashboard统计、反作弊、用户画像与实时推荐等领域的应用。同时介绍整条实时数据处理链路,包括数据收集、传输和计算、以及存储等;实时和离线的整合等内容。
课程收益
1、全面学习实时计算平台的基本知识,了解其主要面临的挑战和要解决的问题;
2、理解storm的基本概念,掌握storm集群部署和配置。
受众人群
大数据工程师、技术经理、运维工程师,对大数据供应链有兴趣的人群
课程时长
2天(12H)
分享提纲
1. 实时计算平台介绍 | 介绍实时系统主要解决的业务问题和面临的挑战; 简要介绍实时平台的主要组件和构成,实时数据的收集通道和数据交互方式; 实时数据核心组件Flume、Kafka的介绍,以及Storm在整个平台中所处的位置; 分享部分典型互联网公司实时平台的架构,如大众点评、美团、一号店等。 |
2. Storm基本概念和组件介绍 | Storm的基本组件:Nimbus、Supervisor、Worker、 Executor和Task的基本介绍; 集群组成:通常一个线上集群的如何构成; Storm的可靠性:Storm如何保证可靠性以及数据的准确性; Storm的数据分组和其他特性介绍。 |
3. Storm集群部署和配置 | Storm的依赖组件介绍; Storm的部署软硬件环境要求; 部署ZooKeeper 部署Storm到各个机器节点 配置Storm相关参数,以及核心参数介绍; 启动Storm相关进程; Storm的守护进程。 |