深入理解Storm与大数据实战课程

Chad Wang 查看讲师

百林哲咨询（北京）有限公司专家团队成员

曾在某上市公司，担任云事业群技术总监、集团的云计算首席专家和数字化转型平台业务负责人，带领团队从事数据中心云化、云原生架构、人工智能与数据平台等方向的产品研发和产业化工作。

浏览：3883次

详情 DETAILS

课程简介

在大数据的批处理领域，Hadoop是不可撼动的王者，然而在实时性上的延迟，Hadoop却是其天生的不足，为完善大数据实时性处理的需求，业界进行了不少的尝试，如Facebook在2011年发表的论文“Apache Hadoop Goes Realtime at Facebook”中介绍了其基于Hadoop上进行实时性系统的相关改进，同时开发了Puma对网站用户进行实时分析以便对自己的产品或服务进行营销，为解决广告计费（cost-per-click）Yahoo启动了S4用于实时计算、预测用户对广告的可能的点击行为，LinkedIn则基于Kafka开发了Samza用于实时新闻推送、广告和复杂的监控等，而Storm是由Twitter开源的实时计算框架，适用于实时分析、在线机器学习、连续计算、分布式RPC和ETL等场景。

大数据技术的发展日新月异，不断涌现的技术代表着需求的旺盛。在本次课程中，用深入浅出的方法系统介绍了Storm自身的体系架构、技术以及大数据的一些应用。包括如何使用Storm在实时Dashboard统计、反作弊、用户画像与实时推荐等领域的应用。同时介绍整条实时数据处理链路，包括数据收集、传输和计算、以及存储等；实时和离线的整合等内容。

课程收益

1、全面学习实时计算平台的基本知识，了解其主要面临的挑战和要解决的问题；

2、理解storm的基本概念，掌握storm集群部署和配置。

受众人群

大数据工程师、技术经理、运维工程师，对大数据供应链有兴趣的人群

课程时长

2天（12H）

分享提纲

1. 实时计算平台介绍

介绍实时系统主要解决的业务问题和面临的挑战；

简要介绍实时平台的主要组件和构成，实时数据的收集通道和数据交互方式；

实时数据核心组件Flume、Kafka的介绍，以及Storm在整个平台中所处的位置；