简介
大数据是近两年的热点,这点从大数据工程师的工资越来越高也可以看得出。大数据的新闻和文章也非常的多。但有一个问题一直困扰着很多工程师,大数据到底怎么落地?面对大数据繁多的框架和工具,我们应该怎样选型?有了这些数据,又该怎样去展示?
讲师会根据他在唯品会从零开始建设大数据平台中碰到的问题,跟大家分享在大数据落地的各个环节中需要注意的问题和技术的选型,包括数据的收集,计算,存储和展现等环节。除了这些底层平台的搭建,还会分享关于基于数据平台如何去设计数据产品的想法和经验。
希望抛开太细节的技术实现,通过课程,能够让参与的同学们了解大数据的体系架构和当前的发展,从国内具有代表性的公司的大数据发展历程,减少工作中可能会碰到的问题。
课程特点/亮点
课程的内容从大数据的体系架构入手,先介绍大数据的基本概念和组件,使参加课程的同学能对大数据有一个大而全的了解。然后,讲师会全面的分析国内公司的大数据发展历程,结合讲师从头零开始搭建数据平台的一线工作经验,使得参加课程的同学能清楚的了解到唯品会大数据在面对技术选型时是如何思考,如何决定的。
除了这些技术方面的话题,讲师还会结合自身数据产品的设计经验,和大家分享作为一个数据产品经理的工作经验,以及数据可视化方面的经验。
目标
了解大数据的体系架构和发展过程
熟悉大数据常见的一致性算法和数据结构
了解大公司的大数据体系架构和发展过程
唯品会大数据平台的发展过程
熟悉数据在大数据平台中的生命周期
掌握数据可视化
受众人群
大数据工程师,大数据架构师,数据产品经理以及其他有一定大数据基础的人员
课程时长
2-3天(12-18H)
分享提纲
DAY1 | 上午 | 1. 大数据基础体系架构 a. 大数据基础理念 b. Google三大论文以及开源实现 i. GFS(GoogleFileSystem)和HDFS ii. MapReduce和Hadoop iii. BigTable和HBase c. DAG计算模型 2. 大数据体系进阶 a. 流式计算 i. Storm ii. SparkStreaming iii. Apache Flink b. Lambda计算架构 c. 合二为一的Spark d. Adhoc查询 i. Presto ii. Tez |
下午 | 3. 大数据常用的一致性算法和数据结构 a. 一致性基本原则和理论 i. CAP理论 ii. ACID原则 iii. BASE原则 iv. CAP/ACID/BASE三者的关系 v. 幂等性 b. 一致性模型 i. 强一致性 ii. 最终一致性 iii. 因果一致性 iv. “读你所写”一致性 v. 会话一致性 vi. 单调读一致性 vii. 单调写一致性 c. 资源调度简述 i. Mesos ii. Yarn | |
DAY2 | 上午 | 4. 数据的流动 a. 数据的生命周期 i. 数据收集 ii. 数据转换 iii. 数据载入 iv. ETL抽象 5. Kafka a. Kafka出现的背景 b. Kafka的设计 |
下午 | 6. 大数据落地的常见架构 a. 百度 b. 腾讯 c. 阿里 d. 京东 e. 美团 f. 唯品会 g. 饿了么 7. 唯品会大数据的发展 a. 实时计算 i. 第一代架构Logstash,RabbitMQ,Storm,MySQL ii. 第二代架构Flume,Kafka,Impala,MySQL iii. 第三代架构Flume,Kafka,Spark,HBase b. 离线计算 | |
DAY3 | 上午 | 8. 数据可视化 a. 数据可视化是什么 b. 数据可视化工具的选择 c. 数据可视化JS库 9. 我参与的数据产品的经验 a. 唯品会业务数据产品Telescope b. 唯品会运维数据产品Logview c. 唯品会故障诊断数据产品Gorilla d. 游族网络用户网络质量监控 e. 游族网络CDN质量检测 |