简介
IT到DT时代的到来,企业运用数据资产的力量解决现实问题的场景越来越多。不论是互联网还是企业,运用大数据技术管理企业数据,洞察商业形式,辅助商业决策逐渐成为趋势。针对技术人员,如何运用各种开源软件、产品搭建数据中心,数据接入和存储以及完成价值的输出。
课程从经验实践角度,由浅入深的讲解大数据各个方面所运用的思路,技术和理念。主要内容涵盖:
1. 大数据的概念趋势和企业大数据
2. 大数据技术概览
3. 分布式存储搭建和实践
4. 分布式计算框架和实践
5. Python与机器学习实践
6. 行业案例简析
课程特点/亮点
从概念到实践的系统性的讲座,在2天的时间内给予企业技术负责人等从业人员明确的方向和技术方案。
提供大量实践案例,技术剖析,经验传授。
目标
通过2天的课程,可以充分的了解企业运用大数据思想和技术完成价值的创造,达成学员对大数据认识的革命性转变。
熟悉互联网,大数据各项技术的通用思路和思考方式,了解常见技术组件的部署使用和工作方式。学员经过实践,可以快速掌握各项大数据技术的技能。
课程时长
2天(12H)
受众人群
大数据相关从业技术人员/有意向发展大数据事业的企业的技术人员
分享提纲
1. 大数据的概念趋势和企业大数据 | 1.1. 什么是大数据 1.1.1. 大数据的常见问题和观点 1.1.2. 从IT到DT时代的变迁 1.1.3. IT销售的大数据思维转变 1.1.4. 大数据常用的技术 1.1.5. 云大物移社智 1.2. 大数据的价值和应用 1.2.1. 身边的大数据应用 1.2.2. 思维方式的转变 1.2.3. 在推荐中的应用 1.2.4. 金融中的应用 1.2.5. 项目案例1 1.3. 大数据生态格局 1.3.1. 全球大数据生态 1.3.2. 国内大数据生态 1.4. 拥抱大数据 1.4.1. 企业应用大数据的方法 1.4.2. BASIC原则 |
2. 互联网和大数据技术概览 | 2.1. 互联网技术简介 2.1.1. 高并发web技术 2.1.2. 缓存和NoSQL 2.1.3. 高性能RDB 2.1.4. 搜索引擎技术 2.1.5. 互联网抓取 2.1.6. 互联网安全 2.1.7. 云计算 2.2. 分布式存储和计算 2.2.1. 分布式对象存储/分布式文件系统 2.2.2. 分布式消息系统 2.2.3. 分布式KV数据库 2.2.4. 分布式文档数据库 2.2.5. 分布式MPP 2.2.6. 列式数据库 2.2.7. Coordinator 2.2.8. 流计算 2.2.9. 大规模离线计算 2.2.10. 自动化运维 2.3. 机器学习概述 2.3.1. 如何识别垃圾邮件 2.3.2. 机器学习的概念和一般框架 2.3.3. 机器学习效果评测 2.3.4. 算法模型分类 2.4. Lambda架构和企业大数据实践 2.4.1. Lambda架构 2.4.2. 实时流式计算案例模型 2.4.3. 离线计算案例模型 2.4.4. 用户画像与Lambda架构 |
3. 分布式存储搭建和实践 | 3.1. 可扩展的Hadoop集群实践 3.1.1. 集群搭建 3.1.2. 性能优化和参数调优 3.1.3. HDFSaaS 3.1.4. Hadoop和云计算 3.1.5. 多IDC灾备策略 3.2. 运用Kafka集群 3.2.1. 搭建Kafka集群 3.2.2. 流量控制和分配 3.2.3. 性能最大化 3.3. 运用Mongodb集群 3.3.1. 集群搭建 3.3.2. 组织你的数据 3.4. 使用分布式Redis集群 3.4.1. 集群选型和搭建 3.4.2. pipline和超高性能 3.4.3. 最终一致性 3.5. 使用zookeeper 3.5.1. 集群搭建 3.5.2. 管理集群状态 3.5.3. watcher和通知 |
4. 分布式计算框架和实践 | 4.1. MapReduce实践 4.1.1. 搭建Yarn和MapReduce集群 4.1.2. 编写调试MapReduce任务 4.1.3. MapReduce任务性能优化 4.1.4. 使用BD-OS开发复杂大数据业务 4.2. Storm实践 4.2.1. 搭建Storm集群 4.2.2. 编写调试storm任务 4.2.3. storm任务性能优化 |
5. Python与机器学习实践 | 5.1. Python语言基础 5.1.1. Python语法基础 5.1.2. 函数和参数 5.1.3. Python的面向对象 5.2. 使用Python编写机器学习程序 5.2.1. 使用scikit-learn 5.2.2. 决策树模型实践 5.2.3. 贝叶斯分类器实践 5.2.4. k-means聚类实践 |
6. 案例简析 | 6.1. 构建大规模BI系统 6.1.1. 技术选型和架构设计 6.1.2. 了解你的数据 6.1.3. 数据接入和存储选择 6.1.4. 使用Hive或GP完成BI系统构建 6.1.5. 基于BD-OS完成大规模BI系统业务开发 6.2. 构件智能用户洞察平台 6.2.1. 技术选型和架构设计 6.2.2. 了解用户和数据 6.2.3. 数据接入和存储 6.2.4. 选择合适的算法和模型 6.2.5. 构建数据工作流 6.3. 数据治理系统 6.3.1. 数据盘点 6.3.2. 存储系统的选型 6.3.3. 支持可扩展业务发展的架构设计 6.3.4. 数据仓库 6.3.5. 数据开发团队建设 |