课程简介
当前大数据在多个领域广泛存在,大数据的质量对其有效应用起着至关重要的作用,因而需要对大数据进行质量管理。本课程中老师主要分享的内容有以下几点:首先是大数据带给测试的挑战以及目前探索到的一些应对方案,其次是大数据能力对质量保障乃至研发的过程带来哪些新的可能性。也会给学员们讲讲百度大数据在做什么,未来的走向如何。
受众人群
数据研发测试部经理/主管、架构师、数据研发测试工程师
课程时长
1天(6H)
分享提纲
项目 | 内容 |
暖场:大数据解决什么问题(1 hr) | 1.讲师简介、课程简介 2.由传统架构向大数据的演变 3.案例:数据采集与推荐技术在快餐零售业的应用 4.案例:大数据在精准医疗中的应用 5.案例:广告系统的定向投放 6.更多案例:飞常准、大姨妈 7.数据获取、传输、储备、管理、展示、应用 8.算法:降维、分类、聚类、预测、推荐 |
大数据基础技术综述(1.5 hr) | 1.完整的基础架构(infrastructure)实例综述 2.常见存储架构,mysql、mongodb、hdfs 3.传输,kafka 4.Hadoop & Map-Reduce 5.Hive、Hbase 6.更高时效性的查询,spark、es 7.数据挖掘,weka 8.数据管理,权限控制 |
数据安全攻与防(0.5 hr) | 1.权限控制 2.数据使用行为督查 3.常用反作弊逻辑 4.反作弊逻辑的嗅探与突破方法 5.数据泄漏追踪 6.技术之外的手段(产品、商务、法务) |
大数据的测试挑战(0.5 hr) | 1.大型架构的复杂性挑战 2.数据延迟 3.上游变更 4.小量罕见异常 5.数据流与跨部门协作 6.数据评估(典型 non-test-oracle 问题)案例 |
围绕数据流开展的常见质量体系(1.5 hr) | 1.线下小流量环境 2.数据模糊,异常数据构建 3.数据剖析与规则抽取 4.大流量线下模拟 5.跨部门联调 6.上线、线上排查 7.线上持续监控(monitor) 8.线上持续测试实施(test after release) 9.回滚方案、数据流截断方案 |
数据质量的定义、方法、工具与实施(1 hr) | 1.工具原理 2.应用场景 3.规则收集与建设 4.数据波动与一致性 5.监控闭环实施与推进 6.能力开放 |
相关的测试技术专题(1 hr) | 1.报表(BI)类测试与验证方法 2.数据评估的一般思路 3.大型复杂系统的强化验证手段 4.性能测试的方法、难点、挑战 |
大数据技术在质量保障的应用(1 hr) | 1.缺陷率预测 2.舆情与质量分析 3.AB Test 4.数据标注与数据样例获取 |