课程简介
数据建模作为连接数据与洞察的桥梁,其核心价值在于能够揭示数据背后的隐藏规律,预测未来趋势,优化决策过程,从而为企业和社会带来显著的竞争优势和经济效益。通过构建精确的数据模型,企业可以更有效地识别市场机会、控制风险、提升运营效率,并在竞争中占据先机。
Python,凭借其强大的数据处理能力、丰富的数据分析库以及灵活易用的特性,成为了数据建模与模型优化的理想选择。这些特性使得Python能够处理大规模数据集,快速迭代模型,并通过调整模型参数、选择最优特征、应用正则化技术等手段,实现模型性能的显著提升。
本课程主要讲解如何利用Python进行时间序列的数据建模,从实际的业务需求出发,结合行业的典型应用特点,全面介绍了数据预测建模的整个过程,包括模型选择、属性筛选、模型训练、模型评估以及模型优化等环节。同时,辅以大量的操作演练,帮助学员构建系统全面的预测建模思维,提升学员的数据建模综合能力。
课程收益
1、掌握数据建模的标准流程。
2、掌握时序预测建模的基本思想,理解因素分解的思路。
3、掌握常用的趋势拟合模型。
4、掌握常用的季节预测模型,能够进行季节周期性的时序建模。
5、深刻理念平稳序列的概念,以及平稳性检验。
6、掌握平稳序列的模型识别,以及模型定阶。
7、掌握时序预测模型的评估,以及优化。
8、掌握高级时序模型的训练与建模。
受众人群
数据分析部、IT开发部、业务支撑部、运营分析部等相关技术人员。
课程周期
2天(12H)
课程大纲
标题 | 授课内容 |
一、预测建模基础 | 1. 数据建模六步法 (1) 选择模型:基于业务选择恰当的数据模型 (2) 属性筛选:选择对目标变量有显著影响的属性来建模 (3) 训练模型:采用合适的算法,寻找到最合适的模型参数 (4) 评估模型:进行评估模型的质量,判断模型是否可用 (5) 优化模型:如果评估结果不理想,则需要对模型进行优化 (6) 应用模型:如果评估结果满足要求,则可应用模型于业务场景 2. 数据挖掘常用的模型 (1) 数值预测模型:回归预测、时序预测等 (2) 分类预测模型:逻辑回归、决策树、神经网络、支持向量机等 (3) 市场细分:聚类、RFM、PCA等 (4) 产品推荐:关联分析、协同过滤等 (5) 产品优化:回归、随机效用等 (6) 产品定价:定价策略/最优定价等 3. 属性筛选/特征选择/变量降维 (1) 基于变量本身特征 (2) 基于相关性判断 (3) 因子合并(PCA等) (4) IV值筛选(评分卡使用) (5) 基于信息增益判断(决策树使用) 4. 训练模型及实现算法 (1) 模型原理 (2) 算法实现 5. 评估模型 (1) 评估指标 (2) 评估方法 (3) 残差评估 6. 模型优化 (1) 优化模型:选择新模型/修改模型 (2) 优化数据:新增显著自变量 (3) 优化公式:采用新的计算公式 7. 模型应用 (1) 模型解读 (2) 模型保存/加载 (3) 模型应用/预测 8. 好模型是优化出来的 |
二、时序模型基础 | 问题:无法找到影响因素,无法回归建模,怎么办?随着业务受季节性因素影响,未来的销量如何预测? 1. 回归预测vs时序预测 2. 时序预测的原理及应用场景 3. 常见时序预测模型 (1) 趋势类预测模型 (2) 季节类预测模型 (3) 平稳时序预测模型 (4) 其它高级模型 4. 时序建模的基本思想:因素分解思想 5. 时间序列的四个构成要素 (1) 长期趋势Trend (2) 季节变动Seasonality (3) 循环变动Circle (4) 不规则变动Irregular 6. 季节性的3种模式 (1) 确定的季节性 (2) 随机平稳的季节性 (3) 随机非平稳的季节性 7. 季节性的检验 (1) 测量季节强度 (2) 检测非平稳季节性 (3) 相关性检验 (4) 自相关/偏相关分析 8. 时间序列分解 案例:时间序列的季节分解 |
三、时序模型评估 | 1. 拟合程度指标 (1) 判定系数: 2. 误差评估指标 (1) 平均绝对误差:MAE (2) 根均方差:RMSE (3) 平均误差率:MAPE 3. 信息损失准则指标 (1) 赤池信息准则(Akaike Information Criterion,AIC) (2) 贝叶斯信息准则(Bayesian Information Criterion,BIC) (3) HQIC(Hannan-Quinn Information Criterion,HQIC) 4. 评估方法 (1) 滚动交叉验证法(cross validation) 5. 其它评估 (1) 残差评估:白噪声评估 |
四、趋势预测模型 | 问题:无法找到影响因素,无法回归建模,怎么办?随着业务受季节性因素影响,未来的销量如何预测? 1. 移动平均 (1) 应用场景及原理 (2) 理解滑动窗口 (3) 移动平均种类 ① 一次移动平均 ② 二次移动平均 ③ 加权移动平均 ④ 移动平均比率法 (4) 移动平均关键问题 ① 最佳期数N的选择原则 ② 最优权重系数的选取原则 演练:销售额预测模型及评估 演练:快销产品季节销量预测及评估 2. 指数平滑 (1) 应用场景及原理 (2) 最优平滑系数的选取原则 (3) 指数平滑种类 ① 一次指数平滑 ② 二次指数平滑(Brown线性) ③ 三次指数平滑 演练:煤炭产量预测 3. Holt趋势模型(亦称二次指数平滑) (1) Holt线性模型 (2) Holt指数模型 (3) 阻尼线性趋势 (4) 阻尼指数趋势 |
五、季节预测模型 | 1. 因素分解法 (1) 移动平均差值法 (2) 移动平均比率法 2. Holt-Winters季节模型:HW加法、HW乘法、HW指数 (1) 适用场景 (2) 计算公式 (3) 超参优化 (4) 模型解读 案例:航空飞行里程预测模型 案例:汽车销量预测模型 案例:沃尔玛收益预测模型 3. 基于回归的季节模型:相加模型、相乘模型 (1) 模型参数、模型解读 |
六、平稳序列模型 | 1. 平稳序列预测模型简介 2. 序列平稳性概念 (1) 恒定的均值 (2) 恒定的标准差 (3) 与位置无关的协方差 3. 序列平稳性检验 (1) 折线图法 (2) ACF/PACF图 (3) ADF检测法 4. 特殊平稳序列:白噪声 案例:序列平稳性检验 案例:白噪声检验 5. 平稳序列常用拟合模型 (1) AR(p)自回归模型 (2) MA(q)移动平均模型 (3) ARMA(p,q)自回归移动平均模型 6. 模型识别 (1) ACF图 (2) PACF图 7. 模型定阶 (1) 图形定阶(ACF/PACF) (2) 最小信息准则定阶 8. 非平稳序列处理 (1) 平滑法 (2) 变量变换 (3) 差分运算:k步差分与d阶差分 9. ARIMA(p,d,q)建模流程 案例:上海证券交易所收盘价建模 10. SARIMA(p,d,q)(P,D,Q,S)模型 (1) 图形确定阶数 (2) 遍历确定阶数 11. 时序模型总结 |
七、机器学习时序模型 | 1. Prophet模型介绍 (1) 趋势拟合 (2) 季节性预测 (3) 节假日和特殊事件的影响 (4) 离群值分析 案例:销售额时序预测模型 2. NeuralProphet模型 3. GBDT集成模型 4. XGBoost模型 5. LightGBM模型 |
八、深度学习时序模型 | 1. LSTM模型简介 (1) 数据集构造 (2) 形状构造 (3) 滚动预测 案例:广告点击量时序建模 2. seq2seq框架 3. Transform模型 结束:课程总结与问题答疑。 |
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员
Ian Fu
百林哲咨询(北京)有限公司专家团队成员