大数据建模大赛实战辅导
Ian Fu 查看讲师
百林哲咨询(北京)有限公司专家团队成员
曾任华为技术专家,五篇技术专利,工作期间获得华为数项奖项,曾在英国、日本、荷兰等国家做项目,对大数据有深入的研究。
浏览:1170次
详情 DETAILS

课程简介

大数据据建模与分析挖掘技术已经逐步地应用到新兴互联网企业(如电子商务网站、搜索引擎、社交网站、互联网广告服务提供商等)、银行金融证券企业、电信运营等行业,给这些行业带来了一定的数据价值 增值作用。

本课程专注于大数据建模课程,面向数据分析部等专门负责数据分析与建模的人士。主要内容包括数据建模的过程和步骤,以及建模涉及到的分析方法、分析模型,以及模型优化等。

本课程从实际的业务需求出发,对数据分析及数据挖掘技术进行了全面的介绍,通过大量的操作演练,帮助学员掌握数据分析和数据挖掘的思路、方法、工具,从大量的企业经营数据中进行分析,发现业务运作规律,进行客户洞察,挖掘客户行为特点,消费行为,实现精准营销,帮助运营团队深入理解业务运作,以达到提升学员的数据综合分析能力,支撑运营决策的目的。 

课程收益

1、熟悉大赛常用集成模型

2、掌握模型优化常用措施,掌握超参优化策略

3、掌握特征工程处理,以及对模型质量的影响

4、掌握建模工程管道类(Pipeline, ColumnTransformer)的使用 

受众人群

参加大数据建模大赛的IT专业人士。

要求精通Python语言,熟悉sklearn库的基本使用等。

课程周期

2天(12小时)

课程大纲

主题

内容

一、常用集成模型

问题:数据建模的基本步骤是什么?每一步要重点考虑哪些知识和技能?

1、 数据建模六步法

Ø 选择模型:基于业务选择恰当的数据模型

Ø 特征工程:选择对目标变量有显著影响的属性来建模

Ø 训练模型:采用合适的算法,寻找到最合适的模型参数

Ø 评估模型:进行评估模型的质量,判断模型是否可用

Ø 优化模型:如果评估结果不理想,则需要对模型进行优化

Ø 应用模型:如果评估结果满足要求,则可应用模型于业务场景

2、 模型集成思想

Ø Bagging

Ø Boosting

Ø Stacking

3、 竞赛常用的集成模型

Ø RandomForest

Ø Adaboosting/GBDT/XGBoost

4、 各模型的原理及适用场景

二、数据清洗技巧

1、 数据清洗处理

Ø 重复值

Ø 错误值

Ø 离群值

Ø 缺失值

2、 缺失值填充的常见方式

Ø 固定值填充

Ø 同类别均值填充

Ø 相邻值填充(向下/向上填充)

Ø 两点插值(相邻值均值填充)

Ø 拉格朗日插值

Ø 预测方法填充

3、 不同填充方式对模型效果的影响

案例:泰坦尼克号沉船幸存者预测

三、特征选择模式

1、 降维的两大方式:特征选择与因子合并

2、 特征选择的三种模式

3、 基于变量本身的重要性筛选

Ø 缺失值所占比例过大

Ø 标准差/变异系数过小(VarianceThreshold)

Ø 类别值比值失衡严重

Ø 类别值与样本量比例过大

4、 Filter式(特征选择与模型分离)

Ø 常用评估指标(相关系数/显著性/互信息等)

Ø f_regression, f_classif, chi2,

Ø mutual_info_regression, mutual_info_classif

案例:运营商流失预测的特征选择

5、 Wrapper式(利用模型结果进行特征选择

Ø Sklearn实现(RFE/RFECV-Recursive Feature Elimination)

6、 Embedded式(模型自带特征选择功能)

Ø L1正则项(Lasso/ElasticNet)

Ø 信息增益(决策树)

Ø Sklearn实现(SelectFromModel)

7、 不同模式的优缺点及应用场景

8、 特征选择的变量个数

四、特征合并方法

1、 特征合并与特征选择

2、 因子分析(FactorAnalysis)

Ø FA原理及思想

Ø 载荷矩阵相关概念(变量共同度/方差贡献率)

Ø 如何确定降维的因子个数

3、 主成份分析(Principal Component Analysis)

Ø PCA原理

Ø PCA的几何意义

案例:汽车油效预测

五、第五部分:变量变换影响

1、 为何需要变换变换

Ø 假设条件需求,可比性需要,同权重需要

2、 因变量变换对模型质量的影响

案例:波士顿房价预测

3、 特征标准化

Ø 标准化的作用: 缩小,消除/统一量纲

Ø 常用标准化方法:MinMaxScaler, StandardScaler,…

Ø 不同模型对标准化的要求

Ø 不同标准化对模型的影响

案例:医院肿瘤预测

4、 其它变换:正态化、正则化

5、 变量派生:多项式等

案例:用户收入预测

6、 管道实现,简化代码

Ø 管道类Pipeline

Ø 列转换类ColumnTransformer

Ø 特征合并类FeatureUnion

六、第六部分:XGBoost模型详解及优化

1、 基本参数配置

Ø 框架基本参数: n_estimators, objective

Ø 性能相关参数: learning_rate

Ø 模型复杂度参数:max_depth,min_child_weight,gamma

Ø 生长策略参数: grow_policy, tree_method, max_bin

Ø 随机性参数:subsample,colsample_bytree

Ø 正则项参数:reg_alpha,reg_lambda

Ø 样本不均衡参数: scale_pos_weight

2、 早期停止与基类个数优化(n_estimators、early_stopping_rounds)

3、 样本不平衡处理

Ø 欠抽样与过抽样

Ø scale_pos_weight= neg_num/pos_num

4、 XGBoost模型欠拟合优化措施

Ø 增维,派生新特征

a. 非线性检验

b. 相互作用检验

Ø 降噪,剔除噪声数据

a. 剔除不显著影响因素

b. 剔除预测离群值(仅回归)

c. 多重共线性检验(仅回归)

Ø 变量变换

a. 自变量标准化

b. 残差项检验与因变量变换

Ø 增加树的深度与复杂度

a. 增大max_depth

b. 减小min_child_weight, gamma等

Ø 禁止正则项生效

5、 特征重要性评估与自动特征选择

6、 超参优化策略:

Ø 分组调参:参数分组分别调优

Ø 分层调参:先粗调再细调

7、 XGBoost模型过拟合优化措施

Ø 降维,减少特征数量

Ø 限制树的深度和复杂度

a. 减小max_depth

b. 增大min_child_weight,gamma等

Ø 采用dart模型来控制过拟合(引入dropout技术)

Ø 启用正则项惩罚:reg_alpha,reg_lambda等

Ø 启用随机采样:subsample,colsample_bytree等

8、 Stacking模式:XGBoost+LR、XGBoost+RF等

9、 XGBoost的优化模型:LightGBM

七、实战训练篇

1、 互联网广告判断模型

2、 客户流失预测模型

3、 直销响应模型

结束:课程总结问题答疑


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1