Python大数据分析与机器学习商业案例实战
Zivvs Wang 查看讲师
百林哲咨询(北京)有限公司专家团队成员
华小智金融科技实验室创始人
浏览:335次
详情 DETAILS

课程简介

随着信息技术的迅猛发展和全球数字化转型的加速推进,大数据已经逐渐渗透并改变了现代企业的运营模式与决策流程,成为企业制定战略、优化管理、驱动创新不可或缺的重要依据。如何高效、准确地从这些数据中提炼出有价值的信息,成为决定企业竞争力的关键因素之一。

机器学习,作为数据挖掘与人工智能领域的一项核心技术,凭借其强大的数据处理能力、模式识别与预测分析能力,不仅极大地提高了业务效率与决策精准度,还推动了产品和服务的创新,为企业带来了显著的竞争优势和经济效益。

本课程从基础的数学原理一步步的讲解机器学习背后的原理,逐行代码解释,快速入门机器学习,不仅掌握基础的机器学习模型:线性回归模型、逻辑回归模型、决策树模型、朴素贝叶斯模型、KNN模型;还将掌握进阶内容:随机森林模型、AdaBoost模型、GBDT模型、XGBoost模型、LightGBM模型、PCA降维、关联分析、推荐系统、神经网络模型等,并结合丰富实战案例,帮助学员熟练掌握大数据分析技术

课程收益

1、帮助学员了解Python基础知识

2、帮助学员掌握机器学习模型及其应用

3、帮助学员学习使用Matplotlib等库进行数据可视化,掌握多种模型评估方法

4、帮助学员学习如何进行数据预处理,掌握特征筛选和降维技术

受众人群

1、系统架构师、系统分析师、高级程序员、资深开发人员。

2、数据分析从业者,希望掌握机器学习作为工具

3、对机器学习感兴趣,想有进一步了解和实践的同学

课程周期

2天(12H

课程大纲

标题

授课内容

一、Python与数据科学

1.1 大数据分析与机器学习概述

1.1.1 大数据分析的原理及目的

1.1.2 机器学习在数据分析中的应用

1.1.3 Python在数据科学中的作用

1.2 Python环境部署

1.2.1 Python安装

1.2.2 Pycharm安装

1.2.3 Jupyter Notebook使用

二、Python基础

2.1 Python基础知识

2.1.1 Python基本操作

2.1.2 数据类型:数字与字符串

2.1.3 数据类型:列表与字典

2.1.4 运算符介绍与实践

2.2 Python语句

2.2.1 if条件语句

2.2.2 for循环语句

2.2.3 while循环语句

2.3 Python函数与模块

2.3.1 函数的基本概念

2.3.2 常用函数介绍

2.3.3 Python模块

2.4 案例实战 - 大数据分词并统计词频

三、数据分析的武器 - Numpy & Pandas库

3.1 Numpy基础

3.1.1 Numpy与数组

3.1.2 创建数组的几种方式

3.2 pandas基础

3.2.1 二维数据表格DataFrame的创建

3.2.2 Excel等文件的读取与写入

3.2.3 数据读取与筛选

3.2.4 数据表拼接

3.3 案例实战1 - 淘宝商品信息汇总

3.4 pandas进阶

3.4.1 重复值、缺失值、异常值处理

3.4.2 通过groupby()函数将数据分组汇总

3.4.3 通过apply()函数和lambda()函数进行批处理

3.5 案例实战2 - 通过pandas计算股票涨跌幅

四、线性回归模型

4.1 一元线性回归

4.1.1 一元线性回归的数学原理

4.1.2 一元线性回归的编程实现

4.1.3 案例实战 - 年龄与收入的线性回归模型

4.2 数据可视化

4.2.1 Matplotlib库基础

4.2.2 通过pandas绘制图形

4.2.3 案例实战 - 线性回顾模型可视化呈现

4.3 多元线性回归

4.3.1 多元线性回归的数学原理

4.3.2 多元线性回归的编程实现

4.3.3 案例实战 - 北京市房价预测模型

4.4 线性回归模型评估

4.5 综合案例 - 银行客户价值预测模型

4.5.1 案例背景:银行客户价值预测意义

4.5.2 数据预处理

4.5.3 模型搭建与评估

五、逻辑回归模型

5.1 逻辑回归算法介绍

5.1.1 逻辑回归的算法原理

5.1.2 逻辑回归的编程实现

5.2 案例实战 - 客户违约预测模型

5.2.1 案例背景

5.2.2 数据预处理

5.2.3 模型搭建

5.3 逻辑回归模型评估

5.3.1 模型评估的多种方法

5.3.2 K-S曲线评估方法

5.3.3 ROC曲线评估方法

5.4 综合案例 - 精准营销模型

5.4.1 案例背景

5.4.2 数据预处理

5.4.3 模型搭建与评估

六、决策树模型

6.1 决策树模型原理介绍

6.1.1 决策树模型简介

6.1.2 决策树模型的建树依据

6.2 案例实战 - 金融反欺诈模型

6.2.1 案例背景

6.2.2 数据预处理

6.2.3 模型搭建与评估

6.3 决策树模型可视化

6.3.1 graphviz插件安装

6.3.2 决策树模型可视化实战

6.3.3 通过图形深入理解决策树模型

6.4 模型优化 - K折交叉验证 & GridSearch网格搜索

6.4.1 参数调优

6.4.2 交叉验证

6.4.3 随机森林模型

6.5 综合案例 - 金融反欺诈模型

6.5.1 案例背景

6.5.2 数据预处理

6.5.3 模型搭建与评估

6.5.4 模型优化

七、分类器:KNN与朴素贝叶斯模型

7.1 KNN最近领域模型

7.1.1 KNN算法原理

7.1.2 KNN算法的Python实现

7.2 案例实战 - 手写字体识别

7.2.1 案例背景

7.2.2 数据预处理

7.2.3 模型搭建

7.2.4 模型预测

7.3 朴素贝叶斯模型

7.3.1 朴素贝叶斯算法原理

7.3.2 朴素贝叶斯算法的Python实现

7.4 案例实战 - 垃圾邮件过滤系统

7.4.1 案例背景

7.4.2 数据预处理

7.4.3 模型搭建

7.4.4 模型预测

八、随机森林模型

8.1 随机森林模型的基本原理和代码实现

8.1.1 集成模型简介

8.1.2 随机森林模型的基本原理

8.1.3 随机森林模型的代码实现

8.2 量化金融 - 股票数据获取

8.2.1 股票基本数据获取

8.2.2 股票衍生变量生成

8.3 量化金融 - 股票涨跌预测模型搭建

8.3.1 多因子模型搭建

8.3.2 模型使用与评估

8.3.3 参数调优

8.3.4 收益回测曲线绘制

九、Adaboost和GBDT集成模型

9.1 AdaBoost算法的原理介绍

9.1.1 AdaBoost算法核心思想

9.1.2 AdaBoost算法数学原理概述

9.1.3 AdaBoost算法数学原理举例

9.1.4 AdaBoost算法的简单代码实现

9.2 案例实战 - AdaBoost信用卡精准营销模型

9.2.1 案例背景

9.2.2 模型搭建

9.2.3 模型预测及评估

9.2.4 模型参数

9.3 GBDT算法的原理介绍

9.3.1 GBDT算法核心思想

9.3.2 GBDT算法数学原理概述

9.3.3 GBDT算法数学原理举例

9.3.4 GBDT算法的简单代码实现

9.4 GBDT案例实战 - 产品定价模型

9.4.1 案例背景

9.4.2 模型搭建

9.4.3 模型预测及评估

9.4.4 模型参数

补充知识点:损失函数

十、Xgboost和Lightgbm集成模型

10.1 XGBoost算法原理

10.1.1 XGBoost算法核心思想

10.1.2 XGBoost算法数学原理概述

10.1.3 XGBoost算法的简单代码实现

10.2  XGBoost算法案例实战1 - 金融反欺诈模型

10.2.1 案例背景

10.2.2 模型搭建

10.2.3 模型预测及评估

10.2.4 模型参数调优

10.3 XGBoost算法案例实战2 - 信用评分模型

10.3.1 案例背景

10.3.2 多元线性回归模型

10.3.3 GBDT回归模型

10.3.4 XGBoost回归模型

10.4 LightGBM算法原理

10.4.1 LightGBM算法核心思想

10.4.2 LightGBM算法数学原理概述

10.4.3 LightGBM算法的简单代码实现

10.5 LightGBM算法案例实战1 - 客户违约预测模型

10.5.1 案例背景

10.5.2 模型搭建

10.5.3 模型预测及评估

10.5.4 模型参数调优

10.6 LightGBM算法案例实战2 - 广告收益回归预测模型

10.6.1 案例背景

10.6.2 模型搭建

10.6.3 模型预测及评估

10.6.4 模型参数调优

十一、特征工程之数据预处理

11.1 非数值类型数据处理

11.1.1 Get_dummies哑变量处理

11.1.2 Label Encoding编号处理

11.2 重复值、缺失值及异常值处理

11.2.1 重复值处理

11.2.2 缺失值处理

11.2.3 异常值处理

11.3 数据标准化

11.3.1 min-max标准化

11.3.2 Z-score标准化

11.4 数据分箱

11.5 特征筛选:WOE值与IV值

11.5.1 WOE值的定义与演示

11.5.2 IV值的定义与演示

11.5.3 WOE值与IV值的代码实现

11.5.4 案例实战:客户流失预警模型的IV值计算

11.6 多重共线性的分析与处理

11.6.1 多重共线性的定义

11.6.2 多重共线性分析与检验

11.7 过采样和欠采样

11.7.1 过采样

11.7.2 欠采样

十二、PCA主成分分析

12.1 数据降维

12.1.1 PCA主成分分析原理介绍

12.1.2 PCA主成分分析代码实现

12.2 案例实战 - 人脸识别模型

12.2.1 案例背景

12.2.2 人脸数据读取、处理与变量提取

12.2.3 数据划分与降维

12.2.4 模型的搭建与使用

12.3 补充知识点:人脸识别外部接口调用

12.3.1 baidu-aip库安装

12.3.2 调用接口,进行人脸识别和打分


企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1