Python+Spark数据挖掘实战培训

Gavin Liu 查看讲师

百林哲咨询（北京）有限公司专家团队成员

大数据架构师，擅长 MR 开发，基于 MR 的算法开发， Hive、 Hbase、 spark 和 Mahout 的实战和成功使用案例。

浏览：5418次

详情 DETAILS

简介

本课程是关于Python+Spark与深度学习实战的一门课程。本课程讲解Python+Spark中各种概念、操作和使用方法，针对Python+Spark的基础知识，在传统数据分析中应用、CNN和RNN都进行详细讲解，并且给出了丰富的深度学习模型实战

目标

1.学员们能够在短时间内掌握深度学习原理；

2.学会使用Python+Spark构建深度学习网络的技巧和方法；

3.能够在图像识别、序列预测等深度学习项目上迅速入手。

课程时长

3天（18H）

受众人群

本课程适合从事数据分析、数据挖掘、大数据分析师和算法工程师等相关方面工作的学员。

分享提纲

第一天	一、数据挖掘入门介绍	1.1人工智能概述 1.2什么是机器学习 1.3机器学习算法分类 1.4机器学习开发流程 1.5学习框架和资料介绍 1.6可用数据集 1.7sklearn数据集使用
	二、数据挖掘介绍	2.1数据挖掘技术介绍 2.2数据挖掘应用场景介绍 2.3数据挖掘常用的算法介绍 2.4数据挖掘应用架构 2.5数据挖掘流程CRISP-DM模型介绍 2.6数据挖掘流程方法论介绍
	三、数据特征工程构建	3.1 数据特征工程构建方法论 3.2字典特征抽取 3.3文本特征抽取CountVectorizer 3.4中文文本特征抽取 3.5文本特征抽取TfidfVevtorizer 3.6数据预处理-归一化 3.7数据预处理-标准化 3.8什么是降维 3.9删除低方差特征与相关系数 3.10instacart降维案例 3.11主成分分析
	四、核心数据挖掘算法详解和实战	4.1转换器与预估器 4.2KNN算法 4.3模型选择与调优 4.4朴素贝叶斯算法对文本分类 4.5朴素贝叶斯算法原理 4.6认识决策树 4.7决策树算法对鸢尾花分类 4.8泰坦尼克号乘客分类案例流程分析 4.9泰坦尼克号案例代码实现 4.10随机森林算法原理和调优
第二天	五、模型优化实战	5.1损失函数 5.2线性模型 5.3优化方法1-正规方程 5.4梯度下降优化器 5.5正规方程与梯度下降对比 5.6优化方法2-梯度下降 5.7逻辑回归原理 5.8岭回归 5.9过拟合与欠拟合 5.10模型保存与加载 5.11ROC曲线与AUC指标 5.12精确率、召回率、F1-score 5.13逻辑回归分类案例实战 5.14聚类的模型评估 5.15KMeans算法原理
第二天	六、Spark使用实战	6.1Spark的编程模型 6.2Spark编程模型解析 6.3Partition实现机制 6.4RDD的特点、操作、依赖关系 6.5Transformation RDD详解 6.6Action RDD详解 6.7Spark的累加器详解 6.8Spark的广播变量详解 6.9Spark容错机制 6.10lineage和checkpoint详解 6.11Spark的运行方式 6.12Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 6.13Spark3.0的新特性 6.14Spark DataFrame和DateSet介绍
第三天	七、Spark SQL原理和实践	7.1Spark SQL原理 7.2Spark SQL的Catalyst优化器 7.3Spark SQL内核 7.4Spark SQL和Hive 7.4DataFrame和DataSet架构 7.5Fataframe、DataSet和Spark SQL的比较 7.6SparkSQL parquet格式实战 7.7Spark SQL的实例和编程 7.8Spark SQL的实例操作demo 7.9Spark SQL的编程
第三天	八、 Python+Spark数据挖掘实战	8.1PySpark的原理和安装 8.2PySpark特征工程构建 8.3基于PySpark实战决策树、贝叶斯、随机森林、聚类等 8.4PySpark的优化