简介
本课程是关于Python+Spark与深度学习实战的一门课程。本课程讲解Python+Spark中各种概念、操作和使用方法,针对Python+Spark的基础知识,在传统数据分析中应用、CNN和RNN都进行详细讲解,并且给出了丰富的深度学习模型实战
目标
1.学员们能够在短时间内掌握深度学习原理;
2.学会使用Python+Spark构建深度学习网络的技巧和方法;
3.能够在图像识别、序列预测等深度学习项目上迅速入手。
课程时长
3天(18H)
受众人群
本课程适合从事数据分析、数据挖掘、大数据分析师和算法工程师等相关方面工作的学员。
分享提纲
第一天 | 一、数据挖掘入门介绍 | 1.1人工智能概述 1.2什么是机器学习 1.3机器学习算法分类 1.4机器学习开发流程 1.5学习框架和资料介绍 1.6可用数据集 1.7sklearn数据集使用 |
二、数据挖掘介绍 | 2.1数据挖掘技术介绍 2.2数据挖掘应用场景介绍 2.3数据挖掘常用的算法介绍 2.4数据挖掘应用架构 2.5数据挖掘流程CRISP-DM模型介绍 2.6数据挖掘流程方法论介绍 | |
三、数据特征工程构建 | 3.1 数据特征工程构建方法论 3.2字典特征抽取 3.3文本特征抽取CountVectorizer 3.4中文文本特征抽取 3.5文本特征抽取TfidfVevtorizer 3.6数据预处理-归一化 3.7数据预处理-标准化 3.8什么是降维 3.9删除低方差特征与相关系数 3.10instacart降维案例 3.11主成分分析 | |
四、核心数据挖掘算法详解和实战 | 4.1转换器与预估器 4.2KNN算法 4.3模型选择与调优 4.4朴素贝叶斯算法对文本分类 4.5朴素贝叶斯算法原理 4.6认识决策树 4.7决策树算法对鸢尾花分类 4.8泰坦尼克号乘客分类案例流程分析 4.9泰坦尼克号案例代码实现 4.10随机森林算法原理和调优 | |
第二天 | 五、模型优化实战 | 5.1损失函数 5.2线性模型 5.3优化方法1-正规方程 5.4梯度下降优化器 5.5正规方程与梯度下降对比 5.6优化方法2-梯度下降 5.7逻辑回归原理 5.8岭回归 5.9过拟合与欠拟合 5.10模型保存与加载 5.11ROC曲线与AUC指标 5.12精确率、召回率、F1-score 5.13逻辑回归分类案例实战 5.14聚类的模型评估 5.15KMeans算法原理 |
六、Spark使用实战 | 6.1Spark的编程模型 6.2Spark编程模型解析 6.3Partition实现机制 6.4RDD的特点、操作、依赖关系 6.5Transformation RDD详解 6.6Action RDD详解 6.7Spark的累加器详解 6.8Spark的广播变量详解 6.9Spark容错机制 6.10lineage和checkpoint详解 6.11Spark的运行方式 6.12Spark的Shuffle原理详解 —Sort-Based原理 —Hash-Based原理 6.13Spark3.0的新特性 6.14Spark DataFrame和DateSet介绍 | |
第三天 | 七、Spark SQL原理和实践 | 7.1Spark SQL原理 7.2Spark SQL的Catalyst优化器 7.3Spark SQL内核 7.4Spark SQL和Hive 7.4DataFrame和DataSet架构 7.5Fataframe、DataSet和Spark SQL的比较 7.6SparkSQL parquet格式实战 7.7Spark SQL的实例和编程 7.8Spark SQL的实例操作demo 7.9Spark SQL的编程 |
八、 Python+Spark数据挖掘实战 | 8.1PySpark的原理和安装 8.2PySpark特征工程构建 8.3基于PySpark实战决策树、贝叶斯、随机森林、聚类等 8.4PySpark的优化 |
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员
Gavin Liu
百林哲咨询(北京)有限公司专家团队成员