R语言企业级应用与数据挖掘实战
Andrew Yin 查看讲师
百林哲咨询(北京)有限公司专家团队成员
资深大数据专家多年从事大数据、云计算研发工作经验,数学博士,IT从业近二十年,擅长OpenStack、Hadoop、HDFS、HBase、Hive、MapReduce、Zookeeper、等大数据技术和开源框架,曾主导过多个私有云建设项目。
浏览:4945次
详情 DETAILS

简介

在互联网企业,在分析端使用闭源的商用软件几乎是不可能的,因为成本太高,不管是使用,还是研发及维护。 对于互联网企业来说,数据虽然获取更容易,但环境更为复杂。开源软件可以根据业务的变化 进行调整,但商业的闭源软件则很难做到。

对于数据分析人员,合适的工具匹配合适的数据则是是否胜任工作的 基本素质之一。R并不是通吃所有的数据场景,它只是在出现在该出现的分析建模环节。从最底层的原始数据来看,PB级数据确实不是R所擅长,但这些数据有Hadoop或者其他高性能存储和处理系统;向上是针对于不同业务场景的数据集市,经过清洗后,数据的规模则下降到了TB级;再向上则是针对于特定任务的分析和挖掘模块,数据已经被整理到了GB级,R分析的结果则是MB级的输出,比如图表、得分,或者是规则。这些是在数据集做并行化计算的关键过程。

目标

1、文本数据挖掘为企业管理者制定战略决策提供数据依据;

2、使学员彻底理解文本数据挖掘的概念、技术、思维模式;

3、使学员具备数据收集、文本数据挖掘、信息提取的能力;

4、使学员具备绘制数据可视化图形的能力;

5、使学员具备利用图形辅助思考的能力。

课程时长

3天(18H)

受众人群

1、本课程适合于想通过数据化决策制定企业战略的决策者;

2、适合于经常需要汇报工作的管理者;

3、对数据可视化分析、数据可视化展现等感兴趣的人士;

4、对数据分析、数据挖掘算法等感兴趣的人士;

5、对R语言感兴趣的数据分析人士;

分享提纲

第一天第1个主题:R语言简介(R语言工具介绍)

1、R语言历史与趋势剖析

2、安装R语言

3、RStudio使用

4、工作空间的设置

5、R程序包的载入与使用

6、R资源网上查找方法介绍

第2个主题:R语言语法介绍(R语言基础语法介绍)

1、R语言的数据类型介绍

2、R语言的数据结构介绍

3、数据的读入和输出

4、R语言连接RDBMS数据库介绍

5、数据库的读/写

6、R和SQL的交互

7、循环语句

8、条件语句

9、遍历

10、常用函数

11、常用算法

12、定性变量

13、离散变量

14、连续变量

15、多元变量

16、对向量、矩阵和列表进行运算

17、提取和插入元素

18、日期和时间数据的操作处理

19、编写自定义函数解决复杂问题

20、编程技巧

21、编程案例介绍

第3个主题:R语言的绘图功能介绍(R语言的探索性分析与数据可视化)

1、绘图函数

2、图形增强函数

3、图形互动函数

4、高级绘图命令

5、散点图

6、柱状图

7、直方图

第4个主题:文本挖掘应用(介绍文本数据挖掘的实际应用场景)

1、文本结构分析

2、文章分类

3、文章摘要

4、文章聚类

5、相似文章推荐

6、NLP自然语言处理

7、命名实体识别

8、案例分析

第二天第5个主题:R语言数据预处理(R语言的数据的读取、清洗和转换)

1、数据预处理

2、日期和时间的处理

3、因子变量的操作

4、下标数据整理技术

5、字符串操作

6、数据子集的筛选

7、识别重复数据和缺失值处理

8、函数映射数据转换整理技术

9、变量的重新编码

10、plyr、reshape2等包整理数据

第6个主题: R语言统计模拟与随机抽样(R语言的算法介绍)

1、随机数生成

2、蒙特卡洛模拟

3、中心极限定理的模拟

4、线性模型剖析

5、线性模型诊断方法

6、多元选择模型剖析

7、随机抽样

8、案例:蒙特卡罗模拟的应用

第7个主题:竞赛活动内容(介绍竞赛活动题目与要求)

1、文章分类

2、用户踩赞行为预测

3、相似文章推荐

第8个主题:文本数据挖掘过程(介绍文本数据挖掘的流程)

1、文本预处理

2、文本挖掘

3、模式与表示

4、模式评估

第9个主题:中文分词技术介绍(介绍文本挖掘的基础中文分词技术)

1、信息检索

2、倒排索引

3、文本分词

4、停用词

5、词根

6、主要的分词方法

7、基于规则的词性标注

8、自动语义标注

9、中文分词软件包

10、R语言中文分词

11、代码实现中文分词

第10个主题:TF-IDF算法介绍(介绍TF-IDF文章分类算法以及代码实现)

1、前提假设

2、文章特征词提取

3、词频

4、逆文档频率

5、文章分类

6、案例分享:文章分类

7、模型质量评估

8、查准率

9、查全率

10、模型质量评估案例

11、TF-IDF的不足

12、算法改进

第11个主题:相似文章推荐(通过相似算法向读者推荐文章)

1、模型表示:特征向量

2、余弦相似度

3、相似文章推荐

4、案例介绍

5、代码实现

第12个主题: Logistic回归预测用户踩赞(通过Logistic回归算法预测踩赞结果)

1、模型表示:Logistic回归函数

2、Logistic回归介绍

3、案例介绍

4、代码实现

第三天第13个主题:电信行业产品推荐案例(电信行业产品推荐案例介绍)

1、产品推荐的理论依据

2、产品推荐的价值

3、产品推荐能达到的目的

4、产品推荐的原则

5、产品推荐的相关技术

6、基于产品的常用推荐算法

7、案例:R语言实现电信行业产品推荐

第14个主题:互联网公司舆情分析(介绍互联网公司舆情分析方法)

1、舆情分析两大方法

2、竞争对手监测

3、舆情数据抓取

4、新媒体

5、舆情数据分析模型

6、舆情分析应用价值

  a)规避风险

  b)侦查竞争

  c)了解用户

  d)认识自己

  e)洞察趋势

  f)创造价值

  g)舆情监测

  h)传播评估

  i)舆情报告

7、舆情解决方案服务

第15个主题:电信行业用户分群(介绍电信行业用户分群方法)

1、客户分群的商业理解

2、客户分群的数据理解

3、客户分群的数据准备

4、客户分群的模型建立

  a)分类分析

  b)聚类分析

  c)预测分析

  d)偏差分析

  e)关联分析和时序模式

5、基于聚类分析的客户分群

  a) k-means算法

  b) Gaussian算法

  c) Poisson算法

6、客户分群的模型评估

  a)群间特征差异是否明显

  b)群内特征是否相似

  c)分群是否易于管理及是否具有业务指导意义

7、客户分群的模型发布

8、战术分群与目标市场营销

第16个主题:电信行业潜在用户发掘(介绍电信行业潜在用户发掘方法)

1、什么是潜在客户

2、寻找潜在客户的原则

3、寻找潜在客户的方法

4、潜在客户的评估

5、潜在客户的管理





企业服务热线:400-106-2080
电话:18519192882
投诉建议邮箱:venus@bailinzhe.com
合作邮箱:service@bailinzhe.com
总部地址:
北京市-丰台区-汽车博物馆东路6号3号楼1单元902-B73(园区)
全国客户服务中心:
天津市-南开区-桂苑路15号鑫茂集团鑫茂军民园1号楼A座802-803
公众号
百林哲咨询(北京)有限公司 京ICP备2022035414号-1