简介
在互联网企业,在分析端使用闭源的商用软件几乎是不可能的,因为成本太高,不管是使用,还是研发及维护。 对于互联网企业来说,数据虽然获取更容易,但环境更为复杂。开源软件可以根据业务的变化 进行调整,但商业的闭源软件则很难做到。
对于数据分析人员,合适的工具匹配合适的数据则是是否胜任工作的 基本素质之一。R并不是通吃所有的数据场景,它只是在出现在该出现的分析建模环节。从最底层的原始数据来看,PB级数据确实不是R所擅长,但这些数据有Hadoop或者其他高性能存储和处理系统;向上是针对于不同业务场景的数据集市,经过清洗后,数据的规模则下降到了TB级;再向上则是针对于特定任务的分析和挖掘模块,数据已经被整理到了GB级,R分析的结果则是MB级的输出,比如图表、得分,或者是规则。这些是在数据集做并行化计算的关键过程。
目标
1、文本数据挖掘为企业管理者制定战略决策提供数据依据;
2、使学员彻底理解文本数据挖掘的概念、技术、思维模式;
3、使学员具备数据收集、文本数据挖掘、信息提取的能力;
4、使学员具备绘制数据可视化图形的能力;
5、使学员具备利用图形辅助思考的能力。
课程时长
3天(18H)
受众人群
1、本课程适合于想通过数据化决策制定企业战略的决策者;
2、适合于经常需要汇报工作的管理者;
3、对数据可视化分析、数据可视化展现等感兴趣的人士;
4、对数据分析、数据挖掘算法等感兴趣的人士;
5、对R语言感兴趣的数据分析人士;
分享提纲
第一天 | 第1个主题:R语言简介(R语言工具介绍) | 1、R语言历史与趋势剖析 2、安装R语言 3、RStudio使用 4、工作空间的设置 5、R程序包的载入与使用 6、R资源网上查找方法介绍 |
第2个主题:R语言语法介绍(R语言基础语法介绍) | 1、R语言的数据类型介绍 2、R语言的数据结构介绍 3、数据的读入和输出 4、R语言连接RDBMS数据库介绍 5、数据库的读/写 6、R和SQL的交互 7、循环语句 8、条件语句 9、遍历 10、常用函数 11、常用算法 12、定性变量 13、离散变量 14、连续变量 15、多元变量 16、对向量、矩阵和列表进行运算 17、提取和插入元素 18、日期和时间数据的操作处理 19、编写自定义函数解决复杂问题 20、编程技巧 21、编程案例介绍 | |
第3个主题:R语言的绘图功能介绍(R语言的探索性分析与数据可视化) | 1、绘图函数 2、图形增强函数 3、图形互动函数 4、高级绘图命令 5、散点图 6、柱状图 7、直方图 | |
第4个主题:文本挖掘应用(介绍文本数据挖掘的实际应用场景) | 1、文本结构分析 2、文章分类 3、文章摘要 4、文章聚类 5、相似文章推荐 6、NLP自然语言处理 7、命名实体识别 8、案例分析 | |
第二天 | 第5个主题:R语言数据预处理(R语言的数据的读取、清洗和转换) | 1、数据预处理 2、日期和时间的处理 3、因子变量的操作 4、下标数据整理技术 5、字符串操作 6、数据子集的筛选 7、识别重复数据和缺失值处理 8、函数映射数据转换整理技术 9、变量的重新编码 10、plyr、reshape2等包整理数据 |
第6个主题: R语言统计模拟与随机抽样(R语言的算法介绍) | 1、随机数生成 2、蒙特卡洛模拟 3、中心极限定理的模拟 4、线性模型剖析 5、线性模型诊断方法 6、多元选择模型剖析 7、随机抽样 8、案例:蒙特卡罗模拟的应用 | |
第7个主题:竞赛活动内容(介绍竞赛活动题目与要求) | 1、文章分类 2、用户踩赞行为预测 3、相似文章推荐 | |
第8个主题:文本数据挖掘过程(介绍文本数据挖掘的流程) | 1、文本预处理 2、文本挖掘 3、模式与表示 4、模式评估 | |
第9个主题:中文分词技术介绍(介绍文本挖掘的基础中文分词技术) | 1、信息检索 2、倒排索引 3、文本分词 4、停用词 5、词根 6、主要的分词方法 7、基于规则的词性标注 8、自动语义标注 9、中文分词软件包 10、R语言中文分词 11、代码实现中文分词 | |
第10个主题:TF-IDF算法介绍(介绍TF-IDF文章分类算法以及代码实现) | 1、前提假设 2、文章特征词提取 3、词频 4、逆文档频率 5、文章分类 6、案例分享:文章分类 7、模型质量评估 8、查准率 9、查全率 10、模型质量评估案例 11、TF-IDF的不足 12、算法改进 | |
第11个主题:相似文章推荐(通过相似算法向读者推荐文章) | 1、模型表示:特征向量 2、余弦相似度 3、相似文章推荐 4、案例介绍 5、代码实现 | |
第12个主题: Logistic回归预测用户踩赞(通过Logistic回归算法预测踩赞结果) | 1、模型表示:Logistic回归函数 2、Logistic回归介绍 3、案例介绍 4、代码实现 | |
第三天 | 第13个主题:电信行业产品推荐案例(电信行业产品推荐案例介绍) | 1、产品推荐的理论依据 2、产品推荐的价值 3、产品推荐能达到的目的 4、产品推荐的原则 5、产品推荐的相关技术 6、基于产品的常用推荐算法 7、案例:R语言实现电信行业产品推荐 |
第14个主题:互联网公司舆情分析(介绍互联网公司舆情分析方法) | 1、舆情分析两大方法 2、竞争对手监测 3、舆情数据抓取 4、新媒体 5、舆情数据分析模型 6、舆情分析应用价值 a)规避风险 b)侦查竞争 c)了解用户 d)认识自己 e)洞察趋势 f)创造价值 g)舆情监测 h)传播评估 i)舆情报告 7、舆情解决方案服务 | |
第15个主题:电信行业用户分群(介绍电信行业用户分群方法) | 1、客户分群的商业理解 2、客户分群的数据理解 3、客户分群的数据准备 4、客户分群的模型建立 a)分类分析 b)聚类分析 c)预测分析 d)偏差分析 e)关联分析和时序模式 5、基于聚类分析的客户分群 a) k-means算法 b) Gaussian算法 c) Poisson算法 6、客户分群的模型评估 a)群间特征差异是否明显 b)群内特征是否相似 c)分群是否易于管理及是否具有业务指导意义 7、客户分群的模型发布 8、战术分群与目标市场营销 | |
第16个主题:电信行业潜在用户发掘(介绍电信行业潜在用户发掘方法) | 1、什么是潜在客户 2、寻找潜在客户的原则 3、寻找潜在客户的方法 4、潜在客户的评估 5、潜在客户的管理 |
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员
Andrew Yin
百林哲咨询(北京)有限公司专家团队成员