在我们做大数据分析或者数据挖掘时肯定要借助一些分析方法来得到我们想要的结果,我们根据PPT的内容主要介绍几种主要的分析方法,具体内容:
1.1 分类与回归
1.2 聚类分析
1.3 关联分析
1.4 时序模型
1.5 遗传算法
2 数据分析工具
每一种分析方法都有整理好的案例介绍(在传送链接里,附python实现代码),先马后看。
1、分析方法
提起数据分析,大家往往会联想到一些密密麻麻的数字表格,或是高级的数据建模手法,再或是华丽的数据报表。其实,“ 分析 ”是每个人都具备的能力;比如预订酒店时,我们会比对多家的价格,地理位置等信息后做出最终选择。
这些小型决策,其实都是依照我们脑海中的数据点作出判断,这就是简单分析的过程。对于分析师来说,则需要掌握一套系统的、科学的、符合商业规律的数据分析知识。
几种主要的分析方法汇总如下:
1.1、分类与回归
分类模型和回归模型本质一样,分类模型是将回归模型的输出离散化。
"talk is cheap, show you the code"
一定不能少的三个模型:
逻辑回归,决策树,支持向量机
逻辑回归
Logistic 回归算法基于 Sigmoid 函数,或者说 Sigmoid 就是逻辑回归函数。
其函数曲线如下:
逻辑回归(Logistic Regression)是一种用于解决二分类(0 or 1)问题的机器学习方法,用于估计某种事物的可能性。比如某信用卡用户发生逾期的可能性。
决策树
决策树对于单调的特征变换是”indifferent”的,也就是说特征的单调变换对于决策树来说不会产生任何影响.优势:
直观的决策过程
能够处理非线性特征
考虑了特征相关性
支持向量机
SVM最大的好处就是它只依赖于处于分类边界的样本来构建分类面,可以处理非线性的特征,优势:
可以处理高维特征
使用核函数轻松应对非线的性特征空间
分类面不依赖于所有数据
逻辑回归,决策树,支持向量机三个模型的详细介绍:
https://blog.csdn.net/oliverkehl/article/details/50129999
1.2、聚类分析
聚类分析的一个重要用途就是针对目标群体进行多指标的群体划分,类似这种目标群体的分类就是精细化经营,个性化运营的基础和核心,只有进行了正确的分类,才可以有效进行个性化和精细化的运营,服务及产品支持等。
聚类分析是一种定量方法,从数据分析的角度看,它是对多个样本进行定量分析的多元统计分析方法,可以分为两种:
对样本进行分类称为Q型聚类分析
对指标进行分类称为R型聚类分析
从数据挖掘的角度看,又可以大致分为四种:
划分聚类
层次聚类
基于密度的聚类
基于网格的聚类
无论是从那个角度看,其基本原则都是:
最小化簇间的相似性,最大化簇内的相似性。
常见业务应用场景如下
用户分群
产品分类
异常检测
下面这篇文章对这些都有非常详细的解释:
https://blog.csdn.net/qq_39422642/article/details/78821812
1.3、关联分析
关联分析又称关联挖掘,就是在交易数据、关系数据或其他信息载体中,查找存在于项目集合或对象集合之间的频繁模式、关联、相关性或因果结构。
简单说就是找出事件间的联系或依赖,通过关联分析找出数据集合中隐藏的关系网络,例如大家都听过的啤酒和尿布的故事。
关联分析几个常见的场景:
市场组合分析
套装产品分析
目录设计
交叉销售
1.4、时序模型
时序分析是以分析时间序列的发展过程、方向和趋势,预测将来时域可能达到的目标的方法。此方法运用概率统计中时间序列分析原理和技术,利用时序系统的数据相关性,建立相应的数学模型,描述系统的时序状态,以预测未来。
1.5、神经网络
神经网络应用在分类问题中效果很好。工业界中分类问题居多。LR或者linear SVM更适用线性分类。如果数据非线性可分(现实生活中多是非线性的),LR通常需要靠特征工程做特征映射,增加高斯项或者组合项;SVM需要选择核。而增加高斯项、组合项会产生很多没有用的维度,增加计算量。GBDT可以使用弱的线性分类器组合成强分类器,但维度很高时效果可能并不好。而神经网络在三层及以上时,能够很好地进行非线性可分。
2、数据分析工具
下图是原PPT给出的一些分析工具:
很多是我们在学生时代肯定会接触到的工具,但是我想说
“Life is short, use Python”
所以上述的分析模型分实现方式里都有python代码。
大数据培训:http://www.baizhiedu.com/bigdata2019