汝州住房和城乡建设局网站,宁乡网站开发,从做系统找不到以前的网站,一对一视频网站建设http://ihoge.cn/2018/DataMining.html
数据挖掘的9大成熟技术和应用
基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用#xff1a; 1、决策树 2、神经网络 3、回归 4、关联规则 5、聚类 6、贝叶斯分类 7、支持向量机 8、主成分分析 9、假设检验
1 决…http://ihoge.cn/2018/DataMining.html
数据挖掘的9大成熟技术和应用
基于数据挖掘的9大主要成熟技术以及在数据化运营中的主要应用 1、决策树 2、神经网络 3、回归 4、关联规则 5、聚类 6、贝叶斯分类 7、支持向量机 8、主成分分析 9、假设检验
1 决策树
决策树Decision Tree是一种非常成熟的、普遍采用的数据挖掘技术。之所以称为树是因为其建模过程类似一棵树的成长过程即从根部开始到树干到分枝再到细枝末节的分叉最终生长出一片片的树叶。在决策树里所分析的数据样本先是集成为一个树根然后经过层层分枝最终形成若干个结点每个结点代表一个结论。
决策树算法之所以在数据分析挖掘应用中如此流行主要原因在于决策树的构造不需要任何领域的知识很适合探索式的知识发掘并且可以处理高维度的数据。在众多的数据挖掘、统计分析算法中决策树最大的优点在于它所产生的一系列从树根到树枝或树叶的规则可以很容易地被分析师和业务人员理解而且这些典型的规则甚至不用整理或稍加整理就是现成的可以应用的业务优化策略和业务优化路径。另外决策树技术对数据的分布甚至缺失非常宽容不容易受到极值的影响。
目前最常用的3种决策树算法分别是CHAID、CART和ID3包括后来的C4.5乃至C5.0。
CHAID(Chi-square Automatic Interaction Detector)算法的历史较长中文简称为卡方自动相互关系检测。CHAID依据局部最优原则利用卡方检验来选择对因变量最有影响的自变量CHAID应用的前提是因变量为类别型变量Category。
CART(Classification and Regression Tree)算法产生于20世纪80年代中期中文简称为分类与回归树CART的分割逻辑与CHAID相同每一层的划分都是基于对所有自变量的检验和选择上的。但是CART采用的检验标准不是卡方检验而是基尼系数Gini等不纯度的指标。两者最大的区别在于CHAID采用的是局部最优原则即结点之间互不相干一个结点确定了之后下面的生长过程完全在结点内进行。而CART则着眼于总体优化即先让树尽可能地生长然后再回过头来对树进行修剪Prune这一点非常类似统计分析中回归算法里的反向选择Backward Selection。CART所生产的决策树是二分的每个结点只能分出两枝并且在树的生长过程中同一个自变量可以反复使用多次分割这些都是不同于CHAID的特点。另外如果是自变量存在数据缺失Missing的情况CART的处理方式将会是寻找一个替代数据来代替填充缺失值而CHAID则是把缺失数值作为单独的一类数值。
ID3Iterative Dichotomiser算法与CART是同一时期产生的中文简称为迭代的二分器其最大的特点在于自变量的挑选标准是基于信息增益的度量选择具有最高信息增益的属性作为结点的分裂分割属性其结果就是对分割后的结点进行分类所需的信息量最小这也是一种划分纯度的思想。至于之后发展起来的C4.5可以理解为ID3的发展版后继版两者的主要区别在于C4.5采用信息增益率Gain Ratio代替了ID3中的信息增益度量如此替换的主要原因是信息增益度量有个缺点就是倾向于选择具有大量值的属性。这里给个极端的例子对于Member_Id的划分每个Id都是一个最纯的组但是这样的划分没有任何实际意义。而C4.5所采用的信息增益率就可以较好地克服这个缺点它在信息增益的基础上增加了一个分裂信息SplitInformation对其进行规范化约束。
决策树技术在数据化运营中的主要用途体现在作为分类、预测问题的典型支持技术它在用户划分、行为预测、规则梳理等方面具有广泛的应用前景决策树甚至可以作为其他建模技术前期进行变量筛选的一种方法即通过决策树的分割来筛选有效地输入自变量。
2 神经网络
神经网络Neural Network是通过数学算法来模仿人脑思维的它是数据挖掘中机器学习的典型代表。神经网络是人脑的抽象计算模型我们知道人脑中有数以百亿个神经元人脑处理信息的微单元这些神经元之间相互连接使得人的大脑产生精密的逻辑思维。而数据挖掘中的“神经网络”也是由大量并行分布的人工神经元微处理单元组成的它有通过调整连接强度从经验知识中进行学习的能力并可以将这些知识进行应用。
简单来讲“神经网络”就是通过输入多个非线性模型以及不同模型之间的加权互联加权的过程在隐蔽层完成最终得到一个输出模型。其中隐蔽层所包含的就是非线性函数。
目前最主流的“神经网络”算法是反馈传播Backpropagation该算法在多层前向型Multilayer Feed-Forward神经网络上进行学习而多层前向型神经网络又是由一个输入层、一个或多个隐蔽层以及一个输出层组成的“神经网络”的典型结构如图所示。
由于“神经网络”拥有特有的大规模并行结构和信息的并行处理等特点因此它具有良好的自适应性、自组织性和高容错性并且具有较强的学习、记忆和识别功能。目前神经网络已经在信号处理、模式识别、专家系统、预测系统等众多领域中得到广泛的应用。
“神经网络”的主要缺点就是其知识和结果的不可解释性没有人知道隐蔽层里的非线性函数到底是如何处理自变量的“神经网络”应用中的产出物在很多时候让人看不清其中的逻辑关系。但是它的这个缺点并没有影响该技术在数据化运营中的广泛应用甚至可以这样认为正是因为其结果具有不可解释性反而更有可能促使我们发现新的没有认识到的规律和关系。
在利用“神经网络”技术建模的过程中有以下5个因素对模型结果有着重大影响
❑层数。
❑每层中输入变量的数量。
❑联系的种类。
❑联系的程度。
❑转换函数又称激活函数或挤压函数。
“神经网络”技术在数据化运营中的主要用途体现在作为分类、预测问题的重要技术支持在用户划分、行为预测、营销响应等诸多方面具有广泛的应用前景。
3 回归
回归Regression分析包括线性回归Linear Regression这里主要是指多元线性回归和逻辑斯蒂回归Logistic Regression。其中在数据化运营中更多使用的是逻辑斯蒂回归它又包括响应预测、分类划分等内容。
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化其回归公式回归方程就是因变量与自变量关系的数据反映。因变量的变化包括两部分系统性变化与随机变化其中系统性变化是由自变量引起的自变量可以解释的随机变化是不能由自变量解释的通常也称作残值。
在用来估算多元线性回归方程中自变量系数的方法中最常用的是最小二乘法即找出一组对应自变量的相应参数以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
对多元线性回归方程的参数估计是基于下列假设的
❑输入变量是确定的变量不是随机变量而且输入的变量间无线性相关即无共线性。
❑随机误差的期望值总和为零即随机误差与自变量不相关。
❑随机误差呈现正态分布 [1]。
如果不满足上述假设就不能用最小二乘法进行回归系数的估算了。
逻辑斯蒂回归Logistic Regression相比于线性回归来说在数据化运营中有更主流更频繁的应用主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来讲凡是预测“两选一”事件的可能性比如“响应”还是“不响应”“买”还是“不买”“流失”还是“不流失”都可以采用逻辑斯蒂回归方程。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率如果对这个概率进行换算就可以用线性公式描述因变量与自变量的关系了具体公式如下
与多元线性回归所采用的最小二乘法的参数估计方法相对应最大似然法是逻辑斯蒂回归所采用的参数估计方法其原理是找到这样一个参数可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算对计算能力有很高的要求。最大似然法的优点是在大样本数据中参数的估值稳定、偏差小估值方差小。
4 关联规则
关联规则Association Rule是在数据库和数据挖掘领域中被发明并被广泛研究的一种重要模型关联规则数据挖掘的主要目的是找出数据集中的频繁模式Frequent Pattern即多次重复出现的模式和并发关系Cooccurrence Relationships即同时出现的关系频繁和并发关系也称作关联Association。
应用关联规则最经典的案例就是购物篮分析Basket Analysis通过分析顾客购物篮中商品之间的关联可以挖掘顾客的购物习惯从而帮助零售商更好地制定有针对性的营销策略。
以下列举一个简单的关联规则的例子
婴儿尿不湿→啤酒[支持度10%置信度70%]
这个规则表明在所有顾客中有10%的顾客同时购买了婴儿尿不湿和啤酒而在所有购买了婴儿尿不湿的顾客中占70%的人同时还购买了啤酒。发现这个关联规则后超市零售商决定把婴儿尿不湿和啤酒摆放在一起进行促销结果明显提升了销售额这就是发生在沃尔玛超市中“啤酒和尿不湿”的经典营销案例。
上面的案例是否让你对支持度和置信度有了一定的了解事实上支持度Support和置信度Confidence是衡量关联规则强度的两个重要指标它们分别反映着所发现规则的有用性和确定性。其中支持度规则X→Y的支持度是指事物全集中包含X∪Y的事物百分比。支持度主要衡量规则的有用性如果支持度太小则说明相应规则只是偶发事件。在商业实战中偶发事件很可能没有商业价值置信度规则X→Y的置信度是指既包含了X又包含了Y的事物数量占所有包含了X的事物数量的百分比。置信度主要衡量规则的确定性可预测性如果置信度太低那么从X就很难可靠地推断出Y来置信度太低的规则在实践应用中也没有太大用处。
在众多的关联规则数据挖掘算法中最著名的就是Apriori算法该算法具体分为以下两步进行
1生成所有的频繁项目集。一个频繁项目集Frequent Itemset是一个支持度高于最小支持度阀值min-sup的项目集。
2从频繁项目集中生成所有的可信关联规则。这里可信关联规则是指置信度大于最小置信度阀值min-conf的规则。
关联规则算法不但在数值型数据集的分析中有很大用途而且在纯文本文档和网页文件中也有着重要用途。比如发现单词间的并发关系以及Web的使用模式等这些都是Web数据挖掘、搜索及推荐的基础。
5 聚类
聚类Clustering分析有一个通俗的解释和比喻那就是“物以类聚人以群分”。针对几个特定的业务指标可以将观察对象的群体按照相似性和相异性进行不同群组的划分。经过划分后每个群组内部各对象间的相似度会很高而在不同群组之间的对象彼此间将具有很高的相异度。
聚类分析的算法可以分为划分的方法Partitioning Method、层次的方法Hierarchical Method、基于密度的方法Density-based Method、基于网格的方法Grid-based Method、基于模型的方法Model-based Method等其中前面两种方法最为常用。
对于划分的方法Partitioning Method当给定m个对象的数据集以及希望生成的细分群体数量K后即可采用这种方法将这些对象分成K组K≤m使得每个组内对象是相似的而组间的对象是相异的。最常用的划分方法是K-Means方法其具体原理是首先随机选择K个对象并且所选择的每个对象都代表一个组的初始均值或初始的组中心值对剩余的每个对象根据其与各个组初始均值的距离将它们分配给最近的最相似小组然后重新计算每个小组新的均值这个过程不断重复直到所有的对象在K组分布中都找到离自己最近的组。
层次的方法Hierarchical Method则是指依次让最相似的数据对象两两合并这样不断地合并最后就形成了一棵聚类树。
聚类技术在数据分析和数据化运营中的主要用途表现在既可以直接作为模型对观察对象进行群体划分为业务方的精细化运营提供具体的细分依据和相应的运营方案建议又可在数据处理阶段用作数据探索的工具包括发现离群点、孤立点数据降维的手段和方法通过聚类发现数据间的深层次的关系等。
6 贝叶斯分类方法
贝叶斯分类方法Bayesian Classifier是非常成熟的统计学分类方法它主要用来预测类成员间关系的可能性。比如通过一个给定观察值的相关属性来判断其属于一个特定类别的概率。贝叶斯分类方法是基于贝叶斯定理的已经有研究表明朴素贝叶斯分类方法作为一种简单贝叶斯分类算法甚至可以跟决策树和神经网络算法相媲美。
贝叶斯定理的公式如下
其中X表示n个属性的测量描述H为某种假设比如假设某观察值X属于某个特定的类别C对于分类问题希望确定P(H|X)即能通过给定的X的测量描述来得到H成立的概率也就是给出X的属性值计算出该观察值属于类别C的概率。因为P(H|X)是后验概率Posterior Probability所以又称其为在条件X下H的后验概率。
举例来说假设数据属性仅限于用教育背景和收入来描述顾客而X是一位硕士学历收入10万元的顾客。假定H表示假设我们的顾客将购买苹果手机则P(H|X)表示当我们知道顾客的教育背景和收入情况后该顾客将购买苹果手机的概率相反P(X|H)则表示如果已知顾客购买苹果手机则该顾客是硕士学历并且收入10万元的概率而P(X)则是X的先验概率表示顾客中的某个人属于硕士学历且收入10万元的概率P(H)也是先验概率只不过是任意给定顾客将购买苹果手机的概率而不会去管他们的教育背景和收入情况。
从上面的介绍可见相比于先验概率P(H)后验概率P(H|X)基于了更多的信息比如顾客的信息属性而P(H)是独立于X的。
贝叶斯定理是朴素贝叶斯分类法Naive Bayesian Classifier的基础如果给定数据集里有M个分类类别通过朴素贝叶斯分类法可以预测给定观察值是否属于具有最高后验概率的特定类别也就是说朴素贝叶斯分类方法预测X属于类别CiCiC_i时表示当且仅当
P(Ci|X)P(Cj|X)1≤j≤mj≠iP(Ci|X)P(Cj|X)1≤j≤mj≠i
P(C_i|X)>P(C_j|X)1≤j≤m,j≠i 此时如果最大化P(Ci|X)P(Ci|X)P(C_i|X)其P(Ci|X)P(Ci|X)P(C_i|X)最大的类CiCiC_i被称为最大后验假设根据贝叶斯定理可知由于P(X)P(X)P(X)对于所有的类别是均等的因此只需要P(X|Ci)P(Ci)P(X|Ci)P(Ci)P(X|C_i)P(C_i)取最大即可。为了预测一个未知样本XXX的类别,可对每个类别Ci" role="presentation" style="position: relative;">CiCiC_i估算相应的P(X|Ci)P(Ci)P(X|Ci)P(Ci)P(X|C_i)P(C_i)。样本XXX归属于类别Ci" role="presentation" style="position: relative;">CiCiC_i当且仅当
P(Ci|X)P(Cj|X)1≤j≤mj≠iP(Ci|X)P(Cj|X)1≤j≤mj≠i
P(C_i|X)>P(C_j|X)1≤j≤m,j≠i贝叶斯分类方法在数据化运营实践中主要用于分类问题的归类等应用场景。
7 支持向量机
支持向量机Support Vector Machine是Vapnik等人于1995年率先提出的是近年来机器学习研究的一个重大成果。与传统的神经网络技术相比支持向量机不仅结构简单而且各项技术的性能也明显提升因此它成为当今机器学习领域的热点之一。
作为一种新的分类方法支持向量机以结构风险最小为原则。在线性的情况下就在原空间寻找两类样本的最优分类超平面。在非线性的情况下它使用一种非线性的映射将原训练集数据映射到较高的维上。在新的维上它搜索线性最佳分离超平面。使用一个适当的对足够高维的非线性映射两类数据总可以被超平面分开。
支持向量机的基本概念如下
设给定的训练样本集为(x1,y1),(x2,y2),…,(xn,yn)(x1,y1),(x2,y2),…,(xn,yn){(x_1,y_1),(x_2,y_2),…,(x_n,y_n)}其中xi∈Rn,y∈[−1,1]xi∈Rn,y∈[−1,1]x_i∈R_n,y∈[-1,1]。
再假设该训练集可被一个超平面线性划分设该超平面记为(w,x)b0(w,x)b0(w,x)+b=0。
支持向量机的基本思想可用下图的两维情况举例说明。线性可分情况下的最优分类线
图中圆形和方形代表两类样本H为分类线H1、H2分别为过各类样本中离分类线最近的样本并且平行于分类线的直线它们之间的距离叫做分类间隔Margin。所谓的最优分类线就是要求分类线不但能将两类正确分开训练错误为0而且能使分类间隔最大。推广到高维空间最优分类线就成了最优分类面。
其中距离超平面最近的一类向量被称为支持向量Support Vector一组支持向量可以唯一地确定一个超平面。通过学习算法SVM可以自动寻找出那些对分类有较好区分能力的支持向量由此构造出的分类器则可以最大化类与类的间隔因而有较好的适应能力和较高的分类准确率。
支持向量机的缺点是训练数据较大但是它的优点也是很明显的——对于复杂的非线性的决策边界的建模能力高度准确并且也不太容易过拟合 。
支持向量机主要用在预测、分类这样的实际分析需求场景中。
8 主成分分析
严格意义上讲主成分分析Principal Components Analysis属于传统的统计分析技术范畴但是正如本章前面所阐述的统计分析与数据挖掘并没有严格的分割因此在数据挖掘实战应用中也常常会用到这种方式从这个角度讲主成分分析也是数据挖掘商业实战中常用的一种分析技术和数据处理技术。
主成分分析会通过线性组合将多个原始变量合并成若干个主成分这样每个主成分都变成了原始变量的线性组合。这种转变的目的一方面是可以大幅降低原始数据的维度同时也在此过程中发现原始数据属性之间的关系。
主成分分析的主要步骤如下
1通常要先进行各变量的标准化工作标准化的目的是将数据按照比例进行缩放使之落入一个小的区间范围之内从而让不同的变量经过标准化处理后可以有平等的分析和比较基础。
2选择协方差阵或者相关阵计算特征根及对应的特征向量。
3计算方差贡献率并根据方差贡献率的阀值选取合适的主成分个数。
4根据主成分载荷的大小对选择的主成分进行命名。
5根据主成分载荷计算各个主成分的得分。
将主成分进行推广和延伸即成为因子分析Factor Analysis因子分析在综合原始变量信息的基础上将会力图构筑若干个意义较为明确的公因子也就是说采用少数几个因子描述多个指标之间的联系将比较密切的变量归为同一类中每类变量即是一个因子。之所以称其为因子是因为它们实际上是不可测量的只能解释。
主成分分析是因子分析的一个特例两者的区别和联系主要表现在以下方面
❑主成分分析会把主成分表示成各个原始变量的线性组合而因子分析则把原始变量表示成各个因子的线性组合。这个区别最直观也最容易记住。
❑主成分分析的重点在于解释原始变量的总方差而因子分析的重点在于解释原始变量的协方差。
❑在主成分分析中有几个原始变量就有几个主成分而在因子分析中因子个数可以根据业务场景的需要人为指定并且指定的因子数量不同则分析结果也会有差异。
❑在主成分分析中给定的协方差矩阵或者相关矩阵的特征值是唯一时主成分也是唯一的但是在因子分析中因子不是唯一的并且通过旋转可以得到不同的因子。
主成分分析和因子分析在数据化运营实践中主要用于数据处理、降维、变量间关系的探索等方面同时作为统计学里的基本而重要的分析工具和分析方法它们在一些专题分析中也有着广泛的应用。
9 假设检验
假设检验Hypothesis Test是现代统计学的基础和核心之一其主要研究在一定的条件下总体是否具备某些特定特征。
假设检验的基本原理就是小概率事件原理即观测小概率事件在假设成立的情况下是否发生。如果在一次试验中小概率事件发生了那么说明假设在一定的显著性水平下不可靠或者不成立如果在一次试验中小概率事件没有发生那么也只能说明没有足够理由相信假设是错误的但是也并不能说明假设是正确的因为无法收集到所有的证据来证明假设是正确的。
假设检验的结论是在一定的显著性水平下得出的。因此当采用此方法观测事件并下结论时有可能会犯错这些错误主要有两大类
❑第Ⅰ类错误当原假设为真时却否定它而犯的错误即拒绝正确假设的错误也叫弃真错误。犯第Ⅰ类错误的概率记为α通常也叫α错误α1-置信度。
❑第Ⅱ类错误当原假设为假时却肯定它而犯的错误即接受错误假设的错误也叫纳伪错误。犯第Ⅱ类错误的概率记为β通常也叫β错误。
上述这两类错误在其他条件不变的情况下是相反的即α增大时β就减小α减小时β就增大。α错误容易受数据分析人员的控制因此在假设检验中通常会先控制第Ⅰ类错误发生的概率α具体表现为在做假设检验之前先指定一个α的具体数值通常取0.05也可以取0.1或0.001。
在数据化运营的商业实践中假设检验最常用的场景就是用于“运营效果的评估”上。