当前位置：首页 > news >正文

智能建站网站wordpress指定目录文章

news 2025/11/15 7:06:34

智能建站网站,wordpress指定目录文章,专业杭州网站建设,沧州市住房和城乡建设局网站文章目录1.请描述推荐系统中协同过滤算法CF的原理2.请描述决策树的原理、过程、终止条件#xff0c;以及如何防止过拟合2.1决策树生成算法2.2 剪枝处理#xff08;防止过拟合#xff09;2.3 停止条件2.4 棵决策树的生成过程2.5 决策树的损失函数3.请描述K-means的原理#… 文章目录1.请描述推荐系统中协同过滤算法CF的原理2.请描述决策树的原理、过程、终止条件以及如何防止过拟合2.1决策树生成算法2.2 剪枝处理防止过拟合2.3 停止条件2.4 棵决策树的生成过程2.5 决策树的损失函数3.请描述K-means的原理说明选择聚类中心的方法3.1 算法流程图3.2 聚类中心初始化问题4.请列举分类模型和回归模型的区别5.请列举生成模型与判别模型的区别6.梯度下降法求解最优化问题的原理与步骤7.请列举Random Forest和GBDT的区别8.什么是欠拟合、过拟合避免过拟合有哪些途径8.1 欠拟合8.2 过拟合9.逻辑回归的目标函数和优化方法10.讲下拟牛顿法10.1 常见的优化方法1.梯度下降法**批量梯度下降法Batch Gradient DescentBGD****随机梯度下降Stochastic Gradient DescentSGD**2.牛顿法3.**拟牛顿法Quasi-Newton Methods**4.共轭梯度法Conjugate Gradient)5.启发式优化方法11.讲下随机森林或者GDBT11.RF、GBDT的区别12.随机森林怎么取最后的结果13.随机森林是怎样避免ID3算法信息增益的缺点的14.为什么deep learning 能抑制梯度消失或者爆炸的问题1.请描述推荐系统中协同过滤算法CF的原理协同过滤算法主要的功能是预测和推荐。通过对用户历史行为数据的挖掘发现用户的偏好基于不同的偏好对用户进行群组划分并推荐品味相似的商品。分为两大类: 一类为基于memory的Memory-based包括基于用户的协同过滤算法user-based collaboratIve filtering 基于物品的协同过滤算法item-based collaborative filtering 两种方法都是将用户的所有数据读入到内存中进行运算的另一类为基于Model的Model-based包括 Aspect ModelpLSALDA聚类SVDMatrix Factorization等这种方法训练过程比较长但是训练完成后推荐过程比较快一般步骤 1.收集数据2.找到相似的用户和物品3.进行推荐简单的说就是人以类聚物以群分。 2.请描述决策树的原理、过程、终止条件以及如何防止过拟合决策树decision tree是一种基本的分类与回归方法主要用于分类。可以看做是if-then规则的集合。优点分类速度快模型具有可读性决策树学习的3个步骤特征选择、决策树生成、决策树修剪决策树算法ID3、C4.5、CART 2.1决策树生成算法熵对平均不确定性的度量 H(X)−∑x−gt;XP(x)logP(x)H(X) -\sum_{x-gt;X}P(x)logP(x)H(X)−∑x−XP(x)logP(x) 平均互信息在得知特征X后使得对标签Y的信息的不确定性减少的程度 I(X,Y)∑x−gt;X,y−gt;YP(X,Y)logP(X,Y)/P(X)P(Y)I(X,Y)\sum_{x-gt;X,y-gt;Y}P(X,Y)logP(X,Y)/P(X)P(Y)I(X,Y)∑x−X,y−YP(X,Y)logP(X,Y)/P(X)P(Y) 决策树的基本思想是以信息熵为度量构造一颗熵值下降最快的树其中叶子节点的熵值为0. ID3、C4.5、CART ID3算法利用信息增益为准则来选择划分属性对取值数目较多的属性有所偏好如西瓜编号属性容易过拟合不具有泛化能力对新样本的预测能力差特征A对于数据集D的信息增益g(D,A) H(D) - H(D|A)C4.5算法利用信息增益率选择属性但并不是直接选择信息增益率最大的候选划分属性而是使用启发式先从候选划分属性中找出信息增益高于平均水平的属性再从中选择增益率最高的(信息增益率gr(D,A) g(D , A) / H(A))CART使用“基尼系数(可以衡量特征和标签之间的差异性)”来选择划分属性从数据集随机抽取两个样本类别标记不一致的概率Gini(D)越小数据集的纯度越高(Gini§ ∑k1KPk(1−Pk)\sum_{k1}^KP_k(1-P_k)∑k1KPk(1−Pk),其中PkP_kPk为第K个类别的概率) 2.2 剪枝处理防止过拟合剪枝是防止过拟合的主要手段有预剪枝、后剪枝预剪枝根据一些原则及早的停止树增长如树的深度达到用户所要的深度节点中的样本个数少于用户指定的个数不存度指标下降的最大幅度小于用户指定的幅度等后剪枝:通过在完全生长的树上剪去分枝实现的通过删除节点的分支来剪去树节点可以使用的后剪枝方法有多种比如代价复杂性剪枝、最小误差剪枝、悲观误差剪枝等等预剪支预剪枝的核心问题是如何事先指定树的最大深度如果设置的最大深度不恰当那么将会导致过于限制树的生长使决策树的表达式规则趋于一般不能更好地对新数据集进行分类和预测。后剪枝后剪枝操作是一个边修剪边检验的过程一般规则标准是在决策树的不断剪枝操作过程中将原样本集合或新数据集合作为测试数据检验决策树对测试数据的预测精度并计算出相应的错误率如果剪掉某个子树后的决策树对测试数据的预测精度或其他测度不降低那么剪掉该子树(贪心算法) 预剪枝、后剪枝总结预剪枝事先指定树的最大深度具有局限性后剪枝边修剪边检验如果修剪后预测精度不下降则减掉 2.3 停止条件没有属性可以分裂直到数据集不可分则停止决策树停止生长 2.4 棵决策树的生成过程特征选择特征选择是指从训练数据中众多的特征中选择一个特征作为当前节点的分裂标准如何选择特征有着很多不同量化评估标准标准从而衍生出不同的决策树算法。决策树生成根据选择的特征评估标准从上至下递归地生成子节点直到数据集不可分则停止决策树停止生长。树结构来说递归结构是最容易理解的方式。剪枝决策树容易过拟合一般来需要剪枝缩小树结构规模、缓解过拟合。剪枝技术有预剪枝和后剪枝两种。 2.5 决策树的损失函数决策树的目的是构建一颗熵最小的树所以决策树的损失函数包括两部分一个部分是衡量这棵树的熵大小的另一个是对树的复杂度约束的正则化项。其中对树熵值的衡量计算是通过计算所有的叶子节点的熵乘以叶子节点的数目作为权重的和正则化项是对每个叶子节点样本数目的一个约束。其中TTT为叶子节点的个数NtN_tNt为第t个叶子节点的样本的数目Ht(T)H_t(T)Ht(T)是第t个叶子节点的经验熵aaa是对叶子节点的总样本数的一个惩罚因子。 3.请描述K-means的原理说明选择聚类中心的方法 K-means是一种聚类算法区别于分类算法属于无监督 K-means的原理是通过多次的迭代使得各个样本点到其所属簇的质心的距离平方和最小。类间距最大 3.1 算法流程图从样本中选取K个点初始化K个簇的质心分别计算各个样本到不同质心的相异度将样本归到相异度最小的质心所属的簇根据聚类结果重新计算质心不断重复上述过程直到精度达到要求。 3.2 聚类中心初始化问题随机选择K个点作为初始的类簇中心点该方法具有很强的不确定性选择批次距离尽可能远的K个点首先随机选择一个点作为第一个初始类簇中心点然后选择距离该点最远的那个点作为第二个初始类簇中心点然后再选择距离前两个点的最近距离最大的点作为第三个初始类簇的中心点以此类推直至选出K个初始类簇中心点。K-means选用层次聚类或者Canopy算法进行初始聚类然后利用这些类簇的中心点作为KMeans算法初始类簇中心点。 4.请列举分类模型和回归模型的区别定量输出称为回归或者说是连续变量预测定性输出称为分类或者说是离散变量预测。举个例子预测明天的气温是多少度这是一个回归任务预测明天是阴、晴还是雨就是一个分类任务。 5.请列举生成模型与判别模型的区别生成模型是通过学习数据集的联合概率密度分布然后通过贝叶斯公式得出后验概率通过最大化后验概率进行预测。生成式模型在学习过程中是一个一个类别单独学习的。判别式模型是直接对模型的分界面进行学习然后通过学习到的分界面对新的数据运行预测。 6.梯度下降法求解最优化问题的原理与步骤函数的梯度是函数下降/上升的最大方向。如果要对一个目标函数做最小化每次只需将目标函数对各个parameters 做偏导得到梯度然后用当前parameter加上负梯度乘以一个步长进行更新。步长太大可能跳出局部最优点。常用的梯度下降方法有batch gd使用全部数据计算梯度SGD(对每个sample计算梯度)。 SGD计算更快并且能取得不错的效果而且有时能跳出局部最优去explore其他更优的极值点 7.请列举Random Forest和GBDT的区别 Random Forest 是bootstrapbagging的方法的tree based ensemble 即有放回的对训练数据采样分别训练decision tree,最后用简单的投票方式作为最终结果。使用了两次随机分别是样本的随机和特征的随机所以叫随机森林。 GBDT 是 boosting 的代表每次训练都是使用所有数据但是认为最终结果是多颗树的叠加训练完一棵树以后将结果的残差作为下一棵树的训练目标。在这个过程中还使用了梯度近似残差的方法。 8.什么是欠拟合、过拟合避免过拟合有哪些途径 8.1 欠拟合指的是模型对数据的表征能力不够在性能指标上的表现就是训练集和测试集上的表现都不好。解决方法增加新的特征增加模型的复杂度减少正则化的惩罚因子 8.2 过拟合模型对于训练数据拟合呈过当的情况反映到评估指标上就是模型在训练集上的表现很好但在测试集和新数据上的表现较差解决方法从数据入手获取更多的训练数据可以直接增加数据也可以通过人工方法合成更多的数据因为更多的样本能够让模型学习到更多更高效的特征并减小噪声的影响从模型入手降低模型的复杂度适当降低模型复杂度可以避免模型拟合过多的采样噪声。正则化方法给模型加上一定的正则约束L1和L2正则化采用集成学习方法 9.逻辑回归的目标函数和优化方法目标函数服从二项分布的似然函数优化方法优化常用的是梯度下降法 10.讲下拟牛顿法对比了梯度下降法只是泰勒的一阶展开式而牛顿法是泰勒的二阶展开式 10.1 常见的优化方法 1.梯度下降法梯度下降法是最早最简单也是最为常用的最优化方法。梯度下降法实现简单当目标函数是凸函数时梯度下降法的解是全局解。一般情况下其解不保证是全局最优解梯度下降法的速度也未必是最快的。梯度下降法的优化思想是用当前位置负梯度方向作为搜索方向因为该方向为当前位置的最快下降方向所以也被称为是”最速下降法“。最速下降法越接近目标值步长越小前进越慢。梯度下降法的缺点靠近极小值时收敛速度减慢如下图所示直线搜索时可能会产生一些问题**可能会“之字形”地下降** 批量梯度下降法Batch Gradient DescentBGD 对于批量梯度下降法样本个数mx为n维向量一次迭代需要把m个样本全部带入计算迭代一次计算量为m*n2n^2n2 随机梯度下降Stochastic Gradient DescentSGD 随机梯度下降是通过每个样本来迭代更新一次如果样本量很大的情况例如几十万那么可能只用其中几万条或者几千条的样本就已经将theta迭代到最优解了对比上面的批量梯度下降迭代一次需要用到十几万训练样本一次迭代不可能最优如果迭代10次的话就需要遍历训练样本10次。但是SGD伴随的一个问题是噪音较BGD要多使得SGD并不是每次迭代都向着整体最优化方向。批量梯度下降—最小化所有训练样本的损失函数使得最终求解的是全局的最优解即求解的参数是使得风险函数最小但是对于大规模样本问题效率低下。随机梯度下降—最小化每条样本的损失函数虽然不是每次迭代得到的损失函数都向着全局最优方向但是大的整体的方向是向全局最优解的最终的结果往往是在全局最优解附近适用于大规模训练样本情况。 2.牛顿法牛顿法是一种在实数域和复数域上近似求解方程的方法。方法使用函数_f _(x)的泰勒级数的前面几项来寻找方程_f _(x) 0的根。牛顿法最大的特点就在于它的收敛速度很快关于牛顿法和梯度下降法的效率对比从本质上去看牛顿法是二阶收敛梯度下降是一阶收敛所以牛顿法就更快。如果更通俗地说的话比如你想找一条最短的路径走到一个盆地的最底部梯度下降法每次只从你当前所处位置选一个坡度最大的方向走一步牛顿法在选择方向时不仅会考虑坡度是否够大还会考虑你走了一步之后坡度是否会变得更大。所以可以说牛顿法比梯度下降法看得更远一点能更快地走到最底部。牛顿法目光更加长远所以少走弯路相对而言梯度下降法只考虑了局部的最优没有全局思想。牛顿法的优缺点总结优点二阶收敛收敛速度快缺点牛顿法是一种迭代算法每一步都需要求解目标函数的Hessian矩阵的逆矩阵计算比较复杂。 3.拟牛顿法Quasi-Newton Methods **拟牛顿法的本质思想是改善牛顿法每次需要求解复杂的Hessian矩阵的逆矩阵的缺陷它使用正定矩阵来近似Hessian矩阵的逆从而简化了运算的复杂度。**拟牛顿法和最速下降法一样只要求每一步迭代时知道目标函数的梯度。通过测量梯度的变化构造一个目标函数的模型使之足以产生超线性收敛性。这类方法大大优于最速下降法尤其对于困难的问题。另外因为拟牛顿法不需要二阶导数的信息所以有时比牛顿法更为有效。如今优化软件中包含了大量的拟牛顿算法用来解决无约束约束和大规模的优化问题。 4.共轭梯度法Conjugate Gradient) 共轭梯度法是介于最速下降法与牛顿法之间的一个方法它仅需利用一阶导数信息但克服了最速下降法收敛慢的缺点又避免了牛顿法需要存储和计算Hesse矩阵并求逆的缺点共轭梯度法不仅是解决大型线性方程组最有用的方法之一也是解大型非线性最优化最有效的算法之一。在各种优化算法中共轭梯度法是非常重要的一种。其优点是所需存储量小具有步收敛性稳定性高而且不需要任何外来参数。 5.启发式优化方法启发式方法指人在解决问题时所采取的一种根据经验规则进行发现的方法。其特点是在解决问题时,利用过去的经验,选择已经行之有效的方法而不是系统地、以确定的步骤去寻求答案。启发式优化方法种类繁多包括经典的模拟退火方法、遗传算法、蚁群算法以及粒子群算法等等。 11.讲下随机森林或者GDBT 随机森林采用的是bagging的思想bagging又称为bootstrap aggreagation通过在训练样本集中进行有放回的采样得到多个采样集基于每个采样集训练出一个基学习器再将基学习器结合。随机森林在对决策树进行bagging的基础上在决策树的训练过程中引入了随机属性选择。传统决策树在选择划分属性的时候是在当前节点属性集合中选择最优属性而随机森林则是对结点先随机选择包含k个属性的子集再选择最优属性k作为一个参数控制了随机性的引入程度。 GBDT GBDT采用的是boosting的思想先从初始训练集训练出一个基学习器再根据基学习器的表现对训练样本分布进行调整使得基学习器做错的训练样本在后续受到更多的关注然后基于调整后的样本分布来训练下一个基学习器最后将所有基学习器加权结合。GDBT在传统的boosting的基础上将以决策树为基函数的提升树拟合残差利用损失函数的负梯度在当前模型的值作为残差的估计。 11.RF、GBDT的区别 GBDT和随机森林的相同点 1、都是由多棵树组成2、最终的结果都是由多棵树一起决定 GBDT和随机森林的不同点 1、组成随机森林的树可以是分类树也可以是回归树而GBDT只由回归树组成2、组成随机森林的树可以并行生成而GBDT只能是串行生成3、对于最终的输出结果而言随机森林采用多数投票等而GBDT则是将所有结果累加起来或者加权累加起来4、随机森林对异常值不敏感GBDT对异常值非常敏感5、随机森林对训练集一视同仁GBDT是基于权值的弱分类器的集成6、随机森林是通过减少模型方差提高性能GBDT是通过减少模型偏差提高性能 12.随机森林怎么取最后的结果对于分类任务随机森林是多数表决对于回归任务随机森林是简单平均 13.随机森林是怎样避免ID3算法信息增益的缺点的首先说下信息增益的过程决策树算法本质上就是要找出每一列的最佳划分以及不同列划分的先后顺序及排布。信息增益的缺点是比较偏向选择取值多的属性而gini系数每次都是二分所以跟属性多少没有关系。 14.为什么deep learning 能抑制梯度消失或者爆炸的问题一是激活函数不光是只用sigmoid函数还有 ReLU函数二是在参数并不是初始化的时候并不是随机选择的而是在前面有自编码器做了特征特征器这样避免了梯度下降法求解陷入局部最优解三深度学习一些手段权值共享卷积核pooling等都能抑制梯度消失问题四二次代价函数换成交叉熵损失函数或者选用softmax对数似然代价函数的组合

查看全文

http://www.zqtcl.cn/news/932275/