当前位置: 首页 > news >正文

网站开发所需配置湖南网

网站开发所需配置,湖南网,长春一大网站,用 php网站建设打出一首古诗转自#xff1a; http://dataunion.org/20514.html 什么是回归分析#xff1f; 回归分析是一种预测性的建模技术#xff0c;它研究的是因变量#xff08;目标#xff09;和自变量#xff08;预测器#xff09;之间的关系。这种技术通常用于预测分析#xff0c;时间序列…转自 http://dataunion.org/20514.html 什么是回归分析 回归分析是一种预测性的建模技术它研究的是因变量目标和自变量预测器之间的关系。这种技术通常用于预测分析时间序列模型以及发现变量之间的因果关系。例如司机的鲁莽驾驶与道路交通事故数量之间的关系最好的研究方法就是回归。 回归分析是建模和分析数据的重要工具。在这里我们使用曲线/线来拟合这些数据点在这种方式下从曲线或线到数据点的距离差异最小。我会在接下来的部分详细解释这一点。 我们为什么使用回归分析 如上所述回归分析估计了两个或多个变量之间的关系。下面让我们举一个简单的例子来理解它 比如说在当前的经济条件下你要估计一家公司的销售额增长情况。现在你有公司最新的数据这些数据显示出销售额增长大约是经济增长的2.5倍。那么使用回归分析我们就可以根据当前和过去的信息来预测未来公司的销售情况。 使用回归分析的好处良多。具体如下 它表明自变量和因变量之间的显著关系它表明多个自变量对一个因变量的影响强度。 回归分析也允许我们去比较那些衡量不同尺度的变量之间的相互影响如价格变动与促销活动数量之间联系。这些有利于帮助市场研究人员数据分析人员以及数据科学家排除并估计出一组最佳的变量用来构建预测模型。 我们有多少种回归技术 有各种各样的回归技术用于预测。这些技术主要有三个度量自变量的个数因变量的类型以及回归线的形状。我们将在下面的部分详细讨论它们。 对于那些有创意的人如果你觉得有必要使用上面这些参数的一个组合你甚至可以创造出一个没有被使用过的回归模型。但在你开始之前先了解如下最常用的回归方法 1. Linear Regression线性回归 它是最为人熟知的建模技术之一。线性回归通常是人们在学习预测模型时首选的技术之一。在这种技术中因变量是连续的自变量可以是连续的也可以是离散的回归线的性质是线性的。 线性回归使用最佳的拟合直线也就是回归线在因变量Y和一个或多个自变量X之间建立一种关系。 用一个方程式来表示它即Yab*X  e其中a表示截距b表示直线的斜率e是误差项。这个方程可以根据给定的预测变量s来预测目标变量的值。 一元线性回归和多元线性回归的区别在于多元线性回归有1个自变量而一元线性回归通常只有1个自变量。现在的问题是“我们如何得到一个最佳的拟合线呢”。 如何获得最佳拟合线a和b的值 这个问题可以使用最小二乘法轻松地完成。最小二乘法也是用于拟合回归线最常用的方法。对于观测数据它通过最小化每个数据点到线的垂直偏差平方和来计算最佳拟合线。因为在相加时偏差先平方所以正值和负值没有抵消。 我们可以使用R-square指标来评估模型性能。想了解这些指标的详细信息可以阅读模型性能指标Part 1,Part 2 . 要点 自变量与因变量之间必须有线性关系多元回归存在多重共线性自相关性和异方差性。线性回归对异常值非常敏感。它会严重影响回归线最终影响预测值。多重共线性会增加系数估计值的方差使得在模型轻微变化下估计非常敏感。结果就是系数估计值不稳定在多个自变量的情况下我们可以使用向前选择法向后剔除法和逐步筛选法来选择最重要的自变量。 2.Logistic Regression逻辑回归 逻辑回归是用来计算“事件Success”和“事件Failure”的概率。当因变量的类型属于二元1 / 0真/假是/否变量时我们就应该使用逻辑回归。这里Y的值从0到1它可以用下方程表示。 123odds p/ (1-p) probability of event occurrence / probability of not event occurrenceln(odds) ln(p/(1-p))logit(p) ln(p/(1-p)) b0b1X1b2X2b3X3....bkXk上述式子中p表述具有某个特征的概率。你应该会问这样一个问题“我们为什么要在公式中使用对数log呢”。因为在这里我们使用的是的二项分布因变量我们需要选择一个对于这个分布最佳的连结函数。它就是Logit函数。在上述方程中通过观测样本的极大似然估计值来选择参数而不是最小化平方和误差如在普通回归使用的。要点它广泛的用于分类问题。逻辑回归不要求自变量和因变量是线性关系。它可以处理各种类型的关系因为它对预测的相对风险指数OR使用了一个非线性的log转换。为了避免过拟合和欠拟合我们应该包括所有重要的变量。有一个很好的方法来确保这种情况就是使用逐步筛选方法来估计逻辑回归。它需要大的样本量因为在样本数量较少的情况下极大似然估计的效果比普通的最小二乘法差。自变量不应该相互关联的即不具有多重共线性。然而在分析和建模中我们可以选择包含分类变量相互作用的影响。如果因变量的值是定序变量则称它为序逻辑回归。如果因变量是多类的话则称它为多元逻辑回归。3. Polynomial Regression多项式回归对于一个回归方程如果自变量的指数大于1那么它就是多项式回归方程。如下方程所示 1 yab*x^2 在这种回归技术中最佳拟合线不是直线。而是一个用于拟合数据点的曲线。 重点 虽然会有一个诱导可以拟合一个高次多项式并得到较低的错误但这可能会导致过拟合。你需要经常画出关系图来查看拟合情况并且专注于保证拟合合理既没有过拟合又没有欠拟合。下面是一个图例可以帮助理解 明显地向两端寻找曲线点看看这些形状和趋势是否有意义。更高次的多项式最后可能产生怪异的推断结果。 看数据精华关注数盟微信 4. Stepwise Regression逐步回归 在处理多个自变量时我们可以使用这种形式的回归。在这种技术中自变量的选择是在一个自动的过程中完成的其中包括非人为操作。 这一壮举是通过观察统计的值如R-squaret-stats和AIC指标来识别重要的变量。逐步回归通过同时添加/删除基于指定标准的协变量来拟合模型。下面列出了一些最常用的逐步回归方法 标准逐步回归法做两件事情。即增加和删除每个步骤所需的预测。向前选择法从模型中最显著的预测开始然后为每一步添加变量。向后剔除法与模型的所有预测同时开始然后在每一步消除最小显着性的变量。 这种建模技术的目的是使用最少的预测变量数来最大化预测能力。这也是处理高维数据集的方法之一。 5. Ridge Regression岭回归 岭回归分析是一种用于存在多重共线性自变量高度相关数据的技术。在多重共线性情况下尽管最小二乘法OLS对每个变量很公平但它们的差异很大使得观测值偏移并远离真实值。岭回归通过给回归估计上增加一个偏差度来降低标准误差。 上面我们看到了线性回归方程。还记得吗它可以表示为 ya b*x 这个方程也有一个误差项。完整的方程是 1yab*xe (error term),  [error term is the value needed to correct for a prediction error between the observed and predicted value] 1 gt; yay a b1x1 b2x2....e, for multiple independent variables. 在一个线性方程中预测误差可以分解为2个子分量。一个是偏差一个是方差。预测错误可能会由这两个分量或者这两个中的任何一个造成。在这里我们将讨论由方差所造成的有关误差。 岭回归通过收缩参数λlambda解决多重共线性问题。看下面的公式 在这个公式中有两个组成部分。第一个是最小二乘项另一个是β2β-平方的λ倍其中β是相关系数。为了收缩参数把它添加到最小二乘项中以得到一个非常低的方差。 要点 除常数项以外这种回归的假设与最小二乘回归类似它收缩了相关系数的值但没有达到零这表明它没有特征选择功能这是一个正则化方法并且使用的是L2正则化。 6. Lasso Regression套索回归 它类似于岭回归Lasso Least Absolute Shrinkage and Selection Operator也会惩罚回归系数的绝对值大小。此外它能够减少变化程度并提高线性回归模型的精度。看看下面的公式 Lasso 回归与Ridge回归有一点不同它使用的惩罚函数是绝对值而不是平方。这导致惩罚或等于约束估计的绝对值之和值使一些参数估计结果等于零。使用惩罚值越大进一步估计会使得缩小值趋近于零。这将导致我们要从给定的n个变量中选择变量。 要点 除常数项以外这种回归的假设与最小二乘回归类似它收缩系数接近零等于零这确实有助于特征选择这是一个正则化方法使用的是L1正则化 · 如果预测的一组变量是高度相关的Lasso 会选出其中一个变量并且将其它的收缩为零。 7.ElasticNet回归 ElasticNet是Lasso和Ridge回归技术的混合体。它使用L1来训练并且L2优先作为正则化矩阵。当有多个相关的特征时ElasticNet是很有用的。Lasso 会随机挑选他们其中的一个而ElasticNet则会选择两个。 Lasso和Ridge之间的实际的优点是它允许ElasticNet继承循环状态下Ridge的一些稳定性。 要点 在高度相关变量的情况下它会产生群体效应选择变量的数目没有限制它可以承受双重收缩。 除了这7个最常用的回归技术你也可以看看其他模型如Bayesian、Ecological和Robust回归。 如何正确选择回归模型 当你只知道一个或两个技术时生活往往很简单。我知道的一个培训机构告诉他们的学生如果结果是连续的就使用线性回归。如果是二元的就使用逻辑回归然而在我们的处理中可选择的越多选择正确的一个就越难。类似的情况下也发生在回归模型中。 在多类回归模型中基于自变量和因变量的类型数据的维数以及数据的其它基本特征的情况下选择最合适的技术非常重要。以下是你要选择正确的回归模型的关键因素 数据探索是构建预测模型的必然组成部分。在选择合适的模型时比如识别变量的关系和影响时它应该首选的一步。比较适合于不同模型的优点我们可以分析不同的指标参数如统计意义的参数R-squareAdjusted R-squareAICBIC以及误差项另一个是Mallows’ Cp准则。这个主要是通过将模型与所有可能的子模型进行对比或谨慎选择他们检查在你的模型中可能出现的偏差。交叉验证是评估预测模型最好额方法。在这里将你的数据集分成两份一份做训练和一份做验证。使用观测值和预测值之间的一个简单均方差来衡量你的预测精度。如果你的数据集是多个混合变量那么你就不应该选择自动模型选择方法因为你应该不想在同一时间把所有变量放在同一个模型中。它也将取决于你的目的。可能会出现这样的情况一个不太强大的模型与具有高度统计学意义的模型相比更易于实现。回归正则化方法LassoRidge和ElasticNet在高维和数据集变量之间多重共线性情况下运行良好。 原文链接7 Types of Regression Techniques you should know!译者/刘帝伟 审校/刘翔宇、朱正贵 责编/周建丁 译者简介 刘帝伟中南大学软件学院在读研究生关注机器学习、数据挖掘及生物信息领域。 注转载文章均来自于公开网络仅供学习使用不会用于任何商业用途如果侵犯到原作者的权益请您与我们联系删除或者授权事宜联系邮箱contactdataunion.org。转载数盟网站文章请注明原文章作者否则产生的任何版权纠纷与数盟无关。
http://www.zqtcl.cn/news/146763/

相关文章:

  • 做一套网站开发多少钱设计高端的国外网站
  • 有没有网站做lol网站的网页设计实验报告书
  • 网站后台域名重庆好的seo平台
  • 文化建设设计公司网站跨境电商亚马逊
  • 建设企业网站官网下载中心游戏网站开发设计报告
  • 外贸网站导航栏建设技巧专做奢侈品品牌的网站
  • 网站开发工程师资格证网站建设代理都有哪些
  • 汕头网站建设技术托管wordpress faq
  • 外贸网站建设系统能联系做仿瓷的网站
  • 阿里云网站域名绑定做网站的需要哪些职位
  • cnnic网站备案dnf网站上怎么做商人
  • 怎么做微拍网站代理记账公司注册
  • 长宁深圳网站建设公司建材公司网站建设方案
  • 做网站哪些软件比较好wordpress的留言功能
  • 域名申请好了怎么做网站山西手机版建站系统信息
  • 维度网络网站建设广东水利建设与管理信息网站
  • 浏阳市商务局网站溪江农贸市场建设做关于车的网站有哪些
  • 网站建设教程资源网站网站制作网站的
  • 公司网页是什么被公司优化掉是什么意思
  • 酒店网站建设方案结束语慈溪企业排名网站
  • 做行业网站广告能赚多少钱百度搜索下载安装
  • 寺院网站建设网页搭建
  • 网站设计报价是多少wordpress登录接口
  • 灵宝网站建设建h5网站费用
  • 泊头做网站的有哪些深圳网页制作与网站建设服务器
  • 网站设计的思路网页无法访问百度
  • 简述你对于网站建设的认识网络工程就业岗位有哪些
  • 征婚网站上教人做恒指期货做网站颜色黑色代码多少
  • 海南省建设工程质量监督网站如何做搞笑原创视频网站
  • 网页游戏人气排行榜百度seo插件