当前位置: 首页 > news >正文

电子商务网站建设意义快速搭建网站域名绑定设置

电子商务网站建设意义,快速搭建网站域名绑定设置,社区网站设计,win10优化软件机器学习#xff08;一#xff09;—— 线性回归 目录 0. 回归#xff08;Regression#xff09;的由来 1. 回归关系 2. 线性回归的整体思路 #xff08;1#xff09;根据数据提出假设模型 #xff08;2#xff09;求解参数 1#xff09;梯度下降法 2#xff09;正规…机器学习一—— 线性回归 目录 0. 回归Regression的由来 1. 回归关系 2. 线性回归的整体思路 1根据数据提出假设模型 2求解参数       1梯度下降法       2正规方程求解参数 3梯度下降法与正规方程比较 3. 回归的一般方法 4. 实例分析 5. 线性回归的特点及其优缺点 6. 代码实现Java   本文是基于吴恩达老师的机器学习课程整理的   0. 回归Regression的由来   *********************************“回归”一词的来源************************************   今天所知道的回归是由达尔文Charles Darwin的表兄弟Francis Galton发明的。Galton于1877年完成了第一次回归预测目的是根据上一代豌豆种子双亲的尺寸来预测下一代豌豆种子孩子的尺寸。Galton在大量对象上应用了回归分析甚至包括人的身高。他注意到如果双亲的高度比平均高度高他们的子女也倾向于比平均高度高但尚不及双亲。孩子的高度向着平均高度回退回归。Galton在多项研究上都注意到这个现象所以尽管这个英文单词跟数值预测没有任何关系但这种研究方法仍被称为回归。 ******************************************************************************************   Regression有“衰退退步”的意思Galton在研究父母身高和子女身高时发现即使父母的身高相对于人群平均身高来说很高子女的身高比平均值高但是却比父母低即有种向平均值正常身高靠近“衰退”的倾向。   具体地Galton和他的学生Pearson在研究父母身高单位英寸与其子女身高的遗传问题时观察了1078对夫妇以每对夫妇的平均身高作为x而取他们的一个成年儿子的身高作为y将结果在平面直角坐标系上绘成散点图发现趋势近乎一条直线计算出的回归直线方程为y33.730.516x。这种趋势及回归方程总的表明父母平均身高x每增加一个单位其成年儿子的身高y也平均增加0.516个单位。这个结果表明虽然高个子父辈确有生高个子儿子的趋势但父辈身高增加一个单位儿子的身高仅增加半个单位左右。反之矮个子父辈确有生矮个子儿子的趋势但父辈身高减少一个单位儿子身高仅减少半个单位左右。即子代的平均高度向中心回归了。    1.回归关系     在客观世界中普遍存在着变量之间的关系变量之间的关系一般来说可以分为两种   ①确定性的变量之间的关系可以用函数关系来表达   ②非确定性的即统计关系或相关关系。如人的身高与体重的关系一般来说人高一些体重也要重一些但是也存在同样高度的人体重有高有低即没有明确的函数关系。现代统计学中关于统计关系已形成两个重要的分支它们叫相关分析和回归分析。     回归分析就是研究统计关系的一种数学工具能帮助我们从一个变量预测变量或回归变量可以理解为自变量取得的值去估计另一个变量响应变量可以理解为因变量所取的值。且自变量与因变量均为连续变量。当自变量只有一个变量时我们称该回归为一元回归当自变量有多个变量时称为多元回归。若使用线性函数刻画自变量和因变量之间的相关关系则称为线性回归否则称为非线性回归。所以模型称为一元线性回归模型或简单线性回归模型模型称为多元线性回归模型其中参数θ0称为回归常数θ1, θ2, … ,θk称为回归系数。注意其中“线性”是用来表明模型的参数θ0, θ1, θ2, …, θk是线性的而非y是关于x的线性函数。许多模型中y与x以非线性形式相关但只要方程关于θ是线性的也就是说不管x是几次方只要所有参数θ均为一次方就仍然可以将其当做线性回归方程处理因为当回归变量为非线性时可以通过变量替换将它转化为线性的。     需要注意的是回归模型并非意味着变量间存在因果关系。即使两个或更多变量间可能存在牢固的实证关系也不能认为这就证明了回归变量与响应变量间存在因果联系。确立因果关系要求回归变量与响应变量必须存在一种基础性的、与样本数据无关的关系比如理论分析中所暗含的关系。回归分析有助于因果关系的确认但不能成为判断因果关系是否存在的唯一基础。     一定要记住回归分析只是众多用于解决问题的数据分析方法的一种也就是说回归方程本身可能并非研究的主要目的就整个数据处理过程而言洞察力与理解力通常更为重要。    2. 线性回归的整体思路   1根据数据提出假设模型   上面已经知道回归的目的是通过几个已知数据来预测另一个数值型数据的目标值。下面通过例子阐述线性回归的思想及过程。   假设我们有如下表1所示的训练集其中自变量x为房子的面积单位feet2因变量为房子的卖价单位$1000共有M个样本。   表 1  训练集样本M个样本 size in feet2 (x) price($) in 1000s (y) 2104 460 1416 232 1534 315 852 178 … …   通过观察我们发现随着x增大相应的y也增大所以我们设想x和y应该满足线性关系即假设模型可以描述x和y之间的线性关系其中θ0θ1为模型的参数。接下来只需要求解出参数θ0θ1就可以为新样本x预测相应的房价hθ(x)即y。   2求解参数   使用回归分析的一个重要目标是估计模型中的未知参数这一过程也称为模型拟合数据。   1梯度下降法   求解参数的原则   模型有了就差参数了那该如何求解呢我们先看看求解参数θ0θ1的原则是什么。因为模型描述的是x和y之间的关系即越能准确的刻画x与y的关系那么模型越好那怎么来判断是否准确呢若对于每一个x模型预测出的hθ(x)y那么无疑该模型非常好因为它能准确的反应我们训练集中所有样本的情况若是对于未知的x也能准确的预测出相应的y那么该模型堪称完美。可惜这种情况是不存在的因为在我们收集数据时会由于各种各样的原因造成数据误差如测量误差或者包含噪声等后果所以模型达不到hθ(x)y这种理想情况通常hθ(x)-y≠0我们当然希望这个差值越小越好那就要调整hθ(x)所以就需要调整θ0θ1到这就明白了调整参数θ0θ1的目的原则是使模型预测值更接近真实值y即使差值更小。   代价函数cost function   接下来我们需要衡量模型预测值与真实值之间的差异通过直接求差值hθ(x)-y来计算一个样本的差是可以的但是要衡量整个训练集的差异就会存在正负相抵消的问题那么用绝对值呢绝对值没有正负抵消问题但是在后面的计算中求导是分段函数相对比较麻烦所以也不用。考虑差值的次方因为奇数次方都会存在正负抵消问题所以来看偶数次方偶数次方没有之前的那些问题但是考虑到计算的简便性我们用平方来计算二者之间的差异即也称该函数为平方损失函数。同时平方损失函数还有个好处是可以惩罚那些差值较大的项比如(10-5)225(10-8)2425:4相较于5:2更能突出差异大的点。     接下来我们用平方损失函数对每一个样本计算差异损失再求和取平均作为整体训练集对参数θ0θ1的损失J(θ0, θ1)公式为其中公式中的1/2是为了后续求导计算中约掉指数上的2x(i)y(i)表示第i个样本。我们称J(θ0, θ1)为代价函数cost function其反映了训练集所有样本在参数θ0θ1下的平均损失。因为我们需要模型能较为准确的表示变量之间的关系也即模型预测值与真实值之间的差异要尽可能的小所以我们需要J(θ0, θ1)尽可能的小也就是说现在将从假设模型中直接求参数θ0θ1转化为在代价函数J(θ0, θ1)中求解参数θ0θ1使代价函数J(θ0, θ1)最小。    代价函数J(θ0, θ1)和模型hθ(x)之间的关系    首先模型hθ(x)是给定参数θ下关于x的函数而J(θ0, θ1)是关于θ0θ1的函数。给定参数θ0θ1可以计算出一个J(θ0, θ1)。为了方便表示和理解我们假设参数θ00即模型是过原点的直线设样本点为(1, 1), (2, 2), (3, 3)接下来我们取不同的θ1来计算J(θ1)。   如下图1所示黑色线表示θ11三个样本点刚好全都落在该直线上其代价函数值为0所以J(θ1)过点(1, 0)蓝色直线斜率为0.5其代价函数值为0.58所以J(θ1)过点(0.5, 0.58)同样绿色直线斜率为2其代价值为7/3所以J(θ1)过点(2, 7/3)得到的代价函数如图2所示。若不设θ00则J(θ0, θ1)的等高线如图3所示。   图 1 不同参数下的模型     图 2 代价函数J(θ1)   图 3 J(θ0, θ1)的等高线横轴为θ1纵轴为θ0 利用代价函数求解参数   我们的目的是求得参数θ0θ1使代价函数J(θ0, θ1)值最小。即因为线性回归的代价函数J(θ)总是凹面即凸函数最小化J(θ)属于凸优化我们用最经典的梯度下降算法。 梯度下降法的思路 给参数θ0θ1初始值常设为0, 0调整θ0θ1使J(θ0, θ1)减小直到代价函数J(θ0, θ1)减小到最小值  为什么要设置初始值为0呢因为后续都会调整参数来求代价函数的最小值而且先前我们也不知道要具体设置为多少所以遵循简单原则设置为0。接下来调整参数如下   重复以下步骤直到收敛{      }   α为下降步长也叫学习率learning rate它决定了在梯度下降迭代的过程中每一步沿梯度负方向前进的长度。偏导数项是用来保证以直线方向下降最快下降方向。   我们来看看α产生的影响同样的设θ00在之前图2中会产生以下收敛方式因为J(θ)图形变化比较缓慢所以会随着导数项减小而减小如图4所示经多次减小后越到最小值附近J(θ)变化越缓慢。但是对于图5来说J(θ)比较陡峭变化较快在接近最低点的时候导数值依然很大。即α过大可能会引起振荡找不到极值点α过小会导致收敛时间太长。那么要怎么选取合适的α呢吴恩达老师给的建议是从[0.001, 0.003, 0.01, 0.03, 0.1, 0.3…]中选择。在实验过程中可以通过判断第i次更新后的代价值是否小于第i-1次若小于可以稍微增大一点α以更快的收敛若大于则需要减小α防止发生振荡。 图 4 变换缓慢的J(θ)上的收敛过程   图 5 比较陡峭的J(θ)上的收敛过程   接下来我们用一个例子说明梯度下降方法。求y(x-1)2的最小值点选步长为0.5   ① 设初始值x00则y1在x0处梯度值为-2   ② 更新x10-0.5*(-2)1则y0此处梯度值为0找到最小值点1,0   接下来我们如何判断收敛呢对于一般的数学函数来说只要导数值为0即可但是对于1/x这类函数来说有两种方式来判断其是否收敛一种是看J(θ)的函数图形如果基本没有变化则可认为是收敛另一种为设置变化阈值ε如ε0.001若两次相邻的J(θ)变化小于ε则可认为是收敛了但是如何确定ε的大小则比较困难。   多元线性回归   之前描述的是一元线性回归那么如何对多元变量进行线性回归呢如下表2的训练数据 表2 多维特征数据 size (feet2)  x1 number of bedrooms  x2 number of floors  x3 age of home   x4 price($1000) y 2104 5 1 45 460 1416 3 2 40 232 1534 3 2 30 315 852 2 1 36 178 … … … … …   此时假设模型函数为代价函数其中θ为5维向量优化与求解与之前一样。   需要注意的是因为特征中x1, x2之间的取值范围差异太大得到的J(θ)性状窄长因为取值范围一大一小会导致收敛产生振荡如下图6所示手画比较丑。   图 6 特征取值范围较大时会出现振荡   产生振荡会使收敛不到最小点处因此为了避免这种情况我们需要对特征进行缩放也相当于归一化处理使他们的取值范围都在一个区间通常我们将特征值除以该特征的最大值与最小值的差。比如若x1取值范围为650--3000缩放为x1/(3000-650)。缩放后代价函数变得相对圆些如图7 所示其收敛过程就相对平滑也能较快收敛到最小值点。 图 7 特征缩放后的收敛相对平缓   2正规方程求解参数   对于表2中的数据我们添一列x0使其全为1模型写为hθ(x)  θ0x0θ1x1θ2x2θ3x3θ4x4。我们记矩阵     其中每一行为一个样本的所有特征X称为设计矩阵design matrix为m*(n1)型矩阵其中m是训练集样本数n为样本的特征数不包括x0。记向量y(460, 232, 315, 178, …)T即y为m*1型同样记θ(θ0, θ1θ2, θ3, θ4)为n1*1型类似于梯度下降的优化目标有令Eθ(y-Xθ)T(y-Xθ)对θ求导得到令其为0可得到θ的最优解θ(XTX)-1XTy但是XTX的逆是否一直存在呢其实不是的当矩阵X中存在冗余的特征那么就不可逆还有当m≤n即特征数太多对于这两种情况都可以通过删除特征解决对于冗余特征来说我们删除掉冗余的特征第二种情况除过删除特征外还可以使用正则化的方式解决 θ(XTXλB)-1XTy其中B为(n1)*(n1)型矩阵其对角线上除B11外均为1其余为0则括号内的矩阵绝对可逆。   4梯度下降法与正规方程比较 梯度下降法 正规方程 需要选择学习率下降步长α 不需要选择α 需要多次迭代 不需要迭代一次运算得出 当特征数量N很大时依然能很好的运用 需要计算XTX的逆若特征数量N很大时计算代价太大求矩阵逆复杂度为O(n3) 适用于各种类型的模型 只适用于线性模型不适合逻辑回归模型等其他模型    3. 回归的一般方法   1 收集数据采用任意方法收集数据 2 准备数据回归需要数值型数据标称型数据将被转成二值型数据 3 分析数据绘出数据的可视化二维图将有助于对数据做出理解和分析在采用缩减法求得新回归系数之后可以将新拟合线绘在图上作为对比 4 训练算法找到回归系数 5 测试算法使用R2或者预测值和数据的拟合度来分析模型的效果 6 使用算法使用回归可以在给定输入的时候预测出一个数值这是对分类方法的提升因为这样可以预测连续型数据而不仅仅是离散的类别标签。    4. 实例分析   为了可视化效果我们只使用一个特征size of feet2来说明线性回归的实例应用。 1 收集数据我们根据现实生活的情况设定了20个样本如下表3所示 表3 训练样本集 Size of feet2 Price ($1000) 2104 460 1416 232 265 32 568 98 1564 250 100 23 3645 564 879 125 356 86 873 105 1356 254 458 36 1587 298 2458 521 2478 512 3578 652 458 87 965 154 546 65 1548 246   2 准备数据数据已是数值型数据 3 分析数据将其可视化如下图8.   图8 训练集数据的可视化 4 训练算法   我们的假设为hθ(x)θ0θ1*x优化的目标函数为 根据梯度下降法通过判断参数更新前后的代价函数差值来看是否α取得过大即差值小于零表示更新完参数后代价值增加说明有振荡产生因此再减小α。经过试验取学习率下降步长为10^-6当连续两次代价函数差小于10^-6作为收敛条件求得θ0-10.13θ10.18此时的代价J(θ)890.81 5 测试算法   我们将得到的hθ(x)与样本点画出来如下图9.可以看出效果不错毕竟事实就是房子面积越大卖价越高当然还有地段等因素影响所以并不是完全都在直线上。   图 9 样本点与回归线 6 使用算法我们用得到的线性模型对新样本x2000来预测该面积的房子卖价yhθ(x)-10.130.18*2000349.87注意单位是千$。   5.线性回归的特点及其优缺点   使用数据类型数值型和标称型数据 优点 结果易于理解计算上不复杂 可以根据系数理解每个变量 缺点 对非线性的数据拟合不好 对异常值非常敏感 受噪声影响大 只能表示线性关系    6. 代码实现Java  https://www.cnblogs.com/datamining-bio/articles/9240378.html转载于:https://www.cnblogs.com/datamining-bio/p/9256302.html
http://www.zqtcl.cn/news/634992/

相关文章:

  • 企业网站建设的ppt4414站长平台
  • 物流网站制作怎么做pc网站开发
  • 合肥做网站可以吗网站程序 seo
  • 网站备案 动态ip网站多域名
  • 网站加速免费电子商务网站建设的认识
  • 做职业资格考试的网站有哪些网页游戏排行榜2024前十名
  • 网站设计方案怎么写wordpress仿站软件
  • 汕头建站模板系统北京有哪些电商平台公司
  • 深圳网站建设zhaoseo小包工头接活的平台
  • 电商平面设计前景如何seo推广什么意思
  • 网站解析不了wordpress 密码失败
  • 临沂企业建站系统模板扮家家室内设计
  • 做简单网站用什么软件网站开发国外研究现状
  • 江苏seo推广网站建设湖南软件定制开发
  • 台州商务网站手机端seo
  • 网站的切换语言都是怎么做的有哪些开发网站公司
  • 上海人才中心网站湖州建设公司网站
  • 网站的前台后台网站建设公司新报
  • 菜鸟式网站建设图书深圳建站公司好坏
  • 品牌网站建设熊掌号一级消防工程师考试通过率多少
  • 网站建设淘宝客模板湖口网站建设
  • 拱墅区建设局网站做设计的搜素材上什么网站
  • 济南烨铭网站建设外贸建网站免费模板
  • 那些网站可以做反链浏览器网站大全
  • 泉州网站建设推广企业网页兼容性站点
  • 怎样做视频上网站赚钱推广计划怎么做推广是什么
  • 台州外贸网站建设做网站开发一般用什么语言
  • 咸阳做网站的公司漯河网做网站
  • 红酒网站模板下载做网站加推广
  • 免费网站服务器域名在线手机网站建设