当前位置: 首页 > news >正文

市场营销网站北京网站设计公司兴田德润优惠吗

市场营销网站,北京网站设计公司兴田德润优惠吗,一家专做特卖的网站,绘本馆网站建设一、多元线性回归模型简介 回归分析是数据分析中最基础也是最重要的分析工具#xff0c;绝大多数的数据分析问题#xff0c;都可以使用回归的思想来解决。回归分析的任务就是#xff0c;通过研究自变量X和因变量Y的相关关系#xff0c;尝试去解释Y的形成机制#xff0c;进…一、多元线性回归模型简介 回归分析是数据分析中最基础也是最重要的分析工具绝大多数的数据分析问题都可以使用回归的思想来解决。回归分析的任务就是通过研究自变量X和因变量Y的相关关系尝试去解释Y的形成机制进而达到通过X去预测Y的目的。 常见的回归分析有五类线性回归、0-1回归、定序回归、计数回归和生存回归其划分的依据是因变量Y的类型。本篇主要讲解多元线性回归以及lasso回归。 回归分析的目的 识别重要变量判断相关性的方向要估计权重(回归系数) 回归分析分类 类型模型Y的特点例子线性回归OLS、GLS最小二乘连续数值型变量GDP、产量、收入0-1回归logistic回归二值变量0-1是否违约、是否得病定序回归probit定序回归定序变量等级评定优良差计数回归泊松回归泊松分布计数变量每分钟车流量生存回归Cox等比例风险回归生存变量截断数据企业、产品的寿命 二、适用赛题 解释类问题 问一个因变量y由多个自变量x决定探究这多个x和y的关系解释哪个x和y关系更紧密 预测类问题 由于回归模型会得到一个拟合曲线进而可以由这个曲线去预测一些值不过注意当要用拟合曲线预测的时候拟合优度一定要大 三、模型流程 四、流程分析 注回归模型其中涉及到矩阵论、概率论与数理统计的知识本篇不展开证明和讲解。且推荐使用Stata软件来进行多元线性回归分析。 1.处理变量 我们得到了一组数据要对数据进行分类 横截面数据 在某一时点收集的不同对象的数据例如我们自己发放问卷得到的数据全国各省份2018年GDP的数据大一新生今年体测的得到的数据 时间序列数据 对同一对象在不同时间连续观察所取得的数据例如从出生到现在你的体重的数据每年生日称一次中国历年来GDP的数据在某地方每隔一小时测得的温度数据 面板数据 横截面数据与时间序列数据综合起来的一种数据资源例如2008-2018年我国各省份GDP的数据 数据类型常见建模方法横截面数据多元线性回归时间序列数据移动平均、指数平滑、ARIMA、GARCH、VAR、 协积面板数据固定效应和随机效应、静态面板和动态面板 现在给出多元线性回归方程 无内生性no endogeneity要求所有解释变量均与扰动项不相关这个假定通常太强因为解释变量一般很多比如5-15个解释变量且需要保证它们全部外生。是否可能弱化此条件答案是肯定的如果你的解释变量可以区分为核心解释变量与控制变量两类。 核心解释变量我们最感兴趣的变量因此我们特别希望得到对其系数的一致估计当样本容量无限增大时收敛于待估计参数的真值控制变量我们可能对于这些变量本身并无太大兴趣而之所以把它们也放入回归方程主要是为了“控制住”那些对被解释变量有影响的遗漏因素在实际应用中我们只要保证核心解释变量与μ不相关即可 如果自变量中有定性变量例如性别、地域等在回归中要怎么处理呢?例如我们要研究性别对于工资的影响性别歧视。这时候可以用到虚拟变量 Female就是一个虚拟变量。 为了避免完全多重共线性的影响引入虚拟变量的个数一般是分类数减1。例如男女是两类就引入了一个Female如果是区别全国34个省的人就可以设置33个虚拟变量。 2.初次回归 利用Stata得到初次回归的结果后需要检验结果的可靠性如果可靠就可以解释系数完成工作如果不可靠还需要调整方法继续回归。 问题出在扰动项 横截面数据容易出现异方差的问题时间序列数据容易出现自相关的问题。 ①异方差 如果扰动项存在异方差 OLS估计出来的回归系数是无偏、一致的假设检验无法使用构造的统计量失效了OLS估计量不再是最优线性无偏估计量(BLUE) 如何检验是否存在异方差 BP检验 原假设扰动项不存在异方差。P值小于0.05说明在95%的置信水平下拒绝原假设即我们认为扰动项存在异方差。 怀特检验 原假设扰动项不存在异方差。P值小于0.05说明在95%的置信水平下拒绝原假设即我们认为扰动项存在异方差。 ②多重共线性 自相关的问题就是多重共线性的问题 如何检验是否存在多重共线性 3.处理问题 ①如何解决异方差 使用OLS 稳健的标准误。如果发现存在异方差一种处理方法是仍然进行OLS回归但使用稳健标准误。这是最简单也是目前通用的方法。只要样本容量较大即使在异方差的情况下若使用稳健标准误则所有参数估计、假设检验均可照常进行。换言之只要使用了稳健标准误就可以与异方差“和平共处”了广义最小二乘估计法GLS。原理方差较大的数据包含的信息较少我们可以给予信息量大的数据即方差较小的数据更大的权重缺点我们不知道扰动项真实的协方差矩阵因此我们只能用样本数据来估计这样得到的结果不稳健存在偶然性Stock and Watson (2011)推荐在大多数情况下应该使用“OLS 稳健标准误” ②如何处理多重共线性 如果不关心具体的回归系数而只关心整个方程预测被解释变量的能力则通常可以不必理会多重共线性假设你的整个方程是显著的。这是因为多重共线性的主要后果是使得对单个变量的贡献估计不准但所有变量的整体效应仍可以较准确地估计如果关心具体的回归系数但多重共线性并不影响所关心变量的显著性那么也可以不必理会。即使在有方差膨胀的情况下这些系数依然显著;如果没有多重共线性则只会更加显著如果多重共线性影响到所关心变量的显著性则需要增大样本容量剔除导致严重共线性的变量不要轻易删除哦因为可能会有内生性的影响或对模型设定进行修改 ③逐步回归分析 没有太好的方法处理多重共线性问题可以调整回归的方式 向前逐步回归Forward selection 将自变量逐个引入模型每引入一个自变量后都要进行检验显著时才加入回归模型缺点随着以后其他自变量的引入原来显著的自变量也可能又变为不显著了但是并没有将其及时从回归方程中剔除掉 向后逐步回归Backward elimination 与向前逐步回归相反先将所有变量均放入模型之后尝试将其中一个自变量从模型中剔除看整个模型解释因变量的变异是否有显著变化之后将最没有解释力的那个自变量剔除。此过程不断迭代直到没有自变量符合剔除的条件缺点一开始把全部变量都引入回归方程这样计算量比较大。若对一些不重要的变量一开始就不引入这样就可以减少一些计算。当然这个缺点随着现在计算机的能力的提升已经变得不算问题了 注意事项 向前逐步回归和向后逐步回归的结果可能不同不要轻易使用逐步回归分析因为剔除了自变量后很有可能会产生新的问题例如内生性问题后面会介绍lasso回归有没有更加优秀的筛选方法有的那就是每种情况都尝试一次最终一共有2的k次方 - 1种可能。如果自变量很多那么计算相当费时 4.解释系数 这里也可以看到引入了新的自变量价格后对回归系数的影响非常大。这就是遗漏变量导致的内生性的造成的。 伍德里奇的《计量经济学导论现代观点》里第六章176 -177页有详细的论述。取对数意味着原被解释变量对解释变量的弹性即百分比的变化而不是数值的变化。目前对于什么时候取对数还没有固定的规则但是有一些经验法则 与市场价值相关的例如价格、销售额、工资等都可以取对数以年度量的变量如受教育年限、工作经历等通常不取对数比例变量如失业率、参与率等两者均可变量取值必须是非负数如果包含0则可以对y取对数ln(1y) 取对数的好处 减弱数据的异方差性如果变量本身不符合正态分布取了对数后可能渐近服从正态分布模型形式的需要让模型具有经济学意义 下面有四类模型回归系数的解释 一元线性回归y a bx μx每增加1个单位y平均变化b个单位双对数模型 lny a blnx μx每增加1%y平均变化b%半对数模型 y a blnx μx每增加1%y平均变化b/100个单位半对数模型 lny a bx μx每增加1个单位y平均变化(100b)% 5.再次回归 在前面已经介绍了如何解决存在异方差的情况。但是对于多重共线性并未有一个较好的解决方法解决方法中的增大样本量显然不太现实找点数据已经不容易了还要增大样本量。所以在不用后面的方法的情况下一般都是将导致严重共线性的变量删除。下面我们介绍lasso回归。 和lasso回归一起出来的还有岭回归。事实上回归中关于自变量的选择大有门道 变量过多时可能会导致多重共线性问题造成回归系数的不显著甚至造成OLS估计的失效。本篇介绍到的岭回归和lasso回归在OLS回归模型的损失函数上加上了不同的惩罚项该惩罚项由回归系数的函数构成。一方面加入的惩罚项能够识别出模型中不重要的变量对模型起到简化作用可以看作逐步回归法的升级版另一方面加入的惩罚项能够让模型变得可估计即使之前的数据不满足列满秩。 和前面一样还是推荐使用Stata软件分析。但大多数博客或讲义上都是使用Python来做岭回归和lasso回归的因此有Python机器学习基础的同学可以自己查阅相关的调用代码。 另外Stata中对于岭回归的估计有点bug因此推荐用lasso回归。 那么什么时候用lasso回归呢 我们首先使用最一般的OLS对数据进行回归然后计算方差膨胀因子VIF如果VIF 10则说明存在多重共线性的问题此时我们需要对变量进行筛选。 在前面我们提到可以使用逐步回归法来筛选自变量让回归中仅留下显著的自变量来抵消多重共线性的影响知道lasso回归后我们完全可以把lasso回归视为逐步回归法的进阶版我们可以使用lasso回归来帮我们筛选出不重要的变量步骤如下 判断自变量的量纲是否一样如果不一样则首先进行标准化的预处理;对变量使用lasso回归记录下lasso回归结果表中回归系数不为0的变量这些变量就是最终我们要留下来的重要变量其余未出现在表中的变量可视为引起多重共线性的不重要变量 在得到了重要变量后我们实际上就完成了变量筛选此时我们只将这些重要变量视为自变量然后进行回归并分析回归结果即可。注意此时的变量可以是标准化前的也可以是标准化后的因为lasso只起到变量筛选的目的 五、补充 1.拟合优度较低怎么办 回归分为解释型回归和预测型回归。预测型回归一般才会更看重R²。解释型回归更多的关注模型整体显著性以及自变量的统计显著性和经济意义显著性即可可以对模型进行调整例如对数据取对数或者平方后再进行回归数据中可能有存在异常值或者数据的分布极度不均匀 2.标准化回归系数 为了更为精准的研究影响评价量的重要因素去除量纲的影响我们可考虑使用标准化回归系数。 对数据进行标准化就是将原始数据减去它的均数后再除以该变量的标准差计算得到新的变量值新变量构成的回归方程称为标准化回归方程回归后相应可得到标准化回归系数。 标准化系数的绝对值越大说明对因变量的影响就越大只关注显著的回归系数哦。 3.对于线性的理解 线性假定并不要求初始模型都呈上述的严格线性关系自变量与因变量可通过变量替换而转化成线性模型。比如下面的都是线性模型
http://www.zqtcl.cn/news/601499/

相关文章:

  • 做网站公司电话福建城乡建设网站查询
  • 郑州做网站哪个公司好做二手市场类型的网站名字
  • 网站建设与维护里面的个人简历选择网站建设公司好
  • 济南浩辰网站建设公司怎么样wordpress 3.8 问题
  • 柳州正规网站制作公司网站ww正能量
  • 网站seo优化工具网站推广策略方法
  • 企业网站建设知名wordpress 自定义php
  • 用php做的网站有哪些全能网站建设
  • 网站显示正在建设中wordpress 排行榜 页面
  • 手机管理网站网站打开速度优化
  • 做微网站需要什么做的比较好的美食网站有哪些
  • 五金商城网站建设注意wordpress虚拟空
  • 成都工程网站建设网站界面设计的优点
  • 网站建设里的知识找别人做公司网站第一步做什么
  • 婚纱摄影网站模板之家专业seo网站优化公司
  • 商丘市住房和城乡建设局网站广西网站建设timkee
  • php网站开发是做什么的网站策划总结
  • 站长工具seo推广秒收录WordPress注册插件中文
  • 目前个人网站做地最好是哪几家做汽配网站需要多少钱
  • php做网站多少钱网络营销推广方案3篇
  • 浙江坤宇建设有限公司 网站省直部门门户网站建设
  • 直播类网站怎么做上海市建设质量协会网站
  • 筑巢做网站怎么样网站设计接单
  • 会ps的如何做网站wordpress 仿虎嗅
  • 免费响应式网站建设嘉兴建企业网站
  • 织梦网站首页幻灯片不显示建设银行网站特色
  • php企业网站开发东莞网站建设时间
  • 仿win8网站模板网站开发接私活的经理
  • 仿牌网站 域名注册衡水安徽网站建设
  • 合肥义城建设集团有限公司网站专业建站公司电话咨询