湛江网站设计软件,网站描述设置,个人网站asp源码,免费发布信息网站大全下载安装regression case
股票预测 无人车看到的各种sensor 影像镜头看到马路上的东西作为输入#xff0c;输出就是方向盘角度等等的操纵策略
scalar 标量 这个是热力图#xff0c;相当于你的XYZ但是Z用颜色表示了
closed-form solution 闭合解 learning rate事先定好的数值 在lin…regression case
股票预测 无人车看到的各种sensor 影像镜头看到马路上的东西作为输入输出就是方向盘角度等等的操纵策略
scalar 标量 这个是热力图相当于你的XYZ但是Z用颜色表示了
closed-form solution 闭合解 learning rate事先定好的数值 在linear regression上没有local optimal
一般性 泛化性 来自于random的数值进化值某个方面受random值的影响 training error太小training结果太好就可能出现overfitting的情况 博士根据常识改变model删掉某个已知不影响的参数可能还有其他比较关键有影响力的factor 参数越小越接近0可以达到更平滑的效果input改变output不那么敏感受影响程度不大 为什么喜欢平滑 用L2范数正则化即岭回归 惩罚项
平滑output对输入不敏感输入被杂讯干扰受到比较小的影响 我可以理解为岭回归有一定的抗噪声的能力吗 太平滑是一条水平线也什么都干不成太平滑结果又会变差 调参侠 bw都是常数只有w受x影响bias不影响平滑程度 这边就是adamW优化器不对bias做decay的原因因为它就相对于正则化
classification分类
gaussian distribution 高斯分布正态分布 硬解 强制按照regression来训练 以0为分界
大于0表示1
太大超过1不行远大于1的点是错误error 太小不行
分界线会考虑到偏离较远的点而偏离最合适的位置让他们尽可能不变成距离分界线很远的错误的点 为了减小loss而不符常理最小二乘的弊端 regression会惩罚那些太过正确output太大的那些值
把每一类当作一个数字但是数字之间有关系类别之间不一定和数字之间的关系保持一致比如大小是否相邻
binary classification 如何确定比较好的loss function 分类错误的次数 不能微分无法用gradient decent SVMperceptron 贝叶斯定律 条件概率
计算某个x出现的机率可以得知x的distributtion分布就可以自己产生x
要把18种都分类正确做不太出来 因为有些数值接近但是却不是一个系的 每个宝可梦用个向量来表示他的各种特征 水系里面挑一只出来是海龟的概率 是从高斯分布里面sample出来的sample了79个 不同的μ和Σ分布的最高点是不一样的
这个完全是从统计学的角度来做分类了
可以理解为由样本生成高斯分布再用海龟的数据去找到在高斯分布的位置
散点来推测密度函数极大似然估计
每个高斯都有可能sample出所有的79个点但是 sample出79个点的可能性是不同的 每个点被独立sample出来的机率独立相乘 找出一个Gaussiansample出这79个点的概率是最大的 likelihood最大 取微分以下找极值
最大似然估计 mean和variance通过最大似然分别求微分偏导得到 每个宝可梦用个向量来表示他的各种特 热力图怎么做出来的所有平面上的点全都代入一遍两个高斯么
机器学习可以在高维空间处理问题在七维空间上说不定 重叠在boundary上的样本点是分开的,分界线boundary更加的明显每个宝可梦通过七个数字的向量来表示feature
covariance matrix 协方差矩阵 不同的class可以share同一个covariance matrix 和input的feature size的平方成正比
feature size很大的时候covariance matrix增长很快
如果把2个不同的Gaussian都给不同的covariance matrix model的参数可能太多了参数一朵variance方差就大容易overfitting
为了减小参数描述这两个类的feature分布的Gaussian故意给他们相同的 covariance matrix 强制共用同一组 covariance matrix 为了减少model复杂度共用一个协方差矩阵使得概率密度分布的散布程度在class1和class2的分布上是一样的 这时就要同时基于c1和c2的样本概率去求两个分布各自的均值和共同的协方差矩阵
为减少模型复杂度去共用一个协方差而不是共用一个均值因为显然class1和class2在特征分布图上有不同的几何中心而modify散布程度的自由性更大
bishop指的是Bishop - Pattern Recognition And Machine Learning
把原来两个Gaussian各自算的covariance matrix加权平均得到强制要求用共同的Gaussian时对应的所得到的covariance matrix
就是一种加权平均的策略权重根据个数来设定被你可以换成均值之类的都可以的
均值比方差更能代表 两组 之间的 差异 方差主要是显示组内差异
使用共同的covariance matrix之后the boundary变成了linear的
在高维空间中分类的准确率大大提高了 人没办法知道机器在运作中的复杂缠绕的机理 没有什么原理就是纯工程上觉得it just works 二维feature很少人一看就知道分界线和分类的好坏
个人理解共用协方差只是为了减小模型的复杂度这只是在基于自己决定好model结构的基础上去优化一下model从而获得model在分布上有更小的误差 结果是很trivial的
选别的几率模型 简单模型参数比较少bias小variance大 复杂的模型对应相反
binary feature 说使用Gaussian模型机率 分布产生的不太合理 这时可能会选择用 Bernoulli distributions 伯努利分布 伯努利分布Ber-nn1其实就是0-1分布
inner product数量积内积