侠客推 网站建设,终身免费网站建设,纪检网站建设,上海百度提升优化监督学习
用一个例子介绍什么是监督学习把正式的定义放在后面介绍。
假如说你想预测房价。前阵子#xff0c;一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来#xff0c;看起来是这个样子#xff1a;
横轴表示房子的面积#xff0c;单位是平…监督学习
用一个例子介绍什么是监督学习把正式的定义放在后面介绍。
假如说你想预测房价。前阵子一个学生从波特兰俄勒冈州的研究所收集了一些房价的数据。你把这些数据画出来看起来是这个样子
横轴表示房子的面积单位是平方英尺纵轴表示房价单位是千美元。那基于这组数据假如你有一个朋友他有一套750平方英尺房子现在他希望把房子卖掉他想知道这房子能卖多少钱。
那么关于这个问题机器学习算法将会怎么帮助你呢 我们应用学习算法可以在这组数据中拟合一条直线根据这条线我们可以推测出这套房子可能卖也可以用二次方程去拟合可能效果会更好。根据二次方程的曲线我们可以从这个点推测出这套房子能卖接近。稍后我们将讨论如何选择学习算法如何决定用直线还是二次方程来拟合。两个方案中有一个能让你朋友的房子出售得更合理。以上就是监督学习的例子。
监督学习指的就是给学习算法一个数据集。这个数据集由“正确答案”组成。在房价的例子中我们给了一系列房子的数据我们给定数据集中每个样本的正确价格即它们实际的售价然后运用学习算法算出更多的正确答案。比如你朋友那个新房子的价格。用术语来讲这叫做回归问题回归这个词的意思是我们在试着推测出这一系列连续值属性。。我们试着推测出一个连续值的结果即房子的价格。
一般房子的价格会记到美分所以房价实际上是一系列离散的值但是我们通常又把房价看成实数看成是标量所以又把它看成一个连续的数值。
再举另外一个监督学习的例子。假设说你想通过查看病历来推测乳腺癌良性与否假如有人检测出乳腺肿瘤恶性肿瘤有害并且十分危险而良性的肿瘤危害就没那么大所以人们显然会很在意这个问题。 让我们来看一组数据这个数据集中横轴表示肿瘤的大小纵轴上我标出1和0表示是或者不是恶性肿瘤。我们之前见过的肿瘤如果是恶性则记为1不是恶性或者说良性记为0。
我有5个良性肿瘤样本在1的位置有5个恶性肿瘤样本。假设说A同学的肿瘤大概这么大那么机器学习的问题就在于你能否估算出肿瘤是恶性的或是良性的概率这是一个分类问题。
分类指的是我们试着推测出离散的输出值0或1良性或恶性而事实上在分类问题中输出可能不止两个值。比如说可能有三种乳腺癌所以你希望预测离散输出0、1、2、3。0 代表良性1 表示第1类乳腺癌2表示第2类癌症3表示第3类但这也是分类问题。
因为这几个离散的输出分别对应良性第一类第二类或者第三类癌症在分类问题中我们可以用另一种方式绘制这些数据点。
现在我用不同的符号来表示这些数据。既然我们把肿瘤的尺寸看做区分恶性或良性的特征那么我可以这么画我用不同的符号来表示良性和恶性肿瘤。或者说是负样本和正样本现在我们不全部画X良性的肿瘤改成用 O 表示恶性的继续用 X 表示。来预测肿瘤的恶性与否。
在其它一些机器学习问题中可能会遇到不止一种特征。举个例子我们不仅知道肿瘤的尺寸还知道对应患者的年龄。在其他机器学习问题中我们通常有更多的特征我朋友研究这个问题时通常采用这些特征比如肿块密度肿瘤细胞尺寸的一致性和形状的一致性等等还有一些其他的特征。这就是我们即将学到最有趣的学习算法之一。
那种算法不仅能处理2种3种或5种特征即使有无限多种特征都可以处理。 上图中我列举了总共5种不同的特征坐标轴上的两种和右边的3种但是在一些学习问题中你希望不只用3种或5种特征。相反你想用无限多种特征好让你的算法可以利用大量的特征或者说线索来做推测。那你怎么处理无限多个特征甚至怎么存储这些特征都存在问题你电脑的内存肯定不够用。我们以后会讲一个算法叫支持向量机里面有一个巧妙的数学技巧能让计算机处理无限多个特征。想象一下我没有写下这两种和右边的三种特征而是在一个无限长的列表里面一直写一直写不停的写写下无限多个特征事实上我们能用算法来处理它们。
现在来回顾一下这节课我们介绍了监督学习。其基本思想是我们数据集中的每个样本都有相应的“正确答案”。再根据这些样本作出预测就像房子和肿瘤的例子中做的那样。我们还介绍了回归问题即通过回归来推出一个连续的输出之后我们介绍了分类问题其目标是推出一组离散的结果。
现在来个小测验假设你经营着一家公司你想开发学习算法来处理这两个问题
你有一大批同样的货物想象一下你有上千件一模一样的货物等待出售这时你想预测接下来的三个月能卖多少件你有许多客户这时你想写一个软件来检验每一个用户的账户。对于每一个账户你要判断它们是否曾经被盗过
那这两个问题它们属于分类问题、还是回归问题?
问题一是一个回归问题因为你知道如果我有数千件货物我会把它看成一个实数一个连续的值。因此卖出的物品数也是一个连续的值。
问题二是一个分类问题因为我会把预测的值用 0 来表示账户未被盗用 1 表示账户曾经被盗过。所以我们根据账号是否被盗过把它们定为0 或 1然后用算法推测一个账号是 0 还是 1因为只有少数的离散值所以我把它归为分类问题。
以上就是监督学习的内容。 无监督学习
我们将介绍第二种主要的机器学习问题。叫做无监督学习。 回想监督学习的数据集如图表所示这个数据集中每条数据都已经标明是阴性或阳性即是良性或恶性肿瘤。所以对于监督学习里的每条数据我们已经清楚地知道训练集对应的正确答案是良性或恶性了。
在无监督学习中我们已知的数据看上去有点不一样即无监督学习中没有任何的标签或者是有相同的标签或者就是没标签。所以我们已知数据集却不知如何处理也未告知每个数据点是什么。针对数据集无监督学习就能判断出数据有两个不同的聚集簇。这是一个那是另一个二者不同。无监督学习算法可能会把这些数据分成两个不同的簇因此所以叫做聚类算法。
聚类应用的一个例子就是在新闻内容的自动聚类分割上通过后收集非常多的网络的新闻内容再将这些新闻分组组成有关联的新闻。因此新闻事件全是同一主题的所以显示到一起。 事实证明聚类算法和无监督学习算法同样还用在很多其它的问题上。 其中就有基因学的理解应用。一个DNA微观数据的例子。基本思想是输入一组不同个体对其中的每个个体你要分析出它们是否有一个特定的基因。技术上你要分析多少特定基因已经表达。所以这些颜色红绿灰等等颜色这些颜色展示了相应的程度即不同的个体是否有着一个特定的基因。你能做的就是运行一个聚类算法把个体聚类到不同的类或不同类型的组人……
所以这个就是无监督学习因为我们没有提前告知算法一些信息比如这是第一类的人那些是第二类的人还有第三类等等。我们只是说是的这是有一堆数据。我不知道数据里面有什么。我不知道谁是什么类型。我甚至不知道人们有哪些不同的类型这些类型又是什么。但你能自动地找到数据中的结构吗就是说你要自动地聚类那些个体到各个类我没法提前知道哪些是哪些。因为我们没有给算法正确答案来回应数据集中的数据所以这就是无监督学习。
许多公司有大型的数据库存储消费者信息我们拥有所有的顾客数据但我们没有提前知道是什么的细分市场以及分别有哪些我们数据集中的顾客。我们不知道谁是在一号细分市场谁在二号市场。那我们就必须让算法从数据中发现这一切。最后无监督学习也可用于天文数据分析这些聚类算法给出了令人惊讶、有趣、有用的理论解释了星系是如何诞生的。这些都是聚类的例子聚类只是无监督学习中的一种。
我们介绍了无监督学习它是学习策略交给算法大量的数据并让算法为我们从数据中找出某种结构。
垃圾邮件问题如果你有标记好的数据区别好是垃圾还是非垃圾邮件我们把这个当作监督学习问题。
新闻事件分类谷歌新闻的例子可以用一个聚类算法来聚类这些文章到一起所以是无监督学习。
细分市场当作无监督学习问题因为我只是拿到算法数据再让算法去自动地发现细分市场。
糖尿病这个其实就像是乳腺癌只是替换好、坏肿瘤良性、恶性肿瘤我们改用糖尿病或没病所以把这个当作监督学习就像我们在乳腺癌数据中做的一样。