打电话叫人做网站,公司商标注册怎么弄,wordpress 导入ppt,网页设计实训报告不足目录
一、机器学习概述
1.1 什么是机器学习#xff1f;
1.2 为什么需要机器学习#xff1f;
1.3 机器学习应用场景
1.4 机器学习的一般流程
1.5 典型的机器学习过程
二、机器学习的基本术语
三.假设空间与版本空间
四、归纳偏好
1.哪种更好
2..假设的选择原则
…目录
一、机器学习概述
1.1 什么是机器学习
1.2 为什么需要机器学习
1.3 机器学习应用场景
1.4 机器学习的一般流程
1.5 典型的机器学习过程
二、机器学习的基本术语
三.假设空间与版本空间
四、归纳偏好
1.哪种更好
2..假设的选择原则
3.没有免费的午餐No Free Lunch Theorem 一、机器学习概述
基本概念从具体到抽象
1.1 什么是机器学习
机器学习是从数据中自动分析获得规律模型并利用规律对未知数据进行预测
目前被广泛采用的机器学习的定义是“利用经验来改善计算机系统自身的性能”。
1.2 为什么需要机器学习
解放生产力智能客服可以不知疲倦的24小时作业 解决专业问题ET医疗帮助看病 提供社会便利例如杭州的城市大脑
1.3 机器学习应用场景
自然语言处理 无人驾驶 计算机视觉 推荐系统
1.4 机器学习的一般流程 1.5 典型的机器学习过程 二、机器学习的基本术语
数据集所有记录的集合
实例(instance)或样本(example)每一条记录
特征(feature)或属性(attribute)单个的特点一个记录构成一个特征向量可用坐标轴上的一个点表示
属性值(attribute value):
属性上的取值例如“青绿”“乌黑”属性张成的空间称为 “属性空间”(attribute space)、“ 样本空间”(sample space)或“输入空间”.特征空间(feature space)
分别以每个特征作为一个坐标轴所有特征所在坐标轴张成一个用于描述不同样本的空间称为特征空间在该空间中每个具体样本就对应空间的一个点在这个意义下也称样本为样本点。每个样本点对应特征空间的一个向量称为 “特征向量”特征的数目即为特征空间的维数。
维数一个样本的特征数维数灾难 训练集trainning set[特殊]所有训练样本的集合
测试集test set[一般]所有测试样本的集合
泛化能力generalization即从特殊到一般机器学习出来的模型适用于新样本的能力
标记(label)
有前面的样本数据显然是不够的要建立这样的关于“预测”(prediction) 的模型,我们需获得训练样本的“结果”信息例如“((色泽青绿;根蒂蜷缩;敲声 浊响),好瓜)”.这里关于示例结果的信息例如“好瓜”称为“标记”(label); 拥有了标记信息的示例则称为“样例”(example).
分类(classification):
若我们欲预测的是离散值,例如“好瓜”“坏瓜”此类学习任务称为分类
回归(regression)
若欲预测的是连续值,例如西瓜成熟度0.95、0.37,类学习任务称为“回归”.对只涉及两个类别的称为“二分类’(binary classification)’
聚类”(clustering)
即将训练集中的样本分成若干组,每组称为一个 “簇”(cluster);
根据训练数据是否拥有标记信息学习任务可大致划分为两大类:“ 监督学习”(supervised learning) 和 “无监督学习”(unsupervised learning), 分类和回归是前者的代表,而聚类则是后者的代表. 三.假设空间与版本空间
假设(hypothesis)、假设空间(hypothesis space)
每一个具体的模型就是一个“假设(hypothesis)”模型的学习过程就是一个在所有假设构成的假设空间进行搜索的过程搜索的目标就是找到与训练集“匹配(fit)”的假设。广义归纳学习从样例中学习
狭义归纳学习从训练数据中学得概念因此也称为“概念学习”或“概念形成”。其中最基本的是“布尔概念学习” 在这里你是否会有好多好多小问号
下面是可能取值所形成的假设组成假设空间 而我们就是要通过一定的方法来确定所谓的 “ ” 那就是学习和搜索
学习过程在所有假设组成的空间中进行搜索的过程。
搜索目标找到与训练集“匹配”的假设即能够将训练集中的瓜判断正确的假设。 特殊情况 某个因素可取任意值用*来表示目标概念根本不存在用∅来表示这个假设
设每个因素的取值分别为m1,m2,m3,…,mk则假设空间规模为: ∏(mi1)1 然后我们只需在假设空间的搜索过程中不断删除与正例不一致的假设和、或与反例一致的假设最终将会获得与训练集一致即对所有训练样本能够进行正确判断的假设
版本空间(version space)
基于有限规模的训练样本集进行假设的匹配搜索会存在多个假设与训练集一致的情况称这些假设组成的集合为“版本空间”四、归纳偏好
1.哪种更好
机器学习算法在学习过程中对某种类型假设的偏好 如图是A更好还是B更好
2..假设的选择原则
主要准则“奥克姆剃刀(Occam’s Razor)”准则又称为吝啬定律Law of parsimony或者称为朴素原则
如无必要勿增实体若多个假设与经验观测一致则选择最简单的那个
其它原则“多释原则”:
保留与经验观察一致的所有假设 (与集成学习的思想一致)
3.没有免费的午餐No Free Lunch Theorem NFL定理一个算法ℒa若在某些问题上比另一个算法ℒb好必存在另一些问题, ℒb比ℒa好
NFL定义有一个重要前提所有“问题”出现的机会相同、或所有问题同等重要。实际情形并非如此我们通常只关注自己正在试图解决的问题。脱离具体问题空泛地谈论“什么学习算法更好”毫无意义 简单起见假设样本空间χ和假设空间Η都是离散的。令P(ℎ│X,ℒa)代表算法ℒa基于训练数据X产生假设ℎ的概率。令f代表希望学习的真实目标函数。则ℒa在训练集之外所有样本上的总误差为: 考虑二分类问题目标函数可以为任何函数χ⟼{0,1},函数空间为{0,1}^|χ|对所有可能的f按均匀分布对误差求和有 总误差与学习算法无关所有算法一样好