上海模板建站公司,公司取名大全最新版的,高明专业网站建设哪家好,给新公司建网站知识图谱与基本概念
基本概念
规则学习定义#xff1a;从训练数据中学习出一组能用于对未见示例进行判别的规则。
规则定义#xff1a;规则一般是#xff1a;语义明确、能描述数据分布所隐含的客观规律或领域概念。
逻辑规则定义#xff1a;⊕←?1⋀?2⋀?3…⋀??⊕…知识图谱与基本概念
基本概念
规则学习定义从训练数据中学习出一组能用于对未见示例进行判别的规则。
规则定义规则一般是语义明确、能描述数据分布所隐含的客观规律或领域概念。
逻辑规则定义⊕←?1⋀?2⋀?3…⋀??⊕←f_1⋀f_2⋀f_3…⋀f_L 右侧为规则体由L个逻辑文字组成的合取式。 左侧为规则头逻辑文字组成的目标类别或概念。
规则集若干个逻辑规则组成的集合成为规则集。
两种逻辑规则
命题规则由”原子命题”和逻辑连接词 与、或、非和蕴含构成的简单陈述句if-then规则。 rule1鱼类← ← (胎生 no) ∧ (在水里生活 yes) rule2鸟类← ← (胎生 no) ∧ (会飞 yes)
一阶规则描述事物的属性和关系称为关系型规则额外包含了断言和量化。
解决问题的思路
目标贪心找到一个规则集这个规则集尽可能多的覆盖样例。
分类过程总结
通过规则集对未见示例进行分类的时候我们每条逻辑规则都可以看做是一个子模型规则集就是这些子模型的集合将规则集与未见实例进行匹配若匹配成功满足规则体中的所有条件则实例被预测为正例若都不匹配则为负例。
问题
如果一个示例被多条逻辑规则覆盖时判别发生了冲突
冲突消解
投票法将判别类别相同的规则数最多的结果作为判别结果。
排序法带序规则学习/优先级规则学习排序靠前的规则判定结果为准。
序贯覆盖
基本思想是什么
逐条归纳穷尽的思想通过贪心搜索的方法来获得规则集直到规则覆盖所有正例未覆盖任何反例。
重要性几乎所有的规则学习算法都是以它作为基本框架。
穷尽搜索的逻辑过程
1. 空规则开始正例类别作为规则头再逐个遍历训练集中的每个属性与属性取值。
2. 尝试将其属性取值的逻辑文字增加到规则体中如果当前规则体仅覆盖正例学到一条规则。
3. 去除这条规则覆盖的正例以剩下的样例组成训练集再重复上述规则生成的过程。
出现一个问题
如果属性和属性取值对应的维度非常大呢组合爆炸。
生成规则的策略
自顶向下top-down特化过程容易产生泛化能力较好的规则鲁棒性较好广泛使用。
自底向上bottom-top泛化过程适合样本较少的情况。
自顶向下
思想添加新文字以缩小规则覆盖范围直到满足预定的条件为止。
1. 空规则开始逐一属性属性取值作为原子命题基于训练集准确率来评估。
2. 选出准确率最高的原子命题及其覆盖的样例进入下一轮评估若全部覆盖则生成 单条规则对剩余的样例再做上述规则生成过程。
注评估优先级顺序准确率覆盖样例数属性次序
自底向上直接将某样例的属性取值形成规则作为特殊规则再泛化。
序贯覆盖的拓展与问题
多分类问题。 例如3分类A,B,C问题将A作为正例BC作为反例同样B作为正例AC作为反例。
避免局部最优-提出的集束搜索。 通常仅考虑一个“最优”文字这种过于贪心的思想容易导致陷于局部最优。 集束搜索保留最优的b个逻辑文字。
过拟合风险-存在不必要的约束条件。 剪枝优化-预剪枝、后剪枝
剪枝优化
预剪枝 通过信息增益准则确定划分属性验证集来剪枝 1. 信息增益准则确定划分属性 2. 通过验证集划分前后的对比确定是否要预剪枝。 3. 重复1,2过程直到禁止划分贪心禁止划分存在欠拟合风险
决策树规则
定义将学习到的决策树从树的根节点到每个叶节点是一条规则很容易转换成“if-then”形式的规则。
生成过程其规则的建立依赖于树的生成树的建立过程是对整个空间的递归划分、建立局部模型的过程往往比较耗时。
规则归纳规则学习方法与决策树规则区别
相同点在构造规则过程中 1. 通过属性的信息增益不断地添加规则。 2. 通过剪枝对规则进行裁剪。
不同点 1. 不需要建立搜索树而是采用深度优先搜索策略直接从数据集生成规则且每次生成一条算法效率提高。
CN2
1989年提出引入显著性校验。
似然率统计量的信息量指标在预剪枝过程中衡量规则集覆盖样例的分布与训练集经验分布的差别。
LRS越大规则集预测与训练集经验分布的差别越大。
LRS越小说明规则集的效果越可能仅是偶然现象。
通常设置LRS0.99作为CN2算法收敛的阈值。
REPReduced Error Pruning
1991年提出。思想后剪枝的策略对规则集剪枝
1. 将样例分为训练集生长集和测试集剪枝集基于准确度贪心生成全部的规则集合。
2. 穷举所有的剪枝操作删除规则中某个文字/删除规则结尾文字/删除规则尾部多个文字/删除整体规则进行多轮剪枝验证集评估。
3. 直到无法通过剪枝提高验证集准确性。
总结非常有效但是复杂度
IREPIncremental REP
1994年提出。思想后剪枝的策略对单条规则剪枝
1. 将样例分为训练集生长集和测试集剪枝集在训练集上生成一条规则r。
2. 立即对这条规则r在验证集上对其进行REP剪枝得到规则r’。
3. 将r’覆盖的样例去除 在更新后的样例集上重复上述过程。
IREP*
1994年提出
IREP*修改规则性能度量指标替换IREP的准确率评估方法增加了对反例的评估指标。
RIPPER
1995年提出IREP*剪枝与后处理优化结合。泛化能力、速度还是比大多数决策树算法更佳。
1. 对于规则集中每条规则rRIPPER为它生成两个变体替换规则与修订规则 a. 基于每条规则r覆盖的样例用IREP*重新生成一条规则作为替换规则。 b. 对每条规则r增加文字进行特化再用IREP*剪枝生成一条规则成为修订规则。
2. 原规则集、替换规则集、修订规则集选择最优的规则集保留下来。
RIPPER成功之处
由于最初生成的规则集每条规则都没有对其后产生的规则加以考虑这样的贪心算法很容易导致陷入局部最优。 解决方案增加后处理优化部分将所有规则放在一起重新加以优化通过全局的考虑来缓解贪心算法的局部性。
归纳逻辑程序设计
ILP Inductive Logic Programming归纳逻辑程序
引入函数与逻辑表达式嵌套
作用机器学习系统具备了的很强的表达能力在先验知识的逻辑程序归纳。其学到的规则可被PROLOG等逻辑程序设计语言直接使用。
LGGLeast General Generalization最小一般泛化
主要思想自底向上的规则生成策略将“特殊”规则转变为“一般”规则。
实现步骤直接将一个或者多个正例所对应的具体事实作为初始规则再对规则逐步进行泛化以增加其对样例的覆盖率。其中泛化操作其实就是常量替换为逻辑变量或者删除规则体中的逻辑文字。
逆归结
归纳思想从个别事物出发概括一般性规律。
主要思想将貌似复杂的逻辑规则与背景知识联系起来化繁为简基于背景知识来设计新的概念和关系。 比如抽象出一种新概念以西瓜为例西瓜更甜日晒更多更新鲜需要结合背景知识来确定。
推荐阅读
RIPPER
RIPPER论文http://citeseerx.ist.psu.edu/viewdoc/summary?doi10.1.1.50.8204
RIPPER代码https://www.researchgate.net/figure/The-RIPPER-Algorithm-Cohen-1995_fig2_234828100 依然是命题规则学习的最高水平
局限性
问题规模稍大就很大去应对。现阶段更多的研究会把规则学习与统计学习相结合
统计关系模型
书籍introduction to statistical relational learning
PRM概率关系模型Learning Probabilistic Relational Modelshttps://ieeexplore.ieee.org/document/6278195?arnumber6278195 允许对象的属性在概率上依赖于其他属性和相关对象属性
MLN马尔科夫逻辑网Markov logic network https://en.wikipedia.org/wiki/Markov_logic_network 马尔科夫网络思想应用于一阶逻辑去实现不确定的推理。
应用
在dblp数据上预测怎么样的文章容易被发表和引用。
判断电影在上映后的一个星期里会不会票房达到100万。
金融欺诈想法就是和诈骗犯相关的人估计也是诈骗犯。
建议
数据集分析的先验知识下利用逆归结、自顶向下、自底向上的思想去抽象一些普遍的逻辑规则和特征帮助我们更好的分析问题。
参考链接https://blog.csdn.net/tonydz0523/article/details/84673793