网站挂黑链,北京平台网站建设价格,深圳市建设工程造价信息,百度怎么搜索网址打开网页知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义#xff08;RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更…知识表示的重要性 知识是智能的基础 机器可以获得知识机器可以运用知识符合计算机要求的知识模式 计算机能存储处理的知识表示模式数据结构ER模型Sql与RDF模型SPARQL对比 关系模型 关系显式定义RDF) 关系隐式定义(ER)(理解后写出来的表 数据变更时 RDF--数据变更可以很容易实现 ER--要加表了sql语句也要更改 数据智能性如何体系那 图加点和边很容易典型知识项目的知识表示 总结 DBPedia 本体层使得知识图谱的描述更规范且可推理数据层使得抽取和构建更方便对于专业领域知识图谱会先定义本体层然后依据约束来提升数据质量YAGO2 Freebase 有CVT--可以多元关系 Wikidata 多元关系 ConceptNet5 允许自然语言句子模板三元关系 多元关系 NELL实用的知识表示 同时为人和机器设计表达能力够用就好不苛求逻辑的完备性易于扩展能够非常方便的增加新的类、实体和关系是数据模型不少商业化的知识图谱未采用RDF/OWL--还是用关系数据库实现但可与RDF/OWL做对应Protege使用知识图谱的实例 用于本体构建的软件https://protege.stanford.edu/products.phphttps://webprotege.stanford.edu/#projects/dfa2f55b-84c3-4f7b-a256-3a6639f57b9f/edit/Changes%20by%20Entity?selectionClass(%3Chttp://www.semanticweb.org/ontologies/2017/9/untitled-ontology-2%23%E5%A5%B3%E4%BA%BA%3E)知识的特性 相对正确性不确定性可表示性可利用性知识表示 定义 对事物本身的替代---可以通过思考不用行动确定事物的来龙去脉前因后果 是本体约定ontological commitment的集合 用什么术语terms 羊叫羊方法 自然语言最广泛对人友好符号表示方法 符号知识表示 谓词逻辑一阶谓词逻辑https://blog.csdn.net/weixin_40485502/article/details/103874579https://blog.csdn.net/weixin_40485502/article/details/103872864 谓词 词组用途描述对象属性、或对象间关系命题 谓词--用于其一个term元祖表示一个属性或objects之间的关系 Brother(John,Fred)Left-of(Square1,Square2)语义在特定场景interpretation中的真假值复杂命题通过逻辑连词构建 量词全称量词和存在量词-- 目标无需枚举 TBox:内涵知识 引入概念以及关系的名称声明包含关系的公理ABox外延知识又称断言知识描述论域中特定个体语义网semantic net 启发idea 人脑记忆信息片段的连接相关概念好回忆是通过语义关系连接的概念网络(语义关联表示为相互连接的节点-弧-节点 节点---实体、属性、事件、值边---关系 Is-A属于一类instance-Of实例part-Of 部分Modifiles: on /down/up/bottom/moveto……领域特定关系 医疗症状、治疗、病因……金融收购、持有、母公司……示例 框架 思想以框架记忆新事物框架补充表示 Frame一个典型知识--- slot的集合---》 表名其与框架相关的对象 可以是其他frame/Procedure/slot槽名(slot names槽值slot fillers 约束两类Frame 类Frame--面向对象中的Class-----subclass_of-Class Frame(父类---可继承默认属性实例--Object---instance_of-Class FrameSlots---variables/methods分类 静态的 动态的过程性的脚本--剧本/函数 与框架类似是描述特定上下文中原型事件的序列的结构化表示一组槽---特定领域内一组事件的发生序列 一组紧密相关的动作改变状态的框架组成元素 进入条件 进入的前提变量 角色 出现人物的槽道具 出现物体的槽代码--场景 事件发生的顺序一个时间--多个场景每个场景--可以使其他脚本输出--结局 事件发生的结果示例 逻辑程序缺省逻辑模态逻辑语义网semantic web--语义外 数据万维网 目标-使万维网变成全球开放知识共享平台技术语义网 目标 在web上发布结构化数据在不同数据源的数据之间建立链接提供了一套描述数据而设计的表示语言和工具---用于形式化地描述一个知识领域的概念、术语和关系 HTML--文档间关系描述事物间关系 1.用URI统一资源标识符--事物的名字2.查看URI时提供有用的信息用RDF、SPARQL标准 RDF 代表含义 R-页面图片视频等任何具有urI标识符D属性特性和资源之间的关系F:模型语言和这些描述的语法表述对象web sources)间关系的简单语言三元组subjectpredicateobject)主谓宾---陈述对象的知识、对象间带类别的关系 图模型变成点-边 图 可简化 可定义为字符串 可定义类型 是通用模型可有多种格式 XML.T-Triples,N3,Json-LD……空白节点 为了描述多元关系复杂关系允许空白节点一个资源可以是匿名的 即不被URI标识并标记为_:xyz eg:Haofen是某一次KG讲座的讲者 一个边一跳两个边二跳的关系并不关心是哪一次讲座只是一个桥梁而已RDF是数据模型不是序列化格式 假设开放世界假设 封闭世界假设 只有一个关系就意味着只有一个讲者 不在系统里的就是没有缺失并不等于没有只有一个关系不意味着只有一位讲者 RDF允许分布式的定义知识 分布式定义的知识可以自动合并--合并知识融合 扩展 带标注的RDF(S)--annotated RDF 时间,不确定性空间,信任等YAGO2使用带标注的rdf语法s,p,o):\lambda \lambda是个标志eg:(特朗普 就职总统2017年1月缺点 可以表示一些简单的语义但在更复杂的场景下rdf语义表达能力显得太弱还缺少诸多常用的特性 值域只定义了全局值域无局部值域类属性个体的等价性无法声明不相交集的定义RDF只能声明子类关系如男人和女人都是人的子集但无法说明这两个类是不相交的 。RDFSS-Schema RDF的扩展为RDF定义许多小的词汇集如Class,subClassOf,type,Property,subPropertyOf,Domain,Range多了术语表--描述RDF资源的属性和类别(做了规范 结构层次体系结构 类别子类别--Class,subClassOf,type属性层次体系结构---Property,subPropertyOf定义新术语---domain,range实例 OWL--web Ontology Language本体语言 定义一些新的预定义的语言而这些语言会跟一阶谓词逻辑的可判定子集做关联这样的话在增加表示能力的同时推理的复杂度就会提升进一步提供了更多的术语来描述属性和类别 类别之间的关系5--disjointness基数cardinality--exactly oneequalityricher typing of propertiescharacteristics of properties---symmetry枚举类…… owl的三个子语言 区分 关系 等价性 owl:equivalentClass owl词汇 声明属性的传递性owl:TramsitiveProperty 声明两个属性互反owl:inverseOf 声明属性的函数性 ---唯一的一对一或多对一owl:FunctionalProperty 对称性owl:SymmetricProperty 局部约束 全称限定对所有的限定 存在限定 基数限定 声明相交性 其他 OWL2 加限制来提升效率owl2 QL--加约束后效率提升到多项式时间复杂度owl2 EL适用于医疗XML:SPARQLSPARQLProtocol and RDF Query Language RDF的查询语言基于RDF数据模型可以对不同的数据集撰写复杂的连接由所有主流图数据库支持查询结构 基本构成 变量RDF中的资源以or $三元组模板在where子句中列示关联的 三元组模板之所以称之为魔蛋因为三人组中允许变量select子句中只需要查询的目标变量 optianalleft join filter 可能没有填写年龄但是不代表他没有年龄 ---开放假设union 没有optianal所以必须要返回邮箱from 允许嵌套可跨库查询例子 查询结果 查询图 理论子图匹配另一个例子 1 查询关联交易 1 2.写出规则 3. 嵌套--简化了 sparql有啥用---跨知识库的查询实例 阿尔海默病--用于新药发现的案例 RDF很灵活单查询可能会成为噩梦 实例 怎么办 本体可以填充只是和查询之间的语义间隙---这是需要本体层的原因 JSON-LD:数据交换格式 JSON for Linking Data适用于作为程序之间做数据交换在网页中嵌入语义数据和Restful Web Service知识图谱的分布式表示 --KG Embedding在保留语义的同时将知识图谱中的实体和关系映射到连续的稠密的低维向量空间简单的例子 原来 转化为Json-LD 呈现出语义网技术的风格他们有着类似的目标围绕某类知识提供共享的术语实现更容易大家接受更轻便---能解析json的工具就能解析json-ldRDFa 通过引入名字空间的方法在已有的标签中加入 RDFa相应的属性,来使得支持 RDFa技术的浏览器或搜索引擎可以解析到从而达到优化的目的 HTML5 Microdata Microdata微数据,是在网页标记标记语言嵌入机器可读的属性数据微数据使用可以来自自定义词汇表、带作用域的键/值对给DOM做标记用户可以自定义微数据词汇表,在自己的网页中嵌入自定义的属性微数据是给那些已经在页面上可见的数据施加额外的语义。当HTML的够用时,使用微数据可以取得较好的效 分布式方法 1、张量分解 张量多维的矩阵主要用于刻画实体和关系之间的表示2、神经网络3、距离模型缺点本身面向互联网--复杂体系 特征 每个事物有唯一的URI事物间--链接关联事物之间链接显式存在并拥有类型web上的数据的结构--显式存在知识图谱---万物皆有关 知识图谱 本质语义网络Semantic Net-- 节点---实体、概念边--实体/概念间的予以关系知识图谱把不同来源、不同类型的信息链接在一起形成关系网络--提供了从关系角度去分析问题的能力知识表示 三元组Triple(headrelation,tail) 是个概念实际可以存在关系型数据库中--表的一行 实体/概念头head,尾tail关系/属性relation概念 Node 概念concept 实体/实例entity/object/instance 值value 实体entity字符串string数字number时间date枚举Enumerate高阶三元组--嵌套 与时间地点相关 美国总统特朗普开始时间2017事件 Compound Value Type (CVT)--符合值类型CVT是Freebase中的一种类型用于表示每个条目由多个字段组成的数据。 A CVT is a type within Freebase, which is used to represent data where each entry consists of multiple fields.cvt在Freebase中用于表示复杂的数据。 CVTs are used in Freebase to represent complex data.边关系 是什么 subcalsstyperelationproperty/attribute分类 Taxonomic relation--分类关系用以分类 is-ahypernym-Hyponym上下位Non-taxonomic relation缺点 领域限制 一些侧重于语言wordNetbabeInet侧重于schemaCyc,UMBEL侧重于fact:DBPedia,Yago对时空属性的建模 对动态性的实体如Event建模不足Yago3在一定程度上考虑时间和地理属性完全自动构建 自动构建是维护和保持知识图谱质量和覆盖的核心技术展望 新的知识表示模型--本体引擎用来15年了新类型的知识图 不再围绕实体和关系的存储--eg事件中心的KG自动构建技术 Freebase中71%没有出生日期新技术Distant SupervisionKG embedding知识集成如google的Knowledge Vault知识表示研究怎样用计算机符号来表示人脑中的知识以及怎样通过符号之间的运算来模拟人脑的推理过程知识建模--建立本体ontolog 建什么 概念、实体的类型概念/实体的关联关系要求可靠性方法 自顶向下--专家手工形成数据模式自底向上--实体--类 利用现有的标准转换从现有的高质量数据源中进行映射用知识图谱--抽象建模--来自不同数据源 实体抽取与合并---实体/概念属性映射与归并--属性--不同数据源中对实体的描述关系抽取---关系---数据间的关联关系文本----人类知识的重要载体 文本分析--将结构化的原始文本转化为计算机可识别处理的结构化信息的过程。 6.1文本表达 是将文本符号数字化的方法 单词的表示 单词-----语言的基本单元-----其表示学习文本处理领域的核心问题 局域性表示 单词---向量每个单词--独有且相邻的维度相互独立 独热表示 仅用一个维度向量维度词表大小仅有一个维度为1其余皆0 缺点 1.语义相似度均等无相关性。2.维度灾难优点相互独立正交-》强判别能力 配合最大熵、SVM、CRF分布式表示 可以表示不同单词之间的语义关联低维向量多于一个维度非0稠密在特征空间的向量---每个单词由其多个特征来高效表示基于分布语义假设——依据上下文利用某种上下文来学习单词的分布式表示 横向组合表示——矩阵分解模型 上下文文档两个词在同一文中可以组合担任不同语法作用。 基础——低秩逼近 原矩阵C(M*N)寻找一个Ck,rank(Ck)k,且XC-Ck的F范数最小两个矩阵差异小。当krankC)r时差异为0当krCk为C的低秩逼近 F-范数福洛宾尼奇范数 矩阵所有项的平方和LSI----隐性语义索引主题模型 词-文档矩阵C:cij为第i词在第j篇文章中出现的次数 1.SVD分解 2.特征值排序取前k个奇异值其余置0U、V不变3.得到低秩逼近Ck 说明 对于term-doc 矩阵作SVD分解后的意义在于截取top k个奇异值后(所得对角矩阵记为E_k)可以得到row、col的压缩向量表示。E_K*V_k 所得矩阵就是doc向量矩阵每个doc对应一列U_k*E_k 所得矩阵就是term向量矩阵, 每个doc同样对应一行。这些压缩表示还满足 cosine 距离近的其语义也更有相关性所以说是潜在语义。 Ck仍为M*N,但剔除了有些不重要的信息解决多词一义、语义关联问题U:词*主题取k列,k个特征向量就是k维坐标方向向量U[:,:k]sigma[:k]的一个行表示一个词向量V:主题*文档sigma[:k]VT[:k,:]的一列一个文档矩阵sigma主题相关性重要性,剔除后只保留重要信息一个主题一个维度主题占比缺点不可解释性PLSI----概率隐性语义索引 LSI引入概率图模型得到概率化解释对其使用的变量及其对应的概率分布和条件概率分布给出了明确的解释 M篇文章、N个词项--k个隐藏主题解释 来自https://www.jianshu.com/p/40fbe2bdffd3文档d主题z词w 以P(dm)选一篇文档dm属于DP(zk|dm):在Dm下主题zk属于Z的概率分布P(wn|zk):在主题zk下词项wn属于W的概率分布联合概率P(dm,wn)P(dm)P(wn|dm) 其中带上隐藏的主题 最终 其似然函数——Em求解 因为Z是隐变量n(dm,wn)是dm和wn共同出现的次数 EM算法 来自https://blog.csdn.net/yangliuy/article/details/8330640课件中没有 估计的参数 E:以当前参数--求后验概率 M最大化似然函数的期望得到参数的新的值 其中P(zk|di,wj)从E步中已知约束条件 所以可以写出拉格朗日函数 对其求偏导 联立求解结果 LDA-----隐性狄利克雷分析 一种应用更广泛的主题模型 其文档生成过程 1.假设要生成的文档dm属于D,长Nm,为其选定一个主题分布sitam)服从dirichelet分布狄利克雷分布https://www.zhihu.com/question/26751755 ta分布是假设变量服从二项分布时对那个p引入的分布。它特别好的一点在于使用贝叶斯公式时在学习过程中后验分布和先验分布形式一致只是参数不断得到修正。这样先验分布和后验分布形式相同时我们称他们为共轭分布only a term,不用管它。(|)(|)()/(),这里(|)就是二项分布公式()就是分布下面就是归一化常数P(p|x)P(x|p)P(p)/P(x),这里P(x|p)就是二项分布公式P(p)就是beta分布下面就是归一化常数最后的结果P(p|x)和P(p)都是beta分布只不过对初始参数进行了修正。这就是一个bayes学习过程。狄利克雷分布只不过把二项分布推广成多项式分布即每次取值集合扩大了。史泊琛2.生成dm的第n个词dmn时首先在sita(m)下生成主题znzn服从mutinomial(sita(m))多项式分布 3.词项betazn)服从狄利克雷分布此时依靠多项式分布P(dmn|beta(zn))P(dmn|zn,beta)生成dmn得到联合概率分布 为求得生成dm的概率在上式中对连续变量sitam)求积分对zn(离散求和 生成整个语料库的概率各文章的乘积 解释史泊琛《大数据分析》https://blog.csdn.net/Yellow_python/article/details/83097994代码https://www.jiqizhixin.com/articles/2019-06-12-8 主题——多项式分布(参数sita未知让sita服从狄利克雷先验主题在所有单词上的分布~狄利克雷稀疏--beta 少部分与主题相关的词出现的多而其他少纵向组合表示 纵向可替换关系上下文使用其周边单词 NPLM-----神经网络概率语言模型只考虑上文 训练一个语言模型--》得到单词表示(n-gram)DNN NPLM 1.输入层输入x2.隐藏层tanh(dHx)3.输出层ybQxtanh(dHx)只考虑上文前n个词核心思想相似的输出需要相似的输入避免了n-gram的复杂的平滑算法缺点受此表影响大耗时 CW——排序学习模型 改进 1.同时使用了单词的上下文2.对单词序列打分使用了排序损失函数而非基于概率的吉大似然估计。loss s 该loss的目标尽量使正确的比随机替换后的得分高于1Word2Vec——上下文预测模型 与NLPM相比去除了非线性隐层 CBOW 对CBOW来说输入是中心词上下文window_size*2大小的词向量第一层有词汇表大小的神经元使用softmax计算每个神经元的输出即对应中心词的产生概率。第二层用argmax找最大的概率的索引对应的单词作为中心词预测输出。这个公式就是softmaxskip-gram skip-gram只不过是反过来输入是一个词向量第二层输出层有词汇表大小的神经元softamx计算前2*window_size大小个单词作为上下文预测输出。优化 问题 softmax计算量大层次化softmax V-词汇表负采样google的层次化softmaxhttps://www.cnblogs.com/pinard/p/7243513.html 改进 首先对于从输入层到隐藏层的映射没有采取神经网络的线性变换加激活函数的方法而是采用简单的对所有输入词向量求和并取平均的方法。huffman树层次softmax计算量V-》log2V word2vec采样了霍夫曼树来代替从隐藏层到输出softmax层的映射———》只要沿着树形结构计算即可操作 往哪里走--二元逻辑回归 在word2vec中我们采用了二元逻辑回归的方法即规定沿着左子树走那么就是负类(霍夫曼树编码1)沿着右子树走那么就是正类(霍夫曼树编码0)。判别正类和负类的方法是使用sigmoid函数sita-要训练的参数xw词向量 对于上图中的w2w2如果它是一个训练样本的输出那么我们期望对于里面的隐藏节点 n(w2,1)的P(−)概率大n(w2,2)的P(−)概率大n(w2,3)的P()概率大。最大化似然 梯度 CBOW的实现 输入到隐层——平均即可 梯度更新sita和xwSG 输入-隐层xw输入更新使得P(xw|xi) P(xi|xw)也可但word2vec用的是上面南哥不是对xw更新而是对2c个输出迭代更新 Glove——全局上下文模型 对比 Word2vec上下文glove 上下文单词共现 将全文统计信息与句子信息相结合符号 Xi:单词wi出现次数Xik单词wi与wk共现的次数P(wk|wi) 比率与相关性 每个单词的软约束 目标函数 评价方法 相似度评价 方法 余弦欧式数据集 wordsim353rarewordsimlex-999单词类比 a之于b正如c之于特征 单词可作为特征在具体任务中进行评价句子的表示 传统表示方法 词集模型set of words 向量长单词表表长向量内容1-该单词出现过0-未出现不记录语序、语法词袋模型bag of words 向量长单词表长内容0-未出现n0出现次数不记录语序、语法比词集多了频度TF-IDF模型 思想如果某个词或者短语在一篇文章中出现的频率TF高并且在其他文章出出现少,则有高的类别区分能力--适合分类TF-词频 出现次数/所有单词数 IDF-逆文档频率 词语普遍重要性的度量log总文档数/出现的文档数 TF-IDF TF*IDF 某一特定文档的高频词以及其在所有文档中低文档频率则高趋于过滤常见词保留重要的词语分布式表示方法 主题模型 将句子/文档表示为主体分部文档相关性 字面的词语重复度文字背后的语义关联对文字后所隐含的主题建模 能够自动找到语义主题 LSIPLSILDA结果 文档和单词的分布式表示若把单个句子按文档处理---句子的分布式表示基于单词分布式表示组合的表示方法 句子基于单词的分布式表示思想对单词的分布式表示-----组合/选择---》句子的分布式表示 特征组合、提取方法 CNN 第i句n个k维词向量h步长句子长度RNN 5种策略 h(t)最后一个做橘子特征输出的均值或拼接双向RNN所有RNN输出的mean-pooling或max-poolingRNNAttention:时间点不同权重不同RCNN:每层RNN的输出向量经过一层CNN和max-pooling得到句子表示RecNN递归 像语法树自底向上遵循语法规则结果Zn最终的实现效果依赖于输入文本的语法树--需要更多时间DAN(Deep Averaging Networks) av-最简单的无序模型增加隐藏层进行特征提取--得到更深层次的具体表示也可理解为--词向量的平均采用多层网络来进行具体的分类任务原始语料直接学习的表示方法 直接生成会更直接基于单词的依赖于单词表示paragrah2vec无监督https://blog.csdn.net/lihaitao000/article/details/52298922依据句子本身语义推断上下文以上下文推断句子语义 PV-DM(段落向量的分布记忆模型 近似于分类任务思想 入句子id前k个单词目标预测下一个单词每次预测时都考虑了整个句子的语义 训练SGD最大化文档D的似然函数结果输出矩阵W和D得到单词和句子的分布式表示 矩阵W-一列一个词向量D-一列一个句子向量pS: 句子的标识Token被当做另外一个“词”看待。它扮演一个“Memory”的角色用来记忆当前文本或文章主题中漏掉了什么。因此我们把这个模型称为“句向量的分布记忆模型”(PV-DM: Distributed Memory Model of Paragraph Vectors)。 我们可以把这些特征直接用于传统的机器学习技术比如逻辑回归、支持向量机或者K-means聚类。无监督考虑词序慢PV-DBOW句向量的分布词袋----无词序句向量---类似Skip-gram 输入句向量 输出该句中随机采样的词有点 需要存储的数据少只存输出层参数 softmax 权重不用保存但词向量PV-DM PV-DBOW 结合 可以把每一个句向量当作两个向量的组合一个通过 PV-DM 训练另一个通过 PV-DBOW 训练。PV-DM 能够很好地执行多种任务但是它结合 PV-DBOW 后常常能够更加出色完成任务。6.2文本匹配 基于规则的文本匹配、基于学习的文本匹配 文本处理——抽象为——文本匹配问题 信息检索查询项《——》文档问答系统问题《——》答案对话问题前文《——》回复机器翻译中文《——》英文复述问题原句《——》改写挑战 词语多元一词多义短语结构性机器学习——学习机器文本匹配的层次性词-短语-句子-段落-篇章 方法 基于规则的文本匹配---用于大规模的信息初次筛选任务 启发式规则 建模对两段文本共现词的分布模型 BM25 基于词袋检索排序函数目标评价查询项与文本的相关性特点 1.分割查询项--查询词2。只考虑查询词出现的文档排序依据结合词频和逆文档频率IDF的打分函数 0.5-避免出现0查询似然模型query likelihood model) 用于信息检索目标衡量查询项与文档的相关程度定义似然概率--给定查询项Q的情况下产生文档D的概率 对于同样的查询项P(Q)相等P(D):每个文档等概率产生-相等所以推出 最终 K(Q)常数q查询词给定文档D后查询词q的产生概率P(q|D)频率--估计概率因为不知道文档的真是语言模型因此通过查询词在文档中出现的频率基于学习--用于精细排序任务 有监督学习--准确性高 基于人工特征的排序学习模型 人工特征--拼接为特征向量表示文本 人对数据的理解--设计抽象的特征表示如BM25、TF-IDF 分类 基于文本内容 如关键词、文本类型、文本长度……当前文本与其他文本够早的关系图上的PageRank重要度特征基于文本交互 关键词匹配的数量、BM25、查询似然模型得到的匹配度得分设计出来的邻近度特征排序学习 输入特征向量输出匹配度分类 基于单样本的PointWise排序算法 输入以单个查询项-文档样本的特征向量输出实数-匹配度假设学习一个打分函数特征向量-匹配度以此排序loss:建模成分类问题或回归问题--这两种loss都可以用 回归问题 分类问题 https://www.cnblogs.com/massquantity/p/8964029.html预测得分大于阈值相关否则无关基于样本对的PairWise 输入一对查询项-文档样本的特征向量查询项同文档不同标注的匹配度有差异输出-11.匹配度的比较结果假设一对特征向量--偏序的映射函数loss: 分类问题铰链损失hinge loss) Hinge Loss 是机器学习领域中的一种损失函数可用于“最大间隔(max-margin)”分类其最著名的应用是作为SVM的目标函数。 在二分类情况下公式如下 L(y) max(0 , 1 – t⋅y)其中y是预测值(-1到1之间)t为目标值(1或 -1)。其含义为y的值在 -1到1之间即可并不鼓励 |y|1即让某个样本能够正确分类就可以了不鼓励分类器过度自信当样本与分割线的距离超过1时并不会有任何奖励。目的在于使分类器更专注于整体的分类误差。 L(y) max(0 , 1 – t⋅y)关键在于顺序关系基于样本列表的Listwise 输入一个查询项-文档集合的特征向量查询项同每一个查询项对应的所有搜索结果作为一个实例输出集合的列表--排序结果假设一对特征向量--样本排序方式的映射函数loss: KL距离两个分布概率的距离--度量相似度 1.与评价指标相关的loss2.与评价指标无关的loss训练 通过标注的结果来训练模型参数表达学习端到端 人工特征费力不通用表达学习--自动学习特征输入文本内容输出匹配度 Siamese框架 第一步计算文档表达向量 全连接神经网络CNNRNN第二步相似度函数度量--匹配度 全连接神经网络cos点积全连接网络神经张量网络评价方法 分类准确率文本匹配--2分类匹配1不0.Pk:前k个文档的排序准确率 按预测结果排序后前k个文档中相关文档有Yk个标注的Yk/kRk:前k个文档的排序召回率 按标注相关性排序后的前k个文档中相关文档数为Gk(预测的Gk/kMAP(mean average precision按预测结果排序 综合考虑了所有相关文档的排序 (1/r12/r23/r3)/3MRR按预测结果排序 nDCG(normalized Discounted Cumulative Gain)归一化折扣累计收益 用于标注含有匹配度而不只是0/1这时更有效计算公式 按标注相关度排序---相关度加权和IDCG--折损收益按预测相关度排序--相关度加权和DCG结果DCG/IDCG---相关度加权和的比越大越好--趋近于1折损的目的就是为了让排名越靠前的结果越能影响最后的结果。https://www.cnblogs.com/by-dream/p/9403984.html归一化目的 NDCG Normalized 的DCG由于搜索结果随着检索词的不同返回的数量是不一致的而DCG是一个累加的值没法针对两个不同的搜索结果进行比较因此需要归一化处理这里是处以IDCGIDCG为理想情况下最大的DCG值。6.3文本生成 文本生成任务、方法与评价方式 文本生成简介 文本生成亦称为自然语言生成(Natural LanguageGeneration, NLG) 数据---文本的通过图片或者视频等数据生成图片的摘要或者视频的描述等典型的应用就是视频评论生成、图片标题生成等文本---文本从文本生成语言句子典型的应用就是自动摘要、翻译模型、人机对话等输出文本代表 人机对话生成图片标题生成任务组成 1. 内容确定决定在文本中包含哪些信息 要什么内容不要什么内容--内容筛选取决于目标受众/系统意图---想做什么 eg讲篮球只保留与篮球相关内容2. 文本顺序确定呈现句子的文本顺序 早期依赖于领域的结构化规则 eg:赛前介绍-队员介绍-比赛实况现在机器学习得到3. 文本归并合并决定每个句子中呈现哪些信息进行句子合并 去除语义一样的句子冗余的合并为一早期依赖于应用领域手工定义现在数据驱动--由相似性找到要合并的4. 词汇化找到正确的词汇和短语来表达信息 选择词汇--依赖于上下文/情感/有效性---还有一词多意同义词/一意多词简单原文--不灵活5. 引用表达式生成选择领域对象需要识别的单词和短语 eg:篮球比赛的得分等具体准确的实体---专有名词6. 语言实现将所有的单词和短语组合成句子 人工定义模板基于语法的模板统计学方法输入任意文本生成方法---数据导向的 基于马尔科夫语言模型的生成方法(无记忆特性 构建P(W|S),输入状态S下生成语言W的条件概率具体用隐藏变量来描述w和s的关系缺点局部性无多轮对话的长距离依赖基于深度学习的Seq2Seq模型 输入XY对 机器翻译X是源语言句子Y是目标语言句对话X是上一句话Y是回复输出X--生成--Y结构多层LSTM(encoder)---深层LSTM(decoder) ?? 增加attention--增强对齐 文本生成任务 人机对话生成 由D和之前生成的词预测下一个词---积为条件概率 核心问题 对话一致性 通用回复我不知道那是什么有趣其他 LiSeq2seq簇搜索--多个候选回复--选互信息大的Li:强化学习训练奖励互信息、无聊回复程度、话题一致性等对话多样性 对同一句回不同但合理的回复方法 1.簇分组惩罚机制--使组间相似度低保证候选回复差异大2,。f(原句向量,风格向量)线性变换--》生成不同风格的句子多轮对话长距离依赖 利用好上下文方法层次化RNN 1层的-RNN:得到句子的隐层表达2-RNN:再编码得到句子级别的向量表示对该向量进行回复和生成的扩展---可获得整个上下文的语义图片标题生成 输入静态、无序的图像输出连续的文字标题形式化表示 过程 图像分析 1.检测 人/物--与语言结构映射如树/模板2.场景分析 分析整体物体间空间关系使用场景更全面的表征 RGB直方图尺度不变的特征变换、低纬度的空间表示3特征提取 CNN AlexNet,VGG.Caffe标题生成或检索方法 基于模板或树结构 将检测的特征--映射--输出的语言结构 对象--名词空间关系--介词缺点缺乏可变性基于语言模型 有点促进图像语言对的联合训练有创造性、表达力LSTM/RNN问题标题生成--》预测下一个单词基于检索和重组 检索训练数据--标题优点语言完整流畅egHodosh:通过查询图像的标题和解析的图像基于WordNet找最相似的标题生成文本的评价方法 内在评价方法 衡量系统性能与文本质量相关基于语料库的仿人工评价 n-gram重合度句子距离内容重合度人的主观评价 专家按照标准 可读性、流畅性准确性。充分性。相关性。正确性缺点 标准常见但不全评估者间存在差异和可靠性 解决交叉打分、迭代---成本大外在评价方法 系统实现了任务目标否取决于具体的应用领域、和具体目的缺点 时间费用依靠足够的用户群应用 机器翻译智能问答信息检索情感分析