网站滑动,做营销型网站 公司,响应式网站建设开发公司,杭州哪个网站建设最好问题背景 海量多模态数据#xff0c;人类认知事物也是多模态的深度学习为多模态联合学习奠定基础感知智能-认知智能多模态学习case#xff1a;微软小冰、视频平台“只看TA”#xff08;服务特定明星粉丝等#xff1a;优酷、爱奇艺等#xff09;需求#xff1a;多模态… 问题背景 海量多模态数据人类认知事物也是多模态的深度学习为多模态联合学习奠定基础感知智能-认知智能多模态学习case微软小冰、视频平台“只看TA”服务特定明星粉丝等优酷、爱奇艺等需求多模态数据从“能用”到“可用”非结构化的多模态数据结构化帮助细粒度的推理挑战 1、异构信息融合文本、图像、语音等2、从多模态数据转化成结构化的数据非常难且相较于非结构化文本多模态信息表达实体关系的方式更加复杂且多样。3、即使获取到了多模态的结构化知识如何将信息链接到对应知识仍有一定的难度多模态信息中对于同一事物的表达形式比远比文本信息更为丰富也容易受到模态间或外部信息的干扰。 如何解决 任务1:多模态实体表征 基本思路通过知识融合模块使各个模态在语义空间层面实现统一多模态对比学习基于孪生网络实现多模态的增强融合跨模态的表达存在歧义情况不加区分将舞蹈语义表征部分 任务2:多模态关系学习 为什么需要多模态信息的结构化表达采用图结构规范表达目标及其关联 如何实现多模态信息的结构化表达 思路1:采用类似知识图谱关系补全的方法补全完善目标间的关系跨模态交叉注意力三元协同注意力TCA模块用于通过注意力赋权衡量信息重要性并弥合模态差距设计对比语义采样器应对知识中普遍存在的1对多关系干扰思路2:借助大模型将目标关系识别任务转化成视频问答任务构建问题-答案查询模版输入大模型采用对比学习引导模型从上下文提炼正确的分类依据并过滤低质量信息 实体链接 多模态的实体链接挑战 语义表达不统一语义信息简略隐式语义难以挖掘部分语义需要推理获得通过多个层次交互弥补语义不足门控机制 还有哪些信息有助于实现多模态信息的实体链接 辅助共现关系作为线索关联能否转化成共现关系往往取决于所在的特定场景需要首先识别当前场景的共现概率 总结展望 大模型时代来临多模态知识学习的作用或更凸显不仅需要丰富的想象也需要严谨的推理这有赖于多模态知识与大模型的进一步结合