电商网站开发 上海,微信红包网站制作,今天刚刚长沙,电子商务主要就业方向OpenKG地址#xff1a;http://openkg.cn/dataset/melbenchGitHub地址#xff1a;https://github.com/seukgcode/MELBench开放许可协议#xff1a;CC BY-SA 4.0 #xff08;署名相似共享#xff09;贡献者#xff1a;东南大学#xff08;汪鹏、周星辰、邓臻凯、李国正、谢… OpenKG地址http://openkg.cn/dataset/melbenchGitHub地址https://github.com/seukgcode/MELBench开放许可协议CC BY-SA 4.0 署名相似共享贡献者东南大学汪鹏、周星辰、邓臻凯、李国正、谢佳锋、吴江恒1. 摘要多模态实体链接是多模态数据处理的基础任务之一旨在将多模态数据中的实体链接到知识图谱中在多模态数据理解、多模态知识图谱、多模态问答中具有广泛应用意义。然而目前开源和能重现的多模态实体链接数据集还很少一定程度上制约着相关工作的研究。东南大学团队发布的多模态实体链接数据集MELBench包含3个任务Weibo-MEL、Wikidata-MEL和Richpedia-MEL数据集数据源分别包含来自社交媒体、百科知识和多模态知识图谱等领域分别包含2.5万、1.8万和1.7万条多模态实体链接数据每条数据均为人工标注包含与目标实体相关的文本信息和视觉信息。该数据集能够为多模态实体链接MEL任务提供基准数据支持。2. 多模态实体链接(MEL)实体链接EL是将实体描述映射到知识图谱中相应实体的任务在语义检索、推荐系统和问答系统等任务中起到重要的作用。现有的方法主要利用文本信息进行实体链接。然而一方面通过简短粗略的文本获取相应的实体具有很大的挑战性。另一方面在现实世界的数据中例如社交媒体、百科知识和多模态知识图谱等领域数据通常同时使用文本和视觉信息描述相应实体。因此有必要结合多模态信息解决EL问题这一任务也被称为多模态实体链接MEL。3. 数据集构建为了构建大规模MEL数据集促进相关研究我们提出了一种MEL数据集构建方法包括五个阶段如下图所示。在多模态信息抽取阶段我们选择不同的现实世界多模态数据源提取文本和视觉信息在提及抽取阶段我们从文本信息中获取提及并保留可能存在相应实体的提及在实体抽取阶段我们用上一阶段保留的提及查询知识图谱收集相关实体列表并保留提及相应的实体在三元组构建阶段我们将相应的提及和实体合并为提及-实体对并将它们与多模态信息抽取阶段获取的文本和视觉信息合并为MEL三元组最后在数据集构建阶段我们按照7:1:2的比例将数据分为训练集验证集和测试集。4. 数据集详情基于上述的MEL数据集构建方法我们完成了三个MEL数据集构建Weibo-MEL 采用微博作为多模态数据源并采用 CN-DBpedia 作为知识图谱。数据集包含 25,602 个样本对应 31,516 个提及-实体对。Wikidata-MEL 采用 Wikidata 和 Wikipedia 作为多模态数据源并采用 Wikidata 作为知识图谱。数据集包含 18,880 个样本对应 22,534 个提及-实体对。Richpedia-MEL 采用 Richpedia 和 Wikipedia 作为多模态数据源同样采用 Wikidata 作为知识图谱。数据集包含 17,806 个样本对应 20,752 个提及-实体对。此外我们统计了数据集的文本长度和提及数量如下图所示三个数据集具有较大差异体现了不同领域的数据特征。5. 致谢数据集由东南大学KGCODE实验室的周星辰、邓臻凯、李国正、谢佳锋、吴江恒等同学完成指导老师汪鹏。 OpenKGOpenKG中文开放知识图谱旨在推动以中文为核心的知识图谱数据的开放、互联及众包并促进知识图谱算法、工具及平台的开源开放。点击阅读原文进入 OpenKG 网站。