中英文网站价格,专门做瓷砖的网站,工作总结及工作计划,wordpress主题个性3月22日#xff0c;上海人工智能实验室#xff08;上海AI实验室#xff09;联合新华社新闻信息中心、上海外国语大学、外研在线等#xff0c;发布全新升级的“万卷丝路2.0”多语言语料库#xff0c;通过构建多语言开源数据底座#xff0c;以人工智能赋能“一带一路”高质…3月22日上海人工智能实验室上海AI实验室联合新华社新闻信息中心、上海外国语大学、外研在线等发布全新升级的“万卷·丝路2.0”多语言语料库通过构建多语言开源数据底座以人工智能赋能“一带一路”高质量建设。
在“万卷·丝路1.0”的基础上2.0语料库新增塞尔维亚语、匈牙利语、捷克语3类语料涵盖四大数据模态共计1,150万条数据并运用精细化处理技术使数据质量达到“工业级”标准实现“开箱即用”。
开源链接https://opendatalab.com/applyMultilingualCorpus
“万卷·丝路2.0”具有多语言、大规模、多模态、高质量的特点更新速览
1. 语种数量扩充在阿拉伯语、俄语、韩语、越南语、泰语5个语种基础上新增塞尔维亚语、匈牙利语、捷克语等3个稀缺语料数据。
2. 数据模态、总量全面升级在纯文本数据基础上新增图片-文本、音频-文本、视频-文本、特色指令微调SFT四大模态数据覆盖多模态研究全链路整体数据总量超过1150万条音视频时长超过2.6万小时满足多种研究任务的需求。
3. 超精细数据多场景适用经成熟数据生产管线及安全加固结合过滤算法与当地专家人工精细化地标注质检“万卷·丝路2.0” 已成为覆盖多模态、多领域的大规模高质量数据集含20余种细粒度多维分类标签及详细的文本描述适配文化旅游、商业贸易、科技教育等不同场景为开发者提供得力助手。 为验证语料库质量与应用前景上海AI实验室研究团队基于“万卷·丝路2.0”训练出匈牙利语大模型通用能力对标国际主流大模型在本地化特色、安全性与中国关联性上表现出显著优势可适用于本地生活与中匈合作领域场景。
目前该模型已衍生出对话平台、多语言AI教师助手、AI匈中双语词典等创新应用。上海AI实验室同时与外研在线、库帕思等多家机构开展合作推动“万卷·丝路2.0”在教育、文旅、技术交流领域落地助力多语言AI生态发展。
一、新增四大模态数据满足多样化研究需求
今年1月上海AI实验室开源“万卷·丝路1.0”综合性文本语料库“万卷·丝路2.0”在1.0的基础上新增了4大模态数据可满足多领域研究人员的多样化研究需求。 1. 图片-文本视觉与语言的桥梁
● 数据构成
“万卷·丝路2.0”开源的图文数据集包含200万余张图片原始图片总大小362.174G专注于科技、自然风光、民俗传统等10个高关注度领域且数据分布均匀采用Alt-text基础描述 视觉模型生成扩展描述的双重标注大幅提升了信息丰富度。为AI大模型行业从业人员和小语种研究人员等专业人士提供了低成本获取特定语言语料的便利工具。
● 标签分布 图片-文本数据标签分布 2. 音频-文本真实交流的记录
● 数据构成
“万卷·丝路2.0”构建了涵盖8种语言的大规模语音语料库每种语言均包含200小时超高精度标注数据并结合环境噪声消除技术有效提高了音质使数据质量显著高于同类开源数据集人工校验通过率为98.2%。
数据内容聚焦社会人文、娱乐媒体、学识教育和生活文化四大主题涵盖真实对话场景记录自然交流中的语音更贴近实际生活为跨语种语音研究者提供了坚实的数据基础。
● 样例展示 越南语音频-文本样例 3. 视频-文本动态叙事场景
● 数据构成
“万卷·丝路2.0”视频-文本子集涵盖8种语言总视频片段数量超过800万条原视频总时长超过28,000小时清洗后仍保留16,000多小时的高质量内容。该数据集包括了8种语言含匈牙利语/塞尔维亚语等低资源语种填补了这些语言在视频数据集中的空白是多模态研究和低资源语种处理的宝贵资源。
数据类别覆盖广泛从科技与战略、文化、电影动画到旅行、人物、动物、访谈、音乐、新闻、教育和体育等多个领域满足多样化的研究需求为推动视频领域技术进步与应用创新提供保障。
● 样例展示 4. 特色指令微调SFT避免文化偏见
● 数据构成
“万卷·丝路2.0”特色指令微调SFT涉及了8种语言总共提供18.4万条SFT数据覆盖了本地文化、日常对话、代码、数学、科学等领域。
每个语种提供2.3万条每个语种均有3,000条由当地国家居民设计的关于本地文化的特色问答对数据其余2万条来自公开数据翻译并经一套结合规则和模型打分的质检pipeline筛选出高质量SFT数据。
● 样例展示 捷克语SFT样例 二、多元文化数据基座驱动全球化AI落地
作为全球首个聚焦一带一路研究的大规模、多模态、多领域、高质量的语料库“万卷·丝路2.0”将有效破除AI全球化进程中语言孤岛与文化断层的双重壁垒为AI普惠、跨国合作搭建数字桥梁。
上海AI实验室研究团队认为通过整合多模态数据与精细化标注技术“万卷·丝路2.0”首次实现了对低资源语言的系统性覆盖尤其扩充了塞尔维亚语、匈牙利语、捷克语等语言的高质量语料建设为文化交流互鉴带来可量化、可迭代的智能新维度。
新华社新闻信息中心上海中心副主任陈侃琪指出“万卷·丝路2.0” 的发布将构建互联互通的多元文明交融格局为更精准广泛的国际传播和更本地化的文化产品提供数据基础。通过“万卷·丝路2.0” 的多维应用媒体能够更准确地针对不同文化背景下的社会受众呈现更加多元、真实的全球新闻产品。与此同时“万卷·丝路2.0” 的建设可为语言的保护与传承提供技术赋能助力维护语言多样性为构建更加包容、互联的世界贡献中国力量。
外研在线CEO商其坤认为多语言语料库是AI时代的关键物资是教学资源开发的基础、语言保护与传承的数字化载体有助于语言节后分析与教学法优化有利于促进教育公平与全球化能力。
中旅旅行入境游欧洲市场总监周占峰表示国内入境旅游日渐升温但小语种导游从业者较为稀缺。通过“万卷·丝路2.0”既能完善入境游小语种导游的培训内容也可以打造导游智能体为入境游游客提供定制增值服务切实帮助和促进入境游发展。
“万卷·丝路”语料库下载链接https://opendatalab.com/applyMultilingualCorpus
参赛有奖上海AI实验室携手库帕思联合举办的2025·语料数据智能创意大赛火热进行中利用“万卷·丝路2.0”多语言多模态开源数据集设计满足教育、文旅等行业要求具备技术创新性与产业落地潜力的数据集构建方案即可赢取奖励欢迎大家踊跃报名https://www.kupasai.com/cicc/#/