网站制作与app开发哪个要难一点,网页传奇游戏大全,wordpress 音乐自动播放,wordpress 插件错误每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗#xff1f;订阅我们的简报#xff0c;深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同#xff0c;从行业内部的深度分析和实用指南中受益。不要错过这个机会#xff0c;成为AI领… 每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗订阅我们的简报深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同从行业内部的深度分析和实用指南中受益。不要错过这个机会成为AI领域的领跑者。点击订阅与未来同行 订阅https://rengongzhineng.io/ 在机器学习领域实践者在使用现有数据集训练模型时经常需要花费大量时间去理解数据、梳理其组织结构或确定哪些子集用作特征。这种情况严重阻碍了机器学习领域的进展因为数据表示形式的多样性构成了一个基本障碍。
机器学习数据集包括了从文本、结构化数据到图像、音频和视频等广泛的内容类型。即使是涵盖相同类型内容的数据集每个数据集也都有其独特的文件安排和数据格式。这个挑战降低了整个机器学习开发流程的效率从寻找数据到训练模型以及开发处理数据集的工具的过程都受到了影响。
虽然存在诸如schema.org和DCAT这样的通用元数据格式但这些格式主要设计用于数据发现而不是满足机器学习数据特定需求比如能够从结构化和非结构化源中提取和结合数据的能力包括能够促进数据负责任使用的元数据或描述机器学习使用特性例如定义训练、测试和验证集的能力。
现在业界引入了一个名为Croissant的新元数据格式专为机器学习准备的数据集设计。Croissant是由来自工业界和学术界的社区协作开发的作为MLCommons努力的一部分。Croissant格式并不改变实际数据的表现形式如图像或文本文件格式而是提供了一种标准化的方式来描述和组织数据。Croissant在schema.org的基础上进行了扩展该标准已被超过4000万个数据集所使用为机器学习相关的元数据、数据资源、数据组织和默认机器学习语义增加了全面的层次。
此外业界还宣布了对Croissant格式的广泛支持。从现在起三个广泛使用的机器学习数据集库——Kaggle、Hugging Face和OpenML——将开始支持他们托管的数据集使用Croissant格式数据集搜索工具允许用户在网上搜索Croissant数据集流行的机器学习框架包括TensorFlow、PyTorch和JAX可以通过TensorFlow数据集TFDS包轻松加载Croissant数据集。
Croissant的1.0版本包括了格式的完整规范、一套示例数据集、一个用于验证、消费和生成Croissant元数据的开源Python库以及一个用于以直观方式加载、检查和创建Croissant数据集描述的开源视觉编辑器。
从一开始支持负责任的人工智能Responsible AI简称RAI就是Croissant努力的一个核心目标。业界也发布了Croissant RAI词汇扩展的首个版本该扩展增加了描述关键RAI使用案例如数据生命周期管理、数据标注、参与式数据、机器学习安全和公平评估、可解释性和合规性所需的关键属性。
为什么需要一个共享的机器学习数据格式大部分机器学习工作实际上是与数据相关的。训练数据是决定模型行为的“代码”。数据集可以是用于训练大型语言模型的文本集合也可以是用于训练汽车碰撞避免系统的驾驶场景标注视频的集合。然而开发机器学习模型的步骤通常遵循相同的迭代数据中心过程寻找或收集数据、清理和精炼数据、在数据上训练模型、在更多数据上测试模型、发现模型不起作用、分析数据找出原因、重复直到获得一个可用的模型。由于缺乏一个共同的格式这些步骤变得更加困难尤其是对资源有限的研究和早期创业努力而言。
像Croissant这样的格式旨在简化整个过程。例如元数据可以被搜索引擎和数据集仓库利用以便更容易地找到合适的数据集。数据资源和组织信息简化了开发用于清理、精炼和分析数据的工具的过程。这些信息和默认的机器学习语义允许机器学习框架以最少的代码使用数据进行训练和测试。这些改进显著减轻了数据开发的负担。
此外数据集作者关心他们的数据集的可发现性和易用性。采用Croissant可以提高他们数据集的价值同时只需付出最小的努力得益于可用的创建工具和机器学习数据平台的支持。
去看看Croissant - MLCommons