做搜狗网站点,大连导游管理服务中心,google seo 优化教程,佛山关键词自动排名我自己的原文哦~ https://blog.51cto.com/whaosoft/11859244
#猎户座
「草莓」即将上线#xff0c;OpenAI新旗舰大模型曝光#xff0c;代号「猎户座」 ChatGPT 要进化了#xff1f; 本月初#xff0c;OpenAI 创始人、CEO 山姆・奥特曼突然在 X 上发了一张照片#xff0… 我自己的原文哦~ https://blog.51cto.com/whaosoft/11859244
#猎户座
「草莓」即将上线OpenAI新旗舰大模型曝光代号「猎户座」 ChatGPT 要进化了 本月初OpenAI 创始人、CEO 山姆・奥特曼突然在 X 上发了一张照片勾起了大家强烈的好奇心。
「四个红草莓其中还有一个未成熟的青色草莓这不妥妥地是在说下一代 AI 大模型 GPT-5 要来了吗」奥特曼在回应网友时也在暗示惊喜马上就来。
据科技媒体 The Information 报道传说中的「草莓」真的要来了
两位参与该项目的人士表示OpenAI 计划最早在今年秋天推出代号为 「草莓」之前称为 Q*发音为 Q Star的新人工智能作为聊天机器人的一部分可能集成在 ChatGPT 内。「草莓」 可以解决它以前从未见过的数学问题这是当今的聊天机器人无法准确做到的并且训练后还可以解决涉及编程的问题但它并不局限于回答技术问题。
据 The Information 报道OpenAI 正在开发新旗舰 LLM代号「Orion」。该模型旨在改进去年年初推出的现有旗舰 LLM——GPT-4。
而「草莓」旨在改进即将推出的「Orion猎户座」并且 OpenAI 已经向安全监管人员展示了「草莓」模型。较小版本的「草莓」可以以聊天机器人的形式推出。
知情人士表示OpenAI 正在使用较大版本的「草莓」来生成用于训练 Orion 的数据。这种人工智能生成的数据被称为「合成数据」。这意味着「草莓」可以帮助 OpenAI 克服获取足够高质量数据的限制以便利用现实世界的数据例如从互联网上提取的文本或图像训练新模型。
当给予额外的「思考」时间时「草莓」可以回答用户更主观的问题例如产品营销策略。
OpenAI 推出「草莓」是为了保持对话式人工智能或大型语言模型的霸主地位。该技术还将对未来完成多步骤任务的智能体产品产生影响。 OpenAI 希望在智能体领域开辟更多收入机会。
为什么「草莓」对「Orion」如此重要
「草莓」最重要的应用之一是为下一代旗舰大语言模型 Orion 生成高质量的训练数据。该代号此前从未被报道过。
简单来说「草莓」 可以生成更高质量的训练数据。智能体初创公司 Minion AI 的首席执行官、GitHub Copilot 的前首席架构师 Alex Graveley 表示使用「草莓」生成更高质量的训练数据可以帮助 OpenAI 减少其模型生成的错误也称为幻觉数量他还指出之所以能够做到这一点是因为「训练数据中的歧义性较少」。
这里不得不提一下OpenAI CEO 山姆・奥特曼在五月份的一次活动中曾说道「我们觉得我们已经为下一个模型提供了足够的数据我们做了各种各样的实验包括生成合成数据。」下一个模型可能指的就是「Orion」。
OpenAI 内部也在推动通过一种称为蒸馏distillation的过程来简化和缩小「草莓」。
现在还不能确定基于「草莓」的最终的产品将会是什么样子但一个显而易见的想法是将「草莓」的推理能力融入到 ChatGPT。其结果是答案可能会更准确但可能会更慢。
这意味着「草莓」可能不太适合用户期望立即得到响应的需求但非常适合对时间不太敏感的用例。
或许我们可以想象在不久的将来ChatGPT 用户可以根据自身对时间的敏感程度来打开或关闭「草莓」。
今年夏天OpenAI 已经向安全监管人员展示了「草莓」模型。此次演示可能是 OpenAI 努力向政策制定者提高透明度的一部分。
鉴于今年早些时候Ilya Sutskever 等几位安全负责人的离职对 OpenAI 来说技术透明将尤其重要。
参考链接
https://www.theinformation.com/articles/openai-races-to-launch-strawberry-reasoning-ai-to-boost-chatbot-business?rcks2jbm
https://www.theinformation.com/articles/openai-shows-strawberry-ai-to-the-feds-and-uses-it-to-develop-orion?rcks2jbm #杂文
孟瑜获杰出博士论文奖中科大获最佳学生论文KDD 2024全部奖项放出
ACM SIGKDD国际数据挖掘与知识发现大会KDD 会议始于 1989 年是数据挖掘领域历史最悠久、规模最大的国际顶级学术会议也是首个引入大数据、数据科学、预测分析、众包等概念的会议。
今年的 KDD 大会是第 30 届8 月 25 日 - 29 日在西班牙巴塞罗那召开最佳论文奖、时间检验奖、杰出博士论文奖等奖项也逐一揭晓。
其中有多位华人研究者获奖孟瑜的《Efficient and Effective Learning of Text Representations》获得了 KDD 2024 杰出博士论文奖最佳论文奖研究方向颁给了六位华人学者参与的《CAT: Interpretable Concept-based Taylor Additive Models》最佳学生论文研究方向颁给了中国科学技术大学、华为合作的《Dataset Regeneration for Sequential Recommendation》。KDD 2024 最佳论文奖应用数据科学方向由领英获得此外大会还颁发了两项时间检验奖。
杰出博士论文奖
KDD 2024 杰出博士论文奖颁发给了《Efficient and Effective Learning of Text Representations》作者是弗吉尼亚大学助理教授孟瑜Yu Meng 。
孟瑜于 2024 年加入弗吉尼亚大学 (UVA) 计算机科学 (CS) 系担任助理教授tenure-track。此前他获得了伊利诺伊大学厄巴纳 - 香槟分校 (UIUC) 的博士学位与韩家炜教授一起工作。他还曾在普林斯顿 NLP 小组担任访问研究员与陈丹琦一起工作。
论文摘要文本表示学习在广泛的自然语言处理 (NLP) 任务中发挥了关键作用。这些表示通常是通过深度神经网络将原始文本转换为向量获得的。LLM 的最新进展已经证明了学习通用文本表示的巨大潜力可适用于广泛的应用。这一成功由两个关键因素支撑
在预训练和微调中使用广泛的文本数据来训练 LLMLLM 的规模可扩展到包含数百亿甚至数千亿个参数。
因此训练 LLM 需要大量成本包括获取大量带标签的数据以及支持这些大型模型所需的基础设施。在这些挑战的基础上本文旨在开发高效且有效的文本表示学习方法涉及以下关键内容
利用球面空间进行文本表示学习。表示空间的传统选择是欧几里得空间但非欧几里得球面空间在通过方向相似性捕捉语义相关性的研究方面表现出卓越的能力。本文的工作重点是利用球面表示空间进行文本表示学习的自监督技术。
使用球面文本表示法发现主题结构。基于在球面空间中学习到的文本表示法本文开发了通过联合建模主题和文本语义自动从给定语料库中发现主题结构的方法。
使用 LLM 生成训练数据以实现自然语言理解 (NLU)。要在 NLU 任务上实现稳健的性能通常需要大量人工标注的训练样本来微调预训练的文本表示。为了减轻人工标注的需求本文开发了一种新范式使用 LLM 作为训练数据生成器来取代人工标注过程。
这些努力共同促进了文本表征更高效、更有效的学习解决了训练和使用 LLM 面临的挑战。
论文详细内容请参阅
https://scholar.google.com/citations?view_opview_citationhlenuserS2-yZKcAAAAJcstart20pagesize80citation_for_viewS2-yZKcAAAAJ:_Qo2XoVZTnwC
杰出博士论文奖亚军
此次还有两项研究获得了本届 KDD 的杰出博士论文奖亚军。 论文标题Make Knowledge Computable: Towards Differentiable Neural-Symbolic AI 机构加利福尼亚大学作者Ziniu Hu论文地址https://escholarship.org/uc/item/3ft4t0nj
论文摘要本论文探讨了神经人工智能系统与符号人工智能系统的交叉点。近年来的深度学习方法能够记忆大量的世界知识但在此基础上进行符号推理仍存在局限性而符号 AI 擅长解决推理任务但在适应新知识方面效率较低。此前将两者结合的研究主要集中在构建基于解析的系统这类系统需要大量的中间标签标注且难以扩展。
作者的研究目标是使神经模型能够以可微分的方式与符号推理模块进行交互并实现无需中间标签的端到端训练的这种神经 - 符号模型。为实现这一愿景作者开展了以下研究工作
设计新型推理模块设计可微分的神经模块能够进行符号推理包括知识图谱推理和复杂的逻辑推理。 通过自监督学习从结构化和符号知识库中获取自监督信号来训练神经模型无需额外的标注。 跨领域泛化神经 - 符号系统的模块化设计天然有助于更好地进行分布外、词汇外、跨语言和跨类型的泛化。 论文标题Artificial Intelligence for Data-centric Surveillance and Forecasting of Epidemics机构佐治亚理工学院作者Alexander Rodriguez论文地址https://repository.gatech.edu/entities/publication/aa292b79-26bb-4aec-a3f3-0fd87911ff74/full
论文摘要对流行病的监控和预测是政府官员、企业和公众进行决策和规划的重要工具。尽管人们在理解疾病如何在人群中传播方面取得了多项进展但从许多方面来看人们对流行病传播的理解仍处于初期阶段。许多主要的挑战源于复杂的动态因素如人员流动模式、政策遵守情况甚至数据收集程序的变化。随着收集和处理新来源数据的努力拥有许多变量的细粒度数据逐渐变得可用。然而这些数据集很难通过传统的数学流行病学和基于智能体的建模方法来利用。相反流行病学中的 AI 方法面临数据稀疏、分布变化和数据质量差异的挑战。 AI 技术在流行病学动态方面也缺乏理解可能会导致不切实际的预测。为了解决这些挑战并向数据中心方法迈进本论文提出了几个框架。具体来说作者通过多个实例展示了将 AI 的数据驱动表达能力引入流行病学可以实现对流行病更为敏感和精准的监控与预测。
研究方向论文奖
最佳论文
KDD 2024 最佳论文奖研究方向颁给了《CAT: Interpretable Concept-based Taylor Additive Models》。
作者Viet Duong, Qiong Wu, Zhengyi Zhou, Hongjue Zhao, Chenxiang Luo, Eric Zavesky, Huaxiu Yao, Huajie Shao论文地址https://arxiv.org/pdf/2406.17931项目地址https://github.com/vduong143/CAT-KDD-2024
论文摘要作为一种新兴的可解释技术广义相加模型Generalized Additive ModelsGAMs让神经网络单独学习每个特征的非线性函数然后通过线性模型组合以进行最终预测。尽管 GAM 可以在特征级别解释深度神经网络 (DNN)但它们需要大量模型参数并且容易过度拟合从而难以训练和扩展。
此外对人类来说在具有许多特征的现实数据集中基于特征的解释的可解释性会降低。为了解决这些问题最近的研究已转向基于概念的可解释方法。这些方法试图将概念学习作为做出预测之前的中间步骤并用人类可理解的概念来解释预测。然而这些方法需要领域专家用相关名称及其真实值广泛地标记概念。
基于此该研究提出了一种可解释的、基于概念的新型泰勒相加模型 ——CAT以简化这个过程。CAT 不需要领域专家来注释概念及其真实值。相反它只需要用户简单地将输入特征分类为广泛的组这可以通过快速元数据审查轻松完成。
具体来说CAT 首先将每组输入特征嵌入到一维高级概念表征中然后将概念表征输入到新的白盒泰勒神经网络TaylorNet中。 TaylorNet 旨在使用多项式学习输入和输出之间的非线性关系。多个基准的评估结果表明CAT 可以优于基准或与基准竞争同时减少对大量模型参数的需求。重要的是它可以通过高级概念有效地解释模型预测。
最佳学生论文
KDD 2024 最佳学生论文研究方向颁给了《Dataset Regeneration for Sequential Recommendation》。
机构中国科学技术大学、华为作者Mingjia Yin, Hao Wang, Wei Guo, Yong Liu, Suojuan Zhang, Sirui Zhao, Defu Lian, Enhong Chen论文地址https://arxiv.org/pdf/2405.17795项目链接https://anonymous.4open.science/r/KDD2024-86EA
论文摘要序列推荐系统SR是现代推荐系统中的关键组件其目标是捕捉用户不断变化的偏好。为了增强 SR 系统的能力已经进行了大量研究。这些方法通常遵循以模型为中心的范式即基于固定数据集开发有效模型。然而这种方法往往忽略了数据中潜在的质量问题和缺陷。基于数据中心化 AI 的潜力研究团队提出了一种新颖的数据中心化范式利用名为 DR4SR 的模型无关数据集再生框架来开发理想的训练数据集。该框架能够生成具有出色跨架构泛化能力的数据集。此外他们还引入了 DR4SR 框架它结合了模型感知的数据集定制功能能够为目标模型专门定制再生的数据集。
为了验证数据中心化范式的有效性研究团队将该框架与各种以模型为中心的方法结合观察到在四个广泛使用的数据集上性能显著提升。我们还进行了深入分析探索数据中心化范式的潜力并提供了宝贵的见解。
应用数据科学方向
最佳论文
KDD 2024 最佳论文应用数据科学方向颁给了《LiGNN: Graph Neural Networks at LinkedIn》。
机构领英作者Fedor Borisyuk, Shihai He, Yunbo Ouyang, Morteza Ramezani, Peng Du, Xiaochen Hou, Chengming Jiang, Nitin Pasumarthy, Priya Bannur, Birjodh Tiwana, Ping Liu, Siddharth Dangi, Daqi Sun, Zhoutao Pei, Xiao Shi, Sirou Zhu, Kay Shen, Kuang-Hsuan Lee, David Stein, Baolei Li, Haichao Wei, Amol Ghoting, Souvik Ghosh论文地址https://arxiv.org/pdf/2402.11139
论文摘要这篇论文介绍了已部署的大规模图神经网络GNNs框架 LiGNN并分享了领英开发和部署大规模 GNN 的经验。论文提出了一系列算法改进来提升 GNN 表示学习的质量包括具有长期损失的时间图架构通过图密集化、ID 嵌入和 multi-hop 相邻采样实现的有效冷启动解决方案。
具体来说论文介绍了如何通过自适应相邻采样、训练数据 batch 的分组和切片、专用共享内存队列和局部梯度优化在 LinkedIn 图上构建大规模训练并将训练速度提高 7 倍。研究者总结了从 A/B 测试实验中收集到的部署经验和教训。这项工作中介绍的技术帮助提高了约 1% 的工作应用回听率、2% 的广告点击率提升、0.5% 的日活用户提升、0.2% 的会话提升和 0.1% 的每周活跃用户数提升。这项工作有望为大规模应用图神经网络的工程师提供实用的解决方案和见解。
最佳论文亚军
KDD 2024 最佳论文亚军应用数据科学方向颁给了《Nested Fusion: A Method for Learning High Resolution Latent Structure of Multi-Scale Measurement Data on Mars》。
机构佐治亚理工学院、加州理工学院作者Austin Wright, Duen Chau, Scott Davidoff论文地址https://dl.acm.org/doi/pdf/10.1145/3637528.3671596项目链接https://github.com/pixlise/NestedFusion.
论文摘要火星探测车「毅力号」代表了火星测量精度的代际变化然而这种精度的提高也为探索性数据分析技术带来了新的挑战。探测车上的多个仪器分别测量科学家感兴趣的特定属性因此分析底层现象如何共同影响多个不同的仪器对于全面了解数据至关重要。然而每个仪器的分辨率各不相同使得不同数据层的映射变得复杂。
这项研究提出了 Nested Fusion 方法该方法能够结合不同分辨率的任意分层数据集并在可能的最高分辨率下生成潜在分布编码不同测量和尺度之间的复杂相互关系。 该方法能够对大型数据集高效处理甚至可以对未见过的数据进行推理并在真实的火星探测车数据上超越了现有的降维和潜在分析方法。他们已在 NASA 喷气推进实验室JPL内的火星科学团队中部署了 Nested Fusion 方法并且通过多轮参与式设计大大提升了科学家的探索性分析工作流程。
时间检验奖
大会还评出了两项时间检验奖。
KDD 2024 时间检验奖研究方向颁给了《DeepWalk: online learning of social representations》。
机构纽约州立大学石溪分校作者Brian Perozzi, Rami Al-Rfou, Steven Skiena论文链接https://arxiv.org/pdf/1403.6652项目链接https://github.com/phanein/deepwalk
论文摘要这篇论文介绍了研究团队所提出的一种用于学习网络中顶点隐层表示的新方法 ——「DeepWalk」。这些隐层表示将社会关系编码在连续的向量空间中统计模型则可以轻松利用这些表示。
DeepWalk 将语言建模和无监督特征学习或深度学习从词序列推广到了图结构。DeepWalk 通过截断随机游走获取局部信息并将游走等同视为句子从而学习隐层表示。他们在多个社交网络的多标签网络分类任务中展示了 DeepWalk 的隐层表示例如 BlogCatalog、Flickr 和 YouTube。 结果表明DeepWalk 在有缺失信息的情况下表现优于能够看到全局网络视图的其他强大基线方法。特别是在标注数据稀缺的情况下DeepWalk 的表示可以将 分数提高最多 10%。在某些实验中DeepWalk 使用少于 60% 的训练数据时仍能超越所有基线方法。DeepWalk 具有可扩展性它是一种在线学习算法能够构建有用的增量结果且易于并行化。这些特性使其适用于广泛的实际应用场景如网络分类和异常检测。
KDD 2024 时间检验奖应用数据科学方向颁给了《U-Air: when urban air quality inference meets big data》。 机构微软亚洲研究院作者Yu Zheng, Furui Liu, Hsun-Ping Hsieh论文链接http://chbrown.github.io/kdd-2013-usb/kdd/p1436.pdf
论文摘要这篇论文介绍了研究团队所提出的一种基于协同训练框架的半监督学习方法。关于城市空气质量的信息例如 PM2.5 的浓度对于保护人类健康和控制空气污染至关重要。然而城市中空气质量监测站的数量有限并且空气质量在城市空间中又呈现非线性变化并受多种因素的影响例如气象、交通流量和土地利用等。在本文中研究团队基于现有监测站报告的历史和实时空气质量数据以及在城市中观察到的各种数据来源如气象、交通流量、人员流动、道路网络结构和兴趣点 POIs推断整个城市的实时、细粒度的空气质量信息。
他们提出了一种基于协同训练框架的半监督学习方法该框架包含两个独立的分类器。一个是基于人工神经网络ANN的空间分类器它将空间相关特征如 POI 的密度和高速公路的长度作为输入以建模不同地点之间空气质量的空间相关性。另一个则是基于线性链条件随机场CRF的时间分类器使用时间相关特征如交通和气象来建模一个地点空气质量的时间依赖性。 研究团队在北京和上海所获取的五个真实数据源的基础上进行了广泛的实验评估。结果表明与四类基线方法包括线性 / 高斯插值、经典扩散模型、决策树和 CRF 等著名分类模型以及 ANN相比他们所提出的基于协同训练框架的半监督学习方法具有显著优势。
更多信息可参考大会官网
https://kdd2024.kdd.org/awards/ #Llama-3不算真开源
今年10月权威定义就要来了 你给翻译翻译什么是开源 开源大模型的标杆 Llama 3居然都「被闭源」了。今天开源再次成为了人们讨论的话题。
如今开源的人工智能算法无处不在从个人开发者到大型科技公司大家都在享受最新技术带来的成果。
就连目前最热门的大模型领域也区分了开源和闭源两个互相竞争的大方向。人们认为随着开源技术的扩散与交流开源的大模型最终将赶上 OpenAI 这样的业界顶尖水平。这或许就是扎克伯格等人理想中的繁盛景象。
不过在层出不穷的新 AI 模型评论区里我们也经常看到有人吐槽「连权重、数据都没有这算什么开源」
这个时候一家有影响力的机构终于决定站出来对开源这件事下一个定义了。
今年 10 月「真开源」定义就要来了
开放源代码促进会OSI最近公布了其对「开源 AI」的最新定义草案。此举旨在澄清 Open Source 这一术语在快速发展的科技领域中经常出现的模糊用法。
这个定义似乎来的正是时候。一个月前大模型领域刚刚经历过一轮开源技术更新。Meta 发布了迄今为止最强的开源大模型 Llama 3.1 405B宣布所有 Llama 版本的总下载量已超过 3 亿次创业公司 Mistral 也紧接着宣布开源了 Large 2 大模型。
这些公司发布的预训练 AI 语言模型带有权重使用限制同时继续使用了「开源」标签。这引发了开发者们对 AI 技术背景下什么才是真「开源」的激烈争论。
因为最近一段时间开源变得越来越像是一个营销术语将大模型描述为「开源」可以让人们对其变得更加信赖即使研究人员和开发者时常会被这些许可证所限制。
Llama-3.1 发布的时候Yann LeCun 曾宣传了开源的优势。
OSI 给出的定义下很多事情需要我们来重新审视。例如Meta 的 Llama 3 模型虽然可以自由获取但 Meta 针对使用 Llama 系列模型的公司规模及通过该模型生成的内容类型设定了特定的许可限制。因此Llama 不符合 OSI 为软件定义的传统开源标准。
文生图模型 Flux 实际上也不是真正的开源。由于这种模糊性OSI 通常用「开放权重」或「代码可用」等术语来指代那些含有代码或权重限制或缺乏配套训练数据的 AI 模型。
为了正式解决「真假开源」的问题一向倡导开源的 OSI 召集了一个专家团队来为「开源」下定义。这个约 70 人的团队由研究人员、律师、政策制定者组成其中还有来自 Meta、Google 和亚马逊等大型科技公司的代表。他们起草的最新草案为判断 AI 模型是否符合开源标准提出了「四项基本自由」不限制使用目的允许深入研究其工作原理支持随意修改无论是否进行过修改都允许用户自由分享模型。
这「四项基本自由」也沿用了人们对开源软件的定义。OSI 希望通过对「开源 AI」树立明确的标准方便开发者、研究人员和用户在创建、研究或使用 AI 工具做出更明智的决策。
OSI 执行董事 Stefano Maffulli 在 Linux 基金会 AI_dev 大会上发布了对开源定义的最新版草案
换句话说开源对于 AI 更加稳定安全如果 AI 模型做到了真正的「开源」研究人员将能分析 AI 模型背后的工作方式AI 系统的潜在软件漏洞也将更加明显。相较于 OpenAI 的「闭源」系统 ChatGPT其确切的架构是一个严格保密的秘密。
据 OSI 的项目时间表显示他们预计在 2024 年 10 月在 All Things Open 会议上正式宣布「开源 AI」定义的最终版。
那么在这个定义下有哪些大模型是「开源」的呢据说在第一批名单里包括 EleutherAI 的 Pythia、Ai2 的 OLMo 和开源集体 LLM360 等。
「创新不应该需要许可」
在五月份的新闻发布会上OSI 强调了为真正的「开源」AI 厘清定义的重要性。「AI 与常规软件不同需要迫使所有利益相关者重新审视开源原则对该领域的适用性」OSI 的执行董事 Stefano Maffulli 说「OSI 相信每个人都应保有对技术的主导权和控制权。我们还认识到当定义明确后它将推动 AI 系统更加透明、更紧密的协作和无需许可的创新市场就会繁荣发展。」
OSI 的最新草案不止要求「开源」模型本身及其权重还要求对整个系统更加广义的开放。 一个 AI 系统要想被认定为「开源」必须提供 OSI 定义的「适合修改的形式」其中包括训练数据的详细信息、用于训练和运行系统的全部源代码以及模型权重和参数。这些都必须在 OSI 认可的许可证或条款下提供。
值得注意的是这份草案并没有强制要求公开原始训练数据。相反它要求提供关于训练数据和方法的详细元数据。比如数据的来源、选择标准、预处理技术以及其他相关细节方便研究者重建类似的系统。
这种方法旨在不公开实际数据集的情况下提供透明度和可复制性在坚持开源原则的同时从表面上解决了潜在的隐私和版权问题。不过是否能达成预计的效果可能还有待进一步讨论。
训练数据的来源缺乏透明度已经导致了一系列针对大型 AI 公司的诉讼。从 OpenAI 这样的业内带头人到 Suno 这样的小应用这些公司的生成式 AI 产品除了声称包含「可公开访问的信息」外并未披露太多有关其训练集的信息。很多人呼吁开源模型应该披露所有训练集不过由于版权和数据所有权等问题这一标准很难执行。
「这个定义最有趣的是他们允许不公开训练数据」独立 AI 研究员 Simon Willison 在接受外媒 Ars Technica 采访时说道「这是一个非常务实的方法 —— 如果不允许这样那就几乎就没有模型算『开源』了。」
OSI 想明确「开源」的定义这个想法可以追溯到 2022 年当时它首次开始联系有关组织邀请他们一起来定义这个术语。
「经过近两年我们从世界各地征求意见来确定适合 AI 系统的开源原则OSI 现在正在全球巡讲希望能够完善并验证草案中的定义」Maffulli 表示「定义『开源』的研讨会仍在进行现在参与还不晚可以通过 OSI 网站找到论坛发表评论建言献策。」
当最终定义在 10 月揭晓时新的「开源」AI 定义可能对行业产生深远影响。它将影响公司以何种形式发布 AI 模型并塑造未来的法规例如加州备受争议的 SB-1047 法案。
希望新的定义能够进一步推动大模型领域的技术创新。
参考内容
https://arstechnica.com/information-technology/2024/08/debate-over-open-source-ai-term-brings-new-push-to-formalize-definition/
https://opensource.org/deepdive/drafts/open-source-ai-definition-draft-v-0-0-9 #Partial coherence enhances parallelized photonic computing
牛津光计算论文登Nature正刊分析帕金森患者步态准确率达92.2%
本文第一作者为牛津大学 Harish Bhaskaran 院士课题组董博维博士。Harish Bhaskaran 院士课题组的多名科研人员 2022 年在国内联合创立光计算芯片公司光本位科技该公司在今年7月份的世界人工智能大会上宣布所研发的 128*128 矩阵规模光计算芯片算力密度和算力精度达到商用标准董博维博士目前已与该公司建立合作关系从光源、相变材料、硅光互联架构等多维度共同推进光子存算在人工智能领域的商业化落地。
光计算时代或许正在加速到来。
随着人工智能等技术对算力的需求日益增长而传统电子计算的算力供给能力与人工智能产生的算力需求之间存在失配这促使人们寻找新的算力增长点。
光计算具有高并行度、高能效比和高速度的特点在构建大规模矩阵-矩阵并行计算系统时具有巨大优势。近年来光计算领域涌现出许多研究成果和进展。
近日牛津大学 Harish Bhaskaran 院士课题组董博维博士等研究人员在《Nature》正刊上发表论文「部分相干光可增强并行光计算」。
论文链接https://www.nature.com/articles/s41586-024-07590-y论文标题Partial coherence enhances parallelized photonic computing
在论文中他们证明了降低光学相干性能够增强光子卷积处理。他们展示了一种利用降低的时间相干性即部分相干系统的光子卷积处理系统以在不显著牺牲准确度的情况下提高处理并行性并有可能实现大规模光子张量核。
这种方法消除了对众多移相器或 MRR 的精确控制的需求并通过使用部分相干光源减轻了对严格反馈控制和热管理的要求。
研究者在两个用于计算应用的光子平台中展示了部分相干处理的广泛适用性首先他们使用相变材料光子存储器通过 3×3 光子张量核进行并行卷积处理对十名帕金森病患者的步态进行分类实现了 92.2% 的准确率。其次他们使用带有嵌入式 EAM 的 9×3 硅光子张量核实现了高速 0.108 TOPS 卷积处理器用于矢量编码和权重设置并结合片上光电探测器对 MNIST 手写数字数据集进行分类准确率达到 92.4%。
光计算将加速人工智能新变革
光计算大多通过芯片作为载体在光芯片上实现。光芯片指的是在用成熟 CMOS 电芯片工艺节点180nm、130nm、90nm改造而成的硅基光电子工艺下流片的芯片可以运用在通信、传感和计算上。光通信领域各大光通信厂商都已开始全面将设备芯片化如将光开关集成到硅光芯片上使得面积和功耗都下降 10-100 倍传感领域激光雷达厂商正在积极推动将固态雷达设备用硅光芯片替代以缩小面积和降低成本而计算是对硅光芯片工艺要求更高、调制更复杂的领域技术上集成了通信、传感的先进工程化经验也面向更庞大的人工智能市场。
光计算芯片是为人工智能而生。从理论基础上光计算芯片天然适配于做并行、大规模的线性运算而线性运算是当今世界所有主流人工智能算法的基石。从产业结构上人工智能天然需要用大规模、大算力、安全可控的算力集群来完成生产力的跃迁而在产生大量算力的同时能耗控制决定了算力集群的效率和成本。光计算芯片提供了一个超大算力、超低能耗的算力集群的发展路线。在人工智能众多新兴领域里光计算芯片天然适配于大模型、自动驾驶、具身智能等。
大模型的训练和推理需要大量的算力光计算芯片可以极大降低大模型所需硬件的固定成本和使用成本。在固定成本方面光计算芯片造价成本低且无需先进制程流片。在使用成本方面光计算芯片能效比极高同样算力下耗电量仅为电芯片的 1/100。可以说光计算芯片是最适合于大模型未来发展的算力核心硬件。
自动驾驶在从 L3 至 L5 的发展过程中算力需求会从每辆车 300TOPS 激增到 2000TOPS在现有自动驾驶电芯片的能耗条件下L5 所需求的算力会带来超过千瓦的耗电量目前的电池是难以持续支撑的。光计算芯片提供了一个在大算力前提下不产生大功耗的解决方案从而保证了新能源汽车在 L5 全自动驾驶下依然有出色的续航表现。
具身智能系统要实现与人类互动并完成多样化指令要求决策层的多模态处理不可或缺。作为具身智能的实体之一智能机器人的强化学习和模型训练方面需要强大的算力支持。光计算芯片具备的高速率、低延迟、高并行能力、低能耗、不易受干扰等特性能够为具身智能系统的技术发展和产业化应用提供重要基础支撑。
大规模光计算芯片调控成本高
光计算芯片可以解决大模型、自动驾驶、具身智能的痛点但由于光的波特性需要复杂调控实现大规模光计算芯片一直是个难题。
大规模光计算芯片需使用多个激光光源每个激光的波长和相位需要精准调控。同时光信号处理硬件也需要实现对波长和相位的精准调控。这类似往水池中的不同位置同时丢下多个石块并要求在特定的观测点能够观测到固定的水纹。所需精准调控虽然理论上可行但调控复杂且需要巨大的调控成本限制了光计算芯片的大型化发展。
过去的一个世纪内科学家们专注于实现对光源波长和相位的精准控制提升光学相干性图 1。使用高相干性激光是实现新兴光应用的基本思路包括光计算。已展示的光计算系统皆使用高品质激光作为光源。 图 1: 高光学相干性加速新兴光应用的发展。图源董博维.
部分相干光可增强并行光计算
近日发表在《Nature》上的工作打破了使用高品质相干光这一思维惯性反常规地探究了降低光源相干性对光计算芯片的影响展示了低品质光源可提高光计算性能。牛津大学 Harish Bhaskaran 院士英国皇家工程院院士课题组董博维博士等研究人员展示了使用单一光源即可运行大规模光计算芯片无需复杂的光源及片上波长、相位调控。
研究人员发现通过降低光源的品质打破光源的相干性可以有效消除光计算芯片中的相位噪声问题避免复杂的系统相位调控同时通过提升带宽利用率大幅提高系统算力。
研究人员在存内光计算芯片和电吸收调制器阵列光计算芯片两个平台内展示了这一新方法的优越性。与现有技术相比这项新技术有望将光芯片算力提升两个数量级且通过降低系统控制复杂度大幅降低系统能耗。
打破光源相干性消除相位敏感性
通过降低光源相干性使用部分相干光源相位敏感性可被彻底消除一个窄带部分相干光即可应对多个输入通道。这一方法解耦了波长数量与输入通道数量的关联性。
假设光计算芯片的工作带宽为 80nm部分相干光的线宽为 0.8nm此时输入通道数可为任意大小且计算并行度可为固定的数值 100从而提供比传统相干光源光计算系统高 100 倍的算力。
研究人员通过实验验证了这一假设。如图 2 所示在光计算系统中若在多输入通道中使用单一激光会发生明显的由干涉引起的强度扰动影响计算结果图 2b。若使用单一部分相干光可观测到强度扰动被彻底消除得到稳定的计算结果图 2c。 图 2: 部分相干光彻底消除干涉引起的光强扰动使单一光源对应任意大小的光计算芯片成为可能。图源Nature. #一次性解决一千个问题AI让数学摆脱蛮力计算
陶哲轩IMO演讲全文
在探索「数学之美」的路上人工智能到底走到哪一步了说到这个话题可能没人比数学家陶哲轩更懂。他几乎是最常用 AI 辅助证明的数学家之一还在今年的 AI 数学奥林匹克竞赛AIMO 进步奖担任了顾问委员。
最近在 IMO 2024 的一场演讲中陶哲轩全面回顾和展望了计算机与人工智能在数学研究中应用范式的演变。
视频链接https://www.youtube.com/watch?ve049IoFBnLA
为期一个小时的演讲中他从早期计算工具讨论到现代机器学习和形式化证明助手的演变过程还着重介绍了最近取得的突破和面临的挑战。陶哲轩强调虽然人工智能在数学领域的作用越来越大但人类的洞察力和创造力对于在该领域取得有意义的进展仍然至关重要。
以下是陶哲轩演讲全文
谢谢回到 IMO 我很开心在 IMO 的那段时间是我一生中最快乐的时光之一。现在回想起来仍然觉得很美好。我希望大家都能玩得开心无论你是否取得了好成绩不仅仅是在比赛中在社交活动中也是如此。
我的演讲主题是人工智能更广泛地说是如何用计算机辅助数学。你们都听说过人工智能以及它如何改变一切。今年早些时候DeepMind 发布了一款新产品 AlphaGeometry。因此这场演讲我将更多地讨论这些工具如何开始改变数学研究。
数学研究不同于数学竞赛解决一个问题不止需要 3 个小时而是需要几个月。有时你解决不了问题就必须改变问题。虽然在技巧上有一些重叠但这与数学竞赛绝对不同。因此AI 的加入太令人兴奋了而且具备变革性。
但另一方面这也是一种连续性。我们使用计算机和机器进行数学运算已经有很长一段时间了。即使做数学的方式和性质正在发生变化但我们实际上是沿袭了机器辅助的悠久传统。
那么有个问题我们使用机器进行数学运算有多久了
答案是数千年。这是罗马人用来做数学运算的机器它不是很灵巧。
计算机呢我们用计算机做数学题有多久了大约有 300 到 400 年。有点奇怪吧因为现代计算机直到 20 世纪 30 年代和 40 年代才出现。在此之前计算机并不是电子的而是机械的再之前它们是「人类」。「计算机」实际上是一种职业是「计算的人」。
这是世界大战期间的「计算机集群」用来计算弹道等等。这些计算机通常都是女孩因为男人们的工作是打仗。还有一些程序员他们负责告诉女孩们该做什么。那时计算能力的基本单位和 CPU 无关。
所以一千个女孩这样工作一小时能完成多少计算量
正如我所说我们使用计算机的历史可以追溯到 18 世纪甚至更早。在那个时代计算机最基本的用途就是建立表格。我上高中时还在课程中学习如何使用这些已被淘汰的表格。
当然现在我们有了计算器和电脑。现在我们仍然使用表格。在数学研究中我们依赖表格即使现在叫它们数据库但本质上是一个东西。
数学领域的许多重要成果都是通过数论中的表格首次发现的。数论中最基本的成果之一叫做素数理论。Legendre 和 Gauss 发现了它虽然无法证明这一点但他们推测这是真的。
在数论中有一个非常核心的问题叫做伯金 - 斯旺顿模猜想Birch and Swinnerton-Dyer我想在这里谈谈。
这个猜想也是通过大量的表格发现的。现在包括我在内的很多数学家都在使用一个表格叫做「整数序列在线百科全书」Online Encyclopedia of Integar SequencesOEIS。也许你也会遇到它你可能会认出很多整数序列。
比如我告诉你 1,1,2,3,5,8,13 这个序列OEIS 就是一个包含数十万个类似序列的数据库。
很多时候数学家在研究一个问题时都会涉及到一些数字的自然序列。例如也许有一个取决于 n 的空间序列你可以计算出这些数字中的前五六个或前十个然后将其放入 OEIS 中进行比较。
如果你运气好的话这个序列已经被别人放在那里了。它可能来自于一个完全不同的来源比如是对其他数学问题的研究。这就给了你一个很大的线索 —— 两个问题之间存在着联系许多研究都是这样产生的。
表格就是我们最早使用计算机的方法之一。当你想到用计算机来做数学题时你会想到数值运算它是可持续计算的正式名称。你想要做一个非常庞大的计算就需要做很多很多的算术运算。
把它输出给计算机我们从上世纪 20 年代就开始做了。也许第一个真正进行科学计算的人是 Hendrick Lorentz。他的任务是建一个巨大的像办公室一样的东西他们想知道水流的内部是怎么回事所以他们必须建立一些流体方程模型。
他用了一大堆人类计算机来解决这个问题且不得不发明了浮点运算来完成这项工作。他意识到想让很多人快速完成大量计算应该用浮点来表示大量不同大小的数字。
当然我们现在用计算机来建模各种事物比如解决大量线性方程或偏微分方程做一些商业计算。它还可以解决代数问题许多几何题原则上也都可以通过科学计算来解决。
不幸的是一旦它的计算规模增加其复杂性就会变成指数级。因此直到最近用计算机代数软件蛮力解决这些问题还不太可行。但现在有了人工智能系统这件事也许就更有希望了。
另一种已变得相当强大的科学计算是所谓的 SAT 求解器。它们基本上可以解决逻辑难题。比如如果你有 10 个陈述或者 1000 个陈述都是真的或假的而你知道如果第 3 个陈述是真的第 6 个陈述是真的那么第 7 个陈述一定是假的。如果给你一大堆这样的限制条件SAT 求解器就会尝试接受所有这些信息然后总结你能证明这些句子的某种组合吗
SAT 求解器还有一个更花哨的版本叫做 SMT 求解器。在这里你还会有一些变量 x、y 和 z你还会假设一些法则。但不幸的是它们的规模也非常大根本无法很好地扩展。同样解决这些问题的时间和复杂度也会呈指数级增长。一旦超过 1000 个左右的命题就很难在任何合理的时间内运行这些。
但它们实际上可以解决一些问题。比如最近的一个成功案例如图所示可能只有计算机才能解决我认为只凭一个人根本解出不来。
这就是所谓的毕达哥拉斯三元组问题在大型计算机服务器计算之前这个问题一直没有解决。
问题是你把自然数染成两种颜色红色或蓝色但无论你如何给这两个自然数着色其中一种颜色都必须包含一个毕达哥拉斯三元组 A、B、C 三个数。
现在我们知道了事实上并不需要穷举只需要查到 7824。
这个证明需要 7 个 CPU-year 计算。他们生成了 200 兆字节后来被压缩到 68 千兆字节。这就是我们利用计算机进行大量案例分析的一种方式。
但近年来我们开始用更有创意的方式使用计算机。因此有三种方式可以利用计算机进行数学运算。我觉得我真的很兴奋尤其是当它们相互结合并与更经典的数据库 —— 表格和符号计算这种科学计算结合在一起的时候。
首先我们利用机器学习和较新的网络来发现新的联系并找出不同类型数学之间的关联方式而这些方式是人类无法看到或不太可能看到的。
尤其是大型语言模型某种意义上说它是机器学习的大型版本是一种可以使用自然语言的算法比如 ChatGPT 等。它们可以生成可能的证明、解决问题的方法这些方法有时有效有时无效。在我之后的演讲中你会看到更多这样的例子。
不过还有另一种技术刚刚被日常数学家所使用这就是所谓的形式化证明辅助。计算机语言是用来编写可执行代码的而形式化辅助证明则是用来检查事物的语言用来检查某个论证是否真实是否能从数据中得出结论。
这些语言使用起来相当烦人而现在它们变得越来越容易上手了。它们促进了许多有趣的数学项目如果没有这些证明辅助工具这些项目是不可能完成的而且它们将来会与我在这里介绍的其他工具结合得非常好。
所以我想谈谈使用机器和计算机辅助数学研究的新成果。从证明辅助开始吧。是的历史上第一个真正意义上的计算机辅助证明可能是四色定理的证明即「任何一张地图只用四种颜色就能让相邻的国家染上不同的颜色」。
1976 年那时还没有辅助证明。实际上当时做的尚不能称之为计算机证明。如今这是一个需要大量计算的证明其中一半由计算机完成一半由人类完成。
他们证明四色定理的方法是你基本上可以归纳出国家的数量并证明如果你有一个庞大的地图其中有一些国家的子图那么就会产生一个大约有 1000 到 2000 个特殊子图的列表。
其中有一些工作他们可以通过计算机完成但也不得不手工将每张图表输入程序并进行检查。这项任务实际上是由人工计算机完成的其中一位作者的女儿不得不花上几个小时手动检查。工作非常繁琐而且过程并不完美。有很多小错误他们不得不更新表格。因此这并不是现代计算机证明的标准计算机可验证的证明是在九十年代才出现的当时只用了 700 多个图就得到了一个更简单的证明。
但现在所有需要检查的东西都可以通过一种非常精确的方式找到属性列表。你可以用你喜欢的计算机语言C 或 Python 或其他语言编写代码用几页纸和几百行代码就能检查出来几分钟就能搞定。然后再实际检查它是否完全正确并提供一个一直到数学公理的证明。
从证明首次出现到我们可以用计算机完全验证这中间有一个巨大的鸿沟。
另一个有名的例子是开普勒猜想。说起来非常简单。即如何在三维空间中最有效地堆叠球体以最大限度地填充空间。如下展示了一种「三角形」的堆积方式它看起来就像水果店里堆着的橘子一样。还有一种对偶的立方堆积方式。两种堆积方式的密度是相同的都约为 74%。 问题是开普勒猜想这个难题困扰了数学家几个世纪。二维空间的最佳堆积并不难证明。但拓展到 24 维度我们直到最近才得出答案乌克兰女数学家 Viazovska 最近解决了这个问题。
有一种证明开普勒猜想的策略虽然堆叠的球的数量是无限的但我们可以先试着把它简化成一个有限的问题用电脑来处理。
匈牙利数学家 Tóth 在 50 年代提出了一个重要的想法即将开普勒猜想的证明转化为一个有限的组合问题。每次堆积时空间会被细分成一些称为「沃罗诺伊区域」的多面体。这些区域是通过找出哪些点更接近某个球体而不是其他球体来确定的。
可以通过计算「沃罗诺伊区域」的体积等属性进一步得知球体在空间中的排列密度。因此如果你能算出这些多面体的体积在平均上如何变化那么就可以估算堆积密度的最大值。你还可以尝试找出这些多面体之间的关系比如如果一个多面体非常大可能会导致附近的多面体非常小。
因此你可以试着找到一些不等式基于这些不等式进行线性规划等数学运算最后得出了一个正确的值。然而尽管许多人尝试了这种方法有些甚至声称成功了但没有一个被公认为是正式的证明。
这个问题最终首先由 Thomas Hales 和他的合作伙伴 Ferguson 解决了。他基本上采用了与前人相同的策略但在技术层面做了很多调整比如他没有直接计算多面体体积而是发明了一种评分系统通过对每个单元进行科学评分来优化计算。
这些评分基于体积并进行了微调目标是通过线性不等式约束不同单元的得分最终计算出密度的最大值从而得出开普勒猜想在三维中的答案。
这种方法非常灵活但也因为过于灵活导致有太多变量比如设置评分的方法等。这也把问题搞得更复杂了。
Hales 和 Ferguson 意识到一旦计算函数的最小值时出了问题就得改变得分函数从头再来。但这样一来所有已经检查过的工作都得重做。于是评分系统变得越来越复杂。他们在这方面的工作持续了将近十年每改一次都需要花费数月来调整。
Hales 在一篇文章中曾写道「这种不断调整的做法并不受同行们欢迎。每当我在学术会议上展示自己的新成果我总是在展示不同函数的最小值。而且更糟糕的是新函数与我之前的论文不完全兼容因此我不得不回去修改和补充早期的工作。」当然尽管如此他们最终还是证明出来了开普勒猜想在三维中的答案。
起初他们并不打算用计算机辅助证明但随着项目越来越复杂他们不可避免地越来越多用到计算机。按照当时的标准这个证明的规模极为庞大。到 1998 年整个证明包括了 250 页的笔记以及 3GB 的计算机程序和数据。
同时使用计算机导致 Thomas Hales 的论文难以通过审查。Hales 把论文提交给了数学顶级期刊之一《数学年刊》Annals of Mathematics整个审稿过程持续了四年审稿委员会包括 12 名审稿人。最终他们表示 99% 地确定证明是正确的但无法完全确认其中的所有计算。出于这种不确定性编辑们采取了非常罕见的做法发表了论文并附上了一个来自编辑的保留说明提醒读者有未完全验证的部分。不过后来这个保留说明被移除了。
当时关于计算机辅助证明是否可以被视为真正的数学证明存在相当大的争议。即使在论文发表后仍有一些数学家质疑这是否真正构成一个完整的证明。
这可能是第一个用计算机辅助数学证明的大事件。这促使数学家们开始推动如何将证明过程完全形式化。Thomas Hales 因此创建了一个项目 ——「Flyspeck」基于已有的计算机语言他带领团队构建了一种适用于数学证明的语言来形式化他的开普勒猜想证明。
起初他估计这一过程需要 20 年但在 21 位合作者的帮助下他在 12 年内完成了并在 2014 年正式发表。如今我们对「Flyspeck」充满信心。即便整个过程非常艰难在过去的几年中我们仍在逐渐摸索出一种更好的工作流程来形式化证明。
彼得・朔尔策Peter Scholze是一位非常杰出的年轻数学家曾获得菲尔兹奖他因许多成就而闻名其中之一就是他创造了一个极具潜力的数学领域称为「凝聚态数学Condensed Mathematics」。这个领域结合了代数、范畴论等工具应用于泛函分析的理论如度量空间等。在泛函分析中传统上比较抗拒代数方法的应用但凝聚数学原则上可以用代数方法解决一些关于函数空间的某些问题。
朔尔策建立了「凝聚群」和「凝聚向量空间」这一整套理论。他的主要观点是我们在研究生课程中学习的函数空间的范畴是不正确的或者说并非具备最佳性质的自然范畴。然而这套理论中有一个非常重要的消失定理需要证明尽管朔尔策没有详细解释其中的符号和术语。
朔尔策的凝聚数学理论中有一个非常难的消灭定理vanishing theorem涉及某个范畴论群的计算。这个消失定理是他理论的基础如果无法证明该定理那么凝聚数学的框架就无法发挥其应有的潜力。
他在博客中写道自己花了一整年时间深陷于证明这个定理的过程中几乎因此而疯狂。最终他把推理写在了纸上但没有人敢详细查看其中的细节。因此他仍然对这个定理存有疑虑。他指出如果这个凝聚数学的表述能有效应用于泛函分析领域那么它的意义将极为重要。然而他也表示99.9% 的确定性仍然不够因为这一工作的主题具有极其基础性的作用。
他说「他很高兴看到世界各地有许多学习小组在讨论相关竞赛事件但他们都没有深入到这个定理的证明部分。」他表示这趟数学旅程并不是很有趣。他还强调这可能是他最重要的一项工作因此必须确保其正确性。
他很希望将这个定理用更现代的语言进行形式化。他使用一种叫做 Lean 的 Preface 语言。Lean 是近年来得到广泛开发的语言背后有一个众包的数学库开发团队。越深入和高级的数学领域证明就越显得繁琐尤其是像这种高深的数学领域使用 Lean 可以帮助更加简洁地形式化复杂的证明过程。
数学库已经发展成为一个核心资源它已经证明了许多中间结果。你在本科数学课程中可能会看到的一些基础内容比如基础微积分、群论或拓扑学的基本概念等都已经被形式化。因此Lean 提供了一个坚实的基础让你不必从数学公理重新开始而是从大致相当于本科数学教育的水平出发。尽管与更高级的数学研究还有很大差距但这一基础已经能大大帮助复杂数学问题的形式化过程。
为了形式化这个定理他们不得不添加许多额外的内容因为 Lean 的数学库目前仍不完整。在数学的许多领域里比如同调代数理论和层理论还需要被加入到这个库中。这些高级数学工具对于更复杂的数学证明是必要的但 Lean 目前的库还没有完全覆盖这些内容因此需要继续扩展以支持更广泛的数学领域。
在 EMEA 项目中仅用了 18 个月他们就能够能用 Lean 自动化地证明这一定理Lean 的证明基本上是正确的。他们还找到了一些简化方法。有些步骤用代码实现起来太难因此他们被迫寻找一些捷径。这个项目带来的是长远的价值。首先他们极大地丰富了 Lean 的数学库能够处理大量的抽象代数了。那些为支持该项目而构建的软件后续的项目也在用。
例如EMEA 项目中衍生出了一种名为「蓝图」的工具。想象一下要直接形式化一个长达 50 页的证明确实很痛苦。你需要在脑海中保持整个证明的连贯性。
「蓝图」的界面
为此我们找到了正确的工作流程首先为这个大型证明编写一个「蓝图」它将证明分解成了数百个小步骤。每个步骤都可以单独形式化然后将它们组合起来。你首先编写这个「蓝图」你的团队成员可以分别处理不同部分。这种拆分还让我们得到了一点启示如果想以人类的方式阅读数学证明「蓝图」是最佳选择。
目前人们正在致力于将这份长达数万行的形式化证明转换回人类可读的形式。为此已经开发了一些新工具。例如你可以将 Lean 的格式转换成人类可读的形式。这里有一个拓扑问题的例子。这里的所有文本都是计算机根据形式化证明自动生成的看起来和一个人类写出来的没什么差别。
它同样使用数学语言但它的互动性更强。你可以点击任何位置它会告诉你你当前处于哪个位置假设是什么你要证明什么变量是什么。如果某个步骤太简略你可以展开它会解释每个词的来源。如果你愿意还可以一直深入探索每一个细节。
我觉得这是一个很棒的想法。我相信未来的教材会以这种互动的形式编写。你先对它们进行形式化然后就可以制作出更加互动的教材内部内容也会更加灵活多样。
受此启发我自己也开始了一个形式化的项目。去年我与其他几个人一起解决了一个关于组合产物的问题。
这个证明大约有 33 页我们在相对较短的时间内完成了它的形式化可能依然是最快形式化的研究论文。用了三周时间团队有 20 人左右利用了所有已经开发出来的蓝图工具完成了这一切。总的来说这种方法让证明过程更加开放和协作化。而且你还能获得很多漂亮的可视化图表。正如我之前提到的第一步是把你的大定理拆解成许多小部分。我们有一个定理称为 PFR接下来我们会解释为什么。在这张图的底部有一个表示「宇宙」的小气泡。
然后我们引入了所有这些其他陈述比如说某个证明必须依赖于之前的几个陈述而这些陈述又依赖于更早的陈述。因此形成了一个依赖图图中的不同颜色表示这些陈述是否已形式化。绿色的气泡表示这个陈述已经在你的形式化语言中得到了正式证明 蓝色的气泡表示这个陈述还没有形式化但已经准备好进行形式化因为所有定义都已经就位。 而白色气泡表示连陈述都还没有被形式化需要有人把陈述写出来。因此这就形成了一棵任务树。这个项目的妙处在于你可以让所有人独立合作处理任务图中的不同部分。每个小气泡对应一个陈述而你不需要理解整个证明只需处理你负责的那一部分就可以了。
比如这个问题是一个常见选择题但参与的人中有概率论领域的专家也有一些根本不是数学家的人。他们是计算机程序员但非常擅长解决这类小型谜题。所以每个人都挑选了一个他们觉得自己能处理的小气泡并完成了它。最后我们在三周内完成了整个项目这真的是一个非常令人兴奋的项目。
在数学领域我们通常不会与这么多人合作通常一个团队最多也就五个人左右。这是由于合作大型项目时团队中每个人的数学水平都要值得信任。需要确保他们的工作都是正确的并且达到一定的质量标准。但这一般不太可能。
但用 Lean 编译器做这种项目它可以自动检查。上传无法编译的内容会被编译器拒绝。因此你可以与从未见过面的人通过 Lean 合作。我在这个过程中遇到了很多人也为在 Lean 社区遇到的伙伴写了不少推荐信。 Lean 的格式让数学家们可以更好地分工合作。
擅长 Lean 的专家可以专注于将项目的一部分转化为 Lean不太熟悉 Lean 的数学家可以继续原来的工作将用 Lean 将其程式化的工作留给其他人。虽然 Lean 不能做到完全精确。如果你懂这门语言AI 给出答案是可读的但它看起来有点单薄并且不太符合常规。但它可以把任务分解有一些人可以从宏观角度审视整个项目有的人可以专注于自己擅长的一小部分。我认为这种研究方式在数学领域将越来越常见。
使用这些工具仍然挺痛苦的。虽然这些工具正在降低门槛变得对用户更友好但我们仍然需要具备一些编程专业知识比如改格式比手算要多花 10 倍的时间。
另一方面比如图中的定理中有一个数字 12在证明过程中想要把这个 12 改成 11。但是这样必须重写整个证明或者一个一个地把 12 剪切粘贴成 11。但当我们将其程式化后这个效率大大提高了把 12 更改为 11 只花了几天时间。只把某处的 12 改成了 11编译器自动在五个类似的地方报错了。
像这类工作已经不需要亲自处理了我们直接针对它做优化。因此对于一些特定的数学研究通过程式化的方法实际比传统方法更快。
目前也有相当多这种用计算机辅助的大型数学证明项目正在进行。其中最引人瞩目的应数 Kevin Buzzard 正在用 Lean 证明费马大定理他刚刚获得了一笔巨额资助。他表示完成这项工作的主要工作大概需要五年时间实际上该项目已经开始取得进展。
下面来谈谈机器学习对数学领域的应用我先跳过用机器学习来解偏微分方程的话题谈谈机器学习的另一个应用。数学中的「纽结理论」Knot Theory是一个相当有趣的领域。它是众多的数学领域的交汇处。
2021 年Alex Davies 等人通过机器学习拓展了对「纽结理论」的新认知。
从本质来看一个结是一个在空间中闭合的环状或曲线。如果能够通过连续的变形将一个结平滑地转换为另一个结且在整个过程中结不穿越自身那么这两个结在数学上被认为是「同胚」的。这种连续变形的过程确保了结的拓扑性质得以保持也就是说在拓扑学的视角下它们的类型是等价的。
我们可以通过机器学习来自动地识别结的性质并对其变化的过程进行一些分析例如对不同类型的结进行分类或者预测结的性质比如它们的形态是否稳定或者预测它可能转变成什么新形状。这些知识可以扩展到材料科学、生物学等等领域从而为这些领域带来新的见解和解决方案。 「同胚」的结
「纽结理论」中的核心问题之一便是判断两个结是否具有等价性。面对两个结我们是否能够找到一种方式将一个结变换为另一个
通常我们通过「结不变量」来解决这个问题。「结不变量」往往是一系列数字或多项式它们与结的结构紧密相关并且在结的任何连续变换下都保持恒定。换言之这些数值或多项式的不变性为我们提供了一种可靠的判断标准如果两个结的「结不变量」不相等那么这两个结就不可能是等价的。这是一种判断结等价的定量方法。
「结不变量」也有多种类型其中一种称为「signature」。它通过一种特定的计数方法。首先将结展平然后计算交叉点的数量区分哪些线段是相互跨越的哪些是相互位于下方的。基于这些交叉点的信息我们可以构造一个特定的矩阵。通过进一步的数学处理我们得到一个名为「signature」的整数。
此外还有一些著名的多项式也是「结不变量」如「琼斯多项式」Jones polynomial和「霍姆费利多项式」HOMFLY-PT polynomial。不过在此我就不深入讨论这些内容了。这些多项式、不变量为我们提供了深入理解结的复杂性和多样性的有力工具。
此外还有一种判断标准名为「双曲不变量」hyperbolic invariants。它源于几何学。你可以取结的补集被称为双曲空间hyperbolic space。这种空间带有特定的几何结构具备距离的概念并且可以度量体积和其他一些不变量它是实数或复数可以用来判断两个结是否等价。
表格中展示了 1991 年由 Hildebrand 和 J. Weeks 进行的关于结的双曲不变量的研究。
这里列出了一系列关于结的假设包括双曲体积、同调尖顶形状等等它们涉及实数和复数。然而没人知道这两者之间有什么联系。因此有两种独立的方式来生成关于结的统计数据但它们之间没有关联。
直到最近人们才开始使用机器学习来解决这个问题。他们创建了数百万个结的数据库并用这些数据训练了一个神经网络。结果发现训练后的神经网络可以根据所有的双曲几何不变量来预测签名大约 90% 的时候它可以猜对。
这就形成了一个黑箱它能够告诉你这些几何不变量中某处隐藏了签名的信息但却不能解释这个黑箱的内部原理。不过这仍然有用因为一旦有了这个黑箱你就可以进行实验。接下来他们进行了显著性分析。
这种分析的原理是黑箱接收大约 20 个不同的输入而输出是一个签名那么你可以通过改变每一个输入来观察输出的变化概率。20 个输入中只有 3 个对输出起了重要作用其他 17 个几乎没有影响而且这 3 个也不是他们最初预期的。比如他们本以为体积会很重要但结果显示体积几乎无关紧要。三个重要的输入是长程平移和子午线平移的实数部分和复数部分。
一旦他们确定了最重要的输入就可以直接绘制签名与这三个输入之间的关系图然后用人的视觉网络而不是神经网络来观察其中的明显模式。通过观察这些图他们可以提出一些关于问题的猜想。
尽管他们最初的猜想是错误的但他们重新利用神经网络证明了这个猜想的错误性并根据错误之处进行了修正最终得出了正确的猜想成功解释了这个现象。一旦他们得出正确的陈述他们就能够证明这一点说明为什么签名与这些特定的不变量有如此密切的关系。
我认为这展示了机器学习在数学中的一个应用方式它并不直接帮你解决问题但能提供很多有用的提示指引你去寻找关键的联系不过最终还是需要人类来做出真正的关联。
最后我们来谈谈大型语言模型它们是最引人注目、也最为人所知的。神经网络已经存在了 20 年左右而大型语言模型大约在 5 年左右就已经出现了但直到最近它们的输出才接近人类水平。你们可能都听说过 GPT-4这是 ChatGPT 的一个模型。
非常著名的是当 GPT-4 发布时有一篇论文描述了它的能力。研究人员给它输入了 2022 年国际数学奥林匹克IMO的一道题是一个稍微简化的版本。如果你研究过 2022 年的 IMO 题目你会发现它不是完全相同的形式这是一个简化版本。不过 GPT-4 给出了完整且正确的解答它确实解决了一道 IMO 的题目。
但其实这是他们挑出来的。他们测试了数百道国际数学奥林匹克IMO级别的问题成功率大概只有 1%。所以虽然这道特定的问题能够被解决但他们必须以正确的方式来格式化问题才能得到解答。不过尽管如此这依然相当令人惊叹。
另一个有意思的是某些人类觉得困难的事情AI 可能可以轻松完成。而人类觉得容易的事情AI 却常常难以处理。这是一种非常不同的解决问题方式。有研究人员曾让模型做一个简单的算术计算像是 7×4 8×8。
模型只是根据输入猜测最可能的输出结果它猜的答案是 120。然后它停顿了一下说「也许我应该解释一下为什么是 120。」于是它逐步展开解答但当它一步一步进行计算时实际上得出了正确的答案 ——92而不是它最初猜的 120。如果你接着问「等等你之前说答案是 120。」 它会回复「哦那是个笔误抱歉正确答案是 92。」
所以它们并不是通过从基本原理推导出答案而是每一步都在猜测接下来最自然的输出是什么。令人惊讶的是有时候这种方法有效但很多时候却不奏效。而如何让它们变得更加准确仍然是一个正在进行的研究课题。
所以人们正在尝试各种方法来改进这些模型。你可以将这些语言模型与其他更可靠的软件连接起来。实际上接下来的演示中你会看到一个大型语言模型与其他工具连接的案例。在这种情况下你不需要自己进行计算而是将计算外包给 Python。不过你还可以做另一件事强制语言模型只生成正确的答案方法是让它们输出特定的编程语言格式。如果代码不能编译你就把它返回给 AI让 AI 重新尝试。
或者你也可以直接教它一些解决问题的技巧比如我用来解决国际数学奥林匹克IMO问题的技巧像是尝试简单例子、反证法或者一步一步地证明等等。人们正在尝试各种各样的方法。虽然目前我们还远远没有能够解决大多数数学奥赛问题更别提数学研究问题了但我们确实在不断取得进展。除了能够直接解决问题外AI 还可以作为某种灵感来源。
实际上我自己也使用过这些模型并尝试各种问题。我曾遇到一个难题尝试了几种方法都没有成功。于是作为实验我向 GPT 询问它会建议使用哪些其他技术来解决这个问题。它给了我一个包含 10 种技术的列表其中大概有五种是我已经试过但明显无用的方法还有几种也不太有帮助。
但其中有一种技术我没有尝试过那就是对这个特定问题使用生成函数。当它提出这个建议时我意识到这确实是正确的方向但我之前忽略了。所以作为一个可以交流的人它还是有一定用处的。虽然现在并不是特别出色但也并非完全无用。
另一个已经变得非常有用的 AI 辅助类型是用于证明辅助的工具。正如我所说写正式的证明是一项非常繁琐的任务就像任何非常严苛的计算机语言一样你必须确保语法完全正确如果你漏掉一步它就无法编译。现在有一些工具比如我用过的 GitHub Copilot。
你可以写下证明的一半然后它会试着猜测下一行应该是什么。在大约 20% 的情况下Copilot 会猜出接近正确的内容然后你可以选择接受它的建议。比如在一个实例中我正尝试证明某个命题灰色部分是 Copilot 建议的代码。结果发现第一行没什么用但第二行却上解决了这个问题。所以你不能完全依赖它的输入因为它不一定能编译成功。但如果你大致了解代码的工作方式它可以为你节省很多时间。 这些工具正在不断改进。现在如果证明只有一两行它们可能能够自动完成。还有一些实验在进行中尝试让 AI 生成证明接着将其反馈给编译器如果编译出错再把错误信息传回 AI。
可以看到这种方法可以处理大约四到五行的证明。当然一个完整的大型证明通常有数万行因此我们还远没有达到能够立刻将证明完全形式化的水平。但即便如此它已经成为一个相当有用的工具了。
我们现在处于什么阶段有人希望在未来几年内我们能够直接使用计算机来解决数学问题。我认为距离这个目标还有很长的路要走。对于一些细分领域中的问题我们可以构建一个 AI 专家。但它们并不完全可靠。因此至少在接下来的几年里AI 将大概率扮演一个辅助的角色。
除了我们熟知的那种 AI 辅助「蛮力计算」之外我认为还有一个特别令人兴奋的方向。尽管目前还没有真正成功但是 AI 已经非常擅长生成猜想。我们已经看到了一些例子AI 已经可以推测两个统计数据之间的联系。所以现在我们寄希望于创建庞大的数据集将大量数据「喂」给 AI然后它们就会自动生成各种数学对象间的联系。其实这还并没有实现我们还不清楚如何做到这一点。当然我们还没做出那种大体量的数据集。但我认为 AI 能生成数学猜想在将来很有可能成为现实。
证明数学定理是一个艰难、持久的过程。我们现在一次只能解决一个问题如果效率够高也许你也可以同时解决两三个问题。但是当我们有了 AI可以一次性处理 1000 个类似的问题。你可以直接告诉 AI「尝试用这种方法解决这 1000 个问题」我们再检查结果可能其中 35% 的问题已经用这种方式解决了。
此外我能够将相似的问题综合起来一并解决。这种方法允许我们对整个问题集进行探索而不是孤立地逐个击破。这是目前无法做到的因为它可能需要几十年的时间通过几十篇论文用各种技术慢慢弄清楚。目前我们仍然需要证明老式的定理。因为我们还没找到引导 AI 自动证明的方法。
但是凭借未来强大的 AI 能力你将真的可以开始以一种真正前所未有的规模进行数学运算未来将会非常激动人心。 #Loss of plasticity in deep continual learning
深度学习还不如浅层网络RL教父Sutton持续反向传播算法登Nature
人工神经网络、深度学习方法和反向传播算法构成了现代机器学习和人工智能的基础。但现有方法往往是一个阶段更新网络权重另一个阶段在使用或评估网络时权重保持不变。这与许多需要持续学习的应用程序形成鲜明对比。
最近一篇发表在《nature》杂志上的研究论文《Loss of plasticity in deep continual learning》证明标准的深度学习方法在持续学习环境中会逐渐失去可塑性plasticity直到它们的学习效果不比浅层网络好。
论文地址https://www.nature.com/articles/s41586-024-07711-7
值得注意的是人工智能先驱、强化学习教父、DeepMind 杰出研究科学家阿尔伯塔大学计算机科学教授 Richard S. Sutton 是这篇论文的作者之一。
简单来说该研究使用经典的 ImageNet 数据集、神经网络和学习算法的各种变体来展示可塑性的丧失。只有通过不断向网络注入多样性的算法才能无限期地维持可塑性。基于这种思路该研究还提出了「持续反向传播算法」这是反向传播的一种变体其中一小部分较少使用的单元被持续随机地重新初始化。实验结果表明基于梯度下降的方法是不够的持续的深度学习需要随机的、非梯度的成分来保持可变性和可塑性。
ImageNet 数据库包含数百万张用名词类别标记的图像例如动物类型和日常物品。典型的 ImageNet 任务是猜测给定图像的标签。
为了使 ImageNet 适应持续学习同时最大限度地减少所有其他变化该研究通过成对的类构建了一系列二元分类任务。例如第一个任务可能是区分猫和房屋第二个任务可能是区分停车标志和校车。利用数据集中的 1000 个类该研究能够以这种方式形成 50 万个二元分类任务。
对于每个任务该研究首先在两个类的图像子集上训练深度学习网络然后在这些类的单独测试集上测量其性能。在一个任务上训练和测试后下一个任务从一对不同的类开始。研究团队将此问题称为「持续 ImageNetContinual ImageNet」。在持续 ImageNet 中任务的难度随着时间的推移保持不变。性能下降意味着网络正在失去学习能力这是可塑性丧失的直接表现。
该研究将各种标准深度学习网络应用于 Continual ImageNet并测试了许多学习算法和参数设置。为了评估网络在任务中的性能该研究测量了正确分类测试图像的百分比。
该研究发现对于经过良好调整的网络性能往往首先提高然后大幅下降最终接近或低于线性基线。当性能开始下降时网络架构、算法参数和优化器的具体选择会产生影响但多种选择都会导致性能严重下降。标准深度学习方法在后续任务中无法比线性网络更好地学习这直接证明这些方法在持续学习问题中效果不佳。 令人惊讶的是Adam、Dropout 和归一化等流行方法实际上增加了可塑性的损失而 L2 正则化在许多情况下减少了可塑性的损失。 研究团队发现显式保持网络权重较小的算法通常能够保持可塑性甚至在许多任务中能够提高性能。
该研究基于上述发现提出了反向传播算法的一种变体 —— 持续反向传播该算法向网络注入可变性并保持其某些权重较小。
方法
持续反向传播
持续反向传播算法将选择性地对网络中低效的单元进行初始化处理。研究团队定义了名为「贡献效用」的值来衡量每个单元的重要性。如果神经网络中某个隐藏单元对它所连接的下游单元的影响很小那么它的作用就可能被网络中其他更有影响力的隐藏单元掩盖。
贡献效用通过计算即时贡献的移动平均值来衡量这个值由衰减率表示。在所有实验中初始衰减率 η 设置为 0.99。在前馈神经网络中第 l 层第 i 个隐藏单元在时间 t 的贡献效用 更新如下 其中 是时间 t 时第 l 层第 i 个隐藏单元的输出 代表其权重 代表第 l1 层的单元数量。
当一个隐藏单元被重新初始化时它的输出的权重将被初始化为零。这么做是为了新添加的隐藏单元不会影响模型已经学到的功能。但是这样也容易导致新的隐藏单元很快被重新初始化。
为了防止这种情况研究团队设置了「成熟阈值」在 m 次更新前即使新的隐藏单元的效用是零也不会被重新初始化。当更新次数超过 m 后每一步「成熟单元」的一部分 ρ称为替换率在每一层都会被重新初始化。替换率 ρ 通常设置为一个非常小的值这意味着在数百次更新后只替换一个单元。例如在 CIFAR-100 中研究团队将替换率设置为 10 的负五次方每一步大约 0.00512 个单元被替换。这相当于大约每 200 次更新替换一次。
最终的算法结合了传统的反向传播和选择性重新初始化两种方法以持续地从初始分布中引入随机单元。每次更新时持续反向传播将执行梯度下降并选择性地重新初始化。
前馈神经网络的持续反向传播如算法1所示。处理小批量数据时可以采取一种更经济的方法通过对小批量数据上的即时贡献效用取平均值而不是保持一个运行平均值来节省计算量。 在 ImageNet 上的应用
研究使用了包含 1000 个类别的 ImageNet 数据库每个类别有 700 张图片分为 600 张训练图像和 100 张测试图像。在二元分类任务中网络首先在 1200 张训练图像上训练然后在 200 张测试图像上评估分类准确度。
所有在持续 ImageNet 上使用的算法都采用了具有三个卷积加最大池化convolutional-plus-max-pooling层和三个全连接层的卷积网络。最终层有两个单元对应两个类别。在任务变更时这些单元的输入权重会重置为零。这种做法在深度持续学习中是标准做法尽管它为学习系统提供了关于任务变化时间的特权信息。
线性网络的性能在持续 ImageNet 上不会下降因为它在每个任务开始时都会重置。通过在数千个任务上取均值得到线性网络性能的低方差估计值作为基线。
网络使用带有动量的 SGD 在交叉熵损失上进行训练动量参数设为 0.9。研究者测试了不同的步长参数但为了清晰起见只展示了 0.01、0.001 和 0.0001 的步长性能。
该研究还通过网格搜索确定了 L2 正则化、收缩和扰动以及持续反向传播算法的超参数以在 5000 个任务上获得最高的平均分类准确度。L2 正则化和收缩扰动的超参数包括步长、权重衰减和噪声方差持续反向传播的超参数包括步长和替换率成熟度阈值设为 100。
研究者对所有超参数集合进行了 10 次独立运行然后对表现最佳的超参数集合进行了额外的 20 次运行总共 30 次。 CIFAR-100 的类别增量学习
在 CIFAR-100 的类别增量学习中开始时模型可以识别 5 种类型的图片随着训练时间越来越长模型能识别的图片种类越来越多比如能同时学习 100 种类别的图片。在这个过程中系统将通过测试检验自己的学习效果。数据集由 100 个类别组成每个类别有 600 张图像其中 450 张用于创建训练集50 张用于验证集100 张用于测试集。
每次增加学习的类别后网络被训练 200 个周期总共增加 20 次共训练 4000 个周期。研究团队在前 60 个周期中将学习率设置为 0.1接下来的 60 个周期为 0.02此后的 30 个周期为 0.004最后的 40 个周期为 0.0008。在每次增加的 200 个周期中研究团队选出了在验证集上准确度最高的网络。为了防止过拟合在每轮训练中新网络的权重将被重置为上一轮准确度最高网络的权重。
他们选择了 18 层的 ResNet 做实验。在将输入图像呈现给网络之前该研究进行了几个步骤的数据预处理。首先将每张图像中所有像素的值重新缩放到 0 和 1 之间。然后每个通道中的每个像素值通过该通道像素值的平均值和标准差分别进行中心化和重新缩放。最后在将图像输入给网络之前该研究对每张图像应用了三种随机数据转换以 0.5 的概率随机水平翻转图像通过在每边填充 4 个像素然后随机裁剪到原始大小来随机裁剪图像以及在 0-15° 之间随机旋转图像。预处理的前两步应用于训练集、验证集和测试集但随机转换仅应用于训练集中的图像。
该研究测试了多个超参数以确保在特定架构下保持每个算法的最佳性能。对于基础系统该研究测试的权重衰减参数取值范围为 {0.005, 0.0005, 0.00005}。对于「持续反向传播」该研究测试的成熟度阈值取值范围为 {1000, 10000}替换率的取值范围为 采用了公式 (1) 中描述的贡献效用。成熟度阈值为 1000替换率为 10^(-5) 时表现最佳。 作为参考该研究还实现了一个具有与基础系统相同超参数的网络但在每次增量的开始时都会重新初始化。图 2b 显示了每个算法相对于重新初始化网络的性能表现。
持续反向传播在全部的 100 个类别中的最终准确率为 76.13%而扩展数据图 1b 展示了在成熟度阈值为 1000 时持续反向传播在不同替换率下的性能表现。 #AnyGraph
港大黄超团队推出AnyGraph, 首次揭秘图大模型的Scaling Law
本文的主要作者来自香港大学的数据智能实验室 (Data Intelligence LabHKU)。第一作者是香港大学的博士后夏良昊指导老师为黄超教授。香港大学数据智能实验室专注于人工智能和数据挖掘的研究涵盖大语言模型、图神经网络、信息检索、推荐系统和时空数据挖掘等领域。实验室的研究成果在多个顶级会议上如 WWW、SIGIR、KDD获得了诸多荣誉包括最具影响力论文和最佳论文候选。
AnyGraph 大模型图模型泛化性的突破致力于解决以下关键技术挑战
结构异质性应对图结构信息中的分布偏移。特征异质性处理跨图数据集的多样特征表示。快速适配使模型迅速适应新的不同的图学习领域展现敏捷适应力。大模型能力涌现随着数据量和模型参数的增长性能显著提升释放模型潜能。
AnyGraph 的主要特点
图混合专家GraphMoE采用一系列专家模型巧妙解决跨域异质性问题。轻量级图专家路由机制快速适应策略使模型能够迅速响应新的数据集和领域。自适应且高效的图专家模型专为处理具有广泛图结构模式和特征空间的模型而定制设计。广泛训练和测试在 38 个多样化的图数据集上经过严格验证展现出卓越的泛化能力和模型扩展性证明了其涌现能力。 作为一种重要的数据形式图数据在社交网络、学术网络、交通系统和生物网络等多个领域有广泛应用。图模型例如图神经网络GNN学习图中节点的表征向量来捕捉结构信息和节点上的特征信息从而进行准确预测。
近年来图学习领域取得了显著进展主要得益于图神经网络GNNs的强大功能、一些微调方法的提出、以及最近一些将图数据空间与自然语言空间进行对齐的尝试。然而当前最先进的图模型在跨领域的泛化性能上仍显不足。
现有方法往往严重依赖繁琐的微调过程难以应对真实图结构复杂、多样化的特点。这种无法快速无缝适应新图域的能力阻碍了图学习技术的广泛应用。因此解决这一挑战搭建一个具有跨领域、强泛化性能的图基础模型对于图学习领域至关重要。
为此研究团队推出 AnyGraph, 首次揭秘图大模型的 Scaling Law。
论文链接: https://arxiv.org/pdf/2408.10700项目地址: https://github.com/HKUDS/AnyGraph实验室主页: https://sites.google.com/view/chaoh
考虑到图数据的特点以及受到语言和图像数据基础模型的启发研究团队致力于解决以下几个关键问题
结构异质性不同应用领域的图数据在结构上可以存在极大的差别例如节点的平均度数、紧密子图出现的频率、噪音和缺失边数据的比例等。图结构模式的多样性对图基础模型的容纳能力提出了严重的挑战。特征异质性作为图数据的重要组成部份节点特征在不同数据集中却存在普遍且极大的差异。例如有的数据集采用离散的类别特征有的可能采用连续的数值特征有的采用文本语意 embedding有的采用图结构的统计信息。此外不同数据集的节点特征在向量维度这一基本特点上甚至都具有极大的差异。如何使图基础模型在零样本情况下处理不同图的异质特征是一个关键挑战。快速适应以实现广泛应用。有效的图基础模型的关键能力之一是能够高效地适应新的图数据集和领域。理想模型应能够迅速调整其参数和学习策略以处理之前未见过的图数据集的结构和分布特征而无需进行大量的重新训练或微调。图基础模型的扩展定律与变革性能力。在计算机视觉和自然语言处理等领域中成功的基础模型具有一个关键特性 —— 扩展定律Scaling Law即随着模型大小或训练数据集的增加性能会系统地提升。探索图基础模型是否适用这一定律也是本文研究的一个重要问题。
为了解决上述问题 AnyGraph 提出了以下关键性技术。
图 MoE 模型
不同图之间巨大的结构和特征差异促使我们采用一种更 “松散” 的模型架构。AnyGraph 的 MoE 架构使用完全不同的专家模型来处理差异极大的图数据模型无需在高度耦合的单个神经网络中巧妙地容纳不同数据的建模和处理过程。
具体来说AnyGraph 的 MoE 架构包含多个图数据专家模型每个专家模型均能对所有输入的图数据进行处理和预测但所擅长的领域和模式不同。例如有的专家模型擅长处理文本 embedding 特征有的擅长处理图的邻接矩阵特征有的专家模型擅长处理稠密数据而有的擅长处理稀疏数据。
为了向每个专家模型分配适合的任务AnyGraph 设计了一种专家路由机制在训练和测试过程中基于专家模型对数据的擅长程度进行匹配。
基于这一 MoE 架构AnyGraph 对图数据的知识存储在不同的专家模型中而不同的专家模型不需要进行相互的协调和耦合从而更容易地容纳图数据之间的巨大差异解决跨领域情况下的结构和特征异构性问题。
此外MoE 架构使得 AnyGraph 仅需使用几分之一的模型参数就可以完成单个大模型具备的训练和预测效果大大提升了模型的快速适应能力。
下图展示的消融实验中我们验证了采用单个模型-MoE相对于使用 MoE 架构的劣势。 轻量化的图专家路由机制
专家模型路由负责为输入的数据集匹配适合的专家以进行更准确的预测、以及更适当的专家训练。
受到图自监督学习的启发我们的图专家路由采用一种自监督损失来衡量不同专家模型完成不同数据集的能力以进行匹配。
在不引入额外标签数据的情况下我们的自监督任务损失可以准确衡量专家模型处理不同图数据的误差程度。在模型调试过程中我们发现这一自监督路由算法与遍历所有分配情况所得到的最优分配方案相差无几。
下图展示了我们的路由机制对数据集的分配情况可以看到相关的数据集总是被分到同样的专家模型中例如 arxiv-ta, Photo, GReads, Fitness 等使用同样特征空间的数据集以及 ML1M 和 ML10M 这两个同源数据集。此外路由算法的准确性不仅可以在训练数据集上观察到在下图右半部分中模型从未见过的测试数据集也可以进行准确路由。这体现了 AnyGraph 路由机制的通用性和模型的泛化性能。 自适应且高效的图专家
结构和特征的异构性在模型设计的底层带来了诸多挑战例如模型如何处理不同维度的特征向量、如何处理二维可变长的邻接矩阵、图专家如何设计可以高效处理不同图类型的变换和预测。
我们的图专家模型采用奇异值分解 SVD 方法对邻接矩阵和节点特征矩阵进行了维度统一。同时这种统一的特征处理过程具有一定的语义统一性为跨数据集的零样本预测打下了基础。
由于我们在高层采用了 MoE 架构集成多个预测模型我们在单个图专家中采用了简单的 MLP 网络希望所有的建模问题都能通过采用合适的特征变换来解决。这样做大大增强了模型的效率使 AnyGraph 甚至在训练效率上超过传统的图网络模型。
下图实验对比了 AnyGraph以及普通的 GCN 方法、预训练方法 GraphCL 三种方法在不同数据集下测试它们训练 100 个 step 所花费的时间。可以看到尽管 AnyGraph 采用了更多的参数、更大的模型但由于单个专家模型的高效性训练时间与简单的基线方法相近、甚至更少。 此外文章进一步探究了不同模型在应对新数据时的快速适应能力。下图实验对比了三种方法随着训练步数的增加在训练数据集上性能的提升曲线。实验对比的方法包括对一个随机初始化的 GCN 模型进行从头训练、对一个预训练的 GraphCL 模型进行微调、以及对预训练的 AnyGraph 进行微调。
首先可以观察到 AnyGraph 在未经微调时的零样本预测效果远优于两种基线方法。这源于 AnyGraph 出色的跨领域和零样本泛化能力。其次AnyGraph 的效果曲线更快到达收敛状态这体现了使用 MoE 架构、选择合适且高效的专家模型进行微调可以更快地进行模型适应。此外可以观察到 GraphCL 的预训练在 PPA 数据集上不仅没有为它带来性能的优势反而对学习新数据造成了负面影响。这体现了图模型进行跨领域迁移的困难这源于不同领域图数据巨大的异构性。 广泛训练和测试
数据集
AnyGraph 采用了共 38 个数据集进行训练和测试数据集涵盖了电商、学术网络、生物信息网络、交通网络、网页关联网络、社交网络等多个类别。共包括 14,437,372 个节点和 199,265,688 条边。不同数据集采用的节点特征方法不同囊括了无节点特征、不同的文本 embedding 方法、词袋特征、类别特征等不同的方法。具体数据集统计信息如下所示 为了更好地观测模型在大规模测试中的性能我们将测试数据集分为了多个不同的集合。不同集合之间不包含同源数据集例如收集自同一个网络服务平台不同集合的数据集之间也不共享特征构建方法例如同一种文本 embedding 方法只可能出现在 Link1 和 Link2 两个集合的其中之一。通过这种方式模型在零样本测试时完全未接触过测试数据的数据源和特征方法能测试模型更真实的零样本性能表现。 文章提供了两个版本的预训练模型分别在 Link1 和 Link2 两个集合上训练得到。在零样本测试中这两个模型只会被用于测试它们未见过的数据集。例如使用在 Link1 上训练的模型测试 Link2 上的表现。在测试 Ecommerce、Academic、Others 这些包括了 Link1 和 Link2 两类数据集的情况时文章分别采用两个预训练模型对未见过的数据集进行测试再整合计算数据集合的整体预测性能。
AnyGraph 的零样本预测性能
AnyGraph 在零样本预测上的效果如下所示 除了与现有图模型的少样本预测能力进行对比文章还对比了现有的其他图基础模型一个是基于文本特征的 GraphGPT一个是基于结构特征的 OpenGraph。可以看到在更多数据集的泛化性能测试上AnyGraph 取得了更好的效果。并且文章还对比了一个除了文本特征的消融版本 AnyGraph-F从而验证了 AnyGraph 对结构和文本两种特征均能进行有效的利用。 AnyGraph 的扩展定律
为了探索 AnyGraph 的性能增长是否符合扩展定律Scaling Law文章调整了 AnyGraph 的模型参数量和训练数据量。前者通过调整模型的表征维度、网络层数、专家数量而后者通过从小到大增加训练数据集的数量。
测试效果如下所示该实验分为对跨领域数据集的测试以及对单个领域跨数据集的测试。在每个子图的实验中包含了以下三项
左在模型参数量影响下对未见过数据集的零样本预测性能变化中在模型参数量影响下对训练过数据集的全样本预测性能变化右在训练数据量影响下对未见过数据集的零样本预测性能变化
从结果可以得出以下几点结论
AnyGraph 的零样本能力遵循 Scaling Law虽然模型的全样本预测能力出现了增长的饱和但其零样本能力随着参数量和数据量的增长不断上升这说明 AnyGraph 模型的零样本能力遵循 Scaling Law这一观测结果有两个重要原因首先是测试的任务需要具备一定的难度全样本预测只需要模型在训练数据集上具备泛化能力相对较为简单因此容易出现性能增长的饱和而跨数据集、跨领域的零样本预测挑战性高仍有很大的增长空间。其次AnyGraph 的 MoE 架构使得它更容易容纳不同数据集的多样化图数据模式从而具备更大的潜力随着参数量和数据量的增大而提升。AnyGraph 的涌现能力在测试曲线中常常可以观测到模型性能常常在经历了一定的增长停滞后出现突变式提升。这符合在视觉和文本大模型中观测到的涌现能力特点说明 AnyGraph 具备了产生变革式泛化能力的基础。不足的训练数据引入 bias在数据量增长实验中可以观察到一个典型的特征在早起的数据量增长中模型性能经历了一个断崖式的下跌这是由于训练数据不足而新引入的训练数据与测试数据集存在较大的偏离导致模型训练存在较大的 bias。这一问题可以通过扩大训练数据量解决这样做不仅增强了模型性能也可以增强训练的鲁棒性。 总结
AnyGraph 框架是一个高效且有效的图基础模型专为应对不同图数据集中结构和特征异质性的多方面挑战而设计。AnyGraph 采用创新性的专家混合MoE架构并结合动态专家路由机制使其在跨域泛化能力方面达到了最先进的水平。在 38 个不同的图数据集上进行的广泛实验不仅突显了 AnyGraph 在零样本学习性能上的卓越表现还证明了其对分布偏移的鲁棒性以及其遵循规模定律的能力从而随着模型大小和数据量的增加而提高了预测精度。该模型在训练和推理效率上的表现通过与现有方法的比较得到了验证进一步巩固了其实际应用性。 #OpenAI总裁出走3月终于归来
Greg结束「最长假期」专注重大技术挑战每周狂肝100小时代码
那个每周狂肝100小时代码的总裁他回来了一波高管离职潮后Greg Brockman宣布结束「人生中最长的假期」回到OpenAI继续工作他会谋划一个新职位专注技术。而另一边前CTO Mira Murati的团队也已初具规模了。
最近连遭波折的OpenAI终于迎来一个振奋的好消息。
从8月宣布休假的Greg Brockman今日归来了
这位OpenAI联创兼总裁终于结束了自己「人生中最长的假期」。
这期间高层经历了一系列巨震CTO Mira Murati、联创John Schulman、安全研究副总裁Lilian Weng接连出走。
OpenAI高管离职潮之际Brockman作为关键人物重返C级管理层。
他的回归总算稍微稳定了军心。
OpenAI研究员Keyan Zhang暗示有好事发生了
创立OpenAI九年第一次真正的放松 在8月份Brockman就宣布自己将休假至年底。
创立OpenAI九年来这是他第一次能真正地放松一下。
8月Greg曾表示自己的假期开始得很艰难因为害怕错过公司的精彩瞬间
网友们的反应是不可思议。
在公司内部他常被人以GDB相称。
他是公司的核心人物是一年前奥特曼被罢免CEO期间的重要盟友。
当时奥特曼被出局后Brockman坚定地站在他这一边曾辞职抗议随后在奥特曼重返公司时也一同回归。
据内部人士透露Brockman是在周二一份内部备忘录中宣布这一消息的。
他在备忘录中表示自己一直在和奥特曼合作会为自己规划一个新职位专注于解决重大的技术挑战。
如今OpenAI的联创中只有三位选择继续留在这里。
Greg Brockman重返OpenAI路在何方
多位高层领导以及研究员的离职OpenAI估值也从今年2月860亿美金飙升至1570亿美元Altman进一步巩固了权力地位。
在Brockman还未回到OpenAI之前The Information曾撰长文暗示他面临着一个全新考验能否与奥特曼建立良好合作关系。
这个结果并不确定。
在Brockman休假期间Altman实际上接管了OpenAI的技术团队并称自己希望更贴近AI开发工作。
这种局面对Brockman来说可能会很尴尬尽管他是OpenAI二号人物但他是公司最精通技术的专家之一而且仍在积极参与产品代码编写。
Brockman的技术专长和工作态度在OpenAI是广受认可的。
他参与了公司许多最成功产品的开发如GPT-4、Strawberry推理模型。就连董事会成员和前同事们都形容他是「OpenAI最勤奋的人」是一个能将研究突破转化为实际产品的人才。
他还是公司一些最重要客户的主要联系人比如在线教育非营利组织可汗学院。
与此同时一些OpenAI研究人员对与他共事有所抱怨。
与其共事的员工吐槽Brockman编写了大量代码但往往缺乏文档说明且难以理解有时与OpenAI其他部分的工作不协调。
这给需要将他的工作与公司代码集成的工程师们带来了困难。
另一个内部员工表示他习惯在不咨询他人的情况下对项目进行修改如果认为自己的方法更好就会重复他人的工作。
比较有趣的是Murati常常承担着「和事佬」这份苦差。
她过去经常需要出面调解Brockman与感到不满的研究人员和工程师之间的矛盾。
对于这点Brockman也有自知之明「我的工作方式可能会让人感到『压力山大』」。
这也就是Brockman为何去休假的原因。今年早些时候Brockman和其他OpenAI高管达成共识认为让他暂时休假是明智之举以缓解紧张局势。
除此之外鉴于去年年底OpenAI宫斗以及其它人事动荡内部员工们一直在热议Altman和Brockman能否有效合作。
对于硅谷来说新公司爆火时内部出现动荡并非罕见。谷歌和优步在初期高速增长阶段都历经了近乎持续不停的内部争斗以及人员流动。
然而OpenAI的激烈程度还是让一些早已「见过大世面」的业内人士感到十分震惊。
设计软件公司Autodesk前CEO、曾担任谷歌联合创始人顾问的Carl Bass表示在私人资本自由流动的时期看到一些员工从快速发展的创业公司出走创办自己的企业是很正常的。不过OpenAI的人员流动情况格外突出。
接着他解释道「当那些在OpenAI拥有理想职位、丰厚回报和工作声望的高层领导纷纷选择离职时说明公司内部还存在其他问题。」
毕竟相比起其他的科技巨头OpenAI面临的风险更高——它在短短几年内从一个小型非营利组织发展成为全球估值最高的创业公司之一发展速度远超大多数公司。
与此同时它还不得不面临着来自谷歌和Meta等资金充足的对手的竞争和挖角。
连接客户的桥梁
Brockman并非典型的科技公司总裁换句话说管理不是他的特长。
大学辍学后他成为了Stripe的首席技术官并且在OpenAI并不直接管理任何人。
Brockman在公司的大部分时间都在编程在各个项目之间穿梭。据客户反映他工作中鲜为人知的一部分是与客户沟通而以他的资历来说他花在这方面的时间格外多。
可汗学院创始人兼CEO Sal Khan说道如果我现在给他发Slack消息他可能10分钟内就会回复。作为OpenAI的长期客户可汗学院一直协助公司测试新模型的质量。
「当你在想OpenAI是否有意隐瞒什么的时候能和Greg交谈真的很有帮助他非常真诚」。
据另一位客户透露过去Brockman经常会突然加入客户会议随性地讨论他最兴奋的未来AI用途和技术进步。
2022年的一个会议中一位客户误以为Brockman是OpenAI的普通工程师问他在这家创业公司工作多久了。
Brockman笑着回答「我是联合创始人」。
深入技术细节
曾与他共事的人透露Brockman亲自参与技术工作的做法对于他这个级别的高管来说很不寻常这在过去曾让他的同事产生不满。
另一位前员工表示没有人否认Brockman的编程能力使他能快速开发产品原型。
这位前员工说例如他编写了大部分用于训练OpenAI的GPT-4模型的代码以及通过强化学习让模型按照人类期望方式行事的代码。
然而Brockman创建的软件难以使用而且没有相关说明文档。这导致其他研究人员不得不花费数周时间来清理代码并试图创建更易用的替代方案。
这种工作方式可能会让Brockman与Murati等其他技术领导者产生矛盾。
据报道Murati和她管理的团队有时会对如何将研究成果转化为产品有自己的规划——这些规划与Brockman的想法相冲突。
Brockman也自称是一个工作狂他表示每周工作时间在60-100小时之间。
他的个人生活和职业生活也以独特的方式融合在一起。
2019年Brockman与女友Anna在OpenAI的办公室举行了婚礼由联合创始人兼前首席科学家Ilya Sutskever主持。
据一位熟悉他们工作关系的人士透露此后虽然并非公司员工Anna Brockman却成为了OpenAI旧金山办公室的常客参加会议并担任丈夫的首席助理。
一些OpenAI员工表示他们认为Anna Brockman在公司的参与程度不太恰当。
权力格局变化
过去Sam Altman和Greg Brockman一直扮演互补角色。
Altman倾向于避免做出困难决定——比如当领导要求增加人手或资源时给出明确答复。
而Brockman则相对直接不惧冲突也不怕说「不」。
现在Murati离职后Altman接管了技术方面的工作Brockman重返组织后这种动态关系将如何变化还有待观察。
最近一系列高管离职留下了其他权力空缺以及谁来填补这些空缺的问题。
比如据一位曾与Murati共事的人士透露她此前负责管理OpenAI与其最大投资者微软之间的技术关系以及微软如何在其产品中使用OpenAI的对话AI。
即使在OpenAI内部高级员工也不清楚现在由谁来管理这种关系。
这位人士表示可能的人选包括首席产品官Kevin Weil和首席运营官Brad Lightcap。
Lightcap此前监管OpenAI的财务和销售团队现在分别由首席财务官Sarah Friar和首席商务官Giancarlo Lionetti领导。
而且Lightcap最近更多地参与到公司的研究和产品组织中对产品发布时间表或公司应该追求哪些研究方向发表意见。
OpenAI组织结构的不明确性在过去一直是其内部矛盾的一个因素。
2021年底Sutskever开始探索如何通过更好的推理能力来提高模型性能并组建了一个10-15人的团队来解决这个问题。
几个月后另一位熟悉该项目的人说研究员Jakub Pachocki现首席科学家开始研究类似的问题尽管他采取了不同的技术方法。
随着时间的推移Sutskever和Pachocki两人的研究变得不那么明确开始有所重叠。
当Altman未能明确他们的职责时Sutskever决定启动一个新团队旨在降低失控的先进AI的风险即超对齐superalignment并将时间花在这个计划上。
紧接着他参与了Altman罢免运动。
今年早些时候Ilya Sutskever离职创办SSIPachocki接任了他的首席科学家职位。
到目前为止这些人事问题似乎并没有阻碍OpenAI的财务表现尽管公司亏损严重但预计今年收入将达到近40亿美元使其在聊天机器人领域处于领先地位。
然而领导层的变动可能已经对OpenAI的融资努力产生了影响。
据两位参加了与Friar会面的人士透露在Murati宣布离开公司后不久苹果退出了融资谈判。
在一次会议上Friar表示苹果没有给出明确的退出原因但她认为这是由于Murati的离职尽管参加会议的人说在整个过程中苹果一直对投资持观望态度。
前CTO的新团队已初具规模
今年8月OpenAI前CTO Mira Murati官宣离职。
一个月前Murati被曝出正在游说现任员工加入她的创业项目。
现在看来至少有一位OpenAI研究员接受了她的橄榄枝。
据知情人士透露负责AI模型发布准备工作的OpenAI研究项目经理Mianna Chen已经离职并计划加入Murati的新公司。
Chen负责了OpenAI多个模型和产品的发布包括GPT-4o、o1推理模型和高级语音模式。
她所在后训练优化团队专注于在特定任务中对AI模型进行优化并就输出质量提供反馈。
对于OpenAI来说这显然不是一个好消息。尤其是预训练带来的收益似乎正在放缓的当下留住后训练优化领域的人才愈发重要。
别忘了Murati之前挖走的正是前OpenAI后训练优化负责人Barret Zoph和前高级研究员Luke Metz。
目前还不清楚Murati的新创业公司将专注于什么领域以及是否会开发基础模型或在现有模型基础上构建产品。
即便如此考虑到这四位研究人员的背景一些风投机构很可能已经跃跃欲试了。
随着Brockman的回归所带来的不确定性或许在未来几周或几个月内还会有更多员工离职加入他们。
参考资料
https://www.theinformation.com/articles/ex-openai-cto-muratis-new-team-takes-shape?rcepv9gi
https://www.theinformation.com/articles/can-greg-brockman-find-a-future-back-at-openai?rcepv9gi
https://www.bloomberg.com/news/articles/2024-11-12/openai-co-founder-returns-to-startup-after-monthslong-leave
https://x.com/gdb/status/1856441156281753908 #谷歌2024博士奖学金公布
KAN作者刘子鸣等数十位年轻华人学者入选 今年共有 85 人获奖分为 13 个方向。 2024 年谷歌博士奖学金Google PhD Fellowship获奖名单公布了。该奖项旨在奖励在计算机科学等前瞻科研领域表现优异的年轻学者奖学金用于直接支持攻读博士学位并提供与谷歌研究导师合作的机会。
根据 2024 年谷歌博士生奖学金项目名单显示今年共有 85 人获奖分为 13 个方向算法与理论 8 人、分布式系统与并行计算 1 人、健康与生物科学 11 人、人机交互与可视化 7 人、机器智能 22 人、机器感知 6 人、自然语言处理 12 人、网络 2 人、量子计算 3 人、安全隐私和防止滥用 6 人、硅芯片研究 1 人、软件系统 1 人、语音处理 5 人。
以下为部分入选华人博士生介绍
算法与理论
Sun Yan新加坡国立大学
Sun Yan 是新加坡国立大学 (NUS) 计算机学院信息系统专业博士生导师是 Stanley Kok 教授。Sun Yan 本科毕业于香港中文大学深圳。
Sun Yan 的研究兴趣是机器学习中的算法及其应用还研究过计算机图形学例如图内核、异常检测。
个人主页https://mathildasunyan.wixsite.com/academic-hub
吕欣加州大学伯克利分校
吕欣是加州大学伯克利分校博士生导师是 Avishay Tal 和 Jelani Nelson。吕欣本科毕业于清华大学交叉信息科学研究所姚班。
吕欣的研究兴趣主要在于理论计算机科学涉及伪随机性、计算复杂度和差分隐私方面的问题。
个人主页https://people.eecs.berkeley.edu/~xinlyu/
健康与生物科学
Chang Kao Jung阳明交通大学
Chang Kao Jung 为阳明交通大学医学博士主要研究方向为大数据、AI、基因遗传学等领域。
Hanjia Lyu罗彻斯特大学
Hanjia Lyu 是罗彻斯特大学计算机科学系四年级博士生指导老师是罗杰波教授。此前他在罗彻斯特大学获得了数据科学硕士学位在复旦大学获得了学士学位主要研究方向包括健康信息学行为科学等领域。
个人主页https://brucelyu17.github.io/
Jason Yang加州理工学院
Jason Yang 为加州理工学院博士生指导老师是 Frances Arnold 教授和 Yisong Yue 教授他本科毕业于耶鲁大学。主要研究方向为蛋白质工程、机器学习等领域。
谷歌学术https://scholar.google.com/citations?userSsDR5GkAAAAJhlen
Kara Liu斯坦福大学
Kara Liu 目前是斯坦福大学计算机科学博士生指导老师是 Russ Altman 教授。她的研究重点是开发和应用机器学习方法以实现公平有效的医疗保健。
在此之前Kara Liu 在加州大学伯克利分校获得计算机科学学士学位还曾在 Pieter Abbeel 和 Aviv Tamar 的指导下从事长视界视觉规划和表征学习的研究。
个人主页https://karamarieliu.github.io/
Lingtong (Tony) Xu多伦多大学
Lingtong (Tony) Xu 博士毕业于加拿大多伦多大学本科毕业于不列颠哥伦比亚大学。
领英主页https://www.linkedin.com/in/tony-lt-xu/?originalSubdomainca
人机交互与可视化
Erzhen Hu弗吉尼亚大学
Erzhen Hu 为弗吉尼亚大学计算机科学博士生导师是 Seongkook Heo 教授。在此之前她获得了弗吉尼亚大学统计学硕士学位和上海大学学士学位。Erzhen Hu 的研究包括通过多模态智能体增强人机交互、利用 LLM 以及将先进的 2D 和 3D 计算机视觉方法应用于多用户场景、 XR 应用探索人机通信范式。
个人主页https://erzhenh.com/
机器智能
曹宇舟南洋理工大学
曹宇舟是新加坡南洋理工大学计算与数据科学学院博士生研究方向为统计学习及其在可信机器学习中的应用导师是安波教授。曹宇舟本科毕业于中国农业大学。
个人主页https://yzcao-nkg.github.io/
Cheng-Yu Hsieh华盛顿大学
Cheng-Yu Hsieh 是华盛顿大学计算机科学与工程专业的博士生之前他在台湾大学获得学士和硕士学位。Cheng-Yu Hsieh 的研究目标是借助数据和模型扩展在当今的大规模环境中更加高效和有效实现人工智能开发的民主化。
个人主页https://chengyuhsieh.github.io/
Eric Zhao加州大学伯克利分校
Eric Zhao 是加州大学伯克利分校计算机科学博士生导师是 Nika Haghtalab 和 Michael I. Jordan。
Eric Zhao 的研究兴趣在于多目标机器学习的算法和数学基础。
个人主页https://eric-zhao.com/
Haodong Lu新南威尔士大学
Haodong Lu 是新南威尔士大学博士生导师是 Dong Gong 和 Lina Yao。
Haodong Lu 的研究兴趣集中在理解和适应数据分布变化特别关注分布外 (OOD) 检测和持续学习致力于开发强大的计算机视觉和多模态模型能够随着时间的推移有效地检测和适应新的数据分布。
Kaiwen Wang康奈尔大学
Kaiwen Wang 目前是康奈尔大学的博士生在进入研究生院之前Kaiwen 在 Meta AI 工作负责构建推荐算法模型和 ReAgent 平台。他的研究领域包括强化学习、因果关系和大型语言模型。
黄凯旋普林斯顿大学
黄凯旋是普林斯顿大学电气与计算机工程系博士生导师是王梦迪教授。黄凯旋本科毕业于北京大学。
黄凯旋的研究兴趣是用于基础模型的强化学习例如用于扩散模型 / 语言模型的 RLHF和用于强化学习的基础模型LLM/VLM 智能体。
个人主页https://hackyhuang.github.io/
Peizhen Li麦考瑞大学
Peizhen Li 是麦考瑞大学计算学院的博士生本硕就读于中山大学。她的研究兴趣集中在具身智能、机器人技术、机器学习。
Siyao Li新加坡南洋理工大学
Siyao Li 是新加坡南洋理工大学 MMLab 的博士生他的导师是 Chen Change Loy 教授。在此之前他曾在商汤科技研究院担任全职研究员与 Quan Wang、Wenxiu Sun 和 Chao Dong 紧密合作。他的研究兴趣集中在 3D 生成、AIGC 相关。
何晓昕新加坡国立大学
何晓昕是新加坡国立大学计算机学院的博士生指导老师为 Bryan Hooi 和 Xavier Bresson。在此之前她在复旦大学获得了本科学位。她的研究兴趣为将深度学习技术应用于图结构数据。
刘子鸣麻省理工学院
相信大家还记得引起巨大关注与争议的 KAN刘子鸣就是 KAN 的一作。目前他在麻省理工学院和 IAIFI 攻读博士学位。他的研究兴趣在于 AI for Physics还成立了 AI4Science 研讨会。
机器感知
张健荣Jianrong Zhang悉尼科技大学
Jianrong Zhang 为悉尼科技大学博士生导师是 杨易Yi Yang 教授他本科、硕士毕业于吉林大学。他的主要研究方向为计算机视觉和人体运动生成。
Sheng-Yu WangCMU
Sheng-Yu Wang 为 CMU 博士生导师是 CMU 助理教授朱俊彦Sheng-Yu Wang 主要研究方向为计算机视觉、深度学习等。Sheng-Yu Wang 参与的多篇论文被 ICCV、CVPR 接收。
个人主页https://peterwang512.github.io/
吴胜琼新加坡国立大学
吴胜琼目前是新加坡国立大学计算学院 NExT 研究中心的博二学生由 Tat-Seng Chua 教授指导她在武汉大学获得了硕士和学士学位。
吴胜琼的研究兴趣主要集中在基于场景图的视觉 - 语言理解领域、多模态大型语言模型以及扩散模型。她是去年引发 AI 社区关注的「大一统」通用多模态大模型 ——NExT-GPT 的一作。
自然语言处理
David Wan北卡罗来纳大学教堂山分校
David Wan 是北卡罗来纳大学教堂山分校的四年级博士生指导老师是 Mohit Bansal。在此之前他毕业于哥伦比亚大学获得学士和硕士学位指导老师是 Kathleen McKeown。他的研究兴趣是自然语言处理。
马欣尹新加坡国立大学
马欣尹为新加坡国立大学的博士由王鑫超教授指导。本硕就读于浙江大学。她是最流行的结构化剪枝方法 LLM-Pruner 的一作。
她目前的研究重点在于高效训练模型领域已在 NeurIPS、CVPR、EMNLP、IJCAI 等顶级会议上发表了数篇论文。
Minzhi Li新加坡国立大学
Minzhi Li 是新加坡国立大学的博士生指导老师为 Prof. Min-Yen Kan、Dr. Nancy F Chen 和 Prof. Shafiq Joty同时也和杨笛一紧密合作。
她正在探索如何评估计算机在自然语言处理方面是否具备一定的社会智能。目前她创建了相关分类体系、数据集以及更高效的数据处理方法。
陈山马斯特里赫特大学
陈山是哈佛 - MGB AIM 的博士生与马斯特里赫特大学联合培养。他的目标是为医疗保健开发更可解释的人工智能系统期望能建立起更稳健的评估方法促进医生和患者沟通为高风险医疗任务提供保障。
安全、隐私与预防滥用
Zihan Wang昆士兰大学
Zihan Wang 为昆士兰大学的博士生师从教授 Guangdong Bai 和 Jason Xue。目前他的研究兴趣是用形式化方法解决机器学习系统在现实世界中的安全和隐私问题。
硅芯片研究
Yun-Chen Lo台湾清华大学
Yun-Chen Lo 目前是台湾清华大学的电子工程博士在哈佛大学访学。他的研究重点在于为 AI 应用设计高效的 VLSI 架构和系统有多篇论文被 MICRO、DAC、ICLR、ICCAD、ESSCIRC 和 TC 等顶会和期刊接收。
个人主页https://yunchenlo.github.io/
语音处理
杨书文台湾大学
杨书文是台湾大学的博士是语音处理与机器学习SPML小组的核心成员。同时他也是目前被广泛使用的语音模型基础测试集 SUPERB 的一作。
在业余时间他喜欢弹钢琴。他致力于开发一个能够全面理解语音像真人一样可以与自然语言、视觉等模态融会贯通的感知系统。他的主攻方向是表征学习最近的研究集中在自监督学习、表征泛化能力和高效的预训练等领域。
个人网站https://leo19941227.github.io/
参考链接
https://research.google/programs-and-events/phd-fellowship/recipients/?filtertab2024