当前位置：首页 > news >正文

院系网站建设具体要求有赞云 wordpress

news 2025/11/14 16:07:10

院系网站建设具体要求,有赞云 wordpress,wordpress 编辑软件,广州网站开发 d广州亦客网络人工智能(AI)正越来越多地融入科学发现#xff0c;以增强和加速研究#xff0c;帮助科学家提出假设、设计实验、收集和解释大型数据集#xff0c;并获得仅靠传统科学方法可能无法实现的洞察力。过去十年间#xff0c;AI取得了巨大的突破。其中就包括自监督学习和几何深度学…人工智能(AI)正越来越多地融入科学发现以增强和加速研究帮助科学家提出假设、设计实验、收集和解释大型数据集并获得仅靠传统科学方法可能无法实现的洞察力。过去十年间AI取得了巨大的突破。其中就包括自监督学习和几何深度学习(Geometric Deep Learning)前者允许在大量无标签数据上训练模型后者则利用有关科学数据结构的知识来提高模型的准确性和效率还有生成式人工智能方法它可以通过分析包括图像和序列在内的各种数据模式创造出小分子药物和蛋白质等设计。这些方法在整个科学过程中为科学家提供了许多帮助不过尽管取得了这些进步但仍然存在的核心问题。人工智能工具的开发者和用户都需要更好地了解这些方法何时需要改进数据质量差、管理不善带来的挑战依然存在。这些问题横跨各个科学学科因此现在需要开发能够促进科学理解或自主获取科学理解的基础算法方法——这也是人工智能创新的关键重点领域。如何收集、转换、理解数据为形成科学见解和理论奠定了基础而2010 年代初兴起的深度学习极大地扩展了这些科学发现过程的范围和雄心。现在人工智能AI越来越多地应用于各个科学学科以整合海量数据集、完善测量、指导实验、探索与数据相匹配的理论空间以及提供与科学工作流程相结合的可操作的可靠模型从而实现自主发现。数据收集和分析是科学理解和发现的基础也是科学的两大核心目标而定量方法和新兴技术从显微镜等物理仪器到引导等研究技术长期以来一直被用于实现这些目标。20 世纪 50 年代引入的数字化技术为计算机在科学研究中的普遍应用铺平了道路自 2010 年代以来数据科学的兴起使人工智能能够从大型数据集中识别出与科学相关的模式从而提供有价值的指导。尽管科学实践和程序在科学研究的各个阶段各不相同但人工智能算法的发展却跨越了传统上相互孤立的学科这些算法可以加强科学研究的设计和执行。它们通过优化参数和功能自动收集、可视化和处理数据探索候选假设的广阔空间以形成理论以及生成假设并估计其不确定性以建议相关实验正在逐渐成为研究人员不可或缺的工具。人工智能时代的科学。科学发现是一个多方面的过程涉及几个相互关联的阶段包括假设形成、实验设计、数据收集和分析。人工智能可以在这一过程的每个阶段增强和加速研究从而重塑科学发现。这里展示的原则和说明性研究突出了人工智能对提高科学认识和发现的贡献。自 2010 年代初以来人工智能方法的威力已大大增强这是因为有了快速、大规模并行计算和存储硬件图形处理单元和超级计算机的帮助再加上新算法的支持人们可以获得大量数据集。后者包括深度表征学习特别是多层神经网络能够识别基本、紧凑的特征同时解决科学问题中的多项任务。 - 其中几何深度学习已被证明有助于整合科学知识这些知识以物理关系、先验分布、约束条件和其他复杂描述符如分子中原子的几何形状的紧凑数学陈述的形式呈现。 - 自我监督学习使在有标签或无标签数据上训练的神经网络能够将所学表征迁移到标签示例较少的不同领域例如通过预训练大型基础模型并使其适应于解决不同领域的各种任务。 - 此外生成模型可以估计复杂系统的基础数据分布并支持新的设计。 - 与人工智能的其他用途不同强化学习方法通过探索许多可能的场景并根据所考虑实验的预期信息增益等指标为不同行动分配奖励从而找到环境的最佳策略。在人工智能驱动的科学发现中可以利用适当的归纳偏差将科学知识纳入人工智能模型归纳偏差是将结构、对称性、约束条件和先验知识作为紧凑数学语句的假设。然而应用这些法则可能会导致方程式过于复杂人类即使使用传统的数值方法也无法求解。一种新出现的方法是将科学知识纳入人工智能模型包括基本方程信息如物理定律或蛋白质折叠中的分子结构和结合原理。这种归纳偏差可以减少达到相同准确度所需的训练实例数量并将分析扩展到广阔的未探索科学假设空间从而增强人工智能模型。与人类利用人工智能的其他领域相比利用人工智能进行科学创新和发现面临着独特的挑战。最大的挑战之一是科学问题中假设空间的广阔性使得系统性探索变得不可行。例如在生物化学领域估计有 1060 种类似药物的分子可供探索。人工智能系统有可能通过加速流程和提供接近实验精确度的预测来彻底改变科学工作流程。然而为人工智能模型获取可靠注释的数据集存在挑战这可能涉及耗时、耗资源的实验和模拟。尽管存在这些挑战人工智能系统仍可实现高效、智能和高度自主的实验设计和数据收集人工智能系统可在人类监督下运行对结果进行评估、评价和采取行动。这种能力促进了人工智能代理的发展这些代理可在动态环境中持续互动例如可做出实时决策为平流层气球导航。人工智能系统可以在解释科学数据集和从科学文献中概括性地提取关系和知识方面发挥重要作用。最近的研究结果表明无监督语言人工智能模型有潜力捕捉复杂的科学概念如元素周期表并在功能材料被发现前几年就预测其应用这表明有关未来发现的潜在知识可能蕴藏在过去的出版物中。科学家将 Word2vec 的 Skip-gram 变体应用到文本语料库中该变体被训练来预测出现在目标单词附近的上下文单词。结果证明无监督方法可以在材料发现前几年推荐用于功能应用的材料。 AlphaFold 可生成高度精确的蛋白质结构科学家引入了一种分子模拟方案——具有量子力学准确性的可扩展模型基于由从头数据训练的精心设计的深度神经网络生成的多体势和原子间力。最近取得的进展包括成功揭示了已有 50 年历史的蛋白质折叠问题和人工智能驱动的数百万粒子分子系统模拟都证明了人工智能在解决具有挑战性的科学问题方面的潜力。然而在取得重大发现的同时“人工智能促进科学AI4Science”这一新兴领域也面临着巨大挑战。与任何新技术一样AI4Science 的成功取决于我们是否有能力将其融入日常实践并了解其潜力和局限性。不过我们也无需过度担忧这些挑战在科学发现中广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素以及对方法、理论、软件和硬件的实用性和潜在滥用的担忧。实验平台收集的数据集规模和复杂程度不断增加导致科学研究越来越依赖实时处理和高性能计算以选择性地存储和分析高速生成的数据。 1数据选择典型的粒子碰撞实验每秒产生超过 100 TB 的数据。这类科学实验正在挑战现有数据传输和存储技术的极限。在这些物理实验中99.99% 以上的仪器原始数据都是“背景事件(background event)”必须实时检测并丢弃以控制数据传输速率。为了识别罕见事件、便于未来的科学研究深度学习方法用搜索离群信号的算法取代了预先编程的硬件事件触发器以检测压缩过程中可能遗漏的意外或罕见现象。背景过程可使用深度自动编码器生成模型。自动编码器会为以前未见过的、不属于背景分布的信号罕见事件返回较高的损失值异常得分。与有监督异常检测不同无监督异常检测不需要注释已广泛应用于物理学、神经科学、地球科学、海洋学和天文学。 2数据标注训练有监督模型需要带有注释标签的数据集这些标签可提供有监督信息以指导模型训练并根据输入估计目标变量的函数或条件分布。伪标注和标签传播是替代费力的数据标注的诱人选择只需一小部分准确的标注就能对海量无标注数据集进行自动标注。在生物学领域为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要因为实验生成标签非常困难。例如尽管下一代测序技术不断发展但只有不到 1%的测序蛋白质标注了生物学功能。另一种数据标注策略是利用在人工标注数据上训练的代理模型来标注未标注的样本并利用这些预测的伪标签来监督下游预测模型。相比之下标签传播(label propagation)则是通过基于特征嵌入构建的相似性图将标签扩散到未标记的样本中。除自动标注外主动学习还能确定需要人工标注的信息量最大的数据点或需要进行的信息量最大的实验。通过这种方法可以用较少的专家提供的标签来训练模型。数据标注的另一种策略是利用领域知识制定标注规则。 3数据生成随着训练数据集的质量、多样性和规模提高深度学习的性能也在提高。创建更好模型的有效方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。除了人工设计此类数据扩增外强化学习方法还能发现一种自动数据扩增策略这种策略既灵活又与下游模型无关。深度生成模型包括变分自编码器、生成对抗网络、标准化流(normalizing flows)和扩散模型可以学习底层数据分布并从优化的分布中采样训练点。生成对抗网络已被证明可用于科学图像因为它们可以合成许多领域的逼真图像包括粒子碰撞事件、病理切片、胸部 X 射线、磁共振对比、三维3D材料微观结构、蛋白质功能以及基因序列。概率编程是生成模型中的一种新兴技术它将数据生成模型表示为计算机程序。 4数据细化超高分辨率激光和无创显微镜系统等精密仪器可直接测量物理量或通过计算现实世界中的物体进行间接测量从而得出高度精确的结果。人工智能技术大大提高了测量分辨率、降低了噪音、消除了测量圆度的误差从而实现了各站点(site)一致的高精度。人工智能在科学实验中的应用实例包括将黑洞等时空区域可视化、捕捉物理粒子碰撞、提高活细胞图像的分辨率以及更好地检测不同生物环境中的细胞类型。深度卷积方法利用频谱反褶积(spectral deconvolution)、灵活的稀疏性(sparsity)和生成能力等算法上的进步可以将较差的时空分辨测量结果转化为高质量、超分辨和结构化图像。去噪是各种科学学科中一项重要的人工智能任务包括从噪声中区分出相关信号并学习如何去除噪声。去噪自动编码器(DAE)可以将高维输入数据投射到更紧凑的基本特征表示中。这些自动编码器可最大限度地减少未损坏输入数据点与根据噪声损坏版本的压缩表示重建的输入数据点之间的差异。其他形式的分布学习自动编码器如变分自编码器(VAE)也经常被使用变分自编码器通过潜在自编码学习随机表示保留基本数据特征的同时忽略非必要的变异源(variation)可能代表随机噪声。例如在单细胞基因组学中自动编码器优化了数百万个细胞中基于计数的基因激活向量通常用于改进蛋白质-RNA 表达分析。深度学习可以提取不同抽象程度的科学数据的有意义表征并对其进行优化通常通过端到端学习来指导研究。高质量的表征应尽可能多地保留数据信息同时保持简单易懂。有科学意义的表征应结构紧凑、具有鉴别性、能区分潜在的“变异因素(variation)”并能编码可在多项任务中通用的潜在机制。 1几何先验由于几何和结构在科学领域发挥着核心作用在学习表征中整合几何先验已被证明是有效的。对称是几何学中一个被广泛研究的概念。它可以用不变性和等差性来描述以表示神经特征编码器等数学函数在一组变换如刚体动力学中的 SE(3) 组下的行为。重要的结构特性如分子体系的二级结构含量、溶剂可及性、残基紧密度(residue compactness)和氢键模式都与空间方向无关。在科学图像分析中对象在图像中平移时不会发生变化这意味着图像分割掩码是平移等变的因为当输入像素平移时它们会发生等效变化。通过增加训练样本将对称性纳入模型可以使人工智能在使用有限的标记数据集如三维核糖核酸和蛋白质结构时受益匪浅并且可以改善对输入的外推预测因为输入与模型训练期间遇到的输入明显不同。 2几何深度学习图神经网络已成为在具有底层几何和关系结构的数据集上进行深度学习的主要方法。从广义上讲几何深度学习涉及发现关系模式并通过神经信息传递算法为神经网络模型配备归纳偏差明确利用以图形和变换组的形式编码的局部信息。根据科学问题的不同科学家们开发了各种图表示法来捕捉复杂系统。方向性边缘有助于玻璃系统的物理建模带有连接多个节点的边缘的超图被用于染色质结构的理解在多模态图上训练的模型被用于创建基因组学中的预测模型稀疏、不规则和高度关系图被应用于许多大型强子对撞机物理任务包括从探测器读数中重建粒子以及区分物理信号与背景过程。 a几何深度学习通过利用图和神经信息传递策略整合了科学数据如分子和材料的几何、结构和对称性信息。这种方法通过沿图中的边交换神经信息来生成潜在表征嵌入同时考虑其他几何先验如不变性和等差数列约束。因此几何深度学习可以将复杂的结构信息纳入深度学习模型从而更好地理解和处理底层几何数据集。b为了有效地表示卫星图像等不同样本捕捉它们的相似性和差异性至关重要。自我监督学习策略如对比学习通过生成增强的对等物和对齐正对同时分离负对来实现这一目标。这种迭代过程增强了嵌入从而产生了信息丰富的潜在表征并在下游预测任务中取得了更好的表现。c屏蔽语言建模能有效捕捉自然语言和生物序列等序列数据的语义。这种方法是将输入的屏蔽元素输入转换器块其中包括预处理步骤如位置编码。自我注意机制由灰色线条表示其颜色强度反映了注意权重的大小它结合了非屏蔽输入的表征以准确预测屏蔽输入。这种方法通过在输入的许多元素中重复这一自动完成过程产生高质量的序列表征。 3自监督学习当仅有少量标注样本可用于模型训练或为特定任务标注数据的成本过高时监督学习可能就不够用了。在这种情况下利用有标签和无标签数据可以提高模型性能和学习能力。自监督学习是一种能让模型学习数据集一般特征而无需依赖显式标签的技术。有效的自监督策略包括预测图像的遮挡区域、预测视频中过去或未来的帧以及使用对比学习教模型区分相似和不相似的数据点。自监督学习是一个关键的预处理步骤它可以在大型无标签数据集中学习可转移的特征然后在小型有标签数据集中微调模型以执行下游任务。这种预先训练的模型对科学领域有广泛的了解是通用的预测器可适用于各种任务从而提高标签效率超越纯监督方法。 4语言建模屏蔽语言建模是自然语言和生物序列自监督学习的常用方法。将原子或氨基酸标记排列成结构以产生分子和生物功能类似于字母组成单词和句子以定义文档的含义。随着自然语言和生物序列处理的不断发展它们也在相互促进。在训练过程中目标是预测序列中的下一个标记而在基于掩码的训练中自监督任务是利用双向序列上下文恢复序列中被掩码的标记。蛋白质语言模型可以对氨基酸序列进行编码以捕捉结构和功能特性并评估病毒变体的进化适应性。这些表征可用于各种任务从序列设计到结构预测在处理生化序列时化学语言模型有助于有效探索广阔的化学空间。如今它们已被用于预测性质、规划多步合成(multi-step syntheses)和探索化学反应空间。 5Transformer架构 Transformer是一种神经架构模型可通过灵活模拟任意标记对之间的相互作用来处理标记序列超越了早期使用递归神经网络进行序列建模的努力。 Transformer在自然语言处理中占据主导地位并已成功应用于一系列问题包括地震信号检测、DNA 和蛋白质序列建模、序列变异对生物功能影响的建模、以及符号回归。虽然Transformer统一了图神经网络和语言模型但Transformer的运行时间和内存占用可能与序列长度成二次方关系从而导致长程建模(long-range modelling)和线性化注意机制(linearized attention mechanisms)在效率方面面临挑战。因此无监督或自监督的生成式预训练Transformer被广泛使用然后进行参数高效微调。 6神经算子标准的神经网络模型可能无法满足科学应用的需要因为它们假定数据离散度是固定的。这种方法不适合以不同分辨率和网格收集的许多科学数据集。此外数据通常是从连续域中的潜在物理现象如地震活动或流体流动中采样的。神经算子通过学习函数空间之间的映射来学习不受离散化影响的表征。神经算子保证离散化不变这意味着它们可以处理任何离散化的输入并在网格细化时收敛到一个极限。神经算子经过训练后可以在任何分辨率下进行评估无需重新训练。相比之下当部署过程中的数据分辨率与模型训练时的数据分辨率发生变化时标准神经网络的性能就会下降。可检验的假设是科学发现的核心。它们可以有多种形式从数学中的符号表达到化学中的分子和生物学中的基因变异。例如Johannes Kepler花了四年时间分析恒星和行星数据最终提出了一个导致发现行星运动规律的假设。人工智能方法可以在这一过程的多个阶段发挥作用。它们可以从嘈杂的观测数据中识别出候选的符号表达式从而提出假设它们可以帮助设计对象如与治疗目标结合的分子或与数学猜想相矛盾的反例建议在实验室中进行实验评估。此外人工智能系统还能学习假设的贝叶斯后验分布并利用它生成与科学数据和知识相匹配的假设。 a高通量筛选是指利用在实验生成的数据集上训练的人工智能预测器筛选出少量具有理想特性的筛选对象从而将候选对象库的总规模减少几个数量级。这种方法可以利用自监督学习在大量未筛选对象上对预测器进行预训练然后在带有标记读数的筛选对象数据集上对预测器进行微调。实验室评估和不确定性量化可以完善这种方法从而简化筛选过程使其更具成本效益和时间效率最终加快候选化合物、材料和生物分子的鉴定。b人工智能导航仪利用强化学习代理和设计标准如奥卡姆剃刀预测的奖励在符号回归过程中关注候选假设中最有希望的元素。图中所示的示例说明了牛顿万有引力定律数学表达式的推理过程。低分搜索路径在符号表达式树中显示为灰色分支。c人工智能微分器是一种自动编码器模型可将离散对象如化合物映射到可微分的连续潜空间中的点。这个空间允许对对象进行优化例如从庞大的化学库中选择能最大限度地提高特定生化终点的化合物。理想化的景观图描述了学习到的潜在空间较深的颜色表示富含预测分数较高的对象的区域。通过利用这一潜在空间人工智能分化器可以高效地识别出能最大化红星所示所需属性的对象。 1科学假说的黑箱预测器要为科学探索确定有前途的假设就需要有效地检查许多候选假设并选择那些能最大限度提高下游模拟和实验收益的假设。在药物发现中高通量筛选可以评估数千到数百万个分子而算法可以优先选择需要进行实验研究的分子。可以对模型进行训练以预测实验的效用如相关的分子特性或符合观察结果的符号公式。然而许多分子可能无法获得这些预测因子的实验基础数据。因此可以采用弱监督学习方法来训练这些模型将有噪声、有限或不精确的监督作为训练信号。这些方法可以经济有效地替代人类专家的注释、昂贵的硅学计算或更高保真的实验。在高保真模拟基础上训练的人工智能方法已被用于高效筛选大型分子库如 160 万个有机发光二极管候选材料和 110 亿个合成配体候选材料。在基因组学领域经过训练能从 DNA 序列预测基因表达值的变压器架构有助于确定基因变体的优先次序。在粒子物理学中识别质子中的固有粲夸克需要筛选所有可能的结构并对每个候选结构拟合实验数据。为进一步提高这些过程的效率可将人工智能筛选出的候选结构送往中低通量实验利用实验反馈不断完善候选结构。实验结果可通过主动学习和贝叶斯优化反馈到人工智能模型中使算法能够完善其预测并将重点放在最有希望的候选结构上。当假设涉及分子等复杂物体时人工智能方法就变得非常有价值。例如在蛋白质折叠方面AlphaFold2可以根据氨基酸序列预测蛋白质的三维原子坐标其精确度甚至可以达到原子级甚至可以预测结构与训练数据集中的任何蛋白质都不同的蛋白质。这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展如 RoseTTAFold。除了正向问题人工智能方法也越来越多地用于逆向问题旨在了解产生一组观察结果的因果因素。逆向问题如逆向折叠或固定骨架设计可使用在数百万个蛋白质结构上训练过的黑盒预测器根据蛋白质骨架三维原子坐标预测氨基酸序列。不过这种黑盒人工智能预测器需要大量训练数据集尽管减少了对现有科学知识的依赖但可解释性有限。 2组合假设空间导航尽管对所有与数据相匹配的假设进行采样令人生畏但一个可管理的目标是寻找一个好的假设这可以表述为一个优化问题。与依赖人工设计规则的传统方法相比人工智能策略可用于估算每次搜索的回报并优先选择价值较高的搜索方向。通常采用强化学习算法训练的代理来学习策略。该代理学会在搜索空间中采取能使奖励信号最大化的行动奖励信号可定义为反映所生成假设的质量或其他相关标准。为了解决优化问题可以使用进化算法来解决符号回归任务进化算法会生成随机符号法则作为初始解集。在每一代中候选解都会有细微的变化。算法会检查任何修改所产生的符号定律是否比之前的解决方案更适合观测结果并将最好的解决方案保留到下一代。不过强化学习方法正逐渐取代这一标准策略。强化学习利用神经网络通过添加预定义词汇表中的数学符号并利用所学策略决定下一步添加哪个符号从而依次生成数学表达式。数学公式表示为一棵解析树。学习策略将解析树作为输入以决定扩展哪个叶节点和添加哪个符号来自词汇表。使用神经网络解决数学问题的另一种方法是将数学公式转化为二进制符号序列。然后神经网络策略可以按概率顺序每次增加一个二进制字符。通过设计一种衡量反驳猜想能力的奖励这种方法可以在事先不了解数学问题的情况下找到数学猜想的反驳方法。组合优化也适用于发现具有理想药物特性的分子等任务其中分子设计的每一步都是一个离散的决策过程。在这个过程中部分生成的分子图将作为学习策略的输入对在分子中选定位置添加新原子和添加哪个原子做出离散选择。通过迭代执行这一过程策略可以生成一系列可能的分子结构并根据其与目标特性的匹配度进行评估。搜索空间过于广阔无法探索所有可能的组合但强化学习可以通过优先选择值得研究的最有前景的分支来有效地引导搜索。强化学习方法可以使用训练目标进行训练鼓励产生的策略从所有合理的解决方案具有高回报中采样而不是像强化学习中的标准回报最大化那样只关注一个好的解决方案。目前这些强化学习方法已成功应用于各种优化问题包括蛋白质表达最大化、规划水力发电以减少对亚马逊流域的不利影响以及探索粒子加速器的参数空间。人工智能代理学习到的政策预见了一些最初看似非常规的行动但事实证明是有效的。例如在数学领域监督模型可以识别数学对象之间的模式和关系帮助引导直觉和提出猜想。这些分析指出了以前未知的模式甚至是世界的新模型。然而在模型训练过程中强化学习方法可能无法很好地泛化到未见过的数据中因为代理在找到一连串有效的行动后可能会陷入局部最优状态。为了提高泛化能力需要采取一些探索策略来收集更广泛的搜索轨迹以帮助代理在新的和修改过的环境中表现得更好。 3优化可变假设空间科学假设通常以离散对象的形式出现例如物理学中的符号公式或制药和材料科学中的化合物。虽然组合优化技术已经成功地解决了其中的一些问题但可微分空间也可用于优化因为它适合基于梯度的方法这种方法可以有效地找到局部最优点。为了能够使用基于梯度的优化方法有两种方法经常被使用 - 第一种是使用 VAE 等模型将离散的候选假设映射到潜在可变空间中的点。 - 第二种方法是将离散假设弛豫为可在可微分空间中优化的可微分对象。这种弛豫可以采取不同的形式例如用连续变量替换离散变量或使用原始约束条件的软版本。物理学中的符号回归应用使用语法 VAE。这些模型使用无上下文语法将离散符号表达式表示为解析树并将解析树映射到可变潜空间。然后采用贝叶斯优化法优化符号规律的潜在空间同时确保表达式在语法上有效。在天体物理学中VAE 被用于根据预训练的黑洞波形模型估算引力波探测器参数。这种方法比传统方法快达六个数量级因此捕捉瞬态引力波事件非常实用在材料科学领域热力学规则与自动编码器相结合设计出一个可解释的潜在空间用于识别晶体结构的相图在化学领域简化分子输入线输入系统SMILES-VAE等模型可将 SMILES 字符串即以计算机可轻松理解的离散系列符号形式表示化学结构的分子符号转化为可利用贝叶斯优化技术进行优化的可微分潜空间。通过将分子结构表示为潜在空间中的点我们可以设计可微分目标并利用自监督学习对其进行优化从而根据分子的潜在表示预测分子特性。这意味着我们可以通过将人工智能预测器的梯度反向传播到分子输入的连续值表示来优化离散分子结构。解码器可以将这些分子表征转化为近似对应的离散输入这种方法可用于蛋白质和小分子的设计。与原始假设空间中的机理方法相比在潜在空间中进行优化能更灵活地模拟潜在数据分布。然而在假设空间中探索稀少的区域进行外推预测可能效果不佳。在许多科学学科中假设空间可能远远大于实验所能考察的范围。例如据估计大约有10^60个分子而即使是最大的化学库也只包含不到 10^10 个分子。因此我们迫切需要一种方法在这些基本未开发的区域中高效搜索并识别高质量的候选解决方案。通过实验评估科学假设对科学发现至关重要。然而实验室实验可能成本高昂且不切实际。计算机模拟已成为一种有前途的替代方法为更高效、更灵活的实验提供了可能。虽然模拟依赖于手工制作的参数和启发式方法来模仿真实世界的场景但与物理实验相比模拟需要在准确性和速度之间做出权衡这就需要了解其背后的机制。然而随着深度学习的出现这些挑战正在通过识别和优化假设以进行高效测试以及赋予计算机模拟将观察结果与假设联系起来的能力而得到解决。 1高效评估科学假设人工智能系统提供了实验设计和优化工具可以增强传统的科学方法减少所需的实验数量并节省资源。具体来说人工智能系统可以协助完成实验测试的两个基本步骤规划和指导。在传统方法中这两个步骤往往需要反复试验效率低下成本高昂有时甚至危及生命。人工智能规划为设计实验、优化实验效率和探索未知领域提供了系统方法。同时人工智能引导将实验过程引向高产假设让系统从先前的观察中学习并调整实验进程。这些人工智能方法可以是基于模型的使用模拟和先验知识也可以是无模型的仅基于机器学习算法。人工智能系统可以通过优化资源利用和减少不必要的调查来帮助规划实验。与假设搜索不同实验规划涉及科学实验设计中的程序和步骤。化学中的合成规划就是一个例子。合成规划涉及寻找一连串步骤通过这些步骤可以从现有化学品中合成目标化合物。人工智能系统可以设计出所需化合物的合成路线从而减少对人工干预的需求。主动学习也被用于材料发现和合成。主动学习包括与实验反馈反复互动并从中学习以完善假设。材料合成是一个复杂的资源密集型过程需要对高维参数空间进行有效探索。主动学习利用不确定性估计来探索参数空间以尽可能少的步骤减少不确定性。在正在进行的实验中决策通常必须实时调整。然而如果仅凭人类的经验和直觉这一过程既困难又容易出错。强化学习提供了另一种方法可持续应对不断变化的环境最大限度地提高实验的安全性和成功率。例如强化学习方法已被证明对托卡马克等离子体的磁控制有效算法与托卡马克模拟器互动优化控制过程的策略。在另一项研究中强化学习代理利用风速和太阳高度等实时反馈来控制平流层气球并为导航寻找有利的风流。在量子物理学中实验设计需要动态调整因为复杂实验未来实体化的最佳选择可能与直觉相反强化学习方法可以通过迭代设计实验和接收实验反馈来克服这一问题。例如强化学习算法已被用于优化量子系统的测量和控制提高了实验效率和精度。 a利用人工智能对复杂动态系统进行核聚变控制Degrave 等人开发了一种人工智能控制器通过托卡马克反应堆中的磁场调节核聚变。人工智能代理接收对电气电压水平和等离子体配置的实时测量结果并采取行动控制磁场和实现实验目标如维持正常的电力供应。b在复杂系统的计算模拟中人工智能系统可以加速罕见事件的检测如蛋白质不同构象结构之间的转换。c用于求解偏微分方程的神经框架其中的人工智能求解器是一个经过训练的物理信息神经网络用于估计目标函数 f。当微分方程的表达式是未知的以 η 为参数时可以通过求解多目标损失来估算微分方程从而优化方程的函数形式及其与观测值 y 的拟合。 2利用模拟从假设中推导出可观测的数据计算机模拟是一种强大的工具可以从假设中推导出可观测的数据从而对无法直接验证的假设进行评估。然而现有的模拟技术严重依赖于人类对所研究系统内在机制的理解和知识这可能是次优和低效的。人工智能系统可以通过更好地拟合复杂系统的关键参数、求解支配复杂系统的微分方程以及模拟复杂系统中的状态来提高计算机模拟的准确性和学习效率。科学家在研究复杂系统时通常会创建一个涉及参数化形式的模型这就需要领域知识来确定参数的初始符号表达式。分子力场就是一个例子这种力场可以解释但在表示各种函数方面能力有限需要很强的归纳偏差或科学知识才能生成。为了提高分子模拟的准确性人们开发了一种基于人工智能的神经势能它能拟合昂贵但准确的量子力学数据以取代传统的力场。此外不确定性量化已被用于定位高维自由能面上的能障从而提高分子动力学的效率。对于粗粒度分子动力学已利用人工智能模型确定系统需要从所学的隐藏复杂结构中粗化的程度从而降低大型系统的计算成本。在量子物理学中神经网络因其灵活性和准确拟合数据的能力在波函数或密度函数的参数化过程中取代了人工估计的符号形式。微分方程对复杂系统的时空动态建模至关重要。与数值代数求解器相比基于人工智能的神经求解器能更完美地整合数据与物理。这些神经求解器将物理学与深度学习的灵活性相结合将神经网络建立在领域知识的基础上。人工智能方法已被应用于多个领域的微分方程求解包括计算流体动力学、预测玻璃系统结构、求解刚性化学动力学问题以及求解艾克纳方程以描述地震波的传播时间。在动力学建模中连续时间可以用神经常微分方程建模。神经网络可以利用物理信息损失对纳维-斯托克斯方程在时空域中的解进行参数化。然而标准卷积神经网络对解法的精细结构特征建模能力有限这个问题可以通过学习利用神经网络建模函数间映射的算子来解决。此外求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合来实现从而通过图分割实现任意离散。统计建模是一种强大的工具可通过对复杂系统中的状态分布建模对这些系统进行全面的定量描述。由于能够捕捉高度复杂的分布深度生成建模最近已成为复杂系统仿真中的一种重要方法。一个著名的例子是基于标准化流的波尔兹曼生成器。标准化流可以将任何复杂分布映射到先验分布例如简单的高斯分布然后使用一系列可逆神经网络将其返回。标准化流虽然计算成本高昂通常需要数百或数千个神经层但却能提供精确的密度函数从而实现采样和训练。与传统模拟不同标准化流可以直接从先验分布中采样并应用计算成本固定的神经网络来生成平衡状态。这增强了晶格场和规范场论中的采样并改进了马尔科夫链蒙特卡罗方法——否则这些方法可能会因模式混合而无法收敛。要利用科学数据就必须利用模拟和人类的专业知识来建立和使用模型。这种整合为科学发现带来了机遇。然而要进一步提高人工智能在各科学学科中的影响力还需要在理论、方法、软件和硬件基础设施方面取得重大进展。要实现通过人工智能推动科学发展的全面而实用的方法跨学科合作至关重要。 1实际考虑因素科学数据集往往不能直接用于人工智能分析因为测量技术的限制会产生不完整的数据集、有偏差或相互矛盾的读数而且由于隐私和安全问题数据集的可访问性有限。此外联合学习和加密算法可用于防止向公共领域发布具有高商业价值的敏感数据。利用开放的科学文献、自然语言处理和知识图谱技术可以促进文献挖掘为材料发现、化学合成和治疗科学提供了支持。深度学习的使用对人工智能驱动的环内设计、发现和评估提出了复杂的挑战。为了实现科学工作流程自动化、优化大规模仿真代码和操作仪器自主机器人控制可以利用预测在高通量合成和测试线上进行实验创建自动驾驶实验室。生成模型在材料探索领域的早期应用表明可以识别出数百万种可能的材料这些材料具有所需的特性和功能并可对其可合成性进行评估。在化学合成中人工智能优化候选合成路线然后由机器人按照预测的合成路线引导化学反应。人工智能系统的实际实施涉及复杂的软件和硬件工程需要一系列相互依存的步骤从数据整理和处理到算法实施以及用户和应用界面设计。实施过程中的细微差别都可能导致性能的巨大变化并影响到将人工智能模型融入科学实践的成功与否。因此需要考虑数据和模型的标准化。由于模型训练的随机性、模型参数的变化以及训练数据集的不断变化人工智能方法可能会受到可重复性的影响而这些因素既依赖于数据也依赖于任务。标准化基准和实验设计可以缓解这些问题。提高可重复性的另一个方向是通过开源计划发布开放模型、数据集和教育计划。 2算法创新为了促进科学理解或自主获得科学理解需要进行算法创新以建立一个基础生态系统在整个科学过程中使用最合适的算法。尽管许多科学定律并不具有普遍性但它们的适用性一般都很广泛。与最先进的人工智能相比人类大脑能更好、更快地概括修改过的环境。一个很有吸引力的假设是这是因为人类建立的不仅仅是一个观察到的统计模型而是一个因果模型即由所有可能的干预例如不同的初始状态、代理人的行动或不同的制度所索引的统计模型系列。将因果关系纳入人工智能仍是一个年轻的领域仍有许多工作要做。自我监督学习等技术在科学问题上具有巨大潜力因为它们可以利用大量无标签数据并将知识转移到低数据环境中。然而目前的迁移学习方案可能是临时性的缺乏理论指导而且容易受到基础分布变化的影响。尽管初步尝试已经解决了这一难题但仍需更多探索以系统地衡量跨领域的可迁移性并防止负迁移。此外为了解决科学家们关心的难题人工智能方法的开发和评估必须在真实世界的场景中进行如药物设计中可信的可实现合成路径并包括校准良好的不确定性估计器以评估模型的可靠性然后再将其过渡到真实世界的实施中。科学数据是多模态的包括图像如宇宙学中的黑洞图像、自然语言如科学文献、时间序列如材料的热黄变、序列如生物序列、图如复杂系统和结构如三维蛋白质配体构象。例如在高能物理中射流是夸克和胶子在高能量下产生的粒子对准喷射从辐射模式中识别它们的子结构有助于寻找新的物理学。喷流子结构可以用图像、序列、二叉树、通用图和张量集来描述。虽然利用神经网络处理图像的研究已经非常广泛但仅仅处理粒子图像是不够的。同样单独使用喷气子结构的其他表示方法也无法提供复杂系统的整体综合系统视图。尽管整合多模态观测结果仍是一项挑战但神经网络的模块化特性意味着不同的神经模块可以将不同的数据模态转化为通用的矢量表征。科学知识如分子中的旋转等差性、数学中的相等约束、生物学中的疾病机理以及复杂系统中的多尺度结构都可以纳入人工智能模型。然而哪些原则和知识最有帮助、最实用目前还不清楚。由于人工智能模型需要大量数据才能拟合因此在数据集较小或注释稀少的情况下将科学知识融入模型可以帮助学习。因此研究必须建立将知识融入人工智能模型的原则性方法并了解领域知识与从测量数据中学习之间的权衡。人工智能方法通常以黑箱形式运行这意味着用户无法完全解释输出是如何产生的以及哪些输入对产生输出至关重要。黑箱模型会降低用户对预测的信任度在一些领域的适用性有限在这些领域中模型输出在实际应用之前必须被理解例如人类太空探索以及预测为政策提供依据的领域例如气候科学。尽管可解释性技术层出不穷透明的深度学习模型仍然难以实现。不过人脑能综合出高层次的解释即使不完美也能说服其他人这给我们带来了希望通过对现象进行类似的高层次抽象建模未来的人工智能模型将能提供可解释的解释其价值至少不亚于人脑提供的解释。这也表明研究更高层次的认知可能会激发未来的深度学习模型使其同时具备当前的深度学习能力和处理可言语化抽象概念、因果推理以及从分布中归纳的能力。 3科学行为和科学事业展望未来对人工智能专业技术的需求将受到两股力量的影响。首先存在即将从应用人工智能技术中获益的问题。其次智能工具有能力提升技术水平并创造新的机遇例如自动驾驶实验室。第二智能工具有能力提升技术水平并创造新的机遇例如检查生物、化学或物理过程这些过程发生在实验无法达到的长度和时间尺度上。在这两种力量的基础上我们预计研究团队的组成将发生变化包括人工智能专家、软件和硬件工程师以及新的研究形式、软件和硬件工程师以及涉及各级政府、教育机构和企业的新型合作形式。然而计算这些更新所需的计算量和数据量是巨大的。因此大型科技公司对计算基础设施和云服务进行了大量投资。尽管营利性组织和非学术性组织也能使用庞大的计算基础设施但它们的计算能力和计算成本并不高。尽管营利性组织和非学术性组织可以使用庞大的计算基础设施但高等教育机构可以更好地整合多个学科。此外学术机构往往拥有独特的历史数据库和测量技术这些技术在其他地方可能不存在但对AI4Science来说却是必要的。这些互补性资产促进了产学合作的新模式从而影响到研究问题的选择。影响研究问题的选择。随着人工智能系统的性能接近或超过人类用它来替代常规实验室工作正变得可行。这种方法使研究人员能够根据实验数据反复开发预测模型并选择实验来改进模型而无需手动执行费力的重复性工作。为了支持这种模式的转变培训科学家设计、实施和改进实验室工作的教育计划正在兴起。这些计划帮助科学家了解何时适合使用人工智能并防止人工智能分析得出的结论被曲解。人工智能工具的误用和对其结果的曲解会产生重大负面影响。然而人工智能的滥用并不仅仅是一个技术问题它还取决于那些引领人工智能创新和投资人工智能实施的人的动机。建立道德审查流程和负责任的实施策略至关重要包括此外还必须考虑与人工智能相关的安全风险因为将算法重新用于人工智能已变得越来越容易。由于算法可适应广泛的应用它们可以为一种目的而开发但又可用于另一种目的这就造成了一种安全风险。要利用科学数据就必须利用人工智能。展望未来人工智能有可能开启以前遥不可及的科学发现。来源 [1]https://www.nature.com/articles/s41586-021-03819-2 [2]https://www.nature.com/articles/s41586-019-1335-8#Fig1 [3]https://journals.aps.org/prl/abstract/10.1103/PhysRevLett.120.143001 [4]https://www.nature.com/articles/s41586-023-06221-2#Fig2

查看全文

http://www.zqtcl.cn/news/92130/