人工智能时代的科学发现

人工智能正越来越多地融入科学发现，以增强和加速研究，帮助科学家提出假设、设计实验、收集和解释大型数据集，并获得仅靠传统科学方法可能无法实现的洞察力。本文讨论了人工智能方法如何在整个科学过程中帮助科学家，以及在进展之外仍存在的核心问题。无论是人工智能工具的开发者还是使用者，都需要更好地了解何时需要改进这些方法，并且直面数据质量和管理所带来的挑战。这些问题涉及各个科学领域，并需要发展基础算法方法，以促进科学理解或自主获取科学理解，使其成为人工智能创新的关键领域。

一

人工智能应用于科学研究

人工智能增强了科学发现流程的不同阶段，包括假设生成、实验设计、数据收集和分析

等。

（一）数据处理

在数据收集方面，人工智能可以实时处理和选择海量数据，例如在粒子物理实验中识别稀有碰撞事件。在数据注释方面，人工智能可基于少量标注自动给海量数据打标签，以减轻人工工作量。在数据增强方面，生成模型可合成实验样本来扩充数据集。在表征学习方面，自监督学习可从无标注数据中学习有效特征表征，几何深度学习整合数据结构与对称性等先验知识。语言模型也在蛋白质序列建模中展现强大能力。

1. 数据选择

一个典型的粒子碰撞实验每秒钟能产生超过100TB的数据量，而其中超过99.99%的原始数据实际上是需要实时识别并舍弃的背景噪音，目的是保留那些稀有且含有价值信息的数据。一种常见的处理策略是利用异常检测（Anomaly Detection）算法，将这些稀有事件视为异常数据进行识别并保存。这种思路在物理学、神经科学、地球科学、海洋学以及天文学等领域都得到了广泛的应用。

2. 数据标注

训练有监督的模型需要依赖带有标签的数据集，然而对于生物学、医学等实验性学科来说，生成大量准确标签的数据集既耗时又耗力。伪标签法（Pseudo-Labelling）和标签传播法（Label Propagation）因此成为优秀的替代方案，它们允许在只有少量准确标注的大型无标签数据集上进行自动标注。此外，主动学习（Active Learning）可以帮助我们确定最有必要进行实验标注的数据点，从而进一步降低成本。另一种数据标注策略则是借助专业领域知识来制定标签规则。

3. 数据生成

人工智能的性能随着训练数据集的质量、多样性和规模的提高而提高。通过自动数据增强（AutoAugment）和深度生成模型（Deep Generative Model）生成额外的合成数据点，以扩充训练数据集，是创建更好模型的一种有效方法。除了手动设计之外，强化学习（Reinforcement Learning）方法还可以发现一种自动数据增强的策略，这种策略既灵活又不依赖于下游任务。举例来说，生成对抗网络（Generative Adversatial Network）已被证明对科学图像有益，它们可以在多个领域中生成逼真且有用的数据，包括粒子碰撞事件、病理切片、胸部X光、磁共振对比、三维材料微结构、蛋白质功能、基因序列等。

4. 数据完善

高精度的仪器，如超高分辨率激光器和无创显微系统，可以直接或间接测量物理量，得到非常精确的结果。人工智能则能够进一步提高测量分辨率，减少噪声和测量精度的误差。具体例子比如黑洞成像、捕捉物理粒子碰撞、提高活细胞图像的分辨率，以及细胞类型检测。

5. 科学数据的有意义表征

深度学习通常通过端到端学习，可以从不同抽象程度的科学数据中提取有意义的表征并对其进行优化以指导研究。高质量的表征应尽可能多地保留数据信息，同时保持简单易懂。有科学意义的表征应结构紧凑，具有鉴别性，能区分潜在的变异因素，并能编码可在多项任务中通用的潜在机制。

（二）人工智能驱动下科学假设生成

可验证的假设是科学发现的关键。这些假设有多种形式，从数学的符号表达式，到化学的分子，再到生物学的基因变异。构建有意义的假设通常是一项耗时费力的过程，正如约翰尼斯·开普勒（Johannes Kepler）在分析恒星和行星数据4年后才得出了一个导致发现行星运动定律的假设。人工智能在此过程的多个阶段都可以发挥作用。它们可以通过从充满噪声的观测中识别出候选的符号表达式来生成假设。它们也能帮助设计物体，比如一个能与治疗目标结合的分子，或是一个可以推翻数学猜想的反例，这些都指向了实验室中的实验评估。此外，人工智能可以学习假设的贝叶斯后验分布，并利用这个分布生成与科学数据和知识相吻合的假设。我们在此简单总结了以下3点。

1. 科学假设的黑箱预测器

为科学探究确定有希望的假设，需要有效地检查许多候选方案，并选择那些可以最大限度地提高下游模拟和实验产量的假设。在药物发现中，高通量筛选可以评估数千到数百万个分子，算法可以优先考虑实验研究哪些分子。可以训练模型以预测实验的效用，例如相关的分子特性，或符合观察结果的符号公式。然而，对于许多分子来说，这些预测因子的实验事实数据可能不可用。因此，弱监督学习方法可以用来训练这些模型，其中嘈杂、有限或不精确的监督被用作训练信号。这些方法可以经济有效地替代人类专家的标注、昂贵的数学计算或更高保真的实验。

2. 导航组合假设空间

尽管对所有与数据相匹配的假设进行采样是一件令人生畏的事情，但一个可管理的目标是寻找一个好的假设，这可以表述为一个优化问题。与依赖人工设计规则的传统方法相比，人工智能策略可用于估算每次搜索的回报，并优先选择价值较高的搜索方向。通常采用强化学习算法训练的智能体来学习策略。该智能体学会在搜索空间中采取使奖励信号最大化的行动，奖励信号可定义为反映所生成假设的质量或其他相关标准。为了解决优化问题，可以使用进化算法来解决符号回归任务。该算法生成随机符号定律作为初始解决方案集。

3. 优化可微分假设空间

科学假设通常采用离散对象的形式，例如物理学中的符号公式或制药和材料科学中的化合物。尽管组合优化技术在其中一些问题上取得了成功，但可微空间也可以用于优化，因为它适合基于梯度的方法，可以有效地找到局部最优。为了能够使用基于梯度的优化方法，有两种方法经常被使用。第一种是使用变分编码器（VAE）等模型，将离散的候选假设映射到潜在可微空间中的点。第二种方法是将离散假设松弛为可在可微分空间中优化的可微分对象。这种松弛可以采取不同的形式，例如用连续变量替换离散变量，或使用原始约束条件的软版本。

（三）人工智能驱动的实验与模拟

通过实验评估科学假设是科学发现的关键环节，但实验室实验可能成本高昂，操作复杂。计算机模拟已经成为一种具有前景的替代方案，为我们提供了更为有效和灵活的实验手段。虽然模拟需要依赖人工设置的参数和启发式策略来模仿现实世界的情况，并且需要在精度和速度之间做出权衡，这就需要理解底层的机制。随着人工智能的出现，这些挑战正在得到解决，我们可以通过识别和优化假设来进行有效地测试，并且可以利用计算机模拟将观察结果和假设联系起来。

1. 高效评估科学假设

人工智能系统提供了实验设计和优化工具，可以增强传统的科学方法，减少所需实验的数量并节省资源。具体而言，人工智能系统可以协助实验测试的两个重要步骤：计划和引导。在传统方法中，这些步骤往往需要反复试验，这可能是低效的、昂贵的，甚至有时可能危及生命。人工智能计划提供了一种系统化的方法来设计实验，优化其效率，并探索未知领域。同时，人工智能引导将实验过程导向高产出的假设，使系统能够从先前的观察中学习并调整实验过程。这些人工智能方法可以基于模拟和先验知识来进行模型构建，也可以基于纯机器学习算法进行模型构建。

2. 利用模拟从假设中推导可观测量

计算机模拟是一种强大的工具，可以从假设中推导可观测量，实现对那些无法直接测试的假设进行评估。然而，现有的模拟技术在很大程度上依赖于人类对所研究系统底层机制的理解和知识，这可能使得模拟不够优化和高效。人工智能系统可以通过更准确高效的学习来增强计算机模拟，更好地拟合复杂系统的关键参数，解决控制复杂系统的微分方程，并对复杂系统的状态进行建模。

二

人工智能应用于科学发现的挑战

然而人工智能应用于科学发现也面临诸多挑战。一方面，科学数据存在质量参差不齐、可获取性有限的问题。模型泛化能力和对分布漂移的适应性有待改进。多模态数据的集成利用也较为困难。如何系统有效地将领域知识融入模型需要进一步探索。此外，黑箱模型的可解释性较弱，不利于科学家理解并信任结果。人工智能的大规模应用也引发伦理和安全问题，需要建立可靠的应用标准。解决这些难题需要理论、方法和基础设施的持续创新，以及跨学科团队的紧密合作。

三

人工智能对于科研事业的影响

展望未来，人工智能专业知识的需求将受到两种力量的影响。首先，一些领域马上就能从人工智能应用中受益，比如自动驾驶实验室。其次，智能工具能够提升最先进技术水平，并创造新机会，比如研究在实验中无法观测到的生物、化学或物理过程，这些过程发生的长度和时间尺度是实验无法达到的。在这两种力量的影响下，研究团队的组成将发生变化，包括人工智能专家、软件和硬件工程师，以及涉及各级政府、教育机构和公司的新形式合作。

最近，最先进的深度学习模型不断增长。这些模型由数百万甚至数十亿个参数组成，并且规模每年增长十倍。训练这些模型涉及通过复杂的参数化数学运算传输数据，并更新参数以推动模型输出达到预期值。然而，更新所需的计算量和数据量巨大，这导致能源消耗大、计算成本高。因此，大型科技公司已经大量投资于计算基础设施和云服务，拓展了规模和效率的极限。虽然营利和非学术组织拥有大规模计算基础设施，但高等教育机构在跨学科整合方面可能更有优势。此外，学术机构往往拥有独特的历史数据库和测量技术，这些可能在其他地方不存在，但对于AI for Science是必要的。这些互补的资产促进了新型产学合作模式，这可以影响所选择的研究问题。随着人工智能系统逼近并超越人类的性能，将其作为例行实验室工作的替代品变得可行。这种方法使研究人员能够从实验数据中开发预测模型，并选择实验来改进这些模型，而无需手动执行繁重和重复的任务。为支持这种范式转变，一些教育计划正在涌现，旨在培训科学家在科学研究中设计、实施和应用实验室自动化和人工智能。这些计划帮助科学家了解何时适合使用人工智能，并防止其对人工智能分析结论的误读。

四

结论

人工智能正在深刻影响并扩展科学发现的边界。它巨大的潜力正在被逐步发掘和激发，并已产生了切实的科研价值。如果继续在理论和实践上取得进展，人工智能将为科学发现提供更多支持，产生更多突破性成果，并帮助科学家获得过去难以实现的深入见解。但同时也需要科学界和技术界共同努力，以负责任的方式推进人工智能在科学领域的应用和发展。

免责声明：本文转自元战略。文章内容系原作者个人观点，本公众号编译/转载仅为分享、传达不同观点，如有任何异议，欢迎联系我们！

转自丨元战略

人工智能时代的科学发现

研究所简介

国际技术经济研究所（IITE）成立于1985年11月，是隶属于国务院发展研究中心的非营利性研究机构，主要职能是研究我国经济、科技社会发展中的重大政策性、战略性、前瞻性问题，跟踪和分析世界科技、经济发展态势，为中央和有关部委提供决策咨询服务。“全球技术地图”为国际技术经济研究所官方微信账号，致力于向公众传递前沿技术资讯和科技创新洞见。

地址：北京市海淀区小南庄20号楼A座

电话：010-82635522

微信：iite_er