2024年10月8日下午5:45,诺贝尔物理学奖颁布以后,把所有人都震惊了:居然是发给人工智能!自1901年以来,这还是头一次诺贝尔物理学奖发给正常看起来不属于物理的领域。甚至两位获奖者John Hopfield和Geoffrey Hinton本人,在知道自己获奖时也非常诧异。

为什么发给这两位呢?当然可以说,他们的研究受到物理的启发,例如体系总是倾向于能量更低的状态。也可以说,他们的成果对很多物理领域产生了影响,例如发现希格斯粒子、探测引力波。不过在我看来,更大的图景是,这表现了科研范式的转变。

传统的科研范式只有两种,就是理论和实验。电子计算机出现以后,逐渐产生了第三种研究范式:计算模拟。我自己的专业就是"理论与计算化学",所以我很熟悉这种说法。我们经常说,计算已经跟理论、实验鼎足而三,成为了一种标准的研究范式。仔细想想,这是因为计算模拟的结果跟纯理论相比,它是一种数值实验;而跟真正的实验相比,它又成理论了。所以通过计算模拟,能够发现以前无法想象的规律。

而现在明显的趋势就是,人工智能成了第四种范式。任何一个科学领域如果不跟AI结合一下,都不好意思跟人打招呼。很多人对AI的关心集中在"AI能不能超越人,会不会统治人类,我们离天网还有多远"这种哲学问题上,然后争论不休。但实际上,AI for science已经取得了很多实实在在的成果。

在诺贝尔奖主页给出的科普材料(
https://www.nobelprize.org/prizes/physics/2024/popular-information/)中,举了五个例子:发现希格斯粒子,因为需要AI来筛选大型对撞机上产生的数以亿计的粒子碰撞记录;探测引力波,因为需要AI来排除各种各样的噪声,例如有辆卡车经过或者有人跺一脚,剩下的才是极其微弱的来自宇宙的引力波信号;寻找地外行星;预测蛋白质结构;寻找太阳能电池材料。

在这里特别值得说一下预测蛋白质结构,即所谓"蛋白质折叠"问题。它的意思是,给定蛋白质的氨基酸序列,预测这些原子排布成什么样的空间结构。这原本是一个主要依靠实验的领域,需要大量的人力物力和时间。历史上有好几位科学家,因为解析出一种蛋白质的结构就得了诺贝尔奖。然而近年来出现一个神奇的软件AlphaFold,就是下围棋的AlphaGo那同一个团队DeepMind做的,这个软件一下子把蛋白质结构预测的精度提高了好几个级别,对于绝大多数蛋白质都预测得非常准。结果这个领域变成了计算主导的,人类的蛋白质结构库出现了爆炸式的增长。

下面我再来介绍几个AI for science其他的应用。首先就是蛋白质折叠的反问题,即蛋白质设计。蛋白质折叠是给定氨基酸序列,预测蛋白质结构,而蛋白质设计是希望蛋白质有某种功能,从而有某种结构,然后问什么样的氨基酸序列会产生这样的结构。所以蛋白质设计比蛋白质折叠更难,当然也更重要。在这方面一个非常有趣的成果,是中国科学技术大学生命科学与医学部刘海燕教授等人做的(关键技术的原始创新!中国建立新的蛋白质从头设计方法 | 科技袁人)。2022年他们在《Science》上发篇文章,新闻说他们建立了"新的蛋白质从头设计方法",属于"关键核心技术的原始创新",这么高的评价非常罕见。这论文的标题是什么呢?叫做《用于蛋白质设计的以骨架为中心的神经网络能量函数》(A backbone-centred energy function of neural networks for protein design)。你看,这就是AI的典型应用。

再举个例子。我所在的科大微尺度物质科学国家研究中心的主任罗毅教授和他的学生江俊教授等人,近年来开发了一套机器化学家系统(机器化学家来了|中国科学报)。这个机器化学家首先是可以读文献,用大量的文献建立数据库,预测有希望的材料组合。然后是可以做实验,它可以不眠不休地、精确地、每次只用极少量试剂做实验,所以效率比人高得多。这个机器化学家最近做出了一项标志性的成果,就是找到了在火星上制氧气的催化剂,只用火星上的材料(AI+自动化,如何重塑科学未来?)。人类不是要移民火星吗?那上去了就得用机器化学家发现的方法制氧气啊!

甚至就连我们前面说的第三种范式,即计算模拟,也受到了AI的很大启发。高性能计算应用领域有个最高奖,叫做戈登·贝尔奖(Gordon Bell prize)。2020年的戈登·贝尔奖,就颁给了一个主要由中国人组成的团队,其中的主要负责人是我在普林斯顿大学同一个实验室的师弟张林峰博士。他们用AI加速分子动力学模拟,把分子动力学能够处理的体系提高到了一亿个原子。精度更高的第一性原理计算领域,也在跟AI结合。甚至连最新潮的量子计算,都有很多人在研究量子计算 + 人工智能。

所以我们可以说,现在科研的范式不是鼎足而三,而是一张四条腿的桌子。或者说,可以凑一桌麻将了!