过去几年,AI在生物技术领域出现了很多令人兴奋的进展。
AlphaFold 2(谷歌旗下公司DeepMind发布的AI模型,能精确预测蛋白质的三维结构)的工作在2021年7月开源代码并在Nature上发表论文,基本解决了蛋白质折叠问题,这是生物学界长期以来的重大挑战,已困扰科学家50多年。AlphaFold 3的工作在2024年5月发布,更是进一步把研究对象从单个蛋白质分子扩大到其他生物大分子以及多个分子的复合物上。
除了AlphaFold2/3外,Meta/Facebook的AI团队用类似BERT的方法让AI学会了蛋白质的进化规律,2023年他们在Science上发表了ESM-2模型。假设人类能借由AI搞清楚进化的规律,那么在计算机上进行超长时间维度的进化模拟就会成为现实,ESM-2迈出了第一步。时至今日ESM-2模型学会的蛋白质表征中蕴含的生物学含义仍然在被那些同时对生物学、数学都有很好sense的研究者逐步揭示——这多么像我们试图用包括prompt在内的各种手段理解LLM中蕴含的更深层的“智慧”。
如果把AlphaFold高超的折叠能力看做一个判别器(预言家),告诉人类:这个序列可以折叠;这个序列不仅会折叠成这个样子,还会跟这个分子产生这样的docking(分子间相互作用);等等揭示自然的预言,那么David Baker——华盛顿大学蛋白质设计研究所所长,以其在蛋白质设计领域的开创性工作闻名——在扩散模型 (diffusion model) 上的尝试则进一步探索了AI成为生成器(蛋白设计师)的潜力。David Baker实验室开发的扩散模型RFDiffusion于2023年首次发布,并在2023年3月开源,它继承并优化了Baker实验室的蛋白质结构预测工具RosettaFold。RFDiffusion是通过精细调整RosettaFold的结构预测网络,并将其整合到一个扩散模型中开发出来的,能够生成具有实际意义的蛋白质骨架,适用于从头设计各种功能性蛋白质。
虽然生物学的AI模型端有数个有效进步,但在另一方面,以AI-first为卖点的生物制药/合成生物公司是否能拿出真正用AI产出的分子依然是很有争议的话题。例如Exscientia(英国AI制药公司)的第一款AI设计出的分子DSP-1181,因其与氟哌啶醇(Haloperidol)非常相似而受到一定质疑,氟哌啶醇是FDA在1967年批准的抗精神病药物,质疑者认为Exscientia很可能是在一个已经长期发现的分子骨架上进行优化。再比如2022年Nimbus(美国生物技术公司)以40亿美元首付卖给武田制药的TYK2抑制剂也曾让人们对AI在医药行业的价值重燃信心,但是根据Schrödinger(美国计算机辅助药物设计公司)的披露,Nimbus主要用到了自由能微扰(FEP)预测亲和力提高分子选择性,似乎更像是基于计算而不是AI。
但我们认为这些质疑是一种“时间错配”。其实如AlphaFold 2/3、ESM-2等规模比较大的生物模型都是在2021年以后出现并被广泛研究和使用的,这与大部分有管线进入临床阶段的AI制药公司的内部平台建设历史并不匹配,也许硬要把它们联系到一起有“刻舟求剑”的味道。其实在AlphaFold、ESM、RFDiffusion等通用模型出现之前,制药界早已在使用AI,不论是用AI来做虚拟筛选,还是ADMET预测,都有一定的价值。但显然,这些应用场景和近几年来的AI所指向的潜力并不完全一样。
那么,这一代AI的潜力究竟是什么?回答这个问题需要深刻理解AI是怎么model生物学的,以及如何提出正确的生物学问题,并辅以正确的实验数据。这是我们今天要分享的这篇文章的原因。它来自牛津大学的DeepMind人工智能教授Michael Bronstein(DeepMind人工智能教授是牛津大学与DeepMind公司于2020年合作设立的职位),几何深度学习的开创者,同时也曾参与创办多家公司并成功退出。他解释了当前的生物学AI模型背后的数学含义——回答了“AI是怎么model生物学问题的”;并从“黑盒数据/白盒数据”角度提出了生物AI发展的三代模型——回答了他心目中“正确的实验数据”。唯一遗憾的是在“正确的生物学问题”上给出的是比较宽泛的定义。
以下是由常春藤团队精心编译后的正文,全文较长且干货很多,建议您点击右下方的“在看”或右上角三个小圆点收藏,以便随时深入阅读。如果您对这个话题有自己的理解,欢迎联系我们,我们很想倾听您的观点。
来一起享用这场知识的盛宴吧!
通往生物学2.0的道路
将借助黑箱数据的力量
The Road to Biology 2.0 Will Pass Through Black-Box Data
Michael Bronstein,Luca Naef
今年(2024年)或许是基于AI的生物学突破预期的巅峰,把传统生物学转变为一种可编程、可预测和可复制的工程学科。本文首先借鉴AI在感知、自然语言和蛋白质结构预测方面的突破,试图找出最适合AI技术解决的生物学问题的特征。随后,我们描述了生物制药行业中生物AI方法的三个概念性世代,并主张未来最重要的突破将来自于从传统的“白箱”数据(人类可理解的数据)向新型的高通量、低成本的AI特定“黑箱”数据模式的过渡,这些模式将与适当的计算方法一起开发。
OpenAI于2022年11月发布的ChatGPT将人工智能推到了全球公众的聚光灯下。这可能是第一次,即使是离这个领域很远的人们也意识到,AI正在迅速改变人类在不久的将来工作的基本方式。一年之后,当人们对ChatGPT和类似系统的局限性有了更好的理解时,最初的末日预言——从对未来大规模工作替代的习惯性恐慌到宣布OpenAI是谷歌的灾难——已被不耐烦所取代——“为什么它这么慢?”OpenAI首席执行官Sam Altman如是说。“近之则逊”,正如俗话所说。
我们现在看到了生物学界对人工智能的同样狂热的乐观情绪,DeepMind 首席执行官 Demis Hassabis 宣称人工智能将被用于“解决”生物学问题,这可能最好地概括了人们对人工智能的期望。与此同时,我们必须承认,人工智能在生物学中带来的革命还在有限范围内,这有点出人意料。事实上,迄今为止最大的真正革命是蛋白质结构预测,DeepMind的AlphaFold已经改变了许多工作流程,许多几年前完全不可想象的问题现在已成为常规。与ChatGPT类似,随着人们对AlphaFold的能力和局限性的理解加深,最初的“AI将取代结构生物学家”的震惊已经变成了“为什么它这么慢?”
生物学的最大挑战之一是时间和空间尺度的巨大数量,从分子尺度的纳米级(10ᐨ⁹)到组织和器官的厘米级(10ᐨ²),以及从原子相互作用的飞秒级(10ᐨ¹⁵)到典型生物体生命周期的几年(10⁷)。通常情况下,虽然我们对较小尺度的规律有很好的理解,例如描述组成蛋白质分子的原子量子力学系统的薛定谔方程,但由于计算上的不可行性,我们无法简单地将它们扩展到较大尺度。同时,在较大尺度上起作用的规律更加难以捉摸,无法直接从较低级别的规律中推导出来。人们对AI在生命科学中的一个大希望是提供一种数据驱动的方法来弥合这些尺度,可能会开启被称为“后理论”科学的新时代:AlphaFold可以产生准确的蛋白质折叠结构预测,但它是一个黑箱,不提供蛋白质折叠理论,或者至少不是人类科学家可以理解的理论。
过去的AI革命
AI revolutions of yesteryears
过去的AI突破,特别是过去十年中深度学习在感知和语言方面的兴起,主要归因于三个因素的汇合:新模型、更强的计算能力和更多的数据。后者可以说是成功的最关键因素,用简短的格言“数据为王”来概括。2012年深度学习在计算机视觉方面的主要成功得益于大规模训练数据的可用性——2010年引入的ImageNet基准的数百万标记图像。尽管ML模型本身已知近二十年,但从数据集发布到突破仅用了三年时间。自然语言处理领域也发生了类似的深度学习革命,通过在新引入的大规模基准上使用旧模型取得了显著的进步。这些领域的最新进展主要是由计算能力和可用数据的扩展规律驱动的。
有趣的是,随着AlphaFold2 2020年的突破,情况似乎逆转了:用于其训练的数据(蛋白质结构和序列)已经存在了几十年,规模也不大,而ML模型是新颖的和最近的:它探索了2017年的Transformer架构以及同时流行的几何不变性思想。因此,AlphaFold打破了“数据集优于算法”的趋势,提出了另一个关键但常被忽视的成功因素:正确选择问题。
过去十年的许多AI突破遵循了Wissner-Gross提出的“数据集优于数据”范式,因为它们使用了最近的大规模高质量数据集和概念上相对较旧的算法(从数据集引入到突破的时间大约是从算法引入到突破的三倍)。AlphaFold2的趋势逆转,算法突破的时间几乎比数据集短十倍。当然,可以争论特定算法的实现是否在先前引入的原理上具有足够的新颖性,以及数据集自引入以来是否有实质性的演变。因此,我们建议对这张表格持保留态度。
AlphaFold为何奏效?
Why did AlphaFold work?
1972年,Christian Anfinsen在他的诺贝尔演讲中提出,蛋白质结构完全由其氨基酸序列决定。事实证明,说起来容易做起来难,蛋白质折叠问题在接下来的五十年中成为结构生物学的圣杯。1994年设立的每两年一次的结构预测评估(CASP)竞赛,通过将预测的准确性与新确定的实验结构进行比较,跟踪了这一人尽皆知的难题的进展。
2018年,当DeepMind的AlphaFold以大幅度超过所有竞争技术的表现首次问世时,生物学界经历了一个“ImageNet时刻”。2020年,AlphaFold 2达到了“可比于”X射线晶体学的结构预测准确度,标志着蛋白质科学的新纪元。
AlphaFold模型既依赖结构信息,也依赖蛋白质的进化历史,这些信息以多序列比对(MSA)的形式提供。2022年,一个Meta团队(现在是一个初创公司Evolutionary Scale)发布了一种方法,能够基于单个序列预测蛋白质结构,称为ESMFold,基于AlphaFold 2架构,用大型语言模型(LLM)ESM2的嵌入替代从MSA中提取的进化信息。
A:AlphaFold 2的工作原理:不变编码器(“Evoformer”)处理MSA中包含的共同进化信息,然后是等变解码器(“结构模块”)。B:AF2算法背后的直觉:Evoformer利用共同进化将无限维解空间向全局最小值的位置收窄,而结构模块沿局部势能进行迭代精炼,以达到全局最小值。
异常好的训练数据。如果我们试图理解AlphaFold 2的结构,并试图在生物学的其他应用中复制AF2的成功,首先要从或许是深度学习模型中最关键的成分开始:AF2训练的数据。蛋白质结构预测由于其结构数据的异常均质性和大规模(按生物学标准)而显得独特,这些数据通过X射线晶体学或冷冻电子显微镜(cryo-EM)技术收集,数据格式为预估的原子空间绝对坐标。
这与生物学其他领域中常见的“相对”格式数据形成对比,例如RNA测序、质谱或细胞染色,这些往往受到强烈的“批次效应”和相对于“背景噪声”的读出困扰,即使在归一化之后,不同的实验设置也难以比较,导致在这些领域建立基础模型的成功较少。将这些模式的数据源结合起来仍然是一个非常活跃的研究领域。
许多其他方法也受到低动态范围的困扰,其中一些信号(例如某些高表达的基因)非常丰富,以至于低丰度基因的信号被背景噪声淹没。蛋白质结构因此极其特殊的在均质、多样和绝对数据(空间中的3D坐标)方面是独一无二的,不同实验室解析同一结构的偏差最小。
“简并”解空间("Degenerate" solution space)。AlphaFold 2的另一个特点是其监督训练集只有14万个蛋白质结构和35万个序列,按ML标准是非常小的——比十年前用来训练AlexNet的数据量少一个数量级,与同时期的GPT-3相比更是微不足道。可能使如此小的数据集足够的是“解空间的简并性”:虽然理论上蛋白质折叠的所有可能解的数量是天文数字(估计为10³⁰⁰),但实际实现的只是很小的一部分。这类似于计算机视觉中的“流形假设”,认为自然图像在所有可能的像素颜色空间中形成一个低维子空间。
这种“简并性”的原因可能在于进化:我们知道的大多数蛋白质是在35亿年的进化优化中出现的,其中现有的结构域被复制、粘贴和突变,产生了一个有限的“词汇”,被一次又一次地重用。也有热力学原因,因为只有有限的一组可能的氨基酸3D排列能补偿折叠蛋白质的熵成本。大多数蛋白质折叠因此可以通过重组和稍微修改现有的折叠来实现,因此有效的(蛋白质折叠的)解可以通过高级检索技术找到。
从这个角度看,蛋白质折叠问题类似于自然语言,其中LLMs擅长的写作、编码、翻译和对话任务通常不需要强泛化,可以通过重组现有示例解决(例如从GPT-4训练的GitHub代码库中复制粘贴代码片段)。
因此,虽然AlphaFold 2在预测以前从未结晶的蛋白质结构方面表现出色,但这可能不是因为其泛化能力强,而恰恰相反,因为它不需要泛化。支持这种假设的一个观察是,即使是AlphaFold的最新更新(引入小分子的AlphaFold-latest版本)(译者注:文章写成后2个月Alphafold 3才发布)和其他最先进的对接算法似乎在泛化到以前未见过的蛋白质-配体复合物时遇到困难,因为与蛋白质不同,大多数小分子不进行进化,因此解空间可能不那么简并,在训练数据中反映得也不够好。
“分布假设(Distributional hypothesis)。”语言相关任务和蛋白质结构预测之间的另一个相似之处是“分布假设”,“分布假设”认为在相同上下文中出现的词往往具有相似的意义。在人类语言中,一个词的许多意义来自其上下文。例如,根据上下文,“bank”这个词可以指金融机构或河岸。今天LLMs使用的掩码语言建模和下一个令牌预测目标,也用于AlphaFold 2和ESMFold,通过掩盖一组单词(更准确地说是“令牌”),让神经网络重构它们。由于人类语言的语义结构,这个简单的任务使模型能够学习单词和短语的基本语义意义。由于解空间的简并性,大多数问题可以通过仅填充或扩展这些最可能的一组单词来解决。
在蛋白质中,结构域内和结构域之间氨基酸的相对位置主要由蛋白质的功能预先确定。又由于AlphaFold 2主要在功能蛋白(成功进化的产物)上进行训练和评估,因此它极有可能(provided with an extremely strong signal)学到蛋白质序列和结构的“分布假设”。大致来说,为了折叠新序列,AlphaFold 2可以“检索”一组粗略的全局结构域或基序安排,然后连接它们。AlphaFold 2通过MSA利用蛋白质的进化历史实现这一点,ESMFold通过预训练的LLM实现这一点。这可以从AlphaFold对MSA深度的强依赖以及ESMFold对训练数据中相似邻居数量的依赖中看出,其无法可靠地预测折叠开关蛋白的多种稳定构象,以及AlphaFold和ESMFold对有大段缺失且不太可能折叠成原生蛋白状态的异构体的敏感性不足。
明确的性能标准(Clearly defined performance criteria)。深度学习在感知和语言方面快速进展的原因之一是存在明确和广泛接受的基准,包括用于训练和测试的数据集以及评估协议,例如计算机视觉中的ImageNet和自然语言处理中的GLUE。对于蛋白质结构预测,这样的基准是CASP。将预测的3D结构与实验确定的真实结果进行比较也很简单,使用均方根偏差(RMSD),这种清晰定义的损失函数导致了深度学习方法的成功。
我们可以得出结论,由于数据(蛋白质结构和序列相对于其他类型的生物数据异常均匀和高质量)和问题(虽然理论上非常复杂,蛋白质折叠问题似乎受益于非常简并的解空间)的性质,AlphaFold因而能够脱颖而出,成为生物AI中最著名的孤立突破之一。如最近一连串的研究结果所示,AI可以在不学习任何物理学的情况下解决蛋白质结构预测。但是在其他生物学问题中,如分子性质预测、靶标-疾病关联,甚至蛋白质-配体对接,情况可能不那么乐观。
蛋白质折叠如何失败?A:AlphaFold 2、ESMFold和OmegaFold为截短异构体预测全长结构,生成不太可能的溶剂暴露疏水斑块。B:AlphaFold 2和AlphaFold 2增强采样方法未能预测93种折叠开关蛋白的两种折叠。C:ESM-2非监督接触预测强烈依赖于最近的邻居。D:AlphaFold 2性能强烈依赖于MSA深度。E和F:AlphaFold-latest在PoseBusters上的报告成功率从73.6%降至新蛋白质/配体的49-50%,低于经典对接(如Vina/Gold)的PoseBusters结果。
生物AI成功的配方
是什么?
Is there a recipe for
bioAI success?
AlphaFold 2是一个令人信服的例子,证明ML可以在正确的生物学问题和正确的设置(setting)中发挥作用。它也是迈向“生物学2.0”的开端,正如Nvidia首席执行官Jensen Huang所宣称的那样:将工程和计算机科学原理和工具应用于生物学问题,将物理和数字世界结合起来,既了解生物学,又操作它(例如用于药物开发)。从AlphaFold以及之前在语言和感知方面的AI突破类比中汲取教训,可能有助于更好地指导对生物学2.0的努力和资本投入,避免生物AI的“幻灭低谷”。
为此,我们发现仔细检查生物AI方法的演变是很有启发性的。由于许多这些努力发生在生物制药行业中,我们将重点关注各种代际的“AI-first”生物制药公司,我们将其定义如下:“第一代”公司将ML应用于现有数据模式,这些模式不一定适合。因此,相较于传统的药物发现方法,第一代公司迄今为止显示出极其有限的成功。每当人们谈论生物学中的AI被“过度炒作”时,通常指的是这些“第一代”公司。
“第二代”公司通过扩展现有实验技术系统地生成数据。我们相信,关注正确问题并具有正确数据生成能力的这部分公司将从长远来看取得成功。
“第三代”公司开发专门为ML设计的新(或重新利用旧的)实验技术,生成关注“简并解空间”问题的ML特定数据。我们预计AI驱动的药物发现中的最大突破将来自ML和实验技术的共同发展,更广泛地看,我们认为这是迈向未来AI驱动的生物科学的必要步骤。
生物AI方法的概念“世代”
第一代:
旧数据的新ML方法
Generation 1:
new ML methods for old data
在传统的生物技术行业(“第零代”),数据由人类科学家收集,提供给人类科学家使用,用人工设计的算法分析,这个算法也是基于人类对问题的理解。我们称这种经典范式为“白箱数据/白箱软件”。随着深度学习算法的出现,多个生物技术公司试图将人工智能在感知和语言方面的突破扩展到生物学问题,以发现靶标并用药物治疗之。使用深度学习与传统计算方法的核心区别也许用Andrej Karapathy创造的术语“软件2.0”可以最好地辨析。在软件1.0中,从ENIAC的早期到现今的计算机,软件算法是由人类的创造力设计的,首先推导出底层逻辑并将其编程成计算机可以理解的指令。在编程之后,软件1.0通过数据输入来产生所需的行为。
软件2.0从根本上不同:算法不是通过提供指令,而是通过提供数据和所需行为(以损失函数的形式)来编程,然后神经网络从中提取正确的逻辑,自己解决问题——只要有足够的计算能力和合适的优化算法来最大化所需的行为。逻辑被隐式存储在神经网络权重中。由此产生的算法充当“黑箱”,人类无法完全理解这些隐式指令。虽然“黑箱”常带有负面含义,但正是这种从手工制作的特征和指令到模型提取的“黑箱”特征和指令的转变,是深度学习模型成功的定义特征之一。
软件1.0使用预编程的逻辑在数据上创建所需的行为。软件2.0使用数据和所需的行为来得出正确的逻辑。
第一代AI生物公司于2010年代初出现,旨在将深度学习方法(“黑箱软件”)应用于现有的“白箱”生物数据。第一代著名的生物AI公司Atomwise和Exscientia(均成立于2012年)试图通过用ML技术取代传统的蛋白质-配体对接和筛选技术来加速命中发现。然而,与蛋白质折叠相比,蛋白质-配体对接问题缺乏可追踪的(tractable)特征。首先,数据极度倾斜,远不如PDB多样化。大多数配体是容易合成的小分子,大多数靶标是易于结晶或高度偏向于药物开发有吸引力的靶标(例如激酶);药物化学家解这个问题本来就是比较擅长的(medicinal chemists have the least problem with drugging them)。其次,配体的解空间不是简并的,因为与蛋白质不同,小分子不是通过进化生成的,而是通过化学合成生成的。
因此,小分子缺乏在蛋白质中看到的分布假设:分子的构建块的位置通常不是由功能解释,而是由标准化学过程中什么有可能被合成决定的。对现有化学物质进行掩码语言建模或下一个令牌预测,很可能学习的是合成偏差而不是功能。这点容易验证,比如基于Pubchem和ChEMBL数据库训练的小分子LLMs相比于简单的非深度学习基线表现平平。更一般地说,在(译者注:训练集里没有的)新化学或蛋白质数据上评估时,基于ML的蛋白质-配体对接算法和分子性质预测算法表现不佳,而这个任务恰恰需要良好泛化能力。
类似挑战存在于疾病-靶标关联,另一家著名的第一代公司Benevolent AI(成立于2013年)的早期重点是使用NLP方法挖掘科学文献。虽然原则上数据可能很多,但很难确定模型是否预测了新的疾病关联,因为在文献中几乎可以找到任何蛋白质与几乎任何疾病的关联。由于命名法的不一致,几乎不可能确保任何新发现的联系实际上是新的。除此之外,学术文献作为数据来源非常嘈杂,因为一些已发布的结果可能是错误的或不可重复的。除了数据不足,解空间也可能不简并:许多复杂疾病具有非常多样且难以捉摸的机制,因此“复制粘贴”已知解决方案的希望可能是痴心妄想。
此外,第一代公司面临着日益严峻的商业模式。公共数据集的整理不再是竞争优势,随着PyTorch等ML框架的出现,深度学习算法曾是显著的竞争优势,需要非常专业的知识,现在已被大大普及,现在一个本科生都可以使用。规模仍然是一个竞争优势,因为很少有公司有适当的计算资源,但这并非不可逾越。简而言之,作为第一代公司不再是一个可防御的竞争优势(很可能从未是)。由于这些原因,加上过去两年不那么宽容的资本市场,许多第一代公司已经转向经典的制药模型,专注于现有的临床资产,或被迫进行缩减和重组,未来很可能还有更多公司会如此。
第二代:
扩大旧的数据生成模式
Generation 2: scaling old
data generation modalities
为应对这些挑战,2010年代中期出现了一类新的公司,结合ML和大规模生物数据生成模式,特别是为解决上述现有数据的问题。这些公司,我们称之为“第二代”,仍属于“白箱数据/黑箱软件”概念,重要区别在于第二代公司有能力生成适合ML的数据规模。第二代著名公司Recursion(成立于2013年)和Insitro(成立于2018年)最初的成名之举是扩大细胞染色技术,生成数亿细胞表型图像。在这种技术中,细胞表型在多个通道中使用多种荧光染料进行捕获,显示细胞成分如细胞核、内质网、细胞质RNA和线粒体,然后可用于药物发现场景中,预测生物活性、毒性并了解化学和遗传扰动的作用机制。Generate Biomedicines(2018年)开发了可能是最大的冷冻电镜设施之一,用于获取蛋白质结构。Insitro、Zebi AI和Anagenex(均成立于2019年)开发了大规模DNA编码文库(DEL)筛选,测量带有独特DNA“条形码”的大量分子与单一药物靶标的蛋白质结合。
DEL方法也符合“简并性”的特征。具有超大(高达数十亿)筛选库的DEL方法针对筛选靶标生成大量命中(“解决方案”),但这些命中通常是大而非药物样分子。因此,DEL方法针对单个靶标产生“简并解空间”,即首先通过实验生成大量命中,然后使用ML从这些命中中提取模式,得出新的解决方案。这是一种有效的策略,先是“复制-粘贴-修改”,然后用ML方法生成更多类药的苗头化合物和先导化合物——这是当前ML方法擅长的。然而,DEL方法不太可能将完全新的、没有苗头化合物的靶标的蛋白质-配体相互作用发现转变为“简并解空间”,因为它们不能扩展到许多其他蛋白质,并且没有可归纳的(例如结构)信息。
第三代:ML与新型生物数据采集技术的共同发展
G3: co-development of ML
with novel biological data
acquisition technologies
虽然可能一些第二代公司会成功,其方法相比第一代公司在科学上更有实质意义,但我们认为将会有第三代公司,更成功地利用ML。这是因为第二代公司仍受限于最初为人类智能开发的“白箱数据”模式,在大多数情况下强调质量而非数量。这在历史上有充分的理由,因为生物学是一个信噪比问题,false positives(“type I error”)往往是最昂贵的错误,因为它们导致用非常昂贵的实验追逐错误的假设。
传统生物学检测因此以高精度换取高通量。然而,这并不是人工智能的正确策略,AI更善于处理噪声,模型通常在非常大、非常多样但嘈杂的数据集(如CommonCrawl,从互联网上抓取的文本数据)上预训练,然后在一小部分高质量数据点上微调(例如通过人类反馈的强化学习,成功应用于ChatGPT)。
此外,生物科学往往缺乏真实的负样本,这部分是学术激励和出版模式的结果:不成功的实验很少在科学文献中报告,其数据被丢弃,人类科学家回到绘图板重做。然而,这些数据对AI非常有用,生成大量负例的能力至少与拥有许多正例一样重要。
我们认为数据的稀缺性和使用现有模式获取数据的成本集中在减少误报和真实负样本上,构成了AI驱动的“生物学2.0”的根本瓶颈。例如,使用当前用于成像蛋白质结构的两种主要模式之一的冷冻电镜,花了二十多年时间,才将分辨率提高一个数量级(从大约20Å到2Å)并将成本减少大约一倍。在当前价格点(典型蛋白质每个>10k美元),获得所有已知序列的蛋白质的冷冻电镜结构成本将在万亿美元范围内。数据稀缺性,我们认为,这是迄今为止在生成式AI中算法进展在生物学中的有限影响的一个原因,生成式AI在过去几年在数据丰富领域(如语言和图像生成)取得了显著性能。
因此,我们认为最令人兴奋的投资方向是完全新颖的低成本高通量生物数据模式,它们对人类来说可能是“黑箱”。这些模式将明确以数量换取可解释性,不只是扩展用于人类假设评估的数据,而是专门设计用于训练机器学习系统的数据,然后这些系统将生成所需的人类可理解输出以进行假设评估。我们称这种新范式为“黑箱数据/黑箱软件”,并相信它将成为新一代生物AI公司的核心。
从认识论的角度来看,第三代理念挑战了传统的科学发现范式。在传统的假设-预测-测试循环中,白箱实验数据由人类科学家用于提出假设,然后用它进行预测并实验测试以确认或拒绝假设。在第三代方法中,假设由那些在黑箱数据上训练的ML模型提出,然后在白箱数据上进行测试。正是这种将数据与人类理解脱钩的方式,可能解锁大规模和多样化的实验技术。
关键是,黑箱数据仍然从原始样本(例如蛋白质折叠情况下的蛋白质结构,或人类表型情况下的实际人类)中收集,而不是其简化模型,因而确保了完整的保真度。在这种情况下,黑箱数据只是从同一系统中获得的另一个数据源,比白箱数据更容易获得,但仍然有充足信息可以进行下游预测。获得白箱和黑箱数据之间的差异越大,使用后者的影响可能越大。已知的例子有用于预测人类表型的生物标志物或替代物(例如用于动脉粥样硬化心血管疾病的载脂蛋白Apo-B100水平)。这也明确了训练和评估此类模型需要有足够的成对“白箱”+“黑箱”数据。“第三代”AI驱动的生物科学
一个类比是成像领域的计算摄影技术(computational photography)。上世纪末开发的传统数字成像系统使用CCD或CMOS传感器生成图像数据,这些数据看起来像所需的输出图片,但有一定的缺陷、噪音或伪影(因此是“白箱数据”),这些缺陷、噪音或伪影通过适当设计的图像处理算法(“白箱软件”)减少或消除。过去十年深度学习的成功取代了手工制作的“白箱”图像处理算法,使用“黑箱”神经网络滤镜。现代成像系统如苹果iPhone中的那些更进一步,取代了人类可理解的数据,使用来自多个传感器或模式的输入,这些输入不一定看起来像输出图片(因此是“黑箱数据”),并使用深度学习融合它们。一些极端的“黑箱数据模式”例子包括以兆赫率捕捉像素亮度差异的事件相机,或压缩感知,其输入是精心设计的随机投影。
即使在生物学领域,用人类不可处理的数据来发现新见解也并不新鲜。用数据可解释性的部分妥协换取指数级的数据增加,是迄今为止生物科学中最大成就之一——人类基因组计划的关键。人类基因组测序在很大程度上通过“全基因组霰弹枪测序”技术实现,这项技术由Craig Venter及其公司Celera开发,正是采用这一策略。通过将基因组打散成数百万人类不可理解的片段,然后使用比对算法重新组装,生成了指数级更多的数据,使Celera最终赢得了“基因组战争”。当时未使用深度学习,因此这是我们称之为“黑箱数据/白箱软件”的例子。
在基因组学中的“黑盒”数据示例(随机测序,左)和计算成像中的“黑盒”数据示例(事件传感器,右)
我们认为新的第三代方法是系统性地映射生物学、生成需要供软件2.0使用的数据、训练基础ML模型的最佳选择。这代表了一种基本范式的转变,因为这些数据对人类来说没有直接意义,但在与ML结合后将获得价值,并且仅为此目的生成。这意味着从优化特定人类提出的问题转向系统化、以AI为重点的实验方法。
这种转变不太可能来自传统学术机构,因为生命科学家更感兴趣的是发现新事物而不是构建新工具,这种新心态需要大型、长期、跨学科、协调的努力,不适合博士学位和教轨模式。同样,这种转变不太可能来自传统制药行业,因为它与药物发现项目没有直接联系,也不符合以疾病领域为中心的制药业务模式。很可能,这种转变将来自第三代生物技术初创公司或新型AI-first的学术型生物实验室,每个团队都在开发新数据模式和相对应的ML算法上下注。就像只有在互联网上嘈杂的大量数据和小型手工整理的人类反馈数据集一起训练,才能使ChatGPT成为可能,他们将把前述的方法与现有的高质量、低通量的人类可解释数据的小型数据集的协同作用下工作。
我们预见,向“第三代”的过渡将在扩展任务复杂性的同时使用现有数据源(只不过这些数据不再为了包含人类可理解的信息而收集),重新利用已知的实验技术,不过这些技术之前未被认为适合某个任务,最后,提出完全新颖的数据获取模式。这个转变已经发生在最初作为“第二代”成立的公司中。一个例子是Recursion,最近宣布将从其成立时使用的细胞染色技术转向不需要任何染色的明场成像(因此更便宜、更快获得),还能拍摄活细胞的实时信息,并使用因果模型建模。
我们还在一些最近成立的“第三代”公司中看到重新利用已知或开发新实验技术的实例,例如Atomic AI(成立于2021年)开发的用于RNA靶向治疗的化学映射。化学映射数据本身无法确定RNA结构,但Atomic的基础模型ATOM-1可以从这些大规模和多样化数据中学习一些广泛的折叠模式,并在使用少量3D RNA结构进行微调后,显著提高RNA结构预测的准确性。
A-Alpha Bio是一家从华盛顿大学蛋白质设计研究所David Baker的实验室中孵化的公司。该公司开发了一种新的实验细胞平台,极大地多重化,允许收集数百万蛋白质相互作用亲和性数据作为ML算法的训练数据。A-Alpha和Dreamfold(一家成立于2022年的加拿大公司,从Mila分离出来)目前正在使用这种大规模的蛋白质相互作用数据开发生成式ML算法用于治疗性蛋白质设计。由于亲和性数据不直接包含结构信息,这类数据与任务结合时可被视为“黑箱”。
Enveda(2019年),一家由Excursionautes(一个对前Recursion员工的爱称,其中有不少人创办了其他初创公司,大多数属于第二代或第三代)创立的初创公司,专注于天然产品,从异质样品(如植物提取物含复杂的小分子混合物)中通过质谱来表征。在我们的术语中,质谱谱图被视为“黑箱数据”,它不能直接提供它们包含的分子的结构。为了应对这个非常具有挑战性的任务,Enveda应用AI方法直接从谱图中预测性质并选择类似化合物(即在“黑箱空间”中),大大增加筛选通量。
VantAI(成立于2019年)是另一家第三代公司,开发面向AI的、系统性生成数据的新实验方法。VantAI以基于结构蛋白质组学的实验技术而闻名,使得生成的结构界面数据比X射线或冷冻电镜便宜多达六个数量级(将一个蛋白质界面结构的成本从目前最高可达100万美元降低到大约一杯浓缩咖啡的成本),可以看出使用黑箱数据而非白箱数据的好处非常诱人。这种数据本身“过于稀疏”以直接推断结构(因此类似于霰弹枪读取被视为黑箱),但其结合专门的生成式ML算法的使用,使得可能生成比科学历史总和大100-1000倍更大和多样的结构界面数据集。
VantAI使用这项技术设计最令人兴奋但最难设计的药物模式之一,近距离调节剂(例如“分子胶”),通过模仿自然发生的界面诱导、阻断、稳定或破坏现有的相互作用。由于自然蛋白质与其他蛋白质特异性相互作用,很可能存在可以模仿和学习的自然进化产生的相互作用。因此,除了新颖的高通量数据源外,这个问题还具有“简并”解空间和“分布假设”的有利特征。
炼金术士曾经相信hand of Nature(“自然的手”),一种半神奇的力量,据说赋予生命。然而,我们现在对生物学有了更好的理解,不再需要诉诸魔法。在某些情况下,我们能够追踪分子之间的相互作用对细胞的影响,成功地对抗过去几十年里会对患者构成致命威胁的疾病。然而,我们仍然缺乏系统的方法来连接不同的生物学尺度,特别是将低级分子过程的知识转化为细胞、组织和整个生物体的功能。过于乐观地将AI委托解决这些问题,在某种意义上是炼金术的回归,这次是hand of the Machine (“机器之手”)。
DALL-E3想象生成的“浮士德”中的一幕,图中德文大意:化学被称为自然之手,它自嘲其道,却不明其理。
如果盲目应用于没有额外前提条件的问题(problems without additional prerequisites),人工智能在生物科学中的影响可能非常有限。在本文中,我们将这些前提条件确定为大规模和多样化的数据的可用性;明确的性能标准;有用的内部结构(如分布假设)以启用无监督学习;和简并解空间。即使在更适合ML技术的生物学问题中,重要的是认识到任何单一的“ImageNet时刻”、“AlphaFold时刻”或“ChatGPT时刻”都不会一夜之间改变制药行业:药物开发是一个漫长而艰难的过程,即使在“圣杯”生物学问题如蛋白质结构预测中取得了显著突破,离成功药物投放市场还差得远,还有许多这样的“重大挑战”尚未解决。
四个使生物学问题适应机器学习方法的“成分”:1)大规模且最重要的是多样化的数据;2)可以用作损失函数的明确性能标准;3)有用的内部结构由人类语言或生物进化生成或来自物理约束,如对称群;4)简并解空间,如“流形假设”形式。
人类基因组计划再次提供了有价值的历史经验教训:它也解决了一个“圣杯”生物学问题,并在某些人中引发了不切实际的期望,认为可以利用基因组数据创造出大量新的药物,一举治愈许多复杂疾病。历史表明这并未发生。同样,成功的范围有限很大程度上与基因组中存在的遗传变异和疾病表型之间发生的许多生物学相关,有许多“重大挑战”尚待解决。同样,HGP的影响不是由回答任何特定的生物学问题驱动的,而是作为一项使能(enabling)技术,允许从同一个数据丰富的源中不断提出新问题。
此外我们还认为人类基因组计划是一个成功的早期例子,说明了开发实验技术生成人类科学家不可理解的“黑箱”数据、并与适当的计算方法结合解释这些数据的好处。我们认为通往生物学2.0的道路是一个范式转换,从传统的昂贵且通常稀缺的“白箱”数据(第0-2代)转向新颖的低成本高通量“黑箱”数据(第3代),专门设计用于与“黑箱”AI方法一起工作。
“黑箱”通常在科学中是一个贬义词,现代版的“我们不知道也不想知道。”然而,这并不意味着AI必须放弃我们迄今获得的科学知识,转而纯粹依赖数据驱动技术。恰恰相反,过去几年我们看到将特定领域的数学方程与基于实验数据训练的通用机器学习组件相结合的趋势。正如Mohammed AlQuraishi所精确表达的那样,将基本自然现象的知识提炼成概念原语,常常可以模拟以前难以处理的复杂系统,克服稀缺、不完整和嘈杂数据的局限性,并提供更好的泛化和一定程度的可解释性。在生物学和物理科学中,这些方法被称为“可微生物学”和“物理启发学习”。几何提供了一个强大的框架,通过不变性和对称性的语言形式化一些这些原语——这些概念支撑几何深度学习,被广泛用于化学、物理和生物学的ML中,以等变架构的形式。AlphaFold 2可能是这些原则最著名的成功例子。
虽然灵活的初创公司将在改变药物开发的漫长而艰难道路的一些步骤上取得重大进展,但其他“第三代”数据集对它们来说将不那么容易获得。因为黑箱数据仍然从原始样本(例如人类活动数据和其他生物标志物,以预测个人表型)中收集,而不是其简化模型(例如高度培养的细胞系,转换价值存疑),在某些情况下,获得这种数据,尽管是“黑箱”,将仍然固有地昂贵。特别是关于复杂人类疾病生物学的问题,这些问题告知最昂贵和最重要的挑战之一——该追求哪个疾病靶标——可能需要在人口规模上收集。互相协调的政府、学术和工业联盟,如NIH的All Of Us Research Program或UK Biobank,将实现这一目标,但可能由于对第三代数据“黑箱”性质的潜在反感,需要很长时间。
尽管这些单个第三代突破的范围有限,但我们很高兴看到很多模式已经出现,别的公司可以模仿,投资者可以受到启发来有效分配资源。我们相信任何这样的公司都有机会产生重大影响,并使发现具有高度影响力的药物成为可能——一步一步地,改变整个药物发现过程。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:https://www.iotsj.com//kuaixun/3598.html