应用前景广阔!AI将成药物发现领域“主力军”
智通财经APP获悉,礼来一直在使用生成式人工智能发现药物分子。数据显示,人工智能在五分钟内发现的药物分子数量相当于礼来在传统实验室一整年合成的分子数量,因此测试人工智能在医学领域的极限是有意义的。我们无法知道大量人工智能生成的设计是否能在现实世界中发挥作用,而这正是持怀疑态度的公司高管想要了解更多的东西。
礼来首席信息和数字官Diogo Rau最近参与了一些由人工智能生成药物分子的非典型实验。他描述这些人工智能生成的生物设计为具有“奇怪结构”的分子,且无法与该公司现有的分子数据库想匹配,但看起来似乎是潜在的强大候选药物。这些由人工智能生成的药物分子被交给了礼来的研究科学家,并让他们感到惊讶。
据从事人工智能和医疗保健交叉领域工作的高管表示,在不久的将来,该领域将完全由人工智能生成药物。一些业内人士则表示,最多在几年内,它将成为药物发现的一种规范。生成式人工智能正在迅速加速器在新药物开发和发现中的应用。此举不仅将重塑制药行业,还将重塑几个世纪以来已融入科学方法的基本思想。
谷歌DeepMind成“先行者”
与人工智能相关的进步发生在生物领域,这一领域正在以英伟达医疗保健副总裁Kimberly Powell所描述的“前所未有的规模和分辨率”日益数字化。
这一变化实际发生在OpenAI的ChatGPT在公众里变得熟悉之前的几年。2021年,谷歌的DeepMind人工智能部门率先将人工智能大语言模型应用于生物学。Kimberly Powell表示:“我们可以用非常大的数据集训练这些变形模型,从氨基酸序列到蛋白质结构,这是药物开发和设计的核心。”
这是一场医学革命,包括以3D方式扫描组织内数百万个细胞的空间基因组学,以及受益于已经以数字形式存在的化学物质目录的AI模型构建,这允许生成人工智能transformer模型现在对它们进行工作。Kimberly Powell表示:“这种训练可以通过无人监督和自我监督学习来完成,而且不仅可以快速完成,而且可以富有想象力。人工智能可以‘思考’出人类无法做到的药物模型。”
ChatGPT的机制可以作为理解人工智能药物开发的类比。Kimberly Powell表示:“它基本上是在每一本书、每一个网页、每一个PDF文件上进行了训练,它以这样一种方式编码了世界上的知识,你可以向它提问,它可以为你提供答案。”
GPT版本的药物发现
药物发现是一个见证生物行为相互作用和变化的过程,但在实验室中需要数月或数年的时间,可以在模拟传统生物行为的计算机模型中得到体现。Kimberly Powell表示:“当你能模拟它们的行为时,你就能预测它们是如何协同工作和相互作用的。”“我们现在有能力表现药物世界——生物学和化学——因为我们有人工智能超级计算机,使用人工智能和类似GPT的方法,有了所有的数字生物学数据,我们第一次可以在计算机中表现药物世界。”
这与上个世纪主导药物发现的经典经验方法截然不同:广泛的实验,随后的数据收集,在人类层面上的数据分析,然后是基于这些结果的另一个设计过程——在公司内部进行实验,然后是几个决策点,科学家和高管们希望这些决策点将导致成功的临床试验。Kimberly Powell表示:“这是一个非常手工的过程。因此,这是一个失败率高达90%的药物发现过程。”
人工智能的支持者认为,这将节省时间,提高成功率,将经典过程转变为更系统化和可重复的工程,使药物研究人员能够建立更高的成功率。Kimberly Powell援引最近发表在《自然》杂志上的研究结果指出,安进发现,在人工智能的帮助下,一种药物的发现过程原本可能需要数年时间,现在可以缩短到几个月。更重要的是,考虑到药物开发的成本,在早期将人工智能引入这一过程后,成功率大幅提高。经过两年的传统开发过程,成功的概率是50%。Kimberly Powell表示,在更快的人工智能增强过程结束时,成功率上升到90%。
Kimberly Powell表示:“我们预测,药物发现的进展应该会大幅提升。”生成式人工智能的一些值得注意的缺陷,比如它的“幻觉”倾向,可能会在药物发现方面发挥重要作用。Kimberly Powell 补充称:“在过去的几十年里,我们一直在寻找相同的目标,但如果我们可以使用生成方法来开辟新的目标呢?”
“幻觉”发现的新药
人工智能可以从模型中不存在的蛋白质开始工作,这种方法在经典的经验模型中是站不住脚的。从数字上看,人工智能有更大的发现需要探索。Kimberly Powell表示,可以作为一种治疗方法的蛋白质的潜在数量基本上是无限的——10的160次方,或者10的160次方——现有的利用自然赋予人类的蛋白质的限制将被打破。“你可以使用这些模型来产生可能具有我们需要的所有功能和特征的‘幻觉’蛋白质。它可以做到人脑无法做到的事情,但计算机可以做到。”
德克萨斯大学奥斯汀分校最近为其新的生成式人工智能中心购买了最大的英伟达计算集群之一。分子生物科学教授Andy Ellington表示:“就像ChatGPT能够从字母串中学习一样,化学物质也可以用字符串来表示,我们可以从中学习。”他表示,人工智能正在学习区分药物和非药物,并创造新的药物,就像ChatGPT可以创造句子一样,“随着这些进步与预测蛋白质结构的持续努力相结合,应该很快就可以识别出适合关键目标的类似药物的化合物。”
德州大学机器学习基础研究所计算机科学博士后Daniel Diaz表示,目前人工智能在药物方面的大部分工作都集中在小分子发现上,但他认为,更大的影响将是在新型生物制剂的开发上,他已经看到了人工智能如何加快寻找最佳设计的过程。
Daniel Diaz的研究小组目前正在进行一种治疗乳腺癌的动物实验,这种治疗方法是一种人类蛋白质的工程化版本。这种蛋白质可以降解乳腺癌所依赖的一种关键代谢物。传统上,当科学家需要一种蛋白质用于治疗时,他们会寻找几种特征,包括不易分解的稳定蛋白质。这需要科学家引入基因工程来调整蛋白质,这在实验室工作中是一个繁琐的过程——绘制结构并从所有可能的基因修饰中识别出最佳选择。
现在,人工智能模型正在帮助缩小可能性,因此科学家们可以更快地知道要尝试的最佳修改。在Daniel Diaz引用的实验中,使用更稳定的人工智能增强版本导致蛋白质产量提高了大约七倍,因此研究人员最终有更多的蛋白质可供测试和使用。Daniel Diaz 表示:“结果看起来非常有希望。”而且由于它是一种基于人体的蛋白质,病人对这种药物过敏的几率——对基于蛋白质的药物的过敏反应是一个大问题——被降到最低。
英伟达最近发布了所谓的人工智能医疗“微服务”,包括药物发现——这是该公司在医疗领域采用人工智能的雄心壮志的一部分——使研究人员能够筛选数万亿种药物化合物并预测蛋白质结构。计算软件设计公司Cadence正在将英伟达AI集成到一个分子设计平台中,该平台允许研究人员使用数千亿化合物生成、搜索和建模数据库。它还提供与DeepMind的AlphaFold-2蛋白质模型相关的研究功能。
最终,人工智能设计的药物将取决于药物开发的传统最后一步:人体试验的表现。Kimberly Powell表示:“你仍然需要拿出确凿的证据。”她将目前的进展水平与自动驾驶汽车的训练进行了比较——自动驾驶汽车正在不断收集数据,以加强和重新增强模型。Kimberly Powell 表示:“同样的事情也发生在药物发现领域。你可以用这些方法来探索新的空间……磨练它,磨练它……进行更智能的实验,获取实验数据并将其反馈到模型中,循环往复。”
但相比之下,在更广泛的人工智能模型领域中,生物领域的空间仍然很小。在多模态和自然语言处理领域,人工智能行业拥有一万亿或更多参数的模型,相比之下,生物模型的参数量仅达数百亿。