kk体育作为高投入高风险的创新行业,生物医药行业一直面临着“双10困境”:一款新药的研发至少需要花费10亿美元、10年投入。伴随着AI大模型引领的创新浪潮席卷全球,生物医药产业正在面临新一轮的机遇期。一家初创企业借助大模型的算力kk体育,在短短两年内找到合适的抗癌苗头化合物,AI大模型能否线困境”?
“经过AI生物大模型的虚拟筛选,从780万个分子库中最终找到6个潜在活性分子,效率相较于以往的人工筛选提升了成千上万倍。”杭州立德百克生物医药科技有限责任公司负责人王紫壹告诉记者,生物医药行业有一个“双10魔咒”,一款新药的研发至少需要花费10亿美元和耗时10年投入,这是一家初创公司几乎难以承担的成本,如今凭借AI大模型的能力,生物技术团队也能实现弯道超车。
乳腺癌是全球女性发病率最高的恶性肿瘤,去年我国乳腺癌发病人数超过42万,CDK4/6抑制剂是该领域最为畅销的药物,有机构预测全球总的CDK4/6抑制剂市场将在2029年超过200亿美元,占乳腺癌药物销售市场份额的42%。目前已经上市的CDK4/6抑制剂有4个,在研的更是多达几十个。立德百克自主研发的PPI检测技术,可以对蛋白质之间的相互作用进行快速的“湿”实验(生理学试验方法)验证,建立了专门针对CDK4/6-CCND蛋白-蛋白相互作用的药物筛选技术和活性检测技术平台,但是如何找到苗头化合物分子却犯了难。
“市面上的化合物商品库中有上千万种化合物,筛选工程耗时耗力,恰好生物计算大模型能弥补这一短板。”通过引入百度飞桨螺旋桨的文心生物计算大模型技术,王紫壹团队的“干”实验(计算机模拟试验方法)能力得到极大的提升,通过虚拟筛选,从780万个分子中得到了模型打分比较高的110个分子,并采购了其中的40个进行检测,最后发现有6个高潜力的分子,其中3个化合物能够同时打断CDK4/6-CCND蛋白-蛋白相互作用,还有3个化合物能够打断CDK4-CCND蛋白-蛋白相互作用。目前,双方正在对这些化合物进行更进一步的分析研究,也为下一步的结构优化提供数据准备kk体育。
记者获悉,去年5月百度对外发布了文心生物计算大模型,并将生物领域研究对象的特性融入模型,构建面向化合物分子、蛋白分子、基因组学信息的生物计算领域预训练大模型。目前正式对外发布的文心生物计算大模型,包括化合物通用表征模型HelixGEM和HelixGEM-2、蛋白结构分析模型HelixFold、以及单序列蛋白表征模型HelixFold-Single。
当下,随着通用大模型的走红,生物医药等垂直领域大模型正逐渐浮出水面。不少研报指出kk体育,AI制药行业经历了算法迭代、算力提升及海量实验数据的堆砌,随着AlphaFold2、ChatGPT等创新产品的出现,行业有望迎来高速发展的成长初期。
AI大模型如何提高新药研发的效率,之江实验室图计算中心副主任陈红阳有一个非常形象的比喻:靶点发现是药物研发过程中的关键环节,其中靶点是药物在体内的作用结合位点,药物好比一把“钥匙”,靶点就是与之匹配的“锁”。基于大量的医学材料和生化数据,生物计算大模型能发掘潜在的药物靶点,甚至预测靶点与潜在药物之间的相互作用,提高药物研发成功率。
国外的研究报告显示,AI可以将新药研发的成功率提高16.7%,AI辅助药物研发每年能节约540亿美元的研发费用,并在研发主要环节节约40%至60%的时间成本。根据英伟达公开资料,使用AI技术可使药物早期发现所需时间缩短至三分之一,成本节省至两百分之一。
生物制药和转化医学作为AI的重点赛道之一,涉及药物设计、筛选、优化kk体育、验证等多个环节,需要处理大量的复杂数据和知识,也吸引了更多的竞争者。
早在2020年,在第14届国际蛋白质结构预测竞赛上,DeepMind研发的AlphaFold2成功根据基因序列预测了生命基本分子——蛋白质的三维结构,取得了中位分数为92.4的好成绩,比第二名高25分,被中国科学院院士施一公评价为“人工智能对科学领域最大的一次贡献”。
随后国内AI生物大模型逐渐开始发力,清华智能产业研究院日前开源了轻量版BioMedGPT1.6B,这是一个参数为16亿的生物医药领域轻量级科研版基础模型,具有跨模态与知识融合的特点,可以处理药物性质预测、自然语言类、跨模态等多种任务。
近日,上海人工智能研究院执行院长宋海涛表示,计划在生物制药、转化医学等领域,利用国产化训练框架推出国产大模型,打造具有自主知识产权和核心竞争力的人工智能技术。
中银证券研报中表示,AI医疗市场呈高增长态势,市场规模在2025年有望达385亿元,2020—2025年复合年均增长率达46%,其中AI制药是AI医疗领域的重要一环。
目前,AI技术在生物医药产业的核心优势在于提升效率,但在落地过程中仍遇到了一些挑战。
百度智能云相关人士认为,药物研发真实的高精度实验数据获取成本极高,且有实验的批次效应问题,公开的数据库有大量的无标注数据,如何利用好大量无标注数据和少量高精度数据,这就对模型构建提出了较高的要求。其次,生物领域的任务繁多且复杂,比如ADMET成药性预测任务,常用属性指标多达几十项,想要一个模型对几十项指标都预测准确,这对技术的泛化性和可迁移能力也有较高的要求。
同时,生物领域有其独特的领域特性,比如对同分异构体的理解、研究对象需要建模三维结构等,对算法研发人员提出了更高的要求。特别是像DeepMind团队所开发的Alphafold2之类计算量巨大的复杂的神经网络模型,更需要有强大的算力和框架技术的支持kk体育。
陈红阳也有类似观点,分子生成任务需要通过引入领域知识、结合强化学习和“湿”实验等来验证生成分子的有效性,而大模型在训练过程缺少领域知识,无法保证其可信性。模型训练部署以及相关“湿”实验的成本高企,药物研发依然面临流程长投入大的问题。