kk体育【环球网科技报道 记者 林梦雪】“工业生物(工业菌种)相当于IT领域的芯片,是实现串联整个生物技术最关键的核心,所以要设计好工业生物,非常需要IT技术的支撑。”近日,在中国科学院天津工业生物技术研究所(简称“天津工业生物所”)与亚马逊云科技联合举办的媒体沟通会上,中国科学院天津工业生物技术研究所副所长王钦宏说道。
他提到,“生物催化剂要被设计出来,需要强大的生物设计体系来支撑。要怎么去设计以提升工业生物的能力,怎么通过计算能力在数据处理分析上支撑设计,是合成生物学发展的一个壁垒。”
2019年,天津工业生物所成立生物设计中心平台实验室,并围绕生物计算设计,开始与亚马逊云科技共同探索生物技术和信息技术相结合(BT+IT)技术体系,以进一步推动合成生物学发展。
当生物技术遇到信息技术,释放出产业创新更多的可能性。据介绍,通过与亚马逊云科技的合作,天津工业生物所在核心图数据库、kk体育专业应用工具设计两大研发方向上取得了突破,推出了首个基于图数据库的大肠杆菌调控代谢关系知识图谱ERMer,以及全流程高通量编辑序列设计云平台AutoESD等多项生物计算设计网站工具。
细胞中的代谢调控非常复杂,一个特定的细胞功能往往由一系列不同类型的代谢途径调控相互作用决定。通常不同类型的调控数据散落在各个不同的数据库,kk体育生物学家很难通过仅关注与所研究的代谢物/蛋白质密切相关的一两类相互作用来识别这种复杂调控级联关系。
因此,将这些不同类型的调控相互作用汇集在一起,并提供方便的交互方式,将极大的方便生物学家挖掘和理解生物体内的复杂调控关系。天津工业生物所生物设计中心团队联合亚马逊云科技团队在计算生物学国际期刊Nucleic Acids Research(《核酸研究》)上发表文章,发布了首个基于图数据库Amazon Neptune的大肠杆菌调控代谢关系知识图谱ERMer。
Amazon Neptune图数据库一方面可以将所有的复杂的高度关联的数据存储在图数据库里面,通过优化的图查询的语句来解决复杂的多步查询、最短路径检索等问题。另一方面使用Amazon Neptune ML这种高度封装的图深度学习的框架服务,实现在低代码或者无代码情况下生成机器学习模型,最终实现了长达20步的复杂检索,并且实现了可视化。
据悉,ERMer采用专门为高度关联的复杂数据集的高效存储和查询设计图数据库架构,这打破了传统的低效数据检索方式,有效增强用户和图谱的人机交互,大大降低了使用门槛。
中国科学院天津工业生物技术研究所生物设计中心副主任廖小平表示,“针对大肠杆菌这个应用场景,我们开发了首个工业微生物领域的知识图谱。并且我们所有的技术逻辑,包括构建框架等是通用的,数据类型可以进行更多的扩展,场景也可以拓展。”
为充分发挥知识图谱的价值,生物设计中心团队还进一步采用基于图神经网络技术进行推理,成功实现了转录因子预测和转录因子靶点预测等功能,这将有助于挖掘潜在的关键调控因子和调控靶点,为研究人员提供新的思路和方向。
模块化、标准化,是工程学科的基础,kk体育也是合成生物学区别于传统发酵行业的革命。工程学的可控性,意味着其将能够与各种软硬件进行结合,从而走向自动化与高通量,摆脱过往劳动密集型的研究模式,获得更高的技术迭代能力。
廖小平表示,“对于这个过程,除了针对元件工具以外,将合成生物学的相关实验流程进行模块化、kk体育标准化,也是自动化研究当中不可或缺的一环。”
面向微生物遗传操作,天津工业生物所生物设计中心团队开发了第一个能够在所有操作类型、任何基因组位点和跨物种上进行精确、自动化和高通量编辑序列设计的云平台AutoESD。AutoESD 的开发采用了基于云端的无服务器架构,确保了高可靠性、稳健性和可扩展性,能够在几分钟内并行处理包含上千个编辑序列设计目标的数百个设计任务。
据介绍,开发人员利用Amazon Step Functions实现可视化的工作流管理,kk体育实现了编辑序列设计工作流的串联,从而实现应用的快速构建和更新,同时快速查询处理异常任务;利用Amazon Lambda将不同的引物设计、同源臂设计等编辑序列设计模块封装打包,满足了具体功能的模块化开发要求,并方便地对功能模块进行管理和共享;利用Amazon DynamoDB提供毫秒级的动态资源响应性能,并自动扩展所需资源以应对增加的业务需求。
“这些Serverless服务帮助天津工业生物所团队进一步简化运维,使得开发人员可以专注于业务代码和创新,与传统开发方式相比,开发时间缩短了75%,总体拥有成本降低50%。”廖小平说道。
天津工业生物所生物设计中心主任马红武表示:“中国科学院天津工业生物技术研究所正在加速利用云计算推动相关技术的研发和成果落地。亚马逊云科技提供的图数据库和Serverless服务,突破传统的开发模式、提升研发效率、不断优化云上成本,生物技术和信息技术相结合的技术体系将进一步推动合成生物领域的发展和创新。”
马红武认为,当前AI正在步入2.0时代,因此希望与亚马逊云科技的合作也进入2.0时代。“我们要把AI大模型、图数据库、知识图谱和我们的工业生物大数据结合在一起,再提高我们的合作水平。”
廖小平也表示,生成式AI对各个行业领域的冲击较大,对生物计算设计同样如此。“我们发现借助大语言模型,可以提升目前预测的效果。从前年开始我们布局去做机器学习和推理的任务,今年上半年开始去做大语言模型,我们希望用另外一种方式来推动我们研发方式的转变,从而撬动研发的新范式。”
未来,天津工业生物所团队希望基于亚马逊云科技先进的服务技术和能力,开展更多“BT+IT”的研发工作,进一步助力生物计算设计领域的科研探索。此外,也期望通过亚马逊云科技的全球科研领域辐射能力,提升天津工业生物所生物计算设计方面的国际影响力,为世界各国的合成生物学科研工作者提供优质服务。