过去的一年里,全球核酸药物研发和产业化驶入快车道,基因编辑疗法在欧美创新药市场的商业化落地也预示着基因治疗再一次步入全新的起点。随着生物医学进入精准医学时代,我国在大数据分析、组学研究等领域已具备一定优势,但从引领“解码”生命构造到率先“征服”疾病,仍面临临床转化能力不足的瓶颈问题。
“精准医学研究的基础是生物医学大数据,而大数据的‘解码’需要既精通生物遗传学又精通人工智能、大数据等信息技术的复合型人才。”中国科学院院士、北京翊博生物集团首席科学家陈润生在接受第一财经专访时如是说。
近日,教育部表态要新设5个新医学类相关专业,其中就包括生物医药数据科学。作为国内第一位讲述生物信息学课程的老师,陈润生表示,而今,数学、计算机和生命科学领域的交叉人才培养已经被我国提上了一个新的高度。
陈润生认为,随着ChatGPT为代表的人工智能技术进步,生物信息学有望取得变革性突破,但同时也为复合型人才培养提出了更高的要求。真正能够推动生命科学进步的复合型人才,不是简单的学术跨界,而是经过系统性培养后,在生物学和信息学领域都处于行业拔尖水平的科学家。与此同时,他们还要具备临床医学素养和转化思维,可以将新的疾病研究信息和未满足的临床需求结合起来,切实推动新医药研发。
大模型时代,生物信息学进入“快车道”
上世纪90年代,中国参与到后来被称为“二十世纪三大科学计划”之一的人类基因组计划,承担了其中1%的任务。其间,陈润生发现解析人类的遗传密码需要运用信息学手段对基因组数据进行一系列的加工和分析,是一个多学科高度交叉的全新领域,于是,他率先在中国科学院研究生院(中国科学院大学的前身)开设生物信息学课程。
生物信息学是结合生物学、计算机科学和信息技术来分析和解释生物数据的跨学科的领域。当陈润生团队开展生物信息学研究时,该学科在国内外还非常冷门。但三十多年来,生物医学大数据研究已为多种难治性和常见性疾病的诊断与治疗带来许多新技术、新方法,如基因诊断、基因治疗、靶向药物等。
在陈润生看来,至少从几十年前人类启动基因组计划开始,生物学研究就进入大数据时代。但对于如何才能充分解析生物大数据,人类社会在近些年才交出一份较为满意的答卷——以大模型为代表的生成式人工智能。
陈润生认为,大模型的出现,为数据“解码”提供了一个可靠而高效的平台。
如果要用一种通俗易懂的方式去描述大模型如何运作,陈润生认为可以将其视为“为组学数据研究搭建了一个复杂的神经网络”。
同理,在大模型这个神经网络中,研究人员可以先通过一遍遍输入基因组学数据,让大模型一次次接收并改变数据间连接的参数。等大模型学习到一定次数后,会自发形成“系统收敛”,即实现知识存储。接下来,大模型再学习转录组数据,在大模型中将这两种组学数据进行融合训练,继而大模型就拥有了基因组数据和转录组数据相互作用的能力。推而广之,大模型可以实现“多模态融合”。
“自然语言处理能力和多模态融合,是大模型真正区别于此前AI技术的关键。”陈润生说,过去,基于单模态处理能力,AI技术在生物学领域已具备结构预测的优势。比如,AlphaFold2可以很好地预测蛋白质的结构,预测精度达到了实验的90%以上,也说明这种技术是可用的。
随着大模型出现,在陈润生看来,通过多模态分析,以整体方式探究生物系统的相互连接,进一步增进了人类对细胞途径、疾病机制和遗传变异的理解,推动了精准医学的发展。“精准医学研究已成为新一轮国家科技竞争的战略制高点,而其基础就是生物医学大数据。”
伴随精准医学研究的国际角逐愈演愈烈,大模型在全球引发“百模大战”,陈润生认为,首先应该明确的是,尽管人工智能具备预学习和多模态处理能力,但并不意味着可以解放对复合型人才的需求,相反对于生物信息学人才要求更高了;而聚焦到我国生物医学的发展问题,目前,在大模型的“量”上跑赢了,但在“质”上还落后于全球领先水平;在生物医学的基础研究中处于领先水平,但临床转化能力还存在明显短板。
陈润生进一步分析,前者是因为缺少既懂AI又懂理论生物学的复合型人才组成的研发团队,后者是因为大学、科研院所等从事基础科研的场所,往往缺乏内部转化的接口和外部转化的生态链。
推动临床转化的下一步
陈润生认为,尽管做学术跨界的科研人员越来越多,但他们难以真正取代复合型人才。再进一步来说,如果没有复合型人才构成的研发团队,只是通过科技企业和生物医药企业合作的方式,进行大模型在生物医药领域应用开拓,其沟通效率和实际产品的“垂直应用”能力均会大打折扣。
“如果做网络的人不知道什么时候机器将知识学好了,做(生物分子)结构的人不知道提供这些知识用来干什么,双方连对对方团队描述的很多东西都听不懂,如何合作?如果是这样的团队搭建的医学大模型,即便数量再多,也难以真正及实际科研之需。”陈润生抛出了这一观点。
在他看来,真正的复合型人才需要“根基扎实”,