智能技术与生物技术,正在碰撞中萌生出激情的火花。
2020年,全球人民都在盼星星盼月亮,盼着早日出现一支好疫苗。在这个过程中,AI前所未有地参与到基因测序、疫苗研发、生物医药等活动中来。而从英国变异病毒,到印度、南非等国出现变异毒株愈发严重,越来越多的人开始意识到,疫苗研发速度如果跟不上病毒变异的脚步,全球防疫成果会直接受影响。以此为契机,支撑高效研发的生物计算,也就各国重点关注并投入的科技赛道之一。
AI对生物科学的影响,也获得了学界的普遍认可与应用。在 “首届中国生物计算大会” 上,著名结构生物学家施一公就从生命科学的角度,提出计算决定未来。
那么,到底什么是生物计算,为什么说它会对国计民生至关重要?中国的生物计算发展究竟如何,未来又需要哪些产业要素?
一首智能计算与生物技术相结合的产业协奏曲,已经在神州大地奏响,今天我们就化身一群最先“闻弦歌而知雅意”的人。
邂逅的偶然与必然:AI给生物计算带来了什么?
简单来说,生物计算指的是以生物大分子作为“数据”的计算模型。智能计算与生物技术的邂逅,似乎是疫情推动下的偶然事件,但如果我们将目光放得更长远,从生物研发的历史进程出发,会发现二者的结合其实是一场必然。
有一个少有人知道的故事是,25年前,当时还在华尔街做程序员的李彦宏,就对生物信息倍感兴趣,还收到了默克公司一个Bioinformatics(生物信息学)研究小组的offer。但受限于当时的生物数据量、成本、速度,计算的优势很难发挥出来。
而随着时间的推移,基因组学研究带来了人体数据增长、新药研发过程当中积累的知识增长、各类机器学习算法的喷涌。这三个关键指标的变化,决定了当今的生物研发要考虑的不是该不该用AI的问题,而是用得上、用得好的问题。
具体来说,生物计算能够在三个领域里面释放价值:
1.新药研发。
对于病患来说,药物就是生命。但长期以来,创新药的研发普遍存在流程复杂、投入产出比低、传统方法昂贵、耗时长等问题。传统制药研发平均周期都要10年左右,在当下生命科学信息指数级增加的背景下,更使得药物研发的复杂度不断攀升。
这种情况下,依靠机器学习来识别新颖药物、分析药物结构等,能够快速且低成本地完成蛋白质结构预测、药物筛选、分子生成、ADMET预测等工作,从而大大提升新药发现的效率,缩短新药研发周期,直接降低研究成本。不仅能够更快更广泛地造福患者群体,而且能够以技术为引擎,推动中国医药产业加速拥抱创新药的发展机遇。
2.疫苗设计。
新冠疫苗的研发让大家被科普了mRNA疫苗的强大。由于可在人体自身内生产抗原蛋白,制备速度快、无感染风险,mRNA疫苗也被MIT Technology Review评选为2021年“全球十大突破性技术”之一。
但是,一个蛋白质所对应的mRNA序列有多种可能,随着序列长度的增加,mRNA序列数量也会指数级增长,要设计出最稳定、蛋白质表达水平最高的mRNA序列并不容易。其中,AI的加入就至关重要了。
比如百度在疫情期间相继开源的LinearRNA系列算法,就利用AI算法和AI算力,在十数分钟内就能够计算设计出理论上的mRNA序列,让缓慢高成本的疫苗设计流程大大加速。
3.精准医疗。
新兴生物技术带来越来越细颗粒度的数据,也使得精准药物设计、个性化临床诊疗及用药等成为可能。试想一下,未来医疗服务可以精细到针对个体开发出个性化的靶向药物,在疾病极早期就能够进行综合分析诊断和精准治疗,真正实现“上医治未病”的理想,毫无疑问会大大提升人们的健康生活质量。
而要达到这一愿景的前提,或许就要将每个人的基因信息都提取出来,并进行分析挖掘处理计算,从而让数据能够有效应用到诊断当中,提供更适配的药物选择和治疗方案。在这个过程中,利用AI算法读懂数据必不可少。
说到这里,大家想必能够理解,为什么智能技术在今天必须与生物技术相结合,共同奏响生物计算的时代奏鸣曲,开启全人类的健康新篇章。
在这个领域当中,我们也看到了一批具有技术实力和社会责任感的科技巨头们,扮演起了扛旗者的角色。比如谷歌DeepMind团队研发的 AlphaFold 2算法,就曾震惊世人;中国AI公司百度,也在过去几年里成立了生物实验室、推出LinearRNA系列算法等。
站在生物计算兴起的关键节点,百度是如何思考与行动的,无疑是一次深入了解中国生物计算探索的契机。
选定基调,生物计算何以成为百度的新坐标?
在过去一年多的全球抗疫中,百度在生物计算领域交出了值得赞赏的答卷。
2020年疫情爆发伊始,百度研究院就立即宣布向各基因检测机构、防疫中心及全世界科学研究中心免费开放线性时间算法 LinearFold。公开数据显示,LinearFold将当时新型冠状病毒的全基因组二级结构预测从55分钟缩短至27秒,提速120倍。
随后数月里,百度又连续与中国疾病预防控制中心联合成立“”中国CDC应急技术中心-百度基因测序工作站”,后来北京新发地突发疫情,CDC工作站仅用10小时完成北京四个样本的全基因组测序。
2020年5月,百度又率先推出的全球首个 mRNA 疫苗基因序列设计算法 LinearDesign,大大提升疫苗设计的稳定性和蛋白质表达水平,助力疫苗研发;
2020年8月,百度研究院正式成立了生物计算实验室,期望通过人工智能和计算技术助力生物医疗发展。
凭借RNA 结构预测与序列设计相关成果,百度也因此在 2020 年全球人工智能峰会(AISummit)上,获得了 AI For Good(AI 向善)奖。
经此一疫,不仅AI参与基础生命科学研究的重要性进一步凸显,生物计算也得以进入百度业务发展的主基调。如果说AI技术是百度在智能时代的杀手锏,那么生物计算则是助力未来增长的新航道。
没有积累,创新就是无本之木,更不可能快速展现出从实验室到现实场景的技术贯穿力。这场百度战疫,就得益于百度在生物计算上的布局由来已久。
原来,早在2018年,百度研究院就开展了 RNA 结构预测和序列设计相关研究,并在2019年7月发表了前文中提到的 LinearFold算法。正是这些前期工作,让百度可以在疫情爆发初期就快速响应,并在两个月后就完成了mRNA 疫苗设计的革命性方法LinearDesign的研发。
此外,百度在生物计算上的快速反应,也离不开飞桨和百度智能云在AI基础设施上的积累与领先。
过去几年里,百度在底层计算硬件、深度学习框架、应用创新开发等领域都进行了全面部署与创新,其打造的 AI基础设施也得以成为百度助力产业智能化升级的底座。有了这些基础,才使得百度率先成为智能技术与生物技术相融合的桥梁。
疫情让全社会意识到了生物计算的重要性。接下来,吸引更多医药研发人员与开发者投入,才能真正推动产业共荣、造福社会。显然,百度也认可这一趋势,所以在2020年12月的Wave Summit深度学习开发者峰会上,正式发布了PaddleHelix螺旋桨生物计算平台,在生物计算领域中向前一步。
螺旋桨的蹄鸣:奏一支生物计算的交响
历史上有许多看似平常的一天,却发生了意义非凡的事件。比如1953年2月28日,沃森与克里克在一个酒吧里宣布,他们发现了生命的奥秘——DNA的双螺旋结构。
对于生物计算产业来说,百度生物计算平台螺旋桨PaddleHelix的诞生,同样是开创性的标志事件。它意味着有三个方面发生了变化:
首先,是研发模式发生变化。区别于传统的试管加电镜式的研发模式,基于百度⻜桨深度性能优化和百度智能云的算力支撑,数据和算力不再成为生物医药研发等的制约因素,开始能够被AI有效地发挥作用。
举个例子,传统药物研发中,需要合成大量的候选化合物来进行活性筛选,周期长且成功率低。而借助AI进行虚拟筛选,可以提前预测化学物的性质,从而加速研发流程。比如螺旋桨PaddleHelix 1.0新增的化合物预训练模型 ChemRL,就使用深度图神经网络GNN来设计自监督学习任务学习化合物分子表示,效果出色。在国际权威榜单Open Graph Benchmark图神经网络基准 (OGB)上HIV和PCBA两大数据集上,ChemRL拿下了双冠军。
其次,研发门槛前所未有地降低。
在医药领域,有标注的数据却十分稀少,这就让高质量的深度学习算法模型遭遇了瓶颈。百度螺旋桨PaddleHelix的创新在于,基于自身在NLP等AI相关领域的研发经验,提出了生物医药领域的预训练模型。先通过海量无标注数据的自监督学习,训练出一个预训练模型,相当于让AI先学好通识课程;再根据多任务学习,对预训练模型进行微调,能够实现“专业能力”的快速提升,即便是在有限高质量数据的情况下,也能保证模型效果,从而极大地扩展了AI应用于生物研发的场景,更好地辅助研究人员的工作。
另外,综合性研发人才的短缺状况得到缓解。
同时拥有AI算法设计能力与药物研发临床医学等专业背景的复合型人才,在今天是绝对的稀缺资源。人才培养无法一蹴而就,当下的研发进程也不容落后,这其中,螺旋桨PaddleHelix就延续了飞桨开源开放、零门槛AI的理念,将一系列生物计算的预训练模型与工具,包括RNA二级结构预测、大规模的分子预训练、药物-靶点相互作用、以及ADMET成药性预测等,覆盖新药研发和疫苗设计环节的核心能力。这些模型通过API接口,产业侧研究人员只需要几行简单的代码就能轻松调用,快速搭建计算任务,从而大大缓解了生物计算的“人才焦渴症”。
不难看到,螺旋桨PaddleHelix融合了百度多年在 AI 算力、算法上的积累,通过一整套工具、设施和服务,让更多医疗工作者和生物科研人员也能够灵活方便地应用AI,在药物研发、疫苗设计和精准医疗等场景中释放AI技术潜力。
接下来,百度还将前往更大的产业舞台去释放生物计算的潜能。
激昂乐章:百度的下一次大考
从技术成熟走向普适的行业生长,需要更大舞台、更多生态合作伙伴的协作。一条完整良性的生物科技产业链,才能源源不断地激发出创新力。
在这一点上,可以再一次看到百度的技术长期主义。与昔日成立研究院投身前瞻AI领域一样,百度也在不断加码生物计算的投入与布局。
尤其是在产业生态的支持上,“百图生科”(英文名称“BioMap”)正式成立,一方面为生命科学企业和科研用户提供工具和解决方案,深度参与或主导发起新型精准药物和精准诊断产品的研发,探索前沿生命科学的“无人区”。
另一方面,则聚焦于孵化中国的生物计算产业生态。与提供新的数据轴和新的数据分析、药物设计工具的初创企业与研究机构携手,构建开放的生物计算创新生态。前不久,百图生科宣布,将提供自身研发的核心生物计算引擎、海量自有数据、10亿元的资金补贴,与联盟伙伴共同打造国际领先的“免疫图谱”。通过凝聚计算产业、AI领域、生物行业等不同领域的力量,共同为人类的终极健康福祉打造一艘未来方舟。
无论人工智能还是生物计算,百度能够在每一次国家战略级科技竞速中抢占先机,这件事听起来难,做起来更难,可以总结为几个原因:
一是耐得苦寒的技术信仰。生物计算和AI一样,需要长时间投入来形成技术优势积累,而百度在研发领域的投入有目共睹。李彦宏曾表示,“在生命健康这个最关键的领域,哪怕投入再大、风险再高、周期再长,我们也要坚决地做。生命科学没有尽头,只有尽力”,百度在生物计算上持续投入的决心由此可见。
二是尊重技术的落地节奏。和很多人幻想中“AI一出大杀四方”的途径不同,技术落地也需要与产业需求、业务场景深入结合,百度在智能化进程中服务行业及企业的经验能够推动生物计算循序渐进、释放红利。
三是利他的生态品牌。建立生态必须要赢得合作伙伴的信任,除了强大的技术研发创新能力,还要有开源开放的平台价值、愿意承担社会责任的利他心态,才能吸引中国医药生物产业界来携手同行。
当技术、产业、生态等一个个门槛被跨越,生物计算的前景自然也水到渠成。生物技术与智能技术这支协奏曲,也将经久不息地绵延下去。