上海交大洪亮教授:AI 真要突破工程领域,一定要做到现有人类专家做不到的工程成果
与自然界相比,序列相似度全部低于 65%,最低的为 49%,换言之,研究团队对 700 多个氨基酸序列中的 300 多个进行了改造,其中有 23 个有活性,2/3 比野生活性高,最高的野生型达 8.6 倍。在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行微调,完成强化学习。洪教授强调,「假数据指非真实世界的数据,但有一定的可靠度,它可以是 AI 生成的
近日,上海交通大学 AI for Bioengineering 暑期学校完美落幕,百余名来自企业、研究机构、高校的行业专家、企业界代表及优秀青年学者共聚一堂,围绕 AI 在生物工程领域的应用展开了激烈的思维碰撞。
其中,上海交通大学自然科学研究 & 物理与天文学院 & 药学院特聘教授洪亮以「AI 走进生活和科学」为题,深入浅出地分享了 AI 在科学研究领域,特别是蛋白设计领域的应用,以及他对 AI for Science 未来发展的展望。
精华观点摘录:
-
真正做 AI for Science,并且实现落地的,一定是先把科学问题定义出来,然后再提出一个人工智能解决方案。
-
AI 能实现数百个氨基酸序列的改造,并且还保持较好的活性和较高的阳性率,在这类序列生成的任务上 AI 已经远远强于人类专家。
-
蛋白质工程领域的阴性数据是最多的,AI 能把阴性、阳性位点结合起来,扩大了蛋白质工程的想象空间,这超越了专业酶工程师的理性设计范畴,AI 基本上取代了物理计算这条老路。
-
人工智能要想突破一个工程领域,不是简单地打造科学家的助手,进行搜集文献等基础工作,而是要做到人类专家做不到的事情。
-
未来 3 年,在蛋白设计、药物研发、疾病诊断、新靶点发现、化学合成路径设计以及材料设计等领域,专业领域的通用人工智能将带来明确的范式变革,将过去依靠人脑零星试错的科学发现模式,转变为 AI 大模型自动化标准设计模式。
HyperAI超神经在不违原意的前提下,对洪亮教授的精彩分享进行了整理汇总,以下是演讲精华实录。
AI 文科生 vs. AI 理科生
洪亮教授从 AI 文科生和 AI 理科生两个角度,分别介绍了 AI 在生活 (AI for Life) 和科学研究 (AI for Science) 中的应用。
AI 文科生:生活中的私人助手
对于 AI 文科生,即 AI for Life ,洪亮教授认为当前的 AI 已经成为了大众生活中的私人助手,能够帮助人们减轻重复的、创造性及科学性不高的工作负担。其特点是可用于训练的数据规模已经很大,生成结果对精度要求不高,因此跨领域的泛化能力强,可以构建通用领域大模型。
随后,他通过 AI 文本生成、AI 图像生成、AI 视频生成等具体案例,结合当下爆火的大模型,形象生动地描述了 AI 在生活中的运用。
在 AI 文本生成方面,洪亮教授以情人节为妻子写诗为例,展示了 ChatGPT 的诗歌创作能力。同时他还分享了使用文心一言帮助上小学的儿子写检讨的例子,展现了文心一言的文本创作能力。
在 AI 图像生成方面,洪亮教授分别展示了百度文心一言、Adobe firefly 以及 Midjourney,基于同样的提示词所生成的不同效果,如下图所示。
在 AI 视频生成方面,洪亮教授展示了风靡一时的 Sora 在视频生成中的强大能力。他以 Sora 生成的一位时尚女士走在东京街头的视频为例,称赞了视频中所展示的一镜到底技术以及人物面部毛孔细节处理。
同时,他对于业内人士提出的「 Sora 是一个数据驱动的物理引擎」这一评价也表示认可,认为文生视频对抖音等平台上的内容创作者帮助颇深。
AI 理科生:解决一类科学问题的科学家
对于 AI 理科生,即 AI for Science 或 AI for Engineering,洪亮教授认为**「它是解决一类科学问题的科学家,本质上是要面向生物医药、材料化学、核物理等不同领域创造出一位科学家」。** 其核心难点是精度要求非常高,能用于训练的功能数据相对较少,只能构建专有 AI 模型。
为了帮助大家更好地理解 AI for Science 的应用,洪亮教授结合 AI for 生物/医药、AI for 材料/化学、AI for 可控核聚变等具体案例进行了深度剖析。
首先是 AI for 生物领域的案例。 洪亮教授表示,「蛋白质三维结构预测是 AI for Science 最重要的起点」。他介绍道,蛋白质结构预测困扰了科学家将近 50 年时间,「在 DeepMind 发布 AlphaFold 模型之前,科学家普遍认为,用 AI 预测蛋白质结构只是个游戏」。
从 AlphaFold 1 到 AlphaFold 3 ,AI 在蛋白质三维结构预测上大展身手,特别是 AlphaFold 3 的准确性对比过去许多专用工具,如蛋白质-配体相互作用、蛋白质-核酸相互作用、抗体-抗原预测,都有显著提高。
其次是 AI 药物设计的案例。 洪亮教授表示,AI 药物设计相对较难,因为该应用不仅要解决分子层面的问题,还要面临后续临床实验的挑战。如高通量筛选等传统的药物发现方法,测试数千种小分子,仅得到少量的先导化合物,其中仅有十分之一甚至更少的能通过临床试验。
2019 年发表在 Nature Biotechnology 上的研究成果揭示了 AI 在药物设计上的巨大潜力。研究人员使用强化学习 (GENTRL) 在 21 天内发现了盘状蛋白结构域受体 1 (DDR1) 的有效抑制剂,这是一种与纤维化疾病相关的激酶靶点。研究人员利用 AI 技术初筛出 3 万个分子,后又通过各种筛选方法进行了 39 个细胞实验,找到 6 个高细胞活性,最后推进 1 个进行临床实验。
此外,洪亮教授还列举了 AI for 材料/化学的案例。 他认为,「AI for 材料,特别是化学材料,是一个落地很难的事情」。 但材料不像自然语言、人类语言以及 DNA 序列,没有离散的 token,因为材料本质是一个三维结构的问题,在构建大模型时需要结合 DFT 计算、自动化实验以及 AI 递归推进合成特定无机化合物。如 DeepMind 材料团队在 2023 年推出了基于深度学习的材料探索图网络 (GNoME) ,A-Lab 实验室在测试任务中 17 天内成功合成了 58 种预测材料中的 41 种,这是过去 10 年甚至更长的时间才能办到的。
点击查看原文:领先人类 800 年?DeepMind 发布 GNoME,利用深度学习预测 220 万种新晶体
最后,洪亮教授列举了 AI for 可控核聚变等的案例,并表示这个方向的进步非常喜人。 他指出,现在核聚变的问题主要是等离子体极易「撕裂」,并且逃逸出用来约束它的强大磁场,进而造成聚变反应的中断。普林斯顿团队开发了一个 AI 控制器,能够提前 300 毫秒预测到等离子体的潜在撕裂风险并及时干预。
点击查看原文:提前 300 毫秒预测等离子体撕裂风险,普林斯顿大学发布 AI Controller
如下图所示,研究人员将传统基于物理的方法与先进的 AI 技术整合,改善对等离子体行为的控制和理解。下图 a 、b 、c 揭示了聚变反应堆中等离子体的状态。
图 a 中的黑色线条展示了随着外部温度提升(如中性粒子束)增加等离子体压力时,最终会达到一个稳定性限制。当超过这个限制时,会激发撕裂不稳定性。而一旦撕裂不稳定性被激发,等离子体将迅速被破坏,在实际操作中会导致严重后果,如图 b 和 c 所示。
基于深度神经网络和强化学习,研究人员开发了能够实时响应等离子体状态变化的智能控制系统,对等离子体未来状态进行预测,并相应调整控制动作,使得托卡马克操作遵循理想路径,在维持高压力的同时避免撕裂不稳定性。
最后,洪亮教授强调,「真正做 AI for Science 并且实现落地的,一定是先把科学问题定义出来,然后再提出一个人工智能解决方案」。
AI for Bioengineering:解决工程问题,实现多场景产品落地
随后,洪亮教授分别阐释了传统蛋白质工程的定义与挑战,AI 在蛋白质工程领域的应用,团队的研发成果及其落地,以及团队的核心优势,进一步揭示了 AI for Bioengineering 的价值。
蛋白质工程:突变蛋白质序列位点,实现产品应用需求
洪亮教授指出,蛋白质工程是指突变某个蛋白质序列中 5-20 个位点,优化其特定性质,实现其在工业、医药里的应用,从而成为产品。
他解释道,蛋白质既是生物体中重要的组成部分,也是人们日常生活中不可或缺的产品。而酶作为蛋白质分子,在工业场景中广泛应用,具有催化作用。例如,创新药领域的抗体 ADC 定点偶联酶、洗衣粉里的酶、饲料中帮助动物新陈代谢的酶添加剂以及在美容、食品和生物工程中的各种酶。
随后,洪亮教授介绍了当前蛋白质工程最主流的两种做法。
第一种是理性设计/半理性设计, 一般需要研究清楚蛋白质结构和催化机制,按机制进行改造。但理性设计的缺点是耗时长,需要改造的位点主要集中在活性口袋周围,设计的范围比较有限,思维范围也比较受限。
第二种是定向进化, 即打破人的思维范式,通过高通量筛选,在野生基础上进行高通量单位点随机突变,第一轮寻找最好的单位点突变体,第二轮在此基础上筛选最好的双位点,以此类推。其优势是不依赖于过往经验,「只需用钱就能进行」;缺点是需要构建高通量表型筛选方法,成本高,多轮筛选时间长,并且高通量筛选方法不通用,建立困难。
洪亮教授以 2016 年发表在 Nature 上的研究论文为例,介绍了关于绿色荧光蛋白的实验。他指出,在该实验中,高通量筛选虽然能选出阳性位点,并且当研究人员单独进行位点突变时,可以把该蛋白性质提高,但是如果将多个突变位点进行组合,合成蛋白质就会失去活性。
对此他表示,「如何在浩瀚的相空间里找到优秀的突变点位,并把它组合成优秀的多位点突变体,实现其应用价值,是当前蛋白质工程面临的挑战」。
蛋白质工程通用人工智能技术——端对端面向功能设计序列
「人工智能要想突破一个工程领域,不是简单地打造科学家的助手,进行搜集文献等基础工作,而是要做到人类专家做不到的事情」。 基于此,洪亮教授团队从 2021 年就开始探索蛋白质工程领域的专有模型,端对端地面向功能设计序列。
研究团队基于自然界所有已知的蛋白质组成了数亿条完整蛋白序列的数据库,并构建了蛋白质工程通用人工智能,基于该数据库学习氨基酸的排列方式与规律。
洪亮教授通过与上海科技大学刘佳老师合作提高 Crisper cas12a 的热稳定性,与金赛药业合作提高单域抗体的抗碱性,以及与瀚海新酶合作推出酶法创新等 5 个实践应用真实案例,对蛋白质工程通用人工智能技术的应用场景进行了详细讲解。
案例一:提高 Crisper cas12a 的热稳定性
该课题由洪亮教授团队和上海科技大学刘佳老师合作完成,Crisper cas12a 由 1,300 个氨基酸组成,野生型活性很好,但稳定性欠佳,作为体外诊断试剂盒无法常温使用、冷藏成本较高。针对于此,研究团队共进行了三轮实验。最终突变体稳定性达到持续上升状态,蛋白质活性不低于野生型的比率达到 100%。
洪亮教授介绍道,「蛋白质工程领域的阴性数据是最多的,AI 能把阴性、阳性位点结合起来,扩大了蛋白质工程的想象空间,这超越了专业酶工程师的理性设计范畴,AI 基本上取代了物理计算这条老路」。
他进一步介绍了 AI 如何将蛋白质阴性、阳性突变数据进行结合的底层逻辑,共分为三步。
第一步是建立蛋白质语言词表。 他将蛋白质序列信息进行预训练的过程比作完形填空题,即用一个模型把数亿条完整蛋白序列数据库中任何一条序列,进行连续或离散的随机遮挡,模型就可以把遮掉的地方给填回来。多轮重复此操作,确保一个模型能把数亿条蛋白序列都进行预训练,从而建立起蛋白质语言的词表。
第二步是打标签, 如温度、压强、PH,研究团队共打了数千万标签。
第三步为小样本学习, 即用少量湿实验数据进行微调,完成强化学习,从而解决生物工程中的小样本问题。
案例二:与金赛药业合作极度耐碱单域抗体的研发
洪亮教授指出,金赛药业往往通过从羊驼单域抗体库筛选单域抗体,并将其放到氢和柱上的方式,进行生长激素的纯化。但在纯化过程中,氢和柱不可避免地会被一些杂质污染,需要用强碱进行清洗,才能在下次纯化实验中继续使用。但生物体不耐强碱,存在被腐蚀的风险。因此,金赛药业希望提高单域抗体的耐碱性。
对此,研究团队将 Pro 系列大模型设计后的单域抗体,通过 0.5M NaOH 处理 24 小时,成功提高了单域抗体的耐碱性。 该项目设计的耐碱蛋白已经实现 5,000 L 放量生产,是目前用大模型做出来的第一款落地产业化的蛋白产品。
案例三:通过酶法创新,提高糖基转移酶的选择性、活性与产率
急性胰腺炎和唾液腺炎筛查的核心物料为麦芽七糖苷,结构非常复杂,化学生成的成本很高,在中国售价达到每公斤几十万元。针对于此,洪亮教授团队联合瀚海新酶共同推出了酶法创新,即用一个糖基转移酶来生产麦芽七糖苷。研究团队需要对 4 个指标进行提高,即增强转糖基反应,增强反应特异性,降低水解活性以及提高产量。
通过两轮改造实验,研究人员提高了 80 个突变体 BUG 指标 ,将总转糖基活力提高了 8 倍,目标产物纯度从 80 提高到 95,水解活力指标降低到 10,P3 产量提高了一倍。该产品已经在湖北宜昌落地千公斤级产能的产线,生产成本大幅下降。
案例四:单盲测试中,基于小样本学习的抗体亲和力测试
「 AI for Science 要解决小样本问题,仅发文章实际用处不大。」对此,洪亮教授通过与一家抗体药企合作完成的 demo 进行了深入阐述。
洪亮教授介绍道,这是一个全长 245 个氨基酸,涉及 21 个突变位点的 ScFv 抗体,其可能的突变序列超过了 1 千万个。然而合作方只提供了 33 条已知突变体亲和力数据,以及预测未知的 14 条全新序列亲和力数据。团队基于小样本学习,使单盲测试的相关系数达到了 0.65。
「无论生物医药还是合成生物学,最后实现落地还是要解决成本问题,也就是产率要高」。 洪亮教授介绍道,「团队的 AI 蛋白质设计大模型是向自然界学习,其推荐的突变体的产率不会太差。其中有不少都和野生型相当,甚至出现比野生型表达高的突变体」。
谈到人脑中的蛋白质设计与 AI 蛋白质设计大模型的区别,洪亮教授指出其关键区别是人类喜欢总结经验,但人类的经验一般比较低维,例如蛋白质提取序列、结构上的低维特征。这些特征虽然与蛋白质功能有相关性,但并不是决定后者的完备因素,在定量以及定性预测方面都很困难。而 AI 蛋白质设计大模型能够用高维特征描述蛋白质的序列和结构,对目标功能预测更准确、更定量、更快。
案例五:从头设计 (de novo) 蛋白质序列
为了进一步说明这个问题,洪亮教授分享了其课题组 Cell Discovery 的一篇成果。他表示,这是经报道的、通过从头设计 (de novo) 得到的最大的蛋白质序列,拥有 6 个结构域、 700 多个氨基酸的基因编辑酶。
而自然界已知的编辑酶 Argo 只有 600 多个,研究团队以此为模版生成了 27 个新序列。与自然界相比,序列相似度全部低于 65%,最低的为 49%,换言之,研究团队对 700 多个氨基酸序列中的 300 多个进行了改造,其中有 23 个有活性,2/3 比野生活性高,最高的野生型达 8.6 倍。
洪亮教授表示「 AI 蛋白质设计大模型能实现 300 个氨基酸序列的改造,并且还保持较好的活性和较高的阳性率,在这类序列生成的任务上 AI 已经远远强于人类专家」。
此外,洪亮教授还分享了他对人工智能的理解:「人工智能就是一个 y 到 x 的映射, x 是输入的特征, y 就是想要生成的结果,比如说蛋白质的稳定性、活性,人工智能现在就是在做一个高维的拟合。」
AI 蛋白质设计大模型,实现生产力的巨大提升
洪亮教授展示了团队构建的 AI 蛋白质设计大模型,并介绍道,「研究人员输入一条序列到内部软件,平台会将符合自然规律的 30 或 50 个序列挑选出来进行实验,随后进入小样本学习环节,即把 AI 模型微调到研究人员所需要的指标上,最后优势突变体就被制作出来了」。
值得一提的是,目前其团队中只有 2 位研究员主攻蛋白质设计,一位面向生物医药领域,一位面向合成生物领域,但团队同期运行的项目超过 40 个。这也印证了洪教授所言:「一旦 AI 具有突破底层工程的能力,将迸发出巨大的生产力」。
与诸多高校企业展开深度合作,具备三方面核心优势
除此之外,洪亮教授还为大家展示了团队的成果与核心优势。
在成果方面,团队与清华大学、上海科技大学免疫化学研究所等高校/科研院所,以及金赛药业、瀚海新酶、康宁杰瑞等企业进行了深度合作,在过去 1 年中成功改造了 20 款蛋白,成果颇丰。
在团队优势方面,洪亮教授表示,团队「在新数据、自主模型、产品率先落地三方面具有核心优势」。 首先,团队拥有显著大于公共数据集的蛋白质完整序列数据;其次,团队拥有自主模型、自建蛋白质词表、小样本学习方法以及序列 + 结构的预训练方法,实验精度、研究速度达到国际前列;最后,在全球范围内,团队率先实现了多款蛋白产品的落地应用。
AI for Science 展望:未来 3 年,实现 AI 大模型自动化标准设计模式
洪亮教授认为「未来 3 年,在蛋白设计、药物研发、疾病诊断、新靶点发现、化学合成路径设计以及材料设计等领域,专业领域的通用人工智能将带来明确的范式变革,将过去依靠人脑零星试错的科学发现模式,转变为 AI 大模型自动化标准设计模式」。
具体变革包括了构建零样本或者小样本学习方法,以及构建预训练技术模型, 在没有数据的情况下,则通过物理模拟器产生精度略低的大量假数据来做预训练,再用真实珍贵的数据进行微调,完成强化学习。洪教授强调,「假数据指非真实世界的数据,但有一定的可靠度,它可以是 AI 生成的,也可以是物理计算模拟得来进行数据增强,最后真实的湿实验数据最为宝贵,用于模型的最终微调」。
在本次分享的最后,洪亮教授再度对 AI 文科生 vs. AI 理科生进行了概括总结,他认为, AI 文科生本质上是人类生活工作的私人助手,例如 Kimi 、 ChatGPT 等,能够帮助人们减轻重复的创造性或者科学性不高的工作。它特点是数据大,精度要求低,能够大力出奇迹,跨领域泛化能力强,可以用来构建跨领域通用大模型,但它应该属于大厂,不适合高校科研院所。
而 AI 理科生要解决的是一类科学或者工程问题, 代替企业和科学院所科学家的研发大脑,做创造性高的事情,极大降本增效,甚至研发出之前科学经验无法实现的产品,高校和科研院所团队可以结合其特有的专业壁垒去探索相关领域的 AI 解决方案。
关于洪亮教授
洪亮教授本科就读于中国科学技术大学物理系,研究生就读于香港中文大学,研究方向为纳米材料的合成/表征,博士就读于美国阿克伦大学,主要研究方向为高分子/蛋白质的理化性质、动力学以及相变。
2010 年, 洪亮教授加入美国橡树岭国家实验室攻读博士后,重点研究计算生物学领域的蛋白质结构、动力学以及功能。2015 年, 洪亮教授作为独立 PI 加入上海交通大学从事分子生物物理研究。2020 年, 洪亮教授将 AI、计算、湿实验结合起来进行蛋白质设计研究。其从物理转入化学,又从化学做到生物,最后又从湿实验走到计算和人工智能,是典型的交叉学科研究背景。
历时 3 年,洪亮教授团队自主开发了「从序列到功能」的 AI 蛋白质通用人工智能 Pro 系列:从大模型的预训练,到底层词表探索,再到监督学习方法,打造了蛋白理化性质标签数据库,又在此基础上开发小样本微调方法,最终打通面向功能设计蛋白序列的人工智能解决方案。
相关成果请参看其课题组主页:
https://ins.sjtu.edu.cn/people/lhong/papers.html
截止目前,洪亮教授带领的研究团队与学术及产业伙伴,都展开了丰富且深入的交流合作,涉及生物医药、体外诊断、药物中间体、营养保健、食品饮料、美容护肤、洗涤纺织、生物能源、生物农业以及环境工程等多个领域。 在科研成果高产甚至堪称疯产的当下,他们仍秉持着「做可落地研究」的初心,身体力行、脚踏实地,把一个又一个的科研成果从实验室带到了生产线。
更多洪亮教授相关简介,可访问:
https://ins.sjtu.edu.cn/people/
更多推荐
所有评论(0)