北理工团队合作基于迁移学习生成物种特异性启动子方面取得重要进展


近日,北京理工大学霍毅欣教授与郭淑元教授团队在基于生成式机器学习生成物种特异性启动子方面取得重要进展。相关研究成果以“Species-specific design of artificial promoters by transfer-learning based generative deep-learning model”为题发表在顶级期刊《Nucleic Acids Research》(影响因子:14.9)。该工作以北京理工大学为第一通讯单位,博士生夏燕为第一作者,霍毅欣教授与郭淑元教授为共同通讯作者。

启动子是在转录水平上调节基因表达的关键元件,能够启动基因转录、调节基因表达,并影响代谢途径中的代谢流分布。尽管天然启动子已被用于基因调控,但其缺乏连续的调控强度和广泛的调控范围。目前,深度学习在蛋白质设计、调控元件生成等领域已经取得了一定的进展,但是在数据集缺乏的条件下还不能生成质量较高的调控元件。为了解决原核生物启动子数据量不足的问题,我们基于迁移学习的策略,开发了一系列核苷酸语言模型 PromoGen,用于在数据缺乏的条件下从头生成物种特异性的启动子(图1)。

8ba7d169a78f48c790b2c31921a657a9.png

图1 基于核苷酸语言模型的启动子设计架构

通过位置权重矩阵、6聚体频率相关性和 -10 区域分布分别对 B. subtilis 的PromoGen-bsu模型生成启动子的能力进行分析。并对PromoGen-bsu生成的启动子进行湿实验验证,结果表明72.7%的生成启动子的活性高于天然启动子PlepA的启动活性的三倍,18%的启动子与天然强启动子活性水平相当(图2)。

066082c82921458f93baec2459598782.png

图2 生成启动子在枯草芽胞杆菌中的活性验证

为了证明迁移学习策略的有效性,分别使用27个物种的启动子的数据,在PromoGen-pre上对其进行微调,得到了27个物种的生成模型。并对所有的模型进行预训练和微调性能评估,微调后的32%的模型相关性超过0.8。此外,我们开发了一个在线平台(https://promogen1.cloudmol.org/),该平台针对27种原核生物提供了微调后模型来从头生成启动子(图3)。

8ea72d900edc49339d65bcfb444465e9.png

图3 网络服务器示意图

此项工作得到了国家重点研发计划(Grant No. 2021YFC2100500),国家自然科学基金委(Grant No. 32370095, 32371489, 62325202)和唐山市科技计划(Grant No. 23130228E)基金的支持。


分享到: