人工智能应该怎样帮助做医学实验的我们

最近学习了一些人工智能在材料及交叉学科中的知识,和大家分享一下我的一些思考。

材料科学发展历程

2011年6月,第44任美国总统奥巴马在卡耐基·梅隆大学发表了以“先进制造业伙伴关系”为主题的演讲,并正式发布了美国的《先进制造伙伴关系计划》。作为该计划的一部分,“为强化全球竞争力的材料基因组行动规划”,也就是材料基因组计划正式启动。这一计划的推出,为后续新材料研发领域的技术探索和模式创新奠定了重要基础。这个阶段的主要特点是高通量计算、高通量实验以及数据挖掘。

2016年至2020年,进入了数据驱动新材料研发的阶段。2016年5月5日,《Nature》杂志将“利用机器学习算法,从失败或不成功的实验数据预测新材料的合成”一文放上封面。研究人员利用机器学习算法,基于失败实验数据预测新材料合成,并且在实验中,机器学习模型预测的准确率超过了经验丰富的化学家。这一成果充分展示了机器学习在材料研发领域的强大潜力,也使得这一阶段成为数据驱动新材料研发的关键时期。在这个阶段,材料成分设计、工艺优化、性能预测与提升、元素作用规律分析、构效关系挖掘等方面都借助数据驱动的方式取得了显著进展。

同年,我国工业和信息化部、科技部等部门联合发布了《新材料产业发展指南》。这份指南明确提出要加速新材料与信息技术的融合,突出大数据、数字仿真等技术在新材料研发设计中的作用。这一政策导向为国内新材料研发领域注入了新的活力,也为人工智能等技术在该领域的应用提供了政策支持。

2020年6月11日,OpenAI发布了GPT-3语言模型,这一事件成为了新的转折点。从2020年至今,我们进入了人工智能驱动新材料科研发的阶段。在这个阶段,智能计算、自主实验以及人工智能驱动生成式人工智能成为了重要的发展方向。 此外,研究人员还开发出了一种基于大型语言模型的智能系统Coscientist,该系统能自主设计、规划和执行复杂的化学实验,通过整合大型语言模型与实验自动化工具,推动化学研究向更高自主性发展。

正是在这样的背景下,我们看到了人工智能在新材料设计研发领域的作用日益凸显,研发模式也在发生着根本性的变革。过去十多年,人工智能在新材料设计研发里的作用越来越大,研发模式正在发生着根本性变革。

人工智能基本概念

首先介绍一下人工智能的相关概念

  1. 人工智能是指一类通过计算机程序模拟人类智能的技术和学科,其目标是让机器具备像人类一样的感知、推理、学习和决策能力。
  2. 机器学习 (Machine Learning,ML)是人工智能的一个子领域,它让计算机系统能够在没有明确编程的情况下从数据中学习,并自动改进其性能;简而言之,机器学习通过从历史数据中提取模式和规律,来进行预测或决策。
  3. 深度学习是机器学习的分支,通过多层神经网络(如卷积网络、循环网络等)模拟人脑神经分层结构,能自动从海量数据中学习抽象特征和复杂模式,无需人工手动设计特征。深度学习的核心优势:对数据的逐层抽象表征能力,广泛应用于图像识别、自然语言处理、语音识别等领域,推动了人工智能从感知到认知的发展。

按照训练样本提供的信息以及反馈方式的不同,将机器学习算法分为监督学习、无监督学习和强化学习。

类别核心特点典型应用场景
监督学习利用带有标签(Label)的训练数据,学习输入与输出的映射关系,实现对未知数据的预测分类、回归
无监督学习不依赖带标签数据,从无标签数据中发现潜在结构、模式或关系,由机器自主总结规律降维、聚类
强化学习聚焦智能体(Agent)与环境的互动,通过试错寻找最优策略,以最大化长期累计奖励机器人行走、游戏AI决策

深度学习领域的具体网络模型可分为 卷积神经网络、Transformer 神经网络、图神经网络,是深度学习实现不同任务的 “工具”。

网络模型类型核心思想典型应用优势
卷积神经网络(CNN)通过卷积层自动提取数据的局部特征,利用参数共享和权值复用减少模型参数量,特别适合处理具有网格结构的数据(如图像、音频、视频)。图像分类(如 ResNet、VGG)、目标检测(如 YOLO、Faster R-CNN)、语义分割(如 U-Net);音频处理(如语音识别);自然语言处理(如文本分类中的 TextCNN)对局部特征敏感,参数量少,训练效率高;适合处理具有平移不变性的数据(如图像中的物体无论出现在哪个位置,都能被识别)
Transformer 神经网络基于自注意力机制(Self-Attention),让模型能够关注输入序列中不同位置的关联,彻底抛弃了 CNN 和 RNN 的结构,特别适合处理序列数据(如文本、语音)。举例:翻译“她在巴黎学会了法语,现在能流利交流”时,会分析词与词的关联强度(如“巴黎”和“学会了法语”关联度高),翻译“学会了”时参考前后文避免歧义。自然语言处理(如 GPT、BERT、T5)、机器翻译(如 Transformer 模型);语音识别;图像生成(如 Vision Transformer, ViT)长距离依赖建模能力强,可并行计算(相比 RNN 更高效);可扩展性好,通过预训练 + 微调(如 GPT-4、Llama)在各种任务上取得 SOTA 效果
图神经网络(GNN)直接处理图结构数据(如社交网络、分子结构、知识图谱),通过节点间的消息传递(Message Passing)学习图的表示。社交网络分析(如用户推荐、社区发现);化学分子性质预测(如药物发现)、知识图谱推理;交通流量预测、蛋白质结构分析显式建模实体间的关系(边),处理非结构化数据;可迁移性强,同一模型可应用于不同大小和结构的图

Python应用实例

python基础知识:https://mp.weixin.qq.com/s/2l_9CHxJGGHWw0zXV34y1A

人工智能深度学习机器学习教程:https://github.com/TarrySingh/Artificial-Intelligence-Deep-Learning-Machine-Learning-Tutorials

Scikit-learn:Python 中经典的机器学习库,集成大量常用机器学习算法,如分类(决策树、支持向量机等 )、回归、聚类、降维等,还提供数据预处理、模型评估等工具,助力开发者快速实现机器学习任务流程。

PyTorch:深度学习框架,为构建和训练神经网络提供便利。支持动态计算图,灵活性高,在科研和工业界广泛应用,便于开发者实现深度学习模型,如计算机视觉、自然语言处理等领域的各类网络架构 。

举例

序号算法名称原理在新材料研发中的应用
1层次聚类是一种基于簇间相似度的聚类算法,通过计算不同类别数据点间的相似度,将相似度高的逐步合并,形成树形的聚类结构。聚类过程分为凝聚式(自底向上,从每个数据点作为一个单独的类开始,不断合并相似的类)和分裂式(自顶向下,从所有数据点都在一个类开始,逐步分裂成更小的类)两种方式在新材料研究中,可对具有相似XRD图谱(能提供材料结晶度、晶粒大小等信息)的材料进行聚类,通过这种方式发现了16种拥有优秀锂离子电导率的潜在固态电解质材料,极大加速了新材料的发现效率
2随机森林属于集成学习算法,通过构建多个决策树并将它们的预测结果进行组合(分类任务投票,回归任务取平均值)来提高模型的泛化能力和稳定性。构建决策树时,会对样本和特征进行随机抽样,使每个决策树有一定差异,从而降低模型方差,避免过拟合无机晶体材料微观层面由各种配位环境堆叠而成,原子的微观配位环境对材料宏观物理、化学属性有重要影响,利用随机森林算法可对无机晶体材料微观配位环境进行预测
3图神经网络(GNN)是一种直接在图结构数据上运行的神经网络,能处理具有复杂关系的数据(如社交网络、分子结构等)。通过节点之间的消息传递机制学习节点和图的表示,每个节点的特征会根据其相邻节点的特征进行更新,从而捕捉图中的结构信息和节点间的依赖关系将图神经网络与大型材料数据库相结合,除直接预测材料属性外,还可以训练出通用的经验力场。基于Atomly材料数据库,使用图神经网络架构构建开箱即用的预训练原子间势能模型GPTFF(Graph – based Pre – trained Transformer Force Field)
4图卷积神经网络(GCN)是图神经网络的一种变体,专门用于处理图结构数据的卷积运算(通过多个不同的卷积核对输入数据进行卷积运算,自动提取数据中的特征)。在图的拓扑结构上定义了卷积操作,通过聚合相邻节点的特征来更新当前节点的特征,从而学习到图的局部和全局结构信息,在节点分类、图分类等任务中表现出色2018年,Tian Xie等人首次将图卷积神经网络的概念引入材料科学领域,构建的图卷积神经网络直接使用材料的晶体结构作为输入特征,避免了繁琐的特征工程,能对材料的多方面属性做出精准的预测,如材料的形成能、绝对能量等

数据库介绍

  1. 世界级材料数据库:如The Materials Project、AFLOW、NIST等。The Materials Project(https://legacy.materialsproject.org/)还充当使用开源软件共享和分析数据的平台,包括高通量工作流、数据构建流程、数据可视化工具和社区代码等,这些都是材料数据处理和分析的关键技术支撑。
  2. 新材料大数据中心:我国也在2024年启动了国家新材料大数据中心的建设(https://www.matbd.cn/)以此来提高数据服务新材料产业发展的能力。
  3. BioMGE:一个用于采集和分析生物医用材料和多组学数据的数据库(http://mgehic.nmdms.ustb.edu.cn/#/)。但是目前数据量好像并不多。

材料基因数据库构建

某些领域可能没有公开的数据库,需要自己去构建数据。在数据管理方面需要注意的是 FAIR 原则。

F(可发现):意味着数据能够被容易地找到,方便用户发现所需数据。A(可访问):指数据应该是可获取的,用户能够以合适的方式访问到数据。I(可互操作):表示数据能够在不同的系统和平台之间进行交互和操作。R(可重用):即数据可以被多次使用,用于不同的研究或应用场景。

遵循 FAIR 原则有助于提高数据的可用性和价值,促进数据的有效利用和共享。

  1. 数据汇聚:把文献专利(文献、行业报告、专利等 )、多尺度模拟仿真、经验模型 / 机理模型、设计制备表征等数据,收集起来 。 跨平台传输与处理:这些数据得在不同平台间传输、处理,变成 “AI Ready” (能被人工智能利用 )的形式,存进材料基因数据库 ,还得让数据库做到高可用、结构化、集成化 。
  2. 数据处理与智能环节:一方面对材料基因编码,整理组分特征表,用机器学习算法等搞配方工艺性能的自动化训练、主动学习 ;另一方面基于数据库,训练材料大模型,做配方工艺推荐、感知用户需求,打造智能推荐智能体 。
  3. 支撑应用:最后用这些数据和智能能力,支撑材料正向 / 逆向设计,在组分、配比、结构设计,还有性能预测、工艺优化等应用层发挥作用 。

总结: 收集数据→处理存库→智能加工→支撑应用,充分利用材料研发相关数据,利用人工智能助力新材料开发。

目前,也有一些团队开发了集成式数据处理平台(https://www.matcloud.com.cn/)。该平台相当于一个材料建模工具、高性能计算集群,材料数据库、以及机器学习工具。可以进行结构建模、设计工作流、自动化开展模型训练等。

生物材料表面物理化学性质对生物响应的调控机制

接下来介绍人工智能在生物材料中的应用。首先需要了解的是:

  1. 生物材料表面的拓扑结构、硬度、功能基团、生物分子、离子、电荷及表面自由能等性质,通过调控分子与细胞信号通路(如整合素介导的黏附、细胞骨架重组、基因表达)影响生物响应。例如,拓扑结构可使细胞的形状发生改变,功能基团通过化学结合激活信号通路,表面自由能影响蛋白吸附构象。
  2. 修饰生物材料表面的多种化学策略及其在调控生物响应中的应用:生物正交化学(Bio-orthogonal chemistry)(在生物体系中能够进行的化学反应,这些反应不会与生物分子发生非特异性相互作用。)、光可诱导化学(Photoinducible chemistry)、杯芳烃化学(Calixarene chemistry)、点击化学(Click chemistry)。

生物材料的生物相容性(宿主响应)本质上由表面物理化学性质与体内生化信号通路的相互作用决定。当前研究常忽视化学在其中的桥梁作用(如材料表面功能基团的种类和含量难以量化)。材料表面物理化学特性(如功能基团、离子等 ),需借化学作用(如化学键合、化学信号传递 ),才能触发体内生化信号通路。

目前面临的关键问题:

  1. 表面拓扑、硬度、功能基团等性质如何调控细胞信号传导?
  2. 生物材料与周围微环境的相互作用机制尚不明确。
  3. 现有评价标准(如 ISO 10993)难以全面反映复杂生物响应。

利用深度学习辅助预测植入物成骨能力

传统方法局限:现有评估成骨能力的方法(如PCR、ALP染色、ARS染色)存在明显不足:耗时较长(其中ARS染色需21天)、效率低下,且在表面改性后性能差异大,难以实现标准化评估。

研究目的:开发一种基于早期细胞形态和深度学习的高通量筛选方法,以快速预测植入物表面的成骨能力。

一、数据来源与处理

  1. 数据来源:通过Web of Science检索关键词,筛选2006-2024年的108篇文献,提取钛及钛合金表面培养的BMSCs或MC3T3-E1细胞的早期形态图像(接种后3天内,以24小时为主)及7天ALP活性值(成骨分化标志物)。
  2. 标签定义:以纯钛表面细胞ALP活性为基准(设为1),改性表面ALP值与基准值的比值为相对值,据此划分两类:
    • Class 1:相对值<1.3或无统计学差异(p≥0.05),表示成骨能力弱;
    • Class 2:相对值≥1.3且p<0.05,表示成骨能力强。
  3. 预处理:通过归一化(转灰度图)、数据增强(旋转/翻转/裁剪)、去噪(高斯滤波)、边缘检测、缩放等步骤,将数据集扩充至11310张图像。

二、深度学习模型开发与评估

  1. 候选模型与迁移学习:选取8种经典模型(如AlexNet、DenseNet121等),基于ImageNet数据集(140万张图像)进行预训练,再通过迁移学习适配细胞图像分类任务。
  2. 评估方法:采用十折交叉验证(将数据集随机划分为10个等规模子集,每次用9个子集训练、1个子集验证,重复10次取平均值),通过损失曲线、准确率曲线及6项指标(准确率、特异性、precision、召回率、F1-score、AUC)评估模型性能。

三、模型筛选与整合

  1. 单模型筛选:在单一模型中,AlexNet和ShuffleNetV2性能最优,准确率分别为0.8500±0.0094和0.8360±0.0132。
  2. 模型整合:通过特征融合整合上述两模型,构建出OIODNet,其各项评估指标均超过0.98。

水凝胶在物理化学和生物反应方面的应用

    1. Cao H. et al. Signal Transduct Target Ther. 2021 Dec 16;6(1):426.
    2. Owh C. et al. Trends Biotechnol. 2023 Apr;41(4):476-479. 

水凝胶的理化性质(如刚度、降解性)通过调控细胞 – 基质相互作用和信号传导通路,最终决定细胞行为(如分化、迁移)和水凝胶的生物医学功能。例如: 刚度→整合素 clustering→FAK激活→YAP 核转位→干细胞成骨分化;孔隙大小→细胞迁移模式→RhoA 信号→肿瘤细胞侵袭;粘弹性→应力松弛→β1 整合素聚集→血管生成。

AI 引导抗菌肽水凝胶设计:精准治疗耐药菌感染

一、预训练模型构建

基于大量肽数据,利用UniProt数据集对AMP-GPT模型进行预训练,为后续抗菌肽生成搭建基础框架。使模型通过学习海量肽序列,掌握肽的基本特征(如氨基酸组成规律、序列结构模式等)和潜在模式。

  • 训练目标:训练目标设定为最小化负对数似然。这一目标的本质是让模型学会根据序列中前面的氨基酸,准确预测出下一个氨基酸的概率。通过最小化负对数似然,模型能不断优化对肽序列生成概率的估计,最终具备生成符合肽序列特征的能力,为后续针对抗菌肽的设计与优化奠定基础。

二、提示调优

采用APD3、CAMP、DBAASP、DBAMP和DRAMP等抗菌肽数据集,对预训练的AMP-GPT模型进行提示调优(PT,优化少量提示参数(Prompt Embeddings)),使其更贴合抗菌肽设计的特定需求。

三、知识蒸馏与强化学习优化

  1. 知识蒸馏:鉴于直接对AMP-GPT应用强化学习(RL)计算成本较高,通过知识蒸馏(KD)技术将其压缩为更高效的、基于循环神经网络(RNN)的学生模型AMP-Distillation,替代原始模型进行强化学习。
  2. 强化学习设计:在RL过程中,构建包含抗菌活性、针对大肠杆菌和金黄色葡萄球菌的归一化最小抑制浓度(nMIC)值,以及半胱氨酸残基要求的奖励函数,用于优化和筛选优质抗菌肽候选序列。

四、肽序列生成与筛选

  1. 生成方法:采用基于肽的自回归方法生成肽链字符串并拼接,生成过程中结合Marcel AMP分类器、针对大肠杆菌和金黄色葡萄球菌的MIC预测器,以及“肽序列含一个半胱氨酸残基”的要求提供奖励分数,引导优化方向。
  2. 筛选标准
    • 对生成肽进行物理化学性质分析;
    • 通过CAMP、AMP-Scanner和Macrel等AMP分类概率筛选,去除非AMP序列;
    • 保留仅含单个半胱氨酸的序列;
    • 依据平均预测MIC分数,选出排名前五的序列用于实验验证。

五、实验验证与确定

合成筛选出的5个肽,针对六种ESKAPE病原体(粪肠球菌、肺炎克雷伯菌、金黄色葡萄球菌、鲍曼不动杆菌、大肠杆菌、铜绿假单胞菌)进行体外抗菌活性测定,最终确定AK15为理想抗菌肽,其对多种耐药菌表现出高效抗菌活性。

人工智能在生物体内的应用:活体蛋白质精准调控

一、核心策略:CAGE-Proxᵛⁱᵛᵒ(活体近端笼蔽-脱笼策略)

CAGE-Proxᵛⁱᵛᵒ是一套实现活体内蛋白质“按需激活”的技术体系,核心机制为“遗传编码+化学脱笼”:

  • 遗传编码:通过基因工程在蛋白质的关键功能位点插入笼蔽型非天然氨基酸(ncAA,如TCOY、TCOC),使蛋白质因空间位阻暂时失活(Inactive)。
  • 化学脱笼:通过生物正交反应(如TCO与四嗪的逆电子需求Diels-Alder反应),用小分子(如Me₂Tz、Tz-3)触发笼蔽结构解离,蛋白质构象调整,功能恢复(Active)。

该策略打通了从分子设计到活体应用的全流程,实现蛋白质在活体内“听指令工作”。

二、关键技术:机器学习辅助的aaRS进化

氨基酰-tRNA合成酶(aaRS)是插入非天然氨基酸的核心工具,其进化依赖机器学习辅助设计:

  1. 特征提取:通过DeepMSA提取序列进化特征,结合AlphaFold2建模+RosettaLigand计算的结构-结合能特征(如CartDDG),构建输入特征向量。
  2. 模型训练:以实验测定的ncAA掺入效率(二进制标签:有效/无效)为目标,用AutoGluon训练模型,预测高潜力aaRS突变体。
  3. 实验验证:通过细胞实验(如GFP荧光检测)和质谱分析(验证ncAA掺入与脱笼的质量变化),筛选出能高效识别TCOY/TCOC的突变体(如PylRS-9’),形成“计算预测→实验反哺”的闭环。

最终,突变后的aaRS将TCOY/TCOC连接到tRNA,在核糖体作用下与mRNA结合,于终止密码子(UAA)处插入ncAA,生成含笼蔽氨基酸的失活蛋白。

三、功能激活原理:蛋白质脱笼机制

  1. 失活状态:在蛋白质的“近端功能位点”(如酶活性中心、毒素催化域附近)插入TCOY/TCOC,因空间位阻阻断功能(如酶无法结合底物、毒素无法 cleavage 靶蛋白)。
  2. 激活过程:注入小分子脱笼剂(如Me₂Tz),触发生物正交反应,笼蔽结构解离,蛋白质构象恢复,功能激活(如酶活性恢复、毒素启动杀伤作用)。

四、PPI调控机制:精准免疫治疗应用

通过调控蛋白质-蛋白质相互作用(PPI),实现抗体的“肿瘤原位激活”,降低系统性风险:

  • 失活状态:在抗体的关键结合界面(如抗CD3抗体与T细胞的结合位点)插入TCOY/TCOC,阻断抗体与靶标(如T细胞CD3、肿瘤细胞HER2)的相互作用,避免提前激活(如全身性T细胞活化)。
  • 激活过程:肿瘤部位注射脱笼剂,抗体构象开放,恢复PPI(如T细胞与肿瘤细胞衔接),实现“肿瘤原位激活”的免疫治疗,减少细胞因子风暴(CRS)风险。

五、实验验证:肿瘤模型中的功能验证

以EGFR⁺肿瘤模型(A431细胞)验证策略有效性:

  1. 实验设计
    • 腹腔注射EGF-PA/LF-TCOY(EGF-PA靶向EGFR⁺肿瘤,LF-TCOY为笼蔽型炭疽致死因子,TCOY使其失活),注射时间为Day 0、2、4…14(持续递送失活LF到肿瘤)。
    • 部分组在注射后1天,尾静脉注射Me₂Tz(脱笼剂),触发LF激活。
  2. 结果分析
    • PBS组:肿瘤持续快速增长,证明无干预时的自然进展。
    • EGF-PA/LF-TCOY组:肿瘤增长与PBS组接近,证明TCOY有效笼蔽LF,使其失活。
    • EGF-PA/LF-TCOY+Me₂Tz组:肿瘤几乎停止增长,证明脱笼后LF恢复活性,高效杀伤肿瘤。
    • EGF-PA/LF组(阳性对照):肿瘤增长缓慢,但对比可见“笼蔽+脱笼”策略的优势在于“可控激活”(通过调节脱笼剂剂量/时间精准控制活性)。

概念解释

  • 生物正交反应:在活细胞、活体等复杂生物体系中高效进行,且不干扰生理过程的化学反应(如荧光标记、脱笼反应)。
  • TCOY/TCOC:两类笼蔽型非天然氨基酸,分别基于酪氨酸和半胱氨酸改造,核心用于蛋白质功能的时空精准调控。
  • A431细胞系:人源表皮癌细胞系,因EGFR过表达持续激活下游信号通路(如RAS-MAPK、PI3K-AKT),表现为无限增殖、抗凋亡等恶性表型,是肿瘤研究的经典模型。

综上,CAGE-Proxᵛⁱᵛᵒ技术通过“遗传编码+化学脱笼”的协同,实现了蛋白质在活体内的时空精准调控,为基础研究和精准治疗(如肿瘤免疫治疗)提供了革新性工具。

利用人工智能设计内在无序区(IDR)结合蛋白

一、研究背景与挑战

内在无序蛋白(IDP)及内在无序区(IDR)在生物学中起关键作用(参与多种蛋白质相互作用、与细胞信号通路相关、与疾病发生发展相关等),但由于缺乏固定结构、序列变异性高,传统靶向方法(如抗体、库筛选)存在耗时、易降解等问题。开发一种能基于序列设计IDR结合蛋白的通用方法具有重要意义。

二、设计方法

(1)模板库构建

通过三步法生成可识别多样化IDR的模板库:

  • 支架生成:利用Rosetta设计重复蛋白支架(Rosetta Commons :https://rosettacommons.org/),包裹扩展肽构象,每个重复单元与肽段形成氢键及疏水作用,覆盖LK、RT等多种二肽重复序列。
  • 口袋特化:通过RFdiffusion优化结合口袋(系列教程:https://github.com/RosettaCommons),提高与特定靶序列的匹配度,将结合单元从4个扩展至5个以增强亲和力(如LK重复肽结合力达皮摩尔级)。
  • 口袋组装:重组不同来源的结合口袋,通过RFdiffusion连接形成刚性结构,最终生成1000个模板,覆盖多样序列和构象。
(2)线程化与优化
  • 线程化:识别IDR中低复杂度、低同源性的独特子序列(8-40个氨基酸),映射到模板库的肽骨架,通过局部构象重采样匹配最优结合模式。
  • 优化:采用三种扩散策略提升亲和力:
    • 单端扩散:仅优化结合蛋白结构;
    • 双端扩散:同时优化结合蛋白与靶肽;
    • 基序扩散:保留关键相互作用基序,优化其余区域。

三、实验结果

(1)结合性能
  • 针对18种合成肽和21种天然IDR(含GPCR配体、癌相关受体等),39/43靶标获得结合蛋白,平均测试22个设计/靶标。
  • 亲和力:34个靶标达100pM-100nM,包括高极性序列(如EF1,84%极性残基)。
靶标类型数量成功结合数平均亲和力范围
合成肽18189nM-180nM
天然IDR2121100pM-100nM
(2)特异性

全交叉结合实验(20×20矩阵)显示,设计蛋白仅与靶标紧密结合,无明显交叉反应(图5F)。

(3)结构验证
  • 晶体结构:dynorphin A与结合蛋白DYNA_1b7的复合物结构(3.15Å)与设计模型吻合,界面主链RMSD 1.2Å,关键氢键作用完整。
  • NMR验证:游离dynorphin A为无序态,结合后形成有序构象,与设计的扩展构象一致。

四、应用场景

  • 蛋白富集:设计的FAM21结合蛋白可从细胞裂解物中富集完整WASH复合物;PER2结合蛋白可富集内源性PER2。
  • 肿瘤靶向:MSLN结合蛋白(MSLN_1b1)特异性结合MSLN阳性HPAC细胞,不结合阴性MCF7细胞。
  • 信号拮抗:DYNA_2b2可抑制dynorphin A介导的KOR信号,IC50为50nM。

五、结论

该方法利用IDR的构象异质性,通过“模板库+线程化+扩散优化”实现高效设计,为IDR靶向提供了通用工具,可应用于 proteomics、靶向治疗等领域。

多肽预测器-抗肥胖药物开发

本文开发了Peptide Predictor计算工具(https://github.com/Svensson-Lab/pro-hormone-predictor),通过识别PCSK蛋白酶切割位点,从人类分泌蛋白中预测出2683种未表征的肽段,并筛选出一种12-mer的BRINP2相关肽(BRP)。BRP在小鼠和猪中展现出减少食物摄入、抗肥胖的作用,且无恶心等副作用,其亲和力达皮摩尔到纳摩尔级。机制上,BRP独立于GLP-1受体、瘦素和黑皮质素4受体等已知通路,通过激活下丘脑CREB-FOS信号通路发挥作用,为肥胖治疗提供了新靶点。

一、研究背景与挑战

肽激素在能量稳态调控中起关键作用,但由于低丰度、易降解,传统生化纯化或库筛选方法难以高效识别新活性肽。已知的食欲调节肽(如GLP-1)虽有效,但存在恶心等副作用,且多数依赖已知信号通路(如GLP1R),亟需开发新的识别工具和候选分子。

二、方法:Peptide Predictor的开发与应用

  1. 工具开发
    • 原理:基于PCSK家族蛋白酶(如PCSK1/3)的切割偏好(识别KR/RR/RK/KK位点),利用正则表达式(RegEx)从人类分泌蛋白中预测潜在肽段。
    • 结果:从2082种分泌蛋白中筛选出373种高切割密度前体蛋白,预测出2683种肽段,涵盖脑、肝等36种组织,其中22%的肽段长度在5-25氨基酸(与已知GPCR配体尺寸匹配)。
  2. 肽库筛选
    • 合成100种候选肽(5-25氨基酸,C端酰胺化),通过检测神经元细胞(NS-1)和胰岛细胞(INS1)的Fos基因表达(活性指标),筛选出BRP(THRILRRLFNLC),其可使Fos表达上调10倍以上。

三、BRP的发现与特性

  • 序列与来源:12个氨基酸(THRILRRLFNLC),由BRINP2蛋白经PCSK1切割生成(两侧为KK和KR位点),在人脑脊液中浓度为700 pM-3 nM。
  • 结构:AlphaFold预测为α-螺旋或线性构象,Leu8为关键活性位点(突变后失活)。

四、实验验证:BRP的体内外活性

模型处理剂量关键结果
小鼠( lean )5 mg/kg BRP3小时内食物摄入减少50%,20 mg/kg几乎完全抑制进食
小鼠(肥胖)5 mg/kg BRP14天治疗后体重降低4g,脂肪量减少,葡萄糖耐受性改善
猪(Yucatan)2 mg/kg BRP1小时内食物摄入减少50%,与利拉鲁肽效果相当,无焦虑行为
安全性验证5 mg/kg BRP无恶心(无高岭土摄入)、无条件性味觉厌恶,不影响运动、体温和胃排空

高岭土:一种无营养的黏土,动物在恶心时会异常摄入。用于异食癖测试

  • 药代动力学:血浆半衰期<10分钟,10 mg/kg剂量下峰值浓度达15-20 nM,可通过血脑屏障(脑内浓度为血浆的10%)。

五、作用机制

  1. 通路独立性
    • 不依赖已知食欲调节通路:在GLP1R拮抗剂存在时仍有效,在瘦素缺陷(ob/ob)和MC4R敲除小鼠中仍能减少食物摄入。
  2. 分子机制
    • 激活cAMP-PKA-CREB-FOS通路:BRP与Gαs偶联GPCR结合,升高cAMP水平,激活PKA,使CREB在Ser133磷酸化,最终诱导Fos表达。
    • 中枢作用:外周注射后激活下丘脑弓状核、背内侧核等区域的FOS阳性神经元,且不与POMC神经元共定位。

六、意义与展望

  • 提供了通用肽发现工具(Peptide Predictor),实现从序列到活性肽的高效筛选。
  • BRP作为新型抗肥胖肽,克服了传统药物的副作用(如恶心),且作用机制独特,为肥胖治疗提供新方向。

总结

人工智能在材料中的作用

  1. 加速材料研发:利用机器学习、深度学习分析海量数据,预测新材料性能、结构与相互作用,辅助设计和发现,如借模型推理未知材料性能,缩短研发周期。
  2. 优化制造与控制:优化材料制造流程,提升效率与质量,实现智能制造、自适应制造;还能模拟特殊环境(高温、高压等 )下材料性能,助力极端条件用材料研发。
  3. 性能与应用拓展:优化材料性能、开展多物理场建模;挖掘新应用领域、开发新产品,如设计仿生、量子、功能材料等。

对我们的意义

  1. 推动科技突破:加速新材料诞生,为芯片、能源、医疗等领域提供支撑,如新型电池材料助力能源革命,仿生材料赋能生物医学。
  2. 降低成本与资源消耗:通过智能设计、优化流程,开发低成本、高性能材料,减少研发试错成本;全周期评估推动可持续生产,节约资源。
  3. 构建创新生态:促进材料科学社区知识共享、跨领域协作,催生“AI+材料”复合型人才需求,推动学科交叉融合与行业创新发展 。

启发:形成知识资产

提问:有什么是AI能做,我们不能做的?能不能利用人工智能做出一些极具原创性的方向?

声明:来自繁尘的bio小本本,仅代表创作者观点。链接:https://eyangzhen.com/1713.html

繁尘的bio小本本的头像繁尘的bio小本本

相关推荐

关注我们
关注我们
购买服务
购买服务
返回顶部