在最近发表于《自然通讯》杂志的一篇论文中,化学研究所 HUN-REN-ELTE 蛋白质建模研究组为一种数学方法奠定了基础,该方法允许计算机辅助比较蛋白质的三维结构。该方法的独特之处在于,虽然迄今为止可用的替代方法仅考虑了原子的位置,但这种称为 LoCoHD(局部组成海林格距离)的新技术还包括原子的化学信息。
蛋白质是分子机器,可执行细胞运作所必需的过程,充当分子开关,转录 DNA 信息,运输小分子和大分子并调节代谢相关的化学反应。然而,要使所有这些成功,所讨论的蛋白质必须具有正确的空间构象,即其自身正确的 3D 排列。有几种实验方法(X 射线晶体学、核磁共振波谱、低温电子显微镜)可用于确定蛋白质中原子的排列,在过去的几十年里,蛋白质研究人员已经发现了近 220,000 种蛋白质的形状。这些结果越来越要求开发能够分析这些排列的计算方法。
其中一种方法是名为LoCoHD的算法,该算法由ELTE Hevesy György 化学学院的博士生和András Perczel 博士研究小组 的研究员 Zsolt Fazekas开发 。该算法根据蛋白质中氨基酸的化学性质(例如元素组成、电荷、疏水性等)比较它们周围的局部环境。该方法以 0 到 1 的简单尺度确定所讨论结构之间的差异。接近于 0 的值表示原子排列和化学性质之间高度相似,而接近于 1 的值表示被比较的蛋白质可能具有非常不同的性质。因此,可以使用得到的数值(所谓的度量)来获取有关所研究系统的新信息。
该算法使用多步骤协议来生成表示结构差异的数字。在第一步中,它将蛋白质中的真实原子转换为所谓的原始原子。这些原子可以表示为虚拟标记的位置,其标签表明原始原子的化学性质。因此,例如,原始原子可以是“带正电的氮”、“带负电的氧”、“中性氧”、“芳香碳”等。标签是根据所谓的原始类型方案生成的,该方案以表格形式告诉我们如何将真实原子转换为原始原子。用户可以自由指定此表,固定方法的化学分辨率。第二步是通过选择原始原子的子集来确定比较的参考点。这些选定的特殊原始原子称为锚原子。对于每个选定的锚原子对,算法都会执行比较步骤,其结果给出我们想要的差异度量。这些数字可以在局部级别使用,也可以平均为表征整个蛋白质的单个描述符。
在这项研究中,研究人员发表在著名期刊《自然通讯》上,他们强调,该方法也可用于两年一度的蛋白质结构预测关键评估 (CASP) 竞赛,这是蛋白质研究领域的一项著名竞赛。在此次赛事中,参赛者使用不同的算法来模拟尚未公布结构的蛋白质形状。CASP 评委使用多种结构比较方法来评估参赛者,但这些方法都没有考虑到局部氨基酸环境的化学性质。研究人员利用 2020 年 CASP14 竞赛的数据,对几种建模蛋白质进行了比较分析,包括基于人工智能的 AlphaFold2 方法预测的结构。其中,他们重点介绍了一种名为 ORF8 的 SARS-CoV-2 病毒蛋白质的分析。在该蛋白质的建模结构中,发现氨基酸环境在相互作用模式上与实验结构中的环境有显著不同。
除了研究静态结构外,研究人员还测试了该方法是否适用于分析蛋白质的内部运动。他们使用了能够重现分子运动的模拟和从结构集合中提取的数据。正在研究的系统之一是足蛋白,它在肾脏中发挥着重要作用,其突变会导致严重的、通常是致命的疾病。LoCoHD 方法用于识别蛋白质中在足蛋白运动过程中发生重大化学环境变化的氨基酸,这些变化会影响其结构和功能。同样,LoCoHD 方法已成功应用于 HIV-1 衣壳蛋白的研究,其中已鉴定出一种对病毒包膜形成至关重要的氨基酸。