越来越多的证据表明,预测circRNA与RBP结合位点的相互作用对于诊断疾病和提供治疗疾病的潜在靶点至关重要。许多研究利用深度学习方法根据circRNA与每个RBP的序列信息预测circRNA-RBP的结合位点。然而,以前的研究大多只提取序列特征,缺乏从包含丰富空间信息的二级结构中挖掘必要的拓扑信息。
为了解决这些问题,张文领导的研究团队 于2024年4月15日在 高等教育出版社和施普林格·自然联合出版的《计算机科学前沿》上发表了他们的 新研究成果。
该团队提出了一种名为 DeepCRBP 的新型深度特征学习方法,用于学习 circRNA 的表示,以便更好地预测 circRNA-RBP 的结合位点。DeepCRBP 由空间编码模块和序列编码模块组成,分别用于捕获 circRNA 序列中的局部和全局上下文特征以获得丰富的语义和高辨别力,并协同构建分子图来表示 circRNA 的二级结构以获得必要的拓扑信息。DeepCRBP 的性能优于几种最先进的基线方法。
DeepCRBP由空间编码模块、序列编码模块和预测模块组成。在空间编码模块中,将circRNA序列转换为分子图,然后利用GCN来捕获突出的结构信息。在序列编码模块中,DeepCRBP利用多种序列编码策略分别获得具有局部模式的短期依赖信息和具有全局模式的长期依赖信息。在预测模块中,将从上述模块中提取的表示连接起来并输入到2层MLP中以预测circRNA-RBP的结合位点。
未来的工作可以集中于将DeepCRBP应用于lncRNA或其他RNA结合位点的识别并开发通用预测软件。