长非编码RNA(lncRNA)的发现和表征是过去几十年分子生物学领域的重大进展。已有研究成果表明,lncRNA在发育、肿瘤等多种生理和疾病过程中发挥调控作用1-3,但目前绝大多数lncRNA 的功能仍然未知。通过鉴定不同物种间同源的lncRNA,可以筛选出在进化过程中保守的lncRNA,这些lncRNA也更可能具备重要的功能。但是,由于lncRNA的序列保守性较低4,5,传统的序列比对方式只能鉴定出极少的不同物种间同源的lncRNA。例如,在斑马鱼和人类上万的lncRNA基因中,通过序列比对只能找到几十个序列保守的同源lncRNA。因此,不管是从lncRNA的理论还是技术方面考虑,目前都亟需一种新的方法来鉴定不同物种之间的同源lncRNA。
2024年1月9日,清华大学张强锋、北京大学汪阳明、席建忠研究团队合作在《自然×遗传》(Nature genetics)杂志上发表题为“计算预测和实验验证鉴定人类和斑马鱼之间功能保守的长非编码RNA”(Computational prediction and experimental validation identify functionally conserved lncRNAs from zebrafish to human)的研究论文。该工作开发了一套新的计算流程,在包括人类、小鼠、斑马鱼在内的8种脊椎动物中,鉴定保守的同源lncRNA,工作同时开发了基于CRISPR的基因敲除和回补筛选系统,通过实验验证了所鉴定的同源lncRNA在不同物种中的保守功能,为该领域的研究提供了新的思路。
该团队开发了一套鉴定不同物种之间同源lncRNA的计算方法(lncHOME)。lncHOME计算方法通过比较基因组和机器学习的人工智能方法,在8种脊椎动物中鉴定出了一类在不同物种中具有保守基因组位置及保守RNA结合蛋白(RBP)结合位点模式的lncRNA(图1)。这些不同物种中潜在同源的lncRNA被命名为coPARSE-lncRNA (lncRNA with conserved genomic locations and patterns of RNA binding protein (RBP) binding sites)。