同一个基因组不同版本注释基因ID匹配

同一个物种的基因组有时候会有不同版本的基因注释，如何把同一个基因的不同id匹配到一起一直没有搞明白，我之前比较简单的做法是用两个蛋白做blast, 匹配长度在90%以上相似度也在90%以上并且在同一条染色体上，就看成是一个基因了。最近看到一个工具是get_pangenes。这个工具同时也考虑了基因的共线性关系，而且用起来也比较简单，一个命令就可以直接给出结果，使用非常方便

工具对应的论文

https://link.springer.com/article/10.1186/s13059-023-03071-z

GET_PANGENES: calling pangenes from plant genome alignments confirms presence-absence variation

工具对应的文档

https://github.com/Ensembl/plant-scripts/tree/master/pangenes

直接使用conda安装就可以

使用命令

get_pangenes.pl -d input.folder

input.folder下的文件内容

genomeA.fasta

genomeA.gff

genomeB.fasta

genomeB.gff

输出文件里 _genomeA.genomeB.algMmap.overlap0.5.id95.tsv

ortholog_collinear 类型的应该就是同一个基因

使用helixer注释基因组，与原版注释对比发现在有的位置上会出现在基因组A里是一个基因，在基因组B里有可能是两个基因，有的位置在基因组A里比较长，在基因组B里会比较短的情况 85%以上的基因都能够匹配上一对一的关系

欢迎大家关注我的公众号

小明的数据分析笔记本

阅读原文 >>

声明：来自小明的数据分析笔记本，仅代表创作者观点。链接：https://eyangzhen.com/8241.html

同一个基因组不同版本注释基因ID匹配

相关推荐