同一个基因组不同版本注释基因ID匹配

同一个物种的基因组有时候会有不同版本的基因注释,如何把同一个基因的不同id匹配到一起一直没有搞明白,我之前比较简单的做法是用两个蛋白做blast, 匹配长度在90%以上 相似度也在90%以上 并且在同一条染色体上,就看成是一个基因了。最近看到一个工具是get_pangenes。这个工具同时也考虑了基因的共线性关系,而且用起来也比较简单,一个命令就可以直接给出结果,使用非常方便

工具对应的论文

https://link.springer.com/article/10.1186/s13059-023-03071-z

GET_PANGENES: calling pangenes from plant genome alignments confirms presence-absence variation

工具对应的文档

https://github.com/Ensembl/plant-scripts/tree/master/pangenes

直接使用conda安装就可以

使用命令

get_pangenes.pl -d input.folder 

input.folder下的文件内容

genomeA.fasta

genomeA.gff

genomeB.fasta

genomeB.gff

输出文件里 _genomeA.genomeB.algMmap.overlap0.5.id95.tsv

ortholog_collinear 类型的应该就是同一个基因

使用helixer注释基因组,与原版注释对比发现 在有的位置上会出现 在基因组A里是一个基因,在基因组B里有可能是两个基因,有的位置在基因组A里比较长,在基因组B里会比较短 的情况 85%以上的基因都能够匹配上一对一的关系

欢迎大家关注我的公众号

小明的数据分析笔记本

声明:来自小明的数据分析笔记本,仅代表创作者观点。链接:https://eyangzhen.com/8241.html

小明的数据分析笔记本的头像小明的数据分析笔记本

相关推荐

添加微信
添加微信
Ai学习群
返回顶部