同一个物种的基因组有时候会有不同版本的基因注释,如何把同一个基因的不同id匹配到一起一直没有搞明白,我之前比较简单的做法是用两个蛋白做blast, 匹配长度在90%以上 相似度也在90%以上 并且在同一条染色体上,就看成是一个基因了。最近看到一个工具是get_pangenes。这个工具同时也考虑了基因的共线性关系,而且用起来也比较简单,一个命令就可以直接给出结果,使用非常方便
工具对应的论文
https://link.springer.com/article/10.1186/s13059-023-03071-z
GET_PANGENES: calling pangenes from plant genome alignments confirms presence-absence variation
工具对应的文档
https://github.com/Ensembl/plant-scripts/tree/master/pangenes
直接使用conda安装就可以
使用命令
get_pangenes.pl -d input.folder
input.folder下的文件内容
genomeA.fasta
genomeA.gff
genomeB.fasta
genomeB.gff
输出文件里 _genomeA.genomeB.algMmap.overlap0.5.id95.tsv
ortholog_collinear 类型的应该就是同一个基因
使用helixer注释基因组,与原版注释对比发现 在有的位置上会出现 在基因组A里是一个基因,在基因组B里有可能是两个基因,有的位置在基因组A里比较长,在基因组B里会比较短 的情况 85%以上的基因都能够匹配上一对一的关系
欢迎大家关注我的公众号
小明的数据分析笔记本
声明:来自小明的数据分析笔记本,仅代表创作者观点。链接:https://eyangzhen.com/8241.html