三代长读长测序越来越便宜,许多基因组都开始更新到了T2T水平,之前一些大群体重测序数据做的vcf文件用的是老版本基因组,需要将变异坐标迁移到新版本的基因组上。当然最准确的还是下载重测序数据直接用新版本的基因组重新call变异。但是这个需要比较充足的计算资源,时间相对也比较长。坐标迁移相对速度会快很多。
人类数据通常用liftover,查了一下这个工具,需要准备一个chain文件,不知道其他物种的chain文件怎么准备
https://biojuse.com/2025/02/12/VCF%20%E6%96%87%E4%BB%B6%E8%BD%AC%E5%9D%90%E6%A0%87%E7%9A%84%E6%96%B9%E6%B3%95%E6%B1%87%E6%80%BB%E5%8F%8A%E6%B3%A8%E6%84%8F%E4%BA%8B%E9%A1%B9/
这个链接介绍了几种常用的坐标转换工具,但是也没说chain文件怎么准备
https://www.jianshu.com/p/6a9d481ad911
这个链接介绍了transanno这个工具,可以把minimap2的比对文件转换成chain文件,同时还有坐标转换的工具
transanno 工具的github主页
https://github.com/informationsea/transanno
这个工具直接用conda就可以安装
我这边安装的是0.4.5这个版本
基本用法
第一步是做基因组比对用minimap2
minimap2 -cx asm5 –cs QUERY_FASTA.fa REFERENCE_FASTA.fa > PAF_FILE.paf
reference_fasta是 vcf文件原始的参考基因组
query_fasta是更新版的基因组
第二步是利用比对的paf格式的文件转换为chain文件
transanno minimap2chain PAF_FILE.paf –output chainfile.chain
第三步是转换vcf文件的坐标
transano liftvcf –original-assembly ref.fasta –new-assembly query.fasta –chain chainfile.chain –vcf raw.vcf –output raw.done.vcf –fail raw.failed.vcf
怎么来检查一下转换的位置是否准确呢,暂时没有搞明白
欢迎大家关注我的公众号
小明的数据分析笔记本
声明:来自小明的数据分析笔记本,仅代表创作者观点。链接:https://eyangzhen.com/2441.html