跟着Nature学数据分析:minimap2+DeepVariant流程利用hifi数据检测snp和indel

Graph pangenome captures missing heritability and empowers tomato breeding
代码链接

https://github.com/YaoZhou89/TGG/tree/main/4.Graph_pangenome/1.construction_graph_genome
minimap2用conda安装
用conda 去搜deepvariant是能够搜到的,但是安装一直没有成功,最后是用的singularity(singularity的路径问题还是没太明白,有时间需要学习singularity)
https://github.com/google/deepvariant/tree/r1.6.1
singularity pull docker://google/deepvariant:1.6.1
示例数据就用草莓T2T那篇文章的数据,自己的基因组和自己的hifi数据做比对,hifi数据只取一部分作为练习
minimap2比对
minimap2 -ax map-pb -a -k 19 -O 5,56 \
-E 4,1 -B 5 -z 400,50 -r 2k –eqx \
–secondary=no Fv.fa pra.fq.gz > aln.sam
这里用到了好多参数,有时间仔细看每个参数具体是什么意思
这里还提到了samblaster软件
https://github.com/GregoryFaust/samblaster
运行这一步遇到了报错,暂时没有解决,先运行下一步
samtools sort -@ 12 -O BAM -o aln.sorted.bam aln.sam

samtools index aln.sorted.bam

DeepVariant
singularity run ~/my_data/myan/deepvariant/deepvariant_1.6.1.sif \
/opt/deepvariant/bin/run_deepvariant –model_type PACBIO \
–ref Fv.fa \
–reads aln.sorted.bam \
–output_vcf output.vcf.gz \
–output_gvcf output.g.vcf.gz \
–sample_name abc \
–num_shards 24
接下来用到了WGS这个软件
https://github.com/YaoZhou89/WGSc
可以对vcf文件进行各种操作
在vcf文件中随机选择多少行,这里没有头文件
~/my_data/myan/biotools/WGSc-master/bin/WGS –model file –type random –file output.vcf.gz –headLine 25 –r 0.1 –out random.vcf
计算vcf文件中每个位点的深度
~/my_data/myan/biotools/WGSc-master/bin/WGS –model vcf –type calTotalDP –file output.vcf.gz –out random.dep
但是这个结果好像不对,这个值对应的是GP的值,不是DP的值
这个软件还有很多功能,可以参考github主页的文档
欢迎大家关注我的公众号
小明的数据分析笔记本

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/415960.html

(0)
联系我们
联系我们
分享本页
返回顶部