snpEff软件注释vcf文件获取变异位点和编码基因的相对关系

https://sourceforge.net/projects/snpeff/files/
我下载的是 snpEff_v4_3t_core.zip
软件主页
http://snpeff.sourceforge.net/SnpEff_manual.html
帮助文档
http://snpeff.sourceforge.net/protocol.html
(软件不用安装解压出来就能够使用)
用大肠杆菌的一个数据做练习
在 snpEff.jar 同级目录下新建一个data文件夹
mkdir data
cd data
mkdir genomes
mkdir ecoli
大肠杆菌基因组和基因注释文件的下载链接
ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/005/845/GCF_000005845.2_ASM584v2/
下载基因组fasta和基因注释文件gff
基因组文件命名为ecoli.fa放在 genomes文件夹下
基因注释文件命名为genes.gff放到ecoli文件夹下
回到 snpEff.jar 同级目录 ,运行命令
echo “ecoli.genome:ecoli” >> snpEff.config
将ecoli.genome:ecoli添加到snpEff.config文件的最后一行
构建数据库

java -Xmx4G -jar snpEff.jar build -gff3 ecoli
在data/ecoli目录下会多出一个snpEffectPredictor.bin文件
对vcf文件进行注释

java -Xmx4G -jar snpEff.jar ecoli vcf_ann_Practice/E_coli_K12.filter.vcf > E_coli_K12.filter.eff.vcf
同时会生成一个 snpEff_summary.html 文件
在新生成的vcf文件里INFO列里会多出来很多信息
vcf文件不是很大的话可以用R语言的vcfR包对信息进行解析
读取vcf文件
annoV<-read.vcfR(“E_coli_K12.filter.eff.vcf”)
提取注释的信息
vcfR2tidy(annoV)$fix$ANN

image.png
这里的内容很多,具体哪些信息有用暂时还没搞清楚

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/419263.html

(0)
联系我们
联系我们
分享本页
返回顶部