跟着Nature Communications学数据分析:基因组水平的比对鉴定结构变异

论文

Pan-genome inversion index reveals evolutionary insights into the subpopulation structure of Asian rice

https://www.nature.com/articles/s41467-023-37004-y

水稻PangenomeInversionNC.pdf

基因组水平比对然后鉴定结构变异的代码

https://github.com/YongZhou2019/YongZhou2019.github.io/tree/main/Rice-Population-Reference-Panel/software/sv-for-o.sativa

论文中关注的结构变异主要是Inversion

用4个流程鉴定Inversion,然后对4个流程的结果进行评估

1和2流程是把已经组装好的染色体进行滑动窗口的切分,相当于是把组装好的染色体重新打散成为了long reads,比对软件选择NGMLR,变异检测软件分别选择SVIM和Sniffles

3和4流程是在全基因组水平进行比对,比对软件分别选择minimap2和nucmer,然后变异检测软件选择的是syri

然后是对着四种方法进行评估,具体怎么评估没太看明白,还需要再仔细看,最终选择的是mummer完整基因组水平上的比对 然后用syri软件去检测变异的方法

接下来参考论文中提供的第四个流程的代码,用拟南芥的数据试试

首先是mummer比对

 nucmer -t 8 -p output An1.fa Ler.fa
delta-filter -i 95 -l 15000 -o 95 output.delta -1 > output.delta.best
show-snps -Clr output.delta.best > output.delta.best.snps
# 这一步会获得ps格式的图
mummerplot -p output.best output.delta.best -t postscript
# ps转换成pdf
ps2pdf output.best.ps output.best.pdf
# pdf 转换成png
convert -density 300 output.best.pdf output.best.png
图片
image.png

接下来是利用syri做变异检测

syri直接使用conda安装就可以

delta-filter -m -i 80 -l 100 output.delta > m_i80_l100.delta
show-coords -THrd m_i80_l100.delta > m_i80_l100.coords
syri -c m_i80_l100.coords -d m_i80_l100.delta -r An1.fa -q Ler.fa --prefix An1Ler --nc 8
# 运行完会对应着生成一个vcf文件
# syri这个软件有着一个对应的画图程序plostr

plotsr --sr An1Lersyri.out --genomes genomes.txt -W 10 -H 8 -o An1Ler.pdf

最终出图

图片
image.png

拟南芥小基因组的整个过程计算还是挺快的

抽空再仔细看看论文的结果描述和讨论

图片

欢迎大家关注我的公众号

小明的数据分析笔记本

声明:文中观点不代表本站立场。本文传送门:http://eyangzhen.com/156162.html

(0)
联系我们
联系我们
分享本页
返回顶部