github主页
https://github.com/simon19891216/CentIER/releases/tag/CentIERv2.0
论文
https://www.sciencedirect.com/science/article/pii/S2590346224003870
CentIER: Accurate centromere identification for plant genomes
软件路径
/home/myan/biotools/CentIERv2.0
还下载了好几个其他版本,其他版本可能会报错
测试大豆的1号染色体
time python CentIERv2.0.py -g Gm01.fasta
运行了64分钟
输入文件如果和脚本没在同一个路径下也会报错 找不到文件
改了一下脚本这里
这样不行,后面有的地方需要用到文件的路径,这样就找不到输入的基因组序列了
把涉及到输出文件的地方都用函数 os.path.basename() 这个获取文件名字
这个版本的输出文件夹的名字是固定写好的,不太适合用snakemake去批量化,稍微改动一下脚本,增加一个参数 -o 指定输出文件夹的名字
用修改后的脚本运行一下拟南芥的5号染色体
time python CentIERv2.0_minor_change.py -g chr5.fna -c -o at.chr5
拟南芥的5号染色体是运行了63分钟
修改过后也不太适合用snakemake流程,因为会输出很多同名的文件
github上的版本已经更新到v3.0.1,把v3.0.1的脚本放到v2.0的文件夹里试试
运行成功了
time python centIERv3.0.1.py ../00.W82T2T.chromosomes/Gm01.fa -o abc
把v3.0.1脚本里的 prefix的代码改成一个输出参数
time python centIERv3.0.1_minor_change.py ../00.W82T2T.chromosomes/Gm02.fa -o ABCD -p chr02 -cl
这样应该可以用snakemake 批量运行了 (明天早上看有没有报错)
-o 输出文件夹
-p 输出文件的前缀
-cl 将中间文件删掉
目前预测着丝粒的工具,我能查到的
Tbtools里有一个插件 (T2Tvalidator)
https://mp.weixin.qq.com/s/pbqrh5cPzmtxm_lOPb_GEw
Centromics (这个需要用到hifi数据)
https://github.com/zhangrengang/Centromics
RepeatOBserverV1 这个软件的输出结果怎么看还没太搞懂
https://github.com/celphin/RepeatOBserverV1
quartet
https://github.com/aaranyue/quarTeT
TRASH可以鉴定串联重复序列
https://github.com/vlothec/TRASH
StainedGlass串联重复序列相似性可视化
https://github.com/mrvollger/StainedGlass
还有什么其他工具欢迎大家留言补充
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!
声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/424201.html