大豆Cell论文中泛基因家族分析复现一:下载示例数据

泛基因组相关的论文中通常都会有这个分析,这个是一个标准化的分析,通常也不会有新的发现。
在最开始的泛基因组论文里这个分析可能会放一个主图,最近的论文里基本上都是把这个分析放到附图里了,论文里会提几句话介绍这个结果。
这个分析就是组装了很多个基因组,然后每个基因组有对应的蛋白编码基因注释。用orthofinder这个软件对所有的蛋白编码基因进行聚类,获得基因家族。根据基因家族的有无划分为不同的类,比如核心,可变,私有等。然后再对不同类别的基因家族的性质进行分析,比如基因长度,外显子数量这些
如果要做这个分析需要准备的数据有

基因组 fasta 文件
蛋白编码基因的注释文件 gff格式
可以利用以上两个文件获得 蛋白编码基因的cds序列
可以利用以上两个文件获取 蛋白编码基因的蛋白序列
有的蛋白编码基因注释文件通常一个基因会对应很多个转录本,这个注释文件需要处理,只需要一个基因对应一个转录本即可。
我们用大豆的数据来介绍一下这个分析的基本流程
大豆的数据来源论文

https://www.sciencedirect.com/science/article/pii/S0092867420306188
Pan-Genome of Wild and Cultivated Soybeans

大豆基因组数据下载链接

https://ngdc.cncb.ac.cn/soyomics/download下载基因组fasta和对应的蛋白注释文件,用gffread提取cds序列和蛋白序列。主要的分析内容

1 基因家族分类(饼图)
2 核心泛基因家族曲线
3 核心私有基因家族曲线拟合方程
4 基因家族中基因的数量 (堆积柱形图)
5 核心可变热图
6 dnds
7 nuc div
8 domain
9 基因长度
10 外显子数量
对应的是论文中的 Figure2

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/423719.html

联系我们
联系我们
分享本页
返回顶部