大豆Cell论文中泛基因家族分析复现一：下载示例数据

泛基因组相关的论文中通常都会有这个分析，这个是一个标准化的分析，通常也不会有新的发现。
在最开始的泛基因组论文里这个分析可能会放一个主图，最近的论文里基本上都是把这个分析放到附图里了，论文里会提几句话介绍这个结果。
这个分析就是组装了很多个基因组，然后每个基因组有对应的蛋白编码基因注释。用orthofinder这个软件对所有的蛋白编码基因进行聚类，获得基因家族。根据基因家族的有无划分为不同的类，比如核心，可变，私有等。然后再对不同类别的基因家族的性质进行分析，比如基因长度，外显子数量这些
如果要做这个分析需要准备的数据有

基因组 fasta 文件
蛋白编码基因的注释文件 gff格式
可以利用以上两个文件获得蛋白编码基因的cds序列
可以利用以上两个文件获取蛋白编码基因的蛋白序列
有的蛋白编码基因注释文件通常一个基因会对应很多个转录本，这个注释文件需要处理，只需要一个基因对应一个转录本即可。
我们用大豆的数据来介绍一下这个分析的基本流程
大豆的数据来源论文

https://www.sciencedirect.com/science/article/pii/S0092867420306188
Pan-Genome of Wild and Cultivated Soybeans

大豆基因组数据下载链接

https://ngdc.cncb.ac.cn/soyomics/download下载基因组fasta和对应的蛋白注释文件，用gffread提取cds序列和蛋白序列。主要的分析内容

1 基因家族分类（饼图）
2 核心泛基因家族曲线
3 核心私有基因家族曲线拟合方程
4 基因家族中基因的数量（堆积柱形图）
5 核心可变热图
6 dnds
7 nuc div
8 domain
9 基因长度
10 外显子数量
对应的是论文中的 Figure2

声明：文中观点不代表本站立场。本文传送门：https://eyangzhen.com/423719.html

大豆Cell论文中泛基因家族分析复现一：下载示例数据

作者专栏

小明的数据分析笔记本