生物信息学入门~在云服务器上利用蛋白序列构建进化树

阿里云服务器购买链接

https://www.aliyun.com/daily-act/ecs/activity_selection?source=5176.11533457&userCode=3enjgk6n
2核2G 40G存储空间 99元每年
购买后配置linux系统的参考推文
生物信息学入门~购买99元1年的云服务器用于练习linux系统使用
如何远程登录和上传下载文件参考推文
生物信息学入门- Xshell 和 Xftp 的安装 远程链接云服务器
在云服务器上安装好anaconda3参考推文
生物信息学入门~在购买的云服务器上安装anaconda3用于常用的软件安装

之前的推文还介绍了在云服务器上做转录组分析的实例,如果你通过以上链接购买了云服务器可以添加我的微信 mingyan24 我分享我用到的示例数据
转录组数据处理的推文链接
生物信息学入门~利用购买的云服务器学习有参转录组数据处理(fastq到差异表达)

推文的数据和代码来源于这个链接
https://jlsteenwyk.com/tutorials/seqs_to_tree.html
需要用到的软件有:
mafft 用来做多序列比对
clipkit 删除多序列比对结果中的模糊位点
iqtree 用来构建最大似然树
treeview (window系统下的软件,用来可视化构建好的进化树)
首先新建一个叫phylo的环境,这个环境下的python版本设置为3.9
conda create -n phylo python=3.9

image.png
出现上面的界面输入y然后按回车就可以
激活这个环境
conda activate phylo
安装 mafft clipkit iqtree软件
conda install mafft -c bioconda

image.png
出现这个界面,输入y按回车
安装另外两个软件也是一样
conda install clipkit -c bioconda
conda install iqtree -c bioconda
软件安装好,下载示例数据 链接 https://jlsteenwyk.com/tutorials/prestin.fa
使用xftp软件将示例数据上传到云服务器
示例数据是fasta格式
fasta格式是文本文件,可以直接用记事本打开,文件的后缀名可以是 fasta 或者 fa 或者其他也都可以
每条序列按照特定的格式排列,大于号>开头是序列的id,然后换行后接序列的内容,序列的内容可以是一行也可以是多行。
首先使用mafft进行多序列比对

mafft –auto prestin.fa > prestin.aln.fa
这里会生成一个prestin.aln.fa文件
使用clipkit删除比对结果中的模糊位点

clipkit prestin.aln.fa
这里会生成一个 prestin.aln.fa.clipkit 文件
使用iqtree构建进化树
iqtree2 -s prestin.aln.fa.clipkit
这一步会生成好多文件 prestin.aln.fa.clipkit.treefile 这个文件是生成的树文件,使用xftp软件将其下载到自己电脑上
在自己电脑上安装treeview软件 软件下载链接
https://bitbucket.org/TreeView3Dev/treeview3/src/master/
查看进化树

image.png
欢迎大家关注我的公众号
小明的数据分析笔记本

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/416471.html

(0)
联系我们
联系我们
分享本页
返回顶部