如何下载重复序列元件的注释信息

1引言

对于一些重复元件,它们在细胞的发育过程中也扮演着重要的作用,比如逆转座子对于胚胎的分化和发育至关重要,有时候我们通常需要对他们进行定量来做一些相关分析,那么我们就得获取它们在基因组上的具体位置。

这里介绍一下怎么下载这些重复元件的具体注释信息。

2UCSC 数据库

你可以去 UCSC 数据库下载,进入 Table Browser 菜单:

图片

选择好物种,在 group 菜单选择 Variation and Repeats:

图片

然后在 track 里选择 RepeatMasker:

图片

你可以下载具体特定的基因的信息,在 paste list 里面复制粘贴:

图片

比如我查询 MERVL-int:

图片

然后点击 get output:

图片

然后就是输出结果了:

图片

如果你没有输入特定基因,默认就输出所有结果,输出格式你可以设置为 gtf,这样就可以拿去定量了:

图片

输出结果:

图片

3RepeatMasker 官网下载

RepeatMasker 是一个常用的工具,用于识别和屏蔽(mask)重复元素,如转座子、LTR(Long Terminal Repeat)等,在基因组分析和注释中具有重要作用。RepeatMasker 根据已知的重复元素数据库,将重复元素的序列与待分析的基因组进行比对,并生成重复元素的注释结果。

网址: http://repeatmasker.org/

进入网站我们选择 Genome Analysis and Downloads:

图片

然后我们可以选择自己研究的物种,这里选个人当示例,点击那个图片:

图片

进去你可以下载 out.gz 的文件,里面记录了具体的注释信息, 红色框里面指的是重复序列信息的来源于两个不同的数据库:

  • Dfam 2.0 数据库是一个用于注释和分析重复元件的数据库。它是 Dfam 项目的最新版本,旨在提供更全面和准确的重复元件注释信息。
  • Dfam 2.0 数据库包含了来自多个物种的重复元件家族的序列和注释。这些家族的注释信息包括家族的名称、起始和终止位置、重复元件的长度、重复元件的分类信息等。此外,Dfam 2.0 还提供了与每个重复元件家族相关的详细注释,如家族的结构特征、进化关系、保守区域等。

hg38.fa.out.gz 和 hg38.fa.align.gz 是 RepeatMasker 数据库中针对 hg38(人基因组)的两个不同文件。它们的区别如下:

  • hg38.fa.out.gz:这是 RepeatMasker 输出结果的文件。RepeatMasker 是一种用于识别和标注重复元件(如转座子、重复序列等)的工具。mm10.fa.out.gz 文件包含了在 mm10 基因组上发现的重复元件的详细注释信息。这些注释信息通常包括重复元件的起始位置、终止位置、家族归属、重复序列的长度等。这个文件可以帮助研究人员了解在小鼠基因组中存在的重复元件的分布和特征。
  • hg38.fa.align.gz:这是 RepeatMasker 对 hg38 基因组进行比对的结果文件。RepeatMasker 使用一种叫作 CrossMatch 的工具进行重复元件的比对。hg38.fa.align.gz 文件包含了每个重复元件与重复数据库中已知家族的比对结果。这些比对结果通常以多行的格式呈现,其中包括比对的分数、比对的起始位置、终止位置等信息。这个文件可以帮助研究人员分析重复元件的进化关系以及它们与已知重复家族的关联。
图片

我们下载 Dfam 2.0 的 hg38.fa.out.gz 看看:

图片

4结尾

路漫漫其修远兮,吾将上下而求索。


欢迎加入生信交流群。加我微信我也拉你进 微信群聊 老俊俊生信交流群 (微信交流群需收取 20 元入群费用,一旦交费,拒不退还!(防止骗子和便于管理)) 。QQ 群可免费加入, 记得进群按格式修改备注哦。

声明:文中观点不代表本站立场。本文传送门:https://eyangzhen.com/190430.html

(0)
联系我们
联系我们
分享本页
返回顶部