为基因组构建 BSgenome 对象

引言
BSgenome 对象是 Bioconductor 生态系统中用于存储和访问完整基因组序列数据的核心数据结构。BSgenome(Biostrings Genome) 对象是一个专门设计的 R 对象,用于高效存储和访问大型基因组序列数据。它将完整的基因组序列组织成一个易于操作的数据结构。有时候在 R 里面使用 BSgenome 来访问基因组序列会更方便一些。
Bioconductor 目前提供了超过 100 个 BSgenome 数据包,涵盖了超过 30 种生物。其中大多数包含 UCSC 基因组(即由 UCSC 基因组浏览器支持的基因组)或 NCBI 组装的基因序列。这些数据包被用于各种 Bioconductor 工作流程中,以及其他 Bioconductor 包的 man 页面示例和 vignette 中,通常与 BSgenome 和 Biostrings 软件包中的工具结合使用。根据用户需求,新的 BSgenome 数据包会定期添加。
BSgenomeForge 包提供了工具,允许用户创建自己的 BSgenome 数据包。包中的两个主要工具是 forgeBSgenomeDataPkgfromNCBI 和 forgeBSgenomeDataPkgfromUCSC 函数。这些函数允许用户为给定的 NCBI 组装或 UCSC 基因组伪造一个 BSgenome 数据包。
安装
if (!require(“BiocManager”, quietly=TRUE))
install.packages(“BiocManager”)
BiocManager::install(“BSgenomeForge”)
介绍
forgeBSgenomeDataPkgFromNCBI()
forgeBSgenomeDataPkgFromNCBI() 直接可以访问 NCBI 基因组的组装信息来构建相应物种的 BSgenome 对象:
forgeBSgenomeDataPkgFromNCBI(assembly_accession=”GCA_009729545.1″,
pkg_maintainer=”Jane Doe janedoe@gmail.com”,
organism=”Acidianus infernus”)

Creating package in ./BSgenome.Ainfernus.NCBI.ASM972954v1

forgeBSgenomeDataPkgFromNCBI(assembly_accession=”GCA_008369605.1″,
pkg_maintainer=”Jane Doe janedoe@gmail.com”,
organism=”Vibrio cholerae”,
circ_seqs=c(“1”, “2”, “unnamed”))

Creating package in ./BSgenome.Vcholerae.NCBI.ASM836960v1

forgeBSgenomeDataPkgFromUCSC()
forgeBSgenomeDataPkgFromUCSC() 可以访问 UCSC 数据库的基因组信息:
forgeBSgenomeDataPkgFromUCSC(
genome=”wuhCor1″,
organism=”Severe acute respiratory syndrome coronavirus 2″,
pkg_maintainer=”Jane Doe janedoe@gmail.com”
)

Creating package in ./BSgenome.Scoronavirus2.UCSC.wuhCor1

安装构建好的对象
forgeBSgenomeDataPkgfromNCBI 或 forgeBSgenomeDataPkgfromUCSC 在包执行结束时返回创建包的路径。可以使用此路径找到包的位置,然后通过命令行(即在 Linux/Unix 终端或 Windows PowerShell 终端)执行以下命令来构建包源 tarball:
R CMD build

R CMD check

R CMD INSTALL
或者在 R 里操作:
devtools::build(“./BSgenome.Ainfernus.NCBI.ASM972954v1”)

── R CMD build ─────────────────────────────────────────────────────────────────

* checking for file ‘/tmp/RtmpJ5c9AS/Rbuild14bff55e6d992b/BSgenomeForge/vignettes/BSgenome.Ainfernus.NCBI.ASM972954v1/DESCRIPTION’ … OK

* preparing ‘BSgenome.Ainfernus.NCBI.ASM972954v1’:

* checking DESCRIPTION meta-information … OK

* checking for LF line-endings in source and make files and shell scripts

* checking for empty or unneeded directories

* building ‘BSgenome.Ainfernus.NCBI.ASM972954v1_1.0.0.tar.gz’

[1] “/tmp/RtmpJ5c9AS/Rbuild14bff55e6d992b/BSgenomeForge/vignettes/BSgenome.Ainfernus.NCBI.ASM972954v1_1.0.0.tar.gz”

devtools::check_built(“BSgenome.Ainfernus.NCBI.ASM972954v1_1.0.0.tar.gz”)
devtools::install_local(“BSgenome.Ainfernus.NCBI.ASM972954v1_1.0.0.tar.gz”)
使用基因组 fasta 文件构建
如果只有基因组的 fasta 文件,可以参考高级文档根据说明进行构建:
https://bioconductor.org/packages/release/bioc/vignettes/BSgenomeForge/inst/doc/AdvancedBSgenomeForge.pdf:

结尾
路漫漫其修远兮,吾将上下而求索。
欢迎加入生信交流群。加我微信我也拉你进 微信群聊老俊俊生信交流群(微信交流群需收取 20 元入群费用,一旦交费,拒不退还!(防止骗子和便于管理)) 。

声明:来自老俊俊的生信笔记,仅代表创作者观点。链接:https://eyangzhen.com/1830.html

老俊俊的生信笔记的头像老俊俊的生信笔记

相关推荐

关注我们
关注我们
购买服务
购买服务
返回顶部