Bioconductor 最新发布的 94 个 R 包

引言
这里的列表涵盖了 2026 年新发布的 Bioconductor 软件包,展示了生物信息学在单细胞多组学、空间转录组学、临床风险建模和蛋白质组学等领域的新工具。

https://www.bioconductor.org/news/bioc_3_23_release

Aerith:对肽段同位素峰和 SIP(稳定同位素探测)肽段谱图匹配(PSM)进行可视化。过滤高质量 PSM。计算肽段及代谢物的精确同位素丰度。对 SIP 蛋白质组学结果进行可视化。

annoLinker:通过使用 igraph 构建相互作用网络,利用 DNA 相互作用数据对基因组峰进行快速注释,其中与连通子图中任一节点重叠的峰将用该子图中的所有基因进行注释。注释证据可以以网络图或整合了基因注释信息的基因组轨迹形式进行可视化。

asuri:ASURI(基于基因特征的风险预测与患者生存分析)包可发现与风险预测能力和感兴趣的临床变量相关的标志基因。它使用两个主要步骤,包括子采样 glmnet 和单变量 Cox 回归。该包实现了稳健的函数来发现与临床表型相关的生存标志物并预测风险评分,从而能够基于基因特征研究患者风险。提供了多种绘图来可视化基因的相关性、风险评分和患者分层,以及 Kaplan-Meier 曲线的稳健版本。

atacInferCnv:该包准备输入的单细胞 ATAC-seq 数据,并适配用于通过 InferCNV 包进行拷贝数变异分析。它还有多种参数来控制分析(例如,使用外部正常参照、元细胞、分箱大小等)并提供自定义绘图可视化。

BatChef:该包在单细胞 RNA 测序(scRNA-seq)数据中实现了多种批次效应校正方法。它整合了定量指标(如 Wasserstein 距离、调整兰德指数)来评估其性能。此外,该包帮助用户识别并为特定数据集应用最优方法。

Battlefield:Battlefield 是一个瑞士军刀式的工具包,最初开发用于利用空间转录组数据或聚类组织图谱,从特定组织区域(如前缘区域、生态位边界、浸润边缘和簇界面)定义和提取空间点位。它后来扩展到支持轨迹选择和层次检查,现在为空间转录组分析提供了一系列底层工具。这些工具主要用于在更高级的分析包中复用。它被设计用于处理基于测序的平台,如 Visium(多种分辨率)和 Visium HD(分箱)。

betterChromVAR:chromVAR 的一个更快速的算法实现,带有额外功能,用于从(bulk 或单细胞)ATAC-seq 数据和基序注释(或结合概率)推断转录因子活性。该包还包含基于 chromVAR 逻辑的 CVnorm 标准化方法。

BiocAzul:将 OpenAPI v2 Azul API 表示为 R 对象以执行请求。该基础设施使用了 AnVIL 和 rapiclient 包。用户可以连接到 AnVIL 或人类细胞图谱数据探索器。

BiocBuildReporter:此包读取已处理的 Bioconductor 构建报告日志的远程 parquet 文件。用户可以直接查询表格以获取特定信息,或使用预定义的辅助函数进行常见查询。处理的日志来自 https://bioconductor.org/checkResults/。未来我们将扩展此包以包括 r-universe 日志的处理。

BiocMaintainerApp:此包允许以交互方式查看软件包维护者信息。Bioconductor 软件包维护者应用程序每年发送验证邮件以接受 Bioconductor 政策;此应用程序还描述了维护者选择加入的状态以及邮件是否被视为有效。

BiocPkgDash:此包为 Bioconductor 软件包维护者提供了一个交互式 Shiny 仪表板。它可视化各种软件包状态、元数据和开发指标,提供对软件包健康度和活动的洞察。该工具旨在通过按维护者邮箱过滤软件包来支持拥有多个软件包的维护者。

carnation:高度交互且模块化的 Shiny 应用程序,用于探索 RNA-Seq 分析的三个方面:差异表达(DE)、功能富集和模式分析。实现了多种可视化以提供数据集的全面视图。对于差异表达分析,我们提供 PCA 图、MA 图、Upset 图和热图,以及高度可定制的基因图。功能富集分析有七种不同的可视化,我们还支持基因模式分析。感兴趣的基因可以使用基因便签本在所有模块中追踪。此外,carnation 提供了一个集成平台来管理多个项目和用户访问,可以在中央服务器上运行以与协作者共享。

CellMentor:实现了有监督的细胞类型感知非负矩阵分解(NMF),用于单细胞 RNA 测序分析的降维。该包提供了将细胞类型信息纳入降维过程的方法,从而改进单细胞数据的可视化和下游分析,同时保留生物学结构。CellMentor 采用独特的损失函数,在最小化已知细胞群内部变异的同时,最大化不同细胞类型之间的区分,使得能够将学习的模式从带标签的参考数据集有效转移到新的未标记数据。

ClonalSim:ClonalSim 生成具有层次克隆结构的肿瘤样本的真实突变谱。它模拟了 founder、共享和私有突变,并带有生物学上真实的噪声模型,包括瘤内异质性(Beta 分布)和技术测序噪声(负二项深度变异、二项式读取采样、碱基错误)。该包设计用于基准测试变异检测工具、测试克隆反卷积算法以及教学肿瘤异质性概念。

ClusterGVis:提供了一个简化的流程,用于聚类和可视化基因表达模式,特别是来自时间序列 RNA-Seq 和单细胞实验的数据。该包旨在通过在 Bioconductor 生态系统中直接操作标准数据类(如 SummarizedExperiment 和 SingleCellExperiment)来实现无缝集成。它实现了常见的聚类算法(例如 k-means、模糊 c-means),并生成一系列可用于发表的可视化结果,以探索共表达基因模块。还包含了有助于可视化来自其他流行工具的聚类结果的功能。

CompensAID:CompensAID 是一个自动化质控工具,用于判断 FCS 文件中每个标记组合是否存在潜在的参考错误。这种参考错误表现为偏移的群体,通过整合次级染色指数(SSI)评分来检测。SSI < 1 的标记组合会被 CompensAID 标记。

CrcBiomeScreen:一个经过开发和基准测试的可重复机器学习框架,用于基于微生物组的结直肠癌(CRC)筛查。通过系统评估标准化策略、分类学分辨率和类别不平衡处理方法。此 R 包允许用户应用完整的分析流程或根据其分析需求选择性地运行特定组件。它为开发可解释的基于微生物组的筛查工具以支持早期 CRC 检测建立了可扩展的基础。此方法可以轻松地在国家筛查计划中实施,以提高该疾病的早期检出率。

damidBind:damidBind 包提供了一个直接的正式分析流程,用于分析和探索两种条件之间的差异 DamID 结合、基因转录或染色质可及性。该包从 DamID-seq 实验导入处理后的数据,可以是外部原始文件(如结合 bedGraphs 和 GFF/BED 峰调用文件),也可以是 GRanges 对象的内部列表。在可选的标准化、合并跨复制的峰并确定每个复制的峰占用率之后,该包将结合的位点连接到附近的基因。对于 RNA 聚合酶 DamID 数据,该包计算基因上的占用率,并可选择计算显著富集基因占用率的 FDR。然后,damidBind 使用 limma(用于传统 log2 比率 DamID 结合数据)或 NOIseq(用于基于计数的 CATaDa 染色质可及性数据)来识别两种条件之间的差异富集区域或差异表达基因。该包提供了多种可视化工具(火山图、通过 clusterProfiler 进行的基因本体富集图以及通过 BioVenn 进行的比例维恩图)用于下游数据探索和分析。一个强大的交互式 IGV 基因组浏览器界面(由 Shiny 和 igvShiny 驱动)允许用户快速直观地评估显着差异结合区域在其基因组背景中的情况。

decemedip:R 包 decemedip 是一种新的计算范式,用于推断通过甲基化 DNA 免疫沉淀测序(MeDIP-Seq)测量的细胞类型和组织的相对丰度。该范式允许使用来自其他技术(如微阵列或 WGBS)的参考数据。

DenoIST:DenoIST 识别并去除基于图像的空间转录组数据中的污染,使用转置泊松混合模型及局部邻域偏移来推断哪些基因可能源于邻域污染而非内源表达。

dominatR:dominatR 是一个用于量化和可视化数据集中特征(feature)主导性的 R 包。dominatR 应用源自物理学的概念,如质心和香农熵,以有效可视化存在于特定背景或条件下的特征(例如基因)。该包整合了数据框、矩阵和 SummarizedExperiment 对象,并能执行常见的基因组标准化方法。其关键方面是生成用于突出显示上下文相关特征主导性的图表。

DOTSeq:用于核糖体谱分析(Ribo-seq)及匹配 RNA-seq 的差异开放阅读框(ORF)翻译分析框架。实现了(i)差异 ORF 使用率(DOU),一个 beta-二项式广义线性模型,模拟基因内每个 ORF 的 Ribo-seq 与 RNA-seq 读段比例的预期;(ii)ORF 水平的差异翻译效率(DTE),一个负二项式广义线性模型,捕捉实验条件下单个 ORF 翻译效率的变化。支持 bulk 和单细胞 Ribo-seq 的 ORF 水平读段汇总。

drugfindR:该包提供了一种便捷的方式来访问 iLINCS 数据库中可用的 LINCS 特征。这些特征包括共识基因敲低特征、基因过表达特征和化学扰动特征。它还提供了一种方法来输入您自己的转录组特征,并识别 LINCS 数据库中一致和不一致的特征。

epiRomics:整合了不同层次的表观基因组信息,包括 ChIP-seq、组蛋白修饰、ATAC-seq 和 RNA-seq 数据。调控网络分析使用组合方法来推断重要区域,如增强子。下游分析识别感兴趣区域的表观基因组数据共现情况。可视化函数显示带有信号叠加的多轨基因组视图。如有建议、反馈或错误报告,请联系 ammawla@ucdavis.edu。

epiSeeker:该包实现了分析多组学表观遗传数据的功能。epiSeeker 支持片段类型和碱基类型的数据。它提供了检索峰附近最近基因、注释峰的基因组区域、估计峰数据集之间重叠显著性的统计方法以及基序分析的功能。它整合了 GEO 数据库,供用户将自己的数据集与数据库中存储的数据集进行比较。这种比较可用于推断协同调控,从而可用于产生假设。实现了多种可视化功能,用于总结峰实验的覆盖度、峰结合 TSS 区域的平均概况和热图、基因组注释、到 TSS 的距离、峰或基因的重叠,以及通过考虑链、基序和其他信息来可视化单碱基分辨率表观遗传数据。

ExpoRiskR:ExpoRiskR 为转化和环境健康研究中的暴露感知多组学风险建模提供了工具。该包在暴露和多组学模块之间对齐样本标识符,执行轻量级预处理,并拟合暴露调整的关联模型以构建可解释的微生物-代谢物网络。它还计算简单的暴露扰动摘要并生成可用于发表的可视化结果。工作流程支持基于矩阵的输入和 SummarizedExperiment 对象。

fastRanges:用于 IRanges 和 GenomicRanges 的高性能区间重叠和连接操作。该包提供了确定性的多线程重叠计算、用于重复查询的可重用主题索引,以及以一致输出语法保留区间元数据的连接辅助函数。

fourSynergy:fourSynergy 是一种集成算法,利用现有 4C-seq 算法 r3C-seq、peakC、r.4cker 和 fourSig 之间的协同作用。它使用加权投票方法执行改进的相互作用调用。fourSynergy 还支持差异相互作用调用。

fRagmentomics:一个用户友好的 R 包,能够从包含比对读段(BAM 文件)的测序文件开始,表征与一个或多个感兴趣突变重叠的每个 cfDNA 片段。fRagmentomics 支持多种突变输入格式(例如 VCF、TSV 或字符串”chr:pos:ref:alt”表示),适应基于 1 或 0 的基因组坐标约定,处理突变表示歧义,并接受 FASTA 格式的任何参考文件和物种。对于每个 cfDNA 片段,fRagmentomics 输出其大小、其 3′ 和 5′ 序列及其突变状态。可选地,当用户设置 apply_bcftools_norm = TRUE 时,fRagmentomics 会调用外部命令行工具 bcftools norm 进行左对齐和变异归一化。如果在启用此选项时系统 PATH 上未找到 bcftools,该函数会报错。该包不安装外部软件;有关各操作系统的安装说明,请参阅 INSTALL 文件。

fraq:用于处理 FASTQ 数据的高通量可扩展工具包。该包的目标是使用户能够快速构建小型程序化”内核”来定义他们可能需要的任何 FASTQ 处理任务。基于 Intel TBB 的流图来协调并发 I/O 和数据处理;吞吐量可以快到压缩和磁盘速度允许的程度。该包还附带了一套用于常见 FASTQ 任务的预定义内核。

GenomicCoordinates:扩展了基因组坐标的字符串解析能力,支持多种格式,包括逗号分隔的数字、空格分隔的坐标,以及自动检测 GRanges、GPos 和 GInteractions 对象。

glycoTraitR:GlycoTraitR 是一个用于分析糖蛋白质组学数据,特别是糖肽-谱图匹配(GPSM)的 R 包。它支持由 pGlyco3 和 Glyco-Decipher 搜索引擎生成的结果。该包解析聚糖结构,计算单糖组成和结构特征,并进行聚糖异质性的差异分析。它构建存储在 SummarizedExperiment 对象中的特征-by-PSM 矩阵,支持用户定义的结构基序,并提供用于解释聚糖特征变化的可视化工具。

GOaGO:GO-a-GO 注释在给定基因对集合中富集的基因本体论术语。富集性通过置换检验计算,检验共享某个术语的基因对是否过度代表。在原始基因对集合中计数此类基因对,并与随机集合进行比较,随机集合中保留了基因对的结构,但基因身份(包括相关术语)被置换。

GOfan:GOfan 使用受 SynGO 启发的旭日布局,提供基因本体论富集结果的直观紧凑可视化,保留 GO 术语之间的层次关系,并允许基于颜色编码信息(如 p 值或基因计数)。通过将复杂的 GO 有向无环图转换为清晰、圆形的表示,它使研究人员能够快速掌握富集术语的层次结构和生物学意义。交互式和可定制的可视化促进了对关键 GO 类别的探索,增强了对富集分析的解释和展示。

GraphExperiment:GraphExperiment 为用户和开发者提供了一个 S4 类,通过提供存储和检索表示特征之间关联的网络(igraph 对象)的基础设施来扩展 SingleCellExperiment。该类旨在存储从高维定量数据推断出的网络,包括基因共表达网络(GCN)、基因调控网络(GRN)和共丰度网络(来自蛋白质组学和代谢组学),以及从其他类型数据(如蛋白质-蛋白质相互作用)推断出的网络。

GSABenchmark:GSABenchmark 是一个旨在为 scRNA-seq 基因集分析(scGSA)方法进行基准测试的包。它提供了传统的和新的基准指标以及可视化工具。目前,GSABenchmark 支持 17 种 scGSA 方法。

hammers:hammers 是一个用于 scRNA-seq 数据分析的工具套件,与 Seurat 和 SingleCellExperiment 兼容。它提供了简单的工具来处理诸如检索聚合基因统计信息、查找和移除稀有基因、进行代表性分析、计算感兴趣基因在低维空间中表达的中心质量,以及计算轮廓系数和聚类归一化轮廓系数等任务。

HiSpaR:为 HiSpa 提供 R 绑定,HiSpa 是一个分层贝叶斯模型,用于使用马尔可夫链蒙特卡洛(MCMC)采样从 Hi-C 接触矩阵推断三维染色质结构。该包实现了一种基于聚类的分层方法,可以高效处理大规模 Hi-C 数据集。它使用 Rcpp 和 RcppArmadillo 将原始 HiSpa C++ 实现高效集成到 C++ 中,从而能够通过并行 MCMC 采样快速计算染色质结构推断。

HistoImagePlot:创建组织缩略图图像和带有彩色细胞类型标签的 HoverNet 细胞分割的并排可视化。功能会自动检索与 HoverNet JSON 文件关联的缩略图图像并覆盖分割数据。此包适用于处理组织病理学图像的研究人员,促进探索性分析,并与 imageFeatureTCGA Bioconductor 包集成。

ImageArray:ImageArray 为磁盘上和内存中的图像数组提供了一个框架,特别是针对存储在 HDF5、Zarr 以及生命科学图像文件格式(OME Bio-Formats)中的金字塔形图像。

imageFeatureTCGA:该包从 HoverNet 和 ProvGigaPath 流程导入数据。流程输出数据托管在自有的在线仓库中。包功能方便地将流程数据整合到现有的来自 curatedTCGAData 的 MultiAssayExperiment 实例中。

imageTCGAutils:用于处理 CONCH 数据、列出远程文件的实用函数。其中一个函数通过一个缩放因子对齐坐标,将 HoverNet 细胞核分配到 ProvGigaPath 的 tiles 上。为 ‘imageFeatureTCGA’ 提供内部实用函数,大多数函数不面向最终用户。

immLynx:一个综合工具包,将流行的基于 Python 的免疫库分析工具和 Hugging Face 蛋白质语言模型桥接到 R 环境中。为 TCR 距离计算(tcrdist3)、序列生成概率(OLGA)、选择推断(soNNia)、聚类(clusTCR)、蛋白质嵌入(ESM-2)、元克隆发现(metaclonotypist)提供统一接口。与用于单细胞免疫库分析的 scRepertoire 和 immApex 生态系统完全兼容。

immReferent:为下载、存储和访问来自 IMGT、IPD-IMGT/HLA 和 OGRDB(AIRR-C)的免疫受体(TCR/BCR)和 HLA 序列提供一致的接口。支持导出到流行的分析工具,包括 MiXCR、TRUST4、Cell Ranger 和 IgBLAST。此包作为免疫基因组学包的核心依赖项,确保可靠和高质量的序列访问,并通过本地缓存实现可重复性。

jvecfor:使用 jvecfor Java 库替代 BiocNeighbors::findKNN,该库基于 jvector 库,利用 Java Vector API 在 AVX2、AVX-512 和 ARM NEON 硬件上实现可移植的 SIMD 加速。jvecfor/jvector 实现了 HNSW-DiskANN 近似搜索和 VP-tree 精确搜索。该包在 n >= 50K 细胞时比基于 Annoy 的搜索快约 2 倍,同时输出与 BiocNeighbors 结构相同的结果,使其易于集成到现有的 Bioconductor 单细胞工作流程中。便捷包装器将共享最近邻(SNN)和 k-最近邻(KNN)图的构建委托给 bluster 包。

LACHESIS:该包提供了从全基因组测序数据分析肿瘤演化的模式。特别是,它提供了基因组片段上突变密度的估计,并利用这些来推断肿瘤起源的时间。

lcmsPlot:lcmsPlot 是一个 R 包,旨在使用可发表的、高质量的图表可视化液相色谱-质谱(LC-MS)数据。该包使用户能够生成和定制色谱图、质量迹线、质谱图等,并具有精细调整的美学和注释选项。

leapR:leapR 是一个在多种组学实验中识别富集通路的包。它利用 SummarizedExperiment 对象处理任何表格形式的表达数据(蛋白质组学、转录组学)。它可与 .gct 文件格式的任何通路一起使用。

lncRna:提供了一个从 RNA-Seq 数据中识别、分析和功能注释长链非编码 RNA(lncRNA)的完整工作流程。该包包括从 GTF 文件中过滤转录本、评估多种编码潜能预测工具(如 CPC2、PLEK、CPAT)性能以及总结其一致性的功能。它能对单个工具、”至少 N 个工具”共识以及所有可能的工具组合进行系统性能分析。通过识别与蛋白质编码基因的潜在顺式和反式相互作用,然后进行富集分析来支持功能分析。结果可以使用多种图表进行可视化,包括雷达图、时钟图和交互式桑基图。

LRDE:为长读长 RNA-Seq 数据的差异表达分析提供了障碍负二项式模型。

MDSvis:此包实现了多维缩放(MDS)结果的可视化。

MeLSI:MeLSI(用于统计推断的度量学习)是一种用于微生物组数据分析的新型机器学习方法,它学习最优距离度量以提高检测组间差异的统计功效。与传统的距离度量(Bray-Curtis、欧几里得、Jaccard)不同,MeLSI 能适应数据集的特定特征以最大化组间分离。该方法使用一个弱学习器集成来识别哪些微生物特征驱动组间差异,通过特征重要性权重提供改进的统计功效和生物学可解释性。

MetaboAnnotatoR:使用碎片离子库对 LC-MS 全离子碎片数据集进行特征注释。

metabom8:用于一维核磁共振代谢组学工作流程的工具,包括导入和预处理 Bruker 实验数据、多元建模(PCA、PLS、OPLS)以及模型分析和验证(y 置换、cv-anova)。性能关键型例程在 C++ 中实现,并使用 Armadillo 和 Eigen 线性代数库以提高运行时间。

MetaProViz:MetaProViz 可以分析标准代谢组学和外部代谢组学数据。它执行预处理,包括特征过滤、缺失值插补、归一化和离群值检测。它执行功能分析,包括差异代谢物分析(DMA)、基于调控规则的聚类,并包含不同的可视化方法以提取生物学可解释的图表,并以可用于发表的格式保存。

MutSeqR:用于在错误校正测序后分析突变数据以评估致突变性的标准方法。功能包括导入变异检测器提供的突变列表,以及用于统计检验和突变数据可视化的一组分析工具;与 COSMIC 和/或种系特征进行比较等。

OAtools:提供了一套 R 函数,用于分析 OpenArray 实时 PCR 平台上的基因表达实验。OAtools 将逻辑回归拟合到荧光曲线,以区分真实扩增和假阳性。OAtools 支持数据导入、分析和通过图表和动态 HTML 报告进行可视化。

parati:从分阶段的三元组基因型数据推断母系和父系传递及未传递的等位基因。该包支持对遗传养育和跨代效应的 SNP 水平分析。它通过支持 VariantAnnotation::VCF 对象与 Bioconductor VCF 基础设施互操作,并返回用于下游分析的 R 对象。

plaid:PLAID 是一种超快速的方法,用于计算基因表达或蛋白质组学数据的单样本富集评分。对于每个样本,plaid 计算基因集评分,作为该基因集中基因/蛋白质的平均强度。输出是一个适用于进一步分析的基因集评分矩阵。

PlinkMatrix:此包为 plink bed 文件提供了一个 DelayedArray 接口。支持通过 RangedSummarizedExperiment 与 plink 基因型数据交互。来自 GEUVADIS 项目(internationalgenome.org)的示例数据用于演示。

posDemux:用于具有组合条形码的读段(即 PETRI-seq 和 SPLiT-seq)的解复用和过滤工具。解复用算法使用片段的位置来提取条形码并与参考(白名单)进行比较。提供了一个 Shiny 应用程序,用于交互式选择保留哪些条形码组合的阈值。

postNet:一种工具,能够在全转录组范围内进行计算机模拟识别、整合和建模影响基因表达转录后调控的 mRNA 特征。

proBatch:这些工具有助于高通量实验中的批次效应分析和校正。它主要针对质谱蛋白质组学(DIA/SWATH)开发,但稍作调整后也可适用于大多数组学数据。该包包含诊断(蛋白质组/全基因组和特征水平)、校正(归一化和批次效应校正)和质量控制的功能。还包括基于非线性拟合的方法,以处理复杂的、质谱特异的信号漂移。

PTMods:一个使用质谱法的氨基酸/蛋白质修饰社区支持数据库的接口。

queeems:从分子数据获得的生物学推论,其质量取决于遗传数据中保留的进化特征的程度。可用于量化这些特征的技术主要针对系统发育重建,并且通常依赖于临时的显著性假设检验。我提出了一个贝叶斯函数,用于评估一组遗传序列是否饱和。也就是说,它有助于确定序列中的进化信息是否随时间而退化。针对密码子碱基生成位点特异性贝叶斯因子,以便于广泛应用于大规模计算生物学研究,包括自然选择分析。

RankMap:RankMap 是一个快速且可扩展的工具,用于单细胞和空间转录组数据的基于参考的细胞类型注释。它使用排序基因表达和多项回归来实现稳健的预测,即使部分基因覆盖也能工作。与 Seurat、SingleCellExperiment 和 SpatialExperiment 对象兼容,RankMap 提供灵活的预处理,运行时间显著快于 SingleR、Azimuth 和 RCTD 等工具。

RBedMethyl:使用 HDF5Array 和 DelayedArray 处理大型 nanoporetech modkit bedMethyl 堆叠文件(来自 ONT 数据)的 Bioconductor 原生基础设施。

Rega:欧洲基因组-表型组档案馆(EGA)为个人身份遗传数据提供长期存储和受控共享。Rega 包提供了一个精简且可扩展的 R 接口到 EGA API,促进提交元数据的程序化上传。提供了一个类似 GEO 的 Excel 提交模板作为组织提交元数据的默认方法。

RFGeneRank:用于协调 bulk RNA-seq 矩阵、可选地应用批次校正,并使用 ranger、glmnet 或 xgboost 训练交叉验证分类模型的工具。支持防泄漏的特征选择、排列重要性、基于 SHAP 的可解释性和校准方法(Platt 或等渗回归)。提供跨折刀模型的稳定性指标、嵌入(PCA/UMAP)、ROC 可视化、SHAP 依赖图以及用于下游分析的整洁排名基因表。

RNAshapeQC:RNAshapeQC 为 mRNA-seq 和总 RNA-seq 数据提供基于覆盖度-形状的质量控制指标。它支持从 BAM 文件构建每个基因的 pileup 以及用于快速入门示例的玩具数据集。该包实现了协议特定的指标,包括衰减率、降解评分、平均覆盖深度、窗口变异系数、曲线下面积和基于形状的样本级指数。RNAshapeQC 还包括适用于 HPC 的每个基因批处理和跨研究 pileup 生成功能。该包为多样化的 RNA-seq 工作流程实现了可解释的、协议特定的质量控制评估。

scConform:使用共形推断和共形风险控制为细胞类型注释构建预测区间。它提供了两种主要方法。第一种方法基于标准共形推断,提供具有覆盖保证的预测区间。第二种方法则提供与细胞本体一致的层次预测区间。

scECODA:scECODA R 包为组成数据的分析和可视化提供了一个完整的工作流程,主要关注源自单细胞数据的细胞类型比例。它实现了专门的方法,如中心对数比变换,以正确分析比例数据,同时避免组成约束引入的偏差。该包将数据管理、转换和分析封装到一个 SummarizedExperiment 对象中,提供下游工具,如通过 PCA 进行降维、计算关键指标(如调整兰德指数和模块性)以量化样本分组质量,以及生成高质量的可视化(如热图和散点图)。

scLang:scLang 是用于 scRNA-seq 分析的包开发套件。它提供了可以在 Seurat 和 SingleCellExperiment 对象上操作的函数。这些函数主要旨在帮助开发人员构建与这两种输入类型兼容的工具。

scPassport:为 Seurat、SingleCellExperiment 和 SummarizedExperiment 对象打上持久元数据”护照”印章。对于 Seurat 对象,护照存储在 misc 槽中;对于 SingleCellExperiment 和 SummarizedExperiment 对象,护照存储在 metadata 槽中。追踪动物信息、实验细节、谱系(父/子关系)、RDS 注册号、处理日志和自定义字段。包括一个交互式 Shiny 小部件来填写和更新护照,以及一个用于将完整护照打印到控制台的读取模式。护照在 RDS 文件内部持久化,无需外部文件。

scToppR:scToppR 为 ToppGene 网络平台提供了一个易于使用的 API 包装器,用于基因本体论和功能富集研究。该包还集成了可视化工具,使其成为一个方便的工具,将 ToppGene 直接连接到 R 中基于代码的工作流程。该工具还可以轻松地将结果保存为不同格式。

scTypeEval:scTypeEval 提供了工具,用于在单细胞转录组学中评估和验证细胞类型分类,当真实标签有限或不可用时。结果组织在一个 S4 对象中,该对象整合了处理后的数据、降维、相异性分析和跨样本计算的一致性度量。工作流程包括预处理和特征选择、主成分分析、相异性矩阵计算、内部验证指标(例如,基于轮廓的摘要)以及用于检查热图和 PCA 图的可视化工具。函数支持常见的单细胞容器,并能够在数据集之间比较聚类和标记策略。

SEMPLR:SEMPLR 计算基因组位置和遗传变异的转录因子结合亲和力得分。得分根据 SEMpl 生成的 SNP 效应矩阵计算。包含 223 个预计算的 SEM,也可以提供自定义集。可以在基因组位置集合中测试富集性,以确定转录因子结合事件是否比预期更频繁发生。比较等位基因之间的结合亲和力得分可以揭示遗传变异导致的转录因子结合差异。此包还包括几个可视化功能,用于查看基序和变异/位点水平的得分。

Seqtometry:此包提供 Seqtometry 中使用的函数,这是一种通过特征(基因集)富集评分分析单细胞(scRNA-seq 或 scATAC-seq)数据的方法。Seqtometry 评分可能有助于注释或表征细胞,无论是在类似流式细胞术的工作流程中(其中评分是用作渐进式分区的独立特征,如 Seqtometry 出版物中所述),还是在基于聚类的工作流程中(作为聚类的特征)。导出的 impute 函数也可能在单细胞分析中单独发挥作用。

sfi:用于单次进样模式下 LC-MS 数据分析。在 SFI 模式下,初始进样混合样本作为后续分析的参考峰。然后在固定时间间隔内使用等度洗脱对单个样本进行重复进样。此包提供了分析 SFI 模式数据的功能,包括峰检测和峰重新分配。

singIST:为使用疾病模型和人类数据的伪批量 Seurat 对象实施完整的 singIST 分析提供工具包。

SMTrackR:该包使用外源酶印记信息来映射单个测序 DNA 分子上的蛋白质-DNA 结合。例如,GpC 甲基转移酶、CpG 甲基转移酶和腺嘌呤甲基转移酶。来自此类测定的公共数据集被编译成 tracks,并在公共服务器(如 Galaxy)上托管,以便此包无缝访问。

SpatialArtifacts:SpatialArtifacts 提供了一个数据驱动的两步工作流程,用于识别、分类和处理空间转录组数据中的空间伪影。该包结合了基于中位数绝对偏差的离群值检测与形态学图像处理(填充、轮廓和星形模式),以检测边缘和内部伪影。它支持多个平台,包括 10x Genomics Visium(标准和 HD),允许在不同空间分辨率下进行一致的质量控制。

SpiecEasi:从组成性微生物丰度数据的精度矩阵估计网络。

SpliceImpactR:通过接收来自 HIT Index 和/或 rMATS 的处理后数据,识别差异使用的替代 RNA 加工事件如何通过各种方式导致蛋白质功能变化。这主要通过蛋白质相似性、功能蛋白结构域分析和结构域-结构域相互作用变化来实现。值得注意的是,我们既能识别跨条件的替代 RNA 加工事件”交换”,也能对不同的 RNA 加工事件的影响进行整体分析。

splicelogic:将差异转录本使用结果转化为离散的剪接事件。

SpNeigh:SpNeigh 提供了用于空间转录组数据邻域感知分析的方法。它支持边界检测、空间加权(基于质心和边界)、使用基于样条模型的空间信息差异表达,以及通过空间富集指数进行空间富集分析。专为与 Seurat 对象、SpatialExperiment 对象和空间数据框兼容而设计,SpNeigh 支持对空间基因表达模式进行可解释的、可用于发表的分析。

staRgate:一个基于 R 的流式细胞术数据自动化设门流程,旨在模拟手动设门策略,即相对于单峰背景群体定义流式生物标志物阳性群体,以包含具有不同标志物表达强度的细胞。该流程的主要特点是灵活基于密度的设门策略,能够捕获基于标志物表达模式的不同情况,以分析一个 29 标志物流式 panel,该 panel 表征 T 细胞谱系、分化和功能状态。

StatescopeR:StatescopeR 是 Statescope 的一个 R 包装器,Statescope 是一个计算框架,旨在从 bulk RNA 谱推断的细胞类型特异性基因表达谱中发现细胞状态。

tidyexposomics:tidyexposomics 包旨在促进暴露和组学数据的整合,以识别暴露-组学关联。我们按照 tidyverse 框架构建命令,使命令设计简化且直观。这里我们提供执行质量控制、样本和暴露关联分析、差异丰度分析、多组学整合和功能富集分析的功能。

tidyprint:为 SummarizedExperiment 对象提供定制的打印方法,以增强在 tidy 工作流程中的可读性和可用性。它提供一致的、与 tidyverse 对齐的控制台显示,包括用于大型基因组数据的替代 tibble 抽象,以提高可发现性和解释性。该包还包括统一的、上下文相关的消息传递工具,旨在用于 tidyomics 生态系统。

toppgene:ToppGene Suite 是一个一站式门户,用于基于功能注释和蛋白质相互作用网络的基因列表富集分析和候选基因优先排序。尽管 ToppCluster 网络应用程序为 ToppGene Suite 提供了方便的图形访问,但 ToppGene 的 OpenAPI 3.0 兼容接口更适合自动化和可重复性。此包包括 Bioconductor 类接口和生物学示例。

VISTA:VISTA 平台通过将 DESeq2 和 edgeR 包装到一个基于 SummarizedExperiment 的容器中(带有统一元数据),简化了差异表达工作流程。该包包括可视化工具、MSigDB 富集辅助工具和可选的去卷积支持,以简化 RNA-seq 实验的交互式探索。

wavFeatExt:提供了模拟拷贝数变异谱、对基因组信号应用非抽取 Haar 小波变换以及提取小波衍生特征以用于监督学习的工具。实现了多种机器学习方法,包括套索和弹性网络正则化、随机森林、偏最小二乘法、神经网络和 k-最近邻,以从基因组特征向量训练预测模型。该工作流程支持从拷贝数变异模拟到特征提取和分类的端到端分析。

ZarrArray:ZarrArray 包利用 Rarr 包将 Zarr 数据集以 DelayedArray 对象的形式引入 R。该包中的主要类是 ZarrArray 类。ZarrArray 对象是一个类似数组的对象,表示 R 中的 Zarr 数据集。ZarrArray 对象是 DelayedArray 的派生类,因此支持 DelayedArray 对象支持的所有操作(延迟或块处理)。

结尾
路漫漫其修远兮,吾将上下而求索。

欢迎加入生信交流群。加我微信我也拉你进 微信群聊老俊俊生信交流群(微信交流群需收取 20 元入群费用,一旦交费,拒不退还!(防止骗子和便于管理)) 。

声明:来自老俊俊的生信笔记,仅代表创作者观点。链接:https://eyangzhen.com/8005.html

老俊俊的生信笔记的头像老俊俊的生信笔记

相关推荐

添加微信
添加微信
Ai学习群
返回顶部