程序员开发实例大全宝库

网站首页 > 编程文章 正文

NAR | GMrepo:人类肠道宏基因组数据库

zazugpt 2024-08-22 04:32:54 编程文章 18 ℃ 0 评论



文献速递

GMrepo 是一个收录了 253 个项目,囊括了 58,903 个 samples/runs (扩增子 41,285;宏基因组 17,618),横跨 92 种表型(健康 + 91 疾病表型)。对收录的样品进行质控,分类注释和丰度计算,最后将这些信息网页可视化,以便用户查询和重利用人类肠道微生物数据。目前可查询的表型包括年龄、性别、国家、BMI和近期抗生素使用情况等,用户还可以通过 GMrepo 获得预先计算好的物种丰度、表型内和表型间的流行度以及菌株共现网络等信息。


Keywords: GMrepo, database, human gut metagenomes

Title: GMrepo: a database of curated and consistently annotated human gut metagenomes

DOI: 10.1093/nar/gkz764

Journal: Nucleic Acids Research [IF 11.147]

First Authors: Sicheng Wu, Chuqing Sun

Correspondence: Li-jie He,Xing-Ming Zhao,Weihua Chen

Affiliation: College of Life Science and Technology, Huazhong University of Science and Technology, 430074 Wuhan, Hubei, China

Published: 2019-09-04



研究背景

愈多研究表明了肠道菌群与人类生活的许多方面关联,包括健康与疾病,发育,对药物和治疗的反应等。随着研究的发展,人类肠道宏基因组数据日益增多,虽以有 NCBI,ENA 等数据库存储数据,但是数据的可利用和可访问性受到挑战,且表型数据无法简便查询。

研究结果

1.GMrepo的构建

1.1 测序数据的获取和元数据的手动检查

原始测序数据是从 EBI ENA 和 NCBI SRA 数据库中分别用 enaBrowserTools 和 SRA-Tools 下载接着用 Aspera 转换。元数据是从 MGnify 和 NCBI 数据库中匹配相应的测序平台,生物样品,实验,项目,粪便样本的人类宿主等关联信息,再提取表型(即疾病或健康),年龄,性别,国家/地区,BMI和抗生素使用情况等信息,最后换一个人重复校验元数据收集准确性。部分数据是联系文章作者获取。

图1. GMrepo 的整体工作流程

1.2 处理原始数据

使用 FastQC 评估下载数据的整体质量,然后使用 Trimmomatic 删除 vectors 和低质量的碱基。短于原始读取长度三分之二的序列从随后的分析中删除。若是双端的 16S 序列则还需要用 Casper 合并 read。处理后得到 Cleandata 进行后续分析。必要时使用 Seqtk 将 FASTQ 序列转换为 FASTA 格式。

1.3 分类注释及相对丰度计算

对于 16S 序列,使用 MAPseq 进行分类注释。保留在属水平上综合得分高于 0.4 的 read 用于后续分析。然后在每个 sample/run 的属和物种水平上计算相对丰度,总丰度值为100%。

对于宏基因组序列,使用 MetaPhlAn2 在默认参数条件下进行物种注释和相对丰度计算。

1.4 两步质控

经过分类注释后再进行一次质控,一共有 2 步。第一步,删除能分析的reads 条数小于 20000 的扩增子测序 sample/run。第二步,删除出现任一个物种或一个属占总丰度的 99.99% 以上的样品,这步包括扩增子和宏基因组样品。删除样品在 GMrepo 中标记为 ‘failed QC (QC status = 0)’。

图2. GMrepo 宏基因组和扩增子数据处理过程

1.5 物种共现分析

数据库还计算了在某一表型下物种共现情况。配对的物种-物种,属-属 至少在 50 个样品中出现才进行计算。计算物种是否共现的方法是用 R 的 fisher.tes 函数对四个必需数据(同时存在 2 个物种的样品数,只存在其中一个物种的样品数,只存在另外一个物种的样品数,两个物种都不存在样品数)进行检验,当 OR (Odds ratio)值大于 1 和 P 值 < 0.05 时,则认为两个物种在这种表型下是共现的。共现物种还使用 Person 和 Spearman 计算它们之间的互作关系。

1.6 数据库建设和网站开发

所有数据均已加载到 MySQL 数据库中。网站的前端(网页)是使用 HTML 和 JavaScript 编码的,而后端是使用带有 Slim 框架的 PHP 编码的,以支持对 MySQL 数据库的查询,并提供 API 访问的数据。AngularJS 框架用于合并前端和后端。D3.js 和 plotly.js 用于前端的可视化。还使用了其他各种开源 JavaScript 库,包括 jQuery 和jQuery QueryBuilder。该网站托管于 Apache 服务器。


2.Gmrepo 使用

2.1 依据宿主表型收集的人类肠道宏基因组学数据

数据库最后收录了 253 个项目,58,903 个samples/runs (扩增子 41,285 ;宏基因组 17,618 ) 横跨 92 种表型(健康 + 91 疾病表型)。表型汇总统计结果显示,大部分(88.17%)样品都能获取表型信息(图3A),但是同时拥有年龄,性别和 BMI 信息的样品只有三分之一,有 30.86% 的样本不包含任何基本元数据,而其余样本仅包含一个或两个(分别为 25.95% 和 10.31%)(图3B)。这些结果凸显了重用宏基因组学数据所面临的挑战,并呼吁提供元数据信息或宏基因组学样本的报告标准。

图3. GMrepo 的元数据统计

作者还使用了 MeSH (Medical Subject Headings) 系统描述和组织宿主表型。表1列出了 GMrepo 中包含的前 10 个表型。

对于每种表型,统计了相关物种和属的总数。例如健康表型,在可用健康表型的样品( 12,485 个)中发现最后注释到来自 1,613 个属的 6,189 个物种(种或株),但是至少存在 2 个样品以上且相对丰度大于 0.01% 的物种只有 389 个(约占总数的 6.3%)来自 91 个属(约占总数的5.6%),这表明了绝大多数物种只在一个样品出现或者检测到的丰度很低。在其他表型中也有类似结果。

统计数据库可用的 28,252 个样品的物种,最后一共找到了 1,710 个属 6,973 个物种,在一个以上样品出现,相对丰度大于 0.01% 且出现在一个以上表型的物种有 2,685 个物种分布在 834 个属。作者还将这 2,685 个物种进行系统进化树分析(图4),结果与早些发表的研究结果类似。

图4. 基于 NCBI 分类法的包括 2,685 个物种在内的系统发育树

2.2 表型内 / 间的物种丰度,流行率和共现率

基于可用数据,作者展示了每一物种在某种表型下组内丰度及其流行率(图5A)及对照组丰度比较(图5B),与该物种共现的其他物种互作关系(图5C)。这些数据用户均可下载或自己修改图标。数据库还提供了与这个物种相关的外部数据连接,例如, NCBI taxonomy, ENA taxonomy, genome annotations, microbe to bacteriophage interactions, bacteria to drug interactions等。

图5. GMrepo 展示在克罗恩病中 Faecalibacterium prausnitzii 的详细信息。Faecalibacterium prausnitzii 在克罗恩氏病中的分布(A),相对丰度(B)和物种共现网络(C)

2.3 搭载图形查询构建器可进行复杂且生物学相关的数据查询

GMrepo 搭载了图形查询构建器(由 jQueryBuilder 小部件提供支持),以允许用户执行复杂且生物学相关的数据查询。例如,图 6A 显示了如何从 BMI 在 18.5 至 24.9 之间的健康个体中查找运行/样本;图 6B 允许用户查找最近未使用抗生素的美国人的粪便样本;图 6C 显示了如何找到与神经系统疾病(包括自闭症谱系障碍,躁郁症和抑郁症)相关的项目,每个项目都包含健康的对照。

图6. 图形查询构建器的三个示例


结论与讨论

Gmrepo 提供了简便查询的人类宏基因组数据查询,数据库囊括样品多,整理了表型数据,结果可视化,可比较;网页功能系统齐全;对我们后续物种查询提供参考。


Wu S, Sun C, Li Y, et al. GMrepo: a database of curated and consistently annotated human gut metagenomes[J]. Nucleic acids research, 2019.



撰稿 | 三明治 责编 | NSC

本文系菌探Momics(ID:Momics)原创,欢迎个人转发分享。其他任何媒体、网站如需转载,须在正文前注明来源菌探Momics。

Tags:

本文暂时没有评论,来添加一个吧(●'◡'●)

欢迎 发表评论:

最近发表
标签列表