网站首页 > 编程文章 正文
绝无仅有的3分+文章的最快方式
更多生信干货知识
私信我回复“数据库”即可免费领取哦
从小白的角度,一刻钟复现生信套路。各位小伙伴大家好,这里是美丽专栏。
今天为大家带来一篇2019年1月份发表于Hum Pathol(影响因子:2.735)的单基因生信文章套路复现。文章复现是生信小白成长为大神的最佳路径。在本篇文章中,美丽将会手把手教您3图3表逐个步骤的文章复现。
话不多说,我们开始吧!
题目:MMP14 predicts a poor prognosis in patients with colorectal cancer
材料与方法一:患者数据收集情况
分别从TCGA数据库和GEO数据库中的GSE39582数据集中获取MMP14表达矩阵和相关的临床数据,对应的分别计算总体生存率(OS)和无病生存率(RFS)。
注:不同版本的TCGA数据,有可能获取的患者的样本例数不一致,因为TCGA数据库一直处于更新过程中。所以看到生信文章中TCGA里同一个癌种的患者样本数不一致,大家也不要奇怪,有可能就是版本不同导致的。大家做生信分析的时候,尽量选择TCGA数据库中的最新版本的数据进行下载
材料与方法二:图表结果及复现
01
使用工具
1)仙桃学术工具(
https://www.xiantao.love/products)
2)GEO数据库(
https://www.ncbi.nlm.nih.gov/gds)
3)HPA数据库(
https://www.proteinatlas.org/)
02
复现任务
1)Table1 结直肠癌患者的基线资料表(测试集)
2)Table2 结直肠癌患者的单因素/多因素分析(测试集)
3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析
4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。
5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS)。
6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。
7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。
03
复现步骤
1)Table1 结直肠癌患者的基线资料表(测试集)
注:本部分由于作者采用的是自己的样本信息,但是我们复现是没有患者信息的,因此,我们选择TCGA的临床患者信息进行代替。
? 跟大家说一个好消息,心心念念的GEO数据,在3月份会上线哦~大家再期待一下下。
复现步骤
进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
选择临床意义(靠)- 基线资料表,点击进入
选择疾病—结直肠癌
选择表达矩阵的数据格式为FPKM。一共有521例样本。由于版本的不同导致的,仙桃学术是调用的最新版的TCGA表达和临床信息。优先选择最新版本的数据库更新数据。
在分子框内点击一下,输入基因名MMP14。
⑥选择第一个基因。
温馨提示:在疾病下拉框中,收录了结肠癌,直肠腺癌,以及结直肠癌三类信息,可供大家根据不同的目的进行选择。
⑦ 点击确认。
⑧ 点击基本参数,在表格格式中有“纯基线资料表”“列联表”“列联表-简洁版”可供选择。根据本文,选择列联表-简洁版。
温馨提示:由于TCGA数据库的临床资料获取容易,所以如果按照整体数据集进行基线资料表分析,非常容易与其他文献“撞车”,所以,现在为了避免与他人结果重复,我们会选择以基因表达差异进行分组,观察基因的表达变化对临床不同变量的作用。
分类变量这里把所有的变量都选上。
其他结果按默认选项保持不变(当然也可以根据实际需要选择,当你拿不准是否需要调整时,一个是可以根据已经发表的文献进行参数调整;一个可以选择默认参数也是没问题的)。点击确认。
结果保存。这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“基线资料表”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。
在历史记录中的第一条“基线资料表”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。
同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。
2)Table2 结直肠癌患者的单因素/多因素分析(测试集)
复现步骤
①选择临床意义(靠)-预后分析-单因素|多因素COX回归分析
②选择结直肠癌-FPKM数据集
③根据作者表格中罗列的信息,按顺序逐一进行添加
④由于作者选择OS进行分析,因此我们在参数中,也选择OS(默认即可)
⑤点击确认,并保存结果
这里有“保存结果“”Excel表格下载“”CSV表格下载““Word表格下载”等多种结果保存形式。雪球推荐先点击保存结果,输入分析名称,比如“多因素分析”,然后点击确定。这样在历史记录中就会保存有这个结果,留待以后的调整修改。
在历史记录中的第一条“多因素分析”中就有我们刚才保存到 云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。
同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。
3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析
复现步骤
前面步骤同表2,区别是在参数中,将OS调整为其他生存结果。
(小贴士:工具中虽然没有提供DFS的结果,但是可以选择DSS进行代替。虽然预后指标包含很多,如OS,DFS,DSS,PFI等,但是我们自己在进行分析的时候,选择其中的1-2个指标即可,不需要全部预后结果都进行分析的。)
点击确认,并保存结果
在历史记录中的第一条“多因素分析2”中就有我们刚才保存到云端的数据啦。后续需要调整分析可以在历史记录这一栏里追溯回来。
同时,也推荐点击Word表格下载。下载后会出现这样的word文档展示页面。一键式发表级的三线表就完成了。该表可以直接应用于文章发表。
4)Figure1 在结直肠癌中MMP14的差异表达情况。A:正常组和肿瘤组对比;B:TCGA数据库的I、II和III期比较。C:GSE数据集中分析I、II和III期的差异表达。
复现步骤
图A
复现步骤
①进入仙桃学术工具(https://www.xiantao.love/products);选择高级版,点击“立即使用”(注:免费版和基础版都可以进行统计和可视化,由于高级版功能最全,这里选择高级版作为范例)
②选择表达差异(挑)中的非配对样本,点击进入。
③选择结肠癌,FPKM数据格式。
温馨提示:仙桃工具除了原文中的TCGA数据集单独分析,还提供了联合GTEx数据库。既Genotype-Tissue Expression,收集正常人因为意外去世的尸体解剖的样本,比如大家很熟悉的GEPIA数据库,也是应用GTEx进行联合分析哦。在TCGA收集的某些癌种癌症组织数据中正常数据不足的时候,把GTEx纳入进来,分析的结果更为准确)
④在类型中选择“点图”,点击输入分子“MMP14”。
⑤点击确认。
⑥进一步设置散点大小
⑦再次点击确认出图
⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。
⑨点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。
图B
复现步骤
①选择临床意义-临床相关性,点击进入。
②选择结直肠癌,FPKM数据格式。
③选择临床T stage分期
④在类型中选择“点图”,点击输入分子“MMP14”。
⑤点击确认。
⑥进一步设置散点大小,去掉图中无统计意义的分组
⑦再次点击确认出图
⑧得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。
⑨点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。
图C
复现步骤
百度检索GEO数据库,选择Datasets
或者直接进入GEO数据库(https://www.ncbi.nlm.nih.gov/gds),在GEO DataSets的检索框中输入GSE39582
点击第一个,在新页面中下载表达矩阵文件。
用EXCEL文件打开矩阵
第一列为探针名,我们需要根据探针编号,找到MMP14基因。
本套数据使用GPL570芯片,因此,下载GPL570芯片信息。
点击Download即可进行下载。
依然是使用EXCEL打开文件
使用查找功能,找到MMP14对应的探针名:160020_at
打开GSE39582矩阵,找到160020_at对应的表达值
找到不同组别的信息
整理矩阵信息
在表格中新建一列,根据设计描述内容,将598例样本,分成I-443例,II-123例,III-19例放入其中
选择仙桃工具-基础绘图-散点图,点击上传
点击确认出图
进一步设置散点大小,去掉图中无统计意义的分组
再次点击确认出图
得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。
温馨提示:虽然我们可以使用Prism工具进行作图,并计算统计分析,但是新手拿到这类软件,需要至少三天的时间摸索,才能学会如何选择模块,以及统计分析。但是,使用仙桃工具,我们只需要将数据按照示例格式准备好,就可以一键出图,连统计结果都给你算得妥妥的~
点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。
接下来,我们将利用拼图工具,将图A,图B,图C进行拼接。
选择拼图工具
将左侧保存的图,根据需要,拖拽到右侧的全版图页面
随后调整图片位置
温馨提示:拼图工具,默认打开吸附对齐辅助线,所以当两张图片距离较近时,会自动添加吸附线,以及进行对齐。比某拼图软件,先设置辅助线,再手动对齐的操作更加方便快捷。
整理完成,点击保存为PDF,即可进行预览及图片的保存。当然,也有TIFF格式可供选择。
PDF预览图
Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS)。
复现步骤
①临床意义-预后分析-KM曲线,点击进入。
②选择结直肠癌,FPKM数据格式。
③点击输入分子“MMP14”。预后参数为OS。
温馨提示:除了OS外,工具中还提供了DSS、PFI的结局变量。
④点击确认。
⑤得出分析的图之后,还有对统计结果的统计分析结果和分析方法的描述。可以直接应用于生信文章中材料与方法与结果部分的写作。
⑥点击保存。可以选择“保存结果“把图片保存到历史记录中(建议后续需要拼图的图片选择这一步,可以后续直接拼图工具那里进行拼图);同时可以选择pdff图片下载,TIFF300下载,TIFF600下载;PPT图片下载任意一种。
其余步骤同上,将预后参数设置为DSS。
点击确定,出图
保存结果,并利用仙桃工具中绘制图2。
Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。
复现步骤
打开HPA网站( https://www.proteinatlas.org/),在检索框中输入MMP14分子
出现的六个模块,分别是组织样本,单细胞分析,病理图谱,脑图谱,血液图谱,以及细胞图谱。我们首先分析肿瘤组织,所以选择病理图谱。
点击Pathology
在疾病中选择COLORECTAL CANCER
选择高表达组织(右侧图)
右键点击另存为肿瘤高表达图1.
在图片左上角,有一个“+”,点击即可放大页面
随后再点击保存,命名为肿瘤高表达图2
同样的操作,选择肿瘤低表达图片并进行保存。
在AI中制作拼图
接下来,选择TISSUE(正常组织),寻找正常组织的MMP14表达情况
选择RECTUM直肠组织。
两个抗体对应两种表达情况,所以我们分别选择一个,随后按照前面的演示,进行图片的保存。并上传至仙桃工具中,进行后续的图片拼接。
最终在AI中获取拼图结果
Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。
由于本部分为作者自己的数据,尚不能在数据库中检索到,如果想复现,需要跟作者联系,获取资料。
当然,如果我们自己有数据的话,也可以使用仙桃工具的免费版,直接按照示例数据进行整理,就可以一键出图啦~
回顾一下,本文利用TCGA、GEO以及作者自己的病人样本,三部分数据进行生物信息学分析,包括使用TCGA数据库进行单因素/多因素
我们再来根据本文的图表进行逻辑梳理:
靠1)Table1 结直肠癌患者的基线资料表(测试集)
靠2)Table2 结直肠癌患者的单因素/多因素分析(测试集)
靠3)Table3 单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析
挑4)Figure1 在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况。
靠5)Figure2 在TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分
析(OS+RFS)。
挑&靠6)Figure3 免疫组化检测结直肠癌患者,MMP14在癌与癌旁的表达。
靠7)Figure4 在测试集中,结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。
作者首先利用自己的数据样本,制作结直肠癌患者的基线资料表,随后进行单因素/多因素分析,并分期单因素和多因素的临床变量与预后(Disease Free Survival)关联的Cox回归分析。进一步,作者在TCGA数据库中,分析结直肠癌中MMP14的差异表达情况,并且利用TCGA数据库和GEO数据集中,分析结直肠癌患者MMP14高表达的生存分析(OS+RFS);接下来利用HPA数据库,分析结直肠癌患者,MMP14在癌与癌旁的蛋白表达。最终,在作者的样本中,分析结直肠癌患者MMP14的高表达患者生存分析(OS+DFS)。
温馨提示:临床资料常见研究套路,三表一图,即基线资料表,单因素分析表,多因素分析表,及生存曲线图。
本文将临床资料用到极致,可以说,是一个“靠”字闯天涯。
生信文章发表,高分可能需要技巧,但是3分的文章,还是套路感满满的,希望在美丽的指导下,能够带领大家轻松发表生信文章。
上面一套步骤走下来,刚沏的茶都没凉,大家赶紧操练起来吧,我喝茶去了,我们下期再见~
—END—
猜你喜欢
- 2024-10-20 Microsoft Excel 网页版新增导出 CSV 文件功能
- 2024-10-20 保姆式教程|仅靠这个数据库就发到生信3+?这个套路值得耍一耍
- 2024-10-20 Rdatasets:2000+个数据集供你练习数据分析及其可视化!
- 2024-10-20 Commata库:C++中CSV文件处理(csv库的作用)
- 2024-10-20 Data Lake Analytics + OSS数据文件格式处理大全
- 2024-10-20 JS 下载/导出 csv、excel、txt 、img等文件的方法总结
- 2024-10-20 一个超强的机器学习库(机器学习库sklearn)
- 2024-10-20 用Python读取csv文件中的沪深300指数历史交易数据
- 2024-10-20 CSV超大文件编辑软件snapde(csv文件大小)
- 2024-10-20 Java通过clickhouse-client导出csv,百万数据3s内导出
你 发表评论:
欢迎- 最近发表
- 标签列表
-
- spire.doc (59)
- system.data.oracleclient (61)
- 按键小精灵源码提取 (66)
- pyqt5designer教程 (65)
- 联想刷bios工具 (66)
- c#源码 (64)
- graphics.h头文件 (62)
- mysqldump下载 (66)
- sqljdbc4.jar下载 (56)
- libmp3lame (60)
- maven3.3.9 (63)
- 二调符号库 (57)
- 苹果ios字体下载 (56)
- git.exe下载 (68)
- diskgenius_winpe (72)
- pythoncrc16 (57)
- solidworks宏文件下载 (59)
- qt帮助文档中文版 (73)
- satacontroller (66)
- hgcad (64)
- bootimg.exe (69)
- android-gif-drawable (62)
- axure9元件库免费下载 (57)
- libmysqlclient.so.18 (58)
- springbootdemo (64)
本文暂时没有评论,来添加一个吧(●'◡'●)