听说TCGA数据库中收录了1000多名乳腺癌患者的数据,我正在研究三阴性乳腺癌,如何筛选出这些样本进行单独分析呢?看完这篇文章,相信你会找到答案。
什么是TCGA数据库?
TCGA(The Cancer Genome Atlas,癌症基因组图谱计划)旨在通过基因组分析技术,特别是大规模基因组测序,绘制出人类所有癌症(涵盖33种癌症,超过20000个样本)的基因组变异图谱,并进行系统分析。该计划的目标是找到致癌和抑癌基因的微小变异,从而深入了解癌细胞的发生与发展机制,并在此基础上开发新型诊断和治疗方法,最终形成全面的“癌症预防策略”。该项目由美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)共同实施。
如何获取TCGA数据库中的病理和治疗数据?
关于TCGA数据库,网上有许多攻略和资料可供查阅。其中包括基于R语言的代码操作,以便从数据库中下载和分析组学数据;另外,还有介绍数据库包含疾病、病例及组学数据的文章。尽管如此,对于从事癌症研究的学者而言,这些信息往往难以满足细节的需求。
那么,如何快速了解自己研究的癌症类型在数据库中包含哪些样本?这些患者对应的临床病理信息有哪些?是否有细致的疾病亚型信息?是否存在生存期相关的数据?患者是否有相应的治疗方案和疗效数据?为了解决这些问题,本文将介绍如何通过网页快速获取TCGA数据库中的病理和治疗相关文件,以便我们判断这些样本是否符合分析需求。
示例:如何获取TCGA-LIHC(肝癌)的相关数据
首先,进入GDC网站首页,按照指示点击选择数据库TCGA和疾病类型LIHC。接着,在左侧栏选择数据类别(Data Category)为临床(clinical)以及数据格式(Data Format)为bcrbiotab。系统会展示出8个文本文件,勾选四个相关文件并添加至购物车,然后进入购物车下载文件,稍等片刻即可获得包含这四个文件的压缩包。
解压后会得到以下四个文件:
- 包含377名LIHC患者详细的病理生存信息,包括病人的年龄、性别、疾病史等信息。
- 补充的跟踪随访信息,可根据收录日期对第一个文件进行更新。
- 患者的化疗信息。
- 患者的放疗信息。
利用以上信息,可以判断数据库中收录的样本是否满足自己的研究需求。同时,基于病理和预后分析的个性化需求进行样本选择,能够获得更精确的研究结果。
病理预后数据与组学数据的整合
TCGA的每个样本都有对应的条形码(barcode),格式为TCGA-XX-XXXX。通过这些信息,可以将不同组学的数据与病理数据匹配。以TCGA-LIHC的RNAseq为例,在选择数据库和疾病后,跳转到左侧信息栏,进行相应的选择:在组织类型(Tissue Type)部分选择肿瘤(tumor),然后Tumor Descriptor会提供不同选项,选择371个原位肿瘤样本,点击左侧的样本信息表进行下载。
下载后,利用该CaseID与病理数据匹配,可以确认所选样本是否包含RNAseq数据。这一过程极大地提升了样本的筛选效率,并有助于在尊龙凯时提供的分析中获得更准确的结果。
总结
绝大多数现有研究都是针对特定疾病亚型或对治疗有特殊反应的样本进行的。TCGA样本包含详细的患者临床信息,为精准分析提供了良好的基础。希望通过今天的分享,各位研究人员能更快速地了解在尊龙凯时能否找到与自己研究方向匹配的样本,以及这些样本是否拥有需要的组学数据。如需了解更多相关病理信息,敬请关注即将举行的直播课程。