服务介绍
随着高通量测序技术的迅猛发展,各种生物医学数据库应运而生,大数据挖掘技术已成为生物医学领域中最新最重要驱动力之一。GEO是当今最大、最全的公共基因数据资源库,包括基因的表达、突变、修饰等信息,涵盖几乎所有的疾病,且单个实验检测样品数目较多。TCGA数据库包含11,000个病人的33种肿瘤的7个不同层面的基因数据(包括基因表达、CNV,SNP,DNA甲基化,miRNA,外显子组等)和临床数据,旨在解析癌症发生的分子机制、肿瘤的亚型和治疗靶点等,也可佐证实验数据和提供新的研究思路,因此近年来基于GEO和TCGA数据发表的文章指数级增长。
吉赛生物融合数据挖掘技术、生物信息学和医学统计学,挖掘公共数据库并提取有价值的信息,加速科研进度。
部分结果示例
图1. 公共数据挖掘思路及结果展示
1. 公共数据挖掘
根据客户需求,挖掘TCGA、GEO、SRA等公共数据库蕴含的多层面的疾病数据,提供差异筛选、功能富集、靶基因预测、网络分析、生存分析、分子标志物分析等多种生物信息学分析内容。
2. 免疫浸润分析
免疫浸润分析可在转录组表达水平反映各样本的免疫活性状况,揭示组织细胞的免疫微环境。肿瘤具有很强的异质性,同一肿瘤在不同个体之间具有不同的免疫活性,而具有相似免疫活性状况的样本则可能处于相同的免疫微环境,免疫浸润分析是肿瘤微环境分析的强有力手段。
3. 预后分子分型
通过分析癌症等疾病样本中的基因信息(表达、甲基化等)以及临床信息,使用多种分类器挖掘预后相关标志物,为疾病的预后提供有效的预测模型。
4. 生物标记物分析
通过分析癌症等疾病和正常样本的基因信息(表达、甲基化等),使用分子建模的方法,发现早期诊断标志物。