各位老师好~相信很多老师在科研工作中,时常面临一个共同的挑战:如何挑选并有效地利用数据库来丰富我们的研究成果。因此,小谱特意策划了关于组学数据库挖掘实操的系列文章,希望为大家梳理并推荐在学术文献中频繁提及、质量上乘的数据库资源。让各位老师不仅能了解各种数据库的独特功能和作用,还能掌握其分析原理,并最终能够亲自动手,复刻出这些数据库中的精彩结果!话不多说,我们直接来看今天要介绍的数据库——CMap!
Part.01
潜在药物数据库CMap
今天为大家介绍的是一个潜在药物数据库——Connectivity Map(简称CMap),这是一个基因表达数据库,由美国癌症研究所(National Cancer Institute,NCI)的癌症系统生物学中心(Cancer Systems Biology Consortium)联合打造。根据不同干扰物(涵盖小分子等)处理人类细胞后的基因表达差异,建立一个干扰物、基因表达和疾病相互关联的生物应用数据库。

CMap网站首页
CMap具体是用来做什么的呢?简单来说,就是借助CMap的强大功能,研究者们只需输入自己的基因表达谱数据,系统便能迅速比对干扰物、基因表达和疾病之间的表达量关联,进而精准地筛选出与疾病高度相关的潜在药物。应用在蛋白质组学数据上,我们可以通过提交上调和下调蛋白的列表信息,即可获得CMap返还的潜在药物预测结果,可谓是一个操作简单、功能强大的数据库了!
Part.02
CMap实操指南
首先我们打开CMap网站https://clue.io/,进入最新版本Clue主页,新版本需要以非盈利邮箱注册,比如学校edu邮箱。该版本目前收录了约8000以上表达谱数据条目,包括小分子相关表达谱、基因敲除/过表达相关表达谱等。

非盈利邮箱注册,打开Query功能页面
注册登录后,点击Tool目录下Query进入功能页面。

蛋白质组学数据选择Gene expression(L1000)
进入Query页面后,先命名你的项目,再选择本次要上传的数据类型,蛋白质组学数据处选择Gene expression(L1000),其他参数默认。其他可上传的数据类型还包括细胞生存、磷酸化和组蛋白修饰的表达谱数据。

上传上调及下调蛋白的信息
在"UP-regulated genes"框内上传所要分析的上调蛋白,直接复制粘贴即可;同理在"DOWN-regulated genes"内输入下调蛋白,是否输入下调蛋白是个可选项,如果没有可不填(这里强调下:上传的蛋白的数量只能在10-150之间,上下调加起来不超过300个)。其中只有蓝色打钩的基因才是可用的,红色和空白圈圈的基因代表无法用于数据库检索,可删除后保留合格的150个基因。最后点击SUBMIT,等待分析结果。

网页右侧等待分析结果并下载
网站分析大约需要等待20-30分钟,出现下载标识即代表分析完成,可点击下载查看文件。这里插一句,在线网页版本可以点击右侧HEATMAP初步查看整体数据情况,但新版本不支持查看细节列表。我们直接选择下载全部数据,本地查看分析结果。



打开query_result文件夹
依次打开下载的压缩文件的arfs>>TAG文件夹,即可找到分析结果query_result表格。下一步打开query_result表格,表格看起来有点复杂,别急,小谱手把手教你怎么看+整理分析结果!
删除无效列表信息
打开表格后,为方便后续筛选表格数据,首先删除掉部分列表中的无效信息,即图中选择的三行。接下来就是筛选表格信息、按照药物得分来整理表格数据了。表格中需要特别关注的为以下图中标绿色列的内容,这几列包含了什么信息呢?

需关注列表信息列
pert_iname——潜在药物名称
pert_type——药物小分子的靶点
通常研究的药物类型是小分子化合物,此列仅保留“trt_cp”即compound小分子化合物类型。
moa——药物作用机制
target_name——药物小分子的靶点
在“moa”与“target_name”两列中可能会出现“-666”值,其代表数据库中无记载的缺失值,通常选择剔除。如果你的研究目的是探索未经记载的新药,则可选择保留。
raw_cs——CMap的药物得分
通常在-1到1之间。
norm_cs——标准化后的药物得分
得分越小,代表潜在药物的治疗效果越好。
fdr_q_nlog10——对数转化后p值
此栏的值越大p值越小。

其他列表信息,如不同药物剂量时间处理情况
此外,表格中还包含有其他信息。方框①内为潜在药物的其他id名称,如CMap数据库分配的化合物唯一标识符等;方框②内为细胞系在不同的药物处理条件下(剂量/时间)产生的不同的基因列表结果数据,如治疗幅度、稳定性等。

norm_cs越低,代表药物与疾病的蛋白表达越呈现负相关,即治疗效果越好
最终通过层层筛选,norm_cs得分最小的前几名化合物药物,即为值得我们进一步研究的潜在药物啦。到这里,我们的CMap网页分析和潜在药物筛选就完成啦!后续针对这些潜在药物,可开展相关的细胞动物实验,来验证具体小分子化合物药物是否能有效治疗疾病,其中又是大有文章可做,论文的档次轻轻松松又上去了一个台阶~
Part.03
CMap的应用
在当今的临床组学研究中,潜在药物研究已成为一个热门的探索方向。CMap数据库作为潜在药物研究的强大工具,能够进一步推动组学研究成果的临床转化。在非常多的组学文献中[1-4],都通过CMap数据库比对自己项目的基因表达谱数据来获得潜在小分子化合物药物列表,并通过系列的基础实验验证潜在药物的治疗效果(如下图,作者通过CMap筛选得到三种潜在药物Sulconazole、Menadione、GW8510,后续开展细胞及动物实验,验证了潜在药物的治疗效果),成功为将研究结果推向临床做出巨大贡献。(点击查看过往文献解读疾病分子分型怎么做?| 解读《大规模蛋白质组学分析确定食管癌的分子亚型用于精准治疗药物开发》 (qq.com))

针对CMap筛选的潜在药物,开展细胞系及动物实验,验证了潜在药物的治疗效果
谱度众合贴心的将CMap的数据分析添加到了我们的服务产品中,报告结果提供完整潜在药物列表,联合差异分析火山图,助力潜在药物筛选(点击查看具体产品重磅推出 | FFPE临床蛋白质组学解决方案 (qq.com))。想要做药物研究的老师可以私信后台联系哦~

谱度众合FFPE临床蛋白质组学解决方案提供CMap结果图表
那么今天的分享就到此结束啦,如果觉得内容对你有帮助的话,记得关注+分享+收藏哦~下周我们将继续揭秘HPA数据库,教你如何不做验证也能得到免疫组化结果。~(关注我们,后台回复【CMap测试数据】即可获得CMap数据库蛋白质组学测试数据)
参考文献
[1] Zhu E, Shu X, Xu Z, et al. Screening of immune-related secretory proteins linking chronic kidney disease with calcific aortic valve disease based on comprehensive bioinformatics analysis and machine learning[J]. J Transl Med, 2023,21(1):359.
[2] Guo Q, Zhu Q, Zhang T, et al. Integrated bioinformatic analysis reveals immune molecular markers and potential drugs for diabetic cardiomyopathy[J]. Front Endocrinol (Lausanne), 2022,13:933635.
[3] Wang Z, Zhang X, Cheng X, et al. Inflammation produced by senescent osteocytes mediates age-related bone loss[J]. Front Immunol, 2023,14:1114006.
[4] Liu W, Xie L, He Y H, et al. Large-scale and high-resolution mass spectrometry-based proteomics profiling defines molecular subtypes of esophageal cancer for therapeutic targeting[J]. Nat Commun, 2021,12(1):4961.