蛋白质组学数据中缺失值的处理
阅读:2542 时间:2023-08-18

一、缺失值简介

蛋白质组学数据中经常存在缺失值,特别是基于DDA的非标记定量蛋白质组学(Label-free Quantification,LFQ)中,这种情况尤为突出。在基于LC-MS的蛋白质组学数据分析中,对于任何给定的样品检测到的多肽和蛋白质定量信息,缺失值占比可能在5%到50%之间,常常显示为:0、NA、NaN等(如下图中的0和NA)。

 

图1 缺失值的表现形式

 

造成缺失值的因素有很多,主要包括:生物因素,如某种蛋白质不表达或丰度低于仪器检测限值;以及分析因素,如制备过程中的样品损失、消化过程中的多肽错切、电离效率低和肽谱匹配度不高等。蛋白质组学数据中的缺失值一般可分为三类:完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。MCAR主要是由质谱仪表现不稳定造成的,对数据影响无偏好性,分布均一;MAR依赖于其他观测变量,如时间梯度越长采集越可能出现缺失值;而MNAR依赖于丰度,如某些多肽/蛋白质含量在仪器检测限以下,这些多肽/蛋白质的定量信息就很有可能丢失,这种现象也被称为左删失数据(left-censored data)。蛋白质组学数据中的缺失值一般是MAR和MNAR的混合物,虽然很难确定实际比例,但普遍认为MNAR是产生缺失值的主要原因,即蛋白质组学数据中的缺失值主要来源于未达到仪器检测极限的低丰度多肽/蛋白质。
    蛋白质组学的统计推断和下游功能分析,例如假设检验、主成分分析和分层聚类分析等,通常需要完整的数据矩阵,定量数据中存在的缺失值会极大地影响这些后续分析。在定量蛋白质组学研究中,对缺失值进行数据过滤和模拟填充是提高蛋白质组分析覆盖率和统计能力的关键前处理步骤。

 

二、缺失值常用的处理方法

 

目前蛋白质组学数据处理缺失值的常用方法包括:

 

(1)直接剔除:

 

如果数据量多,缺失值比例少,认为删除所有缺失值对结果不会有影响,则可直接删除所有含有缺失值的蛋白鉴定条目。直接剔除一般多见于使用TMT(Tandem mass tags)标记定量蛋白质组学的数据处理中。例如,在一项通过TMT定量技术对小鼠肺组织进行蛋白质组学检测分析的研究中,明确提到只保留所有样本中没有任何缺失值的蛋白质组学数据进行后续的t检验和比较分析[1]。

图2 直接剔除缺失值

原文见 Zhang N, Zhang Z, Xu W, et al. TMT-based quantitative proteomic analysis of hepatic tissue reveals the effects of dietary cyanidin-3-diglucoside-5-glucoside-rich extract on alleviating D-galactose-induced aging in mice. J Proteomics 2021; 232: 104042.

 

(2)最小值法数据填充:

在大部分蛋白质组学定量数据中,缺失值往往较多(>10%),直接删除会严重影响数据的完整性,这个时候就需要对缺失的数据进行填充。由于蛋白质组学数据中的缺失值主要来源于未达到仪器检测极限的低丰度多肽/蛋白质,比较简单的方法是以原有数据矩阵中的最小值或1/2最小值进行填充,以固定的极小值模拟质谱检测极限的多肽/蛋白质定量数据。这种方法多见于早期用谱图数来进行粗略的非标记定量的蛋白质组学数据,可将缺失的蛋白定量值填充为1。

 

(3)随机小值法数据填充:

 

质谱仪器的检测极限反映在各个多肽/蛋白的定量数据中并非一个固定的数值,在非标记定量蛋白质组学数据中,通常也不建议用一个固定的最小值来进行填充,而是以拟合正态分布填充随机小值的方式模拟质谱检测极限进行缺失数据填充。大致来说,基于原有数据的正态分布情况,建立一个接近质谱检测极限的正态分布数据集,从中随机生成数据填充进入原有数据中缺失的部分。

例如一项通过LFQ定量研究酵母中蛋白质相互作用的文献中提到[2],确定实际强度分布的均值和标准差后,创建一个平均值下移1.8个标准差,标准差为原数据集标准差0.25倍的新分布,从新建分布中随机取值填充总定量矩阵中的缺失值,从而进行统计分析。类似地,另一项使用LFQ定量技术的蛋白质组学研究中[3],则是建立原有数据分布平均值下移1.8个标准差,标准差为原数据集标准差0.3倍的新分布,用于缺失值的随机填充。

 图3 随机小值法数据填充①


原文见 Keilhauer EC, Hein MY, Mann M. Accurate protein complex retrieval by affinity enrichment mass spectrometry (AE-MS) rather than affinity purification mass spectrometry (AP-MS). Mol Cell Proteomics 2015; 14(1): 120-35.

图4 随机小值法数据填充②

原文见 Liu G, Fu T, Han Y, et al. Probing Protein-Protein Interactions with Label-Free Mass Spectrometry Quantification in Combination with Affinity Purification by Spin-Tip Affinity Columns. Analytical chemistry 2020; 92(5): 3913-22.

4

 

(4)缺失值填充前的数据过滤:

 

在缺失值填充之前,以特定的规则对样品中无效的蛋白质鉴定进行数据过滤,可以有效避免因缺失值填充导致的假阳性结果。通常可将单组样品多次重复数据中鉴定次数超过一定比例的蛋白质,或所有样品中鉴定次数超过一定比例的蛋白质认为是有效鉴定。例如,在本公司参与的一项发表于Immunity期刊的新冠患者血浆蛋白质组学研究中[4],仅使用在超过70%的样品中定量到的蛋白质的数据用于后续分析;在另一项本公司参与的发表于Frontiers in Immunology期刊的小鼠蛋白质组学研究中[5],则是保留至少一组样品中鉴定次数超过50%的蛋白质定量数据进行后续分析。

 

图5 数据过滤

原文见 Shu T, Ning W, Wu D, et al. Plasma Proteomics Identify Biomarkers and Pathogenesis of COVID-19. Immunity. 2020; 53(5): 1108-1122.

 

图6  数据过滤


原文见 Gong R, Luo H, Long G, et al. Integrative proteomic profiling of lung tissues and blood in acute respiratory distress syndrome. Front Immunol. 2023; 14: 1158951.

 

三、数据填充方法评估网站工具

其实在定量蛋白质组学中存在更多更复杂的缺失数据填充方法,不同数据填充方法会有不同的表现,而缺失率和缺失值的类型也会极大地影响数据填充的性能。合理选择填充方法,能显著降低误差率,改善下游分析效果。虽然目前已有很多文献总结和比较了不同蛋白质组学数据填充方法的效果,但尚无公认的针对所有数据集均最有效或最佳的数据填充方法[6-8]。由R shiny开发的一个用户友好且功能强大的Web工具NAguideR(http://www.omicsolution.org/wukong/NAguideR/)[9],集成了23种常用的缺失值填充方法,并提供了两类标准(4个经典标准和4个蛋白质组学标准)来评估各种填充方法的结果。

NAguideR可以通过经典的计算标准和蛋白质组学经验标准进行数据输入结果的评估,例如:同一肽的不同电荷状态之间、属于同一蛋白质的不同肽之间,参与蛋白质复合物和功能相互作用的单个蛋白质之间的定量一致性。开发者将NAguideR应用于三个非标记定量蛋白质组学数据集进行测试,这些数据集分别具有肽水平、蛋白质水平和磷酸化蛋白质组学变量,且都是通过数据非依赖性采集质谱法(DIA-MS)生成,并进行了大量的生物学重复。结果表明,NAguideR能够找到有利于DIA-MS实验的最优填充方法,从而避免次优和低性能的算法。

在NAguideR中有四个主要步骤:(1)数据上传:用户应上传带有缺失值的原始强度数据矩阵;(2)初始数据过滤:根据用户的选择,可以丢弃缺失值比例过高和变异系数过大的蛋白质/多肽;(3)缺失值填充:可执行并获得23种填充方法的矩阵结果;(4)结果评估:应用经典标准和蛋白质组学经验标准来评估上一步的每个结果,提供了两个综合评估表及每个填充方法的评估结果等级,以帮助用户选择适合自己数据的算法。下面的流程图总结了NAguideR中数据分析的过程。

 图7 NAguideR数据分析流程图

 

总结

在蛋白质组学数据中,缺失值是不可避免的,当然也不用因此怀疑数据是否准确真实。近些年来随着技术的发展和完善,蛋白质组学定量数据矩阵中的缺失值大大减少,不仅减少了MCAR和MAR,而且还减少了某些MNAR的出现。目前定量蛋白质组学中使用较多、较便捷且效果较理想的数据填充方法是结合数据过滤和随机小值正态分布填充。若通过了解每种方法的优缺点,对各种方法进行综合评价,选择最合适的填充方法,也可能获得更好的数据填充效果。

参考文献

 

1. Zhang N, Zhang Z, Xu W, et al. TMT-based quantitative proteomic analysis of hepatic tissue reveals the effects of dietary cyanidin-3-diglucoside-5-glucoside-rich extract on alleviating D-galactose-induced aging in mice. J Proteomics 2021; 232: 104042.

2. Keilhauer EC, Hein MY, Mann M. Accurate protein complex retrieval by affinity enrichment mass spectrometry (AE-MS) rather than affinity purification mass spectrometry (AP-MS). Mol Cell Proteomics 2015; 14(1): 120-35.

3. Liu G, Fu T, Han Y, et al. Probing Protein-Protein Interactions with Label-Free Mass Spectrometry Quantification in Combination with Affinity Purification by Spin-Tip Affinity Columns. Analytical chemistry 2020; 92(5): 3913-22.

4. Shu T, Ning W, Wu D, et al. Plasma Proteomics Identify Biomarkers and Pathogenesis of COVID-19. Immunity. 2020; 53(5): 1108-1122.

5. Gong R, Luo H, Long G, et al. Integrative proteomic profiling of lung tissues and blood in acute respiratory distress syndrome. Front Immunol. 2023; 14: 1158951.

6. Jin L, Bi Y, Hu C, et al. A comparative study of evaluating missing value imputation methods in label-free proteomics. Sci Rep. 2021; 11(1): 1760.

7. Gardner ML, Freitas MA. Multiple Imputation Approaches Applied to the Missing Value Problem in Bottom-Up Proteomics. Int J Mol Sci. 2021; 22(17): 9650.

8. Lee KJ, Carlin JB. Multiple imputation for missing data: fully conditional specification versus multivariate normal imputation. Am J Epidemiol. 2010; 171(5): 624-32.

9. Wang S, Li W, Hu L, et al. NAguideR: performing and prioritizing missing value imputations for consistent bottom-up proteomic analyses. Nucleic Acids Res. 2020; 48(14): e83.