3D-MSNet

非靶向多组学LC-HRMS峰提取

3D-MSNet
3D-MSNet
3D-MSNet
液相色谱质谱法 (LC-MS) 广泛应用于蛋白质组学和代谢组学成分分析。 研究人员经常非靶向分析方法检测样品中的未知成分。 为了获得更多的检测数和更准确的定量结果,科研人员不断追求更高的数据采集精度,购买更精密的质谱仪,却很少关注分析算法的原理和低精度的数据分析方法带来的影响。由于LC-MS数据高维度、高复杂度、高通量的特征,现有方法都无法实现对质谱信号的无损高维分析,普遍将三维质谱数据降维为二维EIC分析,忽略了质谱信号在高维的数据分布。
为了充分利用质谱数据的三维空间分布,我们提出了3D-MSNet,将质谱信号看做三维点云,利用深度神经网络分析质谱仪采集到的每一个信号在三维空间中的分布特征,首次实现了质谱数据的高维无损分析,达到目前最高的非靶峰检测数量和定量精度。

分析原理

3D-MSNet 首先将 LC-MS 原始数据分割为多个点云,每个点云在预处理后通过多层深度神经网络提取每个质谱信号的局部空间特征,之后通过多任务神经网络预测进行峰中心预测、峰语义预测和峰边界预测。 最后,我们将预测结果组装成最终选峰结果。

原理

1. 点云分割

尽管3D-MSNet对于输入的点数没有限制,但由于计算资源(显存)的限制,质谱点云需要被分割成多份进行分析。3D-MSNet对于点云窗口的分割分为两步:第一步,首先根据手动设置的窗口分割宽度计算初始分割窗口,分割窗口的大小设定可以根据GPU显存的容量进行调整;第二步,为了避免边界切割对质谱峰形状的影响,我们以初始窗口为中心,将初始窗口根据用户设定的膨胀宽度在m/z与RT维度上进行膨胀,膨胀的宽度大于信号峰在对应维度上的最大峰宽。因此,中心落在初始窗口中的信号峰中的所有信号点必将被完整包含在膨胀窗口中。3D-MSNet使用膨胀后的窗口对点云进行分割,之后使用膨胀窗口对点云进行分割。在质谱峰的搜寻中,只保留中心落在初始窗口内的检测结果,使用这种点云分割与结果合并方法,3D-MSNet保证了检测的全面性与非重复性。

2. 点云预处理

为了获得更好的模型泛化性,我们在m/z与RT维度上根据理论半峰宽对点云数据进行了归一化。在强度维度上,我们对每个信号点的强度值取对数,减小强度分布区间,增强低强度峰的选峰效果。所有预处理操作都是可逆的,因此质谱数据的精度在预处理过程中没有损失。

3. 深度神经网络特征提取与多分支预测

3D-MSNet是一个基于深度学习的端到端的多任务网络,是针对质谱数据的分布设计的,包含一个特征提取主干网络、三个质谱峰预测分支、和一个结果组合状态机。三维质谱点云在分割归一化后,输入主干网络进行逐点的多尺度特征提取。首先,应用局部空间编码块来提取每个点的局部空间特征。局部空间编码块使用共享多层感知机(MLP)将近邻的3D坐标编码为空间特征。然后,应用多个编码模块进行分层的空间特征编码。在每个编码模块中,点特征通过强度概率采样和逐点插值卷积进行聚合。虽然点云被采样成更少的点,但每个采样点通过聚合来自更大感受野的特征来获得更大规模的特征。接下来,应用多个解码块将提取的分层特征传播到原始的质谱信号点。在每个解码块中,从不同层次提取的点特征通过最近邻插值和连接进行组合,然后应用共享的MLP将连接的特征转换为最终的解码特征。

3DMSNet具有三个预测分支:质谱峰语义预测、质谱峰中心预测和质谱峰边界预测。所有预测分支都使用全连接网络实现。质谱峰语义预测分支用于预测每一质谱信号点属于质谱峰的概率,以区分质谱峰和噪声。质谱峰中心预测分支用于预测每一质谱信号点为质谱峰中心点的概率,以区分不同的质谱峰。质谱峰边界预测分支用于预测以每一质谱信号点所属的质谱峰的边界范围,以得到每个质谱峰的定量范围。3D-MSNet并不直接预测每个点的实例标签,因为每个点的实例标签是由属于所有实例的概率和一个固定的筛选阈值决定的,这会导致在空间上不连续的混乱实例分割结果。由于质谱峰信号点分布紧凑,3D-MSNet为每个质谱峰预测一个极坐标掩膜(PolarMask)以获得更鲁棒的量化结果,极坐标掩膜是在m/z和RT平面上由一个中心点和多条等角射线表示的质谱峰投影的轮廓。质谱峰的强度由预测边界内的3D峰的体积表示。通过为每个特征预测明确的边界,3D-MSNet可以分离重叠的特征并获得更鲁棒的量化结果。

4. 选峰结果融合

我们设计了一种组装机制来聚合上述三个分支的预测结果。首先通过分析语义和中心预测结果来选择潜在的质谱峰中心点。然后,通过分析潜在质谱峰中心点的3D坐标与极坐标掩膜之间的关系,筛除重复鉴定到的质谱峰。最后,对筛选出的质谱峰分离相交的特征边界,以避免对质谱信号点的重复定量。

结果验证

1. 首次实现对无损质谱数据的直接分析

3D-MSNet使用了全新的质谱数据分析方式,抛弃原有的逐个维度分析等有损分析方法,通过将质谱数据看作三维点云,使用深度学习模型对质谱点云进行直接的空间分析,首次实现了对无损LC-MS数据的分析,达到了更高的质谱峰检测与定量的准确性。

2. 更高的质谱峰检测的数量

在公开代谢组学与蛋白质组学评测数据集上的测试中,本专利方法与流行非靶向分析软件相比,在代谢组学数据集与蛋白质组学数据集上都取得了最高的质谱峰鉴定数。在两个代谢组学数据集中,本发明达到了最高的质谱峰检测百分比,分别达到95.7%与98.9%,明显高于排名第二的91.1%与96.6%。在蛋白质组学的数据集中,本发明也达到了最高的98.8%的检测率,高于第二名的98.12%。

3. 更高的质谱峰定量的准确度与稳定性

在公开代谢与蛋白质组学评测数据集上的测试中,本专利的方法具有最高的质谱峰定量准确度。在对技术重复实验结果的定量中,本专利的方法具有最低的强度检测波动。在测量强度与理论浓度的比较中,本专利的方法展示出了最高的一致性,具有最优的质谱峰定量效果。

4. 更高的生物标志物检测数量与准确性

在公开代谢组学评测数据集上的测试中,本专利在两个代谢组学数据集上都取得了最高的生物标志物鉴定数的同时,没有误鉴定的生物标志物,达到了最高的生物标志物鉴定的数量与准确度。

5. 鲁棒性与普适性

上述测试结果都基于同一个预训练模型,训练的数据集来自于第一个代谢组学数据集的第一个样本,此样本在后续的比较中被剔除以免对结果的影响。三个评测数据集是由不同质谱系统采集,拥有不同的数据分布。本专利在所有的测试数据集上都得到了最高的质谱峰检测与定量准确度,展示出了很好的普适性与鲁棒性。

6. 合理的计算时间

3D-MSNet使用了基于深度学习的分析方法。在运行时间的比较中,3D-MSNet的运行时间约5倍快于其他基于深度学习软件,与基于常规分析软件耗时相持平。

原理
原理
原理

验证数据集