AirdPro

专注于质谱数据中心

AirdPro
AirdPro
AirdPro

介绍质谱数据

质谱数据内容

01

流出时间RetentionTime

高分辨质谱仪可以达到每0.05秒扫描一次,同时产生一张光谱图,一个小时的质谱分析可以产生72000张光谱图,也就是72000个RT,使用Float存储,需要281KB

02

质核比m/z

每一张光谱图包含数百至数万个荷质比,每一个荷质比同时对应一个离子强度值,由于当前质谱仪的精度限制,蛋白质DIA采集模式下质核比一般不超过2000Da,现有的质谱仪精度一般可以精确到小数点后4-5位

03

离子强度Intensity

每一张光谱图包含数百至数万个粒子强度,每一个粒子强度,对应一个质核比,粒子强度范围非常广,大的时候可以上亿。不同仪器表现出的强度特征差异非常大

04

元数据MetaData

除了质核比及离子强度以外其余所有的信息,一般包括仪器信息,采集模式等基础信息,也包括索引的相关信息,元数据信息需要很强的搜索能力

质谱数据内容丰富,但是在存储和处理上存在一些特殊的特征

m/z实际精度有限
相邻m/z 差值的相似性高
相邻m/z 差值小
m/z 有序
m/z范围小
相邻光谱相似性
Intensity 重复性高
m/z整数小数线性关系

第一代压缩内核ZDPD 差值压缩

原理

效果

第二代压缩内核 3D堆叠

第三代压缩内核预测差值矩阵

JSON元数据多策略索引

Aird格式转换流程及最终压缩效果