Aird-ComboComp
面向计算
质谱 (MS) 数据量随着离子采集率的提高和高精度质谱仪的增加而增加。然而,最广泛使用的数据格式 mz ML 并没有利用压缩方法和改进的读取性能。近年来提出了几种压缩算法,它们考虑了许多因素,包括数值精度、元数据读取策略和压缩性能。由于压缩率有限,高通量 MS 数据格式仍然相当大。高带宽和内存要求严重限制了 MS 数据分析在云和移动计算中的适用性。 ComboComp 是对 Aird 数据格式的全面改进。 ComboComp不是直接使用通用压缩器,而是使用两个整数压缩器和四个通用压缩器,并通过动态决策器获得最佳压缩组合,在众多压缩器中实现最平衡的压缩比。 ComboComp 支持新的整数和通用压缩器的无缝扩展,使其成为一个不断发展的压缩框架。压缩率和解码速度的提升大大降低了数据交换和实时解压的成本,有效降低了MS数据分析的硬件要求。在物联网设备上分析质谱数据可用于实时质量控制、分散分析、协作审计和其他场景。我们在常用 MS 仪器生成的 11 个数据集上测试了 ComboComp。与Aird-ZDPD相比,压缩大小平均减少12.9%。解压速度平均提升27.1%。平均压缩时间与 ZDPD 几乎相同。高压缩率和解码速度使 Aird 格式可有效用于小型存储设备上的数据分析。这将使未来即使在物联网设备上也能正常处理MS数据。我们提供 Java、C# 和 Python 三种语言的SDK,它们为各种采集模式提供了优化的接口。