联系我们contact

电话:027-59760188-801

地址:武汉市东湖高新开发区光谷大道120号现代森林小镇A座609室

分析仪器原始数据格式的通用标准AnIML

发布时间:2018-03-18 浏览次数:409次

所有实验室面对一个共同问题是实验数据的处理和交换,这里尤其以分析实验室最为典型。我们走访诸多分析实验室时,大家谈到最多的就是分析仪器的原始数据,包括其保存,处理,再分析等问题。大家都有一个乌托邦式的梦想,那就是可以用一种软件打开多个不同厂家,不同类型的分析数据。梦想归梦想,现实仍然是现实。仪器供应商们提供仪器的同时都会采用自己的专有格式的数据,这导致了数据处理,协作,仪器集成和存档遇到很多问题。在处理这些原始数据时除了厂家配套的软件,很少有可选的余地。

从2003年开始, ASTM E13.15小组委员会开始筹划开发一套分析数据的通用标准,力求适用于所有分析仪器技术,并将其命名为AnIML。为了平衡各方利益,该小组聚集了来自仪器厂商,最终用户,政府机构和学术界的人士,共同商讨以确保格式完整,适用性强。

AnIML并不是业界第一次尝试将分析数据标准化。之前已经设计过多种标准,如ANDI(也叫NetCDF,适用于GC,LC,MS),JCAMP-DX(IR,FTIR,NMR,UV/Vis),SpectroML(分子光谱数据)以及mzML(质谱),以及一些仪器公司倡导的标准,如Thermo 所提出的GAML。虽说这些数据格式在分析仪器行业取得了较大的支持力度,但它们大都只针对特定的分析技术,例如JCAMP-DX主要针对的光谱技术,而AnIML期望建立的是一种适用于所有分析技术的数据格式。借助清晰完整的扩展方式,即便将来出现了新的分析技术,也不用改变现有的软件,从而简化数据管理的工作。由此,XML这门强大而影响深远的语言终于可以将其影响力扩展到分析实验室。

AnIML是基于W3C XML标准的技术。XML独立于平台,易于创建,使用和维护。这降低了使用门槛,几乎所有的主流软件开发商都支持XML,并且存在大量以XML格式为基础的工具。 由于XML是基于文本的。因此可以用最简单的文本编辑器编辑AnIML文件 – 而不需要特定的软件。尽管这样不一定方便,但保留这一特性是用于长期数据保存方案的关键:即使丢失了之前的软件,我们仍旧可以获取我们需要的数据。

实现AnIML的灵活性和通用性的方法并不复杂,AnIML数据标准包含两个部分,一个是通用的数据容器,称为AnIML核心(AnIML core),可以存储任何科学数据。构成AnIML核心的包括样品数据集(SampleSet)、实验步骤数据集(ExperimentStepSet)、审计跟踪记录数据集(AuditTrailEntrySet)、签名记录集(SignatureSet)。

 

在AnIML的核心之上,是“技术定义”(Technique Definition)部分,所谓的“技术定义”就是说明针对某种分析技术如何去使用数据容器。技术定义(Technique Definition)可以被看作是记录某种分析实验所需要的数据字段的目录。技术定义文件属于常规的XML文件中的DTD文件,可以随时重新创建。通过 DTD,每一个 XML 文件均可携带一个有关其自身格式的描述。虽说AnIML是普适性的,但对于一些具体的很流行的分析技术,例如液相色谱,紫外光谱,除了实验的一些公共特征,还是有其自身独有的一些属性的。通过 DTD,大家可一致地使用某个标准的 DTD(HPLC,IR) 来交换数据。而应用程序也可使用某个标准的 DTD 来验证从外部接收到的数据。同时还可以使用 DTD 来验证自身的数据。

作为一种通用型的数据表示方法,AnIML适合于包括光谱,色谱,图像,生物分析等各种数据的表示。除了经常使用的分析仪器数据,AnIML也可用于新兴的数据格式或一次性的探索性实验,例如微流体芯片或特殊的传感器。随着技术的发展,新的分析技术和其相应的技术说明都将取得进步。这种通用性的方法允许系统继续使用这些早期的AnIML文件,而无需对软件进行修改或升级。

 专有格式

 通用格式/标准格式

 二进制

 基于ASCII码 (例如XML)

 结构紧凑

 冗长

 快速读/写

 读写慢

 用户数据采集和处理

 主要用于数据共享和长期保存

如果我们有心好好看看AnIML的技术文档,你会发现AnIML就是纯粹的XML技术。这将大大降低我们利用这一新技术的难度。能够读取和解析XML文档的软件不胜枚举。为了扫盲,我这里再啰嗦几句。XML是完全基于普通文本的。即便存储二进制表示的图片,也会先将二进制转换为字符串再放入XML文档中。我们可以用最简单的阅读工具——记事本查看XML文档。想想就知道这是多么美好的一件事情,数据长期存储的担心可以落地了,找不到原始工作站软件的人也可以出口气了。当然,那些认为可以更方便修改数据的人美梦做得就有点早了。

1   应用AnIML解决现实问题

想想,如果能将我们所有的分析数据都转变成同样的格式,许多实验室中的共性问题就都能得到解决。

LIMS和ELN集成采用AnIML数据格式可以使得仪器中的数据更容易方便地传输到其他的一些数据系统中,例如LIMS(实验室信息管理系统)和ELN(电子实验记录本系统)。大家知道,不管是LIMS还是ELN与仪器的集成都是这类项目实施的一个难点,既耗钱又费力,最终可能还不讨好。仪器种类一多,因为每种仪器的数据格式都不一样,工作量就会成倍增加。有了AnIML,就不再需要为每种仪器做独立的接口。通过数据标准化,从一个接口就可以获取所有仪器的数据,既减少了接口的数量,也降低了集成的成本。

协作:在许多行业,企业经常需要与内部或外部的人员进行合作,特别是在制药行业中,外包业务的发展更是如火如荼。由于双方使用的仪器和软件有差别,数据产生方往往需要将这些仪器产生的数据进行处理后生成各种电子表格或Pdf文件后,再传递给合作方。传递的数据主要是处理后的结果数据,其中丢失很多重要的原始数据信息。采用AnIML标准后的分析仪器原始数据文件可以更容易地交换数据。不同于传统的Excel电子表格和PDF报告,AnIML使我们能够传输完整的分析数据,合作方可以看到完整的原始数据。这既可以提高数据质量,合作方也可对这些数据进行再分析,提高数据的利用率。

长期数据保存,在受监管的行业里(例如制药行业),分析数据的保存一直是一个难以解决的问题。原因主要在于数据所需要保存的时间较长,甚至达数十年。数十年的时间对于IT技术来讲,可能会发生天翻地覆的变化。同样对于仪器配套的软件来说,其也会经历无数个版本的升级。更为关键的是,即便解决软件的问题,其读取数据的基础环境也会发生变化,例如该软件所适合的操作系统。要在几十年里为某一类原始数据保存一个读取的环境似乎不太合乎实际,尤其是在仪器种类和数据种类比较多的情况下。将这些数据转换为AnIML可能是一个好的解决办法。此举能大为减少所需要的配套软件工具,也不会受到基础环境的制约,很自然会减少一个信息系统的运行成本。

数据分析和报告通常情况下,采集和处理分析数据仅仅是第一步。我们看到各种数据驱动的工作流应用在不断增加。这些数据流方法在数据源头上在不断下探,逐步深入到原始数据,并进一步对这些数据集应用可视化,实验设计,多变量分析等统计学工具进行数据分析。通过AnIML归一化的原始数据将会使得为这些流程提供数据变得更加简单。

但这世界上没有免费的午餐,我们需要有能够将原来仪器格式的数据转换为AnIML格式的工具,还得有能够查看AnIML格式数据的工具。

为了建立AnIML,大家花了很长的时间,这里面不单是技术性的问题,还与一些非技术性的因素。分析实验室虽小,利益相关者却众多。到目前为止,AnIML的技术性的工作早已完成,大家可以放心使用。经过ASTM表决之后,AnIML将成为一个开放的公共的标准。与此同时,真正施行这个标准所需要的工具的开发早已走在了前面。对于终端用户来说,桌面版的AnIML数据查看工具,Web和移动平台,集成工具,数据转换器都已经有现成的了。对于供应商来说,在他们现有的仪器软件中嵌入AnIML功能也并非难事。