Zum Hauptinhalt springen

Datenformat-Standard

Forschungsdaten sind der Schlüssel zu jeder Wissenschaft. Im Rahmen einer FAIR-Praxis sollten diese Daten von wertvollen Metadaten begleitet werden und müssen in standardisierten und offenen Formaten ausgetauscht werden. In der Chemie umfassen diese Daten experimentelle Parameter und Messergebnisse, chemische Strukturen, Eigenschaften von Verbindungen und Beschreibungen von Reaktionen. Wann immer Forschungsdaten veröffentlicht, gespeichert, weitergegeben oder wiederverwendet werden, müssen Chemiker ein für den jeweiligen Zweck geeignetes Format wählen und die langfristigen Phasen des Datenlebenszyklus berücksichtigen. Repositorien und Datenbanken akzeptieren häufig bestimmte Formate, um die Vergleichbarkeit und Vollständigkeit der bereitgestellten Daten und Metadaten zu gewährleisten. Wenn sich Chemiker bei der Datenerfassung und Forschungsdokumentation über Datenstandards im Klaren sind, werden spätere Konvertierungen weniger schwierig sein. Elektronische Laborjournale können den Wissenschaftler in den frühen Phasen der Datenverwaltung unterstützen.

Definitionen

Ein erfolgreicher Datenformatstandard wird durch das Datenmodell und die Datendarstellung definiert. Eine Spezifikation einer Darstellung kann das Modell implizit enthalten.

Das Datenmodell beschreibt, wie Daten organisiert sind, welche Informationen sie enthalten, die Datentypen (z. B. Text, Zahlen, Listen), die Beziehung zwischen diesen Komponenten und die Regeln für die Integrität der Komponenten und Daten. Konzeptionell können das Modell und seine Komponenten auf unterschiedliche Weise organisiert werden, z.B. flach, multidimensional, als Netzwerk oder hierarchisch. Die Bedeutung der verwendeten Komponenten muss auf eindeutige Weise beschrieben werden. Um eine konsistente Verwendung der Komponenten im Kontext des Modells zu gewährleisten, können Ontologien herangezogen werden. Da es sich um ein abstraktes Datenmodell handelt, ist es notwendig, Repräsentationen dafür zu implementieren, wie z. B. eine Datenbank oder eine Datendatei auf einem Computer.

Digitale Dateien mit Daten sind nur eine Möglichkeit, ein Datenmodell darzustellen. Andere Darstellungen wären Antwortdaten aus API-Anfragen oder Ergebnisse aus einer Datenbankabfrage.

Dateiformate als Modelle können nach verschiedenen Kriterien kategorisiert werden: proprietär vs. offen spezifiziert, binär vs. Text, einfach vs. komplex oder flach vs. n-dimensional. Für die Langzeitspeicherung kann ein kompaktes binäres Format die erste Wahl sein, während für die Weiterverarbeitung mit Tools der Chemieinformatik ein Format, das auf Standards wie Comma Separated Values (CSV), Extensible Markup Language (XML) oder JavaScript Object Notation (JSON) basiert, aufgrund der Unterstützung durch die meisten Programmiersprachen vorteilhafter sein kann. Wenn man über Datenstrategien nachdenkt, sollten offene Formate in Betracht gezogen werden. Proprietäre Formate können eine weitere Wiederverwendung aufgrund von Problemen im Zusammenhang mit der Lizenzierung, schlechter Dokumentation und Unterstützung durch den Anbieter verhindern. Komplexe Daten erfordern oft komplexere Formate, um die Bedeutung und die Beziehung der Daten auszudrücken.

Die Spezifikation eines Datendatei-Standards kann das gesamte Format von Grund auf beschreiben oder generische Formate verwenden, die anderswo standardisiert sind. Zu solchen [generischen Formaten](#Generic format standards) gehören CSV, XML oder JSON. Für einige dieser generischen Formate gibt es ein formales Spezifikationsformat, das so genannte Schemaformat, das die Spezifikation von Formatderivaten vereinfacht. XML- oder JSON-Dateien können durch Schemas beschrieben werden. Wenn das Format nicht durch ein allgemeines oder bestehendes Schema formal beschrieben werden kann, ist es wichtig, eine eindeutige neue Spezifikation zu erstellen, die sowohl in der Beschreibung der Syntax und Grammatik als auch in der Definition der Komponenten des zugrunde liegenden Datenmodells klar ist. Dateiformate sollten auch erweiterbar sein, um die Verwendung des Formats für neue Techniken und zukünftige Anforderungen zu ermöglichen. Datendateistandards, die diese Kriterien nicht erfüllen, können sich in inkompatible Formate auflösen oder werden bald veraltet sein und durch neue Standards ersetzt werden.

Jede Software, die ein Dateiformat importiert oder exportiert, muss Lese- und/oder Schreibprogramme für dieses Format enthalten, oft begleitet von einem Validator, der die Dokumente auf Einhaltung des Standards überprüft. Die Integration eines Formats in eine Software ist wahrscheinlicher, wenn die Entwickler auf eine Implementierung zurückgreifen können, die als Bibliothek, Paket oder Modul für ihre Programmiersprache oder -umgebung verfügbar ist. Somit hängt die Akzeptanz eines Formats auch von der Verfügbarkeit und Unterstützung von Implementierungen ab. Formate sind nachhaltiger, wenn sie eine freie Lizenz haben und Open Source sind. Für Formate, die durch Schemata beschrieben werden, gibt es oft gut gewartete Implementierungen für das generische Format einschließlich Validierung. Es muss also nur die Schemadatei bereitgestellt werden. Implementierungen für Formate, die nicht offen spezifiziert sind und von den Herstellern nicht unterstützt werden, sind manchmal nur durch Reverse-Engineering möglich, was hinsichtlich der Rechtmäßigkeit umstritten ist. Nur eine vollständige und unzweideutige Spezifikation ermöglicht gut durchdachte Implementierungen.

Allgemeine Formatstandards

Es gibt mehrere generische Formate für die strukturierte Speicherung von Daten. Die Formatspezifikationen definieren keine bereichsspezifischen Elemente, aber einige Felder für Dokument-Metadaten, wie z. B. eine Version, können erforderlich sein, um die Spezifikation zu erfüllen. Um domänenspezifische Dokumentformate zu erstellen, müssen die Elemente einschließlich der semantischen Beschreibungen separat spezifiziert werden. Einige dieser Formate haben ein entsprechendes Schemaformat, das eine formalisierte Beschreibung von Dokumenten ermöglicht. Schemata beschreiben die Datentypen, die Beziehungen und die Reihenfolge der Elemente und Attribute in einem Element. Sie enthalten auch Felder zur Beschreibung der Daten, um ihnen im Kontext des Formats eine semantische Bedeutung zu verleihen.

Comma separated values (CSV) ist ein einfaches ASCII-Textformat für tabellarische Daten. Die Werte werden in einer einzigen Tabelle gespeichert, wobei die Spalten durch Kommas getrennt sind. Die erste Zeile der Tabelle kann als Tabellenkopf interpretiert werden. Sie definiert keine Metadaten, aber diese werden oft als Kommentare zur Kopfzeile hinzugefügt. Obwohl Kommentare in der Spezifikation nicht erwähnt werden, ist es üblich, Zeilen, die mit einem Rautezeichen ("#") (oder manchmal einem anderen Zeichen) beginnen, als Kommentarzeilen zu interpretieren. Es gibt Varianten des Formats, die Tabulatoren, Semikolons oder andere Zeichen zur Trennung der Werte verwenden. Viele Anbieter verwenden das CSV-Format oder Varianten davon als Exportformat, da es für Menschen lesbar ist und leicht in andere Tabellenformate wie Excel-Tabellen konvertiert werden kann. Aufgrund des Mangels an definierten Metadaten und Spaltenbeschreibungen kann es schwierig sein, Daten aus CSV-Dateien verschiedener Anbieter zu vergleichen, da Spaltentitel oder die Einheiten für Werte oft nur im Zusammenhang mit dem Gerät und der Software verstanden werden können.

Die Extensible Markup Language (XML) ist eine Auszeichnungssprache zur Strukturierung von Dokumenten. Das Dokument wird durch Elemente und ihre Attribute organisiert, und der Umfang eines Elements wird durch Tags für den Anfang und das Ende gekennzeichnet. Elemente können verschachtelt werden und können Werte enthalten. Dies ermöglicht die Darstellung komplexer Datenmodelle, einschließlich multidimensionaler Daten und Hierarchien. Da es sich bei einer XML-Datei um eine Textdatei handelt, ist sie für Menschen lesbar, aber die wiederholten Tags lenken von den in den Werten enthaltenen Informationen ab. Aufgrund der Ausführlichkeit neigen XML-Dateien dazu, schnell zu wachsen und sind im Vergleich zu anderen Formaten oft riesig. Daher ermöglicht XML die Speicherung großer Datenmengen als BASE64 kodierte Binärdateien. XML ermöglicht die einfache Definition spezifischer Formate durch Schemata, und XML Schema Definition (XSD) ist der am weitesten verbreitete Standard für diese. Implementierungen zum Lesen, Schreiben und Validieren von XML-Dateien gibt es in den meisten Programmiersprachen. Aus diesen Gründen basieren viele Dateiformate in der Chemie auf XML.

Wie XML wurde auch die Javascript Object Notation (JSON) für den Datenaustausch im World Wide Web entwickelt. Während XML mit Element-Tags zur Strukturierung des Dokuments arbeitet, verwendet JSON geschweifte Klammern und Kommas. Aufgrund der geringeren Ausführlichkeit ist das Format für den Menschen besser lesbar und die Dateien können kleiner sein. Mit JSON Schema gibt es einen Entwurf für ein Schemaformat zur Beschreibung von JSON-Dokumenten. Auch wenn JSON als Dateiformat weniger verbreitet ist, wird es häufig verwendet, wenn Daten über Anwendungsprogrammiersprachen (API) ausgetauscht werden.

Einzelne Datensätze können gebündelt werden, um als eine Einheit gespeichert zu werden, oder große Datensätze können zur besseren Handhabung in kleinere Dateien aufgeteilt werden. Containerformate ermöglichen es, die Beziehung zwischen den Datendateien beizubehalten. Dies kann durch die Verknüpfung von Metadaten in den Datendateien oder Metadateien, durch die Gruppierung von Dateien in Containern oder Archiven wie zip oder tar oder durch strukturierte Container-Dateiformate erreicht werden. Ein Beispiel für den Contra-Ansatz ist HDF5, das es erlaubt, eine dateisystemähnliche Struktur mit Metadaten zu kombinieren. Es gibt viele Implementierungen und Werkzeuge für HDF5 und einige Formate für chemische Daten basieren darauf.

Formatstandards in der Chemie

Viele Formate, die in der Chemie verwendet werden, basieren auf einem der generischen Formate aus dem letzten Abschnitt. In der folgenden Tabelle sind einige gängige Formate aufgeführt, die von Chemikern verwendet werden.

FormatDatentypBetreuerÜbergeordnetes FormatSpezifikation
JCAMP-DXVielfacheIUPACASCII, TextOffen
AnIMLVielfacheASTMXMLOffen
netCDFVielfacheUCARCDFOffen
CSVVielfacheIETF-RFCASCII, TextOffen
ASCIIVielfache(offen)selbsterklärend
ISAVielfacheISA Commons GemeinschaftTSV oder JSONoffen
UDMVielfachePistoia-AllianzXMLoffen
ADFVielfacheAllotropHDF5+RDFFür Mitglieder
mzMLMassenspektrometrieHUPO/PSIXMLoffen
ANDI-MSMassenspektrometrieASTM InternationalnetCDFoffen
nmrMLNMRCOSMOSXMLoffen
NMReDATANMRNMReDATA-InitiativeSDFoffen
Bruker FIDNMRBruker(binär)proprietär
mnovaNMRMestrelab(binär)proprietär
Bruker OPUSSpektroskopieBruker(binär)proprietär
Perkin ElmerSpektroskopiePerkin ElmerASCII, Textproprietär
ThermofFisher-GrammSpektroskopieThermoFisherbinärproprietär

Das JCAMP-DX-Format kann für ein breites Spektrum von Spektral- und Analysedaten verwendet werden. Es wurde vom Joint Committee on Atomic and Molecular Physical Data (JCAMP) als Format für IR-Spektroskopie Daten seit 1988 entwickelt und wird nun unter der Schirmherrschaft der IUPAC gepflegt. Es wird ein allgemeiner Standard vorgeschlagen, der für verschiedene spektroskopische und spektrometrische Methoden verwendet werden kann. Zusätzlich wurden spezielle Standards für die Elektronenmagnetresonanzspektroskopie und die Kernspinresonanz (NMR), Chromatographie und Massenspektrometrie veröffentlicht. Da der Standard keine native Unterstützung für die Verwendung von Ontologien oder kontrollierten Vokabularen bietet und jede Implementierung ihre eigenen Erweiterungen verwenden kann, können Dateien aus verschiedenen Quellen inkompatibel sein. Es ist eine Java-Referenzimplementierung für dieses Format verfügbar, und es sind Bibliotheken für andere Programmiersprachen wie Python, R, JavaScript und MATLAB verfügbar. Da JCAMP-DX als Austauschformat für viele Analysemethoden akzeptiert wird, gibt es eine breite Unterstützung durch Software für die Spektralanalytik.

Die XML-basierte Analytical Information Markup Language (AnIML) wurde als internationaler ASTM-Standard entwickelt und deckt verschiedene Analyseverfahren ab. Der Standard umfasst Schemadefinitionen für einen generischen Kern und technologiespezifische Dokumente. So ist es möglich, Verfahrensdokumente für verschiedene analytische Messungen zu definieren. Da AnIML durch seine XML-Schemata vollständig spezifiziert ist, kann es mühelos in jeder Sprache mit XML-Unterstützung implementiert werden. Es gibt keine Referenzimplementierung, aber unter den (wenigen) Open-Source-Implementierungen kann Jmol/JSmol (früher JSpecView) AniML-Dokumente importieren und visualisieren. Für Entwickler, die mit der Programmiersprache Python arbeiten, wird derzeit eine Bibliothek zum Erstellen, Parsen und Validieren von AniML-Dateien entwickelt. Auch BSSN Software (jetzt Merck) unterstützt das Format, oft in Kombination mit der Geräteschnittstelle SiLA (Standardisation in Lab Automation).

NetCDF ist ein binäres Dateiformat und eine Softwareschnittstelle, die hauptsächlich durch ihre Implementierungen durch die Unidata-Gemeinschaft definiert wird. Es handelt sich um ein abstraktes Modell, das durch selbstbeschreibende Objekte erweitert werden kann. Somit kann dieses Modell flexibel an spezifische Anwendungsfälle angepasst werden. Eine Familie von ANDI (ANalytical Data Interchange) Formaten wird von der ASTM spezifiziert, die auf netCDF basieren (siehe auch ANDI-MS unten).

Das ISA (Investigation-Study-Assay) Framework, das aus der biowissenschaftlichen Gemeinschaft stammt, definiert das hierarchische ISA-Datenmodell zur Speicherung von Metadaten über den Projektkontext und Studiendetails sowie analytische Messdaten. Da das abstrakte ISA-Datenmodell den Benutzer bereits dazu ermutigt, jeden Parameter oder Wert mit Ontologiebegriffen zu annotieren, gewährleistet es gut beschriebene Datensätze. Implementierungen sind als tabulatorgetrennte Wertedateien (ISA-Tab) oder als JSON (ISA-JSON) verfügbar. Die ISA-API ist eine Python-Bibliothek, die das Modell für die Verwendung mit den ISA-Formaten implementiert. Das Modell wird auch für Repositories wie MetaboLights verwendet. Außerdem verwenden Zeitschriften wie ScientificData oder GigaScience das ISA-Datenmodell zur Beschreibung komplexer Versuchsaufbauten, die in den Manuskripten behandelt werden.

Formatstandards für analytische Daten

Experimentelle Daten, die mit spektroskopischen Methoden wie Infrarot-Spektroskopie, Raman- und UV/Vis-Spektroskopie gewonnen werden, sind oft vergleichsweise klein und einfach strukturiert. Die Hersteller speichern die Rohdaten in proprietären Formaten, entweder als Binärdaten oder in ASCII. Diese können als Excel-Tabellen oder einfache Texttabellen mit x,y-Paaren (oder einem ähnlichen Format) exportiert (oder in diese konvertiert) werden. Ein Kopfabschnitt kann Metadaten enthalten.

Die Benutzer müssen solche Daten für ihre spezifischen Bedürfnisse weiterverarbeiten, und derzeit gibt es keine übergreifenden Spezifikationen. Repositories können diese in ein bestimmtes Format konvertieren, z. B. konvertiert Chemotion ELN Text- und Excel-Dateien in JCAMP-DX.

Es gibt ein paar Herstellerformate, die für den Datenaustausch beliebt sind: GRAMS SPC-, Perkin Elmer SP- und Bruker OPUS-Dateien werden nicht nur von den Herstellern des Formats unterstützt, sondern auch von anderen Herstellern und gerätediagnostischen Softwaretools, z. B. für statistische Analysen.

Es gab Bestrebungen, ein spezielles Format für ultraviolett-sichtbare Spektroskopiedaten zu schaffen, das SpectroML genannt wurde, das nun durch das allgemeinere AnIML abgelöst wurde. Eine Harmonisierung zwischen den Geräteherstellern und die Annahme einer offenen Norm müssen noch erreicht werden.

Datenformate für die kernmagnetische Resonanzspektroskopie (NMR)

Die NMR ist ein unverzichtbares Analyseverfahren, das umfangreiche Informationen über Bindungen und Strukturen sowie über die Wechselwirkungen zwischen Molekülen und die Häufigkeit von Molekülen in Proben liefert. Bisher war es üblich, die Spektren als Bilder in ergänzenden Materialien zu veröffentlichen, die regelmäßig als PDF-Dateien herausgegeben werden. Zusätzlich wird eine Liste der Verschiebungen angegeben, die manchmal als NMR-Text bezeichnet wird.

Die Rohdaten, die die freien Induktionszerfälle (FIDs), die ursprünglich verarbeiteten Spektren und die Metadaten des Instruments enthalten, werden jedoch in der Regel nicht veröffentlicht, was eine erneute Analyse und Wiederverwendung ermöglichen könnte. Wie wichtig es ist, sowohl die FID-Rohdaten als auch die extrahierten NMR-Spektren zur Verfügung zu stellen, wurde bereits ausführlich dargelegt.

Alle Gerätehersteller haben ihre eigenen (binären) Rohdatenformate entwickelt. Da es sich bei den FID-Daten selbst hauptsächlich um Zeitreaktionsdaten mit einer einfachen Struktur handelt, werden die meisten Herstellerformate von der in der NMR-Gemeinschaft verwendeten Software unterstützt. Viele Anbieter haben sich auch darauf geeinigt, das JCAMP-DX-Format zu importieren und zu exportieren, das über eine Spezifikation für FID-Rohdaten verfügt und von der IUPAC empfohlen wird.

Das JCAMP-DX-Format kann auch für den Austausch, den Import und den Export von multidimensionalen Spektren verwendet werden. Aufgrund des offenen und erweiterbaren Charakters von JCAMP-DX einerseits und des Fehlens eines kontrollierten Vokabulars andererseits gibt es bereits verschiedene Varianten der Implementierung des NMR-Formats, so dass die Validierung oder der Import eine Herausforderung darstellen kann.

Inspiriert durch das Massenspektrometrieformat mzML (siehe unten) wurde der Standard nmrML ursprünglich für Metabolomics-Daten entwickelt, kann aber auch für jede andere Art von NMR-Daten verwendet werden. Der Standard nmrML ist ein XML-basiertes Format für FID-Rohdaten sowohl für 1D- als auch für 2D-NMR-Spektren. Aufgrund der expliziten Syntax-Spezifikation dieses Formats und des zugrunde liegenden kontrollierten Vokabulars (nmrCV) können Datendateien validiert werden. Es wird als Speicherformat für NMR-Daten im Metabolights Datenspeicher verwendet.

Das offene NMReData Format wird von der NMReData Initiative gepflegt. Der NMR-Datensatz im NMReDATA-Format enthält die Gerätedaten (Rohdaten), eine SDF-Datei und seit Version 2 auch Spektraldaten im JCAMP-Format in einem Ordner, der für den Datenaustausch im Zip-Format komprimiert werden kann. Die SDF-Datei enthält die chemische Struktur und die eigentlichen NMReDATA als standardisierte SDF-Tags. Diese Tags berücksichtigen chemische Verschiebungen, Kopplungen, Signalzuordnungen und Listen von 2D-Korrelationen, um nur einige zu nennen. NMReData kann für 1D- und 2D-Spektren verwendet werden und enthält einen Kernsatz von NMR-Parametern. Das Format ermöglicht die Aufzeichnung von Rohdaten, extrahierten Daten und Strukturen in einem einzigen Format, was von den bestehenden Formaten nicht vollständig unterstützt wird. Es ist gleichzeitig maschinen- und menschenlesbar und ermöglicht Flexibilität und Erweiterungen. FAIRness ist das allgemeine Prinzip dahinter. Zu den Mitgliedern der NMReData-Initiative gehören Open-Source-Projekte wie NMRShiftDB2 und Cheminfo.org, kommerzielle NMR-Software-Anbieter wie MestreLab, NOMAD, C6H6 und ACD/Labs sowie Gerätehersteller wie Bruker NMReData.

In letzter Zeit wurden von der NMR-Gemeinschaft mehrere zusätzliche offene Standardformate entwickelt. Große Anstrengungen wurden bei der Bestimmung von Proteinstrukturen mittels NMR unternommen, einem Bereich, in dem die Besonderheiten und die Größe der Makromoleküle spezielle Datenformate erfordern.

Aus dem selbstdefinierenden STAR-Format wurde das ebenfalls proteinspezifische NMR-STAR abgeleitet, das vom BioMagResBank (BMRB)-Datenformat verwendet wird und über 4600 Datenelement-Tags zur Beschreibung von Daten und Metadaten definiert, die in mehr als 300 Kategorien und 80 Kategoriegruppen organisiert sind. Das Format NMR Exchange Format (NEF) wurde für die Speicherung von NMR-Daten in der wwPDB entwickelt. Es ist für Softwareentwickler leichter zugänglich, da es die Komplexität reduziert. Außerdem ist es durch anwendungsspezifische Tags erweiterbar. Da NMR-STAR und NEF beide vom STAR-Format abgeleitet sind, sind sie konvertierbar und die einzigen von wwPDB und BMRB akzeptierten Formate. Das Collaborative Computing Project for NMR (CCPN) entwickelt NEF auf der Grundlage des Datenmodells für die Verwendung in ihren auf Protein-NMR ausgerichteten Software-Tools.

Datenstandards in der Massenspektrometrie

Eine Unterscheidung, die in verschiedenen Disziplinen der Chemie von Bedeutung ist, besteht darin, ob ein bestimmtes Spektrum die interessierenden Daten sind oder ob ein Satz von Spektren dargestellt werden soll. Im ersten Fall können textbasierte Dateiformate wie JCAMP-DX, Mascot Generic File (MGF) oder National Institute for Standards and Technology Mass spectrometry (NIST MSP) ausreichend sein. Für ganze Läufe, z. B. mit LC-MS oder GC-MS mit Hunderten von chromatographisch aufgelösten Spektren, wurden jedoch effizientere Dateiformate entwickelt. Das netCDF (Network Common Data Form) basierte Analytical Data Interchange Protocol for Mass Spectrometry (ANDI-MS) ist ein internationaler ASTM-Standard. Es wurde ursprünglich als Norm der Analytical Instrument Association (AIA) als Folge der Spezifikation ANDI for Chromatographic Data entwickelt. Technisch baut er auf NetCDF auf, einem generischen und hocheffizienten Containerformat. Die ANDI-MS-Spezifikation legt fest, welche Elemente zur Kodierung von Massenspektrometriedaten erforderlich sind.

Komplexere MS-Experimente erfordern die Erfassung einer Vielzahl von Instrumenteneinstellungen wie Polarität pro Scan, Isolationsfenster und Kollisionsenergien. In den Anfängen der Proteomik wurden mehrere Formate (mzXML, mzData) entwickelt, die von der Proteomics Standards Initiative (PSI) zu mzML zusammengeführt wurden. Trotz des Begriffs Proteomics im Namen können viele der PSI-Standards auch für entsprechende analytische Daten von Proben außerhalb der Proteomics verwendet werden. Das XML-basierte mzML-Datenformat ist ein weithin akzeptierter Standard für analytische Massenspektrometriedaten, der von mehreren Gesellschaften und Infrastrukturen für den Datenaustausch und die Archivierung empfohlen wird. Außerdem gibt es eine breite Palette von Tools, darunter Konverter und Spektrenbetrachter, sowie Softwarebibliotheken für die Arbeit mit mzML-Dateien. Die Verwendung der PSI-MS-Ontologie als kontrolliertes Vokabular in Verbindung mit Datenvalidatoren sorgt für eine hervorragende Interoperabilität zwischen Verbrauchern und Erzeugern von mzML-Dateien, unabhängig vom Gerätehersteller oder der Analysesoftware.

Die XML-basierte Natur dieser Formate stellt sicher, dass die Daten langfristig von den meisten, wenn nicht sogar allen Computersystemen und Programmiersprachen gelesen werden können. Um die Leistung für den schnellen wahlfreien Zugriff und die parallele Verarbeitung von Daten zu verbessern, wurde dasselbe Datenmodell in mehreren Formaten wie mz5, Toffee und mzMLb verwendet, die auf HDF5 basieren, das selbst ein Containerformat ist und als Nachfolger von netCDF betrachtet werden kann.

Datenstandards in der Röntgenkristallographie

Kristallstrukturanalysen durch Röntgenbeugung sind grundlegende Techniken in der Chemie zur Bestimmung der atomaren und molekularen Struktur von Materialien. Diese Techniken messen die Winkel und Intensitäten eines gebeugten Röntgenstrahls und berechnen aus den Daten Strukturinformationen. Bei Einkristallmessungen können die Rohdatensätze sehr groß sein, während andere Methoden wie die Pulverröntgendiffraktometrie nur zweidimensionale Rohdaten liefern. Daher werden die Daten aus letzteren in einfachen Textdateien ausgetauscht, die von der Software des Geräteherstellers exportiert werden.

Mit der Crystallographic Information File (CIF) gibt es ein gemeinsames Austauschformat für kristallographische Daten, das von der International Union for Crystallography entwickelt und gepflegt wird. Das CIF ist eine Implementierung des STAR-Dateiformats und somit eine Textdatei, die in Datenblöcken organisiert ist, die durch Datennamen oder Tags beschrieben werden. Diese Datennamen sind in Klartext-Wörterbüchern definiert, die eine kontrollierte Sprache verwenden und für Menschen und Computer lesbar sind. Neben dem Kernwörterbuch mit Tags, die für kleine Moleküle und anorganische Kristalle relevant sind, gibt es Wörterbücher für spezielle Anwendungen wie Pulverröntgenbeugung oder makromolekulare Kristalle (mmCIF). Die Möglichkeit, das Format durch Hinzufügen neuer Wörterbücher zu erweitern, macht es bereit für neue Methoden und Anwendungen. Darüber hinaus gibt es mit dem Crystallographic Information Framework auch ein Datenmodell, das auf denselben Prinzipien beruht wie das Dateiformat und an spezifische Anwendungen angepasst werden kann.

Datenbanken und Repositories wie die Cambridge Structural Database (CSD) und die Crystallography Open Database (COD) akzeptieren nur CIF als Format zur Hinterlegung kristallographischer Daten.

Datenstandards in der Röntgenabsorptions- und Fluoreszenzspektroskopie

Sowohl die Röntgenabsorption (XAS) als auch die Röntgenfluoreszenz (XRF) erzeugen einfache Spektren, die durch die monochromatische Röntgenstrahlung auf der Abszisse und die Absorption der Probe auf der Ordinate beschrieben werden. Die Spektren können in Formate auf CSV-Basis mit mehreren Spalten exportiert werden, aber die Einheiten (z. B. Energie, Wellenlänge), das Spaltenformat und die enthaltenen Metadaten hängen oft von der Software ab, die für die Messung an der Beamline oder dem Instrument verwendet wird, was die Interoperabilität beeinträchtigt. Für den Vergleich von XAS- und XRF-Daten, die mit verschiedenen Strahlrohren und Geräten gemessen wurden, ist es auch wichtig, die Parameter des Instruments und der Kalibrierung in den Datensatz aufzunehmen. Für größere XAS-Datensätze wird das HDF5-Format als Standardformat, das bereits von einiger Beamline-Software wie BLISS an der ESRF verwendet wird.

Für den Austausch einzelner Röntgenabsorptionsspektren wurde das Format XAFS Data Interchange (XDI) vorgeschlagen, das ein Wörterbuch mit relevanten Metadaten und die Datentabelle in einer Textdatei kombiniert. Dadurch ist es für Menschen und Computer lesbar und mit den meisten bestehenden Programmen, die x,y-Tabellen akzeptieren, kompatibel. Die Autoren des Formats bieten auch eine Implementierung in C und Bindungen für verschiedene andere Programmiersprachen wie Fortran, Perl und Python an. Das Format wurde bereits für den Import in die Referenzproben-Datenbank der Diamond Light Source und die X-ray Absorption Data Library der International X-ray Absorption Society akzeptiert.

Da es keinen Standard für RFA-Dateien gibt, bieten die meisten Softwaretools eine Art Importdialog zur Auswahl passender Spalten und Einheiten aus Textdateien, die von der Herstellersoftware exportiert wurden, oder können Daten aus HDF5-Dateien lesen.

Formatstandards für Strukturdaten

Um chemische Strukturen als einfache ASCII-Zeichenfolge zu beschreiben, gibt es das SMILES-Format, das seit 2007 als OpenSMILES ein offener Standard ist. Weitere Informationen zu SMILES und seinen Varianten finden Sie im Artikel simplified molecular-input line-entry system (SMILES) in dieser Wissensbasis.

Eine weitere einzeilige Kodierung von Strukturen, die hauptsächlich für die Suche nach Informationen über Verbindungen gedacht ist, ist der International Chemical Identifier (InChi), der ebenfalls eine offene Spezifikation hat und separat beschrieben wird.

Ein einfaches Textformat für chemische Strukturen ist das XYZ-Format, das nur die Koordinaten für die Atome eines Moleküls enthält. Da das Format keine formale Spezifikation hat, können die Implementierungen für XYZ unterschiedlich sein und zu inkompatiblen Dateien führen.

Die Chemical Table File wurde ursprünglich von MDL Information Systems, jetzt BIOVIA, entwickelt. Sie ist jetzt ein offener Standard, aber der Download der Spezifikation erfordert eine Registrierung. Die Dateien sind textbasiert und bestehen aus einer Kopfzeile und mehreren Datenblöcken mit den Strukturinformationen für die Moleküle.

Die Strukturdatendatei (SDF) ist ein Derivat der chemischen Datendatei und kann mehrere Verbindungen in einer Datei und zugehörige dta für die Elemente enthalten. Das SDF-Format wurde von NMReData erweitert, um NMR-Daten und chemische Strukturen in einem Dateiformat zu speichern.

Die Chemical Markup Language (CML) basiert auf XML und ist ein Ansatz, um viele chemische Daten in einem universellen Dateiformat zu speichern. Obwohl es auch analytische Daten speichern kann, wird es hauptsächlich für Strukturinformationen und Reaktionen verwendet.

Quellen und weitere Informationen