Datenformate
Die Wahl des richtigen Datenformats erleichtert den Austausch, das Verständnis und die Wiederverwendung Ihrer Forschungsdaten. Verwenden Sie im Sinne der FAIR-Prinzipien Formate, die offen, gut dokumentiert und in Ihrer Community anerkannt sind.
Warum das wichtig ist
In der Chemie können Daten Spektren, Strukturen, Reaktionen und Metadaten umfassen. Das gewählte Format bestimmt, ob:
- andere können Ihre Dateien öffnen,
- Repositorien Ihren Beitrag annehmen,
- Ihre Daten langfristig nutzbar bleiben.
Kurzanleitung für den Arbeitsalltag
- Verwenden Sie nach Möglichkeit offene Formate.
- Bewahren Sie sowohl die Rohdaten als auch die verarbeiteten Daten auf.
- Fügen Sie aussagekräftige Metadaten hinzu, einschließlich Einheiten und Kontext.
- Prüfen Sie die Anforderungen des Repository frühzeitig.
- Wenn Instrumente proprietäre Dateien erzeugen, sollte zusätzlich ein offenes Austauschformat exportiert werden.
- Speichern Sie für Strukturdaten sowohl eine Austauschdatei (z. B. SDF) als auch Identifikatoren (SMILES, InChI).
- Verwenden Sie für die Spektroskopie, sofern verfügbar, JCAMP-DX zum Austausch.
Empfehlungen nach Anwendungsfall
- Allgemeiner tabellenartiger Datenaustausch: CSV (mit eindeutigen Spaltenüberschriften und Einheitenangaben).
- NMR-Datenaustausch: JCAMP-DX, nmrML, NMReDATA.
- Austausch und Archivierung von Massenspektrometriedaten: mzML.
- Kristallographische Daten: CIF.
- Strukturaustausch: SDF, SMILES, InChI.
- Dateien mit chemischen Tabellen (Molfile, rxnfile, SDF): Verwenden Sie V2000 für umfassende Interoperabilität; verwenden Sie V3000, wenn Sie erweiterte Funktionen benötigen und die Tool-Unterstützung bestätigt ist.
- Spektralaustausch: JCAMP-DX wird von vielen Verfahren unterstützt; bei sehr großen oder komplexen Datensätzen sollten Sie prüfen, ob ein besser geeignetes Format erforderlich ist.
Wählen Sie nach Möglichkeit Formate aus, die von einer Vielzahl von Programmen unterstützt werden und von einer aktiven Community gepflegt werden.
Häufige Fallstricke
- Es werden ausschließlich proprietäre Instrumentendateien ohne offenen Export beibehalten.
- Vergleich von SMILES-Zeichenketten ohne Kanonisierung.
- Weglassen der Stereochemie in SMILES, wenn Isomere eine Rolle spielen.
- Tabellendateien ohne eindeutige Einheitenangaben oder Spaltenbeschreibungen weitergeben.
Gängige Formate in der Chemie
| Format | Datentyp | Maintainer | Übergeordnetes Format | Spezifikation |
|---|---|---|---|---|
| JCAMP-DX | mehrere | IUPAC | ASCII, Text | öffnen |
| AnIML | mehrere | ASTM | XML | öffnen |
| netCDF | mehrere | UCAR | CDF | öffnen |
| CSV | mehrere | IETF-RFC | ASCII, Text | öffnen |
| ASCII | mehrere | (offen) | selbsterklärend | |
| ISA | mehrere | ISA Commons-Community | TSV oder JSON | öffnen |
| UDM | mehrere | Pistoia-Allianz | XML | öffnen |
| ADF | mehrere | Allotrop | HDF5+RDF | für Mitglieder |
| mzML | Massenspektrometrie | HUPO/PSI | XML | öffnen |
| ANDI-MS | Massenspektrometrie | ASTM International | netCDF | öffnen |
| nmrML | NMR | COSMOS | XML | öffnen |
| NMReDATA | NMR | NMReDATA-Initiative | SDF | öffnen |
| Bruker FID | NMR | Bruker | (binär) | proprietär |
| mnova | NMR | Mestrelab | (binär) | proprietär |
| Bruker OPUS | Spektroskopie | Bruker | (binär) | proprietär |
| Perkin Elmer | Spektroskopie | Perkin Elmer | ASCII, Text | proprietär |
| ThermoFisher Grams | Spektroskopie | ThermoFisher | binär | proprietär |