Zum Hauptinhalt springen

Leiter der zentralen Einrichtung

Gilt für:

Dieser Artikel richtet sich an die Leiter der zentralen Einrichtungen und die Leiter der analytischen Diensteinheiten.

Motivation

Data LifeCycle

Im Lebenszyklus von Chemiedaten spielen Kerneinrichtungen als Hauptproduzenten von chemischen Daten eine wichtige Rolle. Bei modernen Analysetechniken wie der Massenspektrometrie oder der NMR-Spektroskopie werden die Daten in der Regel digital erfasst, und die Herausforderungen liegen weniger in der Digitalisierung als in Fragen der Verwaltung.

In diesem Artikel werden einige der wichtigsten Bereiche aufgezeigt, die für eine zentrale Infrastruktur zur Datenspeicherung zu berücksichtigen sind, und es werden Perspektiven aufgezeigt, wo die FAIR-Leitprinzipien bereits heute befolgt werden können.

Gute wissenschaftliche Praxis

Wenn man darüber nachdenkt, wie man Daten speichern und verfügbar machen kann, sind Überlegungen zur guten wissenschaftlichen Praxis (GWP) ein wichtiger Ausgangspunkt. Da Förderorganisationen sich an die GWP-Richtlinien halten, schließt ein Verstoß gegen diese Richtlinien eine künftige Forschungsförderung praktisch aus.

Die Situation in Deutschland

Die Deutsche Forschungsgemeinschaft (DFG) fasst den Konsens über die Grundprinzipien und Standards guter Praxis in der Wissenschaft in ihrem Verhaltenskodex Richtlinien zur Sicherung guter Forschungspraxis [1] zusammen. In Leitlinie 17 wird eine Aufbewahrung aller Forschungsdaten für den Zeitraum von zehn Jahren ab dem Datum der Veröffentlichung gefordert. Strategien zur Datenspeicherung sollten daher eine Langzeitspeicherung für mindestens diesen Zeitraum vorsehen.

Wie man anfängt

Aus der Sicht einer Core Facility ist es in der Regel sinnvoll, die Datensicherheit und die Aufbereitung von Muster-Metadaten getrennt zu betrachten.

Datensicherheit

Der wichtigste Aspekt für Core Facility Manager ist die Vorbeugung von Datenverlusten. Alle aufgezeichneten Daten sollten so schnell wie möglich auf einem dezentralen redundanten Speicher gesichert werden. Am einfachsten ist es, dies mit den integrierten Kommandozeilen-Tools des jeweiligen Systems zu automatisieren, wie z.B. robocopy.exe unter Windows oder rsync auf den meisten UNIX-Systemen. Beide Dienstprogramme können für die automatische inkrementelle Synchronisierung von lokalem und entferntem Speicher verwendet werden.

An den meisten Universitäten helfen die lokalen Rechenzentren bei der Bereitstellung von dezentralem und redundantem Speicher. In vielen Fällen kann dieser Speicher nicht auch dazu verwendet werden, Nutzern, die keinen direkten Zugang zu den Arbeitsplätzen an den Instrumenten haben, Daten zur Verfügung zu stellen, was in der Regel unerwünscht ist. Im Idealfall ist der dezentrale Speicher versioniert, so dass versehentliche Löschungen rückgängig gemacht werden können.

Darüber hinaus sollten Sicherungsstrategien für alle Instrumentenarbeitsplätze in Betracht gezogen werden. Sie bieten nicht nur zusätzliche Datensicherheit, sondern können auch sehr nützlich für die Wiederherstellung im Katastrophenfall sein, was bei Altsystemen, bei denen Softwarekomponenten möglicherweise nicht mehr verfügbar sind, von unschätzbarem Wert sein kann.

Probemetadaten

Auch wenn die meiste wissenschaftliche Arbeit noch vor uns liegt, gibt es bereits in der frühen Phase der Probeneinreichung wertvolle Metadaten, die gesammelt und ausgewertet werden können. Dazu können unter anderem gehören:

  • Datum
  • Ersteller (Person, Gruppe)
  • Projekt
  • Kennung der Probe
  • Molekularstruktur(en) und abgeleitete Eigenschaften:
    • Molekulare Formel
    • Molekulargewicht
    • Elementare Zusammensetzung
    • Physikalisch-chemische Eigenschaften
  • Lösungsmittel oder Löslichkeit
  • Reinheit
  • Experimentelle Informationen von Interesse, wie z. B.:
    • Retationszeit
    • Polarität
    • Ionisierungsmethode
    • NMR-Kerne und Experimente
    • Chiroptische Daten
  • Biologische Eigenschaften

Die Aufbereitung dieser Metadaten gemäß den FAIR-Leitprinzipien kann für zentrale Einrichtungen eine Herausforderung darstellen und lässt sich im Wesentlichen auf zwei mögliche Strategien zurückführen:

  1. Parsing von Metadaten aus Datensätzen. Dies erfordert relativ wenig organisatorischen Aufwand im Vorfeld, kann aber je nach den jeweiligen Datenformaten schwierig sein. Viele Gerätehersteller verwenden proprietäre Datenformate. Wenn alle Informationen, einschließlich der Beschreibung, in Binärformaten gespeichert sind, kann die Extraktion von Metadaten eine Herausforderung darstellen.
  2. Verwendung eines LIMS. Die Verwendung eines Labor-Informations-Management-Systems (LIMS) ermöglicht es, alle mit der Probenverarbeitung verbundenen Prozesse effizient elektronisch zu organisieren. In gewisser Weise ist ein LIMS das Gegenstück zu einem ELN in der Kerneinrichtung. Wenn ein LIMS verwendet wird, ist die Extraktion von Probenmetadaten wesentlich einfacher als durch nachträgliches Parsen. Das LIMS setzt jedoch voraus, dass es alle in der Einrichtung erforderlichen Prozesse abdeckt. Die Einrichtung eines LIMS in einer Kerneinrichtung kann daher eine komplexe organisatorische Aufgabe darstellen.

Quellen

  1. Deutsche Forschungsgemeinschaft (DFG), Leitlinien zur Sicherung guter Forschungspraxis. Verhaltenskodex, September 2019, DOI
  2. Siehe Microsoft Dokumentation für robocopy oder manpage für rsync.