Organisation der Daten
Nach der Dokumentation Ihrer Forschungsdaten ist eine detailliertere Beschreibung der Art und Weise, wie Ihre Informationen gespeichert werden, erforderlich - ein kurzer Blick auf Dateien und Ordner, aber wenn Sie mit vielen oder großen Datensätzen arbeiten, können die Vorteile von Datenbanken relevant werden. Überlegen Sie, ob dies auf Ihr Projekt zutrifft und ob nur aus der Datenbank exportierte Dateien sinnvoll sein könnten. Einen Überblick über Speicherorte und Speichermethoden finden Sie unter Datenspeicherung und Archivierung.
Dateien: Benennungskonventionen
Menschliche Benutzer profitieren von Dateinamen, die ein einfaches Sortieren ermöglichen und den Inhalt auf den ersten Blick erkennen lassen. Dateinamen wie die folgenden sind jedoch nicht hilfreich:
mydata.csv
meineDaten_endg.csv
meinefinaldaten_V2.csv
meinefinaldaten_V2_fertig.csv
Wir brauchen kurze und aussagekräftige Dateinamen als Identifikator für ein Dokument. Nützliche Namen geben Auskunft über den Inhalt der Dateien und helfen beim Sortieren. Achten Sie auf Ihr Benennungsschema, wenn Sie mit anderen zusammenarbeiten: Es ist wichtig, sich an dieselbe Dateinamenskonvention zu halten. Entwickeln Sie daher zu Beginn des Projekts ein angepasstes Schema und schreiben Sie es einschließlich der Erläuterung von Abkürzungen in Ihre Datendokumentation.
Versuchen Sie, die verschiedenen Status (Rohdaten, Entwurf, vorläufig, fertig, ...) und Typen (bearbeitbares Quellformat wie Textdateien oder csv im Gegensatz zu Exportformaten wie PDF) Ihrer Dokumente zu berücksichtigen.
Finden Sie eine ausgewogene Anzahl von Elementen: Zu viele erschweren das schnelle Erfassen, während zu wenige Elemente den möglichen Namensraum schnell erschöpfen. Beachten Sie die maximale Anzahl von Zeichen für Pfadnamen, die in der Regel 255 Zeichen beträgt.
- Ordnen Sie die Elemente vom Allgemeinen zum Speziellen.
- Verwenden Sie aussagekräftige Abkürzungen anstelle von langen Bezeichnungen.
- Verwenden Sie Unterstrich (_), Bindestrich (-) oder Großbuchstaben, um Elemente im Namen zu trennen. Verwenden Sie keine Leer- oder Sonderzeichen: ?!& , _ % # ; _ ( ) @$ ^ ~ ' [ ] < >.
- Verwenden Sie das Datumsformat ISO8601: JJJJMMTT, und Uhrzeit, falls erforderlich HHMMSS.
- Fügen Sie gegebenenfalls eine Versionsnummer ein: mindestens zweistellig (V02) und bei Bedarf für kleinere Korrekturen erweitert (V02-03). Die führenden Nullen stellen sicher, dass die Dateien korrekt sortiert werden.
(von RDMKit)
Beispiele für Elemente, die im Dateinamen enthalten sein sollten
- Datum der Erstellung
- Projektnummer / Experiment / Akronym
- Art der Daten (Proben-ID, Analyse, Bedingungen, Änderungen usw.)
- Gerät / Standort / Koordinaten
- Name / Initialen des Erstellers
- Versionsnummer
- Reservieren Sie die letzten 3 Buchstaben für das Dateiformat (z. B. .csv, .odt, .tif, .jpg)
Ein guter Dateiname wie 20180211_ELI5_TEMP_BH01_RAW_03.csv
kann leicht nach Datum sortiert werden und gibt Aufschluss:
Datum der Datei: 11. Februar 2018
Projektkürzel: ELI5 = Erklären wie ich 5 bin (Jahre alt)
Messwerttyp: TEMP = Temperaturwerte
Messstelle / Ort: BH01 = Bienenstock Nr. 01
Art der Daten: RAW = Rohdaten vom Messgerät
Nummer der Datei, die die Daten für diese Messreihe enthält
Wenn Sie mehrere Dateien umbenennen müssen, schauen Sie sich das an:
- Thunar Massenumbenennung (Linux, GUI)
- Befehlszeile: mv, mmv, rename (Linux, CLI)
- Bulk Rename Utility (Windows, kostenlos)
- TotalCommander (Windows, Shareware)
- Renamer4Mac (Mac).
Für einige spezielle Dateiformate gibt es Tools zur Anpassung des Dateinamens an die Metadaten. Zum Beispiel, um einen Dateinamen zu erstellen, der zu Ihrem Schema passt und die Datums- und Zeitinformationen aus den EXIF-Daten einer jpg-Datei übernimmt. Einige erlauben auch das Hinzufügen eines Offsets - dies hilft beim Sortieren von Fotos nach Zeitstempeln, die auf unterschiedlichen Uhren laufen.
Dateien: Versionierung
Verstecken Sie Schnappschüsse oder verfolgen Sie einfach Änderungen und ermöglichen Sie es, etwas zu finden, das in einer früheren Version existierte, aber später gelöscht oder geändert wurde. Bei einer klaren chronologischen Abarbeitung nacheinander sind normalerweise keine weiteren Werkzeuge erforderlich. Doch auch wenn dies anfangs oft so scheint, haben sich unterstützende Werkzeuge schnell als nützlich erwiesen und sind in der Zusammenarbeit schnell etabliert.
Mögliche Lösungen
- Geringe Anzahl von Anforderungen: Manuelle Verwaltung, z. B. durch Führen eines Protokolls, in dem die Änderungen für jede einzelne Datei, Version für Version, dokumentiert werden.
- Für die automatische Verwaltung der Versionierung, Konfliktlösung und Rückverfolgungsmöglichkeiten verwenden Sie eine geeignete Versionskontrollsoftware wie Git, die z. B. Sehr stark mit unkomprimierten, lesbaren und vergleichbaren Dateien wie Textdateien oder csv.
- Verwenden Sie einen Cloud-Speicherdienst (siehe Datenspeicherung und Archivierung), der eine automatische Dateiversionierung bietet. Sehr gut geeignet für Tabellenkalkulationen, Textdateien und Folien.
Dateien: Arten von Metadaten
Betrachten Sie die Art und Weise, wie Daten und Metadaten zusammen als FDOs (Fair Digital Objects) gespeichert werden können. Metadaten lassen sich beispielsweise in die folgenden vier Kategorien einteilen:
- beschreibende Metadaten
- administrative Metadaten
- technische Metadaten
- strukturelle Metadaten
Ein FDO kapselt Daten und Metadaten in einer Datei und kann z.B. als HDF5 gespeichert werden. Siehe Data Format Standard für weitere Informationen.
Dateien: Formate
Verschiedene Disziplinen verwenden etablierte Standards, siehe Data Format Standard. Berücksichtigen Sie auch über die Dauer des Projekts hinaus:
- Verwendung von proprietären oder offenen Dateiformaten
- Austausch innerhalb und außerhalb der Arbeitsgruppe
- Kurzzeit- und Langzeitspeicherung, Datenspeicherung und Archivierung
- spezielle Arbeitsabläufe und Verfahren (z.B. zur Datenerhebung, Dokumentation und Auswertung)
- gemeinsame oder getrennte Speicherung (z. B. SPSS-Datei für Daten; XML-Datei für Metadaten)
- geeignete Verfahren zur Wahrung der Konsistenz von Daten und Metadaten
Ordnerstruktur
Alles sollte sofort intuitiv verständlich sein. Die Ordnerstruktur hilft Ihnen, durch die einzelnen Informationen zu navigieren. Entwickeln Sie zu Beginn des Projekts eine Konvention und schreiben Sie diese einschließlich der Erläuterung von Abkürzungen in Ihrer Datendokumentation nieder. Versuchen Sie, die gleiche Strategie in jedem Projekt innerhalb der Forschungsgruppe konsequent anzuwenden.
Mappen sollten:
- einer Struktur mit Ordnern und Unterordnern folgen, die dem Projektdesign und dem Arbeitsablauf entspricht
- einen selbsterklärenden Namen haben, der nur so lang wie nötig ist
- einen eindeutigen Namen haben - vermeiden Sie es, einem Ordner und einem Unterordner denselben Namen zuzuweisen
Der oberste Ordner sollte eine README.txt-Datei enthalten, in der die Ordnerstruktur beschrieben wird und welche Dateien in den Ordnern enthalten sind. Diese Datei sollte auch eine Erklärung der Dateinamenskonvention enthalten.
Ein Beispiel von RDMKit:
project/
code/ Code, der benötigt wird, um von den Eingabedateien zu den endgültigen Ergebnissen zu gelangen
data/ Roh- und Primärdaten (niemals bearbeiten!)
raw_extern/
roh_intern/
meta/
doc/ Dokumentation der Studie
intermediate/ Ausgabedateien von Zwischenschritten der Analyse
logs/ Protokolle der verschiedenen Analyseschritte
notebooks/ Notizbücher, die Ihre tägliche Arbeit dokumentieren
Ergebnisse/ Ergebnisse von Arbeitsabläufen und Analysen
Abbildungen/
Berichte/
Tabellen/
Scratch/ temporäre Dateien, die sicher gelöscht werden oder verloren gehen können
README.txt Datei und Ordnerbeschreibung