Zum Hauptinhalt springen

Ontologien

Zusammenfassung:

Der Begriff Ontologie, wie er in unserem Zusammenhang verwendet wird, bezieht sich auf eine formal spezifizierte Konzeptualisierung einer bestimmten Forschungsdomäne, die auf die Beantwortung der Frage ausgerichtet ist, was in dieser Domäne dargestellt werden kann und muss. Eine Ontologie definiert also eine Sammlung von Fachbegriffen, die zur semantischen Beschreibung von Forschungsdaten in einer FAIR und maschinenlesbaren Weise verwendet werden kann, indem die Forschungsdaten mit diesen Fachbegriffen annotiert werden. Dies geschieht am besten automatisch hinter den Kulissen durch Ihre alltäglichen Arbeitsanwendungen wie das ELN. Da die automatisierte ontologiebasierte Annotation jedoch noch nicht der Standard ist, da sich Ontologien mit den neuen Erkenntnissen aus der Forschung weiterentwickeln und da sie Begriffsdefinitionen enthalten können, mit denen ein Fachexperte (z. B. ein Chemiker wie Sie) möglicherweise nicht einverstanden ist, ist die Kenntnis der Kernkonzepte von Ontologien im eigenen Forschungsbereich in einem FAIR RDM-Kontext hilfreich. Um einen Überblick über verschiedene Ontologien zu erhalten oder mit ihnen zu arbeiten, kann man verschiedene Webdienste nutzen, wie z.B. den *NFDI4Chem Terminology Service.

Einleitung

Ontologie-basiertes RDM Bildnachweis: Philip Strömert, Oliver Koepler, Johannes Hunold, Steffen Neumann, CC BY-SA 4.0

Forschungsdaten sind mehr als die Anhäufung von Zahlen oder Bildern in einem wissenschaftlichen Zeitschriftenartikel, einem experimentellen Abschnitt oder einer ergänzenden Information. Um die Ableitung der Ergebnisse vollständig nachvollziehen zu können, benötigen wir Zugang zu den Rohdaten und zu der Art und Weise, wie sie erzeugt, verarbeitet und analysiert wurden. Während Menschen die gesamte Semantik und das Wissen, das in Artikeln und ihren experimentellen Abschnitten zum Ausdruck kommt, erfassen können, ist dies für Computer ohne feinkörnige Metadaten-Annotationen nicht möglich. Wie in der obigen grafischen Zusammenfassung beispielhaft zu sehen ist, können Ontologien, Taxonomien, Terminologien oder kontrollierte Vokabulare zur semantischen Beschreibung von Forschungsdaten verwendet werden, um diese Daten FAIR und maschinenlesbar zu machen. Es gibt bereits eine Reihe von Ontologien für die semantische Beschreibung von allgemeinen wissenschaftlichen Konzepten und Beziehungen sowie für chemiespezifische Konzepte. Basierend auf einer Analyse in Task Area 6.1 des NFDI4Chem-Projekts bietet der vorliegende Artikel eine kommentierte Auswahl derjenigen Ontologien, die für ein FAIR RDM in der Chemie am geeignetsten erscheinen, sowie ein sehr kurzes Glossar der ontologischen Fachbegriffe.

Grafischer Überblick über chemische Ontologien

Diese grafische Übersicht zeigt chemiespezifische Ontologien, die für ein FAIR RDM geeignet sind, im Hinblick auf ihre Position im BFO/OBO Foundry Framework. Ontologie-basiertes RDM Bild-Attribution: Philip Strömert, CC-BY 4.0

Hier sehen wir, dass diese Ontologien unterschiedliche Geltungsbereiche haben, was bedeutet, dass sie nur Begriffe für die Darstellung/Konzeptualisierung bestimmter Aspekte der Realität bereitstellen (z. B. deckt ChEBI nur chemische Materialentitäten und ihre Rollen ab). Einige haben einen eher engen Anwendungsbereich, andere einen breiteren, und manchmal überschneiden sich diese Bereiche.

Tabellarischer Überblick über chemische Ontologien

In dieser tabellarischen Übersicht sind die geeigneten Ontologien in Bezug auf:

  • ihren allgemeinen Forschungsbereich,
  • ihre Open-Access-Lizenz,
  • die Möglichkeit, sie modular wiederzuverwenden (wobei ein BFO-Abgleich und OBO-Kompatibilität eine erhöhte Möglichkeit darstellt),
  • und ihre Verwendung in bekannten Anwendungen.
OntologieDomäneLizenzModularitätVerwendet von
ChEBIChemieCC-BY 4.0BFO & OBO basiertYMDB, HMDB, PubChem, MassBank, KNApSAcK, UM-BBD, GMD, SMID-DB
CHIROChemieCC0 1.0BFO & OBO basiertunbekannt
ChemOntChemiebenutzerdefinierte OA-Lizenzunter der materiellen Einheit von BFO subsumierbarYMDB, HMDB, T3DB, ECMDB, DrugBank, PubChem, ChEBI, LIPID MAPS, MoNA
CHEMINFChemieCC-BY 3.0BFO & OBO basiertPubChem, Offene PHACTS
CHMOChemieCC-BY 4.0BFO & OBO basiertChemotion, Allotrope™
MOPChemieCC-BY 4.0BFO & OBO basiertRXNO
RXNOChemieCC-BY 4.0BFO & OBO basiertNameRXN, Wikipedia, Chemotion
OntoKinChemieunbekanntOntoCAPE obere Schicht & ModuleJ-Park-Simulator
AFOChemieCC-BY 4.0BFO-Klassen und -Relationen, viele AFO- und einige benutzerdefinierte OBO-ModuleAllotrop™
PROCOChemieCC-BY 4.0BFO/AFO & OBO basiertAllotrop™
MSChemieCC-BY 4.0BFO & OBO Mapping möglichmzML
nmrCVChemiePublic Domain Mark 1.0BFO & OBO Mapping möglichMetaboLights, HMDB
BFOhöhere Level (nur Klassen)CC-BY 4.0OBO-Backbone> 300 Ontologien und >50 Organisationen, PubChem
ROhöhere Level (Beziehungen)CC0 1.0BFO & OBO basiertMonarch Initiative, OBO Foundry, Gene Ontolog, PubChem
IAOInformations-ArtefakteCC-BY 4.0BFO & OBO basiertOBO Foundry, Allotrope™, PubChem, ISA-Werkzeuge
OBIBiomedizinCC-BY 4.0BFO & OBO basiertOBO Foundry, Allotrope™, PubChem, ISA-Werkzeuge
UOwissenschaftliche EinheitenCC-BY 4.0BFO & OBO basiertOBO Foundry, UOM, PubChem
QUDTwissenschaftliche EinheitenCC-BY 4.0BFO & OBO basiertes Mapping möglichopenPHACTS
PATOphänotypische & physische EigenschaftenCC-BY 3.0BFO & OBO basiertOBO Foundry, Allotrope™, PubChem, ISA-Werkzeuge
SIOhöhere LevelCC-BY 4.0BFO-AusrichtungPubChemRDF, Bio2RDF, SADI Semantic Web Services, DisGeNET, EBI's Gene Expression Atlas, Graph4Code Projekt
EDAMBiowissenschaften & DatenmanagementCC-BY 4.0BFO & OBO Mapping möglichEMBOSS, Bio-jETI
OntoCAPEhöhere Level & TechnikGNU GPLv2bietet Konzepte auf höherer EbeneJ-Park-Simulator

Allgemeine wissenschaftliche Ontologien

BFO

Die zweite Version der Basic Formal Ontology (BFO 2.0) wird von der The Open Biological and Biomedical Ontology (OBO) Foundry als oberer Rahmen verwendet. Daher müssen alle Ontologien, die Teil der OBO-Bibliothek sind oder die mit OBO kompatibel sein wollen, an diese BFO-Version angepasst werden. Obwohl die Spezifikationsreferenz von BFO 2.0 Relationen enthält, verursachen deren zeitliche Aspekte Probleme, weshalb die OBO-Gemeinschaft beschlossen hat, in der OWL-Implementierung der BFO 2.0-Spezifikation nur die BFO 2.0-Klassen zu verwenden und einige ihrer Kernrelationen in der OBO Relation Ontology zu kuratieren. Um ein ISO-Standard zu werden, haben die BFO-Entwickler eine neuere Version namens BFO 2020 veröffentlicht, die auch Relationen enthält. Da diese Relationen immer noch den zuvor kritisierten temporalisierten Ansatz verwenden, hat die OBO-Gemeinschaft BFO 2020 bisher nicht als oberes Framework übernommen.

SIO

Die Semanticscience Integrated Ontology (SIO) ist eine weitere Ontologie der oberen Ebene, die grundlegende Konzepte (z. B. Objekte, Informationen und Prozesse) sowie die zugehörigen grundlegenden Merkmale (z. B. Funktionen, Eigenschaften und Rollen) enthält. Sie enthält auch viele grundlegende Relationen (z. B. Teil von, Teilnehmer oder ist über), die für die Beschreibung von realen Objekten, Prozessen und Informationen benötigt werden. Es wurde in Bio2RDF, SADI Semantic Web Services, DisGeNET, PubChemRDF, EBI's Gene Expression Atlas und dem Graph4Code project verwendet. Um die semantische Interoperabilität zu fördern, wird SIO für wichtige Kernklassen und Relationen auf BFO und RO abgebildet.

OntoCape

Die Ontologie für computergestützte chemische Verfahrenstechnik (OntoCAPE) definiert grundlegende Konzepte und Beziehungen wie Datenstrukturen, Teil-Ganzes-Beziehungen, Prozesse, Material, Zeit und Raum oder SI-Einheiten. OntoCAPE ist so konzipiert, dass es in vielen verschiedenen Kontexten der computergestützten Verfahrenstechnik wiederverwendbar und erweiterbar ist, ohne dass weitere Ontologien erforderlich sind. Bislang konnten jedoch keine Hinweise darauf gefunden werden, dass die Meta-, Ober- und Begriffsschichten von OntoCAPE außerhalb des Netzwerks, in dem es entwickelt wird, verwendet werden. Ebenso konnten wir keine Hinweise auf die Interoperabilität zwischen BFO-basierten Ontologien und OntoCAPE finden.

RO

Die Relation Ontology (RO) ist die Referenzontologie der OBO Foundry für allgemeine Relationen, die in vielen verschiedenen Kontexten wiederverwendet werden können (z. B. Teil von, hat eine Eigenschaft oder kommt vor in). Sie ist somit die Anlaufstelle, wenn man OBO-konforme Relationen sucht oder beisteuern muss.

OBI

Die Ontology of Biomedical Investigations (OBI) ist eine weitere bekannte OBO-Ontologie, die viele der gängigen wissenschaftlichen Begriffe enthält, die zur Beschreibung einer Untersuchung oder eines Experiments benötigt werden, einschließlich der Protokolle, Mess- oder Testmethoden und der bei diesen geplanten Verfahren verwendeten Geräte.

IAO

Die Information Artefact Ontology (IAO) ist die Referenzontologie der OBO Foundry für all jene Entitäten (z. B. Symbol, Dokument, Datenelement oder ist Qualitätsmessung von), die in irgendeiner Weise "über" andere Entitäten sind und die wir benötigen, um Informationen maschinenlesbar zu beschreiben.

PATO

Die Phenotype And Trait Ontology (PATO) ist die Referenzontologie der OBO Foundry für alle allgemeinen physikalischen Eigenschaften, wie Temperatur oder Gewicht.

EDAM

Die Ontologie der biowissenschaftlichen Datenanalyse und des Datenmanagements (EDAM) umfasst Forschungsbereiche (Themen), Datentypen, Datenformate, eine Kategorisierung der Algorithmenfunktionalität und auch Aspekte der Biochemie und der analytischen Chemie. Es ist nicht auf eine übergeordnete Ontologie abgestimmt, wird aber in den Biowissenschaften häufig zur Annotation von Werkzeugregistern (Bio-jETI) oder dem ELIXIR-Schulungsportal (TeSS) verwendet.

UO

Die Unit Ontology (UO) ist die Referenzontologie der OBO Foundry für die SI- und abgeleiteten Einheiten, die für die korrekte Beschreibung von Messungen benötigt werden.

QUDT

Die Ontologie der Quantities, Units, Dimensions and Types (QUDT) ist eine nicht OBO-konforme Ontologie, die Mengen und Maßeinheiten spezifiziert.

Chemie Domain Ontologien

ChEBI

Die Ontologie Chemical Entities of Biological Interest (ChEBI) des Europäischen Instituts für Bioinformatik (EMBL-EBI) ist wahrscheinlich eine der am häufigsten verwendeten Ontologien im chemischen Bereich, da sie eine umfassende und gut dokumentierte Klassifizierung chemischer Entitäten bietet. Der Anwendungsbereich von ChEBI kann in drei Ontologiemodule unterteilt werden. Das erste Modul, das unter der BFO-Klasse Material entity subsumiert wird, umfasst die chemischen Entitäten Atom, Gruppe, chemische Substanz und molecular entity. Das zweite Ontologiemodul von CHEBI, der Zweig, der unter der BFO-Klasse Rolle subsumiert wird, deckt die Rollen ab, die chemische Entitäten haben können (Träger sein können), wenn sie in einem chemischen, biologischen oder Anwendungskontext verwendet oder untersucht werden (z. B. Das dritte Modul umfasst subatomare Teilchen. Als Datenmodell für die ChEBI-Datenbank zeigt die Ontologie ihre Bedeutung für die moderne Chemie auch durch die vielen Datenbanken, auf die sie verweist, wie die Human Metabolome Database (HMDB), die Golm Metabolome Database, MassBank, KNApSAcK, UM-BBD, SMID-DB und die Yeast Metabolome Database (YMDB), oder die vielen Ontologien, die Begriffe aus ihr wiederverwenden oder auf sie abbilden. Neue chemische Entitäten können dem ChEBI über ein Online-Einreichungs-Tool einfach hinzugefügt werden. Die Korrektheit solcher Beiträge wird dann von den ChEBI-Kuratoren überprüft.

ChemOnt

Ein alternatives Vokabular zu ChEBI für die Klassifizierung von chemischen Verbindungen ist die Taxonomie ChemOnt. ChemOnt wurde ursprünglich für ClassyFire entwickelt, das weithin für die automatische Klassifizierung insbesondere organischer chemischer Verbindungen verwendet wird. Da ChemOnt nur eine Taxonomie ist, fehlen ihm Relationen und Axiome, um das darin enthaltene chemische Wissen weiter zu formalisieren. Daher liefert sie nur die Kategorien (Klassen), die ClassyFire benötigt. Die eigentlichen Regeln/Logik hinter der automatischen Klassifizierung der Anwendung sind in der Software kodiert. Im Hinblick auf die Wiederverwendbarkeit von ChemOnt ist zu erwähnen, dass es weder an BFO wie die OBO-Ontologien noch an eine andere übergeordnete Ontologie angelehnt ist. Man könnte die Wurzelkategorie chemische Entitäten von ChemOnt unter den BFO-Zweig Materialentitäten subsumieren und sie so in einem BFO-Kontext wiederverwendbar machen. Da in ChemOnt jedoch nur die auf Strukturelementen basierenden Klassen chemischer Verbindungen konzeptualisiert werden, ist es weniger granular als ChEBI, das die eigentlichen chemischen Verbindungen konzeptualisiert.

CHIRO

Die ChEBI Integrated Role Ontology (CHIRO) ist ein Beispiel dafür, wie das implizite Wissen, das im ChEBI-Rollenzweig enthalten ist, durch Axiomatisierung explizit gemacht werden kann. Sie bietet Links zu anderen OBO-Ontologien wie GOPRO, NCBITaxon, HP oder DOID durch die Verwendung von Ad-hoc-Relationen, wie z. B.agonist_oforinhibitor_of. Die Motivation besteht darin, direkte Verbindungen zwischen chemischen Strukturen wie kleinen Molekülen oder Medikamenten und ihren Wirkungen herzustellen. CHIRO kann somit als ein Ontologiemodul verwendet werden, das den Rollenzweig von ChEBI erweitert oder verbessert. Da die weitere Entwicklung oder Pflege von CHIRO derzeit auf Eis liegt, sollte es als wichtiger Bezugspunkt und als Möglichkeit zur Zusammenarbeit betrachtet werden, sobald der Bedarf an formalisierten chemischen Rollen entsteht.

CHEMINF

Die Chemical Information Ontology (CHEMINF) soll als einheitlicher Bezugspunkt für die Definition und Disambiguierung von Begriffen und Beziehungen dienen, die im Bereich der Chemieinformatik verwendet werden. Der Geltungsbereich umfasst chemische Graphen und ihre verschiedenen Kodierungsformate, die Definition chemischer Deskriptoren wie InChI oder SMILES, allgemein verwendete Software und Algorithmen wie die PubChem-Softwarebibliothek oder den Lipinski-Algorithmus zur Berechnung der Fünferregel sowie Formatspezifikationen für chemische Daten wie die MOLfile-Format-Spezifikation. CHEMINF definiert auch benötigte chemische Eigenschaften, wie Molekularstruktur oder Ladung, sowie Dispositionen chemischer Entitäten, wie Löslichkeit oder Elektronegativität. Da es sich bei CHEMINF um eine sehr ausdrucksstarke Ontologie handelt, spezifizieren die mitgelieferten Axiome die abgedeckten Entitäten in einer maschinenlesbaren Weise weiter. CHEMINF ist eine unverzichtbare Ressource, wenn es darum geht, die verschiedenen Eigenschaften chemischer Entitäten, ihre Messungen oder Vorhersagen sowie die Software und Normen, die zu ihrer Beschreibung verwendet werden, zu beschreiben. Der Einfluss von CHEMINF ist in prominenten Anwendungen wie der semantischen Annotation der PubChem-Datenbank oder im Open PHACTS-Projekt sichtbar.

CHMO & MOP & RXNO

Die OBO-konformen Ontologien Chemical Methods Ontology (CHMO), Molecular Process Ontology (MOP) und Named Reactions Ontology (RXNO) wurden unter der Schirmherrschaft der Royal Society of Chemistry (RSC) ab etwa 2008 entwickelt und wurden ursprünglich mit dem Ziel geschaffen, die semantische Veröffentlichung im RSC Project Prospect zu verbessern. (siehe auch https://doi.org/10.1021/bk-2014-1164.ch013)

CHMO konzentriert sich auf die Konzeptualisierung von experimentellen Methoden, die in der Chemie angewandt werden. Es erweitert OBI und IAO um Klassen, die benötigte Assay-Methoden wie Spektroskopie, Thermische Analyse (einschließlich Kalorimetrie) oder Magnetresonanzmethode sowie Laborgeräte, Substanzen und Protokolle (z. B. Destillation, Pufferlösung oder Gefahrstoffreduktion) konzeptualisieren. Für die Axiomatisierung seiner Klassen verwendet CHMO die in ChEBI definierten chemischen Entitäten und Relationen aus OBI sowie BFO. Letztere sollten jedoch am besten durch entsprechende RO-Relationen ersetzt werden, um Interoperabilitätsprobleme zu vermeiden (siehe auch BFO).

MOP konzentriert sich auf die Konzeptualisierung allgemeiner molekularer Prozesse, wie Additionsreaktion, Zyklisierung oder Polymerisation. Es handelt sich also um eine eher kleine Ontologie, die hauptsächlich als Basismodul für die Named Reaction Ontology (RXNO) dient, in der diese grundlegenden molekularen Prozesse für die Definition der komplexeren Reaktionen benötigt werden. Ähnlich wie bei CHMO werden die in MOP definierten Definitionen und Synonyme größtenteils von ihren jeweiligen IUPAC Gold Book Einträgen abgeleitet und mit diesen verknüpft. In MOP selbst ist nur die Relation is_catalysis_of definiert und wird nur zur formalen Definition der Klasse catalysis verwendet. Ähnlich wie in CHMO werden chemische Entitäten aus ChEBI für die Axiomatisierung bestimmter molekularer Prozesse wiederverwendet.

RXNO erweitert die in MOP definierten molekularen Prozesse, um synthetische organische Reaktionen mit kleinen Molekülen abzudecken, wie z. B. die bekannte Diels-Alder-Cyclisierung. Die Top-Level-Klassifikation von RXNO enthält sowohl Reaktionen, die das Gerüst verändern (z. B. Spaltung, Kondensation, Umlagerung), als auch Reaktionen, die das Gerüst erhalten (z. B. Addition, Eliminierung, Schutz oder Entschützung). Die Klassifizierung der benannten Reaktionen in RXNO basiert auf zwei Prinzipien, wobei zunächst die längsten Kohlenstoffketten in den Reaktanten und Produkten verglichen werden und dann geprüft wird, ob ein Ringsystem gebildet, gebrochen oder verändert wird. Für die Formalisierung seiner Klassifizierung verwendet RXNO auch chemische Entitäten aus ChEBI sowie Klassen aus OBI und IAO. Die Verwendung der von OBO nicht unterstützten BFO-Relationen ist, wie in den beiden anderen RSC-Ontologien, auch in RXNO ein kleines Problem, das gelöst werden sollte. Ein weiteres, relativ leicht zu lösendes Problem betrifft die gegenwärtig gewählte Importstrategie für MOP-Klassen, da sie Raum für Kurationsfehler lässt. Ein Flussdiagramm und eine Dokumentation darüber, wie benannte Reaktionen in RXNO zu klassifizieren sind, ermöglicht eine auf offener Quelle basierende Zusammenarbeit in der Gemeinschaft und somit eine rechtzeitige Hinzufügung von noch nicht erfassten Reaktionen.

OntoKin

Die Ontologie für chemische kinetische Reaktionsmechanismen (OntoKin) ist für die Simulation und das Verständnis des Verhaltens chemischer Prozesse gedacht und kann als eine domänenspezifische Erweiterung der OntoCape-Ontologie angesehen werden. Ihr Umfang kann in fünf Module unterteilt werden: Reaktionsmechanismus, Phase, chemische Reaktion, Geschwindigkeitskoeffizient und chemische Spezies. Diese Module definieren die Klassen (z. B. BulkPhase oder GasPhaseReaktion), Relationen (z. B. hasElement oder belongsToPhase) und Axiome (z. B., ChemicalReaction hat immer einen Reaktanten, Product, ReactionMetadata, ReactionOrder und StoichiometricCoefficient), die für eine umfassende semantische Beschreibung der Reaktionskinetik erforderlich sind. Aus OntoCAPE werden die Klassen ChemicalReaction,ChemicalSpecies,ReactionRateCoefficient,ThermoModel und StoichiometricCoefficient wiederverwendet, aber keine Begriffe aus anderen chemischen Ontologien. Damit hat OntoKin einerseits den Vorteil, dass es nur sehr wenige externe Abhängigkeiten hat, was es in Bezug auf die semantische Stabilität robust macht und die Implementierung in Anwendungen, wie z.B. den Prototyp eines Open Access Knowledge Graphs, erleichtert. Andererseits bedeuten diese wenigen Abhängigkeiten aber auch, dass mit OntoKin beschriebene Daten nicht so interoperabel sind wie Daten, die mit einer OBO-konformen Ontologie beschrieben werden. Das Fehlen von Metainformationen zu den Begriffen von OntoKin sowie die spärliche Dokumentation im Allgemeinen könnten ein mögliches Hindernis für die Benutzer darstellen.

AFO

Die Allotrope Foundation Merged Ontology Suite (AFO), die erstmals im März 2018 veröffentlicht wurde, ist eine von der Allotrope Foundation entwickelte Sammlung von Taxonomien und Ontologien, die als Standardsprache für die Beschreibung von Geräten, Prozessen, Materialien und Ergebnissen gedacht ist. AFO liefert den semantischen Kontext in einem Technologie-Stack, genannt Allotrope Framework, der auch aus dem Allotrope Data Model (ADM) und dem AllotropeData Format (ADF) besteht. Das Ziel von ADF ist es, die IT-Landschaft im Labor zu vereinheitlichen, indem es zum Goldstandard für die vielen verschiedenen Datenformate wird, die es heute gibt. Nach Millecam et al. steht seine Einführung noch ganz am Anfang. Eine modulare Wiederverwendung der Ontologie-Suite von Allotrope zusammen mit OBO-basierten Ontologien könnte zu Problemen führen, da es bestimmte designbedingte Unterschiede gibt, wie z. B. AFOs striktes Prinzip der Einzelvererbung, was bedeutet, dass eine Klasse in AFO nicht mehrere Elternklassen haben kann, die nicht so gut dokumentierte Importstrategie von BFO sowie von Klassen und Relationen aus anderen OBO-Ontologien, oder die Tatsache, dass AFO die ISO-Version von BFO 2020 einschließlich der temporalisierten Relationen wiederverwendet (siehe auch BFO).

PROCO

Die Prozess-Chemie-Ontologie (PROCO) beschreibt den Bereich der Prozesschemie von route scouting, Prozessoptimierung, Prozessvalidierung und Prozesswartung mit Schlüsselkonzepten wie Produktqualität, Produktionsprozesse, Umweltverträglichkeit, Einhaltung gesetzlicher Vorschriften und Sicherheit. Diese am BFO ausgerichtete Ontologie wird derzeit als Gemeinschaftsprojekt von Hochschulen (University of Michigan) und Industrie (Merk, GSK, Allotrope Foundation) entwickelt. Um die Zusammenarbeit zwischen der Allotrope Foundation und der OBO-Gemeinschaft zu fördern, wurde PROCO im April 2021 zur Prüfung bei der OBO-Foundry eingereicht. Bei der Definition bestimmter Begriffe folgten die PROCO-Entwickler einem Button-up-Ansatz und identifizierten standardisierte Laborpraktiken und grundlegende Prozessmuster, die explizit oder implizit im Datenmodell von Allotrope sowie in den Spezifikationen von Regulierungsbehörden enthalten sind. PROCO verwendet Begriffe aus chemischen Ontologien, wie CHMO und ChEBI, zusammen mit anderen benötigten allgemeinen OBO- und Nicht-OBO-Begriffen (hauptsächlich aus AFO und SIO). Aufgrund des Umfangs von PROCO, der Tatsache, dass es sich um eine Zusammenarbeit zwischen Industrie und Wissenschaft handelt, und der Absicht, PROCO als Modul in den Allotrope-Rahmen zu integrieren, um die industrielle Produktion zu verbessern, sollten künftige Entwicklungen beobachtet werden. Da es sich bei PROCO außerdem um eine "gemeinschaftsbasierte Ontologie" handelt, ist es ein guter Kandidat für die Wiederverwendung.

MS

Die Massenspektrometrie-Ontologie (MS), die im Rahmen der Human Proteome Organization Proteomics Standards Initiative (HUPO-PSI) entwickelt wurde, konzentriert sich auf die Beschreibung von Massenspektrometer-Ausgabedateien und die Interpretation von Massenspektren, wobei die beiden wichtigsten Zweige in den Wurzelklassen Spektrenerzeugungsinformationen und Spektreninterpretation verankert sind. Die anderen zehn Zweige enthalten die Klassen, die zur Darstellung verwandter Konzepte benötigt werden (z. B. molekulare Entität, Software oder regulärer Ausdruck). Sie werden entweder in feinere Unterklassen unterteilt (z. B. Atom, Brucker-Software oder Cleavage agent regular expression) oder mit konzeptionell ähnlichen Klassen über die MS-Beziehung part_of verbunden. Die Klasse molecular entity attribute, die als Teil der Klasse molecular entity definiert ist, bietet in ihren Unterklassen die Attribute, die zur weiteren Beschreibung einer molekularen Entität erforderlich sind (z. B. SMILES formula). Diese Partonomiestruktur bietet eine Gruppierung von Konzepten, die direkt in der Software verwendet werden kann, die die XML-basierten Dateien generiert, die MS-Experiment-Informationen kodieren. Für die Darstellung anderer üblicher Eigenschaften, die in diesem Bereich benötigt werden, importiert MS direkt PATO, und für SI-Einheiten sowie übliche Mengenpräfixe importiert es direkt UO. Undokumentiert sind die Gründe, warum semantisch ähnliche Klassen aus anderen externen Ontologien nicht wiederverwendet oder mit ihnen abgeglichen werden (z. B. SMILES formula oder InchiKey in CHEMINF oder alle dieselben molekularen Entitäten in ChEBI).

nmrCV

Der Anwendungsbereich des Kernspinresonanz-CV (nmrCV) ist die Konzeptualisierung von Begriffen, die für die Beschreibung von Kernspinresonanz (NMR)-Assays benötigt werden. Sie wurde von Experten der Metabolomics Standards Initiative (MSI) unter der Leitung der Projekte COSMOS EU und PhenoMeNal EU entwickelt und wird auf GitHub gepflegt. Da nmrCV als einfache Taxonomie konzipiert ist, hat es keine Objekt- oder Dateneigenschaften. Sein primärer Anwendungskontext ist die Erstellung und Validierung von XML-Dateien, die NMR-Assay-Daten im nmrML-Dateiformat speichern. In Bezug auf die Modularität ist anzumerken, dass nmrCV zwar BFO-basiert ist, aber ansonsten nicht wirklich dem OBO-Kernprinzip folgt, so viel wie möglich von bestehenden OBO-Ontologien wiederzuverwenden. So sind beispielsweise so allgemeine Klassen wie Software und Instrument in nmrCV definiert, anstatt aus IAO oder OBI wiederverwendet zu werden. Das Gleiche gilt für einige der domänenspezifischen Konzepte wie NMR-Pulssequenzen oder NMR-Instrumente, für die es bereits Äquivalente in CHMO gibt. Eine Zuordnung zu solchen engen oder exakten Entsprechungen in anderen Ontologien ist ebenfalls nicht vorgesehen. Dies könnte eine direkte Wiederverwendung von nmrCV in verschiedenen Anwendungskontexten erschweren. Eine semantische Harmonisierung mit den existierenden OBO Ontologien, insbesondere mit CHMO, ist daher eine notwendige Verbesserung, um die Interoperabilität zu erhöhen.

FIX & REX

Obwohl die beiden chemiebezogenen Ontologien Physico-chemical methods and properties ontology (FIX) und Physico-chemical process ontology (REX) im NFDI4Chem Terminology Service indiziert sind, sollte ihre Wiederverwendung mit Vorsicht erfolgen, da sie nicht mehr gepflegt werden und daher laut der OBO Foundry als "verwaist" gelten. Die meisten der in diesen beiden Ontologien definierten Konzepte finden sich auch in den aktuelleren und gut gepflegten Ontologien CHMO, MOP und RXNO.

Glossar

Um über die bestehenden Ontologien im Bereich der Chemie sprechen zu können, müssen wir ein sehr kurzes Glossar der wichtigsten Fachbegriffe erstellen, die eine Ontologie beschreiben:

  • Klassen repräsentieren jene Teile der Realität, die als generische Entitäten existieren, wie Atome und Moleküle, chemische Reaktionen, Laborgeräte und experimentelle Methoden (z.B.
  • die Klasse Massenspektrometer) Instanzen, Individuen oder Partikularien einer Klasse sind besondere Einheiten, die in der Realität existieren (z. B.
  • ein bestimmtes Massenspektrometer, das durch eine Seriennummer identifiziert wird) Beziehungen oder Eigenschaften sind Begriffe, die verwendet werden, um die Interdependenz zwischen Klassen oder Individuen zu kennzeichnen (z. B.
  • ein bestimmtes Molekül nimmt an einer bestimmten chemischen Reaktion teil) Taxonomie bezieht sich auf eine hierarchische Strukturierung von Klassen in Ober- und Unterklassen (z. B. Massenspektrometer ist ein Gerät oder HomoSapiens ist ein Mamal)
  • Axiome sind die Regeln, die definiert wurden, um Beziehungen auszudrücken, die immer zwischen Klassen oder Instanzen von Klassen gelten (z.B. MolecularProcess ist ein Prozess, der eine oder mehrere MolecularEntities als seine Teilnehmer haben muss)
  • Zeit, Raum, Materie, Prozess, Kausalität, Partialität usw.) und können somit einen semantischen Rahmen für Domänen- oder Anwendungsontologien bilden ** Im besten Fall gibt es nur eine Oberontologie, die von vielen Domänenontologien verwendet wird, um ihre Interoperabilität zu gewährleisten **Domänen-Ontologien** konzeptualisieren spezifische Aspekte einer bestimmten Domäne (z.B.
  • konzeptualisiert ChEBI nur chemische Entitäten wie Atome und Moleküle sowie deren Rolle in bestimmten Kontexten) Anwendungsontologien sind Domänenontologien, die in einer konkreten Anwendung implementiert werden und somit auf die Anwendungsfälle der Anwendung beschränkt sind
  • Anwendungsontologien sind Domänenontologien, die in einer konkreten Anwendung implementiert werden und somit auf die Anwendungsfälle der Anwendung beschränkt sind

Quellen und weitere Informationen


geschrieben von: https://orcid.org/0000-0002-1595-3213