Von der Vision des Giant Global Graph zur praktischen Forschungsdateninfrastruktur

Die Entwicklung von Linked Open Data und semantischen Technologien

Die Idee, Daten im Internet nicht nur zu vernetzen, sondern auch mit Bedeutung und Beziehungen auszustatten, geht unter anderem auf Tim Berners-Lee und seine Vision des „Giant Global Graph“ zurück. Während das klassische Web Dokumente miteinander verknüpft, ermöglicht der Graph, dass einzelne Dinge und deren Beziehungen explizit modelliert werden. Für die Wissenschaft bedeutet das: Daten können nachgenutzt, Redundanzen vermieden und Arbeitsaufwand sowie Fehlerquellen reduziert werden. Die technische Grundlage dafür bildet Linked Open Data (LOD): offen verfügbare, eindeutig identifizierbare und mit Semantik angereicherte Daten.

In den letzten Jahren haben sich die Möglichkeiten, LOD zu produzieren und zu verteilen, stetig verbessert. Es stehen heute ausgereifte Beschreibungs- und Abfragesprachen wie RDF, OWL und SPARQL zur Verfügung. Ontologie-Editoren wie Protégé und spezialisierte LOD-Software wie ConedaKor, ResearchSpace, Metaphacts, Wikidata oder WissKI erleichtern die Arbeit ebenso wie standardisierte Normdaten und Vokabulare (z. B. GND, Getty Vocabularies) und etablierte Ontologien wie das CIDOC-CRM. Die Bereitstellung komplexer Softwareumgebungen wurde durch Containervirtualisierung und Tools wie Docker deutlich vereinfacht.

Von der Tabelle zur Ontologie: Herausforderungen der Semantik

Während klassische Datenbanken und Tabellen oft nur implizite Bedeutungen transportieren, ermöglichen ontologiebasierte Datenmodelle die explizite Darstellung von Konzepten, Beziehungen, Kontexten und Einschränkungen. Die Entwicklung solcher Modelle ist jedoch aufwendig: Jede Entität, Eigenschaft und Beziehung muss eindeutig definiert und maschinenlesbar kodiert werden, meist in Form von RDF-Tripeln. Moderne Tools und Editoren erleichtern diesen Prozess, doch die eigentliche Herausforderung bleibt: Forschende müssen für ihr Projekt eine passende Anwendungsontologie entwickeln, die sowohl die fachlichen Anforderungen als auch die technische Umsetzbarkeit berücksichtigt.

Die Lücke zwischen Standards und Praxis

Obwohl technische Standards und Domänenontologien wie das CIDOC-CRM eine solide Grundlage bieten, stehen Forschende immer wieder vor der Aufgabe, diese zu konkretisieren und für ihre spezifischen Fragestellungen anzupassen. Die Erstellung eines passenden Datenmodells ist oft mit erheblichem Aufwand verbunden, da entweder umfangreiche Domänenontologien auf das Wesentliche reduziert oder projektspezifische Modelle aufwendig angepasst werden müssen. Das Ergebnis sind häufig Datenmodelle, die zwar große Schnittmengen mit anderen Projekten aufweisen, aber dennoch so individuell sind, dass eine direkte Nachnutzung erschwert wird.

WissKI als Lösungsansatz und Ausgangsbasis

WissKI hat sich in den letzten Jahren als eines der bedeutendsten Forschungsdaten-Management-Systeme im Bereich der Digital Humanities etabliert. Die Software wurde 2008 als Gemeinschaftsprojekt gestartet und wird kontinuierlich weiterentwickelt. WissKI basiert auf dem CIDOC-CRM und bietet mit dem sogenannten Pathbuilder eine benutzerfreundliche Möglichkeit, Entitäten und deren Eigenschaften semantisch zu modellieren und in Eingabeformulare zu überführen. Die technische Infrastruktur ist dank Containervirtualisierung und der WissKI Cloud inzwischen so weit ausgereift, dass auch komplexe Systemlandschaften einfach bereitgestellt werden können.

WissKI ist eng mit der Community vernetzt: Über 70 Projekte aus verschiedenen Fachbereichen nutzen die Plattform, es gibt regelmäßige Anwender-Meetings, Hackathons und eine aktive Beteiligung an der Weiterentwicklung von Standards wie dem CIDOC-CRM. Die Plattform ist zudem offen für die Integration neuer Datenmodelle und Ontologien und bietet mit der „Flavours“-Funktionalität die Möglichkeit, unterschiedliche Konfigurationen und Standards zu kombinieren.

Kollaborative und transdisziplinäre Weiterentwicklung

Ein besonderes Merkmal der WissKI-Community ist die kollaborative und transdisziplinäre Arbeitsweise. Forschende aus unterschiedlichen Disziplinen und Karrierestufen arbeiten gemeinsam an der Weiterentwicklung von Datenmodellen und Anwendungsontologien. Die enge Zusammenarbeit mit Institutionen, Fachgruppen und anderen Softwareprojekten sorgt dafür, dass die entwickelten Lösungen praxisnah und anschlussfähig bleiben.

WissKI Barrels

Die technische und organisatorische Infrastruktur für ein kollaboratives, semantisch fundiertes Forschungsdaten-Management ist mit WissKI bereits vorhanden. Die Herausforderung besteht nun darin, aus den vorhandenen, oft projektspezifischen Datenmodellen und Ontologien fachlich abgestimmte, sofort nutzbare und nachnutzbare Modelle zu entwickeln. Ziel ist es, eine Brücke zwischen den allgemeinen Standards wie CIDOC-CRM und den individuellen Anforderungen einzelner Projekte zu schlagen.

Dafür werden im Rahmen des Projekts nicht nur bestehende Modelle gesammelt und dokumentiert, sondern auch systematisch analysiert, verglichen und zu fachlich abgestimmten Synthesen zusammengeführt. Dies sind die WissKI Barrels. Die enge Zusammenarbeit mit der Community, die Nutzung der vorhandenen Infrastruktur (wie WissKI Cloud und Distillery) und die offene Bereitstellung der Ergebnisse schaffen die Voraussetzungen, um Forschenden in verschiedenen Disziplinen sofort einsatzbereite, kollaborativ entwickelte Datenmodelle und Anwendungsontologien zur Verfügung zu stellen.

Durch die kontinuierliche Weiterentwicklung, regelmäßige Community-Treffen und die Integration neuer Anforderungen bleibt das System flexibel und anschlussfähig. So kann WissKI als Plattform und Netzwerk einen entscheidenden Beitrag dazu leisten, die Vision des Giant Global Graph in der geisteswissenschaftlichen Forschungspraxis weiter zu verwirklichen.