Forschungsdaten nutzbar machen

Simulationsergebnisse, Messwerte, Interviews, Bilder, Social Media-Daten, Statistiken: Forschungsdaten beantworten viele Fragen und sollten daher möglichst vielen Nutzer:innen zur Verfügung gestellt werden sollen. Das ist das zentrale Ziel mehrerer Projekte der Nationalen Forschungsdaten-Infrastruktur (NFDI), die IT-Dienstleister wie das Leibniz-Rechenzentrum (LRZ) mit Forschungseinrichtungen, Hochschulen und Universitäten aus Deutschland zusammenführt. Seit 2018 und vorerst bis zu 10 Jahren fördern Bund und Länder mit jährlich 90 Millionen Euro den Aufbau offener Datenplattformen und Portale für verschiedene Wissenschaftsbereiche, die oft noch mit neuen, smarten Analysewerkzeugen auf Basis von Künstlicher Intelligenz und statistischen Methoden ausgestattet werden.

akten

Aktenschrank – der traditionelle Datenspeicher. Foto: Jan A. Kolar/Unsplash

Das LRZ ist bereits an zwei Konsortien direkt beteiligt und gewann 2021 fünf weitere hinzu. Vor allem die Expertise der Teams Forschungsdaten-Management, Datei- und Speichersysteme sowie Big Data und Künstliche Intelligenz sind dabei gefragt. Denn es gilt, Forschungsdatensätze international besser auffindbar und leichter nutzbar zu machen, und das möglichst für lange Zeit. Das LRZ hat sich dabei den FAIR-Regeln verpflichtet, nach denen Daten findbar/findable, offen zugänglich/accessible, interoperabel und wieder verwertbar/resusable sein sollen. Das soll unter anderem mit standardisierten Metadaten gelingen, die von Suchmaschinen indiziert werden. "Das vereinfacht die Überprüfbarkeit sowie das Teilen von Forschungsergebnissen", sagt Dr. Stephan Hachinger, der das Team Forschungsdaten-Management leitet, im Interview unten. "Eine Voraussetzung für die FAIRe Datenhaltung ist die Ausstattung von Forschungsergebnissen mit Zusatzinformationen." Diese Metadaten beschreiben den Inhalt von Datensätzen wie ein Bibliotheksverzeichnis Bücher. Neben Autor, Inhalt und Gebrauchsanleitung stellt eine Prüfsumme darin sicher, dass ein Datensatz bei der Verwendung weder manipuliert noch verändert wurde.

NFDI-Projekte mit Beteiligung des LRZ

BERD@NFDI: Dieses Projekt macht Daten rund um die Wirtschaft, Arbeit sowie gesellschaftliche Entwicklungen zugänglich und stellt Verfahren der Künstlichen Intelligenz und des Maschinellen Lernens zur Auswertung bereit. BERD@NFDI entsteht unter der Federführung der Universität Mannheim.

FAIRmat kümmert sich um die Informationen und Forschungsergebnissen aus den datenintensiven Materialwissenschaften, der Physik und der chemischen Physik. Die Leitung liegt bei der Humboldt-Universität Berlin.

• Bei NFDI4Earth stehen die Erdsystem-Wissenschaften im Fokus. Das LRZ bringt seine Erfahrungen beim Aufbau von terrabyte ein und hilft dabei, die Nutzung von Simulationsdaten zu vereinfachen. Die Technische Universität Dresden leitet dieses Projekt.

PUNCH4NFDI wiederum erstellt eine Plattform, auf denen Teilchen- und Astroteilchenphysik ihre Massendaten ablegen und dafür integrierte Daten- und Metadaten-Werkzeuge sowie Dateiformate entwickeln. Dieses Projekt wird vom Deutschen Elektronen-Synchotron (DESY) in Hamburg und Zeuten organisiert.

Text+ schließlich nimmt sich der text- und sprachbasierten Daten aus den Geisteswissenschaften an, also Informationen wie Büchern, Interviews, Vorträgen an und will diese für die Wissenschaft erschließen. Das LRZ unterstützt das Projekt mit technischem Know-how.

• Bereits seit 2019 engagiert sich das LRZ außerdem für das German Human Genome-Phenome Archive (GHGA), das unter der Führung des Deutschen Krebsforschungszentrums in Heidelberg die technische Infrastruktur zur Datenhaltung und Analyse von Informationen zu Humangenetik und Medizin bereitstellen wird. Auch bei der NFDI-Plattform für Ingenieure (NFDI4Ing) arbeitet das LRZ mit, die Leitung für dieses Projekt liegt bei der Rheinisch-Westfälischen Technischen Hochschule Aachen. NFDI4Ing kümmert sich insbesondere um die Metadaten im High Performance Computing oder von Supercomputern wie dem SuperMUC-NG – ein Thema, das für viele andere NFDI-Projekte stark an Bedeutung gewinnen wird.

Technische Zugänge harmonisieren und Metadaten speichern

Forschungsergebnisse möglichst langfristig und weltweit öffentlich zugänglich machen: Diese Aufgabe hört sich einfach an, birgt aber viele Herausforderungen, zumal die Datensätze heute meistens mehrere Peta- oder sogar Terrabyte umfassen. Dr. Stephan Hachinger leitet am LRZ das Team Forschungsdaten-Management und beschreibt die Herausforderungen beim Aufbau von Datenplattformen und -Speichern für Wissenschaft und Forschung wie sie die NFDI gerade fördert.

Die NFDI fördert den Aufbau unterschiedlichster Datenplattformen für die Sozial- und Materialwissenschaften, für Medizin, Astrophysik und weitere Wissenschaftsbereiche. Was haben diese Projekte trotz unterschiedlicher Inhalte gemeinsam? Dr. Stephan Hachinger: Die NFDI-Konsortien bauen offene Datenplattformen und Portale für diverse Forschungsbereiche auf, die oft mit neuen, smarten Analysewerkzeugen auf Basis Künstlicher Intelligenz oder statistischer Methoden gekoppelt werden. Dabei wenden sie die FAIR-Prinzipien zum Forschungsdaten-Management an und suchen nach technischen Lösungen und Werkzeugen, Daten findable/auffindbar, accessible/zugänglich, interoperable und reusable/wiederverwertbar zu machen. Das vereinfacht die Überprüfbarkeit sowie das Teilen von Forschungsergebnissen. Eine Voraussetzung für die FAIRe Datenhaltung ist die Ausstattung von Forschungsergebnissen mit Zusatzinformationen. Diese Metadaten bieten einerseits Hinweise zu Inhalten, etwa Autor:innen, Erstellungsdatum, Thema, andererseits aber auch Instruktionen zu ihrer Nutzung, also Dateiformat, Qualität, Speicherort. Der Verein NFDI bringt alle Konsortien und Projekte zusammen, um gemeinsame Mindeststandards zur Datennutzung und -Speicherung zu erarbeiten sowie praktische Lösungen zu fachübergreifenden, technischen Anforderungen.

Welche Herausforderungen stellen sich dabei? Hachinger: Generelle Probleme, die sicher in allen Wissenschaftsdisziplinen auftauchen sind zum Beispiel die Speicherung von Metadaten (Ablage, Format), die Vollständigkeit der Angaben, deren effiziente Veröffentlichung und der Export oder die Verbreitung in Suchmaschinen. Auch nicht ganz einfach ist die Harmonisierung der technischen Zugänge und Zugriffsmöglichkeiten, Forschende einer Einrichtung A sollten auf die Datensätze von Institut B zugreifen können und diese möglichst schon via Cloud-Dienste mit ersten Analyseverfahren bewerten können. Nicht zuletzt wachsen die Datenmengen in der Wissenschaft, große Datensätze etwa aus Simulationen im Supercomputing lassen sich jedoch nur schwer oder gar nicht aus den Originalspeichern bewegen, sollten aber nach den FAIR-Prinzipien ebenfalls zugänglich, interoperabel und wieder oder weiter zu verwenden sein.

Welche Erfahrungen bringt das Leibniz-Rechenzentrum (LRZ) in diese Projekte ein? Hachinger: Das LRZ hat in den vergangenen Jahren erstens viel Erfahrung im Umgang mit Big Data in unterschiedlichsten Bereichen gesammelt. Wir haben zweitens eigene Speicher gerade für größte Datensätze aufgebaut, bieten und optimieren drittens zusammen mit Forschenden Methoden der Künstlichen Intelligenz und des Maschinellen Lernens, also smarte Analysemethoden. Zusammen mit dem Deutschen Zentrum für Luft- und Raumfahrt entwickelt das LRZ außerdem gerade die hoch-performante Datenplattform terrabyte weiter und stattet diese mit Analysetools aus. Und wir beschäftigen uns seit einigen Jahren damit, wie man disziplin-agnostisch, also ohne Fokussierung auf nur eine Wissenschaftsdisziplin, sehr große Datensätze mit nützlichen Metadaten ausstatten kann. Diese Metadaten sollten integriert mit den Daten gespeichert werden, etwa in so genannten Seitenwagen-Dateien oder aber speziellen Datenbanken, die wir aufbauen. So können Big Data publiziert werden, ohne sie aus dem Speicher bewegen zu müssen. Das wiederum ist für Datensätze von mehreren Hundert Terabyte oder sogar einigen Petabyte, wie sie beim Supercomputing mit dem SuperMUC-NG entstehen, wichtig. Wir arbeiten außerdem an Verfahren, um die gesammelten Informationen über Big Data aus der Wissenschaft in Suchmaschinen oder gemeinsamen Indices wie EUDAT-B2FIND zu registrieren, sie also recherchierbar zu machen. Diese Erfahrungen mit dem Veröffentlichen und Verbreiten von Metadaten zu Forschungsergebnissen aus dem High Performance Computing bringen wir in die NFDI-Konsortien ein. Wichtig ist uns dabei, die von uns entwickelten Methoden nach den Vorstellungen von Forschenden optimieren und anzupassen zu können, so dass am Ende eine praktikable, technische Lösung entsteht, die allen Beteiligten in der NFDI nützt. Speziell für das LRZ möchten wir daraus einen Standardservice für das Forschungsdaten-Management entwickeln, insbesondere für die Verwaltung von Supercomputing-Daten, und dieses mit mehr Dienstleistungen für spezifische Forschungsbereiche ergänzen, die auch in den NFDI-Konsortien repräsentiert sind. (vs)