Forschungsdaten finden und weiter nutzen

FAIR-3


Durch das neue FAIR Data Portal werden Forschungsdaten, die auf den Computersystemen des Leibniz-Rechenzentrums berechnet und gespeichert wurden, auffindbar und weiter nutzbar.

Wetterdaten aus Bayern oder Italien, Simulationen von Erdbeben oder zur Entstehung von Sternen, Modelle von Organen und Gefäßen des Menschen: Die Datenspeicher des Leibniz-Rechenzentrums (LRZ), etwa der Data Science Storage (DSS) sowie das Data Science Archive (DSA) zur längerfristigen Archivierung, können mehr als 250 Petabyte an Daten aufnehmen, die auf den Clustern für High-Performance Computing (HPC) oder den Systemen für Künstliche Intelligenz (KI) erzeugt wurden. „Die meisten Datensätze sind zu groß für die üblichen Forschungsdaten-Repositorien, etwa die von Uni-Bibliotheken“, beschreibt Dr. Stephan Hachinger, Leiter des LRZ-Team für Forschungsdatenmanagement, das für das Portal verantwortlich zeichnet, ein grundsätzliches Problem. „Wir versuchen daher, sie direkt von DSS und DSA aus öffentlich zu machen, und im FAIR Data Portal zu präsentieren.“

Fair-a

LRZ FAIR Data Portal: übersichtlich und intutiv zu bedienen.

Das LRZ FAIR Data Portal befindet sich noch in der Testphase, listet zurzeit zwar nur zwei Veröffentlichungen. Doch diese zeigen beispielhaft den Nutzen des Portals: eine Übersicht über Forschungsergebnisse (s.o.) aus allen möglichen Wissenschaftsdisziplinen, die am LRZ entstanden und die nach Schlagwörtern, dem Namen der Urheber:innen und weiteren Kriterien durchsucht werden können. „Mit dem Portal wollen wir Forschungsdaten auffindbar und zugänglich machen“, erläutert Johannes Munke, Ingenieur aus dem Team Forschungsdatenmanagement. „Noch pflegen wir die Informationen manuell ein, aber wir arbeiten schon an einer schicken Eingabemaske und an Möglichkeiten, die Angaben automatisiert aufzunehmen.“ Nach und nach werden jetzt Datensätze und Forschungsarbeiten ins Portal eingepflegt.

Transparenz und Vernetzung in der Wissenschaft

In digitalen Forschungsdaten stecken weit mehr Informationen als für ein bestimmtes Projekt gebraucht werden. Sie sollten daher professionell organisiert und möglichst nach den internationalen FAIR-Prinzipien aufgenommen und gespeichert werden. Denn dadurch werden sie auffindbar (findable), zugänglich (accessible) interoperabel und wieder verwertbar (reusable). Simulationsergebnisse, Visualisierungen oder Trainingsdaten für Analysen mit KI-Verfahren können so geprüft, vor allem aber weiter erforscht, mit weiteren Daten angereichert und neu berechnet werden. Das macht Wissenschaft transparent, vernetzt die Forschenden und erspart Wiederholungen von komplexen Experimenten oder Messungen. „Früher musste man in der Forschungscommunity vernetzt sein, um an Daten zu kommen“, sagt Chemiker Alex Wellmann, der ebenfalls am FAIR Data Portal mitarbeitet. „Heute sind viele Forschungsdaten FAIR und werden zunehmend in Portalen wie unserem recherchierbar.“

Persönliche Vernetzung bleibt in der Wissenschaft wichtig, aber die Suche nach digitalen Forschungsergebnissen wird einfacher, wenn diese mit Zusatzdaten über den Inhalt, die Urheber:innen sowie beteiligte Forschungsinstitutionen und mehr ausgestattet werden. Diese Metadaten erfasst das LRZ nach dem sogenannten DataCite-Standard, gleichzeitig versieht es jeden Datensatz mit einem sogenannten Digital Object Identifier (DOI). Mit dieser digitalen Kennung sind die digitalen Informationen eindeutig zu identifizieren und erste Regeln der FAIR-Prinzipien erfüllt. Jeder Eintrag beinhaltet außerdem Informationen darüber, in welchen Formaten die Datensätze vorliegen und kann zu Beiträgen und Veröffentlichungen verlinkt werden, die damit entstanden. Mit einem weiteren Link zum DSS oder DSA macht das FAIR Data Portal Informationen über GLOBUS zugänglich, einer internationale-Infrastruktur zum Austausch von Daten und Rechenleistung für die Wissenschaft. Damit werden im DSA auf Band archivierte Datensätze auf lokale Festplatten zurückkopiert und können be- und verarbeitet werden. Das FAIR Data Portal versioniert Bearbeitungen oder legt neue Erkenntnisse unter einem eigenen Titel ab: „Voraussetzung ist, dass Wissenschaftler:innen ihre Datensätze veröffentlichen wollen“, erklärt Munke. „Die Metadaten können erfasst und später ergänzt werden, um die Recherche zu erleichtern. Aber die Forschungsdaten selbst, die sich hinter einer DOI verbergen, bleiben immer gleich – das garantieren wir.“

Fair-b


Eintrag im FAIR Data Portal: Aufgeführt sind Urheber:innen,
Institutionen, eine Kurzbeschreibung der Datensätze sowie Stichwörter


Open Source Software für das Portal

Neben den FAIR-Prinzipien und dem DataCite-Schema setzt das FAIR Data Portal auf die Open Source Software InvenioRDM. Diese wurde hauptsächlich am CERN bei Genf entwickelt und kommt in vielen Speichersystemen für Forschungsdaten zum Einsatz. Zurzeit testet und verbessert das Forschungsteam mit Anwender:innen die Funktionalität und arbeitet an einer Metadaten-Eingabemaske. Über den LRZ Servicedesk können sich Forschende rund um das Datenmanagement nach den FAIR-Prinzipien sowie um den Umgang mit ihren Forschungsergebnissen beraten lassen. „Die Bedeutung des Datenmanagements ist mittlerweile in der Wissenschaft bekannt, vor allem Geldgeber pochen darauf, dass Daten FAIR und damit auffindbar und wieder verwertbar sind“, beobachtet Munke. Sein Kollege Wellmann ergänzt: „Durch KI-Methoden wird der Bedarf an Daten rapide ansteigen, umgekehrt sollten Trainingsdaten überprüft und erforscht werden können.“ Das LRZ FAIR Data Portal wird folglich bald mehr Datensätze verzeichnen: nicht nur vom SuperMUC-NG, sondern aus allen LRZ-Ressourcen und aus unterschiedlichen Forschungsdisziplinen. (vs)