Big Data europaweit analysieren und austauschen

aktenschrank

Übersichtlich archiviert: Können Forschungsdaten recherchiert werden und gibt es unkompliziertze Workflows für den Datenaustausch, können
aufwändige Experimente eingespart werden und vor allem Forschende europaweit leichter zusammenarbeiten und auf Supercomputern im Ausland
rechnen. Foto: Jan A. Kolar/Unsplash


Messwerte, Bilder, Statistiken, Analysen: Die Daten einer Studie beantworten meist mehr Fragen als die zuerst gestellten, und aufwändige Experimente sind zum Wiederholen schlicht zu teuer. Daher wird die Analyse von Forschungsdaten an diversen Supercomputern und der Datenaustausch in Europa wichtiger. Forschende sollen dort rechnen können, wo die Systeme zu ihren Anforderungen passen und schnell verfügbar sind. „Sie wollen ihre Daten oft auch auf unterschiedlichen Supercomputern auswerten und modellieren, möglichst automatisiert, einfach und unabhängig vom Standort“, umreißt Stephan Hachinger, promovierter Physiker und Leiter des Teams Forschungsdaten-Management am Leibniz-Rechenzentrum (LRZ), das Problem. Was für Computer-Nutzer:innen zum Alltag gehört – der Austausch von Daten – ist im High Performance Computing (HPC) eine hochkomplexe Aufgabe. Hier werden oft Tera- bis Petabytes an Daten verarbeitet, die sich „trotz schneller Netze nicht so einfach zwischen stark gesicherten, heterogenen Systemen hin- und herschieben lassen“, so Hachinger. Gefragt sind daher nutzerfreundliche Workflows zur Verarbeitung, Analyse und zum Austausch von Daten zwischen Standorten.

HPC- und Cloud-Computing-Portal mit komfortablen Workflows

Die Auswertung von Big Data, Simulationen und Arbeitsabläufe auf verschieden Supercomputern sowie der Datenaustausch zwischen europäischen HPC-Zentren standen im Mittelpunkt des EU-Projekts „Large-Scale Execution for Industry and Society”, kurz LEXIS (Fördernummer: H2020 GA Nr. 825532).  Koordiniert vom tschechischen nationalen Supercomputing-Zentrum IT4Innovations arbeiteten 17 Institute, Unternehmen und Rechenzentren, darunter auch das LRZ, an Workflows sowie HPC- und Cloudtechnologie. Entstanden ist daraus die LEXIS-Plattform, die auf bestehenden Cloud-Systemen aufsetzt, Supercomputer in Europa vernetzt und den Datenfluss organisiert. LEXIS-Nutzer aus Forschung und Wirtschaft finden auf https://portal.lexis.tech Werkzeuge, die Analyse- und Simulationsprozesse effizient starten und vereinfachen. Daten werden im Hintergrund für den jeweils nächsten Arbeitsschritt vorbereitet und zur Verfügung gestellt. Das Portal bietet außerdem praktische Tools für das Management von Daten, die auf Diensten von EUDAT basieren. Unternehmen und Forschende können in Tschechien Big Data verarbeiten, obwohl diese in Deutschland oder Italien gespeichert sind und umgekehrt. Über Europa verteilt können außerdem Gruppen gemeinsam an Datenprojekten arbeiten.

Beim Datenmanagement im LEXIS-System spielen FAIR-Prinzipien eine große Rolle. Danach sollen Forschungsdaten auffindbar (findable), erreichbar (accessible), interoperabel und wiederverwertbar (reusable) sein. Standardisierte Metadaten weisen deshalb darauf hin, was einzelne Datensätze enthalten, wie sie und mit welchen Programmen sie entstanden: „Innerhalb von LEXIS sind Daten gut recherchierbar, und es wird sofort ersichtlich, wie und wofür man sie weiter benutzen kann“, erläutert Hachinger. Zwar endet mit dem Jahr 2021 auch das LEXIS-Projekt, doch Portal und Plattform bleiben weiter bestehen: Mit Partnerorganisationen aus den Bereichen Meteorologie, Geophysik, Polar- und Meeresforschung sowie Flugzeugtechnik entwickelt und optimiert, testen jetzt erste Unternehmen und Forschungsgruppen die Plattform mit Portal. Ein Beispiel ist CompBioMed, ein internationales Projekt und Exzellenzzentrum zur digitalen Medizin, andere der spezialisierte Software-Hersteller Pharmacelera aus Spanien oder OpenEngineering aus Belgien. 

Neue Services fürs LRZ?

Das LRZ zieht positive Bilanz aus der Arbeit an LEXIS. Neben vereinfachten Prozessen und Tools entstanden mehrere Publikationen. „Wir haben lange nach Lösungen zur Workflow-Steuerung gesucht, etwa bei der Verarbeitung von Wetter- und Klimadaten“, ergänzt Hachinger außerdem. „Die Kombination aus Workflows und Datenmanagement von EUDAT ist spannend, weil sie europäisches Rechnen von verschiedenen Standorten aus ermöglicht.“ LEXIS soll in den kommenden Jahren verwendet und weiterentwickelt werden. Im LRZ hoffen sie zudem auf weitere Kooperationen mit LEXIS-Partner:innen, insbesondere mit dem IT4I und dem irischen Supercomputing-Zentrum ICHEC. Plattform und Erfahrungen sollen in europäische HPC-Projekte wie EuroCC oder die Arbeit mit der Open Search Foundation (OSF) einfließen. Und längerfristig könnte auch das LRZ selbst von der Technik profitieren und damit seine Dienstleistungen ausweiten. Diese Möglichkeiten werden gerade ausgelotet. „Dieses Projekt hat uns auch als Team weitergebracht“, meint Hachinger. „Wir konnten viel über Cloud- und HPC-Technologien und Projektarbeit lernen, haben gesehen, wie weit wir kommen, wenn das Ziel klar ist und der Teamgeist stimmt." (vs)

LRZ-Team

Das LEXIS-Team am LRZ: Jirathana Dittrich, Dr. Stephan Hachinger, Dr Rubén
Garcia Hernandez, Elham Shojaei, Mohamad Hayek