Ausgezeichnete Daten-Forschung

In den mehr als 6480 Computerknoten des SuperMUC-NG arbeiten rund 15 Millionen Sensoren, die unterschiedlichste Daten aus dem System sammeln. "In Vorbereitung auf Exascale-Zeiten werden die Hochleistungsrechensysteme immer komplexer", erklärt Alessio Netti, Informatiker am Leibniz-Rechenzentrum (LRZ) in Garching. "Damit diese Systeme stabil laufen, besser steuerbar werden und vor allem deutlich weniger Energie verbrauchen, brauchen wir mehr Wissen und damit mehr Daten. Gleich zwei Projekte aus dem Umfeld des LRZ, die sich mit Betriebsdaten von Hochleistungsrechnern befassen, wurden Ende Juni ausgezeichnet: Die Jury der Stockholmer ACM HDPC 2020 honorierte das LRZ-Tool Wintermute als eines der innovativsten Analyseverfahren für High Performance Computing (HPC). Auf der ISC 2020 in Frankfurt gewann wiederum ein Forscherteam um Amir Raoofy von der Technischen Universität München (TUM) den Hans-Meuer-Preis für die beste Arbeit über eine neue Matrix zur Analyse von Langzeitdaten auf Supercomputern.

Die richtigen Daten sammeln und auswerten

Sensoren liefern bereits alle möglichen Informationen aus Supercomputern, etwa zu Temperatur, Leistung, Belastung und Beanspruchung von Komponenten. Am LRZ entstand bereits die Open-Source-Software Data Center Data Base (DCDB), die Daten von Millionen Sensoren einsammelt und so die Kontrolle von SuperMUC-NG und CoolMUC-3 ermöglicht. Um diese Systeme auch effizient steuern zu können, braucht es ein Analyse-Tool, vor allem aber eine Systematik zur Auswertung dieser Daten. Mit Wintermute präsentierte Netti bei der HDPC ein generisches Klassifizierungsmodell und damit eine Grundlage für die Operational Data Analytics (ODA). Sie soll ein möglichst umfassendes Bild von Supercomputern liefern und Prognosen sowie Anpassungen rund um die Technik ermöglichen. Dazu verarbeitet Wintermute Informationen, die in Komponenten erzeugt (In-Band-Daten) oder von diesen versendet werden (Out-of-Band-Daten), entweder in einem Streaming-Verfahren, kontinuierlich (Online-Verarbeitung) oder nur bei explizitem Bedarf (On-Demand-Verarbeitung).

Anhand von drei Fallstudien aus dem CoolMUC-3 zeigt der LRZ-Informatiker, mit welchen Daten sich etwa Anomalien in einzelnen Rechnerknoten aufspüren lassen, um sie auszutauschen oder zu optimieren. Auch der Energieverbrauch lässt sich mit Wintermute und ausgesuchten Monitoring-Daten nachverfolgen und anpassen. Außerdem zeigt das Open-Source-Tool, wo Computertechnologie für Engpässe bei der Simulation und Modellierung sorgt. "Wintermute nutzt Methoden des maschinellen Lernens, um die Operational Data Analytics aussagekräftiger und damit noch leistungsfähiger zu machen", so Netti. "Das Tool wurde so konzipiert, dass es in jedes bestehende Monitoringsystem integriert werden kann. Darauf verweist auch der Name: Wintermute heißt eine künstliche Intelligenz, die sich in einer Science-Fiction-Trilogie von William Gibson mit einer weiteren vereinigt und zur - besseren - digitalen Lebensform wird. Die Erkenntnisse aus Wintermute können helfen, Computersysteme der Zukunft zu verbessern.

Ein skalierbarer Ansatz für die Analyse riesiger Zeitreihen

Auch Amir Raoofy, wissenschaftlicher Mitarbeiter am TUM-Lehrstuhl für Rechnerarchitektur und parallele Systeme von Professort Martin Schulz, arbeitet mit Daten, die tausende Sensoren aus Supercomputern oder aus den Überwachungssystemen von Kraftwerken über Wochen oder sogar Jahre liefern. Ihn interessiert jedoch, wie SuperMUC-NG und CoolMUC-3 mit den riesigen Datenmengen umgehen. "Mit Hilfe von Matrix-Profil-Algorithmen lassen sich Zeitreihen nach Mustern und Ähnlichkeiten durchsuchen", umreißt Raoofy das Problem. "Aber sie lassen sich nur schwer skalieren und sind nicht für HPC-Systeme geeignet". Allerdings erfordert die Auswertung großer Zeitreihen Supercomputing: Wer wissen will, unter welchen Bedingungen eine Gasturbine zuverlässig läuft und wann die ersten Komponenten reparaturanfällig werden, sollte viele Daten prüfen können. Die Rechenleistung und Fähigkeiten von Supercomputern ermöglichen solche Analysen erst im Verein mit skalierbaren Algorithmen.

Raoofy und Kollegen entwickelten den nun preisgekrönten skalierbaren Ansatz (MP)^N . Dieser kann auf bis zu 256.000 Rechnerkernen, das sind rund 86 Prozent der Rechenressourcen des SuperMUC-NG, effizient ausgeführt werden. Dass er exakte Berechnungen liefert, wurde mit Leistungsdaten des SuperMUC-NG getestet. Zurzeit wird der Algorithmus zur Analyse von Daten, die zwei Gasturbinen der Stadtwerke München liefern, eingesetzt. TurbO heißt das Projekt, das die Bayerische Forschungsstiftung fördert. "In unseren Experimenten haben wir das schnellste und größte jemals berechnete mehrdimensionale Matrixprofil durchgeführt", berichtet Raoofy. "Wir erreichten eine projizierte Kernleistung von 1,3 Petaflop." So können Supercomputer wie der SuperMUC-NG die Daten aus langen Zeitreihen schnell und effizient auswerten Wissenschaft und Technik werden das zu nutzen wissen. 

Das mit dem Hans-Meuer-Award ausgezeichnete Paper „Time Series Mining at Petascale Performance“ ist zum freien Download verfügbar.

(vs)