Probezeit eines Supercomputers

SNG-2


Supercomputer werden eigens für spezielle Anforderungen aufgebaut. Vor dem eigentlichen Betriebsstart stehen daher umfangreiche Experimente und Funktionstests im Team: Am Leibniz-Rechenzentrum arbeiten Forschende und LRZ-Spezialisten gerade Hand in Hand mit Technologie-Unternehmen zusammen, um SuperMUC-NG Phase 2 auf seine Arbeit vorzubereiten.


Vorfreude und Frust liegen im High-Performance Computing (HPC) eng zusammen: Seit Mitte Februar loggt sich Prof. Klaus Dolag, Astrophysiker am Max-Planck-Institut (MPA), täglich von seinem Büro aus auf SuperMUC-NG Phase 2 oder SNG-2 ein, um daran den Code GADGET zur Modellierung von Gravitationskräften und Flüssigkeiten auszuprobieren. „Große Jobs laufen leider noch nicht lange genug. Bei unseren komplexen Programmen, die wir dann möglichst auch noch auf dem ganzen System laufen lassen wollen, kämpfen wir anfangs immer mit vielen, technischen Problemen bei neuen HP-Computern“, berichtet er. „Ich würde gerne richtig loslegen können, aber bei der Initialisierung eines Supercomputers läuft es nicht immer nach Wunsch.“ SNG-2 zickt in seiner Probezeit. „GADGET“, ergänzt Dolag, „ist Teil der Abnahme oder Zulassung. Intel und Lenovo müssen zeigen, dass unser Code auf dem neuen System und den GPU funktioniert.“

Neuartige Computertechnologie anschalten

Einen Supercomputer in den Betrieb zu bringen, ist Teamarbeit: Zurzeit arbeiten am Leibniz-Rechenzentrum (LRZ) knapp 20 Beschäftigte der Technologieunternehmen Intel und Lenovo mit High-Performance-Computing-Spezialisten (HPC) des LRZ sowie Forscherinnen Hand in Hand, um SNG-2 auf Simulationen und andere Berechnungen vorzubereiten. Die einen passen Computertechnologie an, die anderen wissenschaftliche Codes. Stetes Abstimmen steht auf der Agenda, vor allem aber Erfahrung und Geduld: „Phase 2 ist das erste beschleunigte HPC-System, das wir in Betrieb nehmen“, meint Dr. Gerald Mathias, Leiter des Computational X Supports (CXS) am LRZ. „Es ist nicht ungewöhnlich, dass neueste Technologie zunächst Probleme macht.“

Die insgesamt 240 Knoten des gerade aufgebauten Höchstleistungsrechners basieren auf ThinkSystem SD650-I V3 Neptune DWC Servern von Lenovo und werden für mehr Energieeffizienz mit bis zu 45 Grad heißem Wasser gekühlt. Sie enthalten neben jeweils zwei Central Processing Units (CPU: Intel Xeon Platinum 8480+) erstmals 4 Graphics Processing Units (GPU: Intel Data Center GPU Max 1550). Letztere beschleunigen die Datenverarbeitung und eignen sich zudem für hoch skalierbare, datenintensive Workloads, etwa für das maschinelle Lernen. Unterstützt werden solche Aufgaben durch das verteilte, asynchrone Objektspeichersystem (DAOS) aus Intel Optane Speichern, das schnellen Zugriff auf große Datenmengen ermöglicht. Zurzeit gibt es weltweit nur zwei Systeme mit vergleichbarer Architektur: Aurora arbeitet bei Chicago am Argonne National Laboratory, Dawn an der Universität von Cambridge. „SNG-2 ist ein neuartiges System“, bestätigt Adam Roe, der für Intel den Geschäftsbereich HPC in der EMEA-Region verantwortet. „Hier braucht es Zusammenarbeit, um die GPU bestmöglich für die Wissenschaft einzusetzen und auch zukünftige Workloads mit künstlicher Intelligenz zu ermöglichen.“ Karsten Kutzer, Systemarchitekt bei Lenovo, der das Design koordinierte, ergänzt: „Wir konzipieren Supercomputer zunächst auf dem Papier. Wie die einzelnen Komponenten genau miteinander zusammenspielen, wird beim Aufbau des Systems festgelegt. Dann wird gemeinsam nach der jeweils optimalen Lösung gesucht und die Pläne werden entsprechend verfeinert.“

Technik und Codes verändern und anpassen

Seit Februar arbeiten Teams beider Unternehmen regelmäßig vor Ort oder via Fernzugriff an SNG-2. Außerdem wurden mehr als 20 Forschungsgruppen mit HPC-Erfahrungen eingeladen, ihre Codes auf SNG-2 zu implementieren und dabei die Leistung der Prozessoren, die Bandbreiten von Kommunikationsverbindungen oder die Funktionsweisen von Memory-Modulen auszureizen. „Die Herausforderung ist die Stabilität des Systems“, sagt Dolag. „Anfangs konnte ich nur kleine Tasks ausführen und eine kurze Zeit rechnen, größere Simulationen waren noch nicht möglich.“

Mit Software wie DGEMM, Stream, VTune oder HPL erkennen die Technik-Teams, wo Prozessoren unter der erwarteten Leistung liegen oder Interconnect-Kabel mit verringerter Übertragungsqualität den Datenfluss behindern, weil sie beim Transport verbogen wurden. Die wichtigste Aufgabe ist, das Zusammenspiel der 480 CPU und 960 GPU mit Interconnect-Verbindungen und dynamischen Speichern zu orchestrieren und möglichst alle Rechenknoten gleichermaßen zu beschäftigen – das fordert nicht nur Technik, sondern auch Softwares und Codes: „Phase 2 verlangt neue Programmierparadigmen, um Teile der Codes und Workloads auf den GPUs auszuführen, daher müssen Programme angepasst und Routinen umprogrammiert werden“, erläutert Mathias Arbeiten, die teils schon vor dem Aufbau und der Initialisierung erledigt waren. „Um das Potenzial von GPUs zu nutzen, spielen Programmiermodelle wie OpenMP sowie SYCL, eine Erweiterung von C++, eine große Rolle. OpenMP ist weit verbreitet in akademischen Anwendungen, aber die meisten Anwendungen müssen noch an SYCL angepasst werden.“

Komponenten aufeinander abstimmen

Software steuert Komponenten und veranlasst beispielsweise den Austausch von Daten zwischen den CPU und GPU oder Speichern. Dieser Vorgang dauert oft zu lange, so dass die Beschleunigung, die GPU im Vergleich zu CPU erbringen, aufgehoben wird: „Mit neuen Statements und Befehlen im Code bestimmen wir daher, welche Daten weiterhin auf den CPU und welche schneller auf den GPU verarbeitet werden“, erklärt Dolag. Doch diese Lösung wird durch die Tatsache erschwert, dass Prozessoren unterschiedlicher Hersteller nur mit bestimmten Programmiersprachen und -Schemata zu aktivieren sind: GADGET war zwar mit Hilfe von OpenACC schon auf GPU von NVIDIA vorbereitet, musste nun aber für die Intel GPU im SNG-2 erneut umgeschrieben werden, dieses Mal mit OpenMP: „Teile davon funktionieren schon“, berichtet Dolag. „Bis wir GADGET aber im Ganzen transformiert haben und einsetzen können, wird es wohl noch eine Weile dauern.“ Den Astro-Code ECHO, der in der Astrophysik zur Modellierung der Magnetohydrodynamik rund um Schwarze Löcher verwendet wird, haben Forschende des LRZ und von Intel aus Fortran in SYCL und OpenMPI übersetzt. Die Gruppe von SeisSol – sie modelliert Erdbeben und seismologische Phänomene – entwickelte für die Vorbereitung ihrer bewährten Software auf SNG-2 einen Code-Generator, der wie die Migrationshilfe SYCLomatic aus dem Intel-Toolset bei der Anpassung von Codes helfen kann.

Defekte Komponenten austauschen sowie das Netz optimieren, Technik und Codes aufeinander abstimmen: Alle zwei Wochen diskutieren die Unternehmensteams mit den Forschenden und LRZ-Mitarbeitenden, wo Hindernisse liegen, Technik ausgetauscht oder aber die Firmware, Programme zur Steuerung von Hardware, optimiert werden müssen. „Wenn einzelne Knoten unter Erwartung arbeiten, dann prüfen wir, korrigieren Parameter und tauschen auch Teile aus“, berichtet Kutzer. „Mit dem Entwicklungsteam von Intel stehen wir im ständigen Austausch, um Beobachtungen und Testresultate einzuordnen sowie die Vorgehensweise abzustimmen.“ Das Herantasten an Leistung und Stabilität während der Probezeit von SNG-2 dauerte bis etwa Mai, vor dem endgültigen Start im Juni steht die Aktualisierung des Betriebssystems an.

GPU erkunden und KI-Modelle ausprobieren

AI

Für mehr Energieeffizienz soll SNG-2 Berechnungen nicht nur beschleunigen, sondern auch Methoden der Künstlichen Intelligenz (KI) in etablierte HPC-Abläufe integrieren helfen. „Wir haben mit dem SNG-2 kein spezielles KI-System, sondern einen KI-fähigen Höchstleistungsrechner aufgebaut“, stellt Intel-Experte Roe klar. „In enger Zusammenarbeit mit dem LRZ werden wir jetzt die Architektur von Supercomputern für HPC- und KI-Nutzungsgruppen weiter optimieren. Bekanntermaßen braucht KI immer mehr Rechenleistung, und die Forschung kombiniert klassische Simulation jetzt häufiger mit KI-Methoden.“ Für Surrogatmodelle der Forschung ersetzen statistische Verfahren wie Mustererkennung aufwändigste Berechnungen in Simulationen. Erstmals war daher bei der Initialisierung eines Supercomputers das LRZ-Team Big Data & Artificial Intelligenz (BDAI) beteiligt, außerdem konnte eine Arbeitsgruppe um Prof. Frank Hutter, die sich an der Universität Freiburg mit Machine Learning beschäftigt, am SNG-2 schon experimentieren.

Neben bewährten HPC-Tools und Entwicklungsumgebungen des LRZ wurden auf den SNG-2 für die Arbeit an KI-Modellen Frameworks wie PyTorch oder TensorFlow implementiert sowie KI-Systeme wie BLOOM und GPT-3 portiert, weitere Modelle werden mit Forschungsprojekten folgen: „BLOOM eignet sich fürs Inferencing oder für den Aufbau von Mustererkennung, GPT-3 wiederum ist ein Generative Pre-Trained Transformer, eine Grundlage für neuronale Netze generativer KI-Anwendungen, etwa für Large Language Models. Daran können wir Trainingsschritte untersuchen“, erläutert Dr. Nicolay Hammer, Leiter des LRZ BDAI-Teams. „Mit Forschenden wollen wir zeigen, dass auf Supercomputern auch große KI-Modelle laufen können. Außerdem wollen wir Erfahrungen mit den GPU von Intel sammeln, die sind allgemein noch begrenzt.“

KI-Anwendungen brauchen sehr viel Rechenleistung, ihre Integration auf HPC-Systemen ist komplex, dazu sind neue Workloads und Werkzeuge notwendig. Angesichts der wachsenden Verbreitung von KI werden händeringend technische Alternativen gesucht. Viele der smarten Systeme sind auf die Prozessoren von Vorreiter und Marktführer NVIDIA ausgerichtet. Mehr Vielfalt ist nicht nur aus wirtschaftlichen Gründen erwünscht, auch Forschende wollen ihre Anwendungen auf verschiedenen Prozessoren ausführen können. Daher baut das Gauss Centre for Supercomputing (GCS), zu dem das LRZ gehört, auf diverse Chips: Das Forschungszentrum in Jülich setzt auf NVIDIA als Beschleuniger, das LRZ auf Intel. So können Forschende auswählen, zudem vergleichen und bewerten: Interessant sind Fragen etwa zu Stromverbrauch und Effizienz, zum Einsatz in parallel aufgebauten Supercomputern oder zu potenziellen Engpässen bei (wissenschaftlichen) Anwendungen.

Schneller oder mehr berechnen mit Acceleratoren

Drei Monate nach dem ersten Einschalten sind schon erste praktische Erfahrungen aus der Probezeit des Supercomputers zusammengetragen. Das CXS-Team hat beispielsweise die Leistung diverser Chips verglichen. Die Ergebnisse dieser Tests stellt Mathias während der International Supercomputing 2024 (ISC) in Hamburg vor: „Egal ob von Intel, NVIDIA oder AMD – ihre volle Leistung entfalten die GPU-Beschleuniger gerade bei den großen Modellen und Simulationen, während CPU auch bei kleineren Aufgaben gut arbeiten.“ Leistungsdaten oder die Beobachtung, dass CPU sich besser für komplexe Aufgaben eignen, GPU indes für datenintensive, werden Thema von Workshops und Hackathons sein, mit denen das LRZ Nutzungsgruppen über Eigenheiten hybrider Systeme schulen wird.

Auch Klaus Dolag ist inzwischen ganz zufrieden mit den Leistungen von SNG-2: „In einigen sehr wichtigen Segmenten unseres Programmes können wir eine Beschleunigung um Faktor 10 beobachten, auf der ganzen Maschine liegt sie zwischen Faktor 2 und 3.“ Obwohl er größer ist, braucht SuperMUC-NG Phase 1 ohne GPU zwei bis zehnmal so lange für die gleichen Aufgaben. Er nimmt deutlich mehr Energie auf als SNG-2. Für einen Astrophysiker klingen diese Zahlen verheißungsvoll: „Wir stoßen immerzu auf interessante Daten und brauchen zur Berechnung immer mehr Leistung“, sagt Dolag, „Beschleunigung bedeutet für uns, dass wir einige Simulationen schneller bewältigen können. Deutlich interessanter ist für uns, dass wir so mehr und in höherer Auflösung modellieren können, dass also das Volumen des simulierten Teils des Universums wachsen kann.“ Das Team vom MPA sowie der Universitäts-Sternwarte der LMU wollen am SNG-2 erstmals Simulationen des Universums erarbeiten, deren Ausgangspunkt nicht mehr wie sonst zufällig, sondern zeitlich exakt datiert werden. „So entsteht das Bild des echten Universums, an dem wir unsere bisherigen Annahmen kontrollieren und die Entstehung oder Position einer Galaxie nachvollziehen können. Spannend wird’s sein, wie tief wir mit SNG-2 in die Berechnungen gehen können.“

Wie Dolag und andere Forschende werden auch die Unternehmensteams von Intel und Lenovo weiter im LRZ-Rechnerwürfel oder per Fernzugriff am SNG-2 arbeiten: „Bei Supercomputern wird der Software-Stack inklusive der Firmware regelmäßig an die neusten Entwicklungen angepasst und aktualisiert“, sagt Kutzer. „Ein System, das aus hunderten oder tausenden Komponenten zusammengesetzt ist, ist niemals ganz fertig. Wir sind auch im täglichen Betrieb damit beschäftigt, Verbesserungspotenziale zu identifizieren und die Zusammenarbeit der Komponenten zu optimieren.“ (vs/LRZ)

Steckbrief: SuperMUC-NG Phase 2 (SNG-2)

  • Total Memory: 123 Terabyte DDR
  • Peak Performance: 27.96 Peta Floating Point Operatinos (PetaFLOPS) per Sec
  • Rechenknoten: 240
  • CPU Cores per Node: 112
  • CPU per Node: 2
  • GPU per Node: 4
  • Memory per Node: 512 GByte DDR5 plus 512 GB HBM2e
  • Network: NVIDIA Mellanox HDR Infiniband
  • Wissenschaftliche HPC-Codes/Frameworks: AIMD, ALPACA, AMBER, ATHENA, CP2K, DeTol, DPEcho, ExaHype, GADGET, Ginko, GRID, Gromacs, HemeLB, HyTeG, Kokkos, LQCD, MGLET, OpenMM, Seissol, WalBerla,
  • KI-Frameworks: PyTorch, TensorFlow
  • KI-Modelle: Bloom, GPT-3
  • Video SNG-2: https://www.youtube.com/watch?v=ruYyR1_xfIw&t=24s

SNG2