

Ein neues Rechen-Cluster ist am Leibniz-Rechenzentrum angekommen und nahm seinen Dienst am 10. Dezember 2024 auf. „Die vierte Generation des CoolMUC ist bereits gut ausgelastet“, freut sich Dr. Gerald Mathias, Leiter des Computational X Supports (CXS) am LRZ. „Wir starten jetzt mit der Analyse, an welchen Stellschrauben wir drehen müssen, um seine Auslastung zu verbessern.“ Das Hochleistungs-Cluster, das vor allem von den Münchner und bayerischen Hochschulen genutzt wird, ersetzt die Vorgänger CoolMUC2 und CoolMUC3, die sich als fleißige Arbeitspferde erwiesen, zum Schluss aber anfälliger und unzuverlässiger und daher abgeschaltet wurden. Nutzerinnen des aktuellen CoolMUC gewöhnen sich bereits an neue Regeln und Gepflogenheiten, die moderne Technik mit sich bringt.
Nach den ersten 100 Tagen mit CoolMUC ziehen seine Betreuerinnen ein erstes Fazit: „Die Leistungsdichte ist jetzt deutlich höher als bei den Vorgängern und die Konkurrenz unter den Nutzenden um die Rechen-Ressourcen wächst“, beobachtet Mathias. „Es fällt am neuen System schwer, einen ganzen Knoten komplett auszulasten.“ Das liegt an der kompakten, leistungsstarken Technik: Enthielten die Prozessoren der Vorgänger pro Rechenknoten lediglich 28 beziehingsweise 64 Kerne, so sind die neuen mit bis zu 112 Recheneinheiten bestückt. Das erfordert ein gezielteres Management von Aufträgen. Konnten Anwendungen früher einen ganze Knoten auf dem Cluster auslasten, teilen sich Forschungsgruppen nun auf dem neuen öfter Knoten mit anderen Nutzenden, denn selbst größere Aufträge, die auf vielen Kernen parallel laufen, lasten oft nur Teile eines Knotens aus.
Dafür wurde das Cluster aus drei verschiedenen Intel-Prozessoren zusammengestellt: Ice und Cooper Lake sowie Sapphire Rapids. Insgesamt stehen 121 Rechenknoten zur Verfügung: Zwei Ice Lake-Knoten mit jeweils 80 Kernen und einem Terabyte Speicherplatz sind indes nicht zum Rechnen, sondern ausschließlich für den Betrieb und das Management des Linux-Systems reserviert. Sie führen das neue Betriebssystem Suse Linux Enterprise Server (SLES 15, SP16), außerdem Steuerungs- und Planungstools aus, dienen als Login-Knoten zum Compilieren und Testen von Programmen sowie zur Vorbereitung von Simulationsläufen.
Auf die restlichen 119 Knoten bekommen Forschende der Münchner und bayerischen Hochschulen nach Einreichung einer kurzen Ideenskizze unkompliziert Zugriff. Das Linux-Cluster bietet unterschiedliche Möglichkeiten: 106 der Knoten gehören zu den Sapphire Rapids-Prozessoren. Sie bieten jeweils Arbeitsspeicher von 512 Gigabyte und 112 Rechenkerne. Diese eignen sich für Aufträge, für die einzelne Cores stets die gleichen Aufgaben erfüllen oder für die viele Kerne gleichzeitig rechnen, dabei aber keinen großen Arbeitsspeicher brauchen oder die genutzten Daten auf mehreren Speichern verteilen können. Jobs, für die mehr Daten hochgeladen oder beim Rechnen zwischengespeichert werden, dürften sich besser auf den Ice Lake-Prozessoren ausführen lassen: Die 12 Knoten mit diesen Chips bieten dafür jeweils 80 Rechenkerne sowie Kurzfristspeicher von einem Terabyte. Und schließlich gibt’s noch Teramem, der einen Cooper Lake-Prozessor mit 96 Rechenkernen und einen Arbeitsspeicher von rund sechs Terabyte im Knoten enthält: „Übrigens der einzige Chip oder das einzige System am LRZ, das Speicher zur Verarbeitung sehr großer Datenmengen von bis zu sech Terabyte auf einem einzigen Knoten zur Verfügung stellt“, merkt Mathias an. „Typische Teramem-Jobs verbrauchen in Shared-Memory-Anwendungen wahrscheinlich wenig CPU-Ressourcen und führen Programme ohne verteilte Speicher-Parallelisierung aus.“ Die LRZ-Spezialistinnen raten davon ab, auf Teramem Applikationen mit dem Messaging Passing Interface (MPI) einzusetzen.
Für mehr Energieeffizienz wird das Cluster demnächst noch mit GPU-Beschleunigern ausgerüstet. 2026, wenn mehr konkrete Zahlen zur Nutzung und zu Bedarfen vorliegen, wird CoolMUC mit weiteren Central Processing Units (CPU) ausgerüstet: „Durch BayernKI stehen am LRZ und am Rechenzentrum der Friedrich-Alexander-Universität in Erlangen ausreichend Ressourcen fürs maschinelle Lernen und andere KI-Anwendungen zur Verfügung“, erläutert Mathias die effiziente Strategie. CoolMUC sowie die Systeme des Nationalen Hochschulrechnens (NHR) in Erlangen ergänzen BayernKI und umgekehrt. Das differenzierte Konzept ist eine Antwort auf steigende Nutzungszahlen in Bayern: Ohne Hochleistungsrechnen kommt fast keine Wissenschaftsdisziplin mehr aus. Nach den klassischen Disziplinen des High-Performance Computings (HPC), Physik und Ingenieurswissenschaften, drängen immer weitere Fachbereiche an das Rechen-Cluster: Hier modellieren und simulieren Biologen, Geologen und Mediziner, hier rechnen die Betriebswirtschaft, Psychologie oder Pädagogik. Sogar die Geschichtswissenschaften und Kunst nutzen den CoolMUC, etwa, wenn sie Szenerien und Räume aufbauen oder soziale Kennzahlen verarbeiten. Folglich wird CoolMUC mit unterschiedlichsten Aufträgen konfrontiert. „Wir vergeben Rechenleistung, keine Rechenzeit, im Prinzip können Forschende aus allen Fachdisziplinen am CoolMUC rechnen“, stellt Mathias klar. „Wir sehen daher auf dem System Jobs, die nur einige 100 Kernstunden benötigen, aber auch Projekte mit vielen Millionen Kernstunden.“ Fair Share heißt daher die Devise bei der Planung: Wer in einer kurzen Zeit oft und viel am CoolMUC rechnet, wird danach eventuell auf freie Kapazitäten warten müssen, weil neue Gruppen den Rechner in Anspruch nehmen. „Aufgrund seiner Leistungsdichte werden wir die Ressourcennutzung strikter kontrollieren und effizienter planen“, erklärt Mathias. „Es kann durchaus sein, dass wir größere Vorhaben, die mehr Zeit oder Power benötigen, entweder an die NHR-Zentren verweisen oder sogar ans Gauss Centre for Supercomputing (GCS), das die Rechenzeiten für den SuperMUC-NG und die beiden anderen Supercomputer in Deutschland vergibt.“
Durch neue Technologien wird das Hochleistungsrechnen komplexer. Auch wenn noch viele wissenschaftliche Codes an den aktuellen CoolMUC angepasst werden müssen – komplizierter wird es nicht. Das CXS-Team bereitet gerade einen Spickzettel vor, der Nutzerinnen schnell und übersichtlich die Job-Möglichkeiten auflistet sowie die wichtigsten Nutzungsbefehle und -Regeln. Das LRZ und seine Partnerinstitute bieten überdies regelmäßig Schulungen und Workshops zum Umgang auch mit dem Linux-Cluster an. Und nicht zuletzt stehen bei brennenden, praktischen Problemen einmal die Woche Spezialistinnen aus dem CXS-Team in der HPC-Lounge des LRZ Rede und Antwort und erklären Zugang, Auftragsplanung und Tricks. (vs)