Computer-Komponenten im Härtetest
Die Testumgebung BEAST wird immer wieder erweitert und erneuert.
Diese Strategie ist aufgegangen: 2020 richtete das Leibniz-Rechenzentrum (LRZ) eine Testumgebung zur Erkundung neuester Computer- und IT-Technologie ein, das „Bavarian Energy, Architecture, and Software Testbed“, kurz BEAST. Seither werden dort neueste Komponenten wie etwa Prozessoren, Beschleuniger und Speicherlösungen unterschiedlichster Hersteller auf Herz und Nieren getestet und ihre Einsatzmöglichkeiten in den High Performance Computing-Ressourcen (HPC) des LRZ geprüft – nicht nur von den LRZ-Expert:innen, sondern auch in Zusammenarbeit mit Forschungsteams und Studierenden der beiden Münchnener Universitäten. Sie bieten Studierenden der Informatik ein Praktikum, bei dem sie BEAST-Komponenten evaluieren und mit ihnen Aufgaben lösen. Die Testumgebung wird regelmäßig ausgebaut, vor Kurzem zum Beispiel mit Hardware zur Unterstützung von DAOS, einer Speicherlösung von Intel. Diese Technologie verspricht Vorteile speziell für Verfahren der Künstlichen Intelligenz (KI). „Durch das BEAST-Programm kann das LRZ die Aussagen von Herstellern validieren“, sagt der promovierte Informatiker Josef Weidendorfer. Im Interview und während der Supercomputing-Konferenz ISC2022 in Hamburg erklärt der Leiter des LRZ-Programms „Future Computing“, wie das Rechenzentrum von BEAST profitiert. Inzwischen macht sich das Betriebsmodell von BEAST auch bei den Forschungsarbeiten zur Integration von Quantenprozessoren ins HPC nützlich oder beim Test von effizienten Hardwarebeschleunigern.
Was hat sich an BEAST in letzter Zeit verändert, wie wurde die Testumgebung ausgebaut? Dr. Josef Weidendorfer: Im letzten halben Jahr wurde BEAST zum Beispiel um Systeme von Intel ergänzt, genauer um zwei Knoten zur Evaluierung der Storage-Lösung DAOS oder Distributed Assynchronous Object Storage, die bald in der Phase 2 von SuperMUC-NG eingesetzt wird. Sie basiert im Wesentlichen auf der Nutzung von sogenanntem Non-Volatile Random Access Memory oder NVRAM. Das ist Speicher, der wie regulärer Hauptspeicher mit feingranularem Zugriff genutzt werden kann, aber die Daten auch dann hält, wenn kein Strom fließt, und folglich im Betrieb wenig Energie benötigt. DAOS soll insbesondere den Zugriff auf Daten für KI-Anwendungen und Data Analytics verbessern. Ob das zutrifft, testen wir gerade. Auch ein 4-Sockel Intel Cooper Lake-System ist in BEAST angekommen. Das ist ein relativ großer Rechenknoten, der viel Leistung erbringt und dessen Prozessoren das Gleitkommaformat „Brain Floating Point with 16 Bits“ unterstützen, was wiederum KI-Verfahren beschleunigen kann. Wir probieren mit ihm gera
de aus, welche Anwendungen von dieser Knotengröße und Funktionalität besonders profitieren. Nicht zuletzt erweitern noch zwei Ice Lake-Systeme unser Testfeld, mit denen wir die neuesten Intel-Xeon-CPUS evaluieren. Eines dieser Systeme benutzen wir im BEAST Lab als Anreiz für Studierende. Demnächst werden wir außerdem Graphics Processing Units und GPU von Nvidia und AMD zur Verfügung haben.
BEAST gehört zwar nicht zu den regulären Services des LRZ, aber Studierende in München können im BEAST Lab neueste Technik kennenlernen. Weidendorfer: Ja, Teil des BEAST-Programms ist ein Praktikum für Studierende von LMU und TUM, das BEAST Lab. Hier arbeitet das LRZ besonders eng mit den Universitäten zus
ammen, damit das Praktikum als Teil des Informatik-Studiums anerkannt wird. Studierende können mit einer intensiven Betreuung rechnen. Durch das BEAST Lab konnte das LRZ etliche Forschungsarbeiten über innovative Computertechnologien initiieren. Im Praktikum geht es unter anderem um die Programmierung von GPU und die Verlagerung von Codes mit Hilfe der Schnittstelle OpenMP und seiner Funktion Target Off-Loading. Im Laufe der Praktika entwickelten die Studierenden sehr viel Code. Das war nicht geplant, aber wir können damit eine Testsuite für dieses Programmiermodell zusammenstellen. In Zusammenarbeit mit Intel und als Vorbereitung für SuperMUC-NG Phase 2 konnten wir darüber bereits die Qualität und Abdeckung des OpenMP-Standards durch den Intel-Compiler verbessern. Seit dem Start von BEAST haben wir vier BEAST Labs organisiert, aktuell nehmen mehr als 20 Master-Studierende daran teil. Insgesamt absolvierten um die 30 Bachelor- und 40 Master-Studierende die Praktika. Daraus hervorgegangen sind zwei Bachelor- und eine Master-Arbeit, und ein Absolvent arbeitet mit BEAST weiter für seine Promotion.
Inwieweit unterstützt BEAST die Arbeiten und Planungen an den HPC-Ressourcen des LRZ? Weidendorfer: Durch das BEAST-Programm kann das LRZ die Aussagen von Hersteller selbst validieren. So konnten wir in Vorbereitung auf Phase 2 von SuperMUC-NG mit den DAOS-Testknoten neue Speicherlösungen und deren Vorteile für KI-Verfahren analysieren. Natürlich helfen die Erfahrungen und Erkenntnisse mit BEAST-Technologien auch bei der Konzeption von Nachfolgesystemen.
Das LRZ wird Quantenprozessoren in seine HPC-Systeme integrieren und bietet Forschenden zudem Unterstützung bei KI-Methoden – wird dafür auch mit BEAST experimentiert? Weidendorfer: BEAST hat sich im LRZ gut etabliert, wir planen daher in BEAST bald auch Systeme zu evaluieren, die speziell zur Optimierung von KI-Anwendungen gedacht sind. Auch das „Quantum-Computing Integration Cluster“ oder kurz QICC wird in ein paar Monaten als Teil der BEAST-Umgebung betrieben, hinter dem BEAST-Gateway als Isolationsschicht. So stellen wir sicher, dass solche Forschungssysteme und -Arbeiten keine Auswirkung auf die Service-Infrastruktur des LRZ haben.
Aktuell im System enthaltene Komponenten:
- Systeme mit x86-CPUs von Intel (Cascade Lake, CooperLake, IceLake) mit NVRAM-Bestückung (Optane) und von AMD (Rome) mit AMD GPUs (MI-100)
- Systeme mit ARM-CPUs von Marvell (ThunderX2) mit Nvidia-GPUs (V-100) und von Fujitsu (A64FX), lettzteres in einem HPE CS500-System
Dr. Josef Weidendorfer, Leiter Future Computing am LRZ