2021-01-10: Strategie BEAST
„Up to date bleiben, was neue Architekturen und Komponenten betrifft“
Die Zukunft von Computern erforschen und mitgestalten. Das Leibniz-Rechenzentrum (LRZ) setzt in seinem Bereich die High-Tech-Offensive der Bayerischen Staatsregierung um und startet das ambitionierte Programm „Future Computing“: Dazu gehört eine Testumgebung mit neuesten Computertechnologien, das „Bavarian Energy, Architecture- and Software-Testbed“ oder kurz: BEAST. Außerdem enthält Future Computing Angebote, um Kolleg:innen sowie den HPC-Nachwuchs zu qualifizieren und mit ausgewählten Wissenschaftspartnern innovative Computertechnik und Systeme für das High Performance Computing (HPC) auszureizen und zu erkunden: „Wir wollen neueste Computersysteme und -Architekturen, deren Energiebedarf und Arbeitsweise intensiv erforschen“, erklärt der habilitierte Informatiker Josef Weidendorfer, der Future Computing am LRZ leitet. Inzwischen stehen in Garching bereits Login- und Speicherserver bereit, außerdem jeweils zwei AMD-Rome-Systeme und Server mit Marvell ThunderX2-Prozessoren, beides mit Graphikkarten als Beschleuniger. Gerade wird noch ein Cray CS500-System installiert, das mit A64FX-Prozessoren von Fujitsu arbeitet. In den nächsten Jahren ist geplant, BEAST stetig zu erweitern, zum festen Bestandteil der Forschungsarbeit am LRZ zu entwickeln und damit potenzielle neue Rechnerarchitekturen für Bayerns größtes wissenschaftliches Rechenzentrum zu evalieren. Im Interview erklärt Josef Weidendorfer die Strategie von Future Computing:
Was ist besonders am Cray CS500 oder am Testbed BEAST? Dr. Josef Weidendorfer: Die Technologie ist völlig neu und enthält unter anderem die gleichen Prozessoren, die im japanischen Supercomputer Fugaku eingesetzt sind, dem derzeit schnellsten Computer der Welt. Diese Technik ist hoch innovativer, sie bietet zum Beispiel einen Hauptspeicher, der vier Mal so schnell ist wie der von SuperMUC-NG. In einem Produktivsystem wie dem SuperMUC-NG, der ständig für Forschungsprojekte arbeitet, können wir nicht auch noch mit den Konfigurationen von Betriebssystemen, unterschiedlichen Beschleunigern und weiteren Stellschrauben der Hardware experimentieren. Genau das ist aber der Plan mit BEAST und für Future Computing – aktuelle Systeme oder Hardware anzuschaffen, die man ausreizen, austesten, nach eigenen Vorstellungen zusammenstecken, konfigurieren und mit unterschiedlichsten Anwendungen oder Codes konfrontieren kann, um zu beobachten, unter welchen Bedingungen sie wie arbeiten. Wir wollen neueste Computersysteme und -Architekturen, deren Energiebedarf und Arbeitsweise intensiv erforschen, ohne den Wissenschaftsbetrieb auf den LRZ-Supercomputern zu stören. Von jedem Stück Hardware wird es in BEAST zwei gleiche Komponenten geben, damit Einsatzmöglichkeiten verglichen werden können.
Wozu ist das Ausprobieren nötig? Weidendorfer: Mit BEAST bereiten wir uns auf die Herausforderungen der nächsten Generation von Supercomputern und auf die Nachfolger von SuperMUC-NG vor. Wir untersuchen, welche Architekturen für größere Systeme und Parallelisierung sinnvoll sind. Das ist auch deshalb wichtig, weil die Computertechnologie vor dem nächsten Entwicklungsschritt in Richtung Exascale steht. Die Verarbeitung wachsender Datenmengen, Anwendungen wie Maschinelles Lernen und Künstliche Intelligenz fordern unter anderem neues Chip-Design und andere Rechnerarchitekturen, umgekehrt werden sich diese Technologien wahrscheinlich in den Supercomputing-Systemen der näheren Zukunft etablieren und hier Arbeits- oder Speicherleistungen optimieren. BEAST wird daher bald auch Prototypen neuester Technologien enthalten, die wir möglichst zusammen mit den Herstellern gestalten und aufbauen. Wenn wir heute schon mit modernster Hardware und Prototypen experimentieren, können wir erstens fundierte Anforderungen und Benchmarks für den nächsten Supercomputer formulieren. Zweitens können wir viel besser abschätzen, welche Systeme unseren Nutzerkreis und die Wissenschaftscommunity zufrieden stellen werden und wie sich Dienstleistungen rund ums HPC entwickeln und verändern. Drittens entwickelt das LRZ selbst Software – mit Hilfe von BEAST können wir Eigenkreationen wie das Monitoring-Tool DCDB oder die Steuerung Wintermute besser anpassen und auf andere Systeme vorbereiten. Nicht zuletzt können wir mit BEAST ausgewählte Nutzerkreise bei ihrer Grundlagenforschung rund um moderne Rechnerarchitekturen unterstützen.
Wer darf denn die Testumgebung überhaupt ausprobieren? Weidendorfer: BEAST ist keine herkömmliche Dienstleistung des LRZ und steht in erster Linie unseren Kolleginnen und Kollegen für Versuche und eigene Forschung zur Verfügung. Sie können sich daran Empfehlungen für zukünftige Systeme und deren Nutzung zu erarbeiten, aber auch Erfahrungen mit neuen Architekturen sammeln. Dann öffnen wir die Testumgebung für ausgewählte Forscherinnen und Forscher, die sich mit der Hardware der nächsten Generation beschäftigen. Wir begleiten und unterstützen deren Arbeit und bleiben auch dadurch up-to-date, was neue Architekturen und Komponenten betrifft. Mit Unfällen oder Abstürzen, die eine Wiederbelebung der Hardware erfordern, ist dabei zu rechnen. Denn während das Linux-Cluster und SuperMUC-NG vom LRZ administriert werden, soll es für BEAST größere Freiheiten geben. Nutzergruppen sollen ins Betriebssystem eingreifen, Prozessoren selbst konfigurieren und Änderungen im System vornehmen können, die sonst den Administratoren vorbehalten bleiben. Das System wird dadurch viel stärker gefordert, aber nur so können alle Beteiligten lernen.
Werden auch Studierende mit BEAST arbeiten? Weidendorfer: Aber klar, wir wollen mit dem Testbed die bestehenden Kooperationen mit der Ludwig-Maximilians-Universität und der Technischen Universität München vertiefen und Studierende für Abschlussarbeiten rund um BEAST begeistern. Zur Unterstützung ihrer Vorlesungen zu Rechnerarchitekturen bieten beide Münchner Universitäten zusammen mit dem LRZ im Wintersemester 2020/21 erstmals ein Praktikum an. Etwa 30 Studierende bekommen dafür direkten Zugriff auf die Systeme von BEAST, um deren Eignung für Beispielcodes zu verstehen und diese auf bestmögliche Leistung zu trimmen. Und wir laden Mitarbeitende der Hersteller ein, die Hardware und ihre Arbeitsweise ausführlicher zu präsentieren. Auch die Zusammenarbeit mit den Universitäten und Studierenden erlaubt vertiefende Untersuchungen, die uns am LRZ helfen, neueste Technik noch besser zu verstehen.
Sind Hersteller an solchen Tests überhaupt interessiert? Weidendorfer: Das ist die langfristige Hoffnung, die im Future Computing-Programm des LRZ mitschwingt. Mittel- bis langfristig sollen uns Hersteller nicht mehr nur als Kunden sehen, wir können und wollen neue Computertechnologie mitgestalten. Mit der Warmwasser-Kühlung ist uns das ja schon prima gelungen, und mit dem Zuschlag an Intel/Lenovo für den Aufbau des SuperMUC-NG konnten wir unsere Zusammenarbeit mit diesen Herstellern so vertiefen, dass wir jetzt Zugriff auf Prototypen bekommen und mit unseren Ideen und Empfehlungen Einfluss darauf nehmen. Als Dienstleister sind wir Schnittstelle zwischen Grundlagenforschung und Hersteller – mit Hilfe von Forschungsergebnissen und unseren praktischen Erfahrungen zu Komponenten oder den diversen Einsatzfeldern von Supercomputern können Hersteller Produkte optimieren und mehr Kundennähe aufbauen. Umgekehrt können wir neueste Technologien noch im Experimentierstadium umfassend erkunden und testen lassen. Davon profitieren allen Beteiligten. (vs)