2021-05-04-Künstliche Intelligenz für LRZ-Supercomputer
E. Mayer für LRZ
Künstliche Intelligenz für LRZ-Supercomputer
Das Leibniz-Rechenzentrum der BAdW plant Erweiterung für SuperMUC-NG mit Partnern Intel und Lenovo.
Garching/München, 04. Mai 2021.
Das Leibniz-Rechenzentrum (LRZ) der Bayerischen Akademie der Wissenschaften überführt seinen Höchstleistungsrechner SuperMUC-NG in die Phase 2. Das aktuelle System, Teil des Gauss Centre for Supercomputing, soll dazu in Kooperation mit Intel und Lenovo ausgebaut werden: Künftig sollen neben Höchstleistungen bei Berechnungen und Simulationen zusätzlich auch Künstliche Intelligenz (KI) und Verfahren des Deep Learnings unterstützt werden.
Dafür wird das System mit skalierbaren Intel Xeon Prozessoren der nächsten Generation (Codename „Sapphire Rapids") ausgestattet sein. Desweiteren wird die kommende Intel GPU "Ponte Vecchio" zum Einsatz kommen – basierend auf der Xe-HPC-Mikroarchitektur für High Performance Computing und KI .Um den Zugriff auf große Datenmengen zu beschleunigen, wird das Speichersystem über verteilten asynchronen Objektspeicher (DAOS) verfügen. Dieser besteht aus Intel Xeon Scalable Prozessoren der 3. Generation und nutzt Intel® Optane™ Persistent Memory.
Wie SuperMUC-NG Phase 1 wird auch Phase 2 zu gleichen Teilen vom Freistaat Bayern und vom Bundesforschungsministerium im Rahmen des Gauss Centre for Supercomputing (GCS) finanziert. Die Rechenkapazitäten werden speziell qualifizierten Forschungsprojekten bundesweit in einem wissenschaftlichen Auswahlverfahren zur Verfügung gestellt.
Neue Forschungsaufgaben fürs Supercomputing
„Die wichtigste Aufgabe des LRZ ist es, Forschenden die technischen Ressourcen und Dienstleistungen bereitzustellen, die sie für ihre wissenschaftlichen Projekte brauchen“, sagt Dieter Kranzlmüller, Leiter des LRZ. „Dabei beobachten wir seit einer Weile, dass Wissenschaftlerinnen und Wissenschaftler Supercomputer nicht mehr nur für klassische Modellierung und Simulationen einsetzen, sondern zunehmend auch zur Analyse von Daten mit Methoden von Künstlicher Intelligenz.“ Diese neuen Techniken zur Datenverarbeitung bestimmen den Forschungsalltag. Sie erfordern viel Rechenleistung, vor allem aber eine andere Computerarchitektur und -konfiguration sowie flexiblere Datenspeicher.
„Ob Industrie, Medizin oder Wissenschaft – nahezu alle Bereiche profitieren heute von neuesten technischen Errungenschaften und werden immer vernetzter. Um unser Leben und unseren Alltag weiter zu verbessern, braucht es fundierte Forschung auf dem aktuellsten technologischen Stand – Künstliche Intelligenz ist dabei eine zentrale Schlüsseltechnologie“, so Hannes Schwaderer, Country Manager Intel Deutschland GmbH. „Wir freuen uns, den langjährigen Partner LRZ durch den gemeinsamen Ausbau des SuperMUC-NG bei dieser Mission zu unterstützen. Mit unseren hochperformanten Technologien schaffen wir die richtigen Voraussetzungen, um große Datenmengen zu verarbeiten und das volle Potential des Systems auszuschöpfen.“
Praktische Erfahrungen mit Verfahren der Künstlichen Intelligenz entwickeln sich mehr und mehr zu Schlüsselkompetenzen in der Wissenschaft. Das zieht neue Nutzerkreise ans LRZ: Bisher setzten vor allem Expertinnen und Experten aus Physik, Ingenieurs- und Naturwissenschaften, die mit Supercomputern versiert umgehen und für diese eigene Software entwickeln, auf das Hoch- und Höchstleistungsrechnen. Mit der Verbreitung von KI steigt die Nachfrage aus der Medizin, den Lebens- und Umweltwissenschaften sowie den Geistes- und Sozialwissenschaften. Sie werten mit automatisierter Bild-, Sprach- oder Mustererkennung zum Beispiel anonymisierte Röntgen- sowie Blutbilder, Erdbeobachtungs- oder Klimadaten aus Satelliten, oder Sprachen und demografische Daten aus. Die Funktionen der smarten Anwendungen werden anhand von Datensätzen trainiert und lernen Aufgaben mit künstlichen neuronalen Netzen. Je komplexer diese Netze und die gewünschte Funktion sind, umso höher ist der Bedarf an Rechen- und schnellen Speicherleistungen.
SuperMUC-NG bietet bereits höchste Rechenleistung, wird nun aber mit Phase 2 für weitere Aufgaben aufgerüstet: Ein Teil der neuen Prozessoren wurde bereits in der LRZ-Testumgebung BEAST ausgereizt und für ihren Einsatz in einem parallelen Höchstleistungssystem angepasst. Damit SuperMUC-NG auch in Phase 2 so sparsam wie möglich arbeitet, werden die 240 Rechenknoten von Intel in die direkt mit Warmwasser kühlende SD650-I v3 Plattform von Lenovo integriert und über ein Hochgeschwindigkeits-Netz mit dem DAOS-Speichersystem verbunden. Dessen Kapazität liegt bei 1 Petabyte. Wichtiger allerdings ist, dass es einen schnellen Durchsatz von großen Datenmengen ermöglicht und die Verzögerung zwischen Eingaben und Ausführung von Befehlen verkürzt. Diese Systemarchitektur eignet sich besonders gut für hochskalierbare, rechen- und datenintensive Arbeitsaufträge sowie für Anwendungen der Künstlichen Intelligenz.
„Das Leibniz-Rechenzentrum ist seit vielen Jahren Vordenker bei neuen Technologien, setzt Maßstäbe in Forschung sowie Entwicklung und ist ein wichtiger Innovationspartner für Lenovo. So hat das LRZ beispielsweise bereits eine Warmwasserkühlung eingebaut und plant die Implementierung eines integrierten Systems für künstliche Intelligenz und Deep Learning, alles von Lenovo", betont Noam Rosen, EMEA Director, HPC & AI, ISG bei Lenovo. „Nachhaltigkeit war für das LRZ auch bei seinen Infrastrukturprojekten stets wichtig. Deshalb freuen wir uns, auch an dieser Initiative mitzuwirken, denn die Lenovo-Komponenten für SuperMUC-NG-Phase 2 werden in unserer neuen Produktionsstätte in Ungarn - und nicht in unseren amerikanischen oder asiatischen Produktionsstätten - hergestellt, wodurch sich die Ökobilanz unserer Lieferkette weiter verbessert."
Ausbildung und Beratung
Während der neue Speicher im Herbst 2021 in Garching erwartet wird, folgt das Compute-System voraussichtlich im Frühjahr 2022. Doch schon jetzt bereitet das LRZ seine Nutzerinnen und Nutzer auf zukunftsträchtige Fähigkeiten und Kenntnisse vor: Forschende finden bereits einige GPU-Systeme auch für spezialisierte KI-Anwendungen im LRZ. Die für HPC- und Big Data-Aufträge verantwortlichen Teams unterstützen sie bei der Anpassung und Optimierung von Codes sowie entsprechenden KI-Algorithmen. Und im Workshop- und Webinar-Programm des LRZ nehmen Machine und Deep Learning schon länger einen breiten Raum ein: Studierende und Forschende lernen hier, wie sie bestehende Algorithmen und smarte Systeme für ihre Fragen und Projekte anpassen oder eigene Algorithmen entwickeln und trainieren können.