Zur Hauptnavigation springen Zur Hauptnavigation springen Zum Inhalt springen Zum Fußbereich springen

Attended Cluster Node Housing

Attended Housing physischer Cluster-Knoten umfasst die Aufstellung, Netzanbindung, den Betrieb und die Administration von kundeneigenen Rechnern in 19’’-Einbauschränken sowie die Einbindung dieser Systeme in das Linux-Cluster des LRZ unter Nutzung der vorhandenen Infrastruktur inkl. USV (20s Autonomiezeit), Klimatechnik und Zutrittsschutz. Es sind Vorgaben des LRZ für die zu unterstützende Hardware einzuhalten. 

Hinweis: Das LRZ unterstützt kein "Unattended Housing" von Cluster-Knoten.

Leistungsumfang und Leistungsspezifika

Unterbringung der Rechner im Rechenzentrum:

  • 19-Zoll Rack(s) in den Räumlichkeiten des LRZ 
  • Klimatisierung 
  • Stromversorgung über zwei unabhängige Stromkreise (230 V), nicht exklusiv 
  • Anbindung an die dynamische USV mit einer Notlaufzeit von mindestens 20 Sekunden 

Überwachter Betrieb im Rechenzentrum 

Remote-Management (Zugriff auf die Systeme im Rechenzentrum per Fernsteuerung) 

Netzanbindung:

  • Die Cluster-Knoten erhalten IP-Adressen aus dem Bereich des Linux-Clusters (öffentl. IPv4-Subnetz: 129.187.20.0/24, öffentl. IPv6-Subnetz: 2001:4ca0:0:200::, priv. Subnetze im VLAN 67). Falls betriebliche Gründe des LRZ es erfordern, kann das System auch einem anderen Subnetz zugeteilt werden. 
  • Die Bandbreite der Netzanbindung nach außen beträgt wahlweise 10 GBit/s oder 40 GBit/s. 100 GBit/s sind nur in bestimmten Teilen der LRZ Infrastruktur verfügbar. 
  • Intern sind die Knoten im Regelfall mit mindestens 100 GBit/s miteinander und mit den Storage-Systemen über ein Hochgeschwindigkeitsnetz verbunden 

Betriebsführung der Cluster-Knoten:

  •  Installation und Administration des Betriebssystems 
  • Pflege von Hardware und Betriebssystem-Software 
  • Einbindung in das Stapelverarbeitungssystem des Linux-Clusters 
  • Anbindung an die Cluster-Dateisysteme sowie das zentrale Cluster-Software-Repository 
  • Systemüberwachung 
  • Professionelle Datensicherung und Datenwiederherstellung unter Nutzung von zentraler RZ-Technik (IBM Spectrum Protect) 
  • Support (inklusive Entstörung) via LRZ Servicedesk 

Optionale Leistungen:

  • Beschaffung von Hardware 
  • Pflege von spezifischer Anwendungssoftware, falls Knowhow hierfür am LRZ vorhanden ist

Leistungsspezifika / Service Parameter

Technische Anforderungen bei der (Eigen-)Beschaffung von Cluster-Knoten

  • Zusammen mit dem Kunden werden die Anforderungen an die Rechner-Hardware festgelegt. Falls die gewünschte Hardware über einen Rahmenvertrag oder eine Rahmenvereinbarung beschafft werden kann, die die Einbindung der Kundeninstitution vorsieht, ist keine Ausschreibung erforderlich. Ansonsten unterstützt das LRZ, falls notwendig, den Kunden bei der Erstellung von Ausschreibungsunterlagen. Es wird besonderer Wert auf eine möglichst einfache Integrationsmöglichkeit der zu beschaffenden Hardware in das Betriebskonzept des LRZ gelegt. Um die eingesetzte Hardware möglichst einheitlich zu halten, bestimmt das LRZ den Hersteller und Typ der Housing-Rechner. Ausnahmen von dieser Regel können nur in besonders begründeten Fällen zugelassen werden, wobei der Preis für das Housing solcher Knoten dann gesondert zu verhandeln ist. 
  • Soweit (typischerweise bei Nichtstandard-Systemen) der Hersteller einen eigenen Software-Stack bzw. die Systemsoftware mitliefert und installiert, ist ein gültiger Softwarepflegevertrag zwischen dem Kunden und dem Hersteller dieser Software eine notwendige Voraussetzung für den Betrieb dieser Systeme in den Rechnerräumen des LRZ. 
  • Die zum Einsatz kommende Rechnerhardware muss Unterstützung für Remote-Reset-Möglichkeit aller Systeme sowie das Auslesen von CPU-Temperaturen und Lüfterdrehzahlen der Systeme im laufenden Betrieb unter Linux bieten. 
  • Mit den Systemen muss auch eine ausreichende Anzahl von Power Distribution Units (PDUs, Stromverteilern) geliefert werden, die das Auslesen des aktuellen Stromverbrauchs und Remote Management gestatten. 
  • Die Beschaffung der Hardware muss alle für Installation, Betrieb und Überwachung notwendigen Management-Komponenten (z. B. interne Management-Switches, Netzkabel) beinhalten. 
  • Alle Komponenten sind mit mindestens 3 Jahre Vor-Ort-Garantie zu beschaffen. Nach Ablauf der Gewährleistungsfrist ist die Wiederinstandsetzung der Geräte nach Hardwareausfällen durch den Kunden, z. B. durch Abschluss eines entsprechenden Wartungsvertrages, sicherzustellen. Eine Beschaffung von Ersatzteilen für nicht mehr in Gewährleistung befindliche Geräte ist nicht Aufgabe des LRZ und hat somit durch den Kunden zu erfolgen. 
  • Für die notwendige Klimatisierung der Systeme gibt es folgende Alternativen: Kaltwasserkühlung auf Rack-Ebene oder direkte Warmwasserkühlung. Der Einsatz letzterer erfordert speziell modifizierte System-Boards und die Möglichkeit der Anbindung an die Kühlkreislauf-Infrastruktur des LRZ. Er ist daher an eine Beschaffung durch das LRZ selbst gebunden. Außerdem muss der Kunde in diesem Fall Anteile an Rack- und ggf. Chassis-Beschaffung als Investition tragen. 

Unterstützte Betriebssysteme

  •  SLES für x86_64-Architektur 
  • Der genutzte Release-Stand hängt vom Support durch SuSE ab und kann sich im Laufe der Zeit ändern. Solche Änderungen werden dem Kunden durch das LRZ vorab rechtzeitig mitgeteilt, da sie in der Regel mit Pflege-Maßnahmen der vom Kunden auf den Systemen implementierten Anwendungen verbunden sind. 

Sicherheit

  • Die Konfiguration der Cluster-Firewall wird mit dem jeweiligen Institut abgesprochen. Der Einsatz einer Firewall vor dem Cluster ist verpflichtend. 
  • Das Einspielen von notwendigen Updates erfolgt auf Login-Knoten kontinuierlich und ggf. unter Inkaufnahme kurzer Betriebsunterbrechungen. Es erfolgt auf von außen nicht direkt erreichbaren Compute-Knoten im Rahmen geplanter Wartungen. 

Betriebskonzept

  • Das Betriebskonzept der Housing-Cluster-Knoten orientiert sich hinsichtlich Benutzerverwaltung, Warteschlangensystem und Clusterzugang am bestehenden Linux-Cluster des LRZ. 
  • Eine Integration gehouster Rechner in bestehende Cluster wird in jedem Fall angestrebt. 

Störungsfall

  • Die Meldung von Störungen erfolgt über den Servicedesk des LRZ. Sie sind dem Dienst "High Performance Computing - Attended Cluster Node Housing" zuzuordnen. 
  • Für Störungen, die nachweisbar durch Fehler an mit dem Betriebssystem installierten fachspezifischen Anwendungsprogrammen ausgelöst werden, behält sich das LRZ vor, die Analyse und Behebung des Problems an den Kunden zurückzuverweisen. Dasselbe gilt für Störungen an nichtkommerziellen Anwendungsprogrammen aus dem LRZ-Software-Repository, wenn das LRZ die Fehlerbehebung wegen mangelnden Knowhows oder wegen zu groß erwarteten zeitlichen Aufwands als nicht aussichtsreich einstuft. 
  • Störungen an Systemen, deren Hardware-Wartungsvertrag ausgelaufen ist, werden vom LRZ nur dann bearbeitet, wenn der Aufwand hierfür als vertretbar erachtet wird. Das LRZ behält sich die Bewertung dieses Aufwands vor. 

Außerbetriebnahme

  • Das LRZ behält sich vor, Nicht-Standard-Kundensysteme deren Pflegeverträge ausgelaufen sind, außer Betrieb zu nehmen. 
  • Altsysteme sind spätestens innerhalb von 8 Wochen nach Außerbetriebnahme durch den Kunden am LRZ abzuholen und fachgerecht zu entsorgen, soweit hierzu nicht gesonderte Vereinbarung mit dem Lieferanten getroffen wurde. 

Regelwartungen von 2-5 Tagen Dauer finden ein bis zwei Mal pro Jahr statt und werden mindestens 14 Kalendertage im Voraus angekündigt. 

Eine Verfügbarkeit des Service von mindestens 95% wird angestrebt. Regelwartungszeiten werden hierbei nicht angerechnet.

Voraussetzungen

Abschluss eines Housing-Vertrags mit dem LRZ 

Benutzungsrichtlinien

Die dienstspezifischen Richtlinien für die Nutzung des MWN (https://www.lrz.de/wir/regelwerk/ - darin Richtlinien im Netzbereich), des Archiv- und Backup-Systems (ABS, https://doku.lrz.de/benutzungsrichtlinien-11475999.html) und des Online- (https://doku.lrz.de/cloud-storage-richtlinien-zur-nutzung-11476144.html) bzw. DSS-Speichers (https://doku.lrz.de/dss-terms-and-conditions-11476130.html) sind zu beachten. 

Richtlinie zur Nutzung der Filesysteme und des Tape-Archivs an den Hoch- und Höchstleistungsrechnern: https://www.lrz.de/wir/regelwerk/richtlinien_filesysteme_HPC/ 

Weitere Details oder Abweichungen vom Standardangebot werden gegebenenfalls in einem individuellen Dienstleistungsvertrag (Service Level Agreement, SLA) festgelegt. 

Haftungsregelungen 

Die folgenden Haftungsregelungen gelten automatisch für alle Verträge aus dem Bereich "Attended Cluster Housing": 

  • Die Vertragsparteien haften bei der Verletzung wesentlicher Vertragspflichten, also Pflichten, die die ordnungsgemäße Durchführung des Vertrags überhaupt erst ermöglichen und auf deren Einhaltung die andere Vertragspartei regelmäßig vertrauen darf, für Vorsatz und Fahrlässigkeit, bei einfacher Fahrlässigkeit jedoch begrenzt auf den vertragstypischen, vorhersehbaren Schaden. 
  • Im Übrigen ist die Haftung auf Vorsatz und grobe Fahrlässigkeit zu beschränken. 
  • Die Haftung für Folge und Vermögensschäden ist auszuschließen. 
  • Haftungsbeschränkungen und –ausschlüsse gelten nicht für Schäden aus der Verletzung des Lebens, des Körpers oder der Gesundheit sowie bei Ansprüchen nach dem Produkthaftungsgesetz. 

Beschaffungsrichtlinien 

Bitte beachten Sie folgende Stichtage für Ihre Anfragen und die Beschaffung:

  • 31.03. des laufenden Jahres 
  • 30.06. des laufenden Jahres 
  • 15.09. des laufenden Jahres 

Nach dem 3. Stichtag können keine Housing-Anfragen für das laufende Jahr mehr akzeptiert werden. Der Abstimmungs-, Angebots- und Beschaffungs-zyklus benötigt Zeit, sodass Anfragen nach diesem Termin erst im Folgejahr abgewickelt werden können.

Nutzer / Kunden

Dieser Dienst wird den folgenden Nutzerklassen zur Verfügung gestellt. Hierbei sind von den einzelnen Nutzerklassen folgende Gebühren zu tragen:

NutzerklasseKostensatz
1Selbstkosten (Betriebs- + Investitionskosten)
2Selbstkosten (Betriebs- + Investitionskosten)
3Selbstkosten (Betriebs- + Investitionskosten)
4Nicht verfügbar
5Nicht verfügbar
6Nicht verfügbar

Gebühren

Die Tabelle gibt einen Überblick über die Kostensätze, die für das Housing von Cluster-Knoten am LRZ anfallen. Hierbei sind die Kategorien wie folgt definiert: 

  • Beschaffung: einmalig anfallende Kostensätze für den Kauf neuer Komponenten. Drei Jahre Gewährleistung sind beinhaltet. 
  • Energie: jährlich anfallende Kostensätze für Strom und Kühlung. Erfolgt auf Basis von Verbrauchsmessungen. Der Klimafaktor (Kühlungsaufschlag) wird je nach eingesetzter Kühlungstechnik spezifiziert. 
  • Betrieb: jährlich anfallende Kostensätze für Betrieb und sonstige Infrastruktur. 

Alle Kostensätze sind, soweit notwendig, inklusive dem gesetzlichen Mehrwertsteuersatz von 19% angegeben. 

Anmerkungen

  • Da die Rahmenvereinbarungen zur Beschaffung von Hardware keine über deren Gesamtdauer feststehenden Preise festlegen (i.W. wegen der Kursschwankungen zum US Dollar), sind Maximalpreise für das dritte Quartal 2024 eingetragen. Für konkrete Beschaffungen ist ein Angebot einzuholen. 
  • GPFS Node-Lizenzen werden nur für Bestandssysteme (installiert vor 2021) angerechnet. Für neuere Systeme kommt ein disk-basiertes Lizenzmodell zum Einsatz, das, soweit erforderlich, im Kostenmodell für die DSS Nutzung abgebildet ist.
KategorieBeschreibungEinheitAnmerkungen
BeschaffungIntegration in Netz und Managementje GPU Nodeauf AnfrageAnteilige Kosten für Switches, Uplinks, Management-Switches, Installation und Abnahme
BeschaffungIntegration in Netz und Managementje CPU Nodeauf AnfrageAnteilige Kosten für Switches, Uplinks, Management-Switches, Installation und Abnahme
BeschaffungGeneral Purpose Rechensystemeein Compute Node (2 Sockel, HDR 100 GBit/s Inifiniband, direkt warmwassergekühlt)
Minimalausstattung: 56 Cores, 256 GByte Hauptspeicher pro Blade. Es müssen geradzahlige Anzahlen beschafft werden.
auf AnfrageJe nach Speicherausbau, Prozessor-Typ und sonstiger Hardware-Ausstattung
BeschaffungBeschleunigtes Rechensystemein accelerated Node (2 Sockel, 4 Beschleuniger NVidia H100 oder Intel Ponte Vecchio, HDR 200 GBit/s Infiniband, direkt warmwassergekühlt)-Es gibt momentan keine Rahmenvereinbarung.
BeschaffungRack-Anteilje beschleunigtem Compute Nodeauf AnfrageDie Racks für wassergekühlte Systeme werden in Vorleistung vom LRZ beschafft und daher separat abgerechnet.
BeschaffungRack-Anteilje CPU Compute Nodeauf AnfrageDie Racks für wassergekühlte Systeme werden in Vorleistung vom LRZ beschafft und daher separat abgerechnet.
BeschaffungErstinstallationCompute Nodeauf AnfrageArbeiten zur physischen und logischen Integration in die Betriebsumgebung
BeschaffungErstinstallationAccelerated Nodeauf AnfrageArbeiten zur physischen und logischen Integration in die Betriebsumgebung
EnergieStrom und Kühlungje kW Durchschnittsleistung und Jahrauf AnfrageKostensatz für luftgekühlte Systeme, die in kaltwassergekühlte Racks eingebaut werden. Klimafaktor: 1:3
EnergieStrom und Kühlungje kW Durchschnittsleistung und Jahrauf AnfrageKostensatz für direkt wassergekühlte Systeme. Klimafaktor: 1:1
BetriebAdministrationskosten (1)pro Jahr und CPU Compute Nodeauf AnfrageStandardsatz
BetriebAdministrationskosten (2)pro Jahr und GPU Compute Nodeauf AnfrageGilt auch für Spezialsysteme, die nicht in die reguläre Cluster-Infrastruktur integrierbar sind.
BetriebBetriebssystemSLES Lizenz für 2-Sockel Node auf AnfrageDeutliche Preissteigerung wegen geändertem Lizenzmodell von SuSE

 

Anmerkung: Den Gebührensatz für außergewöhnlichen Applikationssupport entnehmen Sie bitte der “Serviceoption HPC Software und Programmierunterstützung”.