„Wir erreichten eine Transferrate von 7 Terabit pro Sekunde“

ABS2

Früher wurde das Wissen in Bücher geschrieben, heute lagert es in Bandlaufwerken und Tapes. Foto: W.Baur/LRZ

Nachts beginnt im Daten- und Archivraum des Leibniz-Rechenzentrums (LRZ) mit einem Surren die Arbeit der Roboter: Mit ihren Greifarmen ziehen sie Tapes aus den Fächern der Libraries, speichern darauf die 40 Millionen Sicherungskopien, die rund 5000 Computeranlagen im Münchner Wissenschaftsnetz (MWN) tagtäglich schicken, und stecken sie wieder zurück. Vor 25 Jahren zentralisierte das LRZ die Datenspeicherung – Werner Baur, der das Archiv- und Backup-System (ABS) aus der Taufe hob und wachsen sah, beschreibt Veränderungen und Herausforderungen. Wichtigste Bobachtung: Obwohl sich die Hardware in den letzten Jahrzehnten stark änderte und Kapazitäten enorm wuchsen, hat sich am Prinzip von Backups und Speicherung wenig geändert.

1996 hat das LRZ das Archiv- und Backup-System aufgebaut: Seine Bedeutung wuchs und mit ihm die technischen Dimensionen. Warum? Werner Baur: Weil die Bedeutung und die Menge der Daten wuchsen. Daten werden in unserer Gesellschaft immer wichtiger, sie dürfen nicht verloren gehen. Das war vor 25 Jahren so und gilt heute erst recht. Entsprechend vielstufig sind heute die Sicherungsmaßnamen, an deren Ende, sozusagen als „last line of defense“, unser Archiv- und Backupsystem steht. In der Wissenschaft kommt hinzu – Messdaten sollen langfristig verfügbar bleiben. Forschungsergebnisse sollten jederzeit überprüfbar sein, sie können weiter ausgewertet und mit neuen Daten kombiniert werden.

wb

Werner Baur, Spezialist für Speicherung und
Hüter des Archiv- und Backupsystems am LRZ

Wie ist das ABS aufgebaut? Baur: Wir starteten 1995 mit dem Aufbau von zwei Servern, einer kleinen Bandbibliothek und 4 Bandlaufwerken, die seit 1996 in Betrieb sind. Auf zwei Quadratmetern Stellfläche bekamen wir um die 10 Terabyte Speicherplatz unter. Heute füllen 20 Server, 5 Bandroboter mit über 70.000 Slots, 126 Bandlaufwerke und mehr als 2.300 Festplatten ein Stockwerk im Rechnerwürfel. Etwas mehr Kapazität als damals haben wir mit 125.000 Terabyte inzwischen auch. Zwar hat sich die Hardware stark verändert, der Dienst läuft trotzdem noch mit dem gleichen Konzept und der gleichen Software von IBM. Nur der Name wechselte öfter mal. Anfangs hieß die Software Adstar Distributed Storage Manager, ADSM, dann Tivoli Storage Manager, TSM, und jetzt Spectrum Protect, ISP.

Wie funktioniert die Sicherung? Baur: LRZ-Nutzer:innen bekommen eine Kennung, laden sich den ISP-Client herunter, danach durchsucht dieser ihre Systeme nach neuen oder geänderten Dateien und überträgt sie in der Regel nachts als Backup ans LRZ. Anders beim Archivieren – wie lange Forschungs-, Verwaltungs- und Arbeitsdaten gespeichert werden, konfigurieren LRZ-Nutzer:innen selbst. Die Standard-Archivierung umfasst 10 Jahre.

125 Petabyte Speicherkapazität – wie viel davon sind belegt? Baur: Rund 110 Petabyte sind gespeichert verteilt auf 50.000 Bänder. Täglich kommen momentan rund 150 Terabyte dazu. Das reicht also nicht mehr lange. Wir komprimieren viel, schichten um, und das System wird 2022 erheblich erweitert.

Was ist die größere Herausforderung – Technik- oder Anwenderfehler? Baur: Das kommt auf die Perspektive an. Ein verbreiteter Fehler ist, die Sicherung aufzusetzen und regelmäßig Daten zu sichern, aber nie Updates einzufahren und einen Restore-Test zu machen. Tritt dann nach Jahren der Ernstfall ein, sind Platte oder Server kaputt und müssen Daten aus dem ABS zurückgeholt werden, geht das oft schief, weil die alte TSM-Version nicht mehr funktioniert. Das wird zur technischen Herausforderung, einige Male konnten wir Daten noch retten. Für uns als Betreiber des ABS ist wohl die größte Aufgabe, mit den Versionszyklen mitzuhalten und die Daten mitzuziehen.

Immer neue Computer, 2006 der Umzug nach Garching: Was braucht man, um Daten umzuziehen? Baur: Vor allem Zeit. Für die erste Migration der Daten haben wir 1995/96 etwa 6 Monate gebraucht, damals zogen wir etwa ein Terabyte Daten ins ABS, ähnlich lange werden wir jetzt brauchen, um 40.000 Terabyte aus dem Archiv von SuperMUC-NG ins neue Data Science Archive, kurz DSA, zu transferieren. Schneller ging es 2006 beim Umzug des LRZ nach Garching. Glaubt man im Zeitalter von Hochgeschwindigkeitsnetzen nicht – aber die schnellste Methode war, alle Tapes mit dem LKW zu transportieren, statt die 1,5 Petabyte Daten übers Netz zu übertragen. Mit dem LKW erreichten wir eine Transferrate von 7 Terabit pro Sekunde – das kriegen wir selbst mit aktuellen Netzen noch nicht hin.

Warum werden Daten umkopiert? Baur: Weil das Bandmaterial altert und Daten unlesbar werden können. Sicherheitshalber und weil die neuen Medien schneller sind und eine viel höhere Speicherkapazität haben, ersetzen wir sie alle 5 bis 7 Jahre. Mir tut das in der Seele weh, denn die alten Bänder sind aus Datenschutzgründen nicht weiterzuverwenden. Zwischen den Migrationszyklen kontrolliert das System die Daten auf den Bändern nach Fehlern. Außerdem lagern Kopien unserer Archivdatensätze in einem anderen Rechenzentrum. So sind wir für den Katastrophenfall gerüstet.

Tapes und Festplatten wurden oft totgesagt – wie sieht die Datensicherung in Zukunft aus? Baur: Die Unterschiede bei der Übertragungsgeschwindigkeit und bei den Kapazitäten werden zwar immer kleiner. Für sehr große Datenmengen aber wird das Tape noch lange das wirtschaftlichste Speichermedium bleiben. Konzerne wie Amazon, Google, Microsoft bauen darauf – eine Garantie, dass die Technologie weiterentwickelt wird. Fest steht – Datensicherung bleibt unverzichtbar. Selbst wenn die Primärspeichermedien eine absolute, unbefristete Haltbarkeit garantierten, braucht man weiterhin Backups als Schutz gegen Cyberkriminalität oder menschliches Fehlverhalten. (vs)

Daten, Daten, Big Data: Das LRZ-Archivsystem wächst und wächst

 

1995

2021

Gespeicherte Datenmenge

1 TB

110.000

Anzahl Bandlaufwerke

4

126

Bandbibliotheken

1

5

Kapazität eines Tapes

0,01 TB

12

Schreibgeschwindigkeit eines Bandlaufwerks

9 MB

360 MB

ABS1

Robotergesteuertes Archiv- und Backup-System am LRZ. Foto: W. Baur/LRZ