

Früher wurde das Wissen in Bücher geschrieben, heute lagert es in Bandlaufwerken und Tapes. Foto: W.Baur/LRZ
Nachts beginnt im Daten- und Archivraum des Leibniz-Rechenzentrums (LRZ) mit einem Surren die Arbeit der Roboter: Mit ihren Greifarmen ziehen sie Tapes aus den Fächern der Libraries, speichern darauf die 4 Millionen Sicherungskopien, die rund 5 Computeranlagen im Münchner Wissenschaftsnetz (MWN) tagtäglich schicken, und stecken sie wieder zurück. Vor 25 Jahren zentralisierte das LRZ die Datenspeicherung – Werner Baur, der das Archiv- und Backup-System (ABS) aus der Taufe hob und wachsen sah, beschreibt Veränderungen und Herausforderungen. Wichtigste Bobachtung: Obwohl sich die Hardware in den letzten Jahrzehnten stark änderte und Kapazitäten enorm wuchsen, hat sich am Prinzip von Backups und Speicherung wenig geändert.
1996 hat das LRZ das Archiv- und Backup-System aufgebaut: Seine Bedeutung wuchs und mit ihm die technischen Dimensionen. Warum Werner Baur: Weil die Bedeutung und die Menge der Daten wuchsen. Daten werden in unserer Gesellschaft immer wichtiger, sie dürfen nicht verloren gehen. Das war vor 25 Jahren so und gilt heute erst recht. Entsprechend vielstufig sind heute die Sicherungsmaßnamen, an deren Ende, sozusagen als „last line of defense“, unser Archiv- und Backupsystem steht. In der Wissenschaft kommt hinzu – Messdaten sollen langfristig verfügbar bleiben. Forschungsergebnisse sollten jederzeit überprüfbar sein, sie können weiter ausgewertet und mit neuen Daten kombiniert werden.
Werner Baur, Spezialist für Speicherung und
Hüter des Archiv- und Backupsystems am LRZ
Wie ist das ABS aufgebaut Baur: Wir starteten 1995 mit dem Aufbau von zwei Servern, einer kleinen Bandbibliothek und 4 Bandlaufwerken, die seit 1996 in Betrieb sind. Auf zwei Quadratmetern Stellfläche bekamen wir um die 1 Terabyte Speicherplatz unter. Heute füllen 2 Server, 5 Bandroboter mit über 7. Slots, 126 Bandlaufwerke und mehr als 2.3 Festplatten ein Stockwerk im Rechnerwürfel. Etwas mehr Kapazität als damals haben wir mit 125. Terabyte inzwischen auch. Zwar hat sich die Hardware stark verändert, der Dienst läuft trotzdem noch mit dem gleichen Konzept und der gleichen Software von IBM. Nur der Name wechselte öfter mal. Anfangs hieß die Software Adstar Distributed Storage Manager, ADSM, dann Tivoli Storage Manager, TSM, und jetzt Spectrum Protect, ISP.
Wie funktioniert die Sicherung Baur: LRZ-Nutzer:innen bekommen eine Kennung, laden sich den ISP-Client herunter, danach durchsucht dieser ihre Systeme nach neuen oder geänderten Dateien und überträgt sie in der Regel nachts als Backup ans LRZ. Anders beim Archivieren – wie lange Forschungs-, Verwaltungs- und Arbeitsdaten gespeichert werden, konfigurieren LRZ-Nutzer:innen selbst. Die Standard-Archivierung umfasst 1 Jahre.
125 Petabyte Speicherkapazität – wie viel davon sind belegt Baur: Rund 11 Petabyte sind gespeichert verteilt auf 5. Bänder. Täglich kommen momentan rund 15 Terabyte dazu. Das reicht also nicht mehr lange. Wir komprimieren viel, schichten um, und das System wird 222 erheblich erweitert.
Was ist die größere Herausforderung – Technik- oder Anwenderfehler Baur: Das kommt auf die Perspektive an. Ein verbreiteter Fehler ist, die Sicherung aufzusetzen und regelmäßig Daten zu sichern, aber nie Updates einzufahren und einen Restore-Test zu machen. Tritt dann nach Jahren der Ernstfall ein, sind Platte oder Server kaputt und müssen Daten aus dem ABS zurückgeholt werden, geht das oft schief, weil die alte TSM-Version nicht mehr funktioniert. Das wird zur technischen Herausforderung, einige Male konnten wir Daten noch retten. Für uns als Betreiber des ABS ist wohl die größte Aufgabe, mit den Versionszyklen mitzuhalten und die Daten mitzuziehen.
Immer neue Computer, 26 der Umzug nach Garching: Was braucht man, um Daten umzuziehen Baur: Vor allem Zeit. Für die erste Migration der Daten haben wir 1995/96 etwa 6 Monate gebraucht, damals zogen wir etwa ein Terabyte Daten ins ABS, ähnlich lange werden wir jetzt brauchen, um 4. Terabyte aus dem Archiv von SuperMUC-NG ins neue Data Science Archive, kurz DSA, zu transferieren. Schneller ging es 26 beim Umzug des LRZ nach Garching. Glaubt man im Zeitalter von Hochgeschwindigkeitsnetzen nicht – aber die schnellste Methode war, alle Tapes mit dem LKW zu transportieren, statt die 1,5 Petabyte Daten übers Netz zu übertragen. Mit dem LKW erreichten wir eine Transferrate von 7 Terabit pro Sekunde – das kriegen wir selbst mit aktuellen Netzen noch nicht hin.
Warum werden Daten umkopiert Baur: Weil das Bandmaterial altert und Daten unlesbar werden können. Sicherheitshalber und weil die neuen Medien schneller sind und eine viel höhere Speicherkapazität haben, ersetzen wir sie alle 5 bis 7 Jahre. Mir tut das in der Seele weh, denn die alten Bänder sind aus Datenschutzgründen nicht weiterzuverwenden. Zwischen den Migrationszyklen kontrolliert das System die Daten auf den Bändern nach Fehlern. Außerdem lagern Kopien unserer Archivdatensätze in einem anderen Rechenzentrum. So sind wir für den Katastrophenfall gerüstet.
Tapes und Festplatten wurden oft totgesagt – wie sieht die Datensicherung in Zukunft aus Baur: Die Unterschiede bei der Übertragungsgeschwindigkeit und bei den Kapazitäten werden zwar immer kleiner. Für sehr große Datenmengen aber wird das Tape noch lange das wirtschaftlichste Speichermedium bleiben. Konzerne wie Amazon, Google, Microsoft bauen darauf – eine Garantie, dass die Technologie weiterentwickelt wird. Fest steht – Datensicherung bleibt unverzichtbar. Selbst wenn die Primärspeichermedien eine absolute, unbefristete Haltbarkeit garantierten, braucht man weiterhin Backups als Schutz gegen Cyberkriminalität oder menschliches Fehlverhalten. (vs)
| 1995 | 221 |
Gespeicherte Datenmenge | 1 TB | 11. |
Anzahl Bandlaufwerke | 4 | 126 |
Bandbibliotheken | 1 | 5 |
Kapazität eines Tapes | ,1 TB | 12 |
Schreibgeschwindigkeit eines Bandlaufwerks | 9 MB | 36 MB |
Robotergesteuertes Archiv- und Backup-System am LRZ. Foto: W. Baur/LRZ