BABS2
Ausbau des Bibliothekarischen Archivierungs- und Bereitstellungssystems BABS zu einem vertrauenswürdigen und skalierbaren digitalen Langzeitarchiv
Der Aufgabe der Langzeitarchivierung haben sich inzwischen mehrere National-, Regional-, Fach- und Universitätsbibliotheken sowie Bibliotheksverbünde angenommen. Es wurden organisatorisch-technische Strukturen geschaffen, die sich in der Erprobungsphase und teilweise auch schon im Produktivbetrieb befinden. Generell steht nun eine Konsolidierung der aufgebauten Strukturen an, insbesondere auch des von der Bayerischen Staatsbibliothek (BSB) in Kooperation mit dem Leibniz-Rechenzentrum (LRZ) aufgebauten Bibliothekarischen Archivierungs- und Bereitstellungssystems BABS.
Das von der DFG geförderte Projekt BABS2 hat die Anwendung innovativer Methoden des Qualitätsmanagements sowie die eingehende Analyse der Skalierbarkeit im Bereich der digitalen Langzeitarchivierung zum Ziel.
Mit der Erarbeitung eines Kriterienkatalogs vertrauenswürdiger digitaler Langzeitarchive hat die nestor-Arbeitsgruppe Vertrauenswürdige Archive – Zertifizierung unter Federführung der BSB und der Humboldt-Universität zu Berlin eine international anerkannte, methodische Grundlage zur Konsolidierung geschaffen. Mehrere Langzeitarchive orientieren sich an diesem Katalog. Es fehlen allerdings noch dokumentierte Erfahrungen mit der Umsetzung der einzelnen Kriterien sowie vor allem mit der Selbstevaluierung und externen Audits anhand dieser Kriterien in Deutschland.
Die Entwicklung der letzten Jahre hat gezeigt, dass der Zuwachs an digitalen Daten, die der Langzeitarchivierung zugeführt werden, schwer abschätzbar ist. Dies zeigt sich eindrucksvoll im Bereich der digitalen Sammlungen der BSB, wo exorbitante Steigerungen zu verzeichnen sind und sämtliche Prognosen früherer Jahre immer wieder nach oben korrigiert werden mussten. Auch steht durch die (Pflicht-)Ablieferung elektronischer Publikationen eine nur sehr schwer abschätzbare Menge weiterer Daten ins Haus. Die zuverlässige Speicherung und Pflege immer größer werdender Datenmengen, ein Bereich in dem das LRZ besonders viel Erfahrung hat, ist von grundlegender Bedeutung für die Vertrauenswürdigkeit der Langzeitarchivierung. Die aufgrund rapide ansteigender Publikationszahlen dringende Frage der Skalierbarkeit eines digitalen Langzeitarchivs wurde im Projekt BABS2 erstmals eingehend evaluiert. Die folgende Graphik zeigt die Speicherung digitaler Daten auf Magnetbandkassetten der Archivsysteme des LRZ.
Um ein besseres Verständnis für das zu erwartende Datenvolumen und die Anzahl der archivierten Dateien zu erhalten, zeigen die beiden folgenden Abbildungen die reale und prognostizierte Entwicklung vom Jahr 2004 bis ins Jahr 2010:
Bei dieser Prognose wurde die Entwicklung der letzten Jahre (Januar 2006 bis Januar 2008) für die im Rahmen von BABS ablaufende Archivierung in aktueller Vorgehensweise mit manuellen Systemen zur Digitalisierung herangezogen und kein weiterer Anstieg angenommen. Neben der Digitalisierung von Büchern werden immer mehr Medien direkt vom Verlag in digitaler Form zur Verfügung gestellt. In dieser Prognose ist außerdem die anstehende signifikante Steigerung des Archivvolumens und der Dateianzahl aufgrund der im Rahmen des Projekts vd16digital geplanten Massendigitalisierung mittels dreier Scan-Roboter enthalten, die pro Stunde bis zu 3.300 Seiten produzieren können. Somit werden pro Jahr noch zusätzlich über 100 TeraByte Datenvolumen an Archivdateien hinzukommen.
Auch die Kooperation der BSB mit Google trägt enorm zum Anstieg des Speichervolumens des Langzeitarchivs bei. In nächster Zeit werden weit über eine Million urheberrechtsfreie Werke aus den Sammlungen der BSB von Google digitalisiert. Bei einer mittleren Seitenzahl von 300 Seiten pro Werk entstehen so mehr als 300 Millionen digitalisierte Seiten, die am LRZ archiviert werden. Der Zuwachs aus diesem Projekt ist in obiger Prognose noch nicht enthalten.
Das stark ansteigende Archivvolumen und die stark steigende Zahl an Archivobjekten erfordern ein hoch-skalierbares System und verdeutlichen die Notwendigkeit, Skalierungstests durchzuführen. Dies ist vor allem deshalb wichtig, weil zukünftige Steigerungsraten nur sehr schwer abzuschätzen sind. Berücksichtigt werden muss hierbei auch, dass bei Langzeiterhaltungsmaßnahmen, die mit einer Änderung der Daten einhergehen (z.B. Dateiformatmigrationen), zusätzlich in der Regel auch die Originale archiviert werden. Außerdem werden Zweitkopien erstellt, die von jedem Objekt auf einem getrennten Medium an einem örtlich entfernten Rechenzentrum abgelegt werden. Somit werden sich das zu speichernde Archivvolumen und die Anzahl an Objekten mehr als verdoppeln.