BABS – Bibliothekarisches Archivierungs- und Bereitstellungssystem
Veröffentlichungen in digitaler Form nehmen im Wissenschaftsbetrieb wie auch im gesellschaftlichen Leben insgesamt einen immer höheren Stellenwert ein. Oft wird wie z.B. bei Dissertationen und amtlichen Publikationen auf ein gedrucktes Pendant ganz verzichtet. Digitalisierung beschleunigt und erleichtert Nutzern den Zugang zu und Umgang mit der Information. Allerdings stehen die Bibliotheken dadurch in organisatorischer, rechtlicher sowie technischer Hinsicht vor neuen Herausforderungen. Zusätzlich sind Bibliotheken mit einer jährlich stark steigenden Zahl von digitalen Objekten konfrontiert. Sie sollen nicht nur verwaltet und gespeichert, sondern auch langfristig zugänglich gemacht werden. Diese Aufgabe wird erschwert durch den raschen technologischen Wandel im Bereich der Hard- und Software und durch die natürlichen physikalischen Grenzen der Datenträger.
Aus diesem Grund wurde die bereits 2004 begonnene Kooperation zwischen der Bayerischen Staatsbibliothek (BSB) und dem Leibniz-Rechenzentrum im Juli 2005 durch ein Projekt im Bereich der Langzeitarchivierung (LZA) erweitert. Dieses Projekt wurde durch die Deutsche Forschungsgemeinschaft (DFG) gefördert unter dem Namen BABS (Bibliothekarisches Archivierungs- und BereitstellungsSystem; www.babs-muenchen.de). Das Projekt BABS war zunächst auf eine Dauer von zwei Jahren ausgelegt. Ziel war der exemplarische Aufbau einer organisatorischen und technischen Infrastruktur für die Langzeitarchivierung von Netzpublikationen und von sonstigen E-Medien unterschiedlicher Herkunft. Die gewonnene Erfahrung trägt zur Etablierung neuer Workflows und Verfahren des Datenmanagements in der BSB und dem LRZ bei und bildet so das Fundament einer langfristig tragfähigen Archivierungs- und Bereitstellungsumgebung.
Innerhalb des Projekts arbeitete die BSB verstärkt an der Sammlung, Erschließung (engl. Ingest laut OAIS-Referenzmodell), Verwaltung (Data Management) und Zugriffssteuerung (Access), während sich das LRZ mit der Archivierung im eigentlichen Sinne (Archival Storage) und den Erhaltungsmaßnahmen (Preservation Planning) befasste. Die Administration der entsprechenden Komponenten wurde von dem jeweiligen Projektpartner übernommen. Damit sind alle wichtigen Bereiche eines langfristig funktionierenden Archives abgedeckt und folgen somit dem allgemeinen Open Archival Information Systems-Referenzmodell (OAIS).
Folgende Abbildung zeigt das Archivierungs- und Bereitstellungssystem BABS mit den OAIS-Prozessen Ingest, Data Management, Archival Storage, Access und Preservation Planning:
Zu sehen ist schematisch das im Pilotprojekt entwickelte funktionale Konzept eines Archivierungs- und Bereitstellungssystems für unterschiedlichste Netzpublikationen:
- Die Objekte werden eingesammelt oder manuell eingestellt (Harvest bzw. Upload) und in das Management-System eingespeist (Ingest).
- Die Verwaltung der Objekte erfolgt im zentralen Management-System. Dabei werden bibliographische Metadaten aus dem lokalen Katalog bzw. den Internetquellendatenbanken übernommen; technische Metadaten aus den Dateien extrahiert; administrative (Prozesse beschreibende) Metadaten werden automatisch protokolliert.
- Über eine leistungsfähige Schnittstelle (File-System-Schnittstelle) werden die Daten zum Archiv- und Backup-System am LRZ (Archivsystem) übertragen und dort archiviert.
- Die Recherche des Nutzers findet über das WWW, entweder über das Lokalsystem oder über eine eigene Suchmaske statt (Access) und löst für die Bereitstellung einen Rückholungsprozess aus dem Archivspeicher aus.
- Aufgrund der Rechtslage oder bestimmter Nutzungsvereinbarungen erfordern manche Archivobjekte einen kontrollierten Zugriff mit abgestuften Zugriffsrechten (z.B. nur in der Bibliothek, einem eingeschränkten Nutzerkreis oder erst nach Ablauf von Sperrfristen) (Authentifizierung).
- Notwendige Erhaltungsmaßnahmen (wie z.B. Migration von Dateien, deren Formate von Überalterung bedroht sind) werden bei Bedarf durchgeführt (Preservation).
Zur Speicherung der Daten (Archival Storage) wird das am LRZ betriebene Archiv- und Backupsystem mit dem Softwarepaket Tivoli Storage Manager (TSM) der Firma IBM verwendet. TSM ist als Client-Server-Anwendung für heterogene Rechnerlandschaften konzipiert und basiert auf offenen Standards wie dem IEEE Mass Storage Reference Model. Der TSM-Serveranteil übernimmt im Projekt die Funktion eines Archivspeichersystems, und zwar speziell für die Langzeitarchivierung.
Dieses System bietet Funktionalitäten, die für Langzeitarchivsysteme als Voraussetzung gelten. Dies sind unter anderem:
- Die Verwaltung aller gespeicherten Daten geschieht automatisch und zentral.
- Daten und Metadaten werden in einem Datenbankmanagementsystem erfasst.
- Es ist einfach zu administrieren und besitzt keine Einschränkung bzgl. der Dateiformate.
- Es skaliert gut.
- Der Zugriff auf die Daten kann kontrolliert und eingeschränkt werden.
- Die Datenträger werden auf Fehler überwacht. Tritt eine Fragmentierung auf, werden sie "recycelt". Die Datenübertragung vom Client zum Server wird validiert (CRC, cyclic redundancy check).
- Es sind Migrationsmechanismen sowie Sicherungskonzepte für das Datenbankmanagementsystem (RAID 5 + Spiegelung auf Festplatten + Backup auf Magnetbänder) vorhanden.
- Die Sicherung (Backup) von Daten läuft automatisch ab. Die Datenhaltung ist redundant (z.B. durch zusätzliches Backup von Archivdaten) und konsistent.
- Beim Übertragen und/oder Speichern werden die Daten komprimiert. Außerdem gibt es eine Transaktionsverwaltung sowie Recovery-Möglichkeiten.
Bei der Realisierung des Bereitstellungssystems BABS wurde zur Anbindung des Archivspeichersystems (das mit Magnetbandrobotern arbeitet) an die LZA-Verwaltungskomponente eine hierarchische Dateisystemschnittstelle von TSM verwendet. Bei der Anbindung über ein hierarchisches Dateisystem werden ausgereifte Dateisystem-Mechanismen wie Rechteverwaltung oder Caching für eine transparente Anbindung an Hierarchien von Speichermedien genutzt. Die gesamte Komplexität der Speicherhierarchie bleibt vor der Applikation verborgen. Ein so genanntes Hierarchisches SpeicherManagement-System (HSM) erweitert den Festplattenspeicher um die Kapazität einer Vielzahl tertiärer Speichermedien (d.h. Magnetbandkassetten) und kann als normales Dateisystem mit nahezu unbegrenzter Speicherkapazität angesehen werden. Tatsächlich ist das virtuelle Dateisystem eines HSM-Systems unterteilt in einen begrenzten Festplattencache, auf dem Anwender bzw. die Anwendungen arbeiten (Schreiben und Lesen von Daten) und ein angegliedertes Tertiärspeichersystem mit einer robotergesteuerten Medienbibliothek. Außerdem kann durch die Verwendung der hierarchischen Dateisystemschnittstelle auf proprietäre TSM-Schnittstellen verzichtet werden.
Folgende Abbildung zeigt die Systemarchitektur des in diesem Projekt entwickelten Bereitstellungs- und Archivierungssystems BABS. Die Anbindung des LZA-Managementsystems der BSB an das HSM-System des LRZ erfolgt über das Münchener Wissenschaftsnetz (MWN) mittels Network File Service (NFS) oder secure copy (scopy). Im unteren Bereich der Abbildung lässt sich die Speicherhierarchie erkennen, bestehend aus einem Festplattensystem des HSM-Clients, einem Festplattensystem (RAID) des HSM-Servers und dem robotergesteuerten Tertiärspeichersystem. Die Trennung des HSM-Systems in Client und Server folgt der vom Tivoli Storage Manager realisierten Architektur. Ein HSM-Server kann somit mehrere HSM-Clients bedienen. Ein HSM-System erweitert die bereits bestehende Speicherhierarchie der Primär- und Sekundärspeicher (d.h. lokale Systeme und externe Plattenspeicher) um die Komponente der Tertiärspeicher:
Da das Festplattensystem des HSM-Clients über das Münchner Wissenschaftsnetz mittels NFS an das LZA-Managementsystem der BSB angebunden ist, kann dieser Speicherplatz als lokale Festplatte behandelt werden. Beim Einfügen von Daten werden die Dateien auf der "lokalen" NFS-Festplatte des HSM-Clients abgelegt. Der HSM-Client verschiebt die Dateien den vorher eingestellten Parametern entsprechend zum HSM-Server. Dieser wiederum migriert die Dateien auf Magnetbänder. Zur Steigerung der Zugriffsperformance werden die Festplattensysteme des HSM-Clients und des HSM-Servers als Cache genutzt. Dies bedeutet, dass Dateien, die auf Magnetband migriert wurden, erst von den Plattenspeichern verdrängt werden, wenn neuer Speicherplatz benötigt wird. Diese Dateien werden auch als vormigrierte Dateien bezeichnet. Erst bei einem direkten Zugriff (z.B. Lesezugriff) auf eine Datei wird diese, falls sie sich nicht im Cache befindet, vom Magnetband geladen. Nur ein längerer Ladevorgang lässt also auf einen Tertiärspeicherzugriff schließen. Die gesamte Komplexität des Auslagerungs- bzw. Ladevorgangs der Dateien bleibt dem LZA-Managementsystem verborgen.