Ratgeber Langzeitarchivierung

Auf immer und ewig archiviert

09.04.2014
Von 
Bernd Reder ist freier Journalist und Autor mit den Schwerpunkten Technologien, Netzwerke und IT in München.

Langzeitarchivierung: Organisation der Daten und Dateiformate berücksichtigen

Eine Voraussetzung für eine effiziente Langzeitarchivierung ist ein funktionierendes Datenmanagement. Dies ist in vielen Unternehmen nur in unzureichendem Maße vorhanden, weil einzelne Abteilungen unterschiedliche Datentypen verwenden: Forschungsergebnisse oder Marktinformationen liegen als Rohdaten vor, die in "Working Data" (Arbeitsdaten) umgesetzt werden, etwa Berichte. Diese Datentypen werden wiederum in unterschiedlichen Systemen gespeichert: Rohdaten beispielsweise in einer Projektdatenbank in der Forschungs- und Entwicklungsabteilung, Dokumente in einem EDRMS (Electronic Document and Records Management System). Für die Archivierung müssen alle diese Daten zusammengeführt, konsolidiert, in Standardformate wie PDF/A, TIFF oder XML überführt und archiviert werden.

Eine der größten Herausforderung besteht im Umgang mit unterschiedlichen Dateiformaten. Es ist wenig hilfreich, wenn ein Dokument beispielsweise in einem proprietären Format vorliegt, das Jahrzehnte später nicht mehr lesbar ist. Gleiches gilt für komprimierte Files (ZIP, RAR), Datenbankformate und spezielle E-Mail-Dateiformate wie PST von Outlook. Das BSI empfiehlt daher als Standardformate für die Langzeitarchivierung von Dokumenten und Bildern die Formate PDF/A, SGML, XML, JPEG und TIFF, gegebenenfalls ASCII.

Generell muss ein digitales Archivierungssystem folgende Anforderungen erfüllen:

  • für Multimedia-Inhalte ausgelegt sein,

  • medienunabhängig,

  • revisionssicher,

  • beweissicher und

  • ordnungsgemäß sein, das heißt den rechtlichen Vorgaben entsprechen,

  • hochverfügbar sein (Stichwort Ausfallsicherheit und Speicherung der Daten an mehreren Orten oder auf unterschiedlichen Medien), sowie

  • mit Standardformaten wie XML, PDF/A, TIFF et cetera arbeiten.

Dateiformate für die Langzeitarchivierung

Laut dem IT-Grundschutzkatalog (M 4.170) des Bundesamts für Sicherheit in der Informationstechnik (BSI) müssen Dateiformate, die bei der elektronischen Langzeitarchivierung eingesetzt werden, folgende Kriterien erfüllen:

  • das Datenformat sollte möglichst langfristige Relevanz haben,

  • die Dokumentstruktur sollte eindeutig interpretiert werden können,

  • der Dokumentinhalt sollte elektronisch weiterverarbeitet werden können,

  • gesetzliche Vorschriften müssen berücksichtigt werden,

  • die Grammatik und Semantik des Datenformates sollten ausführlich dokumentiert sein, sodass eine spätere Migration zu anderen Formaten problemlos möglich ist,

  • Merkmale des Originaldokuments (elektronisch oder in Papierform) sollen später eindeutig nachweisbar sein, auch wenn das Originaldokument nicht mehr vorhanden ist.

Diese Voraussetzungen erfüllen jedoch nur wenige Dateitypen und Dokumentenbeschreibungssprachen:

SGML (Standard Generalized Markup Language) ist eine Dokumentenbeschreibungssprache, welche die logische Struktur und den Inhalt von elektronischen Dokumenten beschreibt. Sie kann als Format für die Langzeitarchivierung von elektronischen Dokumenten verwendet werden. Allerdings muss auch die Semantikspezifikation (DTD, Document Type Definitions) mit archiviert werden. Das BSI empfiehlt zudem, zusätzlich eine grafische Repräsentation des Ursprungsdokuments zu archivieren, etwa als TIFF-Bilddatei, weil SGML keinerlei Layout-Informationen enthält.

HTML (Hyper Text Markup Language) ist eine Strukturbeschreibungssprache für elektronische Dokumente, wird jedoch nicht als Format für die Langzeitarchivierung empfohlen. Der Grund: Es ist schwierig, das Gesamtdokument inklusive der verlinkten Bilder, Subdokumente und Querverweise zu archivieren.

XML kann als Format für die Langzeitarchivierung genutzt werden. Bei der Archivierung sind jedoch auch die Semantikspezifikationen (Document Type Definitions) und gegebenenfalls auch die Layout-Daten zu speichern.

PDF (Portable Document Format) speichert neben den Strukturinformation von elektronischen Dokumenten auch Layout-Informationen. Speziell für Langzeitarchivierung wurde die Version PDF/A (A wie Archivierung) entwickelt. Damit lassen sich Dokumente vollständig, eindeutig, zugänglich und erschließbar beschreiben.

TIFF (Tagged Image File Format) wird zur Speicherung gerasterter Bilder verwendet. Eine TIFF-Datei besteht aus einem Datei-Header und der Bildinformation. Der Header enthält Daten zum Bild, beispielsweise über die Auflösung oder das eingesetzte Kompressionsverfahren. TIFF ist in komprimierter Form als Format für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten tauglich.

GIF (Graphics Interchange Format) wird nur für kurz- und mittelfristige Archivierung empfohlen, weil bei der Konvertierung in GIF Bildinformationen verloren gehen.

JPEG (Joint Photographic Experts Group) eignet sich besonders für Farb- und Grauwertbilder. Auch dieses Format kommt für die Langzeitarchivierung von Bildern und Bildrepräsentationen von Dokumenten in Betracht. Für eine revisionssichere Archivierung empfiehlt das BSI, bei der Auswahl der Kompressionsstufe eine verlustfreie Kompression zu wählen.

ASCII: Dieses Format führt das BSI nicht auf. Plain-Text-Dokumente (.txt) haben den Vorteil, dass sie bereits seit Jahrzehnten im Einsatz sind und von unterschiedlichen Systemen (Unix, Linux, Windows, MacOS et cetera) gelesen werden können. Allerdings vermisst das BSI im Vergleich zu XML oder SGML bei ASCII eine "langfristige Stabilität hinsichtlich der Syntax und Semantik der Daten".

Zentrales Archivierungssystem aufbauen

Ein Fehler, den Unternehmen und öffentliche Einrichtungen häufig begehen, ist der Einsatz mehrerer Archivierungssysteme, etwa für einzelne Unternehmensbereiche oder für unterschiedliche Dokumententypen wie E-Mails und Office-Dokumente. Dies erhöht die Komplexität der Archivierungsinfrastruktur und damit die Gefahr, dass Medienbrüche und Fehler auftreten. Zudem ist ein solches Vorgehen kostspielig.

Alle Dokumente und die entsprechenden Meta-Daten (Informationen, die Dokumente beschreiben) sollten digital erzeugt beziehungsweise übernommen werden. Dies stellt sicher, dass Dokumente dieselben Datenformate aufweisen und nach einheitlichen Kriterien indiziert werden. Nur in Ausnahmefällen sollten Unterlagen von Hand gescannt und indiziert werden. Dies wird sich jedoch nie ganz ausschließen lassen.
Die Dokumente sollten zusammen mit den Meta-Daten in einem Container abgelegt werden. Das macht es einfacher, ein digitales Archiv auf ein anderes Archivierungssystem zu übertragen, etwa wenn der Anbieter gewechselt wird.

Meta-Daten für schnellen Zugriff und Rechteverwaltung

Das Ablegen von Daten in einem Archiv ist jedoch nur die halbe Miete. Ebenso wichtig ist es, bei Bedarf schnell auf Informationen zugreifen zu können. Eine Schlüsselrolle spielen dabei die angesprochenen Meta-Daten. Nicht jedes Dateiformat kann im Header die entsprechenden Informationen ablegen. Im Abschnitt "Dateiformate für die Langzeitarchivierung" unten ist aufgeführt, welche Dateiformate für das langfristige Archivieren von Informationsbeständen in Frage kommen. Die Meta-Daten (Deskriptoren) geben nicht nur Hinweise auf den Datentyp, sondern auch den Inhalt eines Dokuments. Das ist die Voraussetzung für eine erfolgreiche Suche nach einem bestimmten Dokument.

Meta-Daten bilden zudem die Grundlage für die Indizierung des Datenbestandes. Anwender sollten bei der Wahl eines Langzeitarchivierungsprodukts diesem Punkt besondere Aufmerksamkeit schenken. Eine stringente Indizierung wiederum ist die Voraussetzung für die Vergabe von Zugriffsrechten und das automatische Verteilen von Dokumenten. Zudem verhindert eine Indizierung, dass Dokumente mehrfach abgelegt werden.

Speichersysteme und Medien: von NAS bis CAS

Eine klassische "Speicher-Pyramide" in einem Unternehmensnetz: Produktivdaten werden auf schnellen RAID-Systemen und SSD-Speichern vorgehalten. Im Lauf ihres Lebenszyklus werden Informationen sukzessive auf langsamere, dafür preisgünstigere Archivierungsmedien wie Tapes oder optische Speicher wie Utra Density Optical Discs (UDO) verlagert.
Eine klassische "Speicher-Pyramide" in einem Unternehmensnetz: Produktivdaten werden auf schnellen RAID-Systemen und SSD-Speichern vorgehalten. Im Lauf ihres Lebenszyklus werden Informationen sukzessive auf langsamere, dafür preisgünstigere Archivierungsmedien wie Tapes oder optische Speicher wie Utra Density Optical Discs (UDO) verlagert.
Foto: Point Software & Systems

Nach einer Studie der amerikanischen Marktforschungsgesellschaft Enterprise Strategy Group (ESG) dominieren derzeit im Bereich Langzeitarchivierung drei Medientypen: interne Festplatten, externe Storage-Systeme mit Harddisks, etwa NAS-Geräte (Network-Attached Storage) und Speichersysteme, die in ein Storage Area Network (SAN) eingebunden sind, sowie Bandlaufwerke. Optische Medien wie DVDs spielen dagegen nur eine untergeordnete Rolle.

Bis 2015 wird laut ESG das Archivieren von Daten in Cloud-basierten Storage-Umgebungen an Bedeutung gewinnen. In ihnen werden 2015 etwa 12 Prozent der Daten archiviert. Anbieter von Cloud-Archivierungslösungen in Deutschland sind Artec, EMC, Fujitsu, Informatica, myOXSEED und Symantec – um nur einige zu nennen.

Die beweiswerterhaltende Archivierung gewinnt an Bedeutung. Sie erfordert jedoch eine qualifizierte digitale Signatur und weitere Maßnahmen, welche die Integrität und Authentizität eines Dokuments sicherstellen. Dies wird mithilfe einer Middleware erreicht, die auf der Technischen Richtlinie 03125 "TR-ESOR" des BSI basiert.
Die beweiswerterhaltende Archivierung gewinnt an Bedeutung. Sie erfordert jedoch eine qualifizierte digitale Signatur und weitere Maßnahmen, welche die Integrität und Authentizität eines Dokuments sicherstellen. Dies wird mithilfe einer Middleware erreicht, die auf der Technischen Richtlinie 03125 "TR-ESOR" des BSI basiert.
Foto: BSI

Viele Unternehmen integrieren Langzeitarchivierung in ihr Storage-Konzept. Dabei werden Daten abhängig davon, wie oft auf sie zugegriffen wird, auf einzelne Speicher-Ebenen und die entsprechenden Systeme verlagert. Für das Archivieren sind langsamere, dafür preisgünstigere Speichermedien vorgesehen. Eine solche Infrastruktur könnte folgendermaßen aussehen:

  • Ein "Performance Tier" mit den Produktivdaten, auf die häufig zugegriffen wird: Dort sind Direct-attached-Storage-Systeme oder NAS-Systeme mit Festplatten oder SSDs vorhanden, etwa HP EVA, Netapp FAS oder EMC Celerra und VNX. In kleineren Firmen kommen auch RAID-NAS-Systeme mit CIFS- oder NFS-Shares zum Zuge.

  • Der "Capacity Tier" mit Daten, die nur selten benötigt werden: Dort sind NAS-Systeme mit CIFS/NFS-Shares angesiedelt, zudem CAS-Systeme (Content-Addressed Storage). CAS erlaubt den direkten Zugriff auf einzelne Datenobjekte. Gleichzeitig ist sichergestellt, dass die gespeicherten Daten nicht verändert werden. CAS eignet sich somit auch für die Archivierung von Daten. Diese Technik unterstützen beispielsweise die Geräte der Reihen Atmos und Centera von EMC, das Dell DX oder das CASstor von Caringo.

  • Der "Archive Tier" für die Langzeitarchivierung: Hier können ebenfalls CAS-Systeme eingesetzt werden. Diese Technologie gilt in den Augen mancher Fachleute als Nachfolger von optischen Speichern wie WORM-Medien (Write Once Read Many Times) und Jukeboxes. Auf dieser Ebene lassen sich zudem Bandlaufwerke wie HP MSL und Quantum Scalar verwenden, ebenso die genannten optischen Speichersysteme wie Jukeboxes, Autoloader oder einzelne optische Laufwerke. Ebenfalls in Betracht kommen NAS-Systeme, die eine WORM-Funktion bereitstellen, also Daten in unveränderlicher Form auf eine Festplatte schreiben. Diese Funktion bietet unter anderem das Netapp-FAS-System in Verbindung mit der Snaplock-Software des Herstellers, außerdem NAS-Jukeboxen zusammen mit dem Jukebox Manager der deutschen Firma Point Software & Systems.

    Lebensdauer von Archivierungsmedien

    Die Lebensdauer diverser Speichermedien: Die Werte basieren auf Schätzungen, weil in vielen Fällen gesicherte Erfahrungswerte aus der Praxis noch fehlen, etwa bei optischen Datenträgern.
    Die Lebensdauer diverser Speichermedien: Die Werte basieren auf Schätzungen, weil in vielen Fällen gesicherte Erfahrungswerte aus der Praxis noch fehlen, etwa bei optischen Datenträgern.
    Foto: NESTOR

    Was die Langzeitarchivierung betrifft, haben die Sumerer die Nase vorn. Die ältesten Palastarchive dieses Volkes, das im heutigen Irak heimisch war, wurden auf Tontafeln angelegt und stammen aus dem Jahr 3000 vor Christus. Damit können es elektronische Archivierungsmedien nicht aufnehmen, auch wenn für etliche von ihnen noch Resultate von Langzeitmessungen ausstehen.

    Filme aus Zelluloid: Sie können 100 Jahre halten, vermutlich länger. Dieses Medium kommt nur in Ausnahmefällen in Unternehmen zum Einsatz. Typische Anwender sind Bibliotheken und Staatsarchive wie das Bundesarchiv in Koblenz.

    Optische Speichermedien wie CD-ROMs, DVDs, DVD-RAMs und Blu-ray-Discs (BD): Hier liegen bislang nur unzureichende Praxiserfahrungen vor. Etliche Werte basieren auf Tests in Klimakammern, in denen Alterungsprozesse simuliert werden. Bei wiederbeschreibbaren (gebrannten) Medien wie CD-RW und DVD-RW wird eine Haltbarkeit von deutlich weniger als 30 Jahren vermutet. Bei DVD-RAMs sind es bis zu 30 Jahre, bei BD-Discs etwa 50 Jahre.

    Gepresste optische Medien weisen eine höhere Haltbarkeit auf: CDs kommen nach Angaben von Herstellern auf bis zu 80 Jahre, DVDs auf 100 Jahre. Bei Blu-ray-Discs werden etwa 80 Jahre vermutet. Gesichert sind diese Angaben jedoch nicht. Wichtig ist die richtige Lagerung: Optische Datenträger sollten bei Temperaturen von weniger als 25 Grad Celsius und einer Luftfeuchtigkeit von unter 80 Prozent aufbewahrt werden.

    Festplatten (SATA, iSCSI) in Rechnern oder Storage-Systemen: Bei Platten, die in Produktivsystemen wie Rechnern eingesetzt werden, liegt die Lebensdauer bei etwa 5 Jahren. So lange geben die meisten Hersteller auch Garantie auf ihre Harddisks. Bei Festplatten, die nur als Backup-Medium dienen, beträgt die Haltbarkeit etwa 10 Jahre.

    Magnetbänder: Tapes sind im Großrechnerbereich bereits seit Jahrzehnten im Einsatz. Daher liegen Praxiserfahrungen vor. Die Lebensdauer von Bändern beträgt bei entsprechender Lagerung mindestens 30 Jahre. Schätzungen gehen von einer Haltbarkeit von 50 Jahren aus.

    Flash-Speicher (USB-Sticks, Solid State Drives / SSD): Je nach der Zahl der Schreib-/Lesezyklen nimmt bei Flash-Speichern die Zahl der zur Verfügung stehenden Speicherzellen mit der Zeit ab. Hersteller wie Intel, Sandisk und Samsung geben für eine SSD, die in einem Rechner als Festplatten-Ersatz verwendet wird, eine Haltbarkeitsdauer von mindestens 5 Jahren an, bei preisgünstigeren Modellen mit Multi Level Cells 3 Jahre. Als Archivierungsmedium kann ein Flash-Speicher Schätzungen zufolge etwa 10 Jahre überdauern.

    Holografische Speicher: Diese Technik hat bislang keine Akzeptanz gefunden. Produkte mit 500 GByte und 1 TByte Speicherkapazität wurden zwar von diversen Firmen wie Inphase, NTT, Tesa Scribos oder General Electric angekündigt. Jedoch konnte sich keines auf dem Markt durchsetzen. Holografische Speicher sollen mindestens 50 Jahre lang verwendbar sein.

    Bits on Film: Noch ein Blick in die Zukunft: Das Fraunhofer-Institut für Physikalische Messtechnik (IPM) arbeitet an einem Verfahren, das mithilfe eines Belichtungssystems digitale Daten auf einen Polymerfilm überträgt. Das Auslesen des Films ist mit handelsüblichen optischen Scannern möglich. Dank der hohen Lebensdauer des Datenfilms sollen die Originaldaten auch nach Jahrhunderten zuverlässig rekonstruierbar sein. Die Lebensdauer des Polymerfilms beträgt laut Fraunhofer IPM 500 Jahre.