Archivierung – PDF/A

PDF/A – der kommende Archivierungsstandard?

Sei es im öffentlichen Bereich oder der freien Wirtschaft. Immer häufiger werden Papierdokumente zur Bearbeitung und Archivierung in elektronische Dokumente umgewandelt. 

Egal ob es sich um die letzte Rechnung, Dokumente des Steuerrechts oder interne Dokumente handelt – elektronische Dokumente benötigen weniger Platz, lassen sich schnell verteilen und bieten enorme Vorteile beim Durchsuchen. Aber wie müssen diese elektronischen Dokumente archiviert werden? Welches System bietet einen stabilen, international akzeptierten Standard für die Langzeit-Archivierung? Welches Archivierungssystem profitiert auch über längere Zeit vom schnellen technologischen Fortschritt im Hardwarebereich. 

Weg vom Papierdokument – hin zum elektronischen Dokument

Da die klassischen Archivierungsformate wie Papier, Mikrofilm oder Mikrofiche zu viele Nachteile aufweisen, werden diese schon seit längerer Zeit in elektronische Dokumente umgewandelt. Bisher sind viele Organisationen dazu übergegangen, sich elektronische Archive mit Hilfe von TIFF-Dateien aufzubauen. Zwar garantiert TIFF die Reproduzierbarkeit der Dokumente auf lange Sicht und kann schnell und einfach weltweit übermittelt werden, jedoch gestaltet sich das Durchsuchen der so archivierten Dokumente als schwierig.

Welches Archivierungsformat ist das Optimale?

Auf der Suche nach einem optimalen Langzeitarchivierungsformat stieß man so auf PDF, dessen Vorteile gegenüber TIFF klar auf der Hand liegen:

Volltext-Suche

PDF/A speichert Objekte wie Textzeichen und Graphiken. Damit kann der volle Text im ganzen Archiv effizient durchsucht werden. Ein TIFF-Dokument ist ein Rasterbild und muss daher zuerst mittels OCR (Optical Character Recognition) gescannt werden.

Dateigröße

PDF/A-Dateien benötigen nur einen Bruchteil des Speicherplatzes der Originaldatei- oder einer vergleichbaren TIFF-Datei, ohne an Qualität zu verlieren. Der geringere Speicherplatzbedarf wirkt sich vor allem auch bei der elektronischen Übermittlung (FTP, Anlage zum E-Mail usw.) der Dokumente aus.

Optimierung

PDF/A-Format ist optimierbar. Je nach Verwendungszweck kann die Priorität auf Bildqualität (z.B. Schecks) oder Extraktion von strukturierten Daten (z.B. Buchungsbelege) liegen. TIFF macht hier keine Unterschiede.

Metadaten

Metadaten wie Titel, Autor, Erstellungsdatum, Änderungsdatum, Thema, Schlüsselwörter usw. können als Bestandteil einer PDF/A-Datei gespeichert
werden. Anhand der XMP Metadaten können PDF-Dateien automatisch ohne manuelle Intervention klassifiziert werden.

Kompatibilität

Die Seiteninhalte in einem PDF-Dokument sind in der Regel geräteunabhängig, d.h. von der Rasterauflösung, dem Farbsystem, usw. unabhängig. Die Seiten werden erst bei der Reproduktion auf ein Raster abgebildet. Damit profitieren PDF-Dokumente auch noch nach Jahren vom technologischen Fortschritt der Ausgabegeräte.

Alle diese Vorteile bestärkten Organisationen, Hersteller und Anwender darin, im Mai 2002 eine Initiative für die Schaffung eines Standardformates für elektronisch archivierte Dokumente zu starten. Nachdem ein erster Entwurf des Projektes bei der ISO für die Registrierung eingereicht wurde, wurde im September 2005 PDF/A als internationaler Standard für die Regelung der Langzeitarchivierung elektronischer Dokumente genehmigt. 

PDF/A und sein Zusammenhang mit PDF

Um sicher zu stellen, dass PDF/A- Dokumente in den nächsten Jahren einwandfrei reproduzierbar sind, müssen PDF/A –Dateien selbstbeschreibend sein, d.h. alle benötigten Informationen sind im
PDF/A-Dokument selbst enthalten. Ein PDF/ADokument darf weder auf direkte noch indirekte Quellen verweisen.

Zur Gewährleistung des Hauptanspruches der Langzeitarchivierung und um eine breite Akzeptanz zu erlangen musste der Standard PDF/A auf einer bereits existierenden PDF-Version aufbauen. Hierfür wurde die Adobe PDF Referenz 1.4 gewählt. Der PDF/A-Standard präzisiert im Wesentlichen spezifische Eigenschaften der PDF Referenz 1.4 und legt fest, ob sie obligatorisch, empfohlen, eingeschränkt oder verboten sind, d.h. er beschreibt eine Untermenge der Referenz. 

PDF/A ist als Normreihe angelegt. Veröffentlicht als ISO 19005-1:2005 legt PDF/A-1 Anforderungen an ein norm-konformes PDF fest und regelt die Verwendung von PDF/A unter anderem hinsichtlich der Bildschirm- und Druckausgabe. PDF/A-1 ist wiederum unterteilt in zwei Konformitätsebenen:
PDF/A-1a: bedeutet die vollständige Übereinstimmung mit der PDF/A Norm; sowohl eindeutige visuelle Reproduzierbarkeit wie auch Abbildbarkeit von Text nach Unicode und inhaltliche Strukturierung des Dokumentes
PDF/A-1b: bedeutet die eindeutige visuelle Reproduzierbarkeit, gewährleistet aber nicht die Textextrahierung

Mit ISO 19005-2, Part-2 (PDF/A-2) sollen die neueren Entwicklungen im Rahmen von PDF (1.5, 1.6, 1.7) aufgenommen werden. Dabei soll PDF/A-2 aufwärtskompatibel zu PDF/A-1 sein. Hingegen entsprechen PDF/A-2 Dokumente nicht zwingend dem PDF/A-1 Standard.