Effektives Digitalisieren für Bibliotheken

Ein Workshop für Regional- und Sondersammelgebietsbibliotheken

von Marianne Dörr

Rund 50 Teilnehmer aus der Bibliothekswelt fanden sich am 21. Januar 2008 zum Workshop Effektives Digitalisieren im Vortragsraum des Historischen Gebäudes der Staats- und Universitätsbibliothek Göttingen ein. Vier Anbieter, zwei Firmen und zwei Bibliotheken, stellten ihre Lösungen für das Management großer Digitalisierungsprojekte vor. Die Idee zu dem Workshop war einer Sitzung der Arbeitsgemeinschaft der Regionalbibliotheken entsprungen. Eingeladen waren jedoch auch die Sondersammelgebietsbibliotheken, die von der Deutschen Forschungsgemeinschaft aufgerufen sind, mit geeigneten Projekten in die Massendigitalisierung einzusteigen. Die Organisation hatte, in Abstimmung mit der AG, dankenswerterweise der stellvertretende Direktor der SUB Göttingen, Dr. Rupert Schaab, übernommen.

Ziel der teilnehmenden Bibliotheken war es, für geplante einzelne oder auch kooperative Projekte einen kompakten (wenn auch sicher nicht vollständigen) Überblick über derzeit auf dem Markt verfügbare Systeme und Entwicklungen zu erhalten. Die Referenten waren vorab mit einem Fragenkatalog versehen worden, der auf den Funktionsumfang der Systeme und Angebote, die technischen Grundlagen und die jeweiligen Geschäftsmodelle abzielte.

Der erste Teil des Workshops gehörte den kommerziellen Anbietern, der Fa. CCS aus Hamburg und der Firmenpartnerschaft Walter Nagel Bielefeld mit semantics Aachen.

Kommerzielle Anbieter informieren

Claus Gravenhorst von CCS (content conversion specialists) stellte die vor rund 30 Jahren gegründete Firma vor, die mit drei Produktlinien (newsWORKS - Pressebeobachtung / elektronische Presseschauen; mediaWORKS - Rundfunk, TV-Monitoring und Archivierung und docWORKS - Digitalisierung) auf dem Markt vertreten ist. Vor allem in den letzten Jahren hat CCS einen Schwerpunkt im Bereich der Digitalisierung gesetzt, eine Ausrichtung, die durch die Teilnahme an verschiedenen internationalen Forschungsprojekten, u. a. am National Digital Newspaper Project 2004 der Library of Congress, noch intensiviert wurde. Nach dem Erfolg im Ausschreibungs- und Auswahlverfahren ist CCS seit 2007 außerdem Dienstleister der British Library in dem Massendigitalisierungsprojekt, das mit Unterstützung von Microsoft der Google-Digitalisierung auf Augenhöhe begegnen will.

Das Leistungsspektrum von CCS umfasst Beratung/Consulting, Organisation und die Übernahme von Arbeiten, sowohl für intern als auch extern durchgeführte Projekte, (Qualitätssicherung, Einsatz von Validierungsinstrumenten, An- / Abtransport von Materialien, Hinzufügung von Metadaten, etc.), die Planung und Gestaltung von Produktionsumgebungen inklusive der entsprechenden Netzwerk-Strukturen, etc.

CCS untergliedert den Digitalisierungsworkflow in die Schritte "collect - capture - convert - preserve - present", dabei gilt die Konvertierung als Kernprozess des Firmenportfolios. Ziel des Produkts docWORKS, das zur Unterstützung des Digitalisierungsworkflows eingesetzt wird, ist eine weitgehend automatische Konvertierung von historischen Dokumenten in strukturierte digitale Dokumente. DocWorks beruht auf Microsoft-Technologie, bietet aber offene Schnittstellen und standardisierte Ausgabeformate. Während der capture-Prozess das eigentliche Scannen beinhaltet, sind alle Schritte, die zur Strukturierung und Erschließung der digitalen Objekte dienen, Teil der Konvertierung. Besonderer Wert wird auf Verfahren der automatischen Strukturierung gelegt. Dabei ist eine Seitenstrukturerkennungskomponente interessant, die aus der intensiven Arbeit mit Zeitungen hervorgegangen ist. So wie eine Zeitungsseite analysiert und in logische Bereiche (Texte, Bilder, Artikel, Überschriften) segmentiert wurde, wird in den Digitalisierungsprojekten versucht, die Buchstruktur-Erkennung (Titelseiten, Inhaltsverzeichnisse, Hauptteil etc.) weitgehend zu automatisieren. Die Binnenstrukturierung der Dokumente dient der Verbesserung der Suche und damit der Recherche-Ergebnisse. Diese Verfahren können sowohl auf retrodigitalisierte als auch auf "born digital" Materialien angewendet werden.

Neben dem Metadatenformat METS unterstützt docWorks ALTO (Analyzed Layout and Text Object) für die Strukturdaten. Im BL-Projekt werden diese Formate auch für die Langzeitarchivierung der Daten genutzt (neben JPEG2000 für die Bilddaten).

docWORKS bietet keine Präsentationskomponente, deshalb kooperiert CCS hier mit einschlägigen Herstellern wie ContentDM oder Exlibris/Digitool.

Am Ende der ausführlichen Darstellung standen noch einige konkrete Informationen aus dem laufenden Digitalisierungsprojekt der British Library. CCS hat in der BL ein Digitalisierungszentrum (Scanstudio mit ca. 100m2) aufgebaut und ist für den Betrieb verantwortlich. Gegenstand der Massendigitalisierung ist copyright-freie englische (aber auch anderssprachige) Literatur des 19. Jahrhunderts. Im Scanprozess werden Kirtas-Scanroboter eingesetzt, die ca. 1100 Seiten pro Stunde bewältigen. Gearbeitet wird in zwei Schichten, so dass 16 Arbeitsstunden erreicht werden. Das Produktionsziel pro Monat liegt bei mehreren Millionen Seiten. Die Laufzeit der Bücher im Digitalisierungsworkflow zwischen Ausheben und Rücktransport wird mit zwei bis vier Wochen veranschlagt. Auch die Qualitätssicherung muss bei diesen Mengen weitgehend automatisiert erfolgen. Eine aktuelle Darstellung des Projekts ist nachlesbar in B.I.T.online, 10, 2007, H. 4 (S. 328 - 331).

Das im Anschluss vorgestellte Produkt Visual Library der Fa. Semantics, Aachen, wird in Geschäftspartnerschaft vertrieben. So gliederte sich auch die Präsentation in zwei Blöcke. Zuerst stellte Herr Jens Peters von Walter Nagel, Bielefeld das Bielefelder scantoweb-Portfolio vor, das Beratung (auch für die Beantragung von Drittmitteln), die Digitalisierung (bei externer Vergabe, auch Hilfestellung für die Erstellung von Ausschreibungsunterlagen), die Auswahl einer geeigneten Hardware-Umgebung für den Aufbau von Digitalisierungswerkstätten, Workflow-Implementierung und ein Supportkonzept umfasst.

Kay Heiligenhaus informierte dann aus technischer Sicht über die von Semantics entwickelte und auch von scantoweb vertriebene Visual Library-Software. Sie unterstützt den gesamten Digitalisierungsworkflow und besitzt im Gegensatz zu docWorks auch eine eigene Präsentations- oder Publikationskomponente. Dazu werden die Komponenten Visual Library Manager für Erschließung und Verwaltung und der Visual Library Server für die Präsentation im Internet eingesetzt. Visual Library Manager impliziert die Funktionalitäten für die Strukturierung und flexibel tief staffelbare Erschließung der Digitalisate.

Die Vernetzung mit anderen Zugangsinstrumentarien bildet ein wichtiges Feature von Visual Library, so ist der Zugang zu den Digitalisaten in der VL durch einen URN-Link im Katalog ebenso möglich wie über das Portal Zentrales Verzeichnis Digitalisierter Drucke. Auch der DFG-Viewer wird unterstützt. Mit der Implementierung der Ergebnisse des EPICUR-Projekts, ist eine persistente Adressierung auf Einzelseitenebene möglich.

Für die Integration in Portale wird die OAI-Schnittstelle genutzt. Ein Blick auf die interne (Administrations-) Sicht zeigte, wie der Workflow softwareseitig dokumentiert wird (mit Statistik-Auswertungstools), was sich gerade für die Kommunikation mit Dienstleistern eignet.

Visual Library unterstützt die Metadatenformate METS und ALTO (vgl. oben), aber auch TEI, was besonders bei Volltext-Projekten eingesetzt wird.

Für die Erzeugung von Volltexten wird, wie bei CCS, ABBYY Finereader eingesetzt - ein Treffer-Highlighting auf dem digitalen Image ist möglich. Seitenstruktur- bzw. automatische Buchstruktur-Erkennung stand bisher noch nicht so sehr im Fokus der Entwicklung. An einem Band preußischer Parlamentsprotokolle führte Herr Heiligenhaus Möglichkeiten der Software und einzelne Arbeitsschritte vor.

Visual Library wird u. a. in Projekten der Universitätsbibliothek Frankfurt, der Universitäts- und Landesbibliothek Halle (Sammlung Ponickau) und seit kurzem auch für die Digitale Bibliothek des Landesbibliothekszentrums Rheinland-Pfalz eingesetzt. Ein Bericht über das Hallenser Projekt von Dorothea Sommer ist in ABI-Technik 27, 2007, H. 4 (S. 236 - 247) erschienen.

Nach einer kurzen Mittagspause standen am Nachmittag zwei weitere Präsentationen auf dem Programm. Die von der Deutschen Forschungsgemeinschaft initiierten und über mehrere Jahre geförderten Digitalisierungszentren in München und Göttingen, die nunmehr bereits auf eine zehnjährige Erfahrung mit Digitalisierungsprojekten zurückblicken können, stellten ihre aktuellen Lösungen für die Massendigitalisierung vor.

Münchner ZEND

Den Anfang machten Dr. Markus Brantl und Dr. Margarete Wittke von der Bayerischen Staatsbibliothek. Das Münchner Digitalisierungszentrum umfasst aktuell 5,5 Dauer- und 29 Drittmittelstellen aus Projektmitteln der Deutschen Forschungsgemeinschaft, der EU und des Freistaats Bayern.

Den zunehmenden Umfang der Projekte machte Markus Brantl am Beispiel der Digitalisierung von Drucken des 16. Jahrhunderts deutlich: Das sogenannte Projekt VD16-1 umfasste 4.000 Titel; im nun begonnenen Projekt VD16-2 stehen 37.000 Titel zur Digitalisierung an. Während der Output im ersten Projekt mit manueller Digitalisierung etwa 700 Seiten am Tag betrug, werden für das Nachfolgeprojekt Scan-Roboter eingesetzt, die 700 Seiten pro Stunde liefern. Geplant ist die Abarbeitung von rund 2000 Titeln pro Monat, die bei einer Dateigröße von bis zu 30 MB pro Image einen Datenumfang der digitalen Master von ca. 13 Terabyte erzeugen. Im Google-Projekt der BSB sollen es 4.000 bis 6.000 Titel pro Woche sein!

Die Massendigitalisierung stellt nicht nur neue Herausforderungen an die Speicherung (hier kooperiert die BSB mit dem Leibniz-Rechenzentrum der Bayerischen Akademie der Wissenschaften, das auch als Rechenzentrum der beiden großen Münchner Universitäten fungiert), sondern erfordert auch sonst neue Ansätze der Logistik.

Auf der Software-Seite wird in der BSB seit 2003 eine Eigenentwicklung auf Basis von OpenSource-Produkten eingesetzt, die Zentrale Erfassungs- und Nachweis-Datenbank ZEND. Unterstützt werden der Workflow, das Dokumentenmanagement und das Web-Content-Management. Margarete Wittke, die Entwicklerin von ZEND, ging genauer auf die technischen Grundlagen ein: Auf Linux-Basis wird Apache als Web-Server, MySQL mit PHP oder Perl für die Datenbankseite und das Cocoon-XML Publishing Framework von Apache eingesetzt. Die ZEND-Module sind - ähnlich wie bei den oben vorgestellten Lösungen - am Ablauf und Ziel der Digitalisierungsprojekte orientiert: Erfassen-Verwalten-Erschließen (inkl. XML-Editor und einer Rechnungs-Datenbank für die Digitalisierung on demand), Bereitstellung (inkl. Viewer, Suche, Browsing und OAI-Schnittstelle), Services, Workflow-Module (wie Collector zur Abholung von Daten von Dienstleistern, Bildkonversion, Kataloganreicherung, XML-Export und Monitoring) und schließlich Datenverwaltung. Am Beispiel eines Digitisation-on-Demand-Auftrags wurde das Funktionieren der einzelnen Module erläutert. Einige Prozesse, wie die Abholung, die Bildkonvertierung, die Bereitstellung einer Blätterversion, die Aktualisierung von Sammlungsseiten (d. h., das Einfügen der neu-digitalisierten Titel), der Archivierungs-Export ans Leibniz-Rechenzentrum und das Löschen der Daten auf dem Produktionsserver laufen vollautomatisch ab, weitere Prozesse halbautomatisch.

Während ZEND in dieser Form vorwiegend für die Bedürfnisse des Digitalisierungszentrums eingesetzt wurde (neben einigen Installationen an anderen bayerischen Bibliotheken wie der Staatsbibliothek Bamberg), ist nun in einer Firmenpartnerschaft mit Imageware die Ausweitung zum fertigen Produkt geplant. Bei ZENDPRO soll der MyBib-Logistik-Server von Imageware mit ZEND integriert werden. Dabei soll der Logistik-Server die Arbeitsvorbereitung und Produktionsüberwachung sowie die Chargenverwaltung und Kommissionierung unterstützen. Geplant ist eine Dienstleistung, die auch Hosting und Langzeitarchivierung (beim Leibniz-Rechenzentrum) gegen Vollkosten-Erstattung beinhaltet. Als Start des neuen Produkts ist Mitte 2008 avisiert, bei der Inetbib-Tagung in Würzburg im April 2008 wird über den Stand der Entwicklung berichtet werden.

Göttinger Goobi

Zum Abschluss stellte Ralf Stockmann vom Göttinger Digitalisierungszentrum die neu entwickelte Software-Lösung Goobi vor. Goobi besteht aus zwei - unabhängig von einander einsetzbaren "Schichten", der Produktion und der Präsentation. Diese bestehen jeweils wieder aus unterschiedlichen Modulen.

Für die Präsentation sind es "user, access, visual, search, interface, counter"; für die Produktion "Meta, Archive, Preservation, OCR, Flow und Producer".

Die Module sind in ihrem Entwicklungsstand unterschiedlich weit ausgeprägt. Im Hintergrund der Entwicklung stand, wie Stockmann es ausdrückt, das "Abarbeiten der Praxisregeln der DFG". Nicht unterstützt wird die Dokumentenlieferung. Die technische Basis bilden OpenSource-Software-Lösungen und Java-Servlets. Alle Module sind webbasiert, was eine Kooperation unterschiedlicher Partner erleichtern soll.

Ein differenziertes Rechtemanagement, das Nutzer, Rollen und Projekte unterscheidet, wurde implementiert. Die Nutzerverwaltung setzt auf OpenLDAP auf.

Im Workflow-Modul können die jeweiligen Arbeitsschritte eines Projekts flexibel und skalierbar modelliert werden. Ein Statistiktool für die Workflow-Überwachung steht zur Verfügung.

Für die Strukturdatenerfassung gibt es einen Metadateneditor mit Imageviewer. Hier wird auch jeweils manuell die Paginierung der Drucke festgelegt, dabei müssen aber nur Bruchstellen, z.B. der Übergang von römischer zu arabischer Paginierung, wirklich per Hand eingegeben werden. Eine Unterstützung durch einen OCR-basierten Vorschlag ist vorgesehen. Auch die Metadatenbearbeitung ist weitgehend manuell zu leisten. Der Export der Metadaten erfolgt im METS-Format.

Für Volltexte hat man bewusst auf die TEI-Standards gesetzt, da dies aus Sicht des GDZ stärker den wissenschaftlichen Bedürfnissen der Textstrukturierung entspricht, der Volltext bildet hier eine Datei, während bei ALTO die Seitenorientierung dominiert. Für die Präsentation wird das Content-Management-System Typo3 mit der Suchmaschine Lucene eingesetzt. Dabei laufen mehrere Projekte auf einer CMS-Instanz. Design und Funktion sind online anpassbar.

Angeboten wird ein PDF-Download und ein Nutzungsstatistik-Tool. Geplant sind das Angebot von RSS-Feeds, die Integration von Google-Maps und die Unterstützung des DFG-Viewers.

Die Entwicklung und Weiterentwicklung von Goobi erfolgt in Kooperation mit der SLUB Dresden. Die Goobi-Installation ist auf Basis einer GPL-Lizenz frei. Eine kostenlos nutzbare Entwicklerplattform wird angeboten. Voraussetzung für die Nutzung ist ein Vertrag, der die Verfahrensregeln innerhalb der Nutzer- und Entwicklungsgemeinschaft regelt. Auf dem Bibliothekartag in Mannheim wird zu einem Goobi-Pannel eingeladen werden. Schon jetzt steht im Web das wiki.goobi.org als Plattform für Informationen und Downloads zur Verfügung.

Neben der Möglichkeit zur Partizipation an der Entwicklungsgemeinschaft soll auch ein Dienstleistungsangebot für kleinere Einrichtungen entstehen, das eine Supportstruktur durch eine externe Firma (data-quest) umfasst.

Bilder des Scanstudios des GDZ
Foto: Ralf Stockmann

Vor und nach dem Workshop wurden Führungen durch das Göttinger Digitalisierungszentrum angeboten, die von den Workshop-Teilnehmern sehr gut angenommen wurden. Dabei konnte man auch einem Treventus-Scanroboter bei der Arbeit zusehen, der - wie die entsprechenden Geräte im Münchener Digitalisierungszentrum - auch in Göttingen für den notwendigen Durchsatz in Massendigitalisierungsprojekten (als Richtzahl für eine Massendigitalisierung wurde von den Referenten ein Volumen von mehr als 1 Million zu digitalisierender Seiten angesehen) sorgen soll.

Bilanz

Bilanz dieses dicht-gedrängten Workshops: Rund zehn Jahre nach Beginn der Retrodigitalisierungsinitiativen und der Gründung der DFG-geförderten Digitalisierungszentren steht nun eine Auswahl an Dienstleistern und Software-Lösungen zur Verfügung, die auf die Anforderungen von Digitalisierungsprojekten zugeschnitten sind und somit auch die effiziente Abarbeitung und Verwaltung von Projekten der Massendigitalisierung erlauben.

Was die Hardware für solche Großprojekte angeht, so sei auf eine Ankündigung des Münchner Digitalisierungszentrums verwiesen: Vom 18. - 20.6. 2008 werden in der Bayerischen Staatsbibliothek Scan-Roboter-Tage stattfinden, an denen alle großen Roboter-Hersteller ihre Produkte vorführen werden.


Zu der Autorin

Dr. Marianne Dörr

Leitende Bibliotheksdirektorin
Hessische Landesbibliothek Wiesbaden
Rheinstraße 55/57
65185 Wiesbaden
doerr@hlb-wiesbaden.de