Erste Schritte zur Industrialisierung der Digitalen Bibliothek


THESEUS-Forschungserkenntnisse fließen in ImageWare-Lösungen
IAIS Netmedia hat den automatisierten Workflow bereits entwickelt
Weiterentwicklungen für den ImageWare-Produktionsprozess
Der zertifizierte elektronische Lesesaal nach § 52 b UrhG
Sichere Bereitstellung copyrightbehafteter Vorlagen
Massendigitalisierung verändert das Berufsbild

von Vera Münch

Sämtliche bei der digitalen Erfassung von Büchern, Aufssichtsvorlagen und Mikrofilmen nach dem manuellen Einrüsten des Scanners anfallenden Schritte sollen in einem durchgängigen Arbeitsablauf von Maschinen und Software erledigt werden. Für die Bereitstellung der digitalisierten Literatur entwickeln die Forschungspartner parallel dazu einen zertifizierten elektronischen Lesesaal für copyrightbehaftete Vorlagen, der die Bestimmungen des § 52 b des Urheberrechtsgesetzes erfüllt. Die Entwicklungsarbeiten sind bereits gut fortgeschritten. Anfang Oktober soll die gesetzeskonforme "MyBib" in Pilotbetrieb gehen.

"Was mit der Massendigitalisierung an Datenmengen produziert wird, verlangt dringend nach automatischen Verfahren", benennt Rolf Rasche, Gründer und Geschäftsführer der ImageWare Components GmbH, den Hintergrund der Forschungsarbeiten, für die der mittelständische Bonner Betrieb die Abteilung NetMedia des Fraunhofer IAIS, St. Augustin, als Partner gewinnen konnte. "Für die Entwicklung eines durchgängig automatisierten Produktionsprozesses für Massendigitalisate und ein System, das bei der Weitergabe des digitalisierten geistigen Eigentums Dritter den neuen § 52 b des Urheberrechtsgesetzes erfüllt, ist Forschung notwendig, die ein Mittelständler nicht leisten kann", so Rasche. Neben den beiden großen Aufgaben, die Produktion von Digitalisaten zu automatisieren und bei der Ausgabe die Gesetze einzuhalten, forscht IAIS NetMedia für ImageWare auch an der Lösung von wissenschaftlich hoch anspruchsvollen Detailproblemen aus der Praxis, beispielsweise der Entwicklung von Verfahren zur webbasierten nichtreferenziellen Beurteilung der Qualität von Scans.

Foto: Vera Münch
CeBIT 2009: Auf dem FhG-Sonderstand zum Forschungsprogramm THESEUS präsentierte das Fraunhofer IAIS seine Entwicklung zum Anwendungsfall CONTENTUS in einer Installation mit dem Hochleistungsscanner "ScanRobot" von Treventus, den ImageWare seit Mitte 2008 exklusiv vertreibt.


Foto: Vera Münch
Attraktives Headquarter: Das Fraunhofer IAIS ist auf dem Gelände von Schloss Birlinghoven untergebracht. Die prunkvollen Räumlichkeiten dienen als Konferenz- und Veranstaltungsstätten.


Foto: Vera Münch
MyBib mit voll skalierbaren Images: Stefan Paal zeigt, wie die digitalisierten Seiten auf dem Bildschirm beliebig vergrößert und verkleinert werden können.


Foto: Vera Münch
Forschung für die Wirtschaft, Praxis für die Wissenschaft: Die Kooperationspartner Rolf Rasche, Geschäftsführer von ImageWare, Dr. Stefan Eickeler, Stefan Paal und Ulrich Wernecke vom Fraunhofer IAIS treffen sich regelmäßig zum Austausch ihrer Ideen zur Industrialisierung der Digitalen Bibliothek


Foto: Imageware
Die Welt wird elektronisch abgebildet: Was mit der Massendigitialisierung an Datenmengen produziert wird, erfordert nach Ansicht der Kooperationspartner dringend automatische Verfahren

THESEUS-Forschungserkenntnisse fließen in ImageWare-Lösungen

Dr. Joachim Köhler, sieht in der Kooperation mit ImageWare die Erfüllung einer Satzungsaufgabe des Instituts: "Wir sind gehalten, unsere Forschungserkenntnisse in die Wirtschaft zu übertragen", so der Leiter von IAIS NetMedia,

Als Antwort auf die Frage, ob der hohe Aufwand, mit dem derzeit auf der ganzen Welt Bücher, Mikrofilme, Filmbänder, Tonträger und anderen Informations- und Unterhaltungsmedien der Vergangenheit und Gegenwart gescannt werden, zitiert Köhler die Generaldirektorin der Deutschen Nationalbibliothek (DNB), Dr. Elisabeth Niggemann: "Alles, was nicht digital verfügbar ist, existiert für die nächste Generation nicht mehr". Im Rahmen des großen deutschen Forschungsprogramms THESEUS bearbeitet IAIS NetMedia mit der DNB und anderen Partnern den Anwendungsfall CONTENTUS. Dessen Ziel ist die Schaffung eines automatisierten Prozesses zur Bereitstellung von multimedialem Wissen. "IAIS bringt hier seine Forschungserkenntnisse und Erfahrungen mit der automatisierten Qualitätsoptimierung und der semantischen Erschließung zur automatischen Metadatenerzeugung sowie der semantischen Verknüpfung multimedial vorliegender Dokumente ein", berichtet der Projektmanager Dr. Stefan Eickeler. Der "Stapel an multimedialen Daten" würde immer größer, zum Beispiel durch die Rundfunk- und Fernseharchive. Eine automatische Erschließung, die alle Medienarten einbezieht, sei deshalb dringend geboten. Ergebnisse aus der CONTENTUS-Forschungsarbeit fließen auch in die Entwicklungsaufgaben im Rahmen der Partnerschaft mit ImageWare ein. (http://theseus-programm.de/anwendungsszenarien/contentus/default.aspx).

IAIS Netmedia hat den automatisierten Workflow bereits entwickelt

Bereits seit dem Jahr 2000 erforschen die Wissenschaftlerinnen und Wissenschaftler von IAIS NetMedia Technologien und Lösungen zur Strukturierung und Erschließung multimedialer Dateninhalte sowie innovative Verfahren der Mustererkennung für Multimediadaten. Sie haben sich dabei große Kenntnisse in der automatischen Auswertung und archivgerechten Aufbereitung von Ton- und Videodatenströmen sowie 2D- und 3D-Bildern erworbern.

Zur Verarbeitung gescannter Dokumente hat IAIS NetMedia in Einzelprojekten mit Zeitungsverlagen (Neue Züricher Zeitung, Donaukurier) bereits einen automatisierten Arbeitsablauf (Workflow) entwickelt, der jetzt im Rahmen der Forschungskooperation um die von ImageWare eingebrachten Problemstellungen erweitert und an den Bedarf von Bibliotheken angepasst wird. Der automatische IAIS Workflow umfasst die Arbeitsschritte:

Passend zu diesem automatisierten Workflow hat IAIS NetMedia ein sparates grafisches Werkzeug zur Qualitätskontrolle und Nachkorrektur der Verarbeitungsergebnisse entwickelt.

Weiterentwicklungen für den ImageWare-Produktionsprozess

Die Softwarelösung zur Automatisierung der Scanverarbeitung aus ImageWare Scannern basiert auf diesem FhG IAIS Workflow. Nach dem Erfassen der Vorlage erfolgt die Optimierung der Qualität der Images durch die automatische Ausführung von Softwarefunktionen, die das gescannte Image durch Randerkennung freistellen, die Seiten gerade rücken und die Buchfalzkorrektur übernehmen. Die aufbereiteten Scandaten werden dem Scanner-Softwaresystem (oder der Bibliothekssoftware) in webbasierter Form zur Speicherung in einer Datenbank oder einem Reposiorium zurückgegeben. Von dort aus können sie in den OPAC der vorhandenen Bibliothekslösung integriert werden. Der Literaturhinweis im OPAC ist dann mit dem Speicherort des Digitalisats verlinkt.

Bei der Weiterentwicklung des IAIS NetMedia Fehlerkorrekturwerkzeuges für den Einsatz in der Massendigitalisierung geht es vor allem darum, eine Fehlerprüfung zu schaffen, die das Entstehens systematischer Fehler verhindert. Anders als bei einzeln zu bedienenden Scannern können beim Arbeiten mit Scanrobotern Fehler aus dem Erfassungssystem zu großen Mengen unbrauchbarer Digitalisate führen.

Der zertifizierte elektronische Lesesaal nach § 52 b UrhG

Die Bereitstellung des digitalisierten Wissens der Welt zur Nutzung durch die Bibliothekskunden - dem Zweck, für den all die Milliarden Digitalisate erzeugt werden - ist seit der Anpassung des § 52 b UrhG für Bibliotheksverantwortliche ein gefährliches Unterfangen, weil sie für die Einhaltung des Gesetzes haften. Sie müssen sicherstellen, dass bei der Weitergabe der Dokumente an Dritte sämtliche Urheberrechte eingehalten werden. Das ist nicht einfach, denn sich gesetzeskonform zu verhalten, ist produkttechnisch noch nicht gelöst und bedeutet de facto einen technischen Rückschritt. Bei weitem nicht alle heute verfügbaren Netztechnologien und Transportmöglichkeiten dürfen nach § 52 b zur Weitergabe des geistigen Eigentums ausgenutzt werden. Rasche erläutert: "'Die Digitalisate dürfen nur auf einem PC angezeigt werden, der sich in der Verwaltung der Bibliothek befindet. Die Originalvorlage muss physisch in der Bibliothek vorliegen oder die Rechte müssen über eine Konsortial- oder Nationalizenz gekauft sein. Die Anzeige der gescannten Bücher, Buchseiten und Fundstellen muss technisch so erfolgen, dass die Daten nicht ausgedruckt oder heruntergeladen werden können". Zur Beweisführung, dass die gesetzlichen Vorschriften eingehalten werden, ist eine Zertifizierung der Softwarelösung notwendig, die für die Bereitstellung der Digitalisate eingesetzt wird.

Sichere Bereitstellung copyrightbehafteter Vorlagen

Eine solche Lösung erforschen und entwickeln IAIS NetMedia und ImageWare mit dem "elektronischen Lesesaal nach § 52 b", genannt MyBib. Mit dem MyBib will ImageWare als erster europäischer Anbieter ein Softwaresystem anbieten, das Ansprüche und Anforderungen aller beteiligten Parteien, also von Bibliotheken, Verlagen und Autoren, abdeckt. Stefan Paal, wissenschaftlicher Mitarbeiter am IAIS, erklärt die methodischen und technischen Ansätze der verlässlichen, raubkopier-sicheren Präsentationslösung: "Wir legen den Schutz so hoch, dass der Aufwand zum Aufbrechen deutlich über dem des rechtmässigen Erwerbs der Publikation liegt. Technisch setzen wir auf eine javabasierten Rich Client-Lösung. Client und Server managen die Suche über den OPAC und die Integration der Links in die Literaturzitate". Stolz sind die Wissenschaftler auf die bereits realisierte sehr schnelle Seitenanzeige und die praktischen Funktionen. Die angezeigten Seiten in MyBib sind voll skalierbar, können also am Bildschirm beliebig vergrößert oder verkleinert werden. Volltextsuche ist über den gesamten digitalisierten Inhalt - nicht nur in den Inhaltsverzeichnissen - möglich. Zur gewünschten Seite, zum gesuchten Kapitel oder einem Textfragment - kann man über Miniseitenanzeigen in der Navigationsleiste surfen.

Bibliothekskunden können im elektronischen Lesesaal den kompletten Inhalt copyrightbehafteter Literatur kostenlos durchlesen; haben also auch dann vollständigen Zugriff auf für sie relevante Literatur, wenn das in der Bibliothek vorhandene Original gerade ausgeliehen ist und keine lizensierte Digitalversion der Publikation verfügbar ist. Anhand des angezeigten Textes entscheiden sie dann, ob das Durchlesen am Bildschirm für ihren Zweck ausreicht, ob sie das Original zur Ausleihe bestellen wollen, oder ob sie es (ganz oder in Teilen) kaufen wollen. Denn auch der Einzelbezug von gedruckter und digitaler Literatur bis hinunter auf die Ebene einzelner Kapitel wird von Verlagen und/oder Informationsdienstleistern zunehmend angeboten. Über den OPAC und die Lizenzverwaltung der Bibliothek können solche Bestellmöglichkeiten in MyBib integriert werden. Rasche freut sich: "Die Lösung ist juristisch knackig hart und funktioniert trotzdem ohne Nutzerregistrierung". Er rechnet damit, dass MyBib nach dem Start des Pilotbetriebs im Oktober bis Ende des Jahres 2009 allgemein angeboten werden kann.

Massendigitalisierung verändert das Berufsbild

Ulrich Wernecke, beim IAIS zuständig für die Geschäftsfeldentwicklung Medienanalyse- und Archivsysteme, sieht die Welt erst am Anfang der Massendigitalisierung: "Wir stehen an der Schwelle zum Sprung von der Maßschneiderei in die Textilindustrie" . Es sei eine andere Welt, die mit der beginnenden Industrialisierung in die Bibliotheken Einzug halte. Sie werde das Berufsbild der Bibliothekare verändern. "Viel weniger Leute werden in Zukunft viel mehr Daten verwalten können", sieht er voraus. Und für digitale Archivsysteme. sp Wernecke, sei es schon heute zwingend notwendig, volle Multimediafähigkeit vorzusehen: "Noch haben wir die Schrift. Aber die Technologien zur Informationsvermittlung entwickeln sich immer mehr in Richtung Bild und Ton".


Autorin

Vera Münch ist freie Journalistin und PR-Beraterin

PR + Texte
Leinkampstraße 3
D-31141 Hildesheim
E-Mail: vera.muench@t-online.de