Collaborative Catalog Enrichment: Scanning von Inhaltsverzeichnissen
von Manfred Hauer
Mit intelligentCAPTURE sind bisher rund 280.000 Inhaltsverzeichnisse von wissenschaftlichen Monografien in fünf Staaten von National-, Landes- und Hochschulbibliotheken gescannt, mit OCR in Text zurückgewandelt und mit der CAI-Engine maschinell indexiert worden. Auf Initiative und durch Finanzierung des GBV wurden in der TIB Hannover und der SUB Hamburg ansehnliche Mengen effizient erschlossen. Zeitgleich läuft ein eigenfinanziertes Projekt der UB Braunschweig. In allen drei Fällen wird das gesamte Projekt von dem externen Dienstleister AGI - Information Management Consultants abgewickelt.
Ein langer Weg
Die Idee, Kataloge um Inhaltsverzeichnisse zu ergänzen, um die Suchbarkeit und den Benutzerkomfort zu verbessern, ist an vielen Stellen geboren worden. AGI konnte 1996 erstmals die Buchhandelsgruppe Schweitzer Sortiment motivieren, Inhaltsverzeichnisse aus der Bibliografie "Vademecum: Recht - Wirtschaft - Steuern" online suchbar zu machen. Nach 200 Titeln endete dieses Teilprojekt - die Buchscanner waren noch viel zu schlecht, die damalige OCR konnte diese Schwächen bei den Images nicht auffangen, doch hauptsächlich wurde eingewendet, dass neue Titel nicht mehr als "neu" an die Kunden geliefert werden könnten - und es blieb bei der Online-Publikation von 4,6 Millionen bibliografischen Titeln, ohne tiefere Erschließung. Bis heute.
2002 traute sich die Vorarlberger Landesbibliothek an das Thema zusammen mit AGI heran, diesmal mit maschineller Indexierung. Sie hat mittlerweile 77.000 Bücher in ihrem ALEPH-Katalog mittels intelligentCAPTURE angereichert, ganz ohne Projekt- oder Fremdfinanzierung und einem starken Image-Gewinn bei den Benutzern und den staatlichen Geldgebern erzielt. Mittlerweile hat sich der Kreis der Anwender auf fünf Staaten erweitert: National-, Landes-, Universitäts- und Fachhochschulbibliotheken, zusätzlich wertet AGI Verlags- und Buchhandelsdaten aus. Rechnet man alle Titel zusammen, die bisher mit intelligentCAPTURE verarbeitet wurden, so kommt man auf über 280.000 Inhaltsverzeichnisse von Büchern, 27 Cover-Pages und 475.000 Aufsatztitel.
Alle diese Titel sind in den jeweiligen lokalen Katalogen oder in Verbundkatalogen suchbar, entsprechend den jeweiligen Katalogsystemen - meist PICA oder ALEPH, aber auch SISIS oder Libero. 2003 führte AGI den Online-Dienst "dandelon.com" ein. Dort fließen die von den jeweiligen Bibliotheken generierten PDFs der Inhaltsverzeichnisse zusätzlich zur dezentralen Speicherung bei den jeweiligen Bibliotheken ein. Dieser zentrale Knoten erfüllt einerseits die Rolle des Verteilzentrums. Kein Buch muss von einem dandelon.com-Partner ein zweites Mal gescannt werden, wenn es über die ISBN klar identifizierbar ist. Dieser Lookup auf dandelon.com geschieht automatisch bei der Bearbeitung der Medien in intelligentCAPTURE. Diese Verteilrolle ist nach außen wenig sichtbar, aber äußerst nützlich, denn insbesondere die Fachhochschulbibliotheken können schon bis zu 30 % der PDFs aus dandelon.com beziehen. Das Recht zur Übernahme liegt aber ausschließlich bei Anwendern von intelligentCAPTURE, die auch selbst Daten an dandelon.com liefern. Hierbei gilt das Prinzip, wer viel produziert, kann auch viel empfangen. Somit sind die "Großen" und die "Spezialisten" stärker im Geben, doch angesichts der höheren Mengen nicht unbedingt kleiner im Nehmen. Diese Hintergrundfunktion sehen nur die Erfassungskräfte, weil jede Übernahme gemeldet wird.
Bekannter und von jedermann nutzbar ist die zweite Funktion von dandelon.com: es ist ein öffentliches, kostenfrei zugängliches Suchportal für wissenschaftliche Literatur. Alle Fragen von Benutzern werden automatisch analysiert und mit 1,6 Millionen Thesauruseinträgen in 20 Sprachen (24 könnten es schon sein, wären alle bereits verfügbaren Ressourcen geladen) abgeglichen. Synonyme, Übersetzungen und Unterbegriffe werden stufenweise automatisch ergänzt bis hin zur Wortstammsuche oder Fuzzy-Search, wenn keine Treffer gefunden werden. Die Treffer werden nach Relevanz sortiert. Bibliotheken, die dandelon.com in ihre Umgebung integrieren, begrenzen die Suche meist auf ihren eigenen Teilbestand und führen die Suchenden über den Standortnachweis punktgenau auf den eigenen Katalogdatensatz. Die Buchhandelsschnittstelle zu "Missing Link" in Bremen wird selten genutzt, die Mehrzahl zieht offensichtlich die kostenlose Ausleihe in der Bibliothek vor oder kauft bei anderen Händlern. Mit rund 50.000 Anfragen pro Monat liegt dandelon.com gut, aber noch nicht an der Spitze. Alle Buchtitel aus dandelon.com sind auch im zentralen GBV-Katalog sichtbar, denn AGI und GBV tauschten Server-Leistung gegen Content-Link.
Beschluss der Verbundkonferenz
Die Idee von intelligentCAPTURE fand Beachtung. Die maschinelle Indexierung stieß dabei häufig auf Kritik, "Jobkiller für Sacherschließer", "Maschinen können nichts verstehen" ... Doch ein Benchmarking, publiziert in ABI-Technik Ende 2005 zeigte klare Vorteile, solche Verfahren auch zu nutzen (http://www.dandelon.com/intelligentSEARCH.nsf/fmRSF?OpenForm&Pg=0001Or=1Db=ATp=1Pr=aQy=abi-technik%20and%20benchmarking@Lb=0@ct=ALL). Einige Bibliotheksverbünde und Bibliotheken versuchten, eigene Verfahren zu entwickeln. Das Thema war somit salonfähig geworden. Und 2006 vereinbarte die Verbundkonferenz erstmals gemeinsame Mindeststandards (300 dpi scharz/weiss, PDF hybrid mit Image im Vordergrund und OCR-Text dahinter) und den Austausch zwischen den Verbünden. Der GBV startete im Frühjahr 2006 auf Basis von Haushaltsüberschüssen eine Initiative, um in zunächst drei Bibliotheken Inhaltsverzeichnisse scannen zu lassen: TIB Hannover, SUB Göttingen, Staatsbibliothek Berlin. Die SUB Hamburg konnte sich im Sommer 2006 dieser Runde anschließen.
GBV-Projekte
Pragmatisch ging die TIB Hannover vor, definierte ein kompaktes Pflichtenheft und ließ von November bis Januar 20.000 Inhaltsverzeichnisse von vorwiegend technischen Proceedings erschließen. Dieses Material war nicht nur physisch oft schwer, sondern auch technisch teils problematisch: Schreibmaschine, Microfiche-Rückvergrößerungen, Fotokopien, Eigenverlage von Verbänden oder Instituten ohne professionellen Druck und Bindung. Klingt schlimm, war aber zum Glück nicht die Regel. Schäden durch das Scanning gab es nicht, die Flachbettscanner hatten sich erneut bewährt.
Inhaltlich klaffte zwischen den Konferenztiteln, der Sacherschließung der Bibliothekare und der Informationstiefe dieser gescannten Inhaltsverzeichnisse eine riesige Lücke. Die Fülle der nun findbaren Themen, Fachbegriffe, Autoren, Institute und Aspekte ist fantastisch.
America Ibara und Xiaomei Zhang während der Erfassung
|
Szene aus der Abschlussfeier in Hannover
|
Das Scanteam von AGI bestand aus sieben Studentinnen und Studenten aus vier Kontinenten, darunter nur ein Deutscher. Zwischen 6.30 und 19.45 Uhr konnte in den historischen Räumen des ehemaligen Marstalls gearbeitet werden, samstags weniger. Jede Scanstation hatte einen Flachbett-Colorscanner mit bis zu 30 Seiten pro Minute, einen Dualcore-Computer und mit dem C-Pen-20 wurden nicht nur die Barcodes, sondern auch von jedem Inhaltsverzeichnis immer der erste Autor, der erste Titel, die erste Seite und die erste Session eingelesen, um ein Muster zu sammeln, mit dem in einem Folgeprojekt alle Autor/Titel/Seiten-Einträge automatisch extrahiert werden können. Alle Bücher mussten aus dem ca. 5 Minuten entfernten Magazin geholt werden, wurden dort aber zentral bereitgestellt. Während im ersten Monat eine Menge von 5000 Büchern verarbeitet wurde (8.-31. November), waren es im Dezember trotz Weihnachten bereits 7500 Titel. Im Januar war das Team so schnell geworden, dass 10.000 pro Monat hätten verarbeitet werden können, doch die Liste war schon vorher abgearbeitet.
intelligentCAPTURE verarbeitete zeitgleich zum Scanning alle Images mittels Abbyy FineReader zu OCR-Daten um und indexierte die Inhalte mit der CAI-Engine. Die Qualitätskontrolle wurde durch statistische Qualitätsmaße je Seite und Warnmeldungen bei kritischen Seiten gesteuert. Wichtig war, dass Seitenzahlen oder Zeilenanfänge nicht abgeschnitten und alle Seiten gescannt wurden. Das Team bemühte sich um "schöne" PDF-Dateien und korrigierte teils noch "Trauerränder" nach, denn die Verbünde wünschen, dass die Images über dem Text liegen, also alle Scanfehler oder -schwächen sichtbar sind (nicht aber die OCR-Fehler, auf die es im Retrieval ankommt).
Einen Wechsel des Scanmoduls konnte dieses Projektteam nur noch in der letzten Woche nutzen, die Performance und der Komfort waren deutlich gestiegen. Typische Fehler, welche die TIB Hannover aufwendig suchte, verwiesen fast ausnahmslos auf Schwächen des alten Scanmoduls, die mit dem neuen Modul im Ansatz nicht mehr auftreten konnten. Das neue Modul basiert auf KOFAX Image Controls, voll integriert in intelligentCAPTURE. Insgesamt zeigten mit der alten Lösung noch 4 % dieser Titel kleine, oft unvermeidbare Mängel, große Mängel kamen selten vor und wurden neu bearbeitet. Im nächsten Projekt hat niemand mehr Mängel gemessen oder bisher entdeckt.
Die Datenübergabe an die TIB Hannover erfolgte nach dem Projekt per CD-ROM. Die Zusammenarbeit mit der Projekt- und Bibliotheksleitung war angenehm und effizient.
Die gleichen drei Scanstations zogen im Februar nach Hamburg um, wo ein AGI-Team aus acht Bibliothekaren und Dokumentaren vom 17. Februar bis 17. April 42.000 Bücher scannte und 8000 Titel als nicht scanbar oder ausgeliehen registrierte. Die über 4500 ausgeliehenen kamen über einen automatisierten Vormerkungs-Workflow teilweise während der Projektlaufzeit noch zurück (rund 60 pro Tag).
In Hamburg musste das Scanteam die Titel weitgehend selbst ausheben und meist auch zurückstellen. Dafür hatte AGI im Sommer 2006 eine mobile Scanstation gemeinsam mit SchulzSpeyer entwickelt, um Wege- und Transportzeiten stark zu minimieren.
Dieses Konzept, den Scanner zum Buch zu schieben anstelle viele Bücher zum Scanner zu bringen, hat sich sehr bewährt. Die Scanstation verfolgt auch das Ziel, den Arbeitsplatz so ergonomisch zu machen, dass man auch nach 12 und 13 Stunden noch schmerzfrei nach Hause gehen kann. Einige Teammitglieder haben solange gearbeitet und die Rekordmarke auf 530 Bücher pro Person und Tag gelegt. An den meisten Tagen wurden zusammen rund 1000 Titel an den drei Workstations produziert. Um zwischen den Rollregalen arbeiten zu können, hat jede intelligentCAPTURE mobile Scanstation eine WLAN-Anbindung, damit Kabel die Beweglichkeit nicht einschränken. Mit etwas Improvisation versorgte die SUB Hamburg alle Zonen (vorwiegend Kompaktmagazine), in denen gescannt wurde. Nur ein 50 Meter langes Stromkabel war noch im Einsatz, die Akku-Variante von intelligentCAPTURE mobile ist bislang noch nicht realisiert, aber konzipiert für 4 oder 8 Stunden netzunabhänges Arbeiten, insbesondere in Benutzerbereichen.
Auch die hochwertigen Headsets an jeder Workstation waren für die Entspannung erlaubt, sei es um Musik zu hören oder mit Freunden oder der Hotline- und Projektleitung von AGI in München und Neustadt per Internet zu telefonieren. Über IBM Lotus Sametime, IBM Lotus Notes Mail und Datenbankreplikation war die Kommunikation bis hin zum Application Sharing technisch rund. Alle Abstimmungen und kleineren Probleme konnten online gelöst werden. Große Probleme gab es nicht. intelligentCAPTURE nutzt Lotus Notes-Datenbanken als multimediale Container für Daten und Design und als Workflow-Management-System. Die Daten wurden darüber auch automatisch alle 15 Minuten mit dem zentralen IBM Domino-Server im Rechenzentrum des GBV gesichert und mehrmals täglich wurden die produzierten Ergebnisse an der GBV zum Import nach PICA exportiert. Die Suchbarkeit in PICA hinkte nicht mehr als einen halben Tag hinter dem Scanning her, abhängig von dem Zeitpunkt der intellektuellen Qualitätskontrolle und den Ladezyklen der Programme vor PICA. intelligentCAPTURE benötigt pro Buch ca. ein bis zwei Minuten von der Aushebung bis zum suchbaren PDF und maschinellen Indexat. Alle Arbeitsprozesse und Software-Module laufen gleichzeitig und sind miteinander verzahnt, die Dualcore-Rechner und das Multithreading von intelligentCAPTURE passen ideal zusammen.
Mit einer eigenen Lösung hatte die UB Braunschweig schon vor ca. drei Jahren erste Erfahrungen gesammelt. Ende März 2007 startete mit einer weiteren intelligentCAPTURE mobile Scanstation und drei Projektmitgliedern aus dem Team in Hannover ein drittes Scanprojekt über 10.000 Titel, finanziert aus dem laufenden Budget der Bibliothek. Workflow und Spezifikation waren weitgehend identisch zu dem Projekt in Hamburg.
Auch hier dauerte der Projektstart - technische Installation, kennen lernen der Räume und organisatorische Regelungen - nur wenige Stunden. Morgens begrüßt die Projektleitung online in Sametime die Teammitglieder, um stets bewusst zu machen, niemand arbeitet allein, AGI ist nur ein Mausklick entfernt. Intensive kommunikative Vernetzung ist ein Schlüssel zur Arbeitszufriedenheit, zur Fehlervermeidung und zum Projekterfolg. Die Collaboration-Tools von IBM sind der i-Punkt auf intelligentCAPTURE mobile. So einfach und schnell intelligentCAPTURE normalerweise zu nutzen ist, so komplex sind die dahinter liegenden, überwiegend wissensbasierten Module und sehr zahlreichen Konfigurationsmöglichkeiten.
Direkt im Anschluss an das Projekt in Hamburg druckte die SUB in Hamburg ihre Zufriedenheit mit dem ersten Projekt durch einen Nachfolgeauftrag aus. 7000 Inhaltsverzeichnisse aus dem Themenfeld Altamerikanistik und Südamerika durfte das Projektteam zusätzlich mit zwei Scanstations digitalisieren, die dritte Scanstation verbleibt bei der SUB, um auch zukünftig in den Sondersammelgebieten den GBV und wohl auch dandelon.com zu beliefern.
Collaborative Catalog Enrichment
Der Begriff Catalog Enrichment meint eigentlich nur die Ergänzung von Bibliothekskatalogen um Links auf weitere Medieninhalte, hier waren vor allem PDFs von Inhaltsverzeichnissen gemeint. Der GBV realisiert zusätzlich auch die Suche in diesen Inhaltsverzeichnissen. Durch die Kooperation der Bibliotheken und Verbünde kann man bereits von "collaborative" sprechen. Doch mehr noch ist mit "collaborative" die Art der Zusammenarbeit gemeint: ortsunabhängig und mit einem breiten Spektrum an technischen Interaktions- und Verarbeitungsmöglichkeiten zwischen Menschen, Programmen und Servern.
Zum Autor
Dipl.-Inf.wiss. Manfred Hauer M.A.
AGI - Information Management Consultants
http://www.dandelon.com
http://www.agi-imc.de
E-Mail: manfred.hauer@agi-imc.de