Collaborative Catalog Enrichment: Scanning von Inhaltsverzeichnissen

Projektberichte aus TIB Hannover, SUB Hamburg und UB Braunschweig


Ein langer Weg
Beschluss der Verbundkonferenz
GBV-Projekte
Collaborative Catalog Enrichment

von Manfred Hauer

Mit intelligentCAPTURE sind bisher rund 280.000 Inhaltsverzeichnisse von wissenschaftlichen Monografien in fünf Staaten von National-, Landes- und Hochschulbibliotheken gescannt, mit OCR in Text zurückgewandelt und mit der CAI-Engine maschinell indexiert worden. Auf Initiative und durch Finanzierung des GBV wurden in der TIB Hannover und der SUB Hamburg ansehnliche Mengen effizient erschlossen. Zeitgleich läuft ein eigenfinanziertes Projekt der UB Braunschweig. In allen drei Fällen wird das gesamte Projekt von dem externen Dienstleister AGI - Information Management Consultants abgewickelt.

Ein langer Weg

Die Idee, Kataloge um Inhaltsverzeichnisse zu ergänzen, um die Suchbarkeit und den Benutzerkomfort zu verbessern, ist an vielen Stellen geboren worden. AGI konnte 1996 erstmals die Buchhandelsgruppe Schweitzer Sortiment motivieren, Inhaltsverzeichnisse aus der Bibliografie "Vademecum: Recht - Wirtschaft - Steuern" online suchbar zu machen. Nach 200 Titeln endete dieses Teilprojekt - die Buchscanner waren noch viel zu schlecht, die damalige OCR konnte diese Schwächen bei den Images nicht auffangen, doch hauptsächlich wurde eingewendet, dass neue Titel nicht mehr als "neu" an die Kunden geliefert werden könnten - und es blieb bei der Online-Publikation von 4,6 Millionen bibliografischen Titeln, ohne tiefere Erschließung. Bis heute.

2002 traute sich die Vorarlberger Landesbibliothek an das Thema zusammen mit AGI heran, diesmal mit maschineller Indexierung. Sie hat mittlerweile 77.000 Bücher in ihrem ALEPH-Katalog mittels intelligentCAPTURE angereichert, ganz ohne Projekt- oder Fremdfinanzierung und einem starken Image-Gewinn bei den Benutzern und den staatlichen Geldgebern erzielt. Mittlerweile hat sich der Kreis der Anwender auf fünf Staaten erweitert: National-, Landes-, Universitäts- und Fachhochschulbibliotheken, zusätzlich wertet AGI Verlags- und Buchhandelsdaten aus. Rechnet man alle Titel zusammen, die bisher mit intelligentCAPTURE verarbeitet wurden, so kommt man auf über 280.000 Inhaltsverzeichnisse von Büchern, 27 Cover-Pages und 475.000 Aufsatztitel.

Alle diese Titel sind in den jeweiligen lokalen Katalogen oder in Verbundkatalogen suchbar, entsprechend den jeweiligen Katalogsystemen - meist PICA oder ALEPH, aber auch SISIS oder Libero. 2003 führte AGI den Online-Dienst "dandelon.com" ein. Dort fließen die von den jeweiligen Bibliotheken generierten PDFs der Inhaltsverzeichnisse zusätzlich zur dezentralen Speicherung bei den jeweiligen Bibliotheken ein. Dieser zentrale Knoten erfüllt einerseits die Rolle des Verteilzentrums. Kein Buch muss von einem dandelon.com-Partner ein zweites Mal gescannt werden, wenn es über die ISBN klar identifizierbar ist. Dieser Lookup auf dandelon.com geschieht automatisch bei der Bearbeitung der Medien in intelligentCAPTURE. Diese Verteilrolle ist nach außen wenig sichtbar, aber äußerst nützlich, denn insbesondere die Fachhochschulbibliotheken können schon bis zu 30 % der PDFs aus dandelon.com beziehen. Das Recht zur Übernahme liegt aber ausschließlich bei Anwendern von intelligentCAPTURE, die auch selbst Daten an dandelon.com liefern. Hierbei gilt das Prinzip, wer viel produziert, kann auch viel empfangen. Somit sind die "Großen" und die "Spezialisten" stärker im Geben, doch angesichts der höheren Mengen nicht unbedingt kleiner im Nehmen. Diese Hintergrundfunktion sehen nur die Erfassungskräfte, weil jede Übernahme gemeldet wird.

Bekannter und von jedermann nutzbar ist die zweite Funktion von dandelon.com: es ist ein öffentliches, kostenfrei zugängliches Suchportal für wissenschaftliche Literatur. Alle Fragen von Benutzern werden automatisch analysiert und mit 1,6 Millionen Thesauruseinträgen in 20 Sprachen (24 könnten es schon sein, wären alle bereits verfügbaren Ressourcen geladen) abgeglichen. Synonyme, Übersetzungen und Unterbegriffe werden stufenweise automatisch ergänzt bis hin zur Wortstammsuche oder Fuzzy-Search, wenn keine Treffer gefunden werden. Die Treffer werden nach Relevanz sortiert. Bibliotheken, die dandelon.com in ihre Umgebung integrieren, begrenzen die Suche meist auf ihren eigenen Teilbestand und führen die Suchenden über den Standortnachweis punktgenau auf den eigenen Katalogdatensatz. Die Buchhandelsschnittstelle zu "Missing Link" in Bremen wird selten genutzt, die Mehrzahl zieht offensichtlich die kostenlose Ausleihe in der Bibliothek vor oder kauft bei anderen Händlern. Mit rund 50.000 Anfragen pro Monat liegt dandelon.com gut, aber noch nicht an der Spitze. Alle Buchtitel aus dandelon.com sind auch im zentralen GBV-Katalog sichtbar, denn AGI und GBV tauschten Server-Leistung gegen Content-Link.

Beschluss der Verbundkonferenz

Die Idee von intelligentCAPTURE fand Beachtung. Die maschinelle Indexierung stieß dabei häufig auf Kritik, "Jobkiller für Sacherschließer", "Maschinen können nichts verstehen" ... Doch ein Benchmarking, publiziert in ABI-Technik Ende 2005 zeigte klare Vorteile, solche Verfahren auch zu nutzen (http://www.dandelon.com/intelligentSEARCH.nsf/fmRSF?OpenForm&Pg=0001Or=1Db=ATp=1Pr=aQy=abi-technik%20and%20benchmarking@Lb=0@ct=ALL). Einige Bibliotheksverbünde und Bibliotheken versuchten, eigene Verfahren zu entwickeln. Das Thema war somit salonfähig geworden. Und 2006 vereinbarte die Verbundkonferenz erstmals gemeinsame Mindeststandards (300 dpi scharz/weiss, PDF hybrid mit Image im Vordergrund und OCR-Text dahinter) und den Austausch zwischen den Verbünden. Der GBV startete im Frühjahr 2006 auf Basis von Haushaltsüberschüssen eine Initiative, um in zunächst drei Bibliotheken Inhaltsverzeichnisse scannen zu lassen: TIB Hannover, SUB Göttingen, Staatsbibliothek Berlin. Die SUB Hamburg konnte sich im Sommer 2006 dieser Runde anschließen.

GBV-Projekte

Collaborative Catalog Enrichment

Der Begriff Catalog Enrichment meint eigentlich nur die Ergänzung von Bibliothekskatalogen um Links auf weitere Medieninhalte, hier waren vor allem PDFs von Inhaltsverzeichnissen gemeint. Der GBV realisiert zusätzlich auch die Suche in diesen Inhaltsverzeichnissen. Durch die Kooperation der Bibliotheken und Verbünde kann man bereits von "collaborative" sprechen. Doch mehr noch ist mit "collaborative" die Art der Zusammenarbeit gemeint: ortsunabhängig und mit einem breiten Spektrum an technischen Interaktions- und Verarbeitungsmöglichkeiten zwischen Menschen, Programmen und Servern.


Zum Autor

Dipl.-Inf.wiss. Manfred Hauer M.A.

AGI - Information Management Consultants
http://www.dandelon.com
http://www.agi-imc.de
E-Mail: manfred.hauer@agi-imc.de