Das 180T-Projekt in Köln
oder wie verarbeite ich 180.000 Bücher in vier Monaten

Eine erfolgreiche Kooperation des hbz, der USB Köln und der ZB MED

von Astrid Großgarten

Versetzen wir uns in die Lage eines Studenten der Sozialwissenschaften, der Literatur für eine Seminararbeit zum Thema "Die Rolle der Frau im ländlichen Japan an der Schwelle zum 21. Jahrhundert" sucht oder in die einer Dermatologin, die zu "Behandlungsmethoden bei Rosacea" forscht. Die Katalogrecherche wird neben Standardwerken auch Treffer zu Monographien aufweisen. Aber werden die Suchenden auch fündig in Aufsatzsammlungen wie "Japanese woman working" oder "Naturheilverfahren für Hauterkrankungen"? Diese Frage lässt sich nur mit einem Blick in das Inhaltsverzeichnis beantworten. Befinden sich die Recherchierenden gerade in der Bibliothek ist dies unproblematisch. Anders sieht es jedoch aus, wenn online recherchiert wird. Was tun? In die Bibliothek fahren und dort nachsehen? Das Buch auf Verdacht per Fernleihe ordern? Eine Erweiterung der Kataloginformation um die Inhaltsübersicht wäre also wünschenswert. Solche Wünsche werden bald Wirklichkeit - am schnellsten für Mediziner, Betriebswirt- und Sozialwissenschaftler in wissenschaftlichen Bibliotheken in Köln.

Unter dem Stichwort Catalogue Enrichment läuft derzeit in Köln ein Projekt, in dessen Verlauf die Inhaltsverzeichnisse von mehr als 180.000 Büchern gescannt, mit einer Texterkennung als Volltext aufgearbeitet und schließlich in die verschiedenen Katalogsysteme eingespeist werden. Das Projekt startete am 1. September 2005 und die Verarbeitung der zunächst veranschlagten 180.000 Buchtitel wurde planmäßig vor Weihnachten abgeschlossen. Noch läuft das Unterfangen unter dem Arbeitstitel 180T-Projekt (für 180.000 Bücher). Einen endgültigen Titel wird das Projekt in einer späteren Phase bekommen, denn, wie Frau Gitmans von der Projektkoordination des hbz betont, wird das Projekt zunächst mit den beiden kölnischen Bibliotheken und dann drei weiteren Partnerbibliotheken fortgesetzt. So werde dann schon Anfang 2006 die 200.000 Marke überschritten und dann müsse ohnehin ein neuer Titel gefunden werden.

Wie kam es nun zu einem derartigen Projekt, das in seiner Größenordnung bislang einmalig in der deutschen Bibliothekslandschaft ist? Seit einiger Zeit steht das Thema Catalogue Enrichment im Raum, wie Tatjana Mrowka, die Marketingleiterin des Projektträgers hbz (Hochschulbibliothekszentrum des Landes Nordrhein-Westfalen) sagt. Auf verschiedenen Fachtagungen wurde das Thema immer wieder beleuchtet - insbesondere unter dem Aspekt, wie durch zusätzliche Inhaltsinformationen ein Mehrwert für den Katalog (OPAC) geschaffen werden kann, um die Literatursuche zielgerichteter und erfolgreicher zu gestalten. Natürlich sehen sich Bibliotheken bei der Allgegenwart von Amazon und Google und verwöhnten Internetnutzern auch stark gefordert, das Feld der Innovation nicht allein kommerziellen Anbietern zu überlassen.

Auf der Konferenz des hbz-Verbundes zu Beginn des Jahres 2005 wurde die Diskussion um Catalogue Enrichment erneut aufgegriffen und das hbz beschloss, ein Projekt in größerem Stile anzugehen. Unterstützt wird das Projekt vom Ministerium für Innovation, Wissenschaft, Forschung und Technologie des Landes Nordrhein-Westfalen.

Das hbz ist aufgrund seiner Zielsetzung prädestiniert für die Federführung in einem solchen Pilotprojekt, da es als Dienstleistungs- und Entwicklungseinrichtung innovative Tendenzen aufgreift. Mit einem breitgefächerten Produktspektrum ist das hbz bundesweit aktiver Partner von Bibliotheken, die insgesamt 2,5 Mio. Kunden mit Literatur und Informationen versorgen.

Tabelle 1: Einige Kennzahlen aus dem Produktspektrum des hbz

Verbunddatenbank 13 750 000 Titeleintragungen
30 200 000 Bestandsnachweise
246 Teilnehmerbibliotheken
Die Digitale Bibliothek 330 eingebundene Datenbanken
170 wissenschaftliche und öffentliche Bibliotheken
Online-Fernleihe knapp 300 Bibliotheken

Das hbz als Projektkoordinator stimmte in Kooperation mit der Universitäts- und Stadtbibliothek Köln (USB Köln) und der Deutschen Zentralbibliothek für Medizin (ZB MED) die Eckdaten ab. Aus dem Bereich der ZB MED wurden 60.000 Monographien aus den Zugängen der letzten fünf Jahre bearbeitet, aus der USB Köln 120.000 Titel aus den Erwerbungen der letzten 15 Jahre des Fachbereiches Wirtschafts- und Sozialwissenschaften. Der unterschiedliche Zeitansatz bei dieser retrospektiven Kataloganreicherung ist der Tatsache geschuldet, dass die Halbwertszeit von medizinischem Wissen eine wesentlich kürzere ist als auf dem Gebiet der Wirtschafts- und Sozialwissenschaften.

Beide teilnehmenden Bibliotheken haben eine herausgehobene Stellung. So ist die ZB MED die zweitgrößte medizinische Fachbibliothek der Welt, nach Nutzerzahlen gar die größte. Die USB Köln spricht mit mehreren DFG-Sondersammelgebieten, umfangreichen Spezialbeständen und dem bedeutendsten Altbestand in NRW auch überregionale und außeruniversitäre Kunden an. Für das Projekt wurden Titel aus dem betriebs- und sozialwissenschaftlichen Bestand gewählt, der ca. ein Drittel des Gesamtbestandes ausmacht. Beide Fachbereiche decken neben der deutschen und angloamerikanischen Forschungsliteratur auch weitestgehend die relevanten Titel aus dem gesamten europäischen Sprachraum ab.

Tabelle 2: Kennzahlen der beteiligten Bibliotheken (Stand 2004)

  USB Köln ZB MED
Bestand an Büchern und Zeitschriftenbänden 3,6 Mio. 1,3 Mio.
Laufende Zeitschriftentitel ca. 10.000 ca. 8.000
Nutzer im Jahr über 45.000 14.815
Ausleihvorgänge am Ort 1.170.000 147.000
Gebende Fernleihen ca. 60.000  
Dokumentenlieferungen und Fernleihen   610.000

Die wissenschaftliche Relevanz der Fachliteratur aus den ausgewählten Pilotbibliotheken und die Tatsache, dass im Verbundkatalog des hbz die Daten von 246 Bibliotheken zusammenfließen, macht deutlich, wie sinnvoll es ist, angereicherte Titeldaten in einen solch großen und stark frequentierten Datenpool wie den hbz-Medienserver einzustellen. Darin stehen den Verbundteilnehmern gegenwärtig 13 Mio. Titeldaten mit ca. 30 Mio. Exemplardaten zur Verfügung.

Rechnet man die für das Projekt ausgewählte Bücherzahl von 180.000 auf zu scannende Seiten hoch, liegt die Gesamtseitenzahl bei 720.000, von denen ca. 240.000 Seiten auf Medizin und ca. 480.000 Seiten auf Wirtschafts- und Sozialwissenschaften entfallen. Umgerechnet auf vier Monate entspricht dies also ca. 2.000 Büchern oder 7.000 Seiten am Tag, die zu verarbeiten waren.

Für das hbz und die teilnehmenden Bibliotheken stand von Beginn an fest, dass eine derartige Größenordnung nicht im normalen Bibliotheksalltag vom eigenen Personal zusätzlich bewältigt werden konnte.

Gesucht wurde ein Dienstleister, der die zeitlichen, organisatorischen und finanziellen Vorgaben erfüllen konnte. Diese sahen vor, dass für das Projekt keine zusätzliche Hard- und Software angeschafft werden durfte, auf der vorhandenen Infrastruktur (Medea3-Umfeld der hbz-Verbundbibliotheken und MyBib-Server der USB Köln) aufgesattelt werden musste, keine erneute Mediendatenerfassung stattfinden sollte und natürlich der Bibliotheksbetrieb im Ablauf nicht behindert werden durfte.

Die Firma ImageWare Components aus Bonn, bekannter Hersteller von Bookeye®-Buchscannern und MyBib-Liefersystemen, setzte sich schließlich als Anbieter mit der überzeugendsten Lösung durch.

Gemeinsam wurde die Projektorganisation verabredet:

  1. die beteiligten Bibliotheken stellen Netzwerkverbindungen und Arbeitsräume für den Dienstleister und ermöglichen dem Dienstleistungspersonal Zutritt zu Freihandausleihe und Magazinen
  2. der Dienstleister stellt die technische Ausstattung
  3. der Dienstleister stellt einen Server für die Auftragsbearbeitung, der wiederum über eine Schnittstelle mit dem hbz-Server verbunden wird
  4. das hbz konfiguriert zusammen mit dem Dienstleister den Server
  5. in beiden Bibliotheken gibt es feste Ansprechpartner für technische Probleme, Qualitätssicherung und fachliche Fragen
  6. gemeinsam werden die Qualitätsstandards festgelegt und deren Einhaltung überprüft.

Für ImageWare Components bedeutete der Projektauftrag eine große Herausforderung, betrat man doch durch die Komplexität der Anforderungen auch teilweise technisches und unternehmerisches Neuland. Geschäftsführer Rolf Rasche sah weit mehr Chancen als Risiken, "denn die Möglichkeit, MyBib einem solchen Belastungstest vor der Haustüre zu unterziehen, bekomme ich nicht oft geboten. Außerdem können wir so die Stabilität und Qualität unserer Systeme beweisen."

Um Überraschungen bei Projektstart zu vermeiden, war eine Pilotphase im Juli und August 2005 vorgeschaltet. Zunächst wurden jeweils 500 Bände pro teilnehmender Bibliothek verarbeitet. Die Ergebnisse wurden von den Ansprechpartnern der Bibliotheken und des hbz hinsichtlich Scanqualität und Genauigkeit der Texterkennung überprüft. Das Ergebnis war mehr als zufriedenstellend, ebenso wie der optimierte MyBib-eDoc-Server, über den die Auftragsverwaltung, -steuerung, -verfolgung und Betriebsdatenerfassung lückenlos abgewickelt wird. Im hbz sah man die Testphase zuversichtlich. "Für das hbz steht die Qualitätssicherung an erster Stelle. Wären die Testergebnisse nicht zufriedenstellend gewesen, hätten wir das Projekt eingestellt", so Hans Ollig, Leiter des hbz.

Nach der erfolgreichen Testphase ging das Projekt am 1. September 2005 in den Produktionsbetrieb und lief dann zur vollsten Zufriedenheit aller Beteiligten.

Da die Arbeitsergebnisse jederzeit von jedem Projektmitglied per Web-Zugriff auf das MyBib System geprüft werden können, ist die Projektgruppe stets auf dem Laufenden und konnte die Abstimmungsbesprechungen auf einmal pro Monat begrenzen. Auf der Tagesordnung stehen dabei die Bewertung der Arbeitsqualität und die Diskussion von Sonderfällen, für die zeitnah verbindliche Vorgaben und Lösungen für den Produktionsbetrieb gefunden werden müssen. Als Beispiele seien genannt: Kritzeleien im Inhaltsverzeichnis, mehrsprachige Verzeichnisse und solche mit Formeln oder arabischen und chinesischen Schriftzeichen, die von der Texterkennung nicht oder nur fehlerhaft erkannt werden.

Wie ist nun konkret die Arbeitsorganisation in den teilnehmenden Bibliotheken? In der USB Köln wurden für die erste Projektphase acht und in der ZB MED vier Scanstationen aufgebaut. Die Ausrüstung pro Arbeitsplatz sind neben Mobiliar und Bücherwagen jeweils ein Bookeye®-GS400 mit ergonomischem Scanpad und Barcodepistole. Annegret Johann von ImageWare, verantwortlich für die Produktion, erläutert den Ablauf: "Die Mitarbeiter holen die Bücher an den Scanplatz. Dort wird jedes Buch zuerst mit der Barcodepistole registriert. In den folgenden Arbeitsschritten werden die Seiten des Inhaltsverzeichnisses gescannt und um irrelevante Informationen bereinigt. Danach wird die Texterkennung durchgeführt. Jeder Mitarbeiter ist angehalten, die Stimmigkeit des Ergebnisses zu überprüfen." Sollten Fehler übersehen worden sein, fallen sie später in dem mehrstufigen Qualitätssicherungsverfahren auf. Dann bekommen die Aufträge im System einen Reklamationsvermerk und erscheinen auf späteren Auftragslisten zur Nachbearbeitung.

Die Mitarbeiter, die die Scanarbeiten ausführen, sehen nur die Benutzeroberflächen der verwendeten Scansoftware BCS-2®. Das recht aufwändige MyBib-System im Hintergrund, das den gesamten Workflow steuert und die lückenlose Auftragsverfolgung von den lokalen Bibliothekssystemen zum hbz-Server erst möglich macht, ist nur den jeweiligen Projektbeauftragten zugänglich. Über MyBib werden von Frau Johann sogenannte Buchhollisten erzeugt und an die Scanoperatoren verteilt. Diese Listen sind Auftragszettel und geben den Mitarbeitern die zu bearbeitenden Bücher vor. Jedes Buch ist über Signatur, Mediennummer und Titel auf der Liste ausgewiesen. Den Mediennummern kommt eine Schlüsselrolle in dem komplexen Datengefüge zu. Sie ist die eindeutige Identifizierung für ein Buch und in Form eines Barcodeetiketts auf jedem Medium aufgebracht. Der Barcode identifiziert das Buch gegenüber MyBib und dies stellt wiederum eine Verknüpfung zur Verbund-ID des hbz her.

Das hbz übernahm zum Jahreswechsel die gewonnenen Daten in seinen Medienserver. Die Umsetzung des durch Texterkennung generierten Volltextes erlaubt dabei eine Indexierung der Daten über die im hbz verwendete Suchmaschine, die auf der Technologie FAST beruht. Die angereicherten Daten werden für alle Verbundteilnehmer nutzbar sein und doppelte Arbeit wird vermieden.

Jeder Bibliothekskunde profitiert davon, dass die Einträge von demnächst mehr als 200.000 Monographien in den Katalogen um die Inhaltsverzeichnisse erweitert werden. Diese werden für die Nutzer dann als digitales Bild einsehbar sein. So wird die Literaturrecherche für die Orts- und Fernleihe erheblich verbessert und erleichtert. Als Nebeneffekt werden nun vielleicht auch Dokumentenlieferaufträge für Beiträge erteilt, die sonst weiter unbeachtet in Sammelbänden im Regal verblieben wären.

Für Dr. Christiane Süverkrüp und Claudia Dembek, die das Projekt für ihre Bibliotheken inhaltlich betreuen, liegt der Vorteil vor allem in der verbesserten Arbeitsökonomie der Bibliothekskunden, denn die ergänzten Katalogdaten werden Fehlausleihen vermindern und die Nutzungsfrequenz der Titel erhöhen. "Durch das Catalogue Enrichment und die Online-Verfügbarkeit der Daten werden die vorhandenen Bestände zudem besser publik gemacht und der Nutzungsservice gerade auch für die überregionalen Kundenkreise erweitert", so Frau Dembek. Nach der Erfahrung von Frau Dr. Süverkrüp hat besonders die Online-Recherchierbarkeit von Medien eindeutige Auswirkungen auf deren Nutzungshäufigkeit. Und was kann sich eine Bibliothek für ihr erhebliches Investment in Bestandsaufbau und -pflege mehr wünschen, als dass ihre Medien zielorientiert, intensiv und häufig genutzt werden? Und vielleicht kehrt der eine oder andere Nutzer dann zukünftig von Google zurück und recherchiert bei der nächsten Gelegenheit lieber wieder in den Katalogen der ZB MED und der USB Köln.

Da das Projekt reibungslos lief und zeitlich voll im Plansoll lag, schauten alle Beteiligten schon im November weiter nach vorn und prüften die Möglichkeit einer Fortführung, bei der man dann die Kataloganreicherung nicht nur retrospektiv, sondern auch für Neuzugänge betreiben wollte. Um möglichst 80% der Neuzugänge im Verbundbereich abzudecken, suchte man geeignete Partnerbibliotheken, um das Projekt in einer zweiten Phase möglichst nahtlos fortzusetzen.

Die zweite Projektphase ist seit Jahresbeginn bereits im Gange; neben der ZB Med und der USB Köln sind nun die ULB Düsseldorf, die UB Paderborn und die ULB Bonn in der Projektgruppe, deren Koordination weiterhin beim hbz liegt. Auch bei den neuen Teilnehmern werden nach dem in Köln erprobten Organisationsmodell Scanarbeitsplätze installiert und Verbindungen zum zentralen MyBib-eDoc-Server geschaltet, der den kompletten Geschäftsgang überwacht.

"Ein Projekt in dieser Größenordnung", sagt hbz-Leiter Hans Ollig, "ist richtungsweisend und bislang in Deutschland einmalig."


Zur Autorin

Astrid Großgarten

ImageWare Components GmbH
Am Hofgarten 20
53113 Bonn
Tel. ++49 (0) 228 / 96985-0
Fax ++49 (0) 228 / 96985-84

info@imageware.de
www.imageware.de