Automatisierte Retrokonversion mit manueller Eigenleistung

Das Retrokonversions-Projekt der Universitätsbibliothek der TU Berlin


Abstract

Vorbemerkung
1 Ausgangssituation
2 Verlauf des Projektes
3 Bewertung des Projektverlaufs und Kosten

von Thomas Hesse

Vorbemerkung

Würde es eine Wunschliste für die Retrokonversion von Alt-Katalogisaten geben, stünde die manuelle Online-Erfassung sicherlich ganz weit oben. Doch oft sind die dafür notwendigen Mittel nicht so ohne weiteres aufzubringen. Immerhin bewegt sich dieses Konversionsverfahren derzeit in einer finanziellen Größenordnung von ca. 1 bis 2 Euro je erzeugtem Datensatz. Die UB der TU Berlin hat sich im August 2002 nicht zuletzt aus diesem Grund für ein automatisiertes Verfahren entschieden, welches jedoch durch einen integrierten Eigenleistungs-Anteil ganz entscheidend gestaltet wurde. Seit Januar 2005 ist das Projekt abgeschlossen und die Zufriedenheit mit dem Ergebnis immerhin so groß, dass wir es guten Gewissens als Alternative zur Online-Erfassung vorstellen wollen.

1 Ausgangssituation

Ausgangssituation war ein nach den Preußischen Instruktionen (PI) geführter Zettelkatalog mit insgesamt 1,8 Mio. Titelkarten. Seit 1990 wird an der TU elektronisch katalogisiert. In der Folgezeit gab es eine manuelle Retro-Katalogisierung bis einschließlich Erscheinungsjahr 1985 sowie weitere singuläre Konversionsmaßnahmen. Die Titelkarten der davon betroffenen Bestände wurden aus verschiedenen Gründen nicht aus dem Zettelkatalog entfernt. Seit 1999 wird die Bibliotheks-Software ALEPH 500 eingesetzt. Die Einführung des Lokalen Integrierten Bibliothekssystems (LIBS) hatte zur Folge, dass auch Kurz-Katalogisate ("Ausleih-Dummy") in den OPAC (Online Public Access Catalogue) gelangten. Zwischen dem zu konvertierenden Zettelkatalog und den im OPAC bereits enthaltenen Nachweisen gab es demzufolge keine klare Abgrenzung. Eine Schnittmenge von Titelaufnahmen unterschiedlichster Qualität war in beiden Katalogen enthalten.

Es war von Anfang an ein erklärtes Ziel, die Nachweise aus dem Zettelkatalog in den regulären OPAC zu überführen. Zum einen, um den Medienbestand in einem einzigen Recherchepool anbieten zu können und zum anderen, um alle Ausleihfunktionalitäten des LIBS auch für diesen Bestand einzusetzen. Die Erfahrung hatte gezeigt, dass Kataloge (egal welcher Art) außerhalb des OPAC von der Kundschaft nicht in dem gewünschte Maß wahrgenommen und genutzt werden. Hinzu kam auch noch der zeitliche Aspekt. Die Notwendigkeit einer Retrokonversion relativiert sich mit zunehmendem Alter der zu konvertierenden Daten. Bestandsnachweise müssen präsentiert werden, solange das Interesse an den Medien inhaltlich ist und nicht nur historischen Charakter hat. Medien, die mangels unzulänglicher Präsentation nicht genutzt werden, sind totes Kapital. Insofern war es für die UB einfach an der Zeit und in Hinblick auf den Bezug ihres Bibliotheksneubaus im 2. Halbjahr 2004 sogar dringend geboten, die Bestandsnachweise von vor 1985 online verfügbar zu machen. Diese Zielsetzung war nicht ohne eine gewisse Kompromissbereitschaft zu erreichen.

Um die Kompromisse bei der Übernahme der PI-Titelaufnahmen in den OPAC auszugleichen, sollte ein Elektronischer Zettelkatalog ("Image-Katalog") mit Bestellfunktion (IPAC) aufgebaut werden, der auch langfristig im Hintergrund als eigenständiges Rechercheinstrument zur Verfügung stehen soll. Da alle Retro-Titelsätze im OPAC mit dem jeweiligen Titelkarten-Image des IPAC verlinkt wurden, ist jederzeit eine Verifikation von Retro-Titelsätzen aus dem OPAC sowohl für den Benutzer als auch für die bibliothekarische Nachbearbeitung möglich.

2 Verlauf des Projektes

An dem Projekt beteiligt waren neben der Universitätsbibliothek die beiden Firmen SATZ-RECHEN-ZENTRUM Berlin (SRZ) und Ex Libris GmbH sowie die KOBV-Zentrale. Die Durchführung des Projekts hat ziemlich genau zwei Jahre in Anspruch genommen (16.11.2002 - 28.12.2004). Ein kürzerer Realisierungszeitraum wäre möglich gewesen, doch durch den Umzug der UB in einen Neubau und die damit einhergehende Zusammenlegung mehrerer Zweigstellen zur neuen Zentralbibliothek waren Anpassungen erforderlich. Da die Retro-Daten natürlich entsprechend der Neubausituation umgesetzt werden sollten, gab es eine zeitliche Abhängigkeit zwischen Projektabschluss und Neubaubezug.

Das Retro-Projekt war mehrstufig angelegt:

Phase Beschreibung Verfahren Durchführung
1 Elektronischer Zettelkatalog (IPAC) automatisiert SRZ
2 Imagebearbeitung manuell UB
3a Umwandlung der Images in Textdateien (OCR-Bearbeitung) automatisiert SRZ
3b Dubletten-Ermittlung innerhalb der OCR-Sätze automatisiert SRZ
4a Abgleich der OCR-Sätze am Retro-VK <VKR> automatisiert SRZ
4b Übernahme der VKR-Daten und Aufbau von Retro-Sätzen automatisiert ExLibris
5 Dublettenermittlung und Übernahme der Retro-Sätze in den OPAC automatisiert ExLibris
6 Nacharbeiten manuell UB

Projektphase 1: Elektronischer Zettelkatalog (IPAC)

Alle 1,8 Mio. Titelkarten des Zettelkatalogs wurden mit einer Auflösung von 400 dpi gescannt. Das Scannen erfolgte an Durchzugsscannern der Modelle Scamax 2500. Die Images wurden im Format TIFF G4 gespeichert. Für die spätere Recherche im IPAC wurden die Ordnungswörter jeder 50. Titelkarte manuell erfasst (Leitkarten). Die Erfassungsgenauigkeit lag bei einer Stichprobenmenge von 400 Leitkarten bei 99,7%. Die Suche im IPAC erfolgt über die Leitkarten sowie über ein Suchfeld zur Stringsuche mit automatischer Rechts-Trunkierung. Für die Blätterfunktion (vorwärts/rückwärts) von Katalogkarte zu Katalogkarte wurden die Schrittweiten 1, 5, 10 und 25 festgelegt. Ausgehend vom Image kann online eine Magazin-Bestellung veranlasst werden. Das vom Benutzer ausgefüllte Bestellformular wird zusammen mit dem Image auf einem Drucker im Magazin ausgegeben. Die Ausleihverbuchung erfolgt dann im LIBS. Der IPAC wird bereits seit August 2003 als separate Datenbank neben dem OPAC angeboten. Er verfügt über eine eigene Bestellfunktion.

Alle nachfolgenden Arbeitsschritte der Retrokonversion setzen auf den gescannten Katalogkarten auf. Der Zettelkatalog hatte seinen Dienst erfüllt und wurde nach Projektende makuliert. Aus diesem Grunde erfolgte auch die Phase 2, bei der die gescannten Titelkarten manuell systematisch reduziert wurden (s.u.), erst nach dem Scanvorgang (auch eine umgekehrte Vorgehensweise wäre denkbar gewesen, d. h. zunächst manuelle Reduzierung der Titelkarten, dann scannen): es sollte nach Abschluss des Projektes der komplette UB-Katalog weiterhin vorhanden sein, wenn schon nicht in Papierform, dann zumindest in elektronischer (gescannter) Form.

Projektphase 2: Imagebearbeitung

Diese Projektstufe war eine unabdingbare Voraussetzung für die anschließende OCR-Bearbeitung (OCR = Optical Character Recognition), also die Umwandlung der Images in Textdateien und die Übernahme dieser OCR-Datensätze in den OPAC. Die Titelkarten (in dieser Projektphase waren es dann schon die Images) mussten für die nachfolgenden Bearbeitungsschritte aufbereitet werden. Da für diese Aufgabe nicht nur gute Katalog- und (Haus-)Regelwerkskenntnisse, sondern auch spezifisches Wissen über das Signaturensystem und die Zweigstellensituation der UB erforderlich waren, wurde diese Maßnahme bibliotheksintern durchgeführt. Natürlich spielten bei diesen Überlegungen auch Kostengesichtspunkte eine gewisse Rolle. Die Imagebearbeitung war eine Leistung der gesamten UB. Jeder, der die erforderlichen Kenntnisse besaß, durfte/musste mithelfen - also nicht etwa nur die Diplombibliothekare, sondern ebenso die Bibliotheksangestellten des mittleren Dienstes, die Fachreferenten und auch die Direktion.

Die Unterschiede zwischen den Titelkarten eines PI-Zettelkatalogs und Titelsätzen in einem OPAC dürften allgemein bekannt sein. Es war notwendig, die 1,8 Mio. Images in Hinblick auf ihre Übernahme in den OPAC zu klassifizieren:

1. Soll aus einem Image ein Titel- und ggf. Exemplarsatz aufgebaut werden?

2. Muss der Titelsatz nach Übernahme in den OPAC manuell nachbearbeitet werden?

Insgesamt wurden acht Klassifikationsgruppen festgelegt, über die sowohl die weitere Bearbeitung der Images (OCR-Bearbeitung Ja oder Nein, VKR-Abgleich Ja oder Nein, Übernahme in den OPAC mit bzw. ohne Exemplarsatz) als auch die unvermeidlichen Nacharbeiten im OPAC gesteuert wurden bzw. werden. Jeder Klassifikationsgruppe wurde ein Code (Kartencode) zugewiesen:

Code

steht für

n

Normale Hauptaufnahme (= einbändiges Werk bzw. Stücktitelaufnahme)

a

Aufführungskarte einer Schriftenreihe ohne Stücktitelaufnahme

i

- Monographischer UB-Bestand mit Erscheinungsjahr 1985 ff

- Verweisungen (auch In-Verweisungen und NüVw, jedoch nicht Personennamen-Verweisung)

- Schriftenreihe ( Deckkarte)

- Mehrbändiges Werk (Aufführungskarte)

- "Echte" Zeitschrift [= Nachweis in der ZDB] (Deckkarte und Aufführungskarte)

usw.

m

- Mehrbändiges Werk (Deckkarte)

- Internationaler Kongress [mehrbändig] (Aufführungskarte)

f

Folgekarte(n) (= 2. oder ggf. weitere Titelkarte, die aufgrund des Umfangs der bibliographischen Beschreibung für ein Katalogisat erforderlich war)

k

Internationaler Kongress [einbändig] (Aufführungskarte)

p

Personennamen-Verweisung

x

Wildcard, wenn in seltenen Ausnahmefällen kein konkreter Kartencode vergeben werden konnte

Die Klassifizierung war jedoch nur ein Teilaspekt der Imagebearbeitung. Die Zweigstellenangabe auf den Katalogkarten erfolgte an der UB traditionell als Stempelaufdruck. Stempelaufdrucke sind meist nicht wirklich waagerecht und haben selten klare Konturen. Über OCR lässt sich deswegen kein verwertbares Ergebnis erzielen. Auch die Signaturangaben, die später beim Dublettenabgleich noch eine wichtige Rolle spielen werden, erwiesen sich diesbezüglich als problematisch. In Abhängigkeit zum Kartencode wurden bei der Imagebearbeitung daher auch die besitzende Zweigstelle und die Signatur manuell erfasst. Kartencode, Zweigstelle und Signatur werden später auch Bestandteil der Retro-Titelsätze.

Die Imagebearbeitung erfolgte online. Ein Datei-Ordner enthielt jeweils die Images eines Katalogschubes. Die Datei-Ordner wurden sukzessive auf die an der Erfassung beteiligten UB-Mitarbeiterinnen und Mitarbeiter verteilt, genauer gesagt in eigens dafür eingerichtete "persönliche" Verzeichnisse im UB-internen Netz abgelegt. Eine automatisierte Auswertung der in diesen Verzeichnissen jeweils aktuell enthaltenen Datei-Ordnern machte es möglich, die weitere Ver- oder Umverteilung von Ordnern flexibel zu handhaben.

Die Erfassung der Daten erfolgte in eine Eingabemaske, die zusammen mit dem Image auf dem Bildschirm angezeigt wurde. Die eingegebenen Daten wurden formalen Prüfungen (Feldinhalts- und Feldabhängigkeitsprüfungen) unterzogen. Ein Vorwärtsblättern in den Images, ohne dass bestimmte Pflichteingaben vorgenommen wurden, war nicht möglich. Abschließend bearbeitete Ordner wurden per Programm aus dem "persönlichen" Verzeichnis entfernt und auf dem Server gesichert. Nach insgesamt 4.958 Arbeitsstunden waren alle Images bearbeitet.

Projektphase 3a: Umwandlung der Images in Textdateien (OCR-Bearbeitung)

Die Bearbeitung der Images mit einer reinen OCR-Software führt noch zu keinem brauchbaren Ergebnis. Begleitende Optimierungsverfahren sind unverzichtbar. Folgende Verfahren wurden eingesetzt:

Es war weder notwendig noch aus Kostengründen vertretbar, alle Images in OCR-Datensätze umzuwandeln. Für die Umwandlung der Images in OCR-Datensätze gab es folgende Vorgaben:

Kartencode

Anzahl der Images

Umwandlung in OCR-Sätze

n

786.195

ja

i

945.494

nein

a

22.381

ja

m

73.285

ja

f

8.300

Ja, in Verbindung mit dem vorangehenden Image

k

11.118

Wurden manuell erfasst wegen der Fingierung deutscher Titel

p

28.910

nein

x

4.402

ja

Im Endergebnis musste von den ursprünglich 1,8 Mio. Images nur knapp die Hälfte (48,2%) in Textdateien umgewandelt, also mit OCR-Verfahren bearbeitet, werden.

Das Ergebnis der bibliotheksinternen Imagebearbeitung wurde Bestandteil des betreffenden OCR-Satzes. Jeder OCR-Satz erhielt einen Link zum Image. Wenn bei der OCR-Bearbeitung ein Zeichen, ein Wort oder ggf. auch der gesamte Feldinhalt nicht zuverlässig erkannt wurden, wurde stattdessen die Zeichenfolge "YYY" eingetragen. Diese Zeichenfolge kann online recherchiert werden und ermöglicht somit eine manuelle Nachbesserung.

Der Anspruch, den man an die OCR-Bearbeitung insgesamt stellen kann, steht und fällt natürlich auch mit der Qualität der Vorlagen. Erfreulicherweise befanden sich die Titelkarten des Alphabetischen Zettelkatalogs in einem vergleichsweise guten Zustand. In sehr vielen Fällen konnten über die OCR-Bearbeitung die folgenden drei Elemente einer PI-Titelaufnahme erkannt und in jeweils eigene Felder übernommen werden:

Was aber sind "sehr viele Fälle"? Es ist in der Tat nicht ganz einfach, diese Aussage zu präzisieren. Es muss zwischen der Interpretationsgenauigkeit der eingesetzten OCR-Verfahren und dem tatsächlichen Vorhandensein der betreffenden Angaben auf einer Titelkarte differenziert werden. Es gibt z.B. Sachtitelschriften und es gibt die Deckkarte eines mehrbändigen Werkes. Sachtitelschriften haben laut Regelwerke keinen 1. Verfasser und auf der Deckkarte eines mehrbändigen Werkes muss nicht zwingend ein Erscheinungsjahr angegeben sein. Die Klassifizierung der Images bei der UB-internen Bearbeitung kann hier zwar nur bedingt weiterhelfen, aber für einen Bewertungsversuch dürfte es reichen.

Im Vergleich zu einer Verfasserangabe in der Kopfzeile mit dem Aufbau "Nachnahme" Komma Blank "Vorname" ist das Erscheinungsjahr auf einer PI-Titelaufnahme bei der OCR-Bearbeitung relativ schwierig zu lokalisieren. Es befindet sich im Gegensatz zur Verfasserangabe auf eher relativer Höhe oder Breite zum Titelkartenrand. Es kann ausschließlich aus einer Ziffernfolge bestehen oder auch aus einer Ziffernfolge, die durch runde oder eckige Klammen eingeschlossen bzw. unterbrochen ist.

Bei 738.342 Images mit Kartencode "n" (= normale Hauptaufnahmen), die per Definition ein Erscheinungsjahr haben müssten, wurde bei der OCR-Bearbeitung in 728.949 Fällen (= 98,73%) ein Erscheinungsjahr "geortet" und interpretiert. 500 dieser interpretierten Erscheinungsjahre wurden überprüft. In 99,1% der Fälle war die OCR-Interpretation korrekt.

Beispiel:


OCR-Satz (Die Feldbenennung entspricht noch dem interimistischen Bearbeitungsstadium)

SYSNT4820451
076xn
100xFulda, Dietrich
331xHandbuch für den Spülversatz im Kalibergbau
425x1966
655xT4820451.TIF
750x8 R 4047/2
Fu!da, D:etr:ch Handbuch für den Spu!versatz !m KaHbergbau. Von
D!ei-r!ch Futda^ Georg Grucho^ Arno M!cha!z!k. Le<pztgs Deutscher
Ver!. für Grundstoff!ndustr!e 1966. 236 S. 8° CMschr.autogrJ
(Ka!:-Bucher. ßd2.) AA!t L!teraturverze!chn!s ^^^^ ^' 227-232.
^<^ 6'^^ %^ ^
Z01 HB
S01 8R4047/2


Feld-Erläuterung:
076x= Kartencode (Imagebearbeitung)
100x= 1. Verfasser
331x= Hauptsachtitel
425x= Erscheinungsjahr
655x= ID-Nummer des Images (für die Verlinkung vom Titelsatz zum Image)
750x= Ergebnis der "Roh"-OCR-Erkennung, also ohne die Optimierungsläufe
Z01= Zweigstellencode (Imagebearbeitung)
S01= Signatur (Imagebearbeitung)


Sonderfall: Internationale Kongresse

Anzeige

Bekanntlich wurden die "Internationalen Kongresse" zu PI-Zeiten unter einem fingierten deutschen Titel im Zettelkatalog nachgewiesen. Da die Ordnungswörter der PI-Kopfzeile nicht verwertbar waren, kam eine OCR-Bearbeitung dieser Titel nicht in Betracht. Die Kongress-Titelkarten mussten manuell erfasst werden. Es sind folgende Angaben von der Titelkarte übernommen worden:

Feld 331: Sachtitel, Kongressbezeichnung, Berichtsangabe (in Reihenfolge der Vorlage).
Anschließend mit einleitendem Punkt Spatium (.) das Veranstaltungsjahr

Feld 425: Erscheinungsjahr

Insgesamt wurden 14.017 Images auf diese Art manuell erfasst. Die Erfassungsgenauigkeit lag bei einer Stichprobenmenge von 200 Images bei 99,6%.

Projektphase 3b: Dubletten-Ermittlung innerhalb der OCR-Sätze

Im Alphabetischen Zettelkatalog waren die Nachweise grundsätzlich zweigstellenspezifisch. War derselbe Titel in unterschiedlichen Zweigstellen vorhanden, wurde für jede Zweigstelle eine eigene Titelkarte eingelegt. Derartige Mehrfachnachweise im Zettelkatalog führen zu unerwünschten Titel-Dubletten im OPAC. Um die Anzahl dieser Fälle zumindest zu reduzieren, wurden bei den einbändigen Verfasserschriften (sofern Personenname, Sachtitel und Erscheinungsjahr bei der OCR-Bearbeitung zuverlässig erkannt wurden) die Mehrfachnachweise ermittelt und zusammengeführt. Eine Ausweitung dieses Verfahrens auch auf Sachtitelschriften oder mehrbändige Werke war aufgrund der geringeren Anzahl von Vergleichsfeldern (entweder fehlte der Personenname oder das Erscheinungsjahr) nicht ratsam.

Durch die Zusammenführung von Mehrfachnachweisen konnte die Gesamtmenge der OCR-Sätze um 47.853 Sätze (= 6,09%) auf 738.342 Sätze reduziert werden.

Projektphase 4a: Abgleich der OCR-Sätze am Retro-VK

Über den Abgleich der Retro-Daten mit den Datensätzen aus dem Verbundkatalog maschinenlesbarer Katalogdaten deutscher Bibliotheken - Retro-VK (VKR) - sollten die OCR-Sätze zu möglichst vollwertigen Titelaufnahmen aufgewertet werden. Der VKR ist mit seinen knapp 10 Mio. Hauptaufnahmen zwar eine ergiebige Fundgrube und vom ehemaligen Deutschen Bibliotheksinstitut (DBI) auch speziell für Retrokonversionszwecke aufgebaut worden. Bedauerlicherweise ist er aber nicht ganz frei von Dubletten.

Nicht für alle OCR-Sätze war ein Abgleich gleichermaßen empfehlenswert. Berücksichtigt wurde letztlich der Großteil der OCR-Sätze mit Kartencode "n" (= normale Hauptaufnahmen). Der Abgleich erfolgte über den Namen des 1. Verfassers (sofern vorhanden) sowie über Sachtitel und Erscheinungsjahr. Es gab im Vorfeld verschiedene Testläufe. Letztlich wurden folgende Parameter eingesetzt:

Feld 100: Zeichenfolge bis zum Komma (also nur der Verfassernachname u. a. wegen der Normierung deutscher Vornamen; z.B. Karl statt Carl)
Feld 331: Die ersten 50 Zeichen des Sachtitels
Feld 425: Nur Ziffern

Die Inhalte der Abgleich-relevanten OCR- und VKR-Felder wurden für die Suchanfrage aufbereitet (z.B. Umlaute auf den Grundbuchstaben reduziert), damit irrelevante Abweichungen in den Zeichenfolgen nicht zu einem Null-Treffer-Ergebnis führen.

Es wurden insgesamt 724.606 OCR-Sätze an den h-Sätzen des VKR abgeglichen. Zu 551.213 OCR-Sätzen (= 76,07%) wurden Treffer ermittelt. Davon hatten 384.292 Sätze (= 69,72%) nur einen Treffer im VKR und 166.921 Sätze (= 30,28%) führten im VKR zu Mehrfachtreffern. Im Falle von Mehrfachtreffern wurde derjenige VKR-Satz zum Favoriten, der innerhalb einer vorher festgelegten Rankingliste der VKR-Datenlieferanten (erkennbar an der ID-Nummer des Datensatzes) die beste Platzierung hatte. Bei Mehrfachtreffern zu Sachtitelschriften wurde allerdings aufgrund der Dublettensituation im VKR auf eine Übernahme der VKR-Daten verzichtet. Letztlich waren es 463.938 OCR-Sätze (=64,03%), die mit VKR-Daten angereichert wurden.

Da die Übernahme der Daten in den OPAC von der Firma Ex Libris betreut werden sollte, war es für den weiteren Projektverlauf vorteilhafter, zunächst nur die ID-Nummer (IDN) des favorisierten VKR-Satzes in den OCR-Satz zu übernehmen, noch nicht die eigentlichen Feldinhalte.

Projektphase 4b: Übernahme der VKR-Daten und Aufbau von Retro-Titelsätzen

Anhand der in den OCR-Sätzen enthaltenen VKR-IDN wurde von der KOBV-Zentrale eine Datei mit den betreffenden VKR-Sätzen aufgebaut. Die UB erstellte eine Positivliste, welche VKR-Felder in den Retro-Titelsatz übernommen werden sollten. Dadurch wurde verhindert, dass unerwünschte Feldinhalte (z.B. lokale Verknüpfungsnummern) in den Retro-Titelsatz einfließen. Die Liste enthielt aber auch bestimmte Übernahmekonditionen z.B. in Bezug auf die festen MAB-Felder, den Hauptsachtitel oder die Personennamen. Beim Abgleich am VKR wurde z.B. nur der Verfasser-Nachname berücksichtigt. Die Übernahmekondition für Personennamen besagte beispielsweise, dass der vollständige Name aus dem OCR-Satz immer dann als weitere Namensverweisung in den Retro-Titelsatz übernommen werden sollte, wenn er nicht zeichengenau im MAB-Feld 100 bzw. den 101er Feldern des VKR-Satzes enthalten war. Unabhängig von den VKR-Daten gab es eine Konkordanztabelle, wie die interimistischen Felder eines OCR-Satzes in die MAB-Struktur des Retro-Titelsatzes umzusetzen sind. In diesem Zusammenhang wurde auch das Ergebnis der Imagebearbeitung sowie die Treffersituation (einfach/mehrfach) des VKR-Abgleichs in die anwenderspezifischen Felder des Retro-Titelsatzes übernommen.

Projektphase 5: Dublettenermittlung und Übernahme der Retro-Sätze in den OPAC

Vor der eigentlichen Übernahme der Sätze in das LIBS wurden noch eine ganze Reihe von Maßnahmen durchgeführt, die vor allem den Bereich der Exemplardaten betrafen. Es sollten ja nicht nur einfach Retro-Sätze in die Titeldatenbank übernommen werden, sondern in der Mehrzahl der Fälle aus einem OCR-Satz ein Retro-Titel- und ein oder mehrere Exemplarsätze generiert werden. Für bestimmte Exemplarsatzfelder wurden feste Feldinhalte vorgegeben. Auch mussten der Standort-Code (u.a. für Freihand- oder Magazinaufstellung) ebenso wie der Exemplarstatus (für die Ausleihkondition) und die Materialart zugewiesen werden. Da die UB über ein recht aussagekräftiges Signaturensystem verfügte, konnten die Exemplarangaben sehr differenziert zugeordnet werden.

Der letzte Schritt direkt vor dem Einspielen der Daten in das LIBS war der Dublettenabgleich zwischen den Retro-Sätzen und den bereits im LIBS vorhandenen Daten. Der Abgleich erfolgte zwischen den bei der Imagebearbeitung erfassten Signaturen (OCR-Signaturen) und den Signaturen aus dem LIBS (LIBS-Signaturen).

Für Retro-Sätze mit Kartencode "a", "m" oder "x" wurden ohne weitere Prüfung nur Titelsätze angelegt (keine Exemplarsätze), da bei der Imagebearbeitung keine Signaturen bzw. nur die Grundsignatur bei mehrbändigen Werken erfasst wurden. Retro-Sätze mit Kartencode "n" oder "k" erhielten dagegen immer auch einen Exemplarsatz. Wurde bei Kartencode "n" oder "k" keine Signatur-Dublette gefunden, wurden die Retro-Daten ins LIBS eingespielt. War eine OCR-Signatur dublett zu einer LIBS-Signatur, wurde zunächst die "Qualität" des betreffenden LIBS-Titelsatzes geprüft. Handelte es sich um ein Kurz-Katalogisat wurde der Dummy-Titelsatz durch den Retro-Titel überschrieben. Handelte es sich dagegen um einen vollständigen "regulären" Titelsatz wurde der Retro-Satz abgewiesen. In beiden Fällen blieb jedoch der mit dem LIBS-Titelsatz verknüpfte Exemplarsatz unverändert.

Beispiel eines mit VKR-Daten angereicherten Retro-Titels im Katalogisierungsmodul:


Das Ergebnis der Datenübernahme in Zahlen:


Übernahme der Retro-Sätze

Anzahl

Retro-Titel, die neu in die Titeldatenbank geladen wurden

713.930

Retro-Titel, die ein Kurz-Katalogisat überschrieben haben

68.499

Retro-Titel, die aufgrund der Dublettenprüfung nicht geladen wurden

67.099

Exemplarsätze, die geladen wurden

784.615


Situation im LIBS nach der Übernahme der Retro-Daten

Abgesehen von der Imagebearbeitung ist das Retro-Projekt automatisiert durchgeführt worden. Auch wenn alle Programme fehlerfrei durchgelaufen sind, ist die Qualität des Ergebnisses abhängig

713.930 neue Retro-Titelsätze im LIBS und 68.499 mit OCR-Daten überschriebene Kurz-Katalogisate sind zweifelsfrei eine ganz wesentliche Verbesserung der Nachweissituation. Unsere Kundschaft hat die neue Situation sehr positiv aufgenommen. Die deutlich angestiegenen Ausleihzahlen sind signifikant.

Verfahrensbedingt waren jedoch auch Zugeständnisse zu machen:

Auf diese Zugeständnisse hatten wir uns von Anfang an eingestellt. Wir wussten aber auch, dass es sich zumindest in einigen Fällen nur um temporäre Zugeständnisse handeln würde. Die letzte Projektphase "Manuelle Nachbearbeitung" ist inzwischen angelaufen. Über die Kennzeichnungen in den Titel- und Exemplarsätzen kann die Abfolge und Qualität der manuellen Nachbesserung fast beliebig angesteuert und gesteigert werden.

3 Bewertung des Projektverlaufs und Kosten

Wie immer war alles ein klein wenig komplizierter, als man es sich zu Anfang gedacht und vielleicht auch gewünscht hat. Bei einem Projekt dieser Größenordnung ist es einfach unmöglich, alle Eventualitäten bereits im Vorfeld zu erkennen und in die Leistungsbeschreibung bzw. die Umsetzungsvorgaben aufzunehmen. Auch wenn es keine echten Überraschungen gab, bestimmte Detail-Anpassungen sind nicht ausgeblieben. Ein über viele Jahrzehnte geführter Zettelkatalog besitzt zumindest eine Eigenschaft, die an einen lebenden Organismus erinnert: Gewisse "Erkrankungen" werden erst bei der "Autopsie" festgestellt. Wer wäre "zu Lebzeiten" jemals auf die Idee gekommen, Signaturangaben in einem Zettelkatalog auf Erfassungsfehler (und damit potentielle Signatur-Dubletten) zu überprüfen. Retrokonversion ist in gewissem Sinn auch "Autopsie".

Ebenso ist es bei sehr komplexen Vorgaben auch für Profis nicht immer möglich, diese gleich auf Anhieb in ein absolut fehlerfreies Programm umzusetzen. Die beteiligten Unternehmen haben sich dadurch ausgezeichnet, dass sie sowohl auf Änderungswünsche der UB ausgesprochen flexibel reagiert, als auch die kleinen Fehler, die beim Testen entdeckt wurden, rasch und zuverlässig behoben haben. Es existierte überhaupt eine sehr engagierte Zusammenarbeit, bei der spürbar war, dass die beteiligten Personen ein hohes Interesse an einem positiven Arbeitsergebnis hatten.

Die Kosten eines derartigen Projektes hängen von vielen Parametern ab, von den lokalen Gegebenheiten, von besonderen Anforderungen, von Zusatzwünschen, die sich möglicherweise erst im Verlaufe des Projektes ergeben - und natürlich von den Preisen, die von dem am Projekt beteiligten Firmen in Rechnung gestellt werden. Diese Firmen sehen es aus Konkurrenzgründen in der Regel nicht gern, wenn ihre Preise in detaillierter Form veröffentlicht werden, und das ist natürlich zu respektieren. Für das hier dargestellte Projekt kann aber mitgeteilt werden, dass im Haushalt der TU Berlin dafür in zwei aufeinanderfolgenden Jahren je 107.000 Euro bereitgestellt wurden, und dieser Betrag reichte annähernd auch aus. Rechnet man die erbrachte Eigenleistung im Umfang von ca. 5.000 Arbeitsstunden hinzu (s. Projektphase 2) und berücksichtigt sie mit 20 Euro pro Stunde, liegen die Gesamtkosten des Projektes bei ca. 320.000 Euro.


Zum Autor

Thomas Hesse ist Leiter der

Abt. Monografien und Reihen
Universitätsbibliothek
Technische Universität Berlin
Fasanenstraße 88
D-10623 Berlin
E-Mail: hesse@ub.tu-berlin.de