B.I.T.online Heft 3/2004: Kalkulierbare Dubletten??

Kalkulierbare Dubletten??

1. Einleitung - Rahmenbedingungen
2. Lösungsansatz
3. Die Stichprobe
4. Durchführung
5. Zusammenfassung
6. Literaturverzeichnis

von Harald Jele

1. Einleitung - Rahmenbedingungen

Vor einigen Jahren befanden wir uns in der allseits bekannten Situation, dass einer unserer Mitarbeiter in ein erweitertes Tätigkeitsfeld mit eingebunden werden konnte, dessen spezifische Qualifikationen besonders in einem Gebiet ausgeprägt waren, die uns mit seiner absehbaren Pensionierung verloren gehen sollten.

Da es sich bei den angesprochenen Qualifikationen - wie die Projektbeschreibung noch zeigt - wesentlich um Fertigkeiten¹ handelte, die auch durch effizientes Wissensmanagement innerhalb der Einrichtung nicht "konservierbar" waren, wurde die Idee geboren, diese nicht mehr alltäglichen Fähigkeiten für einen Teil der ihm im Betrieb "verbleibenden Zeit" zu nutzen.

Eine Möglichkeit, diese Qualifikationen für den weiteren Projektverlauf zu nutzen, war die Einbindung des Mitarbeiters in die Überarbeitung eines handgeschriebenen Bestandsverzeichnisses der Bibliothek. Konkret handelte es sich dabei um jenes Inventar, das die Signaturen 1-26177 ausweist.

Für die Art der Überarbeitung wurde vereinbart, dass die Ergebnisse des Projekts u.a. die Herstellung einer elektronischen Form des Ausgangsmaterials darstellen sollen; eine andere, wie z.B. eine rein maschinenschriftliche Form wurde ausgeschlossen.²

Ein Teilziel dieses Projekts lag somit in der Retrokatalogisierung eines spezifischen Bestands in den Online-Katalog. Die in dem betreffenden Inventar verzeichneten Druckwerke sind vielfach deutsche Übersetzungen griechischer und lateinischer Klassiker überwiegend des 18. und 19. Jhs. sowie jene Werke in deutscher Sprache, die wohl zu den meistverlegten aus dieser Zeit zählen. Die neuesten Ausgaben darunter datieren jedenfalls in die Zeit vor 1925.

Zu bedenken waren dabei allerdings auch eine Reihe von "Wenn und Aber", die in Summe letztlich überwiegend aus Zeitmangel verhinderten, dass das Projekt vollständig durchgeführt oder gar abgeschlossen werden konnte:

Bildschirmarbeit, die evtl. durch diesen Kollegen geleistet werden sollte, konnte nicht in dessen Arbeitsweise eingeplant sein, denn eine spezifische Sehbehinderung und die daraus resultierte Befreiung von Arbeiten am Computer ließ eine solche nicht zu
unterstützende Methoden der modernen Katalogisierung³, die durch Online-Systeme typischerweise geleistet werden, waren dementsprechend nicht einsetzbar und konnten nur außerhalb seines Einsatzgebietes (nachträglich) verwendet werden
eine möglichst kurze Einarbeitungszeit in die Erfassung von bibliographischen Informationen unter Berücksichtigung des Regelwerkes "RAK-WB" auf der Basis von MAB2 musste garantiert sein - anderenfalls rechtfertigte die erbrachte Leistung keinesfalls den Umfang des Ergebnisses.

2. Lösungsansatz

Die vorgegebenen Rahmenbedingungen machten die Entwicklung und den Einsatz unkonventioneller Methoden notwendig. Diese fußten letztlich alle in der Entscheidung, dass der Bearbeiter⁴ in "möglichst gewohnter Form" sämtliche notwendigen Informationen "auf Papier" erfasst und diese an eine weitere Person übergibt, deren Wissen um die weitere Verarbeitung im Idealfall sehr gering sein können sollte.⁵

Die Erfassung der (bibliographischen und bestandsrelevanten) Daten geschah zwar in sehr konventioneller Art und Weise; trotzdem wurde dabei darauf geachtet, dass diese zumindest in einer spezifischen, strukturierten Form durchgeführt wird, die nachfolgend möglichst fehlerfrei maschineninterpretierbar ist.

Anschließend wurden die so erstellten Blätter durch weitere Verarbeitung mit Methoden der OCR (Optical Character Recognition) in computerlesbare Textfiles umgewandelt. Diese wiederum wurden durch entsprechende Programme geprüft und zu passenden Datensatzstrukturen aufbereitet, sodass sie in den Verbundkatalog und anschließend durch Replikation in den lokalen Bibliothekskatalog online - und im Arbeitsgang möglichst unterbrechungsfrei - geladen werden konnten.

Beim Laden dieser Datensätze wurde zur Minimierung des Aufwandes bewusst darauf verzichtet, eine maschinell gesteuerte oder gar intellektuell durchgeführte Dublettenkontrolle anzuwenden.

Im Vorfeld des Projekts sowie im laufenden Betrieb wurde jedoch durch Bildung von Stichproben überprüft, ob eine Abschätzung der Menge an zu erwartenden Dubletten möglich ist.

Abbildung 1: Schematische darstellung des Arbeitsablaufs

Die hier zu bewältigende Aufgabenstellung war letztlich zu zeigen, ob durch ein relativ einfach zu handhabendes statistisches Verfahren - unter den hier angegebenen Rahmenbedingungen - nützliche Aussagen über den zu erwartenden Fehler getätigt werden können, wenn angestrebt wird, eine bestimmte Anzahl von Titeldubletten aus einer vorgegebenen Menge an zu verarbeitenden Datensätzen nicht zu überschreiten.

In Abb. 1 ist der vollständige Arbeitsablauf schematisch dargestellt.

3. Die Stichprobe

Die von uns gewählte Vorgehensweise zielte im Wesentlichen ja darauf ab, Datensätze auf der Basis "strukturierter Texte" aufzubereiten und diese in weiterer Folge in das Bibliothekssystem zu laden, ohne zu überprüfen, ob diese bereits im System vorhanden sind.

Wenn also ein zu ladender Titeldatensatz bereits vor dem Laden im System vorhanden war, so hätten wir einen doppelten Eintrag zu ein und demselben Titel erzeugt. Unter der Prämisse, dass solche Dubletten zu vermeiden sind bzw. keinesfalls bewusst erzeugt werden dürfen, galt es, im Vorfeld der Titelerfassung zu entscheiden, ob eine "eher große" oder eine "eher kleine" Menge an bereits vorhandenen Titeln zu erwarten ist.⁶

Abbildung 2: Lokalsystem der Universität Klagenfurt: Verteilungsstruktur der zählbaren Titel pro Jahr im Bereich 996-1925. Zählung vom Nov. 2000

Abbildung 3: Bibliothekssystem des Österreichischen Bibliothekenverbundes: Verteilungsstruktur der zählbaren Titel pro Jahr im Bereich 996-1925. Zählung vom Nov. 2000

Diese Abschätzung wurde im hier beschriebenen Projekt zudem wesentlich davon beeinflusst, dass Titel nicht direkt in das lokale Bibliothekssystem geladen, sondern dass diese in einem ersten Schritt - entsprechend den üblichen Arbeitsabläufen des Österreichischen Bibliothekenverbundes - in das Verbundsystem eingebracht wurden. Einmal im Verbundsystem gespeichert, wurden diese durch einen Kopiervorgang (Replikation) in das lokale System übernommen. Für die Bestimmung der zu erwartenden Titeldubletten war daher notwendig, beide Systeme zu betrachten.

Zur Sichtung der Bestandszahlen wurde zu Beginn die Anzahl der bereits in beide Systeme eingebrachten Titel der Erscheinungsjahre 996-1925 ermittelt.⁷ In Schritten von fünf Jahren wurde die Anzahl der vorhandenen Titel maschinell gezählt und die daraus resultierende Verteilungskurve graphisch aufbereitet.⁸Für das letztlich gewählte statistische Verfahren ist die Gesamtmenge der gezählten Titel nicht wesentlich.

Der Vergleich zwischen den Abbildungen 2 und 3 zeigt, dass für den gesamten, betrachteten Jahresbereich die Menge der auffindbaren Titel pro Jahreszahl im Verbundsystem wesentlich größer ist als im Lokalsystem der Universität Klagenfurt. Wesentlich für die Bestimmung des Stichprobenumfangs (bei ausgezählten Werten) ist für unser Verfahren jedoch, dass die beiden Systeme eine sehr ähnliche (eigentlich: die gleiche) Verteilungsstruktur aufweisen. Vor allem der für unser Vorhaben wesentliche Betrachtungszeitraum von 1796-1925 zeigt bei genauerer Betrachtung passende Verteilungswerte.⁹

Aus diesem Grund kann der Stichprobenumfang für beide Systeme gleich gewählt werden - und es ist nicht weiter nötig, die Stichproben entsprechend einer speziellen Strategie zu ziehen.

Für die Berechnung bzw. Schätzung des Stichprobenumfangs wählten wir jenen Ansatz, der z.B. in Sachs (1992, S.444) referiert wird. Dabei wird im Wesentlichen davon ausgegangen, dass bei gezählten Werten der Mindestumfang einer Stichprobe nicht von der zu untersuchenden Grundgesamtheit abhängt.¹⁰ Vielmehr ist davon auszugehen, dass Werte für die "Sicherheit" der zu erwartenden Ergebnisse (bei uns: 90%) sowie Werte für die Genauigkeit der durchzuführenden Messung (bei uns: 10±5%) angenommen werden müssen. Entsprechend dieser Vorgaben errechnet sich der Stichprobenumfang wie folgt:

aus der Sicherheit von 90% ergibt sich

bei Einhaltung einer Genauigkeit von

diese Werte sind anzuwenden auf

Abbildung 4: Die durch ein Zufallsverfahren ausgewählten Signaturen im errechneten Umfang von 100 aus der Menge 1-26177

Der nach oben abgeschätzte Wert sagt aus, dass aus den zu überprüfenden Signaturen 1-26177 100 ausgewählt werden müssen. Durch ein Zufallsverfahren wurden diese (vgl. Abb. 4) ermittelt - und die zugehörigen Titel anschließend sowohl im Verbundkatalog als auch im lokalen Katalog auf deren Vorhandensein geprüft.

Anhand der Stichprobenliste zeigte sich, dass bei der Erstellung des händischen Inventars nicht alle Signaturen durchgehend verwendet wurden: einige fehlten, bzw. es waren kleinere Lücken zu erkennen. Aus diesem Grund wurde für den Fall entschieden, die jeweils nächst höhere, tatsächlich verwendete Nummer zur Stichprobe heranzuziehen. Die Überprüfung zeigte, dass von den 100 überprüften Titeln sieben (7) im Verbundkatalog und keiner im lokalen Katalog vorhanden waren. Das heißt, dass beim Laden dieser 100, zufällig ausgewählten Katalogdatensätze (in den Verbundkatalog) 7% Dubletten erzeugt würden.

Zur manuellen Dubletten-Prüfung der Titel sind jedoch noch folgende Beobachtungen anzumerken: Aus den bibliographischen Beschreibungen, die im Verbundkatalog in sieben Fällen aufgefunden wurden, konnte der - obwohl sehr geschulte - Bearbeiter nicht immer eindeutig feststellen, ob der im Katalog nachgewiesene Titel seinem Werk vollständig entspricht oder (bloß) ein sehr ähnliches Werk anführt. Das hat in einem Fall dazu geführt, dass wir keine Entscheidung herbeiführen konnten, ohne das entsprechende Werk aus der nachweisenden Bibliothek zu bestellen. In zwei weiteren Fällen konnten wir uns darauf verständigen, im Zweifelsfall den bibliographischen Nachweis als Dublette anzusehen. Die Gründe dafür lagen jedenfalls in den allermeisten Fällen in der für diese Zeit typischen Gestaltung der Werk-Titelseiten: Die für uns wesentlichen bibliographischen Informationen zur Dubletten-Kontrolle fehlten zuweilen oder waren nicht immer eindeutig interpretierbar.

Aus dieser Erkenntnis ergab sich für uns zudem die Haltung, dass wahrscheinlich viele der von uns produzierten Dubletten sich als solche nur in jenen Fällen zeigen, in denen der bibliographische Datensatz mit dem entsprechenden Werk direkt verglichen werden kann.¹¹

4. Durchführung

Die "Datenerfassung" geschah in diesem Fall - wie bereits angedeutet - mit einer (noch nicht ausgemusterten) Kugelkopf-Speicher-Schreibmaschine auf normalem, weißen Papier im Format A4.

Auf diesem wurden im oberen Bereich die bibliographischen Informationen - ausgerichtet in zwei Spalten - geschrieben:

Abbildung 5: Monographische Titelaufnahme mit Schreibmaschine

Abbildung 6: Katalogisat mit Bandangabe auf Papier

Die linke Spalte beinhaltete im wesentlichen die Kennung der MAB2-Kategorien, -Indikatoren und -Teilfelder (dafür konnten im Verlauf des Projekts auf der Basis von Erfahrungswerten Vorlagen erstellt werden, die, ähnlich einer Bildschirm-Schablone, zeitsparend gefüllt wurden).

Neben den üblichen Kategorien wurden zur Vereinfachung der weiteren Verarbeitung Kennungen vermerkt, die im Zuge der Umwandlung in Datensatzstrukturen jedoch wieder entfernt oder einfach missachtet wurden.

So wurde z.B. mit der Kennung LNR die Datensatznummer vor der Textumwandlung mittels OCR vermerkt, die in weiterer Folge (nach der erfolgreichen Verarbeitung) bedeutungslos wurde, die Kennung TYP (mit den zulässigen Werten "MONO" für monographische Katalogisate und "HIER" für hierarchisch gegliederte Titelaufnahmen) vermerkte den Datensatztyp, anhand dessen die Vollständigkeit und Korrektheit der vorhandenen Kategorien geprüft wurde sowie die Kennung EOR, die das Ende einer Datenaufnahme anzeigte (vgl. Abb. 5 und 6)

in der rechten Spalte wurden die zugehörigen Kataloginformationen (=die bibliographischen Angaben) in der auch für einen Online-Katalogisierer üblichen Schreibweise (Notation) vermerkt.

Im unteren Blattbereich wurden die spezifischen Exemplardaten vermerkt. Deren Kennungen sind in ähnlicher Weise wie jene der bibliographischen Einträge zu interpretieren; ihre spezifische Bezeichnungsform wurde von uns (willkürlich) frei gewählt:

Die Kategorienkennung IDN beinhaltete den (laufenden) Zählerwert des zugehörigen Titels und bildete somit die Referenz zwischen den einzelnen Exemplaren sowie dem entsprechenden Titel.
Mit BUN wurde der im Buch durch den Bearbeiter eingeklebte Barcode wiedergegeben.
Der Inhalt der Kategorie COL repräsentierte den Standort des Werkes.
Die Kennung LOC wies die Signatur des Werkes aus.

Die anschließende Verarbeitung erfolgte programmgesteuert und - zumindest im Fall, dass keine Fehler in den zu verarbeitenden Daten zu beanstanden waren - in weiterer Folge unterbrechungsfrei. Das heißt, dass für die dafür eingeschulte Bearbeiterin die Anwendung eines "Ein-Knopf-Verfahrens"¹² ausreichte, um aus den maschinenschriftlichen Vorlagen fertige Datensätze im Bibliothekssystem anzulegen.

Jedes maschinengeschriebene Blatt wurde im ersten Programmschritt gescannt. Anschließend wurde mittels gängiger OCR-Software die daraus entstandene Bild-Datei in eine Text-Datei umgewandelt. Aufgrund der Homogenität der Vorlagen-Schrift konnten bereits nach zehn Scan-Durchgängen praktisch fehlerfreie Ergebnisse erzielt werden. Zudem waren im ganzen Projektverlauf keine Fehler durch die Bild-Textumwandlung feststellbar, sodass die übliche OCR-Fehlerrate in diesem Fall völlig vernachlässigt werden konnte.

Jede Textdatei wurde sofort weiter verarbeitet, d.h. die Erstellung der einzelnen Datensätze aus den gescannten Informationen wurde nicht stapelartig¹³ sondern ad hoc verfolgt.

In einem weiteren Schritt wurden die Inhalte der aktuellen Textdatei nach formalen Gesichtspunkten geprüft. Auf der Grundlage der Programmiersprache Perl realisierten wir einen einfachen, sequentiell gesteuerten Parser. Mit diesem wurden - entsprechend unseren Vorgaben - sowohl die maschinengeschriebenen Feldangaben als auch die formale Korrektheit der Feldinhalte geprüft. Zudem mussten dabei jene definierten Abhängigkeiten zwischen einzelnen Kategorien ermittelt (und im Fehlerfall angezeigt) werden, die durch die kombinierte Anwendung von MAB2 und RAK-WB vorgegeben sind.¹⁴

Neben der Fehlerkontrolle wurden beim Parsing¹⁵ der Texte erste Schritte zur Datenaufbereitung unternommen. Da mit moderner Hardware der Zeitaufwand für diese Programmschritte im Bereich von Milli-Sekunden nicht mehr wirklich messbar und zudem subjektiv nicht erkennbar ist, wurde entschieden, sämtliche Schritte der weiteren Verarbeitung (die Ladevorgänge in das Bibliothekssystem ausgenommen) in jedem Fall durchzuführen; nämlich auch dann, wenn schon beim Parsing-Prozess Fehler erkennbar waren.¹⁶ Die hier mitgeführte Aufbereitung beinhaltete Schritte wie z.B. die Eliminierung überflüssiger Leerzeichen oder die Ersetzung jener Sonderzeichen, die auf dem Kugelkopf der Schreibmaschine nicht vorhanden waren und deshalb durch Ersetzungszeichen angemerkt werden mussten.¹⁷

Jenen Textdateien, die aufgrund der Prüfungen soweit korrekt erschienen, dass sie in weiterer Folge ins Bibliothekssystem geladen werden konnten wurden anschließend jene "kodierten Angaben" hinzugefügt, die Datensätze entsprechend den Vorgaben von MAB2 in maschinenlesbaren Verfahren besser interpretierbar gestalten. Dazu gehören neben den Informationen zum Leader (LDR) u.a. die Angaben innerhalb der Kategorien 030 und 051.¹⁸

Nachdem Titel- und Exemplarinformationen im vorhandenen Bibliothekssystem durch unterschiedliche Routinen zu laden sind, wurden diese in verschiedene Datensätze aufgespalten und entsprechend den günstigsten Ladevorgaben getrennt gespeichert.

Als Ladeformat kam das systemeigene Templateformat zur Anwendung, das im Client der Bibliothekssoftware auch dazu verwendet wird, "Schablonen" für die Katalogisierung vorzubereiten, mit denen in der Routinearbeit wiederkehrende Tätigkeiten abgekürzt werden. Da diese dem Client direkt in seinem Programmverzeichnis zugänglich sind, wurde dieses Verzeichnis so eingerichtet, dass sämtliche Prüf- und Schreibroutinen dort Schreib- bzw. Lesezugriff haben.

Nach der Prüfung und Aufbereitung einer Textdatei in das entsprechende Format waren die einzelnen Datensätze bis zum Prozess des Ladens in diesem Verzeichnis abgelegt.¹⁹

Die eigentlichen Ladeskripts wurden mit einer einfachen Skriptsprache realisiert, die Zugang zu den wichtigsten Basisfunktionen des Betriebssystems bietet. In unserem Fall wurde dies mittels dem Programm "MacroExpress" realisiert.²⁰

Die Reihenfolge der Speicherung erfolgte nach den im Verbundsystem des Österreichischen Bibliothekenverbundes zur Zeit üblichen Vorgaben:

Titelspeicherung im Verbund
Kopieren des Titels in das Lokalsystem und Speicherung dort
Verknüpfung eventuell vorhandener, lokaler Bestandsangaben mit den lokal gespeicherten Titeldatensätzen (dabei werden zudem jene Bestandsangaben in das Verbundsystem repliziert, die für eine konsistente, verbundweit gültige Bestandsanzeige - wie z.B. die Zeitschriftenbestände aus Kat.200 - notwendig sind)
Verknüpfung der Exemplare mit den lokal gespeicherten Titeldatensätzen (dabei werden zudem rudimentäre Exemplarangaben in das Verbundsystem repliziert).

Der Einsatz der eben beschriebenen Methode zum Laden von Daten hatte zudem den Vorteil, dass dem Laden nicht das übliche Indizieren "extra" nachfolgen musste. Für das System wurden Daten ja in einer Weise geladen, als wären besonders fleißige Bearbeiter am Werk und entsprechend dem Verhalten, dass neu eingebrachte Daten über die genutzten Bearbeiter-Schnittstellen ohnehin vom System indiziert werden, musste auf eine gesonderte Indizierung nicht weiter Rücksicht genommen werden.

5. Zusammenfassung

Die Methode, mit statistischen Verfahren einen möglichen "Fehler" beim Datenladen (hier: das Produzieren von Titel-Dubletten) abzuschätzen, hat sich als brauchbar erwiesen.

Der alternative Ansatz, ein maschinelles oder intellektuell unterstütztes Prüfverfahren anzuwenden, ist im Gegensatz dazu als wesentlich teurer und zeitaufwändiger anzusehen und (wie im Text angesprochen) auch maschinell sehr schwierig umzusetzen, ohne dabei eine allzu große Fehlerrate zu akzeptieren (vgl. dazu z.B. auch Jele 2001, S.65-66).

Dies kann als ein wesentliches und letztlich auch praktikables Ergebnis des hier vorgestellten, eher unkonventionellen Projektansatzes gesehen werden, bei dem ein handgeschriebenes Bibliotheksinventar über den Umweg (auf Papier) neu erstellter, maschinengeschriebener Kataloginformationen in den Bestand des Online-Katalogs des Österreichischen Bibliothekenverbundes "geladen" wurde.

Der letztlich größte Zeitaufwand war für den Scan-Vorgang zu reservieren, da jede A4-Seite vollständig gescannt werden musste. D.h., die Anschauung eines schnell arbeitenden Einzugscanners im Einsatz mit geringer Auflösung führt dazu, den Zeitaufwand bei der elektronischen Verarbeitung möglichst zu minimieren. Die weiteren Programmschritte wie das OCR, die Prüfung und Aufbereitung der Daten sowie das Laden in die Systeme stellen einen eher unwesentlichen Zeitfaktor da.

6. Literaturverzeichnis

6.1 Gedruckte Quellen

Dürr, Walter & Mayer, Horst (1987): Wahrscheinlichkeitsrechnung und schließende Statistik. 2., vollst. durchges. und verb. Auflage. Hanser, München

Jele, Harald (2001): Informationstechnologien in Bibliotheken. Oldenbourg, München

Sachs, Lothar (1992): Angewandte Statistik. Anwendung statistischer Methoden. Siebente, völlig neu bearbeitete Auflage. Springer, Berlin

6.2 Online-Quellen

Programmpaket, das zum Scripting des Clients der Bibliothekssoftware verwendet wurde: http://www.macroexpress.com

Der von uns eingesetzte Perl-Parser: http://www.uni-klu.ac.at/ub/ub-edv/projekte/bock/code/bock.pl.txt

Verzeichnis der Abbildungen:
http://www.uni-klu.ac.at/ub/ub-edv/projekte/bock/graphiken/alle abbildungen.pdf

Zum Autor

Dr. Harald Jele ist Leiter der Abteilung EDV-Administration und -Entwicklung der Universitätsbibliothek Klagenfurt

Universität Klagenfurt
Universitätsstraße 65-67
A-9020 Klagenfurt
Fax: 0043-463-2700-9599
E-Mail: harald.jele@uni-klu.ac.at

Fußnoten

1. Wie das flüssige Lesen der Deutschen Kurrentschrift oder der selbstverständliche Umgang mit Titelangaben in altgriechischer und lateinischer Sprache.

2. Es sollten in diesem Sinn aus den Einträgen des Bandkatalogs keine konventionellen Katalogkarten hergestellt werden. Eine solche Vorgehensweise wäre wohl zudem nicht unbedingt zeitgemäß.

3. Dies meint vor allem eine "formale Prüfung", der Einsatz von elektronischen "Schablonen" ("Templates"), automationsunterstützte Abbildung von Titel-Hierarchien, die sich bei Einsatz von RAK-WB ergeben und entsprechend Reihen oder Bandangaben mit den zugehörigen Stücktiteln durch "Verlinkung" wiedergeben etc.

4. Der hier ausschließlich in seiner Rolle als Experte zur regelkonformen Informationserschließung gesehen wird - und dem unter den in den Rahmenbedingungen genannten Prämissen - möglichst gewohnte Arbeitsweisen geboten werden müssen.

5. In unserem Fall kam dafür eine kurz angelernte Person zum Einsatz, deren Anlernzeit im Bereich von wenigen Stunden lag.

6. In der Ermittlung der zu erwartenden Mengen lag somit auch die weitere Entscheidung, ob ein solcher Weg gangbar - also von uns im Verbund vertretbar - ist.

7. An dieser Stelle ist darauf hinzuweisen, dass die ermittelte Anzahl der eingebrachten Titel, die auf Erscheinungsjahre bis 1496 hinweisen, in vielen Fällen auf Tippfehler zurückzuführen ist. Dies stört in weiterer Folge jedoch weder die Ergebnisse noch die gewählte Vorgehensweise

8. Zu beachten ist, dass die hier ausgewertete Zählung vom Nov. 2000 stammt. Auf dieser Zählung beruhen zudem sämtliche daraus abgeleiteten oder in Folge berechneten Werte.

9. Da in diesem Text nicht alle Abbildungen wiedergegeben werden können, sind diese unter folgendem Link vollständig einzusehen: http://www.uni-klu.ac.at/ub/ub-edv/projekte /bock/graphiken/alle abbildungen.pdf

10. Dieser Ansatz findet sich u.a. auch in Dürr & Mayer (1987, S.136-137).

11. Also vor allem nur unter jenen Umständen, die von Bibliothekaren liebevoll als "Autopsie" bezeichnet werden :-) Da eine solche Titel-Autopsie durch Benutzer und Bearbeiter im üblichen Fall nicht (systematisch) anzunehmen ist, ist die Anzahl der durch dieses Verfahren subjektiv wahrnehmbaren Titel-Dubletten zudem als wesentlich geringer anzusehen als die Anzahl der tatsächlich produzierten und objektiv messbaren.

12. Tatsächlich konnte ein solches "Ein-Knopf-Verfahren" auch real - und nicht nur sinngemäß - umgesetzt werden: durch den am Scanner stirnseitig markant angebrachten Start-Knopf konnte zugleich der Programmstart für sämtliche, nachfolgende Programmschritte ausgelöst werden.

13. "Stapelartig" meint hier: in einem klassischen Batch-Verfahren.

14. Erinnert sei an dieser Stelle zudem auf die Bedeutung der bereits genannten, den bibliographischen Beschreibungen und Bestandsangaben hinzugefügten Hilfskategorien MONO und HIER, aus denen bei der formalen Prüfung von Kategorienabhängigkeiten zudem darauf geschlossen werden konnte, welche Kategorien mindestens vorhanden sein müssen. Die beschreibbaren Abhängigkeiten werden in diesem Text nicht weiter erläutert; sie sind jedoch aus den Programmquellen vollständig ermittelbar. Vgl.: http://www.uni-klu.ac.at/groups/ub/ub-edv/projekte/bock/UnserPerlCode.pl.txt

15. Dessen Aufgabe sich im Grunde ja darauf beschränkte, die maschinengeschriebene, blattorientierte, externe Textrepräsentation in eine Perl-interne Hash-orientierte Datenstruktur überzuführen, die in weiterer Folge besser programmtechnisch zu verwalten war.

16. Dadurch konnten in vielen Fällen auch bessere (umfangreichere und aussagekräftigere) Fehlerprotokolle für den Bearbeiter erstellt werden.

17. In unserem Fall wurde z.B. das Zeichen "I" als Ersetzungszeichen für ein "[" ausgewählt bzw. ein Zeichenpaar, das aus der Kombination von "I". . . und . . ."I" bestand wurde in weiterer Folge durch ein Zeichenpaar bestehend aus "[". . .und . . "]" ersetzt

18. Beispiele dazu sind in den Abbildungen 7 und 8 zu erkennen.

19. Nach dem Laden wurden diese zwar nicht gelöscht, aber aus Gründen geringerer Fehleranfälligkeit in ein definiertes Zielverzeichnis verschoben.

20. Vgl. dazu: http://www.macroexpress.com
Eine Lösung mittels "WSH" (=Windows-Scripting-Host) oder "VBA" (=Visual Basic for Applications) kam in diesem Fall nicht in Frage, da der Client der Bibliothekssoftware zu beiden keine programmierbare Schnittstelle (API, Application Programmable Interface) bietet.