iCapture 1.0 bringt Inhaltsverzeichnisse in Bibliothekssysteme und verbessert die Recherche

von Manfred Hauer

Bei Fachliteratur enthält das Inhaltsverzeichnis meist alle wesentlichen Schlüsselworte und Phrasen, die es dem Leser gestatten, sich eine Vorstellung vom Inhalt zu machen und die Gewichtung der einzelnen Kapitel zu erkennen. Dennoch verfügen elektronische Bibliothekssysteme in der Regel nicht über die Möglichkeit, Inhaltsverzeichnisse zu zeigen. Erst der Gang zum Bücherregal vermittelt den nötigen Einblick.

Angesichts der zunehmenden Bedeutung von eLearning in Lehre, Bildung und Forschung und angesichts der großen Zahl dezentral organisierter Unternehmen wird die räumliche Distanz zum Buch zunehmend größer. Folglich muss das Buch dem Leser in elektronischer Form entgegen kommen. Der OPAC war der erste Schritt, das Inhaltsverzeichnis ist der zweite.

iCapture 1.0 wurde für die Vorarlberger Landesbibliothek in Bregenz entwickelt. Dort sind alle 1,5 Millionen Medien mit dem Bibliotheksverwaltungssystem ALEPH von ExLibris formal und inhaltlich erschlossen. Doch das i-Tüpfelchen fehlte bislang noch: der Zugang zu den Inhaltsverzeichnissen von Büchern und anderen Publikationen. Einerseits sollen die Inhaltsverzeichnisse nach der Katalog-Recherche am Bildschirm aufgeschlagen werden können. Andererseits kann man, wenn man sich die Arbeit des Scannens gemacht hat, gleich zwei Schritte weitergehen. Erstens können die entstandenen Images mittels OCR-Technik in Texte zurückverwandelt werden, zweitens können solche Texte dann auch maschinell indexiert werden. Denn in den Inhaltsverzeichnissen kommen die Worte nicht immer in ihrer für die Recherche sinnvollen Grundform vor. Singular/Plural, Kasus und Komposita machen die Recherche oft erfolglos, obwohl der Inhalt eigentlich verfügbar wäre. Die einfache Volltextsuche ist zwar notwendig, aber nicht hinreichend.

iCapture 3.0 wurde unter Lotus Notes & Domino 5.08 entwickelt. Die Bücher werden mit einem normalen Barcode-Scanner und der Eingabe der Seitenzahl kurz erfasst, danach öffnet sich sofort der Scanner-Treiber. Sobald die Seitenzahl erreicht ist, schließt das Scanner-Programm automatisch. Dieses Scan-Programm ist immer von der gewählten Hardware des Scanners abhängig. Ohne äußeres Zutun erkennt das vollständig in Lotus Notes integrierte Programm Adobe Acrobat Capture 3.0, dass eine neue Datei mittels OCR in ein PDF und einen Text für die automatische Indexierung verwandelt werden soll. Mehrere Arbeitsschritte laufen automatisch ab und der Fortschritt wird in einem Notes-View graphisch dargestellt.

Da kein Erkennungsverfahren perfekt arbeitet, ist auch die Nachkorrektur von OCR-Fehlern implementiert. Ausschließlich dieser Korrektureditor mit dem Namen Quickfix kommt als Adobe Produkt in den Vordergrund. Jedes weitere Setup und alle sonstigen Anzeigen sind so natürlich in Notes integriert, als wären sie als Grundfunktion von IBM mitgeliefert worden. Das Ergebnis ist eine PDF-Datei mit allen Seiten des Inhaltsverzeichnisses, nicht als Image, sondern als recherchierbarer Text. Der Text sieht aus wie gedruckt. Eine Retrieval-Engine, die das PDF-Format unterstützt, z.B. die standardmäßig in Lotus Notes & Domino implementierte GTR-Engine, findet darin jedes Wort.

ALEPH sieht eine Volltext-Speicherung und -Recherche nicht vor, wohl aber die Recherche in einem begrenzten Abstract-Feld. Genau dorthin und in einige andere Felder schreibt iCapture 1.0 nach der maschinellen Indexierung die wesentlichen sinntragenden Worte. Diese komplexe Aufgabe der Indexierung übernimmt die CAI-Engine, so als ob ein Mensch den Inhalt lesen und in Stichworten wiedergeben würde. CAI steht bei den AGI-Information Management Consultants in Neustadt / Weinstrasse für "Computer Aided Indexing" - dahinter stehen Entwicklungen des IAI in Saarbrücken. Mittels linguistischer Verfahren werden zunächst für alle Worte die Grundformen ermittelt. Dahinter stehen keine vollständigen Worte im Sinne eines Wörterbuchs, sondern überwiegend sogenannte Morpheme, im Deutschen über 60.000. Englisch und Spanisch benötigen 42.000 Einträge, Französisch hat etwas weniger. Zu diesen Speziallexika kommen zahlreiche Regeln, Grammatiken und auch ein Thesaurus mit semantischen Relationen. Somit werden Einzelworte und typische Wortgruppen erkannt. Statistische Regeln führen zu einer Gewichtung und die wichtigsten Terme werden ausgeben. Dabei entstehen Gruppen:

  1. Länder, Regionen, Städte, Stadtteile
  2. Personen und Unternehmen
  3. Branchen, Tätigkeitsfelder
  4. Sachdeskriptoren: Einzelwörter, die aus dem internen Thesaurus stammen, also evtl. nur sinngemäß im Ausgangstext vorhanden waren
  5. wichtige Worte und Phrasen aus dem Text
  6. Maschinelle Zusammenfassung (was nur bei Volltexten, nicht aber bei einem Inhaltsverzeichnis brauchbare Resultate liefert)

Alle Indexierungsfelder sind in iCapture editierbar.

Das Ergebnis der maschinellen Indexierung, eine URL auf das Inhaltsverzeichnis im PDF-Format und die zu Anfang mit dem Barcode-Reader erfasste Signatur werden dann in einem ALEPH-Format an ALEPH exportiert.

ALEPH ist ein weltweit erfolgreiches Bibliotheksprogramm. Es wird von Universitätsbibliotheken und anderen Organisationen mit gehobenen Ansprüchen gern genutzt. Dennoch ist iCapture 3.0 mit ALEPH keineswegs verheiratet. Derartige Austauschformate sind auch bei anderen Programmen definiert. Jede Art von Dokument kann eingescannt und verarbeitet werden - auch strukturierte Formulare.

Der Bibliotheksbenutzer recherchiert nach erfolgreicher Vorarbeit im Katalog und findet durch die importierten Daten der maschinellen Indexierung die von ihm gewünschte Literatur leichter als bisher und er hat einen genaueren Zugriff. Über die URL öffnet sich das Inhaltsverzeichnis und dort ist über den Acrobat Reader eine String-Recherche möglich. Solche String-Recherchen sind sinnvoll. Juristische Fachbücher zum Beispiel haben im Durchschnitt Inhaltsverzeichnisse von mehr als acht Seiten Länge, auch 30 Seiten kommen vor.

Die PDF-Dateien können auf einem Server im File-System abgelegt werden. Dies wird über ein einfach zu bedienendes Setup geregelt. Das ist der normale Weg im Web. Alternativ dazu und wirkungsvoller kann das PDF in der iCapture-Archiv-Datenbank unter Lotus Domino, d.h. auf dem Lotus Notes & Domino-Server verwaltet und als Volltext recherchiert werden. Auch hier wird über eine URL der Link hergestellt. Die Speicherung in einer Domino-Datenbank eröffnet viele weitere Optionen wie beispielsweise die Recherche direkt in der PDF-Datei, andere Suchmasken, thesaurusbasierte Suchen, mehrsprachige Suchen, Austausch mit anderen Servern, automatischen eMail-Versand u.v.m.

Neben den Inhaltsverzeichnissen bietet iCapture genauso die Möglichkeit, Schriften zu erfassen, die urheberrechtlich nicht oder nicht mehr geschützt sind: Alte Schriften und aktuelle wissenschaftliche Veröffentlichungen wie Diplom- oder Doktorarbeiten. Adobe Acrobat Capture 3.0 kann den Satz und die Schriftarten gleich oder sehr ähnlich abbilden. Somit kommt die elektronische Kopie dem Original sehr nahe, doch auch ein PDF-Image ist möglich, wenn es keine passenden Fonts mehr gibt.

Mit der Lotus Notes & Domino-Replikationstechnik ist es einfach, die Software laufend zu aktualisieren. In Bregenz wurde nur ein Notes Client installiert und über das Internet an einen Server der AGI-Information Management Consultants angebunden.


Zum Autor

Dipl. Inf. wiss. Manfred Hauer M.A.
AGI-Information Management Consultants
Mandelring 238 b
D-67433 Neustadt / Weinstraße

E-Mail: Manfred.Hauer@agi-imc.de
URL: http://www.agi-imc.de