Tippen wie ein Weltmeister
von Manfred Hauer
Wie kann man in zwei Monaten an drei Maschinen 30.000 Inhaltsverzeichnisse von Konferenzbänden und darin jeden einzelnen Artikel separat erfassen nach Session, Autor, Titel und Seite? Bei durchschnittlich vier Seiten sind 120.000 Seiten abzuschreiben, also 20.000 Seiten pro Maschine und Monat oder 1000 Seiten pro Tag, wenn man das Wochenende blau machen will.
Auch wenn es sich nur um eine Sprache handeln würde, wäre wohl keine Schreibkraft dazu in der Lage. Konkret geht es aber um mehr als ein Dutzend Sprachen und viele spezielle Fachbegriffe und fremde Namen. Wie wäre es mit maschineller Spracherkennung? Selbst wenn sie die Vielzahl der Sprachen und die Komplexität der Begriffe erkennen könnte, was derzeit noch nicht realistisch ist, wäre auch dies viel zu langsam. Wer kann schon 1000 Seiten an einem Tag vorlesen und dabei gezielt von Feld zu Feld springen, Namen und Fachbegriffe buchstabenweise diktieren?
Genau diese Aufgabe dennoch zu lösen, hat sich AGI vorgenommen, weil derzeit einige Bibliotheken diese Anforderung stellen. Mit ihrem Werkzeug intelligentCAPTURE scannt sie an der SUB Göttingen die oben genannten 30.000 Inhaltsverzeichnisse und noch 12.000 weitere, die keine Sammelschriften sind. Mittels OCR-Software werden die Images in Texte zurückverwandelt. 1000 Seiten pro Tag sind an sich für Durchlaufscanner und OCR-Systeme keine grandiose Herausforderung mehr, doch Durchlaufscanner eignen sich nicht für Bücher. Auch die neuesten Buchroboter würden hier scheitern, denn ihre Justierung dauert wesentlich länger als das manuelle Scannen mittels eines flotten Flachbettscanners. Doch 1000 Seiten aus 250 Büchern pro Tag herauszuholen sind noch immer eine Herausforderung. Der Rekord bei intelligentCAPTURE liegt bei über 600 Büchern pro Tag, ein Ausreißer. Der Durchschnitt liegt derzeit noch unter 400 oder unter 300 Titeln pro Tag, inklusive Aushebung und Rückstellung - je nach Arbeitssituation und Fachgebiet. Doch der OCR-Text allein ist nicht die Lösung des Problems, sondern bestenfalls eine Vorstufe.
Der kleine C-Pen-20 ist der Ansatz zur effizienten Lösung. Kaum größer als ein dicker Füller enthält das kleine Gerät einen kompletten Computer, der über USB-Kabel seinen nötigen Strom bekommt. C Technologies aus Schweden entwickelt diese Lesesysteme, welche mit ein wenig Licht den zu erfassenden Text ausleuchten und mittels OCR von Abbyy in Text verwandeln. Über 160 Sprachen kann Abbyy bisher verarbeiten, somit auch der kleine C-Pen-20. Alles was zwischen 5 und 22 Punkt Schriftgröße liegt, kann erkannt werden.
Ebenso auch alle gängigen Barcode-Schriften, selbst wenn ein spezieller Barcode-Font gar nicht eingestellt ist. Die für dezidierte Barcode-Scanner typische, umständliche Programmierung ist überflüssig. ISBN, Buchnummer, meist verschiedene Barcode-Fonts liest er problemlos und in beliebiger Reihenfolge. Auch rein numerische Eingaben sind einstellbar.
Wie bei jeder Erkennungstechnologie braucht man etwas Übung, um schnell und effizient voranzukommen. Doch dann sind bis zu 15 cm Text pro Sekunde lesbar, von links nach rechts oder umgekehrt.
In dem Digitalisierungsprojekt werden von jedem Sammelwerk, überwiegend Konferenzbände, jeweils nur genau die erste Session, der erste Titel, der erste Autor und die erste Seite eingelesen. Nur diese "Schreibarbeit" fällt für das Projektteam an, also ca. fünf bis zehn Sekunden pro Buch. Bei zehn Sekunden entspricht dies 83 Arbeitsstunden für 30.000 Titel bzw. 14 Stunden pro Scanstation und Monat. Ein überschaubarer Aufwand.
Diese Einheit repräsentiert in dem Text ein Muster, das durch nachfolgende maschinelle Erkennungsverfahren zu erkennen, zu typisieren und auf den gesamten Text anzuwenden ist. Steht die Seitenangabe vor, hinter, über oder unter dem Titel? Wo ist der Autor? Welche Typografie hat die Session? Sind die Titel fett oder kursiv? Diesen Teil der Software, die "Information Extraction" hat AGI noch nicht geschrieben und wird dafür anfangs sicherlich solange brauchen, dass man auch vieles hätte ganz abschreiben können. Doch auch hierfür entwickeln internationale Teams Entwicklungsumgebungen, welche diese schwierige Aufgabe wohl lösen werden. Ab Frühjahr 2008 greift AGI diese Vorleistungen auf. Der schwierigste Teil der Software-Entwicklung steht also noch aus.
Genau 20.000 Konferenzbände hat AGI in einem Projekt mit der TIB Hannover bereits auf diese Weise vorbereitet. Die C-Pens haben den harten Arbeitsalltag bestens überstanden und ordentliche Ergebnisse geliefert. Nicht die durchgehend perfekte Erkennung war das Ziel, sondern ein hinreichend korrektes Muster zu liefern, das später ausgewertet werden kann. Die Qualität, der OCR über Flachbettscanner liegt, deutlich über den kleinen C-Pens, die nicht selten schief, wackelnd, ruckelnd über einzelne Zeilen geführt werden. Die OCR-Software ist also in beiden Fällen von Abbyy, die OCR-Resultate sind aber von Scanner zu Scanner sehr verschieden. Der finale Text kommt über den Flachbettscanner.
Weitere Anwendungen
Viele Studenten ziehen heute Online-Texte den gedruckten Werken vor, nur weil man dort mit Cut+Paste so leicht und schnell Zitate extrahieren kann. Mit dem C-Pen schneidet man aus gedruckten Aufsätzen und Büchern die gewünschten Passagen heraus, sollte aber stets prüfen, ob auch alles richtig erkannt wurde. Wenn Bibliotheken ihre gedruckten Werke aufwerten wollen, sollten sie vielleicht C-Pens ausleihen oder bereitstellen, es muss ja nicht immer ein großer, teuerer Scanner sein, nur um einige Zitate zu gewinnen. Etwa 150 bis 200 Stück C-Pen-20 kosten so viel wie ein Einstiegsmodell bei Buchscannern in Aufsichtstechnik.
Der C-Pen schreibt in jede Anwendung, sei es eine Textverarbeitung, Tabellenkalkulation, ein eMail-Editor, ein persönliches Zitationsprogramm oder in Erfassungsmasken von Datenbanken, Chats, Wikis oder Weblogs. Seine Eingabe entspricht der Eingabe über Tastatur. Vor der Nutzung steht eine Software-Installation; ohne C-Pen ist die Software wertlos. Sie kann also viel öfter installiert werden, als es C-Pens gibt. Nur wer den Lesestift hat, kommt weiter.
Die Erfassungsmasken von Bibliothekssystemen sind, so unser Eindruck, oft noch erstaunlich rudimentär, es sei denn, die Eingaben können vom Bibliotheksverbundserver übernommen werden. Eine automatische Übernahme aus Buchhandelsservern - in unserem AGI-Bestellsystem der Standard - trifft man wohl nur selten. Der C-Pen kann die Lücke schließen. Ob man aus dem Prospekt des Verlags oder aus dem gelieferten Werk Angaben übernimmt, spielt für ihn keine Rolle; fast keine Rolle, denn stark glänzende Werbematerialien und inverse Schriften erkennt er mühsam oder gar nicht. Es kann auch sehr praktisch sein, sich häufig benützte Wertelisten, die im Bibliothekssystem benötigt werden, aber nicht hinterlegt sind oder nur umständlich aufgerufen werden können, auf ein Blatt zu drucken und schnell mit dem C-Pen zu lesen. Dies kann selbst in der Sacherschließung greifen, wo z. B. die 300 wichtigsten Deskriptoren auf ein bis zwei Seiten gesammelt sind.
Wo Buchhandelsdaten nicht automatisiert eingespielt werden, sondern Rechnungen einzeln abgetippt werden müssen, eignet sich der C-Pen, denn diese Texte sind meist gut für den Stift lesbar. Der Stift ist fester Bestandteil der Buchhaltung des Autors.
Wer in Erfassungsmasken durch mehrere Felder springt, Barcode, Text, Zahl als Daten hat, kann von der API-Schnittstelle profitieren. So steuern wir im eingangs erwähnten Projekt automatisch die Sprache und den Lesetyp, sodass zügig und ohne manuelle Konfiguration gearbeitet werden kann. Jedes Feld weiß, was und wie der C-Pen-20 hier lesen soll.
Die Erfassung von Visitenkarten zeigt Grenzen des Readers auf, denn dort finden sich häufig sehr eng gesetzte, kleine Schriftzeilen für Adressen und Kommunikation. Auch Logos übernimmt der C-Pen nicht einfach als Image, was eine Alternative wäre, wenn der Text nicht sicher lesbar ist. An glänzenden Plastikfolien, die nicht selten über Barcodes geklebt werden oder Barcode-Etiketten aus Plastik sind für den Stift nicht gut oder teils auch gar nicht geeignet. Große Überschriften in Zeitschriftenaufsätzen oder Tageszeitungen liegen nicht selten außerhalb des Scanbereichs, schade, aber für rund 100 Euro stimmt die Leistung.
Zum Autor
AGI - Information Management Consultants
Dipl.-Inf.wiss. Manfred Hauer M.A.
Mandelring 238 b
D-67433 Neustadt/Weinstraße
manfred.hauer@agi-imc.de