Tippen wie ein Weltmeister

Erfahrungsbericht zum C-Pen-20 Lesestift

von Manfred Hauer

Wie kann man in zwei Monaten an drei Maschinen 30.000 Inhaltsverzeichnisse von Konferenzbänden und darin jeden einzelnen Artikel separat erfassen nach Session, Autor, Titel und Seite? Bei durchschnittlich vier Seiten sind 120.000 Seiten abzuschreiben, also 20.000 Seiten pro Maschine und Monat oder 1000 Seiten pro Tag, wenn man das Wochenende blau machen will.

Auch wenn es sich nur um eine Sprache handeln würde, wäre wohl keine Schreibkraft dazu in der Lage. Konkret geht es aber um mehr als ein Dutzend Sprachen und viele spezielle Fachbegriffe und fremde Namen. Wie wäre es mit maschineller Spracherkennung? Selbst wenn sie die Vielzahl der Sprachen und die Komplexität der Begriffe erkennen könnte, was derzeit noch nicht realistisch ist, wäre auch dies viel zu langsam. Wer kann schon 1000 Seiten an einem Tag vorlesen und dabei gezielt von Feld zu Feld springen, Namen und Fachbegriffe buchstabenweise diktieren?

Genau diese Aufgabe dennoch zu lösen, hat sich AGI vorgenommen, weil derzeit einige Bibliotheken diese Anforderung stellen. Mit ihrem Werkzeug intelligentCAPTURE scannt sie an der SUB Göttingen die oben genannten 30.000 Inhaltsverzeichnisse und noch 12.000 weitere, die keine Sammelschriften sind. Mittels OCR-Software werden die Images in Texte zurückverwandelt. 1000 Seiten pro Tag sind an sich für Durchlaufscanner und OCR-Systeme keine grandiose Herausforderung mehr, doch Durchlaufscanner eignen sich nicht für Bücher. Auch die neuesten Buchroboter würden hier scheitern, denn ihre Justierung dauert wesentlich länger als das manuelle Scannen mittels eines flotten Flachbettscanners. Doch 1000 Seiten aus 250 Büchern pro Tag herauszuholen sind noch immer eine Herausforderung. Der Rekord bei intelligentCAPTURE liegt bei über 600 Büchern pro Tag, ein Ausreißer. Der Durchschnitt liegt derzeit noch unter 400 oder unter 300 Titeln pro Tag, inklusive Aushebung und Rückstellung - je nach Arbeitssituation und Fachgebiet. Doch der OCR-Text allein ist nicht die Lösung des Problems, sondern bestenfalls eine Vorstufe.

Der kleine C-Pen-20 ist der Ansatz zur effizienten Lösung. Kaum größer als ein dicker Füller enthält das kleine Gerät einen kompletten Computer, der über USB-Kabel seinen nötigen Strom bekommt. C Technologies aus Schweden entwickelt diese Lesesysteme, welche mit ein wenig Licht den zu erfassenden Text ausleuchten und mittels OCR von Abbyy in Text verwandeln. Über 160 Sprachen kann Abbyy bisher verarbeiten, somit auch der kleine C-Pen-20. Alles was zwischen 5 und 22 Punkt Schriftgröße liegt, kann erkannt werden.

Ebenso auch alle gängigen Barcode-Schriften, selbst wenn ein spezieller Barcode-Font gar nicht eingestellt ist. Die für dezidierte Barcode-Scanner typische, umständliche Programmierung ist überflüssig. ISBN, Buchnummer, meist verschiedene Barcode-Fonts liest er problemlos und in beliebiger Reihenfolge. Auch rein numerische Eingaben sind einstellbar.

Wie bei jeder Erkennungstechnologie braucht man etwas Übung, um schnell und effizient voranzukommen. Doch dann sind bis zu 15 cm Text pro Sekunde lesbar, von links nach rechts oder umgekehrt.

In dem Digitalisierungsprojekt werden von jedem Sammelwerk, überwiegend Konferenzbände, jeweils nur genau die erste Session, der erste Titel, der erste Autor und die erste Seite eingelesen. Nur diese "Schreibarbeit" fällt für das Projektteam an, also ca. fünf bis zehn Sekunden pro Buch. Bei zehn Sekunden entspricht dies 83 Arbeitsstunden für 30.000 Titel bzw. 14 Stunden pro Scanstation und Monat. Ein überschaubarer Aufwand.

Diese Einheit repräsentiert in dem Text ein Muster, das durch nachfolgende maschinelle Erkennungsverfahren zu erkennen, zu typisieren und auf den gesamten Text anzuwenden ist. Steht die Seitenangabe vor, hinter, über oder unter dem Titel? Wo ist der Autor? Welche Typografie hat die Session? Sind die Titel fett oder kursiv? Diesen Teil der Software, die "Information Extraction" hat AGI noch nicht geschrieben und wird dafür anfangs sicherlich solange brauchen, dass man auch vieles hätte ganz abschreiben können. Doch auch hierfür entwickeln internationale Teams Entwicklungsumgebungen, welche diese schwierige Aufgabe wohl lösen werden. Ab Frühjahr 2008 greift AGI diese Vorleistungen auf. Der schwierigste Teil der Software-Entwicklung steht also noch aus.

Genau 20.000 Konferenzbände hat AGI in einem Projekt mit der TIB Hannover bereits auf diese Weise vorbereitet. Die C-Pens haben den harten Arbeitsalltag bestens überstanden und ordentliche Ergebnisse geliefert. Nicht die durchgehend perfekte Erkennung war das Ziel, sondern ein hinreichend korrektes Muster zu liefern, das später ausgewertet werden kann. Die Qualität, der OCR über Flachbettscanner liegt, deutlich über den kleinen C-Pens, die nicht selten schief, wackelnd, ruckelnd über einzelne Zeilen geführt werden. Die OCR-Software ist also in beiden Fällen von Abbyy, die OCR-Resultate sind aber von Scanner zu Scanner sehr verschieden. Der finale Text kommt über den Flachbettscanner.

Weitere Anwendungen


Zum Autor

AGI - Information Management Consultants
Dipl.-Inf.wiss. Manfred Hauer M.A.
Mandelring 238 b
D-67433 Neustadt/Weinstraße
manfred.hauer@agi-imc.de