Millionen Bücher warten auf ihren Online-Auftritt

Microsoft finanziert Massendigitalisierungsprojekt der Britischen Nationalbibliothek

Von Angelika Beyreuther

Pressetermin am 26. September 2007 in London. Projektverantwortliche der British Library und der Hamburger Software-Firma CCS stellen das Digitalisierungszentrum in der Britischen Nationalbibliothek vor. Seit Anfang September werden hier Bücher aus den wertvollen Bibliotheksbeständen "Literatur des 19. Jahrhunderts" gescannt und digitalisiert. Aus 100.000 Büchern oder 25 Millionen Seiten werden in den nächsten zwei Jahren digitale Originale im Umfang von 30 Terrabyte. Die Digitalisierungskosten von geschätzten 2,5 Mill. Euro übernimmt Microsoft. Die British Library übernimmt die Bereitstellungskosten in etwa gleicher Höhe. Freigeschaltet werden erste Resultate zum Jahreswechsel 2007/2008 im electronic reading room der British Library (www.bl.uk) und Microsofts Suchportal Live Search Books (http://books.live.com).

Sicherheit steht hoch im Kurs. Ohne "Flughafencheck" kommt kein Besucher am Personal der British Library (BL) am Haupteingang im Erdgeschoss vorbei. Auch an den Mitarbeitereingängen dieselbe Routine. Dem Unangemeldeten bleibt der nicht-öffentliche Bereich der größten Bibliothek der Welt ganz verschlossen. Drinnen werden Hinweise auf Alarm- und Brandschutzmaßnahmen gegeben: Im Falle des Falles solle man am Platze verharren, bis Mitarbeiter der BL nach draußen geleiten. Gut zu wissen. Denn auch ohne Alarmfall macht sich schnell Orientierungslosigkeit in diesen unendlich scheinenden Gängen und Winkeln und Stockwerken dieser gigantischen Bibliothek breit.


Das Digitalisierungszentrum befindet sich irgendwo da unten in einem der Kellergeschosse. Es alleine noch einmal finden? Unmöglich! Wo die vielen Millionen Medienbestände der Britischen Nationalbibliothek in Magazinen bis zu vier Etagen unter der Erde sorgsam aufbewahrt werden, arbeiten die Hamburger Content Conversion Specialists (CCS). Seit Anfang September scannen sie hier monatlich rund 1 Million Seiten urheberrechtsfreier englischer Literatur des 19. Jahrhunderts und verarbeiten sie zu digitalen Originalen. Der junge Systemingenieur Joachim Bauer ist für den reibungslosen Ablauf im Studio zuständig. Etwa zwei Jahre wird es dauern, bis die 12 Mitarbeiter von CCS, die in zwei Schichten arbeiten, die 25 Millionen Seiten digitalisiert haben. Da die wertvollen Bestände die Britische Nationalbibliothek nicht verlassen dürfen, hat das mittelständische Unternehmen aus Hamburg bei diesem großen Projekt Technik und Personal in die Räumlichkeiten des Auftraggebers verlegt: "Scanning On-Site".

Qualitätsarbeit

"Wir sind uns dessen sehr bewusst, dass wir hier mit Kulturschätzen umgehen", sagt CCS-Geschäftsführer Richard Helle, der gemeinsam mit den Projektverantwortlichen der Bibliothek durch das Digitalisierungszentrum führt. Er zeigt auf den mit Büchern gefüllten Trolly mitten im Raum und die hinter Gittern im benachbarten Zwischenlager wartenden weiteren Kandidaten aus Papier. "Deshalb kommen nur speziell für diese Aufgabe geschulte Mitarbeiter für die Tätigkeit an den Scannern in Frage", betont er. Die Arbeit an den übermannshohen Maschinen sieht auf den ersten Blick nicht anspruchsvoll, nicht aufregend und nicht abwechslungsreich aus.

Das digitale Bild wird mit Hilfe dieser automatisierten Buchscanner erzeugt, bei denen zwei orthogonal angeordnete Hochleistungskameras mit zwei Computern pro Scanner verbunden sind. Obwohl das Umblättern der Seiten von einem Roboter durch Luftsog schonend und vollautomatisch ausgeführt wird, drückt der Operator, der die Bücher zuführt, jede einzelne Seite noch einmal sanft nach unten. Damit wird wohl zusätzliche Aufmerksamkeit eingefordert, denn wirklich nötig scheint dieser manuelle Arbeitsschritt nicht zu sein. Der Scanner kann bis zu 2400 Seiten pro Stunde einlesen und benötigt durchschnittlich etwa zehn Minuten pro Buch. Die Kirtas Technologies aus Victor im US-Bundesstaat New York, deren aktuelles Scanner-Modell hier zum Einsatz kommt, ist seit 2006 Vertragspartner von Microsoft.

Viele Bücher enthalten überdimensionierte, gefaltete Seiten, Foldouts, die auch im digitalen Original erhalten bleiben müssen. Diese werden mit besonders materialschonenden, nicht automatischen Arbeitsschritten am Oberlicht-Scanner des deutschen Scannerspezialisten Zeutschel aus Tübingen von Hand bearbeitet.

Bereits während des Scannens wird die Qualität der Bilder in einer ersten Sichtprobe geprüft. Im nachfolgenden Prozessschritt konvertiert die CCS Software die Bilddaten in Text- und Strukturdaten, die im späteren praktischen Gebrauch die Navigation bei der Recherche ermöglichen werden, und versieht diese mit den Daten aus dem Katalog der BL, danach folgen die technischen Produktionsdaten. Dabei erhält der Operator sofort Details der Konvertierung auf dem Bildschirm, beispielsweise eine permanente Seitensequenzkontrolle, Schärfen- und Helligkeitskontrolle oder den Vergleich mit den Kalibrierungsvorlagen zur Sicherung der Farbtreue. Eventuelle Störungen des Prozesses können damit zeitnah abgestellt werden. Also doch: Die Arbeit ist anspruchsvoll und abwechslungsreich.

Der ganze Digitalisierungsprozess beginnt natürlich zeitlich weit vor dem Scannprozess bei der Auswahl des Materials. "Wir bekommen das Material bis hierher angeliefert", erklärt Richard Helle. Die Mitarbeiter der BL wählen die zu digitalisierenden Bücher aus und prüfen auch gleich, ob deren Zustand die Digitalisierung zulässt. Dann werden einzelne Chargen zusammengestellt. Die im Büchermagazin ausgewählten Bücher werden durch das interne automatische Transportsystem mit Trollys und Wagen bis zum Check-in ins Digitalisierungszentrum geschickt. Dabei ist jedes Buch mit einem Barcode versehen, der den Verweis zu den genauen bibliografischen Daten enthält.

Präzises Abbild des Bestandes

Die von CCS zur Digitalisierung von Büchern entwickelte Software bildet ab hier den gesamten Arbeitsprozess der Digitalisierung bis zur endgültigen Sicherung und Darstellung des konvertierten und gespeicherten Inhalts elektronisch ab. Im Eingang zum Digitalisierungszentrum werden die Bücher per Barcodescanner erfasst. Dadurch ist zu jeder Zeit klar, wo sich ein Buch im Digitalisierungsprozess befindet.

Beim Check-in erfolgt auch eine visuelle Kontrolle des Buches: In welchem Zustand ist es? Hat es z. B. unaufgeschnittene Seiten? Ist die Bindung beschädigt? Sind die Buchdeckel oder einzelne Seiten beschädigt? Ist es zu klein (minimal 11,5 mal 18 cm)oder zu groß (maximal 28 mal 25 cm) für die automatische Digitalisierung? Dieser Vorgang erhebt außerdem wichtige Daten für die Bibliothek, denn sie erhält ein präzises Abbild über den Zustand des Bestandes. In dem kleinen Zwischenlager des klimatisierten Digitalisierungszentrums "warten" die Bücher dann wieder auf den Rücktransport.

Zwei Formate

Die Anforderungen bei dem Projekt in der BL sind hoch. Die Zusammenarbeit zwischen den Mitarbeitern der deutschen Firma und denen der britischen Bibliothek scheint dabei hervorragend zu klappen und Neil Fitzgerald, der verantwortliche Projektmanager der BL, äußerst sich wohlwollend über die Qualität der erzeugten Formate.

Die IT-Infrastruktur wurde den Qualitäts-, Sicherheits- und Produktivitätsbedürfnissen entsprechend angepasst: In einem Rechnerverbund von 20 topmodernen schmalen und schnellen Computern, sogenannten "Blade Servern", einer redundanten Speichereinheit mit 40 Terrabyte (40*1024 Gigabyte) Kapazität und mit einer Netzwerkverbindung von 20 GBit/s (Gigabit/pro Sekunde) zu den Scannern werden die digitalen Originale der Bücher unabhängig vom öffentlichen Stromnetz produziert und in zwei unterschiedlichen Formaten ausgeliefert:

Im Interesse der Qualitätssicherung bleibt das verarbeitete Buch für ca. zwei Wochen im Digitalisierungszentrum. In dieser Zeit wird die Qualität des digitalen Originals durch die Mitarbeiter der British Library geprüft und abgenommen oder in Ausnahmefällen erneut verarbeitet. Dann kommt - ganz am Ende des Prozesses - erneut der Barcode-Scanner am Eingang des Digitalisierungszentrums zum Einsatz. Mit speziellen Rollwagen werden die Bücher nach dem Check-out über das Transportsystem zurück an ihren Platz in die Regale der Bibliothek gebracht.

Unbekanntes wird recherchierbar

Über den genauen Vertragsumfang hüllt Ben White von der BL sich in Schweigen. Soviel ist trotzdem zu erfahren: Die Digitalisierungskosten für den Auftrag übernimmt Microsoft, Microsoft ist damit Vertragspartner von CCS und die Britische Nationalbibliothek stellt die von Bibliotheksseite involvierten Mitarbeiter und das Studio zur Verfügung und übernimmt diese Kosten. "Ziel ist es, den Seitenpreis der Digitialisierung permanent unter 10 Eurocent zu drücken", präzisiert Richard Helle, "da ist aber das Handling, die Logistik und die Vorauswahl noch nicht mitberechnet." Grob geschätzt addieren sich diese Bereitstellungskosten noch einmal auf die gleiche Summe pro Seite wie die Digitalisierung selbst.

Kristian Jensen, Abteilungsleiter British & Early Printed Collections, kommt ins Schwärmen. Bei allen Bemühungen reichten auch hier in dieser großen Bibliothek in der Vergangenheit die Kapazitäten nur für die Schaffung von mehr oder weniger kleinen digitalen Inseln. Vorbei diese mühsamen Zeiten! Zeiten, in denen Titel für Titel für die Digitalisierung abgewogen werden musste und wirtschaftliche Faktoren bestimmten, welche Bücher der Öffentlichkeit zugänglich waren.

Die Massendigitalisierung ermögliche eine kohärente Herangehensweise an die Bestände. Jetzt endlich könnten Werke ganz unbekannter Autoren genauso online recherchiert werden wie die großer und berühmter Namen. Damit entfalle die bisher bei den kleineren Digitalisierungsprojekten notwendige strenge Vorauswahl durch die Bibliothekare, die in dieser Situation dann doch das mehr oder weniger Bekannte auswählten. Und das findet Kristian Jensen ausgesprochen gut. Er nennt Beispiele von Lyrikerinnen des 19. Jahrhunderts. In Zukunft werden viele unbekannte Autorinnen und Autoren und Inhalte recherchierbar, die ohne die Digitalisierung voraussichtlich nie wieder die Aufmerksamkeit der Öffentlichkeit errungen hätten und vielleicht viele weitere Jahrzehnte im Bibliotheksregal auf einen ehrlichen Finder warten müssten. Nach dem Digitalisierungsschwerpunkt "Literatur des 19. Jahrhunderts" sind bereits weitere Themenbereiche wie Geographie und Soziologie angedacht, verrät Jensen. Microsoft fokussiere die inhaltliche Auswahl von Bibliothek zu Bibliothek auf verschiedene Bestände, trotzdem überlappe sich einiges mit den Beständen amerikanischer Bibliotheken, die Microsoft bereits unter Vertrag hat.

Digitale Originale sind Bibliothekseigentum

Die digitalen Originale sind Eigentum der British Library und stehen kostenfrei peu à peu über das Web-Portal der Bibliothek jedem Interessenten weltweit für die Online-Recherche zur Verfügung. "Ein riesengroßer Gewinn für die Nutzer." Davon sind die Projektbeteiligten der British Library überzeugt. Das Interesse am Lesesaal im weltweiten Netz spricht für sich. Als die BL die berühmte Bibel aus der Werkstatt Gutenbergs online stellte, gab es eine Million Besucher in sechs Monaten! Die Interaktion mit den großen Mengen digitalisierten Materials eröffnet neue Möglichkeiten. "Unsere Technologie kann nicht nur ein Buch in einfachen Text umwandeln", erklärt Softwarespezialist Helle, "sie kann zusätzlich zu diesem Text auch wichtige Strukturinformationen wie Bilder, Inhaltsverzeichnisse und einzelne Kapitel in Büchern erkennen, die benötigt werden, um gerade bei einer großen Informationsflut die richtige Navigation ansetzen zu können. Wir ermöglichen damit das effiziente Navigieren auch in größten Datenmengen." Man darf gespannt sein, wie sich das wissenschaftliche Arbeiten in der Zukunft dadurch verändern wird.

Massendigitalisierung ist der Renner

Das 1976 in Hamburg gegründete mittelständische Unternehmen CCS erzielte in den letzten zwei Jahren beachtliche Umsatzsteigerungen und stellte zehn neue Mitarbeiter ein. Die Auftraggeber sitzen im europäischen Ausland und in den USA. In Deutschland hapert's noch ein bisschen.

Von den 260 Mitarbeitern sind bis zu 160 in Indien mit der Qualitätssicherung der eingelesenen Daten beschäftigt. In Rumänien arbeiten weitere 50 Mitarbeiter und mit der Universität Bukarest besteht eine Forschungskooperation. Für Entwicklung, Projektmanagement und Marketing zuständig sind die 35 Mitarbeiter in Hamburg. 12 bis 14 Mitarbeiter in wechselnden Besetzungen arbeiten für die Dauer des Projekts in der BL in London.

CCS verbindet alle Digitalisierungskomponenten (Scanning, Konvertierung, Langzeitsicherung, Präsentation) zu einem nahtlosen, automatisierten und kosteneffektiven Produktionsprozess. Ganz platt lässt sich das für den Laien so zusammenfassen: CCS baut das digitale Original mit einem einzigen Werkzeug. Geschäftsführer Richard Helle ist Spezialist für die Entwicklung und Vermarktung von hochspezialisierten Software-Technologien. Sein Lebenslauf enthält neben einer Siemens-Ausbildung zum Softwareentwickler internationale Stationen im Produktionsmanagement von PC-Systemen und im Vertrieb von ERP-Software. Er nennt die Gründe für sein Erfolgskonzept: "Unsere Technologie trifft die Kernanforderung unserer Kunden: Informationen ohne Barrieren schnell und dauerhaft verfügbar zu machen. Durch Automation wird die Massendigitalisierung wirtschaftlich besonders interessant. Dabei werden alle in Bibliotheken etablierten offenen Standards genutzt (z. B. METS/ALTO-XML) und damit Unabhängigkeit von Betriebssystemen oder anderen Herstellern erreicht."

Dies sind Vorteile des Digitalisierungsprojekts für die Bibliothek:

Mäzen Microsoft

Der Wettlauf von Google, Microsoft und Yahoo um die Schätze der großen Bibliotheken hat gerade erst begonnen. Die größten Bibliotheken der Welt möchten das Schriftgut aus ihren wertvollen und jahrhundertealten Beständen zur Präsentation in ihren Online-Lesesälen und für die digitale Langzeitsicherung in Bits und Bytes verwandeln - und die privaten Unternehmen reißen sich darum, die Rechnungen für die gewöhnlich nicht in Geld schwimmenden Einrichtungen zu bezahlen.

Für die Internetgiganten ist das ein Imagegewinn. Sie möchten aber auch Geld verdienen! Ihre Vermarktungsstrategien bleiben bisher im Dunkeln. Entsprechende Nachfragen von B.I.T.online an Microsoft wurden auch nach dem Pressetermin in London konsequent ignoriert. Sicher ist, dass derjenige die Nase vorne haben wird, der mehr Inhalte, höhere Zugriffszahlen und mehr Nutzer aufweisen kann. Und Inhalte gibt es zuhauf. Hunderte von Millionen Büchern warten noch auf ihren Online-Auftritt!

Google nahm bisher 27 Bibliotheken, hauptsächlich amerikanische, unter Vertrag, darunter die Universitätsbibliotheken von Michigan, Stanford, Harvard, Princeton, Berkely und Oxford. die Bayrische Staatsbibliothek ist als bisher einzige deutsche Bibliothek dabei. Unter Microsofts Fittichen fanden sich in den USA u. a. die Bibliotheken der University of California, der Cornell University, der University of Toronto und der New York Public Library ein. Die Britische Nationalbibliothek ist für Microsoft die erste Bibliothek in Großbritannien, die ihre Inhalte für Microsoft's Live Search Books bereitstellen wird.

Im November 2005 begründete Bill Gates bei einem Besuch in der British Library die strategische Partnerschaft mit der britischen Nationalbibliothek. Damals erklärte Microsoft sich bereit, die Finanzierung für die Digitalisierung von 25 Millionen Buchseiten aus urheberrechtsfreien Beständen der BL zu übernehmen, um sie dann in Live Search Books, das im Dezember 2006 freigeschaltet wurde, anbieten zu können. Außerdem kündigte der Riese an, für die Bibliothek konkrete Beratungsdienstleistungen, Software und technischen Support für die langfristige Speicherung bereits digitalisierter Inhalte zur Verfügung zu stellen und beteiligt sich am Aufbau der Infrastruktur für die National Digital Library. Von der beachtlichen Nähe des Mäzens Bill Gates zur British Library zeugt auch der Stapellauf der neuen Microsoft Software Vista im Januar 2007 in deren Räumlichkeiten.

The last Word

Wie viele Stockwerke fuhr der Aufzug nach oben? Hoffnungslose Orientierungslosigkeit! Immer noch. Vorbei ist der Vormittag im Digitalisierungszentrum. In den Haupteingangsbereich entlassen, beginnt das Staunen des Besuchers über die großzügige, einladende und schöne architektonische Konzeption dieser modernen Bibliothek. Sie lädt zum Lesen und Forschen ein - und zum geruhsamen Bummel durch Library Shop und Museum, das zur Zeit aus dem Bestand feinste illustrierte Schriften aus aller Welt zeigt. Für Gespräche bietet das mittendrin gelegene Café angenehmste Ecken und Nischen - und guten Tee. Mittagessen gibt es im Restaurant einen Stock darüber. Der Gedanke nimmt überhand und sei gestattet: Eine echte Bibliothek ist niemals durch eine noch so tolle virtuelle zu ersetzen. Draußen vor dem Haupteingang sitzen Menschen in der Septembersonne an kleinen Tischen und lesen in Büchern und Zeitschriften und unterhalten sich. "The last Word" nennt sich die charmante kleine Cafeteria da draußen vor der größten Bibliothek der Welt.