23. September 2020

e-rara.ch: Volltext – ein Projekt für die Wissenschaft

OCR-Projekt im Rahmen von SUK P-2 bewilligt

Das Projekt «e-rara.ch: Nachnutzung für die Wissenschaft – Der Weg zum Volltext» (kurz: e-rara.ch: Volltext) ist im Kontext des durch swissuniversities lancierten Förderprogramms SUK 2013-2016 P-2 «Wissenschaftliche Information: Zugang, Verarbeitung und Speicherung» bewilligt worden.

Die Erweiterung der Plattform e-rara.ch um Texterkennung schafft die Grundlage für die Nachnutzung der bereitgestellten Inhalte durch Forschende der Digital Humanities und angrenzender Disziplinen.

Die Laufzeit des im Juni 2016 gestarteten Projekts beträgt ein Jahr. Kooperationspartner sind die betreibenden Institutionen von e-rara.ch: Bibliothèque de Genève, ETH-Bibliothek, Universitätsbibliothek Basel, Universitätsbibliothek Bern und Zentralbibliothek Zürich.

e-rara.ch: Volltext umfasst im Wesentlichen die folgenden Ziele:

  • Einführung der Texterkennung (OCR) für Drucke mit Antiqua-Schrift aus dem Erscheinungszeitraum von ca. 1830 bis 1920
  • Anpassung der technischen Infrastruktur, u. a. Integration der Software ABBYY Fine Reader
  • Erweiterung der Webseite um Funktionalitäten zur Volltext-Recherche und -Anzeige
  • Prüfung und gegebenenfalls Implementierung von Workflows zur Qualitätsoptimierung der OCR-generierten Volltexte

Damit fokussiert das Projekt e-rara.ch: Volltext zum einen auf die technische Implementierung der Texterkennung. Zum anderen geht es darum, im Sinne einer optimalen Nachnutzbarkeit eine möglichst hohe Genauigkeitsquote bei der OCR-Erkennung zu erreichen. Da bei Antiqua die Volltext-Erkennung allgemein bessere Resultate liefert als bei Fraktur, wird der Fokus auf Antiqua-Schriften gelegt.

e-rara.ch: Volltext ist als Initialprojekt zu verstehen. Ein kontinuierlicher Ausbau des Volltextangebots auf e-rara.ch ist im Rahmen weiterer Folgeprojekte geplant. Diese werden in Abstimmung mit Projekten aus dem deutschsprachigen Ausland erfolgen. Hier ist insbesondere das durch die Deutsche Forschungsgemeinschaft DFG geförderte Koordinierungsprojekt OCR-D zu erwähnen, mit dem auch bereits e-rara.ch: Volltext kooperiert.

Über e-rara.ch
e-rara.ch digitalisiert gemeinfreie Drucke des 15. bis 20. Jahrhunderts aus Schweizer Bibliotheken und macht die Digitalisate online zugänglich. Die Plattform wird gemeinschaftlich von Bibliothèque de Genève, ETH-Bibliothek, Universitätsbibliothek Basel, Universitätsbibliothek Bern und Zentralbibliothek Zürich betrieben. Über zehn weitere Informationseinrichtungen aus der ganzen Schweiz tragen mit ihren Beständen zum kontinuierlichen Ausbau der Plattform bei.

Kontakt Projekt e-rara.ch: Volltext
ETH-Bibliothek
Claudia Lienhard
Innovation und Projektentwicklung
Projektleitung e-rara.ch: Volltext
claudia.lienhard@library.ethz.ch

http://www.library.ethz.ch/Ueber-uns/Projekte/e-rara.ch-Volltext