11. Juli 2020

e-rara.ch neu mit Volltextsuche

Einführung der Texterkennung (OCR) für ausgewählte Dokumente ab Erscheinungsjahr 1830

Die Plattform e-rara.ch wurde im Rahmen des Pilotprojekts e-rara.ch: Nachnutzung für die Wissenschaft – Der Weg zum Volltext (kurz: e-rara.ch: Volltext) um Texterkennung erweitert. Neu kann eine Auswahl der auf e-rara.ch verfügbaren Titel im Volltext durchsucht werden.

Im Zentrum des Projekts stand der technische Ausbau der Plattform. Umgesetzt wurden:

  • Integration der OCR-Software ABBYY Fine Reader in die bestehende Infrastruktur
  • Einführung von OCR für Drucke ab Erscheinungsjahr 1830 mit Fokus Antiqua-Schriften: Um 1830 begann die maschinelle Produktion von Druckschriften und die Texterkennung für entsprechende Antiqua-Inhalte resultiert deshalb im Allgemeinen in einer sehr guten Volltextqualität.
    Gesucht werden kann sowohl in den Volltexten der auf der Plattform verfügbaren Digitalisate als auch in den zum Download bereitstehenden PDFs: Liste aller aktuell im Volltext durchsuchbaren Titel
  • Erweiterung der Webseite e-rara.ch um Funktionalitäten zur Volltext-Anzeige und –Recherche

Auch nach Abschluss des Projekts wird sich e-rara.ch weiterhin mit OCR beschäftigen. Zentrale Themen werden sein:

  • Prüfung innovativer OCR-Tools und -Methoden zwecks verbesserter Volltextqualität
  • Bereitstellung der OCR-Volltexte zur Nachnutzung durch Forschende der Digital Humanities
  • Ausweitung der Texterkennung auf weitere Inhalte der Plattform e-rara.ch

Projektförderung durch swissuniversities
e-rara.ch: Volltext wurde durch swissuniversities innerhalb des Programms «Wissenschaftliche Information: Zugang, Verarbeitung und Speicherung» gefördert. Projektpartner waren die betreibenden Institutionen von e-rara.ch: Bibliothèque de Genève, ETH-Bibliothek, Universitätsbibliothek Basel, Universitätsbibliothek Bern und Zentralbibliothek Zürich.

Thematisch besteht eine enge Verbindung zum ebenfalls durch swissuniversities finanzierten Projekt e-manuscripta.ch: Volltext. Dieses fokussiert zwar auf die Transkription von Handschriften, verfolgt mit der Ausrichtung auf eine Nachnutzung der Volltexte durch die Wissenschaft jedoch dieselbe Dachstrategie.

e-rara.ch