Digital Asset Management (DAM) in der Forschung

Ein Erfahrungsbericht aus den Geisteswissenschaften


Abstracts

Einleitung
Asset Management mit FEDORA
Objektorientierung und Inhaltsmodelle
XACML steuert den Zugriff
Plattformunabhängige Kommunikation mittels SOAP
Fazit

von Hubert Stigler

Einleitung

Fragen der Bereitstellung und Verwaltung von digitalen Ressourcen werden heute in universitären Bereichen zunehmend thematisiert. Auch die Idee des Open-Access gibt dieser Diskussion neue Nahrung. In vielen nationalen und EU-weiten Projekten und Initiativen werden Systeme evaluiert und entwickelt, die - allgemein gesprochen - auf der Intention beruhen, den wissenschaftlichen Kommunikationsprozess durch einheitliche Zugänge zu elektronischen Wissensbeständen zu verbessern und (auch für Außenstehende) transparenter zu gestalten. Sogenannte DAM (Digital Asset1 Mangagement) Systeme unterstützen MitarbeiterInnen in unterschiedlichen wissenschaftlichen Arbeitsszenarien bei der nachhaltigen, metadatenbasierten und zitierbaren (Langzeit-)Archivierung digitaler Ressourcen. Flexible Berechtigungsmodelle steuern den webbasierten Zugriff auf Quellenmaterialien und Forschungsergebnissen. Längst orientiert man sich beim Design einschlägiger Applikationen nicht mehr nur ausschließlich am Konzept eines reinen Datastores, d.h. einer optimierten Ablage und Recherchemöglichkeit für statischen Inhalt (Text-, Bild-, Ton- oder Filmdokumente). In vielen Projekten werden Modellierungsstandards definiert (z.B. PREMIS2) und Workflowmodelle umgesetzt, die auf die digitale Repräsentation des gesamten Entstehungsprozesses wissenschaftlicher Forschungsergebnisse abzielen (vgl. etwa das eSciDoc-Projekt3 des FIZ-Karlsruhe, TextGRID4 u.a.). Auch geht es längst nicht mehr ausschließlich darum, Quellenmaterialien und andere wissenschaftliche Ressourcen im klassischen Sinn zu digitalisieren (sie also - umgangssprachlich - zu scannen), d.h. von einer analogen Repräsentationsform in eine in Bezug auf das Datenformat meist proprietäre digitale Form zu überführen. Fragen der text- bzw. informationsimmanenten Annotation und damit Semantisierung des Inhalts von Texten, Bildern, Filmsequenzen u.Ä. treten in den Vordergrund. Solcherart mit fachdomänenbezogenen Metadaten manuell oder (semi-)automatisch erschlossene digitale Daten5 können nicht nur intelligent und Ontologie-basiert recherchiert werden, sondern bilden auch wichtige Bezugspunkte für empirische Analysen und unterstützen somit die Theoriebildung der jeweiligen Fachdomäne. Diese Entwicklung lässt auch die klassische Arbeitsteilung von ProduzentInnen und ArchivarInnen wissenschaftlicher Forschungsergebnisse obsolet erscheinen. Fragen der digitalen Archivierung, bzw. allgemeiner der digitalen Repräsentation und Modellierung von Wissen werden auch zu methodologischen Fragen der Herkunftsdomäne der jeweiligen Inhalte. In einschlägigen Anwendungsszenarien sind daher Workflows zu präferieren, die ein kollaboratives Bearbeiten und Verwalten digitaler Ressourcen ermöglichen.

Asset Management mit FEDORA

Nach längeren, eingehenden Recherchen für eine geeigneten Plattform zur Umsetzung eines diesen Prämissen entsprechenden Systems im GAMS6-Projekt stießen wir schon Ende 2004 auf das von der Cornell University gemeinsam mit der University of Virginia betriebene Open-Source Projekt FEDORA (Flexible Extensible Digital Object Repository Architecture). Im Kern bietet dieses Projekt, dessen Weiterentwicklung 2008 durch Gründung der Non-Profit Organisation FEDORA7 Commons sichergestellt wurde und das insgesamt zum Anforderungsprofil der Open Archives Initiative (OAI) kompatibel ist, eine datenbankgestützte, modular erweiterbare Speicher- und Verwaltungsstruktur (Repository) für beliebige (verteilte) digitale Ressourcen mit webbasierten Zugängen, orientiert an den Prinzipien einer Serviceorientierten Architektur (SOA). Mit diesen Spezifikationen erwies sich dieses Projekt als tragfähige Basis für ein Asset Management System, das WissenschaftlerInnen intelligent bei der Verwaltung und Bereitstellung von digitalen Ressourcen in Verbindung mit entsprechenden deskriptiven aber auch fachdomänenbezogenen Metadaten unterstützt. Im Speziellen zeichnet sich FEDORA durch höchste, an den Eigenschaften der jeweiligen Datenobjekte orientierte, Flexibilität in Datenorganisation und Metadatenbeschreibung aus. Folgende Kernfunktionalitäten bietet das durchgängig XML-basiert operierende Framework von FEDORA:

Objektorientierung und Inhaltsmodelle

Als eines der wichtigsten Paradigmen auf dem Gebiet des Softwaredesigns nennt Wolf16 (2004) bezugnehmend auf Gamma17 (2001) die Herausbildung und Durchsetzung des Konzeptes der Objektorientierung, das gemeinsam mit der Einführung modularer Softwarekonzepte mit hoher Granularität sowie durch Systematisierung und Vereinheitlichung von objekt- und komponentenorientierter Softwareentwicklung durch Entwurfsmuster zu einem hohen Grad an Wiederverwertbarkeit von Softwaretechnologien geführt hat. Objektorientierung zeichnet sich dabei u.a. durch folgende Eigenschaften aus: (a) Die Definition von Klassen mit ihnen zugeordneten Eigenschaften (Attributen) und Methoden als wesentliche Strukturelemente und (b) die Bildung von Klassenhierarchien durch das Prinzip der Vererbung unter Ausnutzung von Polymorphie. Diese Prinzipien werden in FEDORA nicht nur auf Ebene des Systemdesigns realisiert, sondern sie strukturieren hier ebenso die Applikationslogik auf Benutzerebene: Über das Design von Inhaltsmodellen (Objektklassen) können in einem FEDORA-basierten Datenrepository komplexe Objektklassenhierarchien konstruiert werden18. Inhaltsmodelle beschreiben dabei nicht nur die inhaltliche Struktur einer Assetklasse (Datenströme) und etwaige Relationen zu anderen Objekten (Containerassets), sondern können über WSDL19 (Web Service Description Language) sogenannte Disseminatoren (Methoden) objektorientiert an die Daten eines Assets binden: z.B. XSLT-Transformationen, die XML-Datenströme eines Assets in beliebige Zielformate (HTML, PDF u.a.) überführen; Methoden, die ein Farbbild, das in einem Asset gespeichert ist, in eine Schwarz-Weiß-Variante für die Verwendung des Bildes im Offsetdruck umrechnen; Funktionalitäten, die ein Navigieren in einer indizierten Videodatei ermöglichen uvm. In Bezug auf ein spezifisch auf Textkorpora hin ausgerichtetes Objektmodell etwa, das bei seiner Instanziierung mit einem XML-Document initialisiert wird, könnten dies Disseminatormethoden sein, die einen XML-Datenstrom einmal als navigierbares HTML-Dokument (z.B. mit spezifischen interaktiven Analysemöglichkeiten, wie der parametrierbaren Hervorhebung bestimmter Textstrukturebenen u.Ä.), ein anderes Mal als PDF- oder LaTeX-Dokument repräsentieren.

XACML steuert den Zugriff

Alle Zugriffskanäle auf ein Asset - und damit auch jene über Disseminatoren - können unter FEDORA mit fein granulierbaren Zugriffsrechten versehen werden. Über XACML, einen vom OASIS-Konsortium definierten Standard, können einzelne Zugriffskanäle mit Authentifizierungs- bzw. Autorisierungsregeln verknüpft werden. So könnten z.B. in einem Textasset alle Zugriffswege außer jenem, der das HTML-Zielformat produziert, nur für autorisierte ProjektmitarbeiterInnen zum Schreiben und Lesen freigegeben werden. Zur eigentlichen Authentifizierung unterstützt FEDORA Standards wie LDAP20(Lightweight Directory Access Protocol), Shibboleth21 u.a.

Mit Hilfe dieses Features ist es möglich, zusammengehörige Objektdaten in einem gemeinsamen Verwaltungs- und Speicherkontext (Asset) vorzuhalten und durch differenzierte Zugriffsmodelle gesteuerte Abfrage- und Bearbeitungsszenarien umzusetzen.

Plattformunabhängige Kommunikation mittels SOAP

Jegliche Datenkommunikation (Import, Export, Lesezugriffe u.a.) in einem FEDORA-Repository wird XML-basiert über SOAP abgewickelt. Eine Implementierung dieses Standards wurde von der Apache Software Foundation im AXIS22 Projekt realisiert. Dieses Nachrichtenformat nutzt als Trägerprotokoll andere gebräuchliche Protokollstandards (HTTP[S], FTP u.a.) und dient der Kapselung von plattformunabhängigen Dienstaufrufen auf entfernte (Remote-)Systeme sowie dem Datenaustausch. Eine SOAP-Nachricht ist innerhalb eines SOAP-Umschlages (Envelope) gekapselt und besteht aus einem (optionalen) Header und einem Body. Der Header kann dabei Metainformationen enthalten (z.B. Informationen über das Routing der Nachricht oder über eine eventuelle Verschlüsselung), während der Body die eigentlich zu übermittelnden Parameter (bis hin zu base64-kodierten Datenströmen) beinhaltet. Während SOAP die Nachrichtenstruktur definiert, kodiert die WSDL auf einer Metaebene die Funktionalität solcher Dienste, und zwar grundsätzlich ohne konkreten Bezug zu einer bestimmten Dienstspezifikationssprache. Damit ist sichergestellt, dass mit WSDL Dienste unabhängig von ihrem Umsetzungsstandard beschrieben werden können. Diese Mechanismen ermöglichen es, unter FEDORA die Kommunikation von Clients mit dem Repository-Server - sowohl mit dem Management als auch mit dem Access Layer des Systems - völlig plattformunabhängig zu realisieren.

Fragen der Archivierung stellen sich im Kontext des Asset Managements nicht nur in einer rückwärts gewandten Form im Sinne der Digitalisierung des "Kulturellen Erbes", sondern auch als Vorwärtsstrategie: Dabei gilt es abseits von proprietären, kurzlebigen Datenformaten neue Wege für Langzeitarchivierungsszenarien zu finden. Hier haben sich in den letzten Jahren vornehmlich XML-basierte Annotationsmodelle durchgesetzt. Als Textformat etwa bietet das TEI-Metadatenset23 (Text Encoding Initiative) sehr flexible und umfassende Möglichkeiten, Textdokumente nahezu beliebiger Provenienz, orientiert an der Prämisse der Trennung von Inhalt und Repräsentation, human-readable zu modellieren. Insgesamt ist zu beobachten, dass die progressive Verbreitung von XML in angewandten IT-Bereichen zu einer verstärkten Entwicklung von XML-Technologien und -Tools geführt hat, die auch für die Wissensmodellierung nutzbringend einsetzbar sind.

Wesentliche Voraussetzung für die Etablierung von XML - weit über das ursprüngliche Anwendungsfeld (syntaktischer) Informationsstrukturierung hinaus - war die Stabilisierung und Konsolidierung des Standards, vor allem durch (a) die Normierung des Aufbaues wohlgeformter XML-Dokumente durch die Einführung des XML Information-Set Standards, (b) die Einführung eines erweiterbaren Typensystems in XML, das die Beschreibung beliebiger Datenstrukturen erlaubt (XML Schema) und (c) die Etablierung einer einheitlichen Konvention für die Verwendung von Namensräumen.24 Eben damit wurde der Grundstein für die Entwicklung komplexer Annotationssprachen gelegt, wie sie die TEI in ihrer heute vorliegenden Version P5 darstellt. Sie wurde aus der Intention, eine allgemein (für alle Sprachen und Textsorten) gültige Konvention zur Textannotation auszuarbeiten und in Form von Guidelines festzuhalten25, entwickelt. Diese bilden flexible Rahmenrichtlinien zur Definition (normativer) Kodierungsstandards, deren Anwendungsbereiche eben auch Quellen und Dokumente umfassen, wie sie in einer Vielzahl von (geistes-)wissenschaftlichen Disziplinen vorliegen bzw. produziert werden: von historischen Urkunden über Texte, die in Erhebungssituationen quantitativer und qualitativer empirischer Sozialforschung generiert werden, bis hin zu literatur- und sprachwissenschaftlichen Textkorpora. Neben Fließtexten können mit der TEI auch nicht-kontinuierliche Texte wie Wörterbücher u.Ä. ausgezeichnet werden.


<text>
   <front>
      <div type="regest" xml:lang="deu">
            <byline>interpoliert</byline>
            <p>Patriarch Pilgrim [I.] von Aquileia bestätigt die Übergabe des Eigengutes Oberburg
                  durch den Edlen Diepold von Kager und dessen Frau Truta an die Kirche von Aquileia,
                  dotiert mit einem Teil dieses Besitzes das Benediktinerkloster Oberburg, ...</p>
      </div>
   </front>
   <body xml:lang="lat">
      <div type="protocol">
            <div type="invocatio">In nomine patris et filii et spiritus sancti ...</div>
            <div type="intitulatio">Idcirco nos Peregrinus dei gratia sancte ...</div>
            <div type="arenga">Quoniam universis maxime ecclesiarum prelatis in ...</div>
      </div>
      <div type="context">
            <div type="publicatio">notum esse volumus omnibus Christum ...</div>
            <div type="narratio">qualiter Dyebaldus nobilis quidam de Chagere ... </div>
            <div type="dispositio">allodium suum Obbemburch sicut et ipsi ... </div>
            <div type="sanctio">Preterea interdicimus ne aliquis eiusdem ecclesie ... </div>
      </div>
      <div type="escatocol">
            <div type="subscriptiones">Huius igitur donationis testes sunt ...</div>
            <div type="datatio">Actum est hoc Aquilegie ..</div>
      </div>
   </body>
</text>
Abb. 1: Kopfregest und Formular einer mittelalterlichen Urkunde im TEI-Format

Neben diesem primären Anwendungsbereich XML-basierter Informationsmodellierung haben sich in der Informationsverarbeitung eine Reihe weiterer Funktionsbereiche herausgebildet, in denen XML eine zentrale Bedeutung zukommt:

(a) Metadatenbeschreibung und Wissensmanagement, d.h. die sekundäre Anwendung von XML, um Inhaltseinheiten zusätzliche Beschreibungselemente hinzuzufügen, z.B. durch Standards wie Resource Description Framework26 (RDF), Topic Maps27 und Web Ontology Language28 (OWL). Mit diesen Standardisierungen wurde der Grundstein für die Modellierung fachspezifischer Vokabularien29 gelegt, um sie so einer automatisierten Verarbeitung (z.B. in einer Recherche) zugänglich zu machen. Erste umfassende Beispiele solcher domänenspezifischer Ontologien stammen z.B. aus dem Bereich des Archiv- und Museumswesens: Mit dem CIDOC Conceptual Reference Model30 hat das Internationale Komitee für Dokumentation des internationalen Museumsverbandes (CIDOC) eine erweiterbare Ontologie für Begriffe und Informationen im Bereich des Kulturerbes vorgelegt. In der SKOS31-Spezifikation (Simple Knowledge Organization System) versucht das W3C erstmalig eine auf dem Resource Description Framework basierende formale Sprache zur Kodierung von Dokumentationssprachen wie Thesauri, Klassifikationen oder anderen kontrollierten Vokabularien zu standardisieren.

(b) Informationstransformation, d.h. die Verwendung von XML-Standards, um Informationsstrukturen aufeinander abzubilden, um z.B. aus einer XML-Struktur ein Repräsentationsformat abzuleiten. Hier ist vor allem XSL (eXtensible Stylesheet Language) zu nennen, der Überbegriff für ein komplexes Regelsystem, das aus drei Spezifikationen besteht: (1) XSLT, einer Transformationssprache zur strukturellen Bearbeitung von XML Dokumenten, die regelbasiert in XML-Syntax einen Transformationsprozess einer Eingabedatei in ein oder mehrere Ausgabedateien mit beliebigem Zielformat beschreibt, (2) XPATH, das die Selektion von (virtuellen) Teilbäumen einer XML-Struktur ermöglicht und (3) XSL:FO, einem Standard zur Beschreibung von Druckseiten.

(c) Informationsaustausch, d.h. die Verwendung von XML als allgemeines Datenaustauschformat zwischen Applikationen, auch auf der Ebene von Protokollen (SOAP u.Ä.) über das Internet.

(d) Applikationsmodellierungssprache, d.h. die Verwendung von XML im Design, in der Programmierung und im Deployment von Applikationen, etwa in UML-basierten Entwicklungsumgebungen genauso wie als steuerungsrelevante Modellierungssprache für Prozessverläufe in webbasierten Applikationsframeworks.

Fazit

Standardisierte Annotationssprachen und Technologien zur Verarbeitung von XML-basierten Datenstrukturen bilden die Basis für die Realisierung nachhaltiger Langzeitarchivierungsszenarien in wissenschaftlichen Kontexten, in denen es möglich ist, verteilte digitale Ressourcen über zentrale Speicher-, Verwaltungs- und Retrievalstrukturen zur Verfügung zu stellen und damit für eine zitierfähige, der Prämisse der Wiederverwertbarkeit entsprechende Archivierung digital vorliegender Wissensbestände zu sorgen. Solche Arbeitsumgebungen unterstützen auch kollaborative Arbeitsweisen in einer (inter-)nationalen Wissenschaftscommunity und werden somit zunehmend zu einem wichtigen Instrument der Öffentlichkeitsarbeit wissenschaftlicher Institutionen.


Autor

Hubert Stigler, Ass.-Prof. Mag. Dr.

Center for Information Modeling in the Humanities, University Graz
Merangasse 70/E
A-8010 Graz
hubert.stigler@uni-graz.at


Anmerkungen

1. Mit dem Begriff des Assets ist hier die kleinste strukturierende, beschriebene und vom System verwaltete Einheit gemeint, vergleichbar mit einem Katalogisat. Ein solches Asset setzt sich aus einem primären Datenstrom (z.B. Textdokument, Spreadsheet, Präsentationsdatei, Audio- oder Videodatei uvm.) und zumindest einem beschreibenden Metadatensatz (Dublin Core) zusammen. Diesen sogenannten Simple Model Assets stehen Compound Model Assets gegenüber, die aus einer Vielzahl von primären Datenströmen und damit verknüpften Funktionalitäten bestehen können: z.B. ein Asset für digitale Bücher, das aus allen Bilddateien der Fotografien einer Handschrift, dem editierten Text (in einem beliebigen Textformat) und einer Assetmethode besteht, die es erlaubt, in den Seiten dieses (virtuellen) Buches zu blättern oder Details der einzelnen Seiten zu vergrößern.

2. URL: http://www.oclc.org/research/projects/pmwg/

3. URL: https://www.escidoc.org/

4. URL: http://www.textgrid.de/

5. z.B. mit Lemmata oder morphosyntaktischen Informationen versehene Textkorpora; strukturell ausgezeichneten Transkriptionen von Urkundentexten u.a.

6. URL: http://gams.uni-graz.at

7. URL: http://www.fedora-commons.org

8. URL: http://www.w3.org/TR/soap/

9. URL: http://www.mulgara.org/

10. URL: http://www.oasis-open.org/committees/tc_home.php?wg_abbrev=xacml

11. URL: http://www.loc.gov/standards/mets/

12. URL: http://lucene.apache.org/

13. URL: http://www.openarchives.org/

14. URL: http://tomcat.apache.org/

15. C. Lagoze, S. Payette, E. Shin & C. Wilper. An Architecture for Complex Objects and their Relationship 2005. Online unter http://www.arxiv.org/ftp/cs/papers/0501/0501012.pdf

16. C. Wolf. Systemarchitekturen. Aufbau texttechnologischer Anwendungen. In: H. Lobin & L. Lemmnitzer (Hg.): Texttechnologie. Perspektiven und Anwendungen. Tübingen 2004, S. 166-192.

17. E. Gamma, R. Helm, R. Johnson et al.. Entwurfsmuster - Elemente wiederverwendbarer Software. Bonn 2001.

18. Vgl. R. Green. University of Hull digital colour image object specification. 2006. Online unter http://www.hull.ac.uk/esig/repomman/downloads/INT-D3-1-imageObject-v03.pdf;
R. Green. University of Hull digital public document object specification. 2006. Online unter http://www.hull.ac.uk/esig/repomman/downloads/INT-D3-3-documentObject-v01.pdf.

19. URL: http://www.w3.org/TR/wsdl.html

20. URL: http://www.openldap.org

21. URL: http://shibboleth.internet2.edu/

22. URL: http://ws.apache.org/axis/

23. C.M. Sperberg-McQueen & L. Burnard (Hg.) (2006). TEI: the P5 release. Online unter: http://www.tei-c.org/P5

24. Vgl. K. Cagle, J. Duckett, O. Griffin et al.. Professional XML Schemas. Birmingham 2001;
H. Lobin. Erweiterte Dokumentgrammatiken als Grundlage innovativer XML-Tools. In: Information Technology 45/3., 2003, S. 143-150;
H. Lobin. Textauszeichnung und Dokumentengrammatiken. In: H. Lobin & L. Lemmnitzer (Hg.): Texttechnologie. Perspektiven und Anwendungen. Tübingen 2004, S. 51-82;
C. Wolf. Systemarchitekturen. Aufbau texttechnologischer Anwendungen. In: H. Lobin & L. Lemmnitzer (Hg.): Texttechnologie. Perspektiven und Anwendungen. Tübingen 2004, S. 166-192.

25. L. Burnard. Digital Texts with XML and the TEI. 2004. Online unter http://www.tei-c.org.uk/Talks/OUCS/One/teixml-one.pdf;
B. Rossmann. Annotation von Texten des gesprochenen Italienisch nach dem Standard der Text Encoding Initiative (TEI). Diplomarbeit, Graz 2006.

26. D. Brickley & R. V. Guha. RDF Vocabulary Description Language 1.0: RDF Schema. Recommendation. 2004. Online unter http://www.w3.org/TR/rdf-schema/

27. URL: http://www.topicmaps.org/

28. URL: http://www.w3.org/TR/owl-semantics/

29. In der Informationsverarbeitung meint eine Ontologie ein Vokabular, das eine Domäne (Fachbereich) beschreibt, und die zugehörigen Assoziationen, die die Beziehungen der Terme eines Vokabulars untereinander beschreiben.

30. URL: http://cidoc.ics.forth.gr/

31. URL: http://www.w3.org/2004/02/skos/