B.I.T.online Heft 2/2000: Das DFG-Projekt "Dissertationen Online" stellt sich vor

Das DFG-Projekt "Dissertationen Online" stellt sich vor

In vier Teilberichten herausgegeben von Susanne Dobratz

III. Teilbericht 3

Abstract
Gesamtübersicht

I. Teilbericht 1
(Siehe B.I.T.online Heft 4/1999)
A. Überblick über das Projekt
Von Hans-Ulrich Kamke; Humboldt-Universität zu Berlin
1. Einleitung
2. Vorgeschichte
3. Das Projekt Dissertationen online im Rahmen des DFG-Projektes...
4. Das DFG-Projekt
  4.1 Aufgaben und Ziele
  4.2 Die Teilprojekte
  4.3 Ergebnisse und Weiterarbeit
B. Teilprojekt Beratung und Unterstützung
von Steffi Dippold und Stefan Groß; Humboldt-Universität zu Berlin
1. Informationsvermittlung, nicht Informationsüberlastung
2. Schulung der Doktoranden
3. Dissinfo - ein Informationsangebot im Internet
4. Explosion des Wissens
5. Weg aus der Einbahnstrasse
6. Kontakt nach außen
II. Teilbericht 2
(Siehe B.I.T.online Heft 1/2000)
C. Teilprojekt Metadaten
von Thorsten Bahne; Gerhard-Mercator-Universität Duisburg
1. Hintergrundinformationen zu Metadaten
2. Metadaten in Dissonline
  2.1 Datensatzentwicklung
  2.2 Tools
  2.3 Installation
  2.4 Nutzung
3. Suche mit Metadaten
D. Teilprojekt Retrieval und rechtliche Aspekte
von Kerstin Zimmermann; Carl-von-Ossietzky-Universität Oldenburg
1. Weltweites Retrieval nach und in Dissertationen
  1.1 Harvest: Funktionsweise
  1.2 Aufbau eines Harvest-Netzwerkes
  1.3 Kooperationen mit anderen Systemen
2. Rechtliche Aspekte bei elektronischen Dissertationen
  2.1 Promotionsverfahren
  2.2 Online Publikation
  2.3 Nationale Datenbanken
III. Teilbericht 3
E. Teilprojekt Formate
von Matthias Schulz und Susanne Dobratz; Humboldt-Universität zu Berlin
1. Dokumentformate
  1.1 Was ist ein Dokument?
  1.2 Dokumentformate für die Archivierung und das Retrieval
  1.3 Dokumentformate für die Präsentation und den Druck
2. Die DiML-Dokumenttypdefinition
  2.1 Beschreibung der DiML-DTD
  2.2 Vergleich / Kooperation mit anderen Dissertations-DTD's
3. Wissensmanagement mit SGML/XML-Dokumenten
F. Teilprojekt Multimedia
von Wolf-Dietrich Ihlenfeldt; Computer Chemie Centrum Universität Erlangen
1. Multimediadaten in der Chemie
  1.1 Voraussetzungen für die Nutzung von Strukturdaten (Aufbereitung der Rohdaten)
  1.2 Suche in Chemischen Strukturen
2. Multimediadaten in anderen Wissenschaften
  2.1 Datenformate
  2.2 Zur Akzeptanz und Nutzung von Multimediadaten in den Wissenschaften

IV. Teilbericht 4
G. Teilprojekte Bibliotheken und Die Deutsche Bibliothek
von Hans Becker; SUB Göttingen
1. Bibliothekarische Aspekte bei der Publikation elektronischer Dissertationen
2. Integration in den Workflow der Universitätsbibliotheken
3. Zusammenarbeit mit Der Deutschen Bibliothek
H. Dissertationen Online: Ergebnisse und Ausblick

von Peter Diepold; Humboldt-Universität zu Berlin
1. Ergebnisse der 2 Projektjahre
2. Dissertationen Online im internationalen Kontext
3. Wie geht es weiter mit Dissertationen Online?

III. Teilbericht 3

E. Teilprojekt Formate

von Susanne Dobratz und Matthias Schulz,
Humboldt-Universität zu Berlin, Rechenzentrum

1. Dokumentformate

Seit September 1997 arbeitet an der Humboldt-Universität das Projekt "Digitale Dissertationen". Im Vordergrund der Entwicklungen steht der Aufbau eines zertifizierten Dokumentenservers, der, anders als ein "normaler" WWW-Server, einen besonderen Status besitzt. Die Dissertationen sollen auf diesem Server im Archiv format SGML abgelegt und mit weiteren Sicherheits- und authentizitätssichernden Maßnahmen versehen über einen länge ren Zeitraum (über mind. 5-10 Jahre) archiviert und recherchierbar gemacht werden. Da sich SGML nicht ohne weiteres als Präsentationsformat im WWW eignet, wurden bisher HTML und PDF zur Darstellung im WWW präferiert. Die Version 1.0 der vom Rechenzentrum der Humboldt-Universität entwickelten Dokumenttypdefinition (DTD) für Dissertationen (DiML : Dissertation Markup Language)¹ datiert vom Oktober 1997. Seitdem wird an Anpassungen und Verbesserungen gearbeitet. Da ähnliche Ambitionen an der Virginia Polytechnic Institute and State University (Virginia Tech) vorlagen, wird seit Mitte 1998 die Zusammenarbeit ausgebaut. DiML 1.0 beruht zu einem großen Teil auf der ETD-DTD von Virginia Tech (http://www.ndltd.org). Im Verlauf der internationalen Zusammenarbeit wurden weltweit mit Projekten², die auf der Basis von SGML/XML arbeiten, Kontakte zum Technologieaustausch aufgebaut. Seit Juli 1999 wird das DiML-Konzept im Rahmen des bundesweiten DFG-Projektes "Dissertationen Online" erprobt und verbreitet mit dem Ziel, anderen Universitätsbibliotheken die Entscheidung für die Nutzung SGML/XML-basierter Techniken zu erleichtern.

1.1 Was ist ein Dokument?

Unter einem Dokument³ wird im weitesten Sinne eine Ansammlung von Informationen verstanden. Im Sinne dieses Artikels sind Dokumente Ansammlungen von Informationen, die in mehreren Unterdokumenten und Dateiformaten vorliegen können. Ein derartiges Dokument besteht im Wesentlichen aus drei Bestandteilen:

dem Inhalt,
der Struktur bzw. der Gliederung der Information und
dem Layout, d.h. der Darstellung der Information.

Der Inhalt ist die zu vermittelnde Information in Bild und Schrift, die Struktur beinhaltet die Portinierung sowie Abfolge der Information. Hierzu gehören sowohl die Begriffe Kapitel, Überschrift, Absatz, Liste als auch die logischen Beziehungen zwischen einzelnen Dokumentteilen und die semantische Gliederung der Information in Teile wie Keyword, Indexbegriff, Zitat etc. Die Darstellung bzw. das Layout dient der Präsentation von Inhalt und Struktur in dem entsprechenden Medium und stellt einen Zusammenhang zwischen beiden her.

1.2 Dokumentformate für die Archivierung und das Retrieval

Innerhalb der letzten 2 bis 3 Jahre wurde an verschiedensten Stellen die Frage nach Dateiformaten, die Universitätsbibliotheken für elektronische Publikationen nutzen könnten, gestellt. Die Ergebnisse dieser Diskussionen wurden breit publiziert.⁴ Die Deutsche Bibliothek⁵ hat hierzu 1996 eine Empfehlung für Dateiformate herausgegeben.

An der Humboldt-Universität⁶ und anderen Universitäten⁷ führten vor allem zwei Argumente dazu, SGML/XML⁸ als das am besten geeignete Dateiformat für elektronische Publikationen auszuwählen. Das ist zum einen das Argument der Langzeitarchivierung und zum zweiten das der Recherche. Die Standard Generalized Markup Language (SGML) ist im übetragenen Sinne die "Mutter" von HTML und seit 1986 ein ISO-Standard (ISO 8879). SGML kann, streng genommen, nicht als richtiges Dateiformat bezeichnet werden. Es ist eher ein Konzept, welches darauf ausgelegt ist, den Inhalt, d.h. den eigentlichen Text eines Dokumentes, von seiner logischen Struktur und dem Layout (Markup) zu trennen. Um ein Dokument zu erstellen, muss zunächst seine Struktur definiert werden. Dies wird in einer sogenannten Document Type Definition (DTD) getan, die jeweils für eine Klasse gleichartiger Dokumente steht, in unserem Beispiel Dissertationen. In einer DTD werden sowohl die logischen Elemente, wie z.B. Überschriften, Absätze, Fußnoten, Zitate, definiert als auch der Kontext und die Anzahl ihres Auftretens festgelegt. Im eigentlichen SGML-Dokument wird der Text in die definierten Elemente (Tags) geschrieben. Die Extensible Markup Language (XML) stellt die moderne Form des SGML-Standards dar. XML 1.0 wurde am 10.02.1998 durch das World Wide Web Consortium (W3C) als Empfehlung verabschiedet und stellt damit einen Quasi-Standard dar.

1.2.1 Archivierung

Durch seine Verfügbarkeit auf verschiedenen Hardwareplattformen und seine Unabhängigkeit von Betriebssystemen sowie seine Konvertierbarkeit in andere Datenformate (Präsentations-, Druck- und Retrievalformate) ohne Datenverluste und die damit verbundene frei wählbare Präsentation entsprechend dem Inhalt und der Normierung durch ein unabhängiges, internationales Gremium, wird SGML/ XML als das Format angesehen, welches die größte Gewähr für die Lesbarkeit auch in künftigen Jahrzehnten bietet und somit für eine Archivierung geeignet ist.

1.2.2 Retrieval

Durch seine definierte Struktur ist SGML/XML besonders gut für die Recherche in Dokumenten gleichen Typs geeignet. Damit werden zielgenauere Informationsrecherchen⁹ möglich, da hier die Wissenstrukturen über die Menge der zu verwaltenden Dokumente vereinheitlicht werden. Voraussetzung ist hier die Strukturierung des Textes in semantische und semisemantische Einheiten.

1.2.3 Medienintegration

Ein weiteres Argument für die Nutzung eines SGML-basierten Publikationskonzeptes ist die Möglichkeit der Nutzung bzw. der Integration multimedialer Elemente. Die neuen Standards wie SVG (Scalable Vector Graphics) oder SMIL (Synchronized Multimedia Integration Language) sind problemlos in solch ein Konzept integrierbar. Damit erweitert sich das inhaltliche Spektrum der Publikationen auf Ton, Bild, Video und Animation. Die Notwendigkeit von Eigenentwicklungen, die kosten- und zeitintensiv sind, entfällt, da existierende Standards genutzt werden können. Die Verfügbarkeit der Inhalte ist so für die Zukunft gesichert. Bedingung ist, dass die Ergebnisse aus internationalen Standardisierungsbestrebungen angewendet werden.

1.2.4 Dokumentenkonvertierung

Dissertationen sind von Doktoranden ursprünglich nicht für eine elektronische Publikation vorgesehen worden. Auch heute steht meist die Produktion eines Papierexemplares im Vordergrund. Daher benutzen die Autoren dieselben Textverarbeitungssysteme zur Erstellung der digitalen Publikation wie zur Erstellung der Druckausgabe. Die gängigsten sind dabei Microsoft Office, Corel WordPerfect, LaTeX oder auch vereinzelt Staroffice. Diese Programme speichern die Arbeiten meist in proprietären Dateiformaten ab, die jedoch keine im WWW lesbaren oder archivierbaren Formate sind. Um aus diesen in proprietären Dateiformaten vorliegenden Arbeiten elektronische Publikationen zur Nutzung im WWW zu erstellen, bedarf es einer Bearbeitung, soll die elektronische Publikation nicht auf die Erstellung einer PDF- oder Postscript-Datei beschränkt bleiben.

Diese Bearbeitung muss zum einen durch den Autor selbst erfolgen, indem er z.B. mit Hilfe einer Formatvorlage bestimmte Teile der Arbeit als Überschrift, Registerbegriff etc. auszeichnet sowie entsprechende Metadaten vergibt. Zum anderen muss durch die Bibliothek oder das Rechenzentrum die Arbeit aus einem proprietären Herstellerformat in ein Archiv- und ein Präsentationsformat konvertiert werden. In der Bibliothek erfolgt dann auch die Katalogisierung nach den entsprechenden Regelwerken und die Meldung an Die Deutsche Bibliothek sowie der Austausch der Katalogdaten innerhalb der Verbünde. Ein Teil dieser Arbeitsgänge lässt sich automatisieren, etwa die Extraktion der Metadaten aus dem SGML/XML-Dokument für die weitere Katalogisierung oder die Konvertierung der SGML/XML-Dokumente in ein Präsentationsformat (HTML, PDF). Andere Arbeitsgänge, wie z.B. die Konvertierung nach SGML/XML sind nicht vollständig automatisierbar, da immer wieder spezielle, einzigartige Problemstellen im Dokument auftreten, die durch erfahrene Bearbeiter aufzulösen sind.¹⁰ Besteht ein gewisser Qualitätsanspruch an Recherche und Archivierung, ist es notwendig, die Autoren möglichst frühzeitig zu schulen und mit Grundfragen und -problemen des elektronischen Publizierens vertraut zu machen. Aus diesem Grund hat sich das Projekt "Dissertationen Online" sehr intensiv mit dem Problem der Unterstützung und Beratung von Autoren und dem Problem der Bereitstellung entsprechender Werkzeuge und Hilfesysteme auseinander gesetzt, vgl. Teilbericht 1 dieses Artikels in der Ausgabe 4 der B.I.T.online 2 (1999).

1.3 Dokumentformate für die Präsentation und den Druck

Ein SGML-Dokument enthält Inhalt und Struktur, die Darstellungsinformation fehlt jedoch. Damit enthält es zwar alle Informationen über den Aufbau des Dokumentes, die Darstellung beim Konsumenten ist jedoch nicht festgelegt und Sache der jeweiligen Anwendung. Stylesheets und Formatierungssprachen wie DSSSL¹¹, CSS¹² oder XSL(T)¹³ ermöglichen eine Darstellung, setzen aber voraus, dass die jeweilige Layoutinformation dem Benutzer zur Verfügung steht und er einen entsprechenden Browser zur Verfügung hat. Für die in SGML/ XML vorliegenden Dissertationen existiert zwar ein XSLT und CSS-Stylesheet, da bisher jedoch allein der Microsoft Internet Explorer 5.0 als Standardbrowser in der Lage ist, XML-Dokumente und dazugehörige Stylesheets zu interpretieren, stellt diese Art der Darstellung zum momentanen Zeitpunkt keine Lösung für die Präsentation der digitalen Dissertationen im WWW dar. Auf die Nutzung proprietärer Browsersoftware wie Softquad Panorama zur Visualisierung von SGML/XML-Dokumenten soll ebenfalls aus Gründen der breiten Verfügbarkeit verzichtet werden. Daher wird auf speziell für den Druck oder die Darstellung im WWW ausgerichtete Dateiformate orientiert.

Die Seitenbeschreibungssprache Postscript ist eines dieser Dateiformate und stellte 1985 einen Meilenstein auf dem Gebiet des Buchdruckes dar. Es ist in der Lage, Texte unterschiedlicher Vektorschriften und Graphiken auf geschickte Weise miteinander in einem einzigen Dokument zu verknüpfen und in einer Datei zu kodieren. Postscript wurde damit zum de-facto-Standard für Schnittstellen zwischen Software- und Layoutprogrammen und Papier-Ausgabegeräten wie Belichtern und Druckern. Der Vorteil von Postscript liegt darin, dass es sich um eine echte Seitenbeschreibungssprache handelt. Das darzustellende Objekt wird mit Postscript beschrieben, es wird in der Datei gespeichert, was und wo die Ausgabe erfolgen soll. Wie sie jedoch erfolgt, kann nur das Ausgaberät selbst bestimmen. Damit ist Postscript in der Lage, ein Dokument unabhängig vom Erstellungs- oder Bearbeitungsprogramm zu beschreiben. Das gleiche Problem, so erkannte Adobe, gilt für die Darstellung von Dokumenten auf dem Bildschirm und entwickelte das Portable Document Format (PDF) als eine potentielle Alternative dazu. Bei einem PDF-Dokument sind genau wie bei einem Postscript-Dokument Struktur, Inhalt und Layout bereits miteinander verwoben. Eine Trennung der drei Eigenschaften nach strukturellen Gesichtpunkten ist praktisch nicht mehr möglich, und daher ist PDF zwar die seitenechte Darstellung am Bildschirm und somit als digitale Druckvorstufe ausgezeichnet geeignet, für die Archivierung und die Weiterverarbeitung von Informationen jedoch nicht nutzbar.¹⁴ Einen weiteren Nachteil früherer PDF-Versionen, den der fehlenden Hypermedialität der Dokumente, hat das Format inzwischen überwunden und ermöglicht die Integration externer Dateiformate für aktive und multimediale Komponenten und die Nutzung interner und externer Hyperlinks. Ein digitales Druckexemplar in PDF kann aus einem SGML/XML-Dokument durch Nutzung eines DSSSL- oder eines XSLT-Stylesheets produziert werden. HTML als das ursprüngliche Format des WWW, welches diesem 1984 zu seinem Durchbruch verhalf, ist im SGML-Sinne eine Dokumenttypdefinition von SGML. Anders als die "Mutter" hat es sich jedoch aufgrund seiner eingeschränkten Anzahl von nutzbaren Tags und damit seiner relativen Übersichtlichkeit als Sprache des WWW durchgesetzt. Da heute eine Vielzahl von Visualisierungs- und Erstellungssoftware für HTML auf dem Markt ist, sind HTML-Dokumente von jedem Internetnutzer lesbar und dadurch auch in der Breite zugänglich und verfügbar. Als Darstellungsform für die digitalen Dissertationen ist es jedoch nur bedingt geeignet, da bei einer Transformation hoch strukturierter SGML/XML-Dokumente in HTML-Dokumente eine Vielzahl von semantischen und strukturellen Informationen verloren geht. Auch ist die Darstellung spezieller wissenschaftlicher, wie mathematischer oder chemischer, Formeln sowie von Noten oder Vektorgraphiken nur als flache Struktur in Form von Graphiken möglich. Dies verhindert eine mögliche Nachnutzung dieser Inhalte durch andere Wissenschaftler.

2. Die DiML-Dokumenttypdefinition

Dissertationen sind nach ähnlichen Prinzipien strukturiert. Sie bestehen aus:

einem Titelblatt,
dem Haupttext,
und dem Anhang.

Innerhalb dieser drei Teile befinden sich weitere Strukturelemente, wie z.B. Absätze, Überschriften, Beschriftungen für Abbildungen, Abbildungen, mathematische Formeln und fette, kursive Hervorhebungen. So lässt sich vermittels folgender Definition der allgemeine Aufbau einer Dissertation darstellen.

Eine Dissertation besteht aus einem Titelblatt, einem Haupttext und Anhang. Das Titelblatt beinhaltet den Namen des Autors, die Gutachter und weitere Bestandteile. Der Haupttext enthält Kapitel. Diese Kapitel enthalten Überschriften und Unterkapitel. Der Anhang enthält das Literaturverzeichnis und Weiteres.

Diese natürlichsprachliche Definition kann mit Hilfe des SGML/XML-Standards in eine kurze und formalisierte DokumentTypDefinition oder abgekürzt DTD umgewandelt werden.

Die entwickelte DiML DissertationMarkupLanguage ist eine DTD speziell für Dissertationen. Schaut man sich die Historie dieser Art von Dokumenttypdefinitionen an, so sieht man, dass bereits 1985 die erste DTD für Dissertationen von Yuri Rubinsky in Zusammenarbeit mit Virginia Tech (USA) entwickelt wurde.¹⁵ 1996 wurde diese erste Fassung verbessert. Im September 1997 wurde mit dem Start des Projektes "Digitale Dissertationen" an der Humboldt Universität zu Berlin diese DTD aufgegriffen, an die deutschen Verhältnisse angepasst und somit erneut weiterentwickelt. So entstand die DissertationMarkupLanguage. Die Auseinandersetzung und Zusammenarbeit mit Fachwissenschaftlern aus verschiedenen Wissenschaftszweigen der Universität, den Bibliothekaren der Universitätsbibliothek, den Erziehungswissenschaftlern, den Historikern, den Informatikern, den Musikwissenschaftlern und den Physikern spielten bei der Entwicklung der DiML DTD eine Rolle.

2.1 Die Beschreibung der DiML-DTD

Im Folgenden werden die einzelnen Elemente der Dokumenttypdefinition DiML vorgestellt:

2.1.1 Die Hauptbestandteile

In drei Hauptbestandteile gliedert sich die DiML:

Deckblatt <front>,
Textkörper <body> und
Anhänge <back>.

Das Deckblatt beinhaltet alle Metainformationen, die über die Dissertation selbst festgehalten werden. Der Textkörper besteht aus dem eigentlichen Dissertationstext. Die Anhänge umfassen unter anderem die Bibliographie, das Abkürzungsverzeichnis, die Selbständigkeitserklärung und die Danksagung.

2.1.1.1 Die Front <front>

Das Deckblatt der Dissertation erfasst die zentralen Metadaten einer Dissertation. Anhand des Deckblattes wird die Katalogisierung in der Bibliothek vorgenommen. Folgende Strukturelemente stehen zur Verfügung:

Auf der Ebene <front>: <school>, <submission>, <title>, <degree>, <major>, <author>, <dean>, <approvalls>, <date>, <keywords>, <copyright>, <abstract>, <grant>, <dedication>, <acknowledgement>, <declaration> und <p>, wobei die Reihenfolge der einzelnen Elemente und die Benutzung aller Auszeichnungen freigestellt sind. Inhalte, die nicht von den vorgesehenen Strukturierungen, in der Fachsprache "Tags" genannt, abgedeckt werden, sind mit dem <p> Tag zu versehen.

Im obigen Beispiel ist sehr deutlich zu sehen, dass die Tags bestimmte Inhalte rahmen und damit für den Leser oder den Computer diese Inhalte geeignet definieren. Die logische semantische Struktur des Dokumentes kann maschinell erfasst, gespeichert und "verstanden" werden. Diese Strukturierung veranschaulicht die Vorteile einer Nutzung von SGML/XML. Eine weitere Stärke wird sichtbar bei einem Vergleich der Syntax des Dublin-Core Metadatensatz und den DiML Elementen des Titelblattes. In einem DiMLstrukturierten Titelblatt sind bereits wichtige Elemente enthalten, unter anderem auch die vom DublinCore Standard geforderten. So kann durch eine einfache Konvertierung oder Extraktion dieser Informationen der geforderte DC-Metadatensatz erzeugt und die Dissertation automatisiert katalogisiert werden. Beim an der Humboldt-Universität installierten Workflow für digitale Dissertationen wird bei der Transformation der SGML/XML-Dokumente in HTML-Dokumente die DiML Struktur benutzt, um diesen den entsprechenden DublinCore Metadatensatz voranzustellen.¹⁶

2.1.1.1.1 Tabellen <table>

Die Codierung der Tabellen erfolgt nach einem Tabellenmodell, das dem Cals-Tabellenmodell entspricht. Dieses Modell ist sehr komfortabel und ermöglicht die Darstellung kompliziertester Tabellen (z. B. eine Spalte soll über mehrere Zeilen verlaufen oder die Beschriftung soll nicht horizontal gesetzt werden, sondern vertikal). Nicht alle Tabellenmodelle sind dazu fähig. In der älteren Version der ETD-DTD von Virginia Tech wurde zum Beispiel ein eigenes einfacheres Tabellenmodell definiert. Das Cals-Tabellenmodell gilt weltweit als Quasi-Standard für die Codierung von Tabellen und bietet somit die Möglichkeit, einen strukturierten Datenaustausch zu praktizieren. Die Textverarbeitung Corel WordPerfect, die SGML Editoren Author/Editor und XMetall oder das SGML Add-On SGML Author for Word unterstützen diesen Standard durch entsprechende Werkzeuge.

2.1.1.1.2 Multimedia Objekte <mm>

Abbildungen sind zentrale Bestandteile von Dissertationen. Sie werden in die DiML-Instanz lediglich als externe Dateien eingebunden, die in entsprechenden standardisierten Medienformaten vorliegen. In welchem Format und in welcher Auflösung die Bilder und Grafiken vorliegen sollen, richtet sich nach dem jeweiligen Zweck (Druck � höhere Auflösung oder nur Internetveröffentlichung � niedrigere Auflösung). Mit DiML können derzeit folgende Bildformate verwendet werden: EPS, CGM, TiFF, GIF, BMP, PNG und JPEG.

2.1.1.1.3 Mathematische Formeln

Mathematische Formeln können entweder als Bilder dem Text beigefügt werden oder als Text in der Codierung von TeX/LateX und MathML. Dabei bilden die Elemente <dmath> für die allein stehende mathematische Formel oder <im> für die in einer Zeile stehende mathematische Formel den äußeren Rahmen. Wird eine mathematische Formel als Bild eingebunden, wird so über das <mm> Tag strukturiert. Für die Verwendung von TeX/LateX und MathML muss den Elementen <dmath> und <im> das Attribut notation zugeordnet werden, damit untergeordnete Elemente entsprechend weiter interpretiert werden können. MathML ist ebenfalls eine Dokumenttypdefinition im Sinne von XML. Sie wurde im W3C für die Codierierung von mathematischen Ausdrücken und Formeln entwickelt.

2.1.1.1.4 Listen, Links und anderes

Tags für Listen stellt DiML in verschiedenen Formen zur Verfügung. Von der einfachen unnummerierten Liste bis zur römisch klein nummerierten Liste kann der Autor der Dissertation auswählen.

Links können sowohl auf Teile innerhalb des Dokumentes oder auf Texte, die im Internet zur Verfügung stehen, verweisen. Dabei wird eine ähnliche Syntax wie die aus HTML verwendet.

Fuß- und Endnoten, die vor allem in geisteswissenschaftlichen Promotionen vorkommen, können durch die Tags <footnote> oder <endnote> bezeichnet werden. <footnote> und <endnote> bieten durch ihre Attribute apparat und numbering die Möglichkeit, dass verschiedene Fuß- und Endnotenapparate erstellt werden können.

Für Hervorhebungen wie Fett <strong>, Kursiv <em>, Unterstrichen <u> und ihre Kombinationen bietet DiML entsprechende Tags an.

2.1.1.1.5 Spezielle Auszeichnungen

Neben den oben dargestellten strukturellen Elementen (u. a. <front>, <chapter>) und den Layoutelementen (u.a. <strong>, <em>) steht in DiML ebenfalls eine große Reihe von semantischen Elementen zur Verfügung. Beim Titelblatt sind es die semantischen Elemente wie <author>, die einen ganz bestimmten Inhalt in seiner Bedeutung kennzeichnen. DiML enthält weitere dieser Elemente:

<blockquote> Blockzitat
<quote> Zitat (innerhalb eines Satzes)
<motto> Motto
<foreign> Fremdwort
<term> Fachbegriff
<example> Beispiel
<verse> Gedicht

Durch die Möglichkeit der Kennzeichnung von Zitaten z.B. kann der Leser speziell in Zitaten von ganz bestimmten Autoren suchen oder sich einen Zitationsindex anfertigen lassen.

2.1.2 Anhang

Die Anhänge <back> rahmen den dritten Hauptbestandteil der DiML Dissertation. Folgende Elemente stehen zur Verfügung:

die Bibliographie= <bibliography>
das Abkürzungsverzeichnis = <abbreviation>
der Lebenslauf = <vita>
die Selbständigkeitserklärung = <declaration>
die Danksagung = <acknowledgments>
und frei zu definierende Anhänge = <appendix> .

Ein sehr wichtiger Bestandteil der Dissertation ist das Literaturverzeichnis. Ähnlich dem Titelblatt besteht dieses Verzeichnis nur aus Metadaten. Die Beschreibungen der Inhaltsbestandteile des Literaturverzeichnisses sind angelehnt an die BibTeX-Datenbank des Textsatzsystems LaTeX. Eine so tiefe Strukturierung birgt die Chance in naher Zukunft, die einzelnen Referenzen mit den im Internet Online zur Verfügung stehenden digitalen Dokumenten automatisiert zu verlinken, oder der Leser klickt auf eine Literturreferenz und gelangt so in den OPAC (Online Acesses Catalog) und bestellt das entsprechende Buch ohne Umstände.

2.1.3 Schreiben in DiML

Der Grund, warum sich nur eine Dokumenttypdefinition, die HTML DTD, im Internet durchgesetzt hat, ist der Mangel an kostengünstigen Editoren oder Textverarbeitungssystemen, die eine Vielzahl von DTDs zulassen. Auch werden Sie sich bestimmt gefragt haben, wie kann das nur alles vom Autor überblickt werden und müssen immer diese Spitzen Klammern vom Autor geschrieben werden? Eine Lösung für diese Fragen zeigt der Ansatz, der innerhalb der Humboldt-Universität praktiziert wird. Der Promovend darf mit seinem Textverarbeitungssystems arbeiten, aber dazu muss er eine von der Universitätbibliothek vorgegebene Druckformatvorlage benutzen.

2.1.3.1 Microsoft Word

Eine Umfrage, die am Beginn (1997) des Projektes "Digitale Dissertationen" der Humboldt-Universität zu Berlin stand, ermittelte, dass bis zu 90 % aller Promovenden an der Humboldt-Universität das Textverarbeitungssystem Microsoft Word benutzen. Andere Systeme wie WordPerfect und das Textsatzsystem LaTeX haben nur in bestimmten Bereichen einen größeren Benutzerkreis. So benutzen Promovenden der mathematisch/physikalischen Wissenschaftsrichtung verstärkt LaTeX.

Word bietet kein direktes Abspeichern gemäß einer beliebigen Dokumenttypdefinition nach dem SGML-Standard (z.B. DiML). Erst durch ein Add-On, dem SGML Author for Word, ist es möglich, SGML-konforme Dokumente zu erstellen. SGML Author for Word wird von der Firma Microsoft als zusätzliches Programm zu Word kommerziell vertrieben. Dieses Add-On arbeitet bei der Konvertierung nach DiML mit der speziellen Druckformatvorlage für Dissertationen des Projektes "Digitale Dissertationen", die ein Spiegelbild der DiML DTD ist. Durch dieses Verfahren arbeitet der Promovend mit seinem Textverarbeitungssystem Word und braucht somit nicht SGML - DiML zu erlernen. Trotzdem verändert sich im Umgang mit der Druckformatvorlage die Arbeit am Computer. Bei der Abfassung des Textes spielt nicht mehr das Formatieren des Textes eine zentrale Rolle, sondern die Zuordnung von bestimmten Formatvorlagen, die eine entsprechende Struktur oder semantische Zuordnung verdeutlichen.

2.1.3.2 Der Hauptteil <body>

Der Textkörper <body> bildet den Rahmen für den eigentlichen Inhalt der Dissertation. Der Promovend gliedert seinen Text in mehrere Ebenen, wobei folgende Gliederungsstufen möglich sind:

Frame <frame>
Kapitel <chapter>
Unterkapitel <section>
Abschnitt <subsection>
Unterabschnitt <block>
Unterunterabschnitt <subblock>
und Part <part>.

Frame stellt die oberste Gliederungsebene dar und untergliedert sich in Kapitel <chapter>, gefolgt von <section> und <subsection>. Die untersten Gliederungsebenen sind dann <block>, dieser ordnet sich <subblock> unter. Die Ebene Part bildet die unterste Gliederungsebene, kann jedoch in weitere <part> aufgeteilt werden. Damit ist die Untergliederung des Textes nicht begrenzt

In jeder Gliederungsstufe gibt es das Element <head>, welches auch in anderen Zusammenhängen grundsätzlich als Überschriftstag benutzt wird. Der eigentliche Fließtext, wird mit dem <p> Tag versehen. Den einzelnen Gliederungsbestandteilen liegt die gleiche Binnenstruktur zugrunde. Diese bewegt sich immer auf derselben Ebene wie <p>. Die einzelnen Strukturen sind <citation> für die Angabe eines wörtlichen Zitats, <table> für Tabellen und <mm> für Multimediaobjekte. In der Abbildung wird diese Struktur anhand eines Baummodells verdeutlicht.

2.1.3.3 Corel WordPerfect

Corel WordPerfect bietet schon seit Anfang der 90er Jahre die Möglichkeit, direkt in SGML zu speichern. So gab es seit Anfang der 90er Jahre ein entsprechendes Add-On für SGML. Damit stellt WordPerfect für das strukturierte Schreiben in SGML eine Alternative zu Microsoft Word dar.

2.1.3.4 LaTeX

Das TextsatzsystemTeX/Latex ist in den Naturwissenschaften weit verbreitet. Ähnlich wie SGML nutzt auch LaTeX eine Dokumentstruktur, die in verschiedenartigen Dokumenttypen, wie z. B. Artikel, Briefe, Bücher in Form von Style-Dateien, bereits vorbereitet sind. Die Analyse der bisher im LaTeX-Format eingereichten Dissertationen zeigte ähnliche Probleme wie in den Textverarbeitungssystemen. Die Autoren sind oft entweder nicht in der Lage oder nicht bereit, vordefinierte Stilbefehle korrekt zu nutzen. So kommt es dazu, dass Strukturauszeichnungen wie z. B. die Beschriftung von Abbildungen, Tabellen und Definitionen nicht genutzt werden und dass die Autoren sich eigene Macros zur Abkürzung für LaTeX-Befehle definieren, die im Prozess der Archivierung nicht oder kaum auflösbar sind. Eine Konvertierung nach SGML/DiML erschwert sich dadurch enorm und kann als fast nicht realisierbar eingeschätzt werden.

Um es trotzdem zu ermöglichen, dass eine schnelle und automatisierte Konvertierung nach SGML/DiML erfolgen kann, wird dem Promovend ein LaTeX Template angeboten. Dabei stützen sich die Vorgaben weitestgehend auf vorhandene Styles. Es wird als Dokumentstyle report empfohlen, und es wurden zusätzliche Macros definiert, die eine strukturierte Erfassung der Dublin-Core-Metadaten aus der Titelseite gewährleisten sollen. Während der Konvertierung nach SGML/DiML übersetzt der Konverter die Formatvorlagen in Auszeichnungen, die der DiML Dokumenttypdefinition entsprechen.

2.2 Vergleich/Kooperation mit anderen Dissertations-DTD's

Die Entwicklung der DiML DTD baut auf eine Kooperation mit anderen Projekten, die sich mit der Entwicklung einer Dokumenttypdefinition für Dissertationen beschäftigen. 1998 trat als erste deutsche Universität die Humboldt-Universität der Organisation der Network Digital Library Theses and Dissertation bei.

Zurzeit existieren 6 DTDs für Dissertationen, die innerhalb verschiedener Dissertationsprojekte in der ganzen Welt entwickelt wurden. Diese sind entweder völlige Neuentwicklungen oder Weiterentwicklungen von bestehenden DTDs.

Die Entwicklung einer DTD und die damit folgenden Entwicklungen eines Workflows innerhalb der Bibliothek zur Konvertierung und Präsentation von Digitalen Dissertationen sind äußerst zeitund kostenintensiv. Auch wenn alle Dissertationen als SGML- oder XML-Dateien sehr gut archivierbar sind, so ist eine Recherche über alle SGML/XML Disserationen noch nicht möglich. Der Autor in einer Literaturreferenz in der DiML.DTD wird mit bezeichnet, in der HutPubl.DTD dagegen als . Das Problem der Interoperabiltät dieser Dokumenttypdefinitionen wurde bereits international erkannt. Darum soll mit dem im Mai 2000 an der Humboldt-Universität stattfindenden Expertenworkshop für Disserations-DTDs nach einer Lösung gesucht werden, die einzelnen DTD zueinander kompatibel zu machen.

3. Wissensmanagement mit SGML/XML-Dokumenten

Die Arbeit, die einmal in die Entwicklung bestimmter Werkzeuge investiert werden muss und zum anderen in die Aufarbeitung der Dokumente selbst, ist jedoch nicht Selbstzweck von Bibliothek oder Rechenzentrum oder gar des Autors. Diese tiefe Erschließung, die u.a. am Ende dieser Arbeit steht, dient auch der Wissenschaft, indem sie Dissertationen schneller bekannt, schneller zugreifbar und besser durchsuchbar macht. Es bieten sich durch eine Erschließung von Metainformationen (Doktorvater, Hochschule; Register, Tabellen, Formeln) in der Forschung vielfältige Möglichkeiten der Recherche an, die in einem gedruckten Text heute nur schwer oder gar nicht möglich sind. Dazu kommt die Möglichkeit, auch multimediale Elemente (Ton, Bild, Video etc.) nicht nur in eine wissenschaftliche Arbeit einzubetten, sondern bei entsprechender Auszeichnung auch danach zu suchen.

3.1 Retrieval in strukturierten Dokumenten

Die zurzeit gängige Recherchepraxis in Bibliotheken sieht vor, dass eine Recherche gezielt nur in den Informationen geschehen kann, die in den Online-Katalogen der Bibliothek aufgenommen sind. Bei elektronisch vorliegenden Resourcen wird, als Erweiterung der Recherchemöglichkeiten, häufig auch eine Volltextindexierung vorgenommen. Das hat jedoch im Jahrzehnt des Internet zur Folge, dass die Trefferquote derartiger Systeme extrem hoch ist und die Relevanz der gefundenen Informationen für den Benutzer immer geringer wird.

Neuere Standardisierungen im Bereich des Metadatenretrievals von elektronischen Resourcen wie die Entwicklung des Dublin Core Sets¹⁷ ermöglichen es, nach weiteren Metainformationen für elektronische Dokumente (Gutachter, Fakultät, Universität, Schlagwörter, Abstracts) zu suchen und diese Informationen selbst in die Dokumente einzubringen, die dann für Suchmaschinen über das WWW nutzbar sind. Diese Methode schränkt den Suchraum und die Trefferquote schon gezielt ein.¹⁸ Der Metadatensatz für Dissertationen, der in Zusammenarbeit mit den Bibliotheken, besonders mit Der Deutschen Bibliothek, entwickelt wurde, stellt inzwischen in Deutschland einen Standard dar und wird auf internationaler Ebene abgeglichen.¹⁹ Er bietet die Möglichkeit, verteilte digitale Volltextarchive von Dissertationen aufzubauen und diese über einheitliche Rechercheinterfaces durchsuchbar zu machen. Das im Teilprojekt Retrieval des Dissertationen Online"-Projektes unter Nutzung des Harvest-Systems²⁰ aufgebaute Netz von Dissertationssuchmaschinen mit einer zentralen Suchmaske THEO stellt ein gutes Beispiel für eine Metadatennutzung dar.

Volltexte beinhalten aber weitere Bestandteile, die wie die Metadaten des Deckblattes den Inhalt beschreiben. Für das Suchen und Finden von Antworten bei entsprechend komplexen Fragestellungen in Volltexten erfordert eine Konzeption für ein Recherchesystem demnach, dass der Text vorher vom Autor intellektuell durch semantische und strukturbeschreibende Tags gekennzeichnet wurde. Dazu gehören Überschriften, Beschriftungen, Tabellen, Personen-, Orts- oder Begriffs-Register, Bibliographien. Zum Beispiel gibt eine Suche in Überschriften nach einem bestimmten Begriff, anders als bei einer Suche im bloßen Volltext, eine viel geringere Trefferquote zurück. Im Ergebnis jedoch können die Fundstellen in Überschriften höher gewertet werden. Eine gängige Praxis²¹ des wissenschaftlichen Schreibens ist es, einen Begriff, der durch eine Überschrift dem entsprechenden Textabschnitt vorangestellt wurde, in diesem näher zu erklären.

3.2 Informationsextraktion/Nachnutzung strukturierter Daten

Als Extraktion oder Wiederverwendung strukturierter Daten kann im einfachsten Fall die Erstellung von Inhalts-, Abbildungs- und Tabellenverzeichnissen sowie Indizes angesehen werden. Aufgrund des hohen Strukturierungsgrades können diese Informationen für andere Anwendungen aus den SGML/XML-Dokumenten entnommen und so weiterverarbeitet werden. Besondere Aufmerksamkeit wird deshalb auch der Strukturierung des Literaturverzeichnisses gewidmet. Diese Informationen sind z.B. in einem citation index wiederverwendbar, da für jede Literaturangabe in einem Dokument der zitierte Autor, der Titel des zitierten Werkes und bei Zeitschriften der Zeitschriftentitel erfasst werden. Für Universitätsbibliotheken ergibt sich hier z.B. die Möglichkeit zu recherchieren, welche Literatur und Zeitschriften häufiger genutzt werden als andere.

Als echtes Beispiel für Wissensmanagement können die speziellen Strukturierungen wissenschaftlicher Inhalte, wie z.B. die Katalogaufnahmen in den Anhängen kunstgeschichtlicher Arbeiten oder die Kodierung von Formeln im MathML oder CML, angesehen werden. MathML wurde u.a. entwickelt, um mathematische und andere wissenschaftliche Inhalte über das WWW für andere Nutzer verfügbar zu machen; so zum Beispiel, um in Anwendungen wie Computer Algebra Systeme (z.B. Maple) oder in Textsatzsysteme (z.B. LaTeX) strukturierte, weiter verarbeitbare Rohdaten und aktive Komponenten zu importieren und aus diesen zu exportieren oder auch um Sprachausgaben zu erzeugen. Aus gezielt extrahierten Daten können so ohne große Anstrengungen neue Informationsprodukte wie Kataloge oder Definitionslisten u.ä. gewonnen werden.

F. Teilprojekt Multimedia

von Wolf-D. Ihlenfeldt; Universität Erlangen-Nürnberg,
Computer Chemie Centrum, Institut für organische Chemie

1. Multimediadaten in der Chemie

Von allen Wissenschaften hat die Chemie die ausgeprägteste Tradition in der Archivierung nicht-textueller Information. Seit Jahrzehnten wird praktisch die ganze wissenschaftlich relevante chemische Literatur in Hinsicht auf Verbindungen und Reaktionen sowie physikalische Messdaten exzerpiert. Diese Informationen werden in großen kommerziellen Datenbanken erfasst und nach zahlreichen chemiespezifischen Kriterien erschlossen und suchbar gemacht.

Viele der Suchverfahren, die Datenbanken mit Strukturen, Reaktionen und Spektren erschließen, liegen außerhalb des traditionellen Rahmens von Text (Volltext, Schlüsselworte etc.) oder numerischen Informationen (Datum, Seitennummer etc.). Für die Chemie wichtige Suchverfahren sind zum Beispiel Vollstruktursuche, Substruktursuche, strukturelle Ähnlichkeitssuche, Spektrenvergleichssuchen und Suche nach reaktiven Bindungen in bestimmten Kontexten. Bei den Struktursuchverfahren handelt es sich dabei prinzipiell um Graphenvergleiche. Eine Vollstruktursuche zum Beispiel verifiziert, dass eine bestimmte Verbindung unter den Kriterien der chemischen Unterscheidbarkeit trotz der Variation in bestimmten Darstellungsattributen mit einer publizierten Verbindung identisch ist. Für die Chemie ist dies ein wichtiger Zugriffspfad; die Frage, ob eine bestimmte Verbindung bereits irgendwo einmal untersucht, nachgewiesen oder hergestellt wurde, ist von zentraler Bedeutung für viele Fragestellungen.

Die denkbare Lösung, dies über einen Vergleich der Verbindungsnamen zu erreichen, ist in der Praxis nicht möglich. Die Regeln zur Namensgebung chemischer Verbindungen sind dermaßen kompliziert (die Regelwerke umfassen mehrere tausend Seiten), dass auch vollausgebildete Chemiker, die keine ausgewiesenen Spezialisten in Nomenklaturfragen sind, bei komplexeren Strukturen leicht zu falschen Ergebnissen kommen. Zudem gibt es zwei wichtige, aber in vielen Bereichen inkompatible Nomenklaturregelwerke (IUPAC und CAS-Nomenklatur). Die Wahrscheinlichkeit, dass sowohl der Anfrager als auch der Datenbank-Erfasser auf den gleichen Namen kommen und damit eine Textsuche über den Namen Erfolg hat, ist für Verbindungen jenseits von Standardchemikalien viel zu klein, um in der Praxis zuverlässig zu funktionieren. Suchverfahren, bei denen der Benutzer eine Struktur zeichnet und dann durch das Suchsystem in der Datenbank über einen Vergleich der hinter der Struktur stehenden Graphen aus Atomen und Bindungen die Verbindung gefunden wird, sind dagegen leicht und zuverlässig zu nutzen und von hoher praktischer Relevanz.

Auf ähnliche Weise sind auch andere Suchverfahren für die Erschließung des chemischen Wissens wichtig: Substruktursuchen finden Verbindungen, in denen bestimmte Gruppen von Atomen und Bindungen eingebettet in einer größeren Struktur vorkommen. Ähnlichkeitssuchen finden Verbindungen, die gemeinsame Strukturelemente besitzen, ohne dass notwendigerweise eine exakte Einbettung oder Überlagerung möglich ist. Für viele wichtige spektroskopische Verfahren gibt es spezifische Algorithmen, um identische oder ähnliche Verbindungen zu finden, die schon einmal vermessen wurden, obwohl das genaue Aussehen eines Spektrums von den Messbedingungen und verwendeten Apparaten abhängt und daher auch hier ein einfacher Vergleich der Signale auf absolute Übereinstimmung nicht weiterhilft. Für diese spezialisierten und fachspezifischen Suchverfahren, ohne die die Chemie in der Erschließung ihres Wissens schon lange nicht mehr auskommt, wurden in den letzten Jahrzehnten eine eigenständige Datenbanktechnologie und viele intelligente Suchoperationen entwickelt. Chemiker nutzen routinemäßig diese Erschließungspfade, weil für viele Fragestellungen klassische bibliographische Suchen oder sogar Volltextsuche keine hinreichende Alternative sind. Traditionell erfolgt die Erfassung der Daten für die Datenbanken manuell. In der Praxis bedeutet dies, dass in Ländern mit einer großen Zahl von qualifizierten Chemikern, aber niedrigem Lohnniveau die Veröffentlichungen in Papierform gelesen und die Daten neu eingegeben bzw. die Strukturen und Reaktionen neu gezeichnet und dann als Graphen abgespeichert werden. Dieser Medienbruch ist ein aufwendiger Prozess, und die Nutzung der so erstellten Datenbanken dementsprechend teuer. Ein einfaches Einscannen von Abbildungen ist übrigens auch nicht möglich � nicht alle Verbindungen werden in Veröffentlichungen als Strukturen gezeichnet, sondern Chemiker müssen oft Zwischenschritte oder Strukturteile durch ihr Fachwissen aus dem Kontext rekonstruieren. Zudem ist die Konvertierung von Bildern in die Strukturgraphen (den Zusammenhang von Atomen und Bindungen mit allen Attributen wie Bindungsordnung, Atomtyp etc.) ein zwar mittlerweile technologisch durchführbarer, aber immer noch fehleranfälliger Prozess.

Bislang ist es erst in wenigen Spezialfälle (Röntgenstrukturanalysen, Proteinstrukturaufklärung mit verschiedenen Methoden, Sequenzdaten) so, dass die Autoren von Artikeln in wissenschaftlichen Zeitschriften oder von Dissertationen ihre Originaldaten routinemäßig direkt in Datenbanken abliefern und somit eine automatische Erschließung stattfindet.

Wir haben im Rahmen eines durch das BMBF und zuvor durch das Bayerische Forschungsministerium geförderten Projekts den Aufbau eines Online-Archivs chemischer Dissertationen betrieben und uns dabei insbesondere mit Fragen der Einbindung von multimedialen Elementen in Texte und die Verwendung dieser Elemente zur erweiterten Erschließung beschäftigt. Neben Fragen zu geeigneten Formaten und Präsentationsformen, traten dabei auch Fragen zu Indexierungsverfahren, Datenspeicherung und Kooperation mit den Primärautoren auf.

Im Falle der Dissertationen aus der Chemie ist die Lage derzeit so, dass sie, obwohl sie in vielen Fällen wichtige Detailinformationen enthalten, die unter Umständen niemals in wissenschaftlichen Zeitschriften publiziert werden, nur sehr unvollständig erschlossen werden. Deutsche Dissertationen werden, im Gegensatz zu amerikanischen Arbeiten, zum Beispiel überhaupt nicht in der wichtigen Datenbank des CAS (Chemical Abstracts Service) erfasst, und auch bei US-Werken findet die wichtige Strukturerfassung nur selten und unvollständig statt. Dissertationen fallen also in ihrem Erschließungsgrad gegenüber Journalartikeln stark ab.

Neben dem Problem der Erhältlichkeit per Fernleihe usw. ist dies ein wesentlicher Faktor, der ihre derzeitige Nutzung in der Forschung spürbar beschränkt. In unserem Prototypen, der über die URL http://www2.ccc.uni-erlangen.de/dissertationen/ frei zugänglich ist, setzten wir uns das Ziel, einen leistungsfähigen und sachgerecht erschlossenen Zugang zu Dissertationen zu schaffen, der den Stand der Technik dokumentieren und Möglichkeiten zur Aufwertung des Stellenwerts von Dissertationen demonstrieren soll.

1.1 Voraussetzungen für die Nutzung von Strukturdaten � Aufbereitung der Rohdaten

Wie bereits angedeutet, ist eine Aufbereitung der Daten von Strukturen und Spektren notwendig, bevor darauf Suchoperationen möglich werden. Weder auf einem Bild einer Struktur noch auf einem Plot eines Spektrums kann man direkt suchen. Strukturen müssen in eine Darstellungsform umgewandelt werden, in der in computerlesbarer Form festgehalten ist, welche Atome mit welchen anderen Atomen über welche Typen von Bindungen verbunden sind. Dazu kommen andere Kriterien wie Ladungen, Isotopenmarkierungen, Stereochemie, etc., die als zusätzliche Attribute codiert werden müssen. Liegt nur noch ein Bild vor, egal ob in einem gedruckten Text oder in einem digitalen Dokument als eingebettetes Objekt, ist bereits ein Problem entstanden. Eine Rückverwandlung in die datenbanktaugliche Form aus diesen Medien heraus ist in der Praxis nur durch erneute manuelle Erfassung möglich.

Hat man jedoch Zugang zu den früheren Phasen der Dokumentenerstellung, wird das Problem sehr viel einfacher. Kein Chemiker benutzt zum Zeichnen der Strukturen Graphikprogramme für allgemeine Aufgaben. Jeder Wissenschaftler benutzt statt dessen spezielle Moleküleditor-Programme, die neben der Erstellung von Graphiken auch die Ausgabe in Austauschformaten zur Einspeisung in Datenbanken beherrschen. Der Autor muss also lediglich bei der Struktureingabe Sorgfalt tragen, dass er die Kernstruktur und graphische Annotationen sorgfältig getrennt hält. Dann kann er oder sie das Ergebnis sowohl in einem graphischen Format (oder als verknüpftes Objekt direkt im Textverarbeitungssystem etc.) zur Einbettung in das Dokument als auch im Exportformat abspeichern. Die verschiedenen marktüblichen Struktureditoren unterstützen neben graphischen und Datenbank-Exportformaten immer auch noch ein eigenes, programmspezifisches Format zur Speicherung ihrer Darstellungen, das sowohl die graphischen Attribute als auch die notwendigen Zusatzinformationen über den internen Aufbau der bearbeiteten Darstellung enthält. Damit eine Konvertierung möglich ist, muss z.B. bekannt sein, ob eine Zeichenkette in der Zeichnung ein Atomsymbol oder eine freie Anmerkung ist. Liefert der Autor zumindest diese Dateien, die das Standard-Speicherformat der Editoren sind, mit ab und verfügt eine Konvertierungsstelle über die gleiche Software wie der Autor, können die Export-Dateien auch mit wenig Aufwand nachträglich durch einfaches Einladen und Abspeichern im Exportformat erzeugt werden.

Nicht alle Strukturen müssen wirklich gezeichnet werden. Viele andere Datenquellen fallen im Verlaufe einer wissenschaftlichen Arbeit automatisch in einem wiederverwertbaren und archivierbaren oder zumindest konvertierbaren Format an. In der Chemie wird zum Beispiel die Computersimulation des Verhaltens von Molekülen immer wichtiger. Die Ausgabedateien dieser Programme können sowohl zur Generierung von Bildern als auch zur Erstellung von interaktiven Multimediaformaten (Video, 3D-Molekülmodelle, 3D-Animationen) als auch zur Umwandlung in Übergabeformate zur Datenbankspeicherung herangezogen werden. Voraussetzung ist dabei wiederum, dass der Autor entweder selber die Konvertierung durchführt oder zumindest die originalen Dateien aufbewahrt. Während im Falle einer 2D-Strukturzeichnung die nachträgliche Erfassung des Informationsgehalts der Darstellung durch manuelle Eingabe zumindest prinzipiell noch möglich ist, ist dies bei dreidimensionalen oder gar zusätzlich noch zeitabhängigen Daten definitiv nicht möglich. Eine wissenschaftlich aussagekräftige Rekonstruktion einer 3D-Struktur aus einer 2D-Farbabbildung (selbst aus einem Stereobildpaar oder einer Anaglyphendarstellung) ist generell nicht möglich.

Im obigen Absatz wurde bereits angedeutet, dass es neben den Erfassungsformaten für Datenbanken weitere wichtige Typen von Multimediadaten in der Chemie gibt. 3D-Modelle chemischer Verbindungen sind ein wichtiges Beispiel. Viele Effekte in der modernen Chemie können aus dem Verständnis der räumlichen Anordnung und Wechselwirkung der Strukturelemente erklärt werden. Klassische 2D-Abbildungen, selbst mit Hilfstechniken wie Anaglyphen oder Stereobildpaaren, kommen bei weitem nicht an die Aussagekraft eines 3D-Modells heran, das der Nutzer selber inspizieren und von allen Seiten ansehen und vermessen kann. Für diese Typen von chemischen Multimedia-Anwendungen existieren mittlerweile weitgehend standardisierte Viewer (Plug-Ins, Applets, alleinstehende Programme), die die wichtigsten Dateiformate für 3D-Molekülinformation lesen und darstellen können. Die meisten Chemiker werden diese Hilfsmittel mittlerweile auf ihrem PC installiert und zur Verfügung haben. Werden zeitabhängige Phänomene beschrieben, gibt es ebenfalls Möglichkeiten, diese mit multimedialen Techniken im Vergleich zu traditionellen Medien besser darstellbar zu machen. Im gedruckten Werk ist für diese Informationen kaum mehr als der Abdruck einer Serie von Abbildungen möglich. Video als einfachste Methode zur zeitabhängigen Visualisierung ist nur der erste Schritt, denn dabei ist man auf den vom Autor gewählten Blickwinkel beschränkt. Auf dem Stand der Technik sind hingegen animierte 3D-Szenen, bei denen sich Objekte in einer 3D-Umgebung selbständig bewegen. Der Leser kann nicht nur den Ablauf aus einem festen Blickwinkel verfolgen, sondern auch seine Sicht auf die ablaufende Szene dynamisch verändern. Es existiert eine Reihe von Standardformaten und Anzeigeprogrammen zur Realisierung dieser Art von Darstellungen.

Bei der Integration von Spektralinformation in digitale Dokumente und Datenbanken mit Suchmöglichkeiten ist die aktive Mitarbeit der Autoren ebenfalls essentiell. Wie bei Strukturzeichnungen ist eine vollständige Rekonstruktion der Daten aus einem Plot kaum möglich, auch wenn für diesen Einsatzzweck Software entwickelt worden ist. Verkürzt der Autor jedoch seine Originalinformationen in textuelle Beschreibungen von ausgewählten Signalen oder handelt es sich um multidimensionale Informationen, ist eine nachträgliche Rekonstruktion nicht mehr durchführbar. Glücklicherweise hat sich in den letzten Jahren ein allgemein anerkannter Standard zur Speicherung von Spektralinformationen mit Namen JCAMP-DX durchgesetzt. Praktisch alle Spektrometer neueren Datums unterstützen dieses Format, und so liegt es wiederum am Autor, diese Dateien aufzuheben und mit seinem Dokument zu bündeln.

Wie beschrieben, benötigt man spezielle Datenbanksysteme, um Struktur- Reaktions- und Spektralinformation suchbar zu machen. Im Allgemeinen liegt vor der Aufnahme in die Datenbank noch ein Datenintegrations-Schritt. Die verschiedenen Struktur-, Reaktions- und Spektraldateien müssen mit entsprechenden Metadaten versehen (Zu welchem Dokument gehören sie? Wie stehen sie untereinander in Bezug?) und in ein gemeinsames Ladeformat für die Datenbank konvertiert werden. Für unser Dissertationenarchiv kommt für die Speicherung und Suche dieser Informationen ein selbstentwickeltes System zum Einsatz. Es gibt jedoch auch kommerzielle Produkte mit vergleichbarer Funktionalität, die alternativ einsetzbar wären, aber natürlich nicht so gut an ein bestimmtes Setup angepasst und mit experimentellen Features versehen werden kann, wie ein System, über das die Entwickler volle Kontrolle besitzen.

Bei digitalen Dokumenten mit Hypertext-Charakter bietet es sich natürlich an, die Daten der im Text beschriebenen Strukturen, 3D-Modelle etc. zusätzlich direkt mit dem Dokument zu verknüpfen, so dass ein Abruf z.B. zu einfachen Anzeigezwecken möglich ist, ohne dass die Strukturen und Modelle erst umständlich über ein Suchformular in der Datenbank geortet werden müssen. In unserem prototypischen System haben wir zwischen das Dokument in der HTML-Form und die Datenbank bei dieser direkten Verknüpfung von Text und Daten noch eine Konvertierungs-Drehscheibe eingefügt. Über diese Drehscheibe können die Daten in verschiedenen, dynamisch erzeugten Formatvarianten abgerufen werden, um dem Nutzer möglichst wenig zur Nutzung des Dienstes notwendige Zusatzsoftware wie Anzeigeprogramme, Plug-Ins etc. vorschreiben zu müssen.

1.2 Suche in chemischen Strukturen

Bei der Formulierung von Suchen in Strukturen, Reaktionen und Spektren sieht man sich zunächst einmal dem Problem gegenüber, dass der nicht-textuelle Charakter der Daten auch eine nicht-textuelle Eingabe der Suchanfrage erfordert, will man ein Mindestmaß an Benutzerkomfort bereitstellen. Eine klassische Eingabe über Formularfelder kommt daher kaum in Betracht, auch wenn es im Prinzip Linearnotationen zur Codierung chemischer Verbindungen gibt.

Zwei wichtige Eingabepfade sind dabei zu berücksichtigen: Einerseits die interaktive Eingabe von Strukturelementen, andererseits der Import von Suchanfragen, die mit externen Werkzeugen erstellt worden sind und möglicherweise archiviert und regelmäßig neu ausgeführt werden, um den Nutzer auf dem neuesten Stand auf ausgewählten Gebieten zu halten (Alerts).

Zur interaktiven Eingabe eignen sich insbesondere Java-Applets, die z.B. in Webseiten eingebettet werden können. Der Vorteil dieser Applets ist es, dass sie sofort nutzbar sind, ohne dass zuvor Software installiert sein müsste, weil der Applet-Code bei Bedarf komplett und automatisch zum Nutzerrechner übertragen wird.

Alternativ können Plug-Ins zum Einsatz kommen, die üblicherweise von bekannten Moleküleditoren abgeleitet worden sind. Diese Plug-Ins haben jedoch den Nachteil, dass die marktführenden Produkte vergleichsweise teuer sind und natürlich auch plattform-abhängig. Die Nutzbarkeit eines öffentlichen oder auch zugangsbeschränkten, aber preislich nicht hoch angesiedelten Dienstes vom teuren Erwerb der Lizenz eines bestimmten Eingabe-Plug-Ins abhängig zu machen, ist selten eine gute Wahl für eine breite Nutzerakzeptanz. Man muss jedoch auch berücksichtigen, dass die derzeit verfügbaren Java-Applets von den Möglichkeiten, komplexe Anfragen zu formulieren, noch weit vom Leistungsstand der Standard-Editoren und den davon abgeleiteten Plug-Ins entfernt sind. Für den Normalnutzer bieten sie jedoch hinreichende Funktionalität und haben zudem den Vorteil, den Gelegenheitsnutzer nicht zu überfordern.

Für komplexere Anfragen gibt es zusätzlich noch die Möglichkeit, Anfragen mit bei Chemikern als vorhanden vorauszusetzenden Standard-Moleküleditoren zu erstellen, als Datei in einem Austauschformat abzulegen und dann per Datei-Upload an den Datenbankserver zu übermitteln.

Die hier für das Beispiel der Struktureingabe formulierten Aussagen sind sinngemäß auch auf Reaktionen, Spektren etc. übertragbar.

Nach der Eingabe der Anfragestrukturen wird die Anfrage an den Datenbankserver übermittelt. Eine Anfrage kann durchaus zusammengesetzter Natur sein und z.B. einen generellen Teil (wie die Suche nach einem Autornamen) mit der Suche nach einer Verbindungsklasse über eine Teilstruktur kombinieren. Mit der derzeitigen standardmäßig eingesetzten Technologie ist es noch weitgehend üblich, Chemiedaten und traditionelle Daten in separaten Datenbanksystemen zu speichern. Die Entwicklung von Mechanismen, die speziellen chemischen Daten zusammen mit bibliographischen Daten, Messwerten etc. in der neuen Generation von objekt-relationalen Datenbanken gemeinsam abzulegen und die spezifischen Suchfunktionen über Datenbank-Erweiterungsmechanismen zu implementieren (Data Cartridges, etc.), ist derzeit ein aktuelles Thema der Chemoinformatik.

In unserem Prototypen für das Dissertations-Archiv haben wir den traditionellen Ansatz mit einer getrennten Ablage der bibliographischen Daten in einem relationalen Datenbanksystem und der Chemiedaten in einer Eigenentwicklung verfolgt. Die eigentlichen Dissertations-Texte in verschiedenen Formaten (HTML, PDF, PostScript) liegen als normale Dateien vor und sind nicht Teil der Datenbanken.

Sowohl die Bibliographie als auch die Strukturen enthalten in ihrem jeweiligen Datensatz Verweise auf die dahinterstehenden Dokumente. Suchen über Strukturen, Spektren etc. führen daher, genau wie normale bibliographische Suchen, zum Dokument als primärer Informationsquelle. Allerdings ist die Verknüpfung der chemischen Daten mit dem Dokument wesentlich präziser als über die bibliographischen Angaben. Bei einer Autorensuche kann man problemlos auf den Kopf des Dokuments verweisen. Da jedoch Dissertationen unter Umständen Hunderte von chemischen Strukturen beschreiben können und normalerweise einen Umfang von 100-300 Textseiten haben, ist bei Struktursuchen ein genauerer Verweis bis hin zur Textzeile oder Einzelabbildung erforderlich, damit der Nutzer direkt an die interessierenden Stellen des Textes geleitet wird.

2. Multimediadaten in anderen Wissenschaften

Wie Sie im vorherigen Abschnitt erfahren haben, sind die typischen Multimedia-Anhänge zu Texten aus der Chemie vom Charakter her oftmals sehr speziell ausgerichtet. Mancher Leser wird überrascht gewesen sein, dass wir Strukturdateien, 3D-Molekülmodelle, Spektren-Rohdaten etc. überhaupt als Multimedia-Daten bezeichnet haben. Im üblichen Sprachgebrauch werden unter Multimedia-Informationen vielfach im Wesentlichen Video, Audio und Animationen verstanden. Wir benutzen diesen Begriff in erweiterter Form.

Wir meinen jedoch sagen zu können, dass diese Daten sehr wohl als multimediale Information angesehen werden sollten � schließlich ist der Unterschied zwischen einem traditionellen Video und einer chemiespezifischen Animation oder einer einfachen Datentabelle und einem spektralen Datensatz nicht prinzipieller Natur. In jedem Falle benötigt man zusätzliche Software zur Anzeige, und sowohl größere Datentabellen als auch Spektren können nur mit rechnergestützten Hilfsmitteln sachgerecht analysiert werden. Sie sind in traditionellen papiergebundenen Medien kaum sinnbringend nutzbar, denn der Ausdruck der Tabelle der Antworten einer Studie mit einigen tausend Teilnehmern ist totes Datenmaterial, genau wie ein Spektrenplot, und nur mit großem Aufwand in eine wiederverwertbare und analysierbare Form zu bringen.

Die Chemie ist insofern weiter fortgeschritten als andere Wissenschaftszweige, als dass sie für ihre typischen Datenobjekte wie Strukturen, Spektren und Reaktionen bereits sowohl hinreichend genormte Austauschformate als auch fachspezifische Indexierungsmechanismen entwickelt hat. Die Weiterentwicklung der Zugriffsmechanismen auf multimediales Material braucht jedoch keineswegs auch in der Zukunft auf die Chemie beschränkt zu bleiben. Auch andere Fächer wie die Musikwissenschaft (musikalische Themen- und Phrasensuche in Notenund Audiodatenbanken) oder Kunstgeschichte (heraldische Motivsuche in Bilddatenbanken) beginnen, eigene fachspezifische Erschließungsmechanismen zu entwickeln, die sich von der Textebene lösen. Ich wage die Voraussage, dass dieser Typ von Erschließungsmechanismus in der nahen Zukunft auch für andere Fächer essentiell werden wird. Die Bibliotheken sollten diesen zukünftigen Anforderungen an Erschließungsmechanismen ins Auge sehen.

Neben den im ersten Teil beschriebenen chemiespezifischen Formaten existiert natürlich zusätzlich ein unspezifischer Bereich allgemeiner wissenschaftlicher Daten. Eine Übersicht gebe ich im nächsten Abschnitt. Zudem ist es nur natürlich, dass mit der Chemie verwandte Wissenschaften wie Physik oder Biologie aus der Chemie bekannte Datentypen mit Texten verknüpfen möchten. Die Verwendung der Lösungen aus der Chemie bietet sich dann natürlich an.

2.1 Datenformate

In diesem Abschnitt möchten wir abschließend noch einige typische Datenformate zur Speicherung wissenschaftlicher Information vorstellen, die nicht für die Chemie alleine von Interesse sind, sondern in der einen oder anderen Form in den meisten Wissenschaften auftauchen. Diese Formate werden selbstverständlich auch von der Chemie verwandt, sind aber nicht im gleichen Maße spezialisiert und deshalb wohl auch bekannter.

Datentabellen. Die Erfassung von numerischen oder über eine Textauswahl standardisierten Informationen steht im Zentrum vieler wissenschaftlicher Aktivitäten. Neben der einfachen Ablage als Text kommen für diese Informationen vor allem Spreadsheet-Formate in Frage, die zusätzliche Informationen über den Typ und den Inhalt der Zeilen und Spalten speichern können, also z.B. SYLK oder DIF. Die Verwendung von programmspezifischen und undokumentierten Formaten, wie z.B. eine Ablage direkt als native MS Excel Datei, verbietet sich natürlich von selbst.

Multidimensionale numerische Daten. Falls die Informationen mehr als zwei Dimensionen oder eine hierarchische Struktur haben, ist die Ablage in einfachen Spreadsheet-Formaten nicht mehr möglich. In dieser Domäne kommen im Wesentlichen nur die Formate netCDF und HDF in Frage.

Bilddaten. Die Zahl der portablen Bildformate ist recht begrenzt. Für einfache Schemata mit klaren Kontrasten bietet sich PNG an, für photographische Aufnahmen JPEG. GIFs haben neben patentrechtlichen Problemen andere Schwierigkeiten, wie die Begrenzung auf max. 256 Farben pro Bild und eine relativ kleine Maximalgröße. Das bekannte TIFF ist kein Einzelformat, sondern eine Übermenge an Codierungsformen und daher problematisch, weil nicht jedes Leseprogramm jedes Bild decodieren kann. JPEG und andere Verfahren (aber nicht PNG und GIF) komprimieren die Daten unter Verlust eines Teils der Originalinformation, eine spätere Umcodierung in ein anderes Format führt daher zwangsläufig zu Qualitätsverlusten. Dies ist ein wichtiger Faktor für die Langzeitarchivierung.

Audiodaten. Für kaum ein anderes Gebiet gibt es so viele parallele Formate. Auch hier muss man zwischen sehr kompakten, aber verlustbehafteten Formaten (MP3) und zahlreichen reversiblen Kompressionsverfahren (AU) unterscheiden. Eine Sonderrolle spielen Formate, die nicht Töne und Laute, sondern Anweisungen zu deren Erzeugung speichern (MIDI).

Video. Das Standardformat hierfür ist MPEG. MPEG ist kompakt, vollständig dokumentiert und weit verbreitet. Eine Kombination mit Audiodaten ist möglich. Weder AVI noch QuickTime sind abgeschlossene Formate � für jede Formatvariante benötigt man die richtigen, vorher zu installierenden Codecs (Codier/Dekodierverfahren), um die Informationen abrufen zu können. Dies ist neben dem proprietären und teilweise undokumentierten Charakter dieser Formate ein Problem. Die meisten Videoformate speichern nur ausgewählte Bilder komplett und dann für die Übergangsphase bis zum nächsten komplett gespeicherten Bild nur approximierte Änderungsinformation. Dies hat den Effekt, dass die Bildqualität nicht konstant ist. Bewegte Zwischenbilder sind unscharf. Für manche Auswertungsszenarien, bei denen einzelne Standbilder analysiert werden sollen, ist dies nicht akzeptabel. Eine Alternative für diesen Einsatzbereich ist MJPEG, das jedes Bild mit gleich guter Schärfe speichert, aber dafür den Preis deutlich erhöhter Dateigrößen zahlt.

Skalierbare Zeichnungen. Die Ablage von Graphiken als Bilder hat den Nachteil, dass die Auflösung durch die Zahl der Bildpunkte festgelegt ist. Eine nachträgliche Vergrößerung bringt keine neuen Details heraus, sondern interpoliert nur zwischen den im Ursprungsbild enthaltenen Bildpunkten.

Es gibt jedoch Zeichnungen (z.B. aus dem Ingenieurwesen oder der Architektur), die in verschiedenen Maßstäben und Detailgraden einsehbar sein sollen. In diesem Fall ist die Ablage von Serien von Abbildungen in unterschiedlichen Maßstäben und Ausschnitten keine gute Alternative. Für diesen Typ von Zeichnung ist derzeit DXF der Standard. In Zukunft ist jedoch zu erwarten, dass der neue Standard SVG (Scalable Vector Format) das vorherrschende Format werden wird. Beide Formate enthalten graphische Grundelemente wie Linien und Textmarker, die je nach angefordertem Ausschnitt neu skaliert werden können.

3D-Modelle. Das einzig allgemeine, praktisch verwendbare Format für 3D-Szenarien ist VRML, das wohl in nächster Zeit durch den Nachfolgestandard X3D abgelöst werden wird. VRML und X3D enthalten graphische 3D-Basisobjekte und erlauben mit entsprechenden Anzeigeprogrammen, bzw. Plug-Ins, die interaktive Inspektion der Szene von allen Seiten und auch eine Reaktion auf Nutzeraktionen wie das Anklicken von Objekten. Animationen sind ebenfalls möglich. VRML wird in vielen Bereichen, von der Architektur über Anlagenbau, Physik bis hin zur Chemie genutzt.

2D-Animationen. Für animierte 2D-Szenen, in denen identifizierbare Objekte bewegt werden, die z.B. auf Nutzeraktionen reagieren können sollen, ist derzeit Macromedia Flash das wichtigste Format. Als proprietäres, nicht vollständig offengelegtes Format weist es die bekannten Probleme für eine allgemeine und langanhaltende Nutzbarkeit auf. Das bereits erwähnte Format SVG könnte langfristig Flash als Archivformat ablösen, weil es ebenfalls über Animationsfunktionen und Interaktivität verfügt. Für einfache, einmalig oder zyklisch ablaufende Illustrationen können auch animierte GIFs oder MPNG in Erwägung gezogen werden.

Diese Liste erhebt nicht den Anspruch auf Vollständigkeit, deckt aber wohl den größten Teil der in wissenschaftlichem Umfeld auftretenden Datentypen ab. In der Zukunft könnten auch übergeordnete Integrationsformate wie XML, SMIL, MPEG4 an Bedeutung gewinnen, die eine Vielzahl von Medien und deren Verknüpfung integrieren können.

2.2 Zur Akzeptanz und Nutzung von Multimediadaten in den Wissenschaften

Der letzte Punkt dieses Beitrags ist zugleich der am schwierigsten zu bewertende. Eine allgemeingültige und knappe Aussage, dass Multimediadaten in der Chemie oder anderen Wissenschaften akzeptiert oder nicht akzeptiert sind, lässt sich nicht abgeben. Da die Autoren Chemiker sind und mit den Gepflogenheiten anderer Fachrichtungen nicht im gleichen Maße vertraut sind, werden wir unsere Analyse der Situation auf dieses Fach begrenzen. Wir sind uns jedoch sicher, dass viele Beobachtungen sinngemäß übertragbar sind.

Es existieren bereits eine Reihe von wissenschaftlichen Journalen, die ihre Autoren aktiv dazu auffordern, Multimediaelemente in ihre Beiträge einzubauen. Die Journale erscheinen entweder in einer reinen Online-Version oder sie bieten Online-Supplemente für diese Komponenten. Viele der Veröffentlichungen in diesen Zeitschriften enthalten dann auch wirklich diesen Typ von Informationen, in der Chemie zum Beispiel häufig 3D-Modelle von komplexen Molekülen. Dies ist eine natürliche Herangehensweise, weil der Informationsgehalt und die Überzeugungskraft eines Artikels durch ein 3D-Modell, das die entscheidenden Argumentationsketten einleuchtend unterstützt, spürbar erhöht werden. Zudem arbeitet ein hoher Anteil der Wissenschaftler ohnehin mit den Multimedia-Objekten in der täglichen Arbeit, wenn auch isoliert vom Dokument in Einzelanwendungen wie Modellierungsprogrammen. Der Abruf der multimedialen Zusatzinformation aus einem Dokument heraus, das diese Möglichkeit anbietet, ist daher kein großer Gewöhnungsschritt und wird gerne genutzt.

Auf anderen Gebieten ist die freiwillige Mitarbeit der Autoren jedoch nicht so ausgeprägt. Keine der uns bekannten Zeitschriften aus der Chemie verlangt von den Autoren, ihre Strukturen komplett zum Aufbau einer Indexierungs-Datenbank zusammen mit dem Artikel abzuliefern. Dabei wäre der Mehraufwand für die Autoren, gegenüber einer nachträglichen Erfassung aus den im ersten Teil dieses Beitrags beschriebenen Gründen, in der Regel relativ gering. Auf dem Gebiet der Spektren sieht die Lage noch schlechter aus: Während die der Welt bekannten chemischen Einzelverbindungen zu einem Großteil durch nachträgliche Erfassung in Datenbanken gelangt, wird geschätzt, dass alle Spektrendatenbanken zusammen nur eine einzige weltweite Tagesproduktion an Spektren enthalten. In einem Pilotprojekt wird jedoch derzeit die Möglichkeit des automatischen Internetgestützten Aufbaus von Spektrendatenbanken durch Direktangabe der Messdaten durch Autoren evaluiert.

Technisch gesehen ist weder die Ablieferung von Strukturen noch von Spektren ein Problem, denn die dazu notwendigen Werkzeuge befinden sich in der Hand jedes Chemikers. Mangelndes Bewusstsein der Möglichkeiten und Erfordernisse und die bis vor kurzem bestehende traditionelle Trennung zwischen Verlagen und Datenbankanbietern haben jedoch die Entstehung einer konsequent auf Datenablieferung bestehenden Publikationskultur nicht erlaubt. Interessanterweise gedeiht jedoch auf einigen kleinen Spezialgebieten im Gegensatz zur generellen Situation genau diese Kultur: Es ist praktisch unmöglich, einen Artikel über eine Gensequenz oder eine Röntgenstrukturanalyse in einem renommierten Journal zu veröffentlichen, wenn der Autor nicht nachweislich vor der Annahme des Artikels die Daten bei einer zentralen Stelle hinterlegt hat.

In unserem Projekt zur Publikation multimedial angereicherter und erschlossener Dissertationen auf dem Internet, mussten wir teilweise ernüchternde Erfahrungen machen. Während wir in den meisten Fällen die Moleküldaten vom Autor erhalten konnten, weil die Speicherdateien der Struktureditoren noch vorhanden waren, mussten wir den Export als Übergabedateien für die Strukturdatenbanken generell selber organisieren. Andere Daten, die während der Arbeit intermediär vorhanden waren, gingen häufig während der Erstellung der Dissertation wieder verloren.

Besonders schade ist dies bei Spektreninformationen, bei denen häufig eine Konvertierung in einen graphischen Plot durchgeführt wurde und dann die Originaldaten sofort wieder gelöscht wurden.

Sogar bei 3D-Modellierungen hatten wir Autoren, die aus der wertvollen 3D-Darstellung ein Bild erzeugten und dann die Originaldaten verwarfen. Das notwendige Bewusstsein für den hohen Wert von Originaldaten, sowohl zur Untermauerung der in der Arbeit aufgestellten Thesen als auch für die Erschließung der Arbeit über Datenbanken, ist leider bei einem erheblichen Prozentsatz der frisch graduierten Chemiker nicht vorhanden und wird auch in der normalen Universitätsausbildung noch nicht gelehrt.

Wir glauben, dass eine konsequente Ausnutzung des Potentials von Multimedia-Objekten zur Visualisierung und Erschließung im wissenschaftlichen Kontext erst stattfinden kann, wenn sich die Denkmuster des Publizierens noch weiter von der Papierform gelöst haben. Zusammengefasst und auf den Punkt gebracht ist unser Fazit, dass schon jetzt die meisten Chemiker gerne Multimedia zur Suche nach interessantem Material und beim Lesen und Lernen nutzen und insoweit eine hohe Akzeptanz besteht. Das Bewusstsein und Wissen, wie man als Autor wissenschaftlicher Texte effektiv zu diesem Publikationsmodell beitragen kann, ist jedoch noch nicht in ausreichendem Maße vorhanden. Wir befinden uns in einer Umbruchphase, die nach unserer Einschätzung noch einige Jahre anhalten wird.

Fußnoten

1. siehe Schulz, Matthias: Dissertation Markup Language (DiML) � Archivierungs- und Rechercheformat für Dissertationen nach dem SGMLStandard � Dokumentation der Dokumenttypdefinition, 1.Auflage, Berlin, Januar 1999, Humboldt-Universität zu Berlin, http://doc host.rz.hu-berlin.de/epdiss/software/dimldoc.pdf

2. an anderen Universitäten: z.B. Virginia Polytechnic Institute and State University (http://etd.vt.edu), University of Montreal (http://www.pum.umontreal.ca/theses/), University of Iowa, Helsinki University of Technology (http://www.hut.fi/Yksikot/Kirjasto/HUTpubl/), University of Michigan at Ann Arbor: (http://www.lib.umich.edu/registry/pub_about.html)

3. siehe: Günter von Zadow: Die zukunftsweisende Lösung SGML; Vortrag auf der NormDoc'98 (25./26.11.1998) in Mannheim; in: Technische Produktdokumentation und rechnergestützte Bearbeitung und Archivierung von Dokumenten: Referatesammlung / NormDoc'98, ISBN 3-410-14337-8

4. vgl. dazu: Ohst, Daniel: Dateiformate für das elektronische Publizieren, Studienarbeit am Institut für Informatik, Humboldt-Universität zu Berlin, Berlin, 1998, http://dochost.rz.hu-berlin.de/docserv/buecher/ohst-daniel/HTML/ ; Ohst, Daniel: Was ist ein Dokumentenserver?; Humboldt-Universität zu Berlin: Vortrag auf dem Kolloqium des Rechenzentrums am 10.06.1998; . Schirmbacher, Peter: Dateiformate ein zentraler Punkt des elektronischen Publizierens, Vortrag auf dem Expertenworkshop": Neue Organisationsformen elektronischer Veröffentlichungen: Angebote wissenschaftlicher Bibliotheken, Dortmund, 23.-24.11.1998, http://eldorado.unidortmund.de:8080/bib/98/workshop/schirmbacher

5. http://deposit.ddb.de/formate.htm, Stand: 03.05.1999

6. und anderen Universitäten: z.B. Virginia Polytechnic Institute and State University (http://etd.vt.edu), University of Montreal (http://www.pum.umontreal.ca/theses/), University of Iowa (http://www.uiowa.edu/~gradcoll/etd.html), Helsinki University of Technology (http://www.hut.fi/Yksikot/Kirjasto/HUTpubl/), University of Lyon 2 (http://www.univ-lyon2.fr/sentiers/edition/theses/projettheses.html)

7. vgl. Kipp, Neil A.: Beyond the Paper Paradigm: XML and the Case for Markup, in: In Part II, Guidelines for Writing and Designing ETDs", ETD Sourcebook, Weisser, Moxley, and Fox, editors, 1999, http://csgrad.cs.vt.edu/~nkipp/etdsb/

8. vgl. Henning Behme, Stefan Mintert: XML in der Praxis,Bonn: Addison-Wesley-Longmann, 1998; Goldfarb, Charles F. The SGML Handbook, Oxford, 1990; Rieger, W.: SGML für die Praxis. Berlin u.a.: Springer-Verlag 1995.

9. Im Global-Info-Programm "Carmen" wird z.B. ein Ansatz verfolgt, um das Retrievalsystem "Harvest" auf entsprechende Suchmöglichkeiten anzupassen.

10. siehe hierzu auch die Ausführungen von Dr. Martin, Norbert: Und wie kommt die Dissertation auf den Server? Gedanken zum Workflow � Vortrag auf dem Workshop "Workflow", Tagung "Dissertationen Online", 24.03.1999 in Jena, http://dochost.rz.hu-berlin.de/epdiss/jena3/workflow.html

11. Document Style Semantics and Specification Language, ISO/IEC 1010079:1996

12. Cascading Style Sheets sind auch auf XML-Dokumente anwendbar: http://www.w3.org/Style/CSS

13. eXtensible Style Language Transformations (XSLT) Version 1.0; W3C Recommendation 16 November 1999: http://www.w3.org/TR/xslt

14. siehe auch Prof. Dr. H. Faasch: Pro und Contra PDF; Vortrag auf der NormDoc'98 (25./26. 11.1998) in Mannheim; in: Technische Produktdokumentation und rechnergestützte Bearbeitung und Archivierung von Dokumenten: Referatesammlung / NormDoc'98, ISBN 3-41014337-8

15. http://www.dlib.org/dlib/september96/theses/09fox.html

16. http://dissertationen.rz.hu-berlin.de/dissertationen/huetter-gero-2000-02-04/HTML/

17. http://www.oclc.org/oclc/research/projects/core/index.htm

18. vgl. Teil 2 dieses Berichtes in der B.I.T.online Ausgabe 1/2000

19. Die Definition der Metadatensätze und die zugehörigen Programme sind unter http://www.ub.uni-duisburg.de/dissonline/aktiv.html verfügbar.

20. http://www.tardis.ed.ac.uk/harvest/

21. Hier: vor allem in natur- und ingenieurwissenschaftlichen Fächern.

Zu den Autoren

Susanne Dobratz, (Dipl.-Informatikerin) leitet seit September 1997 das Projekt "Digitale Dissertationen" am Rechenzentrum der Humboldt-Universität zu Berlin.
E-Mail: dobratz@rz.hu-berlin.de
Humboldt-Universität zu Berlin
Rechenzentrum
Unter den Linden 6
10099 Berlin

[Matthias Schulz]

Matthias Schulz, (Kunstgeschichte/Bibliothekswissenschaft) arbeitet seit Juli 1999 als Mitarbeiter im Teilprojekt Formate des Dissertationen Online Projektes am Rechenzentrum der Humboldt-Universität zu Berlin. Davor war er bereits 2 Jahre im Projekt "Digitale Dissertationen" der Humboldt-Universität beschäftigt.
E-Mail: matthias.schulz.1@rz.hu-berlin.de

[Dr. Wolf-Dietrich Ihlenfeldt]

Dr. Wolf-Dietrich Ihlenfeldt, (Chemiker) hat 1998 am Teilprojekt "Multimedia" des Dissertationen Online Projekts am Computer-Chemie-Centrum der Universität Erlangen-Nürnberg mitgearbeitet. Sein Interessenschwerpunkt ist chemisches Informationsmanagement, speziell im Internet-Kontext.
E-Mail: Wolf-Dietrich.Ihlenfeldt@ccc.chemie.uni-erlangen.de
Universität Erlangen-Nürnberg
Institut für Organische Chemie
Computer Chemie Centrum
Nägelsbachstr. 25
91052 Erlangen