Einführung in XML

von Heiko Jansen


1. Vorbemerkungen
2. HTML, SGML, XML

3. Anwendungsgebiete

4. Eigenschaften und Regeln

5. Resource Description Framework - RDF

6. Ausblick

1. Vorbemerkungen

Schon 1998 hat das WWW-Konsortium 1 ("w3c") mit der finalen Verabschiedung des XML 1.0 - Standards einen Umbruch im WWW eingeleitet, der jetzt immer mehr an Dynamik zulegt. Während 1998 nur vergleichsweise wenig Menschen Notiz von der Publikation des neuen Standards genommen haben, zeigt sich in den letzten Monaten ein anderes Bild.

Die Ursachen dafür sind vielfältig. Zum einen wird die Spezifikation von XML jetzt immer mehr von stabilen Entwürfen und Empfehlungen weiterer "Technologien" (s. Kasten "Ergänzende Technologien") ergänzt, die für die Anwendung in vielen Bereichen notwendig sind. Zum anderen steigt die Zahl der Softwareprodukte, die mit den neuen Standards umgehen können, schnell an.

Auch im Bibliotheks-, Dokumentations- und Informationswesen wächst die Aufmerksamkeit. XML bietet Möglichkeiten, die es für die Bereiche automatisierter Datenaustausch, Datenspeicherung und -retrieval, Metadaten usw. prädestiniert erscheinen lassen.

Aus diesem Anlass soll der vorliegende Artikel eine knappe Einführung in XML bieten.

2. HTML, SGML, XML

Ein häufig anzutreffender Irrtum ist, dass XML der Nachfolger von HTML sei. Zugegeben, das Akronym legt diese Vermutung nahe, sie ist dennoch falsch.

HTML ist eine Auszeichnungssprache für Dokumente. Sie ermöglicht es, sowohl Strukturen wie auch Formatanweisungen anzugeben. Als Beispiele für beide Bereiche mögen das <h1>-Element und das <center>-Element dienen. Ersteres gibt an, dass eine Überschrift ("heading") erster Ordnung vorliegt, letzteres sagt aus, dass die von den entsprechenden Start- und Endtags 2 umschlossenen Elemente und Zeichendaten zentriert dargestellt werden sollen. Der grundlegende Unterschied ist offensichtlich. Diese Mischung von inhaltsbeschreibenden und formatbeschreibenden Elementen wurde schnell zum Ziel der Kritik.

HTML wurde Ende der 80'er Jahre von Tim Berners-Lee und einigen Kollegen am Europäischen Nuklearforschungszentrum CERN in Genf entwickelt. Er legte die möglichen Elemente seiner Sprache fest, indem er sich eines standardisierten Definitionsvokabulars bediente: ISO 8879, besser bekannt als SGML oder Standard Generalized Markup Language.

Mit SGML hat der Ursprung von XML die Bühne betreten, denn wie SGML ist XML eine Metasprache, d.h. eine Sprache, um andere (Auszeichnungs-) Sprachen zu definieren.

Sie werden also nie ein Dokument "in XML" verfassen. Statt dessen werden Sie Dokumente gemäß einer Sprachdefinition bzw. Dokumenttypdefinition (DTD) schreiben, die wiederum entsprechend der XML-Spezifikation aufgebaut ist.

Wie gerade erwähnt ist XML also eine Art Nachfolger oder Untermenge von SGML, sozusagen "SGML light". Während SGML sich über viele Jahre hinweg bewährt hat (es entstand Ende der 60'er / Anfang der 70'er Jahre), hat es sich doch nie einer wirklich großen Verbreitung erfreut. Der Grund liegt in der großen Komplexität, die SGML zwar äußerst anpassungsfähig aber auch sehr schwer beherrschbar macht. Die Implementierung von Software, die anhand der Regelwerkskenntnisse mit verschiedensten Dokumenttypen zurecht kommt, ist entsprechend teuer. 3

Das Ziel der Arbeitsgruppe, die XML im Hinblick auf eine Anwendung im WWW entwarf, war daher, soviel Flexibilität wie möglich bei sowenig Komplexität wie nötig in die neue Metasprache zu integrieren.

Insofern ist XML also auch keine echte Konkurrenz zu SGML, da es - wie Goldfarb anmerkt - Fälle gibt, in denen die Möglichkeiten von SGML gebraucht werden (vgl. Goldfarb 2000, S. xlv).

Entsprechend der obigen Ausführungen kann XML auch nicht als Ersatz für HTML angesehen werden.

Es ist jedoch möglich, auf der Grundlage von XML einen Nachfolger für HTML schaffen - oder genauer: eine Dokumenttypdefinition für eine Auszeichnungssprache zu schreiben, die HTML ersetzt. Dies ist sogar bereits geschehen, denn im Januar 2000 wurde mit XHTML 1.0 eine Reformulierung von HTML 4.0 als Standard verabschiedet, die nicht mehr auf einer SGML-DTD, sondern auf einer XML-DTD beruht. 4

Dieser Standard enthält hinsichtlich der definierten Elemente nur geringe Änderungen zu HTML 4, führt aber gleichzeitig einige Kernkonzepte von XML ein. Er stellt daher einen relativ leichten Ansatzpunkt zum Umstieg auf XML dar und bietet gleichzeitig die Gewissheit, zukunfts- und weitgehend vergangenheitskompatible Dokumente zu erstellen, die mit jeder XML-Software gelesen werden können.

3. Anwendungsgebiete

Wie schon angedeutet, eignet sich XML für Zwecke, für die SGML einerseits zwar tauglich aber zu komplex und HTML andererseits zu inflexibel ist.

Das Anwendungsgebiet von HTML ist im wesentlichen die Publikation von Texten im WWW. 5

Sofern es sich nicht um allzu änderungsanfällige Texte handelt, ist HTML dafür auch geeignet. Von großem Nachteil ist, dass die publizierten Informationen nur schwer für andere Medien zu übernehmen sind. Umgekehrt sind Daten beispielsweise aus einer Textverarbeitung o.ä. nur schwer in eine WWW-Publikation zu überführen. 6

Hier geht insgesamt viel Arbeitszeit für überflüssige Tätigkeiten verloren.

Anders als HTML trennt XML Layout und Inhalt vollständig voneinander. Mit der Erfassung von Daten werden noch keinerlei Aussagen über die spätere Repräsentation getroffen. Hier setzen in einem Folgeschritt die sogenannten Stylesheets an, die bei HTML nachträglich hinzugefügt wurden, bei XML aber von vornherein vorgesehen sind. Es handelt sich um Regeln, die besagen, wie ein bestimmtes Inhaltselement (ein Betreff, eine Autorenangabe, ein Warnhinweis etc.) dargestellt werden soll. Der Vorteil ist, dass diese Regeln bedarfsabhängig auf das eigentliche Dokument angewendet werden können, d.h. der gleiche Inhalt kann in kürzester Zeit sowohl für eine Präsentation im WWW, ein gedrucktes Werk oder sogar eine auditive Wiedergabe bereitgestellt werden.

Voraussetzung für die Arbeitserleichterung ist natürlich, dass die produzierten Dokumente eine gewisse strukturelle Gleichförmigkeit aufweisen, damit ein erstelltes Stylesheet auch tatsächlich in mehreren Dokumenten auf die gleichen Elemente trifft.

Dies wiederum bedingt eine große Sorgfalt bei der Erstellung der DTD, damit diese zwar einen ausreichenden formellen Rahmen vorgibt, aber flexibel genug für die täglichen Bedürfnisse bleibt. Wie bei der Planung einer relationalen Datenbank oder einer Thesauruserstellung, muss zunächst also ein größerer Aufwand in Kauf genommen werden, damit später eine Arbeitserleichterung entsteht.

XML bietet über diese präsentationsorientierte Verarbeitung hinaus noch eine weitere Anwendungsmöglichkeit, für die HTML ungeeignet ist: den Datenaustausch.

Beispiel:

a) HTML
<p>
<h1>Feynman, Richard P.:</h1>
<b>Sie belieben wohl zu scherzen, Mr. Feynman!</b><br>
Piper: 1999
</p>

b) XML
<buch>
<autor>
<vorname>Richard P.</vorname>
<nachname>Feynman</nachname>
</autor>
<titel>Sie belieben wohl zu scherzen, Mr. Feynman!</titel>
<verlag>Piper</verlag><ejahr>1999</ejahr>
</buch>

Die tatsächlichen Strukturen sind mit HTML im Grunde nicht computerverständlich abzubilden: woher soll ein Programm wissen, welche Formatierung für die Angabe des Autors steht?

Natürlich kann man, wenn beispielsweise Datenbankergebnisse in HTML ausgegeben werden, Programme schreiben, welche die relevanten Teile daraus extrahieren. 7 Sobald aber ein Anbieter auf die Idee kommt, die Ausgabe ein wenig anders zu formatieren, muss man sein Programm mit hoher Wahrscheinlichkeit anpassen.

Bei XML andererseits kann man dem Programm beibringen, alle <autor>-Elemente zu selektieren (völlig unabhängig davon, wo sie im Quelltext stehen), und in eine bestimmte Spalte einer Tabelle in einer Tabellenkalkulation zu schreiben.

Genauso wenig gibt es programmiertechnische Probleme, ein Programm zu veranlassen, alle <autor>-Elemente fett und etwas größer als den Rest darzustellen oder beim Ausdruck nach jedem Endtag eines <buch>-Elements einen Abstand von 2 cm einzufügen.

Das typische Problem des WWW, in dem HTML-Dokumente nur komplett (allenfalls eingegrenzt auf Titel und Meta-Angaben) durchsucht werden können, lässt sich mit XML ebenfalls umgehen. So ist bereits die sogenannte "XML Query Language" 8 in Arbeit, die mit standardisierten Befehlen einen zielgenauen Zugriff auf die Inhalte einzelner Elemente, auf Attributwerte usw. ermöglicht.

Auch bei der Erstellung der Dokumente bieten die Dokumenttypdefinitionen Hilfen. So kann ein Programm leicht feststellen, ob sich zwischen Start- und Endtag (<autor> bzw. </autor>) eines Elements bestimmte andere Elemente befinden (und sich z.B. beschweren, wenn kein <nachname>-Element gefunden wird - was im übrigen einer Gültigkeitsbeschränkung in einer Datenbank entspräche).

Auch im Bereich der Informationsrecherche im Internet ergeben sich mit XML neue Ansatzpunkte. Viele große Websites bestehen heute im wesentlichen aus Seiten, die zum Zeitpunkt des Seitenaufrufs dynamisch aus (relationalen) Datenbanken generiert werden. Da diese Seiten jeweils zugriffsspezifisch erzeugt werden, stehen die Informationen Suchmaschinen üblicherweise nicht zur Verfügung. Verschiedene Hersteller bieten jedoch bereits Softwareprodukte an, die Daten direkt als XML speichern können. 9 Im Zusammenhang mit der erwähnten XML Query Language könnten sich hierdurch neue Ansätze für eine bessere Abdeckung der Informationen im WWW ergeben.

Immer wieder heiß diskutiert wird auch die Frage nach Möglichkeiten zur langfristigen Datenarchivierung. Hier bietet XML ebenfalls Vorteile. Von eingebundenen Grafiken o.ä.. abgesehen (die aber in gesonderten Dateien gespeichert sind), bestehen XML-Dokumente ausschließlich aus Text, der sicherlich eher zukunftskompatibel ist als ein proprietäres Format. Beziehungsstrukturen, die man bislang in Datenbanksystemen abbildet, können dennoch gespeichert werden. Der Quelltext ist darüber hinaus auch noch für Menschen lesbar, und kann so in Problemfällen einfacher gerettet werden.

4. Eigenschaften und Regeln

Nach diesen Überlegungen zu den Anwendungsmöglichkeiten von XML wird im folgenden ein Überblick zu den technischen Eigenschaften und Regeln von XML gegeben.

Welchen Prinzipien folgt XML?

Damit ist folgendes im Quelltext des Ergebnisses möglich:

<autor:titel>Prof. Dr.</autor:titel>
....
<buch:titel>Allgemeine BWL</buch:titel>

Gleichlautende Elementnamen werden also durch die Voranstellung von Gültigkeitsbereichen - den Namespaces - eindeutig zugeordnet.

Es ist relativ einfach, in XML neue Auszeichnungssprachen zu erzeugen. Jeder, der sich etwas mit dem Thema beschäftigt, kann DTDs bzw. - als mächtigere Lösung - sog. XML-Schemas schreiben. Nachfolgend ein Beispiel einer einfachen DTD sowie eines entsprechenden Dokuments, wie sie in einer einzigen Datei zusammengefasst werden könnten:

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE adresse [
<!ELEMENT adresse (name, strasse, ort)>
<!ELEMENT name (#PCDATA)>
<!ELEMENT strasse (#PCDATA)>
<!ELEMENT ort (#PCDATA)>
]>
<adresse>
<name>max muster</name>
<strasse>Beispielgasse 12</strasse>
<ort>12345 Sonstwo</ort>
</adresse>

Die DTD ("<!DOCTYPE typ-name [ ... ]>") gibt an, dass Dokumente des Typs "adresse" die Elemente "name", "strasse" und "ort" in der angegebenen Reihenfolge enthalten können. Diese wiederum können beliebige Zeichendaten enthalten. Beachten Sie, dass es sich um semantische Elemente, also um eine Art inhaltsbeschreibende Auszeichnung handelt. Aussagen über die Darstellung sind damit noch nicht getroffen worden.

Auf solche Art können Daten problemlos zwischen Anwendungen ausgetauscht werden. Allerdings darf die Einfachheit der DTD-Erstellung nicht darüber hinwegtäuschen, dass bei komplexeren Daten sehr viel Arbeit in die sinnvolle Abbildung der Strukturen zu investieren ist. Darin unterscheidet sich diese Anwendung von XML nicht vom Aufbau relationaler Datenbanken oder Thesauri.

5. Resource Description Framework - RDF

Neben diesen direkt auf XML bezogenen Erläuterungen kommt man bei einem Artikel im Publikationsumfeld Information und Dokumentation um einen Hinweis auf das Resource Description Framework - kurz RDF - nicht herum. Hinter der Abkürzung RDF verbirgt sich durchaus keine Konkurrenz zu Metadatenformaten wie z.B. Dublin Core. Stattdessen handelt es sich bei RDF um ein Datenmodell der Art "Subjekt" - "Prädikat" - "Objekt", das es erlaubt, jeder per URI 10 zu identifizierenden Ressource ("Subjekt") bestimmte Eigenschaften ("Prädikat", z.B. "Creator" im Dublin Core Element Set) zuzuordnen, und deren Wert ("Objekt") anzugeben. Grundlegende Informationen zu RDF bietet die Website des w3c unter www.w3.org/TR/REC-rdf-syntax/ und www.w3.org/TR/2000/CR-rdf-schema-20000327.

Eine Einführung zur Verbindung von RDF und Dublin Core bieten Miller et. al. RDF benutzt die Syntax von XML und verfügt daher auch über das Konzept der Namensräume, so dass verschiedene Vokabularien für die Metaangaben gemeinsam genutzt werden können.

6. Ausblick

Was wird also die Zukunft bringen? Im Moment scheint der Siegeszug von XML unaufhaltbar zu sein. Als Standard verabschiedet von einem Gremium, dem die wichtigsten Software-Produzenten der Welt angehören, steht genug Macht dahinter, um die Anwendung durchzusetzen. Gleichzeitig ist der Standard nicht im Besitz einer einzelnen Firma, und er ist offengelegt, so dass sich wie schon bei Linux vermutlich eine große Anzahl von Enthusiasten finden wird, die zu seiner Verbreitung beitragen. Schließlich muss man XML auch zugestehen, dass es viele neue Möglichkeiten bietet, die bisher nicht oder nur mit deutlich größerem Aufwand zugänglich waren.

Wie schon die Entwicklung der HTML-Werkzeuge gezeigt hat, ist damit zu rechnen, dass mehr und mehr endnutzerfreundliche Programme auf den Markt kommen werden, die den Umgang irgendwann so weit erleichtern werden, wie man das von heutigen Office-Programmen gewöhnt ist.


Literatur und Webseiten für Interessierte:

Sehr umfassend und informativ, über eine reine Einführung hinausgehend, trotzdem auch für Einsteiger geeignet; bisher nur in Englisch erhältlich:
Holzner, Steven: Inside XML. Indianapolis: New Riders, 2000.

Eine umfangreiche Einführung in das Thema "Wie und wofür nutze ich XML"; der Großteil des Buches besteht aus Beschreibungen von Problemen und der Lösung die ein (kommerzielles) Programm dazu bietet; der grundlegende Teil zu XML reicht nur als Einstieg:
Goldfarb, Charles F. und Paul Prescod: Das XML Handbuch. 2. Aufl. München: Addison Wesley in Pearson Education Dtl., 2000.

Ein Grundsatzartikel für Bibliothekare:
Miller, Dick R.: XML: Libraries' Strategic Opportunity.
http://www.libraryjournal.com/xml.asp. 30.01.01.

Ein Einblick aus dokumentarischer Sicht:
Hirsch, Sven: Aspekte der Entwicklung von Fachinformationssystemen auf der Basis von XML/RDF. In: nfd 51 (2000) 2, S. 75 - 82.

Anleitung zur Verbindung von DC und RDF :
Miller et al.: Guidance on expressing the Dublin Core within the Resource Description Framework (RDF) http://www.ukoln.ac.uk/metadata/resources/dc/datamodel/WD-dc-rdf/. 30.01.01.

Tutorial und Einführung zu XSLT:
Behme, Henning: Mutabor : XSLT-Tutorial. Teil 1 - 3. In: iX 14 (2001), H. 1ff.

WWW-Konsortium: Spezifikationen, Links und Softwareübersichten:
http://www.w3.org

Deutsche Übersetzung von W3C-Spezifikationen (Projekt; XML 1.0 sowie XHTML 1.0 liegen bereits vor):
http://www.mintert.com/w3c/trans/de/

The XML Cover Pages von Robin Cover mit sehr umfangreichen Sammlungen von Dokumentationen u.ä. rund um XML:
http://xml.coverpages.org

Einführungen und Tutorials zu XML und den zugehörigen Standards (inkl. RDF) sowie eine annotierte Version der XML-Spezifikation:
http://www.xml.com

Gute, leicht verständliche, deutschsprachige Einführung zu XML:
http://members.aol.com/xmldoku/

FAQ-Liste zu XML:
http://www.ucc.ie/xml/

XML Industry Portal: Nachrichten, Veranstaltungshinweise, Verzeichnisse von XML-Schemas usw.:
http://www.xml.org

Texte, Tutorials und Software:
http://www.ibm.com/developerworks/xml/

Informationsseiten der Software AG (Hersteller der XML-basierten "Tamino"-Datenbanksoftware; daher mit Eigenwerbung):
http://www.softwareag.com/xml


Fußnoten:

1. http://www.w3.org

2. Ein Element besteht in der Regel aus einem Anfangsteil, der besagt, was für ein Elementtyp beginnt, einem Mittelstück, das den Inhalt darstellt sowie einem Schlussteil. Bsp.: <h1>Überschrift</h1>. Die beiden in Winkelklammern eingeschlossenen Teile nennt man Tags.

3. Dies widerspricht nicht dem kostenlosen Vertrieb der Webbrowser, da diese keineswegs SGML (und damit die Dokumenttypdefinition von HTML) verstehen, sondern nur die Regeln für HTML eingebaut erhielten. Dies eröffnete den Browseranbietern dann auch die Möglichkeit, eigene (proprietäre!) Formatierungselemente einzuführen, in der Hoffnung, dass - wenn genügend Seitengestalter diese verwendeten - die Surfer zur Nutzung ihres Browsers "gezwungen" würden. Die Folgen sind jedem, der schon einmal Webseiten erstellt hat, unliebsam vertraut.

4. http://www.w3.org/TR/xhtml1/

5. Von dem Vertrieb von HTML-Dateien auf CD o.ä. mal abgesehen, aber dabei handelt es sich offensichtlich nicht um echte Alternativen.

6. Natürlich kann man Word-Dateien auch als HTML abspeichern, aber selbst falls das Ergebnis zufriedenstellend aussieht ist der produzierte Quelltext alles andere als vorbildlich. Nicht umsonst bieten viele HTML-Editoren eine Funktion an, um den Quelltext von überflüssigen Inhalten zu befreien.

7. So funktioniert u.a. die Zusammenstellung von Suchergebnissen aus einigen Quellen bei der Digitalen Bibliothek NRW (www.digibib.net).

8. s. Kasten "Ergänzende Technologien zu XML" weiter unten.

9. vgl. z.B. www.softwareag.com/tamino; die Ansätze der Datenhaltung in XML erscheinen durchaus sinnvoll, denn um die Strukturen von XML-Dokumenten adäquat abzubilden, müssten z.T. sehr komplexe Tabellenstrukturen hergestellt werden. Die Konvertierung von und nach XML sowie die zugehörige Transaktionsüberwachung benötigen daher viel Rechenleistung und schmälern die Performanz.

10. Uniform Resource Identifier; vgl. RFC 2396: www.ietf.org/rfc/rfc2396.txt


Zum Autor

Dipl.-Bibl. Heiko Jansen ist Projektmanager "Digitale Öffentliche Bibliothek NRW"

Stadt- und Landesbibliothek Dortmund
c/o Hochschulbibliothekszentrum NRW
Classen-Kappelmann-Str. 24
D-50931 Köln
E-Mail: jansen@hbz-nrw.de

Ergänzende "Technologien" zu XML

XML benötigt in vielerlei Hinsicht ergänzende Techniken, um den gestellten Anforderungen gerecht zu werden. Dazu gehören:

XSL - eXtensible Stylesheet Language mit den Komponenten

XSLT (XSL Transformations): eine Sprache, um XML-Dokumente zu verändern und in andere Dokumentarten bzw. für die Anzeige zu übersetzen; per XSLT werden aus XML-Dokumenten z.B. HTML-Dokumente erzeugt oder mit XSL(FO) formatierte, anzeigbare Dokumente generiert; nachteilig im ersten Fall: die ursp. Elemente werden ersetzt, wesentliche semantisch-strukturelle Informationen gehen dem Betrachter des übersetzten Dokuments somit verloren

Status: Recommendation / Empfehlung
[www.w3.org/TR/xslt]

XSL: unter dem eigentlich übergreifenden Namen verbergen sich im Grunde "nur noch" die sog. Formatting Objects (FO); diese bezeichnen die Gestaltungsaspekte von Dokumenten, d.h. sie entsprechen von der Aufgabe her den CSS, sind jedoch leistungsfähiger und nicht ausschließlich für die Anwendung im WWW konzipiert

Status: Recommendation / Empfehlung
[www.w3.org/TR/xsl]

XPath: eine Sprache, mit der Teile eines XML-Dokuments gezielt identifiziert werden können; die Ansprache kann relativ (z.B.: drittes <p>-Element im zweiten <section>-Element) oder per Pattern-Matching (z.B.: alle Elemente, deren <bearbeiter>-Element den Namen Meier' enthält) erfolgen; wird nicht nur von XSLT (zum Pattern-Matching), sondern auch von XPointer (zur Adressierung) genutzt

Status: Recommendation / Empfehlung
[www.w3.org/TR/xpath]

XPointer (XML Pointer Language): eine Erweiterung von XPath; wird von XLink genutzt, um Teile (einzelne Elemente oder ganze Bereiche) von XML-Dokumenten direkt anspringen zu können; benötigt keine Vorkehrungen wie HTML-Links (<a name="...">...</a>); Bindeglied zwischen XPath-Angaben und üblichen URIs (also insbesondere URLs)

Status: Working Draft / Entwurf
[www.w3.org/TR/xptr]

XLink (XML Linking Language): zur Erstellung und Beschreibung von Links (ein Link ist eine Verbindung zwischen zwei oder mehr Ressourcen oder Teilen von Ressourcen, die durch ein XLink "linking element" explizit angegeben wird); die Möglichkeiten gehen über die unidirektionale Verlinkung von HTML hinaus: bei einem XLink können mehr als 2 Ressourcen beteiligt sein / der Link kann um Metadaten angereichert werden / es soll die Möglichkeit geben, einen Link von Dokumenten aus zu legen, auf die man keinen Schreibzugriff hat usw.

Status: Proposed Recommendation / Empfehlungsvorschlag
[www.w3.org/TR/xlink]

XML Namespaces: eine einfache Lösung, um Elemente und Attribute aus verschiedenen Auszeichnungssprachen in einem Dokument verwenden zu können; vermeidet das vielfache Neuerfinden von Elementen, deren Strukturen usw. und gibt die Möglichkeit, Standards zu übernehmen

Status: Recommendation / Empfehlung
[http://www.w3.org/TR/REC-xml-names/]

XML Query Language, bestehend aus:

XML Query Data Model: ein Datenmodell beschreibt hier die formale Struktur von Dokumenten, d.h. unabhängig von der für ein konkretes Dokument zugrunde gelegten DTD sind für alle XML-Spezifikationskonformen Dokumente allgemeine Aussagen zur Struktur möglich

Status: Working Draft / Entwurf
[www.w3.org/TR/query-datamodel/]

XML Query Algebra: definiert die Operatoren zur Abfrage und bildet so die formale Basis für die XML Query Language

Status: Working Draft / Entwurf
[http://www.w3.org/TR/query-algebra]

XML Schema, bestehend aus

Part 0 (Primer): bietet eine verständliche Einführung in die Möglichkeiten und Arbeitsweisen von Schemas; verweist für die Detailfragen an die normativen Teile 1 und 2; XML-Schemas stellen mächtigere Möglichkeiten zur Beschreibung von Dokumenttypen dar als gewöhnliche DTDs

Status: Candidate Recommendation / Empfehlungskandidat
[www.w3.org/TR/xmlschema-0]

Part 1 (Structures): spezifiziert die XML Schema-Definitionssprache, die Möglichkeiten zur Beschreibung der Struktur und zur Einschränkung von Inhalten von XML-Dokumenten bietet; die Schema-Sprache, die im Prinzip einen bestimmten XML-Dokumenttyp darstellt

Status: Candidate Recommendation / Empfehlungskandidat
[www.w3.org/TR/xmlschema-1]

Part 2 (Datatypes): beschreibt Möglichkeiten zur Definition von Datentypen, die in XML-Schemas (und anderen XML-basierten Aktivitäten) eingesetzt werden können, um die für Elemente und Attribute gültigen Datentypen anzugeben

Status: Candidate Recommendation / Empfehlungskandidat
[www.w3.org/TR/xmlschema-2]


Anm.: Stand der Links und Status-Informationen ist der 01.02.2001.