"Denn Sie kennen nicht was Sie suchen ..."

Das semantische Web als Wegweiser im Dschungel elektronischer Informationen

von Simon Hölzer

Forschungsgruppe der Universität Gießen erarbeitet neues Suchverfahren für Recherchesysteme von Bibliotheken

Das Problem der Beherrschung und Beherrschbarkeit der Informationsflut elektronischer Medien ist ein stetig Wachsendes! Die Angst des Benutzers steigt, sei es beruflich oder privat, die eigentlich wichtigen und relevanten Informationen zu einem Themenkreis bzw. einer Problemstellung zu verpassen. Übliche Recherchesysteme (Internetsuchmaschinen oder Volltextsuchhilfen) stoßen schnell an Grenzen, wenn es neben Vollständigkeit insbesondere auf Suchpräzision ankommt, die durch die intelligente Verknüpfung von Suchbegriffen erreicht wird. Der Einbau dieser Intelligenz, d.h. das Erahnen des Rechercheziels einer Anfrage (Worauf will der Nutzer hinaus?) ist Inhalt von Forschungsarbeiten an der Universität Gießen.

Als Grundlage hierfür eignet sich die sogenannte eXtensible Markup Language (XML), eine standardisierte Sprache zur Beschreibung und Strukturierung von Dokumenten für Datenhaltung und Datenaustausch im Internet. Mit XML können in bisher freien und unstrukturierten Texten einzelne Themen und Inhalte ausgezeichnet werden. XML erschließt somit neue Möglichkeiten der Textauswertung und stellt eine Ergänzung zu etablierten Datenbank- und Dokumentationssystemen dar. Am Institut für Medizinische Informatik wurde deshalb eine Suchmaschine mit dem Namen LuMriX (http://www.lumrix.net) entwickelt, deren Name sich aus den Internet-Standards XML und URI ("Uniform Resource Identifier" entspricht der Internetadressinformation) ableitet. In einer fünfjährigen Entwicklungs- und Testphase konnte gezeigt werden, dass mittels XML mehrere Suchparameter wie die Präzision, die Vollständigkeit, die Toleranz und die Geschwindigkeit der Suche gleichzeitig optimiert werden können.

Die Einsatzgebiete erstrecken sich derzeit schwerpunktmäßig auf die Informationsrecherche im Bereich der Medizin, den Rechtswissenschaften und dem Bibliothekswesen. Die Intelligenz der Suche innerhalb dieser Ressourcen erläutern die Forschungsleiter Diplominformatiker Dr. Ralf Schweiger und Privatdozent Dr. Simon Hölzer: Die Suchtechnologie vom LuMriX erlaubt es über herkömmliche Verfahren hinaus mehrere Suchbegriffe (Begriffsmoleküle) zu sinnvollen Themen zu kombinieren. Dabei wird die Struktur und inhaltliche Bedeutung der Dokumente sowie Informationen zu deren thematischer Verknüpfung (Semantik) genutzt. LuMriX durchsucht sogenannte Themen-Netze, die mit dem ISO-Standard "Topic Maps" repräsentiert und aus beliebigen Dokumenten (PDF, HTML, XML, RDF, etc.) aufgebaut werden.

Ein einfaches, auf andere Problemkreise übertragbares, Beispiel soll dies erläutern: Ein Nutzer gibt die Suchbegriffe "Autokauf Volkswagen Golf" ein und definiert damit ein für Jedermann verständliches Suchziel. Für die Maschine bleibt jedoch die sinnvolle thematische Verknüpfung ("Ich interessiere mich für den Kauf eines Golf der Marke VW") primär verborgen. Elektronisch wird nach dem Vorkommen von Einzelbegriffen und deren Kombination in verfügbaren Texten gesucht. Google findet mehr als 100.000 zumeist irrelevante Seiten. Dagegen erfolgt beim neuen Ansatz von LuMriX eine sprachliche (Kauf und Auto) und thematische Auflösung der Suchanfrage, die von folgendem Themen-Netz ausgeht: Volkswagen = Automarke, Auto = PKW und Golf = Produkt der Firma Volkswagen. Dieses Themen-Netz definiert die Nähe und Art der Beziehung einzelner Begriffe. Der Begriff "Golf" steht damit in Beziehung zum Begriff "Auto", "Auto" wird synonym zu "PKW" gebraucht und gleichzeitig ist festgelegt, dass VW nicht direkt etwas mit Golfsport zu tun hat. Auf diese Weise erfolgt eine vollständig andere Auswahl, Gewichtung und Sortierreihenfolge der Suchtreffer ohne Einschränkungen bei der Vollständigkeit zu erleiden. Die Suche bleibt trotzdem einfach und intuitiv zu bedienen, weil der Nutzer selbst gewählte Stichworte eingeben kann und trotz Tippfehler, Umlaute, zusammengesetzter Begriffe, Abkürzungen und anderen Schreibweisen fündig wird.

Viele dieser Themen-Netze sind bereits für spezifische Anwendungsbereiche definiert (siehe oben) bzw. können halbautomatisch erstellt und gepflegt werden. Gleichwohl sind noch einige Anstrengungen notwendig, um eine nachhaltige Verbesserung der Suche in elektronischen Medien zu schaffen. Auf diesem Weg zu einem "Semantischen Web" kommt der Strukturierung, Verschlagwortung und themenbezogenen Verknüpfung eine große Bedeutung zu. Dies erfordert eine erweiterte "Kultur" im Umgang mit elektronischen Medien, die die Unterstützung des gesamten Lebenszyklus eines elektronischen Dokumentes mit einbezieht (Information Lifecycle Management). Die Erfahrungen an der Universität Gießen zeigen, dass insbesondere die interdisziplinäre Zusammenarbeit zwischen Informatikern und fachgebietsspezifischen Experten (z.B. Mediziner, Dokumentare, Apotheker und Bibliothekare für den medizinischen Bereich) den zusätzlichen Mehrwert dieser Anwendungen ausmachen.

Das Verfahren und die entsprechende Software kann als ein Modul auf verschiedene technische Plattformen aufgesetzt werden. Dies ermöglicht es, die vorhandenen Softwarelösungen (IT-Infrastruktur) wie auch die gewohnten Benutzeroberflächen (Suchformulare etc.) beizubehalten und diese um die genannten Funktionalitäten zu erweitern. Die Lösung hat bereits das bisherige Recherchesystem der Gießener Elektronischen Bibliothek (http://geb.uni-giessen.de/geb/) vollständig ersetzen können. Diese und weitere Erfahrungen in der Anwendung mit einem wachsenden Benutzerkreis ermöglichen es, sowohl die Themen-Netze als auch die Suchverfahren ständig zu erweitern und zu verbessern. So wird das eigentliche Potential eines Semantischen Web in Zukunft mehr und mehr von "Jedermann/-frau" ausgeschöpft werden können.


Zum Autor

PD Dr. Simon Hölzer

LuMriX.net GmbH
Fährstr. 30
CH-3004 Bern
E-Mail: hoelzer@lumrix.net