Was indexieren Suchmaschinen?
Eine Untersuchung zu Indexierungsmechanismen von Suchmaschinen im World Wide Web

von Rüdiger Fries, Till Kinstler, Werner Schweibenz,
Johannes Strobel und Peter Weiland


0. Vorbemerkungen 1. Probleme der Informationssuche im World Wide Web
2. Einordnung und Beschreibung der Studie

3. Die getesteten Suchmaschinen

4. Die Analyse der Suchmaschinenzugriffe und -indexierung

5. Zusammenfassung und Ausblick

6. Literatur

0. Vorbemerkungen

Der Beitrag beschreibt eine Untersuchung zur Indexierung von HMTL-Bestandteilen von deutschsprachigen Webdokumenten durch sieben Suchmaschinen. Für das Experiment wurden zehn Testseiten mit Teststrings in Form von Meta-Tags (Suchmaschinenmetadaten und Dublin Core Element Set), Titeln, Überschriften etc. versehen und zehn Seiten ohne Metadaten, Titel und Überschrift nur mit einer Testzeichenfolge im Text präpariert. Die 20 Testwebseiten wurden in einer hierarchisch gegliederten Struktur mit zehn Ebenen auf einem Webserver abgelegt. Die Testseiten der Hierarchieebenen 1, 4 und 9 wurden individuell bei den Suchmaschinen AltaVista.de, Fireball.de, Google.com, Infoseek.de, Lycos.de, Northernlight.com und Speedfind.de angemeldet. Auf die Verwendung einer robots.txt-Datei zur Steuerung der Suchmaschinenzugriffe wurde bewusst verzichtet. Nach der Registrierung wurde in den Datenbanken der Suchmaschinen täglich sechs Monate lang automatisch nach den Teststrings der präparierten Webseiten gesucht. Die Ergebnisse wurden in einer Datenbank gesammelt. Aufgrund der Ergebnisse sollte ein Vergleich der Retrieval- und Indexierungsmechanismen der Suchmaschinen angestellt werden. Die Auswertung der Ergebnisse zeigte, dass die Testwebseiten im untersuchten Zeitraum nur von drei der sieben Suchmaschinen (Fireball, Google und Infoseek ) besucht und indexiert worden waren. Bei der Tiefe der Indexierung in Bezug auf die Hierarchieebenen sowie bei der Indexierung der Seitenelemente ergaben sich beträchtliche Unterschiede zwischen den drei Suchmaschinen.

1. Probleme der Informationssuche im World Wide Web

Die Informationssuche im World Wide Web stellt ein großes Problem dar. Die Ursachen dafür sind die Größe und das stetige Wachstum des Webs, die mangelnde Strukturierungsmöglichkeit von Webseiten durch die HyperText Markup Language HTML, sowie der mangelnde Kenntnisstand über die Funktionsweise von Suchmaschinen (Schweibenz 1999, S. 390). Das Problem der mangelhaften Abdeckung bei gleichzeitigem stetigen Wachstum des Webs ist seit dem Princeton-Report (Lawrence & Giles 1998) und dem DEC-Report (Bharat & Broder 1998) im Bewusstsein der Öffentlichkeit präsent und wird seither von verschiedenen Institutionen fortlaufend untersucht und in Fachkreisen kritisch diskutiert (Dahn 2000). Viel weniger bewusst ist das Problem des mangelnden Kenntnisstands über die Funktionsweise von Suchmaschinen. Dabei sollte sich jeder, der sich mit der Informationssuche im Internet beschäftigt, für die Frage interessieren, welche Informationen Suchmaschinen aus HTML-Seiten herausfiltern und indexieren. Denn dieser Aspekt ist für die Informationssuche im Web von zentraler Bedeutung.

Gerade aus der mangelnden Kenntnis über die Funktionsweise von Suchmaschinen und ihrer Vorgehensweise bei der Indexierung von Webseiten hat sich die Dienstleistung der sogenannten Web Site Promotion (Lennartz 1999) entwickelt. Maßnahmen der Web Site Promotion sollen dazu beitragen, die Webadresse (Uniform Resource Locator, URL) möglichst weit oben in den Trefferlisten von Suchmaschinen erscheinen zu lassen. Viele Anbieter im Bereich der Web Site Promotion versprechen wahre Wunderdinge, ohne zu offenbaren, wie sie diese Wunder erreichen wollen. Um Möglichkeiten und Grenzen der Web Site Promotion beurteilen zu können, muss man wissen, wie Suchmaschinen funktionieren und wie sie Webseiten indexieren.

Auf die Funktionsweise von Suchmaschinen kann hier nicht eingegangen werden, detaillierte Informationen finden sich bei Bekavac (1996) und Schweibenz (1999). Wie Suchmaschinen Webseiten indexieren, ist relativ schwer zu erforschen, da Suchmaschinenanbieter die Funktionsweise ihrer Suchmaschinen als Betriebsgeheimnisse hüten (Tunender & Ervin 1998, S. 178). Dennoch gibt es Versuche, die Indexierung von Web Sites durch Suchmaschinen zu erforschen (Kochtanek et al. 1998, Tunender & Ervin 1998). Da die Indexierung von Webseiten durch Suchmaschinen von allgemeinem Interesse für Webbenutzer und von besonderem Interesse für die Bibliotheks- und Informationswissenschaft ist, entschloss sich eine Gruppe von angehenden Informationswissenschaftlern an der Universität des Saarlandes, die Indexierung von Webseiten durch verschiedene Suchmaschinen in einer Studie zu untersuchen.

2. Einordnung und Beschreibung der Studie

2.1 Frühere Studien zur Indexierung von Webseiten durch Suchmaschinen

Diese Studie orientierte sich an der Untersuchung von Kochtanek et al. (1998). Ziel der Untersuchung von Kochtanek et al. war es, herauszufinden, wie Suchmaschinen den Inhalt von Webseiten für das Information Retrieval aufbereiten. Zu diesem Zweck wurden auf der Web Site des Projekts "Whistlestop” (http://www.whistlestop.org), einem Online-Archiv zur Präsidialbibliothek des U.S. Präsidenten Harry S. Truman, neun verschiedene Characterstrings als Teststrings auf sechs Ebenen der Hierarchie als Title-Tags und Meta-Tags eingebracht. Dann wurde die Projektseite bei den Suchwerkzeugen AltaVista, Excite, InfoSeek, Lycos und Yahoo registriert. Nach der Registrierung wurden die neun Teststrings sechs Wochen lang täglich in den Datenbanken der Suchmaschinenanbieter gesucht. Es wurde aufgezeichnet, nach wievielen Tagen die Teststrings bei den verschiedenen Suchdiensten gefunden wurden. InfoSeek fand die Leitseite (home page) bereits am 1. Tag, AltaVista am 11. Tag und Excite am 23. Tag. Im Laufe des Experiments konnten in den Datenbanken bei zwei der vier Suchmaschinen mehrere Title-Tags gefunden werden, Lycos wies keine Ergebnisse auf, AltaVista indexierte nur die erste Ebene. InfoSeek indexierte am 23. Tag Dokumente bis zur dritten Ebene der Hierarchie. Excite ging, ebenfalls am 23. Tag, als einzige Suchmaschine bis auf die sechste Ebene, löschte aber die Teststrings nach einiger Zeit wieder aus seiner Datenbank.

Suchmaschine Tag des 1. Treffers auf Ebene 1 Tag des 1. Treffers auf tieferen Ebenen
AltaVista 11. Tag Kein Treffer in 6 Wochen
Excite 23. Tag 23. Tag
InfoSeek 1. Tag 23. Tag
Lycos Kein Treffer in 6 Wochen Kein Treffer in 6 Wochen

Tabelle 1: Übersicht über die Treffer in der Untersuchung von Kochtanek et al. 1998

 

2.2 Design der Studie

Für unsere Studie wurde eine Web Site eines imaginären Vereins zur Förderung der Informationswissenschaft erstellt. Die Web Site wurde auf einem Webserver des saarländischen Internet-Vereins Handshake e.V. - gemeinnütziger Verein zur Förderung der privaten Telekommunikation abgelegt. Auf dieser Web Site mit zehn Hierarchieebenen wurden zehn Testwebseiten mit Teststrings in Form von Meta-Tags (Metadaten nach Suchmaschinenstandards und dem Dublin Core Element Set), Titeln, Überschriften etc. versehen sowie zehn Testwebseiten ohne Metadaten, Titel und Überschrift nur mit einer Testzeichenfolge im Text (reine Textseiten) präpariert (siehe Tabelle 2). Als Teststrings wurden folgende Daten verwendet:

Die Teststrings bestanden jeweils aus dem Kürzel "Soffisb”, sowie aus einer Ziffer für die Hierarchieebene (1 bis 10) und einem Zusatz in Form einer Buchstabenkombination zur Kennzeichnung der Art des Teststrings, beispielsweise "A” für Autor oder "DCK” für Dublin Core Keywords sowie dem Zusatz "Saar” um eine eventuelle Verwechslung mit anderen Zeichenfolgen auszuschließen. Der Teststring "SoffisbE3SED Saar” beispielsweise bezeichnet den Teststring auf der dritten Hierarchieebene in Form der Description von Suchmaschinen-Meta-Tags. Der Teststring "SoffisbE3000A Saar” beispielsweise bezeichnet den Teststring auf der dritten Hierarchieebene der Webseite, die lediglich mit einer Teststringfolge im Text (reine Textseite) versehen war.

Die 20 Testwebseiten wurden in einer hierarchisch gegliederten Struktur mit zehn Ebenen abgelegt. Um sicherzustellen, dass keine Zugriffe über andere Webseiten erfolgten, wurden die Testwebseiten isoliert, also ohne Verlinkung mit anderen Seiten, auf dem Webserver aufgelegt. Auf die Verwendung einer robots.txt-Datei zur Steuerung der Suchmaschinenzugriffe wurde bewusst verzichtet, da ausschließlich die Indexierung von HTML-Seiten getestet werden sollte und eine mögliche Beeinflussung der Indexierung durch eine robots.txt-Datei nicht ausgeschlossen werden kann.

Ebene 1
<META NAME="Author” CONTENT="SoffisbE1A Saar”>
<META NAME="Keywords” CONTENT="SoffisbE1SEK Saar”>
<META NAME="Description” CONTENT="SoffisbE1SED Saar”>
<META NAME="robots” CONTENT="index,follow”>
<META NAME="DC.Keywords” CONTENT="SoffisbE1DCK Saar”>
<META NAME="DC.Description” CONTENT="SoffisbE1DCD Saar”>
<TITLE>SoffisbE1T Saar</TITLE>
<H1><IMG SRC="SoffisbE1.gif” HEIGHT=109 WIDTH=130 ALT="SoffisbE1-Bild”>SoffisbE1H1 Saar</H1>
<P>SoffisbE1000 SaarSoffisbE1000A Saar
Ebene 4
<META NAME="Author” CONTENT="SoffisbE4A Saar”>
<META NAME="Keywords” CONTENT="SoffisbE4SEK Saar”>
<META NAME="Description” CONTENT="SoffisbE4SED Saar”>
<META NAME="robots” CONTENT="index,follow”>
<META NAME="DC.Keywords” CONTENT="SoffisbE4DCK Saar”>
<META NAME="DC.Description” CONTENT="SoffisbE4DCD Saar”>
<TITLE>SoffisbE4T Saar</TITLE>
<H1><IMG SRC="SoffisbE4.gif” HEIGHT=109 WIDTH=130 ALT="SoffisbE4-Bild”>SoffisbE4H1 Saar</H1>
<P>SoffisbE4000 SaarSoffisbE4000A Saar
Ebene 9
<META NAME="Author” CONTENT="SoffisbE9A Saar”>
<META NAME="Keywords” CONTENT="SoffisbE9SEK Saar”>
<META NAME="Description” CONTENT="SoffisbE9SED Saar”>
<META NAME="robots” CONTENT="index,follow”>
<META NAME="DC.Keywords” CONTENT="SoffisbE9DCK Saar”>
<META NAME="DC.Description” CONTENT="SoffisbE9DCD Saar”>
<TITLE>SoffisbE9T Saar</TITLE>
<H1><IMG SRC="SoffisbE9.gif” HEIGHT=109 WIDTH=130 ALT="SoffisbE9-Bild”>SoffisbE9H1 Saar</H1>
<P>SoffisbE9000 SaarSoffisbE9000A Saar

Tabelle 2: Beispiele für die Präparierung der Testwebseiten mit Meta-Tags, Titeln, Überschriften etc.

Am Abend des 29.06.2000 wurden jeweils die Testwebseiten auf den Hierarchieebenen 1, 4 und 9 individuell bei den Suchmaschinen AltaVista.de, Fireball.de, Google.com, Infoseek.de, Lycos.de, NorthernLight.com und Speedfind.de angemeldet. Der Untersuchungszeitraum wurde festgelegt auf die Zeit vom 01.07.2000 bis 31.12.2000. In diesem Zeitraum wurden alle Zugriffe auf die Web Site protokolliert und täglich eine automatisierte Suche nach allen Teststrings auf den sieben zu testenden Suchmaschinen durchgeführt. Der verhältnismäßig lange Zeitraum von einem halben Jahr wurde gewählt, weil sich im Experiment von Kochtanek et al. (1998) der Untersuchungszeitraum von sechs Wochen als möglicherweise zu kurz herausgestellt hatte (Tunender & Ervin 1998, S. 178).

 

3. Die getesteten Suchmaschinen

Bei der Auswahl der Suchmaschinen wurden verschiedene Quellen über Suchmaschinen zu Rate gezogen. Die Suchmaschinen AltaVista, Excite, InfoSeek, Lycos und NorthernLight wurden im Princeton-Report getestet, die Suchmaschinen AltaVista, Excite, InfoSeek und Lycos im DEC-Report (Schweibenz 1999, S. 390). In einem Suchmaschinenvergleich der Zeitschrift c’t - Magazin für Computertechnik waren unter anderem die Suchmaschinen AltaVista, Google, Infoseek und Lycos verglichen worden (Bager & Kossel 1999).

Um eine gewisse Vergleichbarkeit mit dem Experiment von Kochtanek et al. (1998) zu gewährleisten, sollten die deutschen Ableger derjenigen Suchwerkzeuge verwendet werden, die im Experiment von Kochtanek et al. (1998) untersucht worden waren, nämlich AltaVista, Excite, InfoSeek, Lycos und Yahoo. Yahoo schied aus, weil es sich um einen Webkatalog handelt, der von Redakteuren erstellt wird und nicht von Suchmaschinen. Bei näherer Betrachtung der Suchmaschinen musste Excite ebenfalls ausgeschlossen werden, da diese Suchmaschine im Gegensatz zur traditionellen Suchmaschinenarbeitsweise mit Stringvergleich und Booleschen Operatoren eine konzeptbasierte Funktionsweise hat und deshalb bewusst auf eine Indexierung von Meta-Tags verzichtet. Die Indexierung von Metadaten und eine Unterstützung der Stringsuche (Phrasensuche) durch die Suchmaschinen waren jedoch eine notwendige Voraussetzung für die Durchführung dieses Experiments. Folglich blieben nur die drei traditionellen Suchmaschinen AltaVista.de, InfoSeek.de und Lycos.de übrig. Diese wurden ergänzt um die Suchmaschinen NothernLight.com und Google.com, die ebenfalls Phrasensuche unterstützen (vgl. die Hilfeseite von NorthernLight http://www.northernlight.com/docs/search_help_optimize.html und die Hilfeseite von Google http://www.google.com/help/refinesearch.html). Weiterhin wurden zwei bekannte deutsche Suchmaschinen, Fireball.de und Speedfind.de, in das Experiment aufgenommen. Diese Suchmaschinen erlauben ebenfalls Phrasensuche und indexieren laut Angaben der Anbieter Metadaten (vgl. Fireball-Metadatenseiten http://www.fireball.de/meta_daten.html und Speedfind-Hilfeseiten http://www.speedfind.de/hilfe.html).

Suchmaschinen in der Untersuchung
von Kochtanek et al. 1998
Suchmaschinen in der
aktuellen Untersuchung
AltaVista.comAltaVista.de
Excite.com 
 Fireball.de
 Google.com
InfoSeek.comInfoSeek.de
Lycos.comLycos.de
 NothernLight.com
 Speedfind.de

Tabelle 3: Suchmaschinen in den beiden Untersuchungen

 

4. Die Analyse der Suchmaschinenzugriffe und -indexierung

4.1 Die Protokollierung der Suchmaschinenzugriffe und -indexierung

Während der Laufzeit des Versuchs wurde täglich in den Datenbanken der sieben Suchmaschinen nach allen Testzeichenfolgen gesucht (vgl. Tabelle 2). Dabei mussten täglich 770 Suchanfragen für die verschiedenen Teststrings gestellt und die Ergebnisse dieser Suchanfragen ausgewertet werden. Diese Aufgabe wurde automatisiert durch ein sogenanntes Unix-Shell-Skript, das zeitgesteuert jede Nacht ablief. Das Skript arbeitete in drei Schritten:


Abbildung 1: Ablauf der Auswertung

1. Schritt: Suchanfragen stellen und Ergebnisse speichern

Das Skript lud zunächst die Suchergebnisse der Suchmaschinen für jeden einzelnen Suchbegriff aus dem Web herunter. Jede Anfrage wurde mittels des Programms wget (Internet, http://www.gnu.org/software/wget/wget.html) an die jeweilige Suchmaschine geschickt. Die Suchbegriffe wurden in URLs (Uniform Resource Locator) kodiert an wget übergeben. Diese URLs forderte wget dann von der jeweiligen Suchmaschine an. Jede Suchmaschine verwendet ein eigenes Format zur Kodierung der Suchbegriffe und weiterer Suchoptionen in einer URL. Bei diesem Versuch wurde jeweils die URL-Syntax für eine einfache Standardsuche mit nur einem Suchbegriff ohne weitere Optionen verwendet. Die von den Suchmaschinen als HTML-Dateien zurückgelieferten Suchergebnisse wurden gespeichert.

2. Schritt: Suchergebnisse auswerten

Im nächsten Schritt wurde ausgewertet, ob es zu den gesuchten Testzeichenfolgen Treffer bei den jeweiligen Suchmaschinen gab. Dazu wurde überprüft, ob die zu den Suchbegriffen gehörenden Seiten gefunden wurden. Die Seiten sind durch ihre URL eindeutig identifizierbar. Jedem Suchbegriff ist genau eine URL zugeordnet. Zu dem Suchbegriff "SoffisbE2000 Saar” müsste also die URL "http://www.suchmal.handshake.de/soffisb2/soffisb2.html” gefunden werden und somit in der Ergebnisseite der jeweiligen Suchmaschine enthalten sein. Die Auswertung der Suchergebnisse erfolgte mit dem Programm grep (Internet, http://www.gnu.org/software/grep/grep.html). grep sucht in Daten nach vorgegebenen Mustern. In jeder zuvor gespeicherten Ergebnisseite zu einem Suchbegriff wurde mit grep nach der zu diesem Suchbegriff gehörenden URL als Suchmuster gesucht.

3. Schritt: Auswertungsergebnisse in einer Datenbank speichern

Die Ergebnisse der Auswertung wurden in einer Tabelle einer MySQL-Datenbank gespeichert. Für jede Suchmaschine und jeden Suchbegriff wurde ein Eintrag erzeugt, der das genaue Datum der Suche und das Ergebnis der Auswertung - "Seite gefunden” oder "Seite nicht gefunden” - festhält. An die Datenbank konnten dann Fragen wie "Welche Suchmaschine hat als erste eine Seite in ihrem Index aufgenommen?”, "Welche Seiten wurden von einer Suchmaschine erfasst?” oder "Welche Suchbegriffe wurden in den Index aufgenommen?” in der Abfragesprache SQL gestellt werden. Ein Web-Interface mit Zugriff auf die Daten in dieser Datenbank ermöglichte es, während des Verlaufs der Studie die aktuellen Ergebnisse abzufragen.

4.2 Die Auswertung der Server-Logfiles und der Trefferlisten der Suchmaschinen

Im Rahmen der Untersuchung wurden sowohl die Server-Logfiles als auch die Ergebnisse der Auswertung der Trefferlisten der Suchmaschinen verwendet. In der Regel wird jeder Zugriff auf einen Webserver in sogenannten Server-Logfiles protokolliert. Dabei wird aufgezeichnet, welcher Rechner - identifiziert durch seine IP-Adresse oder seinen Namen - zu welchem Zeitpunkt welche Dateien angefordert hat. Je nach verwendetem Webserver werden noch weitere Informationen mitprotokolliert, wie beispielsweise der zurückgegebene HTTP-Statuscode oder die Größe der abgerufenen Datei. Anhand der IP-Adresse oder des Namens ist theoretisch eine Zuordnung eines Web Crawlers (auch spider oder robot genannt) zu einem Suchmaschinenanbieter möglich. Die Logfiles wurden mit dem frei verfügbaren LINUX-Programm analog (Version 4.13) ausgewertet. Zusätzlich wurde stichprobenartig eine manuelle Auswertung zur Überprüfung der Ergebnisse vorgenommen.

Für die Studie war es wichtig festzustellen, welcher Suchmaschinenanbieter mit welchem Web Crawler zu welchem Zeitpunkt auf die Testseiten zugriff. Bei der Auswertung der Logfiles zeigte sich allerdings, dass die Zuordnung von Web Crawlern zu Suchmaschinenanbietern in einigen Fällen nicht eindeutig möglich war. Zwar existieren im Web mehr oder weniger vollständige Verzeichnisse für die Web Crawler (vgl. Kosters The Web Robots Database oder Spider Central - The Definitive Spider List) einzelner Suchmaschinen, allerdings konnte auch mit deren Hilfe in einigen Fällen keine eindeutige Zuordnung von Web Crawler zu Suchmaschine getroffen werden. Ein weiteres Problem ergab sich daraus, dass die Web Crawler zum Teil nicht über DNS-Einträge verfügen, weshalb sie in den Logfiles nur über ihre IP-Adresse und nicht über einen Namen identifiziert werden konnten. Aufgrund dieser Problematik wird in der folgenden Auswertung nur auf diejenigen Zugriffe eingegangen werden, die einzelnen Web Crawlern direkt zuzuorden sind und die durch Web Crawler erfolgten, die in unserer Untersuchung berücksichtigt werden sollten.

4.3 Die Auswertung der Zugriffe durch die Web Crawler der Suchmaschinen

Die erste Suchmaschine, die auf die Testseiten zugriff, war Google.com. Der Crawler von Google stattete der Test-Web Site bereits am 1. Juli 2000 einen Besuch ab, wobei folgende Dateien angefordert wurden: eine (nicht-existierende) Datei robots.txt, die Indexdatei index.html auf der ersten Ebene und die reine Textseite (eine Seite ohne Metadaten, Titel und Überschrift nur mit einer Teststringfolge im Text) der ersten Ebene. Am 6. Juli 2000 wurden alle weiteren Webseiten der Site angefordert und indexiert. Interessant war, dass der Web Crawler von Google.com, crawler.googlebot.com, in ziemlich regelmässigen Abständen (in der Regel etwa alle 14 Tage) die Test-Web Site erneut besuchte, ohne dass eine Datei robots.txt dazu aufforderte. Die Teststrings waren erst am 28. Juli 2000 im Index von Google recherchierbar.

Als zweite Suchmaschine besuchte der Crawler von Fireball, rap.fireball.de, die Test-Web Site am 2. Juli zum ersten Mal. Allerdings wurde dabei nur die Textseite der ersten Hierarchieebene angefordert. Erst in späteren Besuchen wurden die tieferliegenden, ebenfalls angemeldeten Seiten der Ebenen 4 und 9 angefordert. Hier ergab sich eine Diskrepanz zu den Ergebnissen der Auswertung der Trefferlisten. Denn bereits am 2. Juli 2000 wurden alle Seiten der Hierarchieebenen 4 und 9 mit den entsprechenden Suchbegriffen im Index von Fireball.de gefunden. Eine mögliche Erklärung ist eine fehlerhafte Protokollierung der Zugriffe in den Server-Logfiles. Eine andere Erklärung ist, dass Fireball.de neben seinem eigenen Crawler rap.fireball.de Web Crawler ohne namentlich identifizierbare DNS-Einträge verwendet.

Wann die übrigen getesteten Suchmaschinen auf die Test-Web Site zugegriffen haben, konnte aufgrund fehlender DNS-Einträge für die eindeutige Zuordnung von Web Crawler zu Suchmaschinenanbieter nicht ermittelt werden. Zwar wurden in den Server-Logfiles weitere IP-Adressen gefunden, diese konnten aber nicht identifiziert werden. Der Mangel an DNS-Einträgen führte zu einer fehlenden Transparenz beim Zuordnen von Zugriffen zu Suchmaschinen. Die Suchmaschinenanbieter scheinen kein Interesse an einer Identifizierbarkeit ihrer Web Crawler durch Webmaster zu haben.

SuchmaschineTag des 1. Besuchs auf Ebene 1Tag des 1. Besuchs auf tieferen Ebenen
AltaVista.deKein erkennbarer BesuchKein erkennbarer Besuch
Fireball.de02.07.200014.07.2000
Google.com01.07.200028.07.2000
InfoSeek.deKein erkennbarer Besuch08.07.2000
Lycos.deKein erkennbarer BesuchKein erkennbarer Besuch
NorthernLightKein erkennbarer BesuchKein erkennbarer Besuch
Speedfind.deKein erkennbarer BesuchKein erkennbarer Besuch

Tabelle 4: Übersicht über die Besuche von Web Crawlern auf der Test-Web Site

4.4 Die Auswertung der Suchergebnisse

Die Auswertung der Suchergebnisse erfolgte über die oben beschriebene SQL-Datenbank, in der die Trefferlisten der Suchmaschinen gesammelt wurden. Die Auswertung ergab, dass im Untersuchungszeitraum nur drei Suchmaschinen, nämlich Fireball.de, Google.com und Infoseek.de, die Testwebseiten in ihren Index aufgenommen hatten. Die Suche nach den Teststrings in den Datenbanken von AltaVista.de, Lycos.de, NorthernLight.com und Speedfind.de führte zu keinen Treffern.

Bei der Auswertung der Suchergebnisse war von besonderem Interesse

Recherchierbarkeit durch Fireball.de
In unserer Untersuchung war Fireball.de die erste Suchmaschine, die die Test-Web Site aufgenommen hatte. Schon am 2. Juli 2000, d.h. drei Tage nach Anmeldung, wurden Treffer zurückgeliefert. Allerdings indexierte Fireball im Untersuchungszeitraum von sechs Monaten nur die direkt angemeldeten Seiten auf den Ebenen 1, 4 und 9, verfolgte jedoch nicht Links zu den reinen Textseiten und den tiefer liegenden Seiten, obwohl der Web Crawler mit dem Meta-Tag <META NAME="robots” CONTENT="index,follow”> ausdrücklich zum Weiterverfolgen von Links aufgefordert worden war und Fireball diesen Befehl laut seiner Meta-Tag-Dokumentation eigentlich unterstützen sollte. Fireball wertete folgende Seitenelemente aus: die Meta-Tags Author und Keywords, den Title-Tag, den Header H1 und den Teststring im Seitentext. Nicht ausgewertet wurden folgende Seiteninhalte: die ALT-Tags der Graphiken sowie die Dublin Core Metadaten.

Recherchierbarkeit durch Infoseek.de
Die ersten Treffer bei Infoseek.de wurden am 8. Juli 2000 verzeichnet, d.h. neun Tage nach Anmeldung der Seiten. Neben den direkt angemeldeten Webseiten auf den Ebenen 1, 4 und 9 indexierte Infoseek auch die Ebenen 3, 5 und 6.. Die Ebenen 2, 7, 8 und 10 wurden hingegen nicht indexiert. Infoseek wertete die folgenden Seitenelemente aus: die Meta-Tags Keywords und Description, den Title-Tag, den Header H1, den ALT-Tag der Graphik sowie den Teststring im Seitentext. Nicht ausgewertet wurden der Meta-Tag Author und die Dublin Core Metadaten.

Recherchierbarkeit durch Google.com
Google war die "langsamste”, aber dafür die gründlichste Suchmaschine in unserer Untersuchung. Der erste Treffer wurde erst am 28. Juli 2000 verzeichnet, knapp vier Wochen nach Anmeldung der Seiten. Im Gegensatz zu den beiden vorgenannten Suchmaschinen indexierte Google unsere Site komplett, d. h. alle 20 Webseiten auf den Ebenen 1 bis 10. Google indexiert keinerlei Metadaten und keine ALT-Tags von eingebunden Graphiken. Es wurden also lediglich die Seitenelemente Title, Header H1 sowie sowie der Teststring im Seitentext ausgewertet.

AltaVista.de, Lycos.de, NothernLight.com und Speedfind.de
Im Untersuchungszeitraum konnten bei den Suchmaschinen AltaVista.de, Lycos.de, NothernLight.com und Speedfind.de keine Treffer in den Datenbanken nachgewiesen werden. Deshalb kann über die Indexierung der Testwebseiten bei diesen Suchmaschinen keine Aussage gemacht werden.

Die folgenden beiden Tabellen (Tabelle 5 und 6) fassen die Ergebnisse in Bezug auf ausgewertete Seitenelemente und Tiefe der Erschließung nach Hierarchiebenen zusammen. Bei der Indexierung von Webseiten zeigen Fireball.de, Google.com und Infoseek.de ein relativ uneinheitliches Vorgehen, was die Indexierung von Suchmaschinen-Meta-Tags angeht, Dublin Core-Meta-Tags werden von allen drei Suchmaschinen nicht indexiert. Lediglich die Bestandteile Title-Tag und Überschriften-Tag H1 sowie der reine Textinhalt werden von allen drei Suchmaschinen gleichermaßen indexiert. Auch bei der Tiefe der Erschließung der Test-Web Site weichen die drei Suchmaschinen stark voneinander ab. Lediglich Google.com indexiert alle Seiten der Web Site.

Suchmaschine

FireballGoogleInfoSeek
META-Author+--
METAKeyword+-+
METADescript.--+
Dublin Core---
TITLE-Tag+++
H1-Tag+++
Inhalt der Seite+++
ALT-Tag--+

Tabelle 5: Von Fireball, Google und InfoSeek ausgewertete Seitenelemente

 

SuchmaschineFireballGoogleInfoSeek
Ebenen der
präparierten Seiten
(Meta-Tags, Titel etc.)
1, 4, 91, 2, 3, 4, 5, 6, 7, 8, 9, 101, 2, 3, 4, 5, 6, 9
Ebenen der
Seiten mit nur einem
Teststring im Text
1, 4, 91, 2, 3, 4, 5, 6, 7, 8, 9, 10---

Tabelle 6: Tiefe der Erschließung durch Fireball, Google und InfoSeek

 

5. Zusammenfassung und Ausblick

Ziel der Untersuchung war, herauszufinden, wie sieben Suchmaschinen eine präparierte Web Site indexieren. Dazu wurden zehn Webseiten mit Teststrings in Form von Meta-Tags (Suchmaschinenmetadaten und Dublin Core Element Set), Titeln, Überschriften etc. versehen und zehn Webseiten ohne Metadaten, Titel und Überschrift nur mit einer Teststringfolge im Text präpariert und auf einer hierarchisch gegliederten Struktur mit zehn Ebenen auf einem Webserver abgelegt und drei Ebenen bei Suchmaschinen angemeldet. Von den sieben Suchmaschinen (AltaVista.de, Fireball.de, Google.com, Infoseek.de, Lycos.de, Northernlight.com und Speedfind.de) besuchten im Untersuchungszeitraum von sechs Monaten lediglich Fireball.de, Google.com und Infoseek.de die Testseiten. Die Server-Logfiles zeigten Besuche durch mehrere Web Crawler, die nicht über DNS-Einträge verfügten, weshalb sie in den Logfiles nur über ihre IP-Adresse und nicht über einen Namen identifiziert werden konnten.

Die Auswertung der Suchergebnisse in den Trefferlisten der Suchmaschinen zeigte, dass die Filterung und Indexierung der drei Suchmaschinen bei der Erschließung von Webseiten sehr unterschiedlich ist. Keine der drei Suchmaschinen indexierte Dublin Core Metadaten. Bei der Indexierung der Suchmaschinenmetadaten und übrigen Seitenelemente wie ALT-Tag von Grafiken sowie Teststrings im Seitentext zeigten sich große Unterschiede zwischen den einzelnen Suchmaschinen. Ähnlich war es bei der Tiefe der Indexierung in Bezug auf Hierarchieebenen. Goolge.com indexierte als einzige der drei Suchmaschinen alle Webseiten auf allen zehn Ebenen der Web Site. Problematisch für die Auswertung der Studie war, dass die Zuordnung von Web Crawlern zu Suchmaschinenanbietern in einigen Fällen nicht eindeutig möglich war und dass vier der sieben Suchmaschinen innerhalb der sechsmonatigen Laufzeit der Untersuchung die Webseiten nicht aufsuchten, geschweige denn indexierten.

Die Ergebnisse der Untersuchung zeigen, dass die Vorgänge bei der Indexierung von Webseiten durch Suchmaschinen noch eingehender untersucht werden müssen. Ein besonderes Problem ist die mangelnde Transparenz bei den Suchmaschinen, sowohl was die Funktionsweise als auch was die Identifizierung von Web Crawlern und die Filterung und Indexierung von Webseiten betrifft.

6. Literatur

Bager, Jo/Kossel, Axel (1999): Preissuchen. WWW-Suchmaschinen, Kataloge und Metasucher im Vergleich Prüfstand, Suchmaschinen, Kataloge, Metasuchmaschinen, Google, AltaVista, Web.de, Yahoo, Dino, Infoseek, MSN Search, Lycos. - In: c't - Magazin für Computertechnik, 23/99, 162-171

Bharat, Krishna/Broder, Andrei (1998): A Technique For Measuring The Relative Size and Overlap of Public Web Search Engines. - In: Computer Networks and ISDN Systems 30, 1998, 379-388. Also available on the Internet, URL http://decweb.ethz.ch/WWW7/1937/com1937.htm. Version: undatiert. Letzter Zugriff: 05.02.01.

Bekavac, Bernard (1996): Suchverfahren und Suchdienste des World Wide Web. - In: nfd - Nachrichten für Dokumentation, 47, 1996, 195-213.

Dahn, Michael (2000): Counting Angels on a Pinhead: Critically Interpreting Web Size Estimates. - In: Online, January 2000. Internet, URL http://www.onlineinc.com/onlinemag/OL2000/dahn1.html. Version: 01/2000. Letzter Zugriff: 05.02.01.

Kochtanek, Thomas/Laffey, James/Ervin, Jane/Tunender, Heather (1998): Project Whistlestop: An Evaluation of Search Engines on the Web. - In: Williams, Martha E. (1998, ed.): Proceedings of the 19th National Online Meeting 1998. Medford, NJ: Information Today.

Koster, Martijn (2000): The Web Robots Database, Internet, URL http://info.webcrawler.com/mak/projects/robots/active.html. Version: 06.07.00. Letzter Zugriff: 05.02.01.

Lawrence, Steve/Giles, C. Lee (1998): Searching the World Wide Web - In: Science, April 3, 1998, Vol. 280, 98-100.

Lennartz, Sven (1999): Ich bin wichtig! Promotion-Maßnahmen für suchdienstgerechte Webseiten. - In: c't - Magazin für Computertechnik, 23/99, 180-186.

Schweibenz, Werner (1999): Proactive Web design: Maßnahmen zur Verbesserung der Auffindbarkeit von Webseiten durch Suchmaschinen. - In: nfd - Nachrichten für Dokumentation, 50 (7), 1999, 389-396.

Spider Central - The Definitive Spider List. Internet, URL http://www.john.php4hosting.com/spiderlist.php.. Version: undatiert. Letzter Zugriff: 05.02.01.

Tunender, Heather/Ervin, Jane (1998): How to Succeed in Promoting Your Web Site: The Impact of Search Engine Registration on Retrieval of a World Wide Web Site - In: Information Technology and Libraries, 17 (3) September 1998, 173-179.


Zu den Autoren

Rüdiger Fries
Studium der Informationswissenschaft, Rechtsinformatik und Geschichte an der Universität des Saarlandes; fachliche Interessen: Information Retrieval, Suchmaschinen; Tutor für Information Retrieval

Till Kinstler
Studium der Informationswissenschaft, Informatik, Rechtsinformatik und Geschichte an der Universität des Saarlandes; fachliche Interessen: Architektur von Informationssystemen, Internetdienste; Tutor für webbasierte Applikationen

Werner Schweibenz, M.A.
Studium der Informationswissenschaft und Sprachwissenschaft an der Universität des Saarlandes und der University of Missouri, USA; fachliche Interessen: Information Retrieval, Web-Usability. Dozent für Information Retrieval

Johannes Strobel, B.A.
Studium der Informationswissenschaft, Theologie und Psychologie an der Universität des Saarlandes und der University of Missouri, USA; fachliche Interessen: Information Retrieval, virtuelle Gemeinschaften; Tutor für Information Retrieval

Peter Weiland, M.A.
Studium der Informationswissenschaft, Betriebswirtschaftslehre und Wirtschaftsinformatik; fachliche Interessen: Suchmaschinen, Knowledge Management; Tutor für webbasierte Applikationen

Universität des Saarlandes
Philosophische Fakultät III: Empirische Humanwissenschaften
Fachbereich 5.6: Informationswissenschaften
D-66041 Saarbrücken
E-Mail:w.schweibenz@rz.uni-sb.de