B.I.T.online Heft 4/2001: Web-Statistik

Web-Statistik - Potenziale und Grenzen ^*

von Simone Fühles-Ubach

[ *)Manuskript eines Vortrages im Rahmen der Informatica feminale am 7. September.2001 an der Universität Bremen ]

Abstract

1. Ausgangspunkt
2. Begriffsdimensionen
3. Serverstatistik / Kontaktmessung / Web-Mining
4. Nutzer, Technik, Content - als Gegenstand der Forschung => Statistiken über Internet / Meta-Ebene
5. Online Forschung (Online Research) / Online Marktforschung
6. Statistik als Thema / Content im Internet
7. Schlussfolgerungen und Ausblick

1. Ausgangspunkt

Im Bereich der Web-Statistik hat sich im Laufe der letzten Jahre ein multidisziplinäres Arbeits- und Forschungsumfeld entwickelt. Wie rasant die Entwicklung fortschreitet, ist daran erkennbar, dass der Gesamtbegriff der Web-Statistik immer stärker verschwindet, zugunsten der Entwicklung neuer Begrifflichkeiten, welche die sich mehr und mehr diversifizierenden Arbeits- und Forschungsgebiete benennen. Die Begriffe "Web-Experiment", "Online Research", "Online-Marktforschung" oder "WWW-Kontaktmessung" seien hier nur stellvertretend als Beispiele genannt. Der vorliegende Vortrag gibt einen Überblick über die verschiedenen Ansätze und Forschungsrichtungen, die sich rund um die Themen "Internet und Statistik" entwickelt haben. Dabei werden, über eine bloße Aufzählung hinaus, sowohl die derzeitigen Potenziale als auch die aktuellen Problem- und Fragestellungen benannt werden.

2. Begriffsdimensionen

Aus heutiger Sicht können vier thematische Schwerpunkte unterschieden werden, wobei zwischen den einzelnen Bereichen oftmals Überlappungen und begriffliche Unschärfen eine genaue Abgrenzung erschweren:

Serverstatistiken / Kontaktmessung / Web-Mining
Nutzer, Technik, Content - als Gegenstand der Forschung
Online Marktforschung / Online Research
Statistik als Thema / Content im Internet

Die Grafik zeigt eine erste Übersicht über die verschiedenen Arbeits- und Forschungsgebiete:

Abbildung 1: Begriffsdimensionen

Dabei ist der Grad der Überlappung bzw. der Unschärfe in den einzelnen Dimensionen sehr unterschiedlich. Während Punkt 4 "Statistik als Thema im Netz" nahezu überschneidungsfrei definiert werden kann, bestehen zwischen den Bereichen 1, 2 und 3 starke Zusammenhänge. So dienen beispielsweise Server-Statistiken und Kontaktmessung (Punkt 1) der Nutzerforschung und auch der Online-Forschung teilweise als Basis, teilweise aber auch als Ergänzung der eigenen Untersuchungen und Analysen.

Im folgenden wird jede einzelne Dimension vorgestellt. Ziel ist es dabei, neben

der Definition der einzelnen Facetten,
deren Zusammenhänge,
ihre Einsatzgebiete
sowie die damit verbundenen Stärken und Problemstellungen

herauszuarbeiten.

3. Serverstatistik / Kontaktmessung / Web-Mining

Die drei Begrifflichkeiten Serverstatistik, Kontaktmessung und Web-Mining sind inhaltlich eng miteinander verbunden, stammen aber aus unterschiedlichen Bereichen. Insgesamt spricht man von sogenannten nicht-reaktiven Messverfahren, d.h. der Benutzer merkt nicht, dass sein "Verhalten" automatisch protokolliert wird.

3.1 Log-file Erstellung / Server-Statistik¹

Der Begriff der Serverstatistik stammt aus dem Bereich der Informatik und bezeichnet die technische Seite der log-file-Erstellung, d.h. die Aufzeichnung der Daten, die durch das http (HyperText Transfer Protocol) übertragen werden.² Dabei handelt es sich in der Regel um Textdateien im ASCII-Format, die von unterschiedlichen Computerplattformen mit unterschiedlichen Betriebssystemen und wiederum unterschiedlichen Servern (Programme!) aufgezeichnet werden. Die WWW-Server zeichnen also die Zugriffsaktivitäten, d.h. alle Anfragen nach Dateien in den Log-files auf. Dieses Verfahren klingt zunächst recht einfach, birgt bei genauerem Hinsehen jedoch einige Probleme, die ebenfalls durch bestimmte Internet-Techniken initiiert werden und zwar durch den Einsatz von Proxy-Servern, dynamischen IP-Adressen und Firewall-Rechnern.

Proxy-Server³
Um die Bandbreite des Internets optimal auszunutzen werden Proxy-Server eingesetzt, die zur Minimierung des Datentransfervolumens dienen, indem sie häufig benutzte Informationen lokal zwischenspeichern, damit diese Daten nicht mehrmals den gesamten Weg durch das Netz zurücklegen müssen. Ruft ein Benutzer dann eine solche Seite von einem Proxy-Server ab, erhält der Server auf dem die Seite ursprünglich liegt, keine Seitenanforderung und daher taucht dieser Server auch nicht im log-file auf. Ein regulärer Eintrag erfolgt nur, wenn die Seite nicht lokal vorliegt. Der Eintrag auf dem Ursprungsserver zeichnet dann allerdings die Web-Adresse des Proxy-Servers auf, was zu einer Verfälschung der Daten führt. Die folgende Graphik zeigt die angesprochene Problematik:

Abbildung 2: Proxy-Server-Problematik⁴

Nach dem gleichen Prinzip arbeiten auch die lokalen Caches der Browser, die auf den Rechnern der einzelnen Benutzer arbeiten. Um den Seitenaufbau zu beschleunigen, werden bestimmte Seiten zwischengespeichert und erscheinen dann im Log-file nur einmal, obwohl der Benutzer mehrfach auf die Inhalte zugreift. Die Verfälschung des Log-Files betrifft also den Bereich des Contents, d.h. der Frage, welche Inhalte wie oft abgerufen wurden.

Dynamische IP-Adressen
Wegen des begrenzten Vorrats an IP-Adressen vergeben Online-Dienste wie z.B. AOL oder T-online und auch andere Internet-Service-Provider ihre IP-Adressen dynamisch⁵. Das führt zu zwei unterschiedlichen Effekten:

Mit wenigen Adressen kann ein Online-Anbieter eine große Zahl von Nutzern bedienen. Gerade sehr aktiven Benutzern wird oft ein spezieller Pool von Adressen zugewiesen. Der Effekt ist, dass im Log-File nur wenige Adressen zu finden sind, hinter denen sich jedoch eine Vielzahl von Benutzern verbergen kann.
Derselbe Benutzer kann zu unterschiedlichen Zeiten unterschiedliche IP-Adressen zugewiesen bekommen. Im Log-file erscheinen dann zwei Adressen hinter denen sich jedoch nur ein Benutzer verbirgt.

Diese Verfälschung des Log-Files betrifft also den Bereich der Benutzer und ist insbesondere für die Online-Marktforschung problematisch, da eine Ermittlung von genauen "Besuchszahlen" (visits) und eine Identifikation einzelner Benutzer, wie sie für den Ausschluss von Mehrfachteilnehmern bei Online-Untersuchungen erforderlich ist, sehr schwierig wird.

Derzeit versucht man, das Problem durch die Auswertung spezieller Zusatzinformationen oder den Einsatz von Cookies⁶ zu beheben. Identifiziert wird dabei der jeweilige Browser eines Computers. Auch dieses Verfahren birgt jedoch Tücken, denn zum einen akzeptiert nicht jeder Rechner Cookies (Einstellungsoption im Browser), zum anderen können sie problemlos gelöscht werden und wenn mehrere Personen am Rechner mit dem gleichen Browser arbeiten wird doch nur eine Person identifiziert.

Firewall-Rechner
Oftmals setzen Unternehmen aus Sicherheitsgründen Firewall-Rechner ein. Firewalls setzen interne IP-Adressen auf eine einzige externe IP-Adresse um, die dann im Log-file aufgezeichnet wird, auch wenn viele verschiedene unterschiedliche Personen aus dem Unternehmen auf das Angebot zugegriffen haben. Kommt der Einsatz von Proxy-Servern hinzu, werden die Log-Files hinsichtlich der Besuchszahlen stark verzerrt und korrekte Rückschlüsse auf Benutzer oder Benutzergruppen unmöglich.

3.2 Kontaktmessung

Der Begriff der Kontaktmessung stammt aus dem Bereich Printmedien und Fernsehen. Während im Printbereich die Auflage als maßgebliche Grundlage für die Berechnung der Anzeigen zugrunde liegt, wird für den Fernsehbereich die sogenannte "Quote", d.h. die Mediennutzung, über das GfK-Panel⁷ ermittelt. Auch für Online-Medien bzw. für das WWW wird daher eine Kontaktmessung benötigt, die als verlässliche Basis für Anzeigenpreise dienen kann und die Werbeträgerleistung in Online-Systemen dezidiert ermittelt.

Allein im Jahre 2000 wurden in Deutschland 400 Millionen DM für Online-Werbung ausgegeben. Bis zum Jahr 2005 sollen diese Ausgaben bis auf 3 Milliarden DM ansteigen. Dabei entfallen derzeit ca. 80% der Online-Werbeausgaben auf Bannerwerbung.⁸ Allein diese Zahlen zeigen die zunehmende Bedeutung des Themas "Kontaktmessung" dessen Basis die Log-Dateien, d.h. die server- und client-seitigen Protokolle und Statistiken sind. Daher wird die Kontaktmessung auch oftmals als Protokolldateienanalyse bezeichnet.

Ebenso wie es bei der Erstellung der Log-Files zahlreiche Probleme zu berücksichtigen gilt, ist auch eine Auswertung der Protokolldateien nicht trivial. In der Anfangszeit der Log-file-Analyse wurde oftmals die Anzahl der "hits" als Maß für die Popularität einer Web-Site angegeben. Der Fehler, den dieses Maß enthält, ist beträchtlich, denn ein Log-File verzeichnet jede Datei, die beim Zugriff auf einen Server abgerufen wird in einer Zeile. Damit wurde jedes in der HTML-Seite integrierte Element, wie z.B. Bilder oder Graphiken, ebenfalls als "hit" verzeichnet, was dazu führte, dass Sites mit besonders vielen Multimedia-Elementen sich stets als besonders nachgefragt "ausweisen" konnten.

Die Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. (IVW), deren Aufgabe es u.a. ist, bei Anbietern von Online-Werbeträgern die nachgewiesenen Zugriffe auf das Online-Angebot festzustellen, hat daher zwei Indikatoren zur Leistungsmessung ausgewählt, die Layout und Grafik einer HTML-Site unberücksichtigt lassen. Dies sind die Page Impressions (früher auch Page Views genannt) und die Visits.

Page Impressions (offizielle Bezeichnung der IVW)⁹:
Page Impressions bezeichnen die Anzahl der Sichtkontakte beliebiger Benutzer mit einer potentiell werbeführenden HTML-Seite. Sie liefern ein Maß für die Nutzung einzelner Seiten eines Angebots.

Gesondert definiert werden musste die Erfassung jedoch für Web-Sites, die mit Hilfe der Frame-Technologie erstellt werden. Hier können durch einen "Click" mehrere Seitenabrufe veranlasst werden, was nicht erwünscht ist. Die Definition wurde daher um folgenden Passus erweitert:

Enthält ein Angebot Bildschirmseiten, die sich aus mehreren Frames zusammensetzen (Frameset), so gilt jeweils nur der Inhalt eines Frames als Content. Der Erstabruf eines Framesets zählt daher nur als ein Page Impression, ebenso wie jede weitere nutzerinduzierte Veränderung des entsprechenden Content-Frames. Demnach wird pro Nutzeraktion nur ein Page Impression gezählt. Zur definitionsgerechten Erfassung der Page Impressions verpflichtet sich der Anbieter, gekennzeichneten Content jeweils nur in einen Frame pro Frameset zu laden.

Der zweite Indikator für die Leistungsmessung sind die sogenannten "Visits". Welche Schwierigkeiten mit der Erfassung der Seitenbesuche verbunden sind, wurde bereits bei der Problematik der dynamischen IP-Adressen und der Firewall-Technologie angedeutet. Entsprechend vorsichtig lautet die Definition des IVW:

Visits(Besuche, Nutzungsvorgänge)¹⁰
Ein Visit bezeichnet einen zusammenhängenden Nutzungsvorgang (Besuch) eines WWW-Angebots. Er definiert den Werbeträgerkontakt. Als Nutzungsvorgang zählt ein technisch erfolgreicher Seitenzugriff eines Internet-Browsers auf das aktuelle Angebot, wenn er von außen erfolgt.

Wollte ein Online-Dienst tatsächlich seine "Leser" zählen, so müssten diese sich registrieren lassen und sich bei jedem Nutzungsvorgang über ein Password anmelden. Erfahrungen diverser Anbieter aus dem letzten Jahr haben gezeigt, dass die große Mehrheit der Internet-Nutzer nicht bereit ist, derartige Anmeldeprozeduren zu akzeptieren.

Wichtig ist, dass bei der Definition das Wort "Nutzer" nicht gebraucht wird, da sich "echte Personen" kaum den einzelnen Nutzungsvorgängen zuordnen lassen. Ein Besuch kann daher nicht mit Besuchern gleichgesetzt werden. Wirkliche Besucherzählungen ließen sich nur über Passwort-Anmeldungen und Registrierungen verwirklichen, was jedoch in der Regel zu einem Rückgang der Besucherzahlen führt, wie das Beispiel der Internet-Site von "Hotwired" gezeigt hat, die nach Einführung eines Passwordanmeldeverfahrens einen starken Besucherrückgang zu verzeichnen hatte.¹¹

Die Reihenfolge der Seiten, die innerhalb eines WWW-Angebote während eines Visits abgerufen werden, bezeichnet man als Clickstreams. Die einzelnen Visits, untergliedert in die einzelnen Seitenabrufe, können in eine Datenbank gespeichert werden, um weitere Analysen durchzuführen. An dieser Stelle setzt das Web-Mining an.

3.3 Web-Mining

Der Begriff Web-Mining wurde abgeleitet vom allgemeinen Begriff des Data-Mining. Data-Mining¹² Werkzeuge sind darauf spezialisiert, noch unbekannte Zusammenhänge innerhalb von Unternehmensdaten zu finden. Im Gegensatz zu den klassischen Abfragewerkzeugen muss hier der Anwender nicht vorher wissen, wonach er sucht. Vielmehr wird der Anwender zu den interessanten Informationen geführt. Web-Mining bezeichnet den auf die speziellen Erfordernisse des Internets angepassten Forschungszweig. Ziel des Web-Minings¹³ ist die Analyse von Log-files auf Regelmäßigkeiten und Muster im Benutzerverhalten. Da die großen Datenmassen meist in Datenbanken vorgehalten werden, ist Web-Mining oftmals im Umfeld von Informatikern und Wirtschaftsinformatikern anzutreffen.

Die Methoden, die im Data-Mining und auch im Web-Mining Anwendung finden, sind jedoch oftmals klassische statistische Verfahren, die auch in der Marktforschung eingesetzt werden. Als wichtigste Beispiele sind hier z.B. Clusteranalysen, CHAID, Assoziationsmaße oder neuronale Netze zu nennen.

Mit Hilfe dieser Verfahren sollen die beobachteten Daten aus dem Internet viele marktrelevante Daten über die Benutzer zusammentragen. Janetzko hat dies einmal wie folgt auf den Punkt gebracht¹⁴:

"Ist man in der Lage, Angaben aus Cookies, Log-Files und personenbezogenen Daten zusammenzulegen, weiß man etwa, dass Herr Müller aus Hagen sich für ein Fertighaus interessiert. Mit weiteren Verfahren (etwa regressionsanalytischen Ansätzen) kann man dann etwa noch ermitteln, dass er ein Navigationsverhalten an den Tag legt, das auf Interesse an einem Kredit schließen lässt. Wenn Herr Müller in Zukunft einmal einen derart gläsernen Surfer darstellt, wird er öfters entsprechende Post bekommen."

Konkret soll Web-Mining also die Fragen nach Besuchern und profitablen Kunden klären, um so zu einer Optimierung der Kundenbeziehung und einer Erhöhung des Marktpotenzials beizutragen. Viele Kunden befürchten in diesem Zusammenhang allerdings auch einen Datenmissbrauch und die Datenschutzgesetze verbieten Data Mining mit personenbezogenen Daten. Einen Quasi-Standard für einen weltweiten Standard zum Austausch von Kundenprofilen hat das Customer Excange Network im Oktober 2000 verabschiedet (www.cpexchange.org).¹⁵

3.3.1 Zusammenhänge der einzelnen Techniken
Betrachtet man die einzelnen Dimensionen gemeinsam, zeigt sich ihr Zusammenhang. Basis für alle Aktivitäten ist die Aufzeichnung eines Server-Log-Files, wobei die angeführten technischen Probleme berücksichtigt werden müssen. Die Auswertung der Log-Files, getrennt nach Content (Pages) und Besuchen (Visits) wird für die Kontaktmessung durchgeführt, als Grundlage für eine korrekte Berechnung der Online-Werbepreise. Speichert man die Clickstreams, d.h. alle Seitenabrufe innerhalb eines Visits in einer Datenbank, so ist man mit komplexen statistischen Verfahren in der Lage, Regelmäßigkeiten, Muster und Zusammenhänge zu erkennen, die für die Markt- und Kundenforschung von entscheidender Bedeutung sind.

Abbildung 3: Zusammenhänge im Bereich der Server-Statistiken

4. Nutzer, Technik, Content - als Gegenstand der Forschung => Statistiken über Internet / Meta-Ebene

Statistiken über das Internet sind insofern sehr problematisch, als die angegebenen Zahlen durch das schnelllebige Wachstum der Online-Welt immer mit mehr oder weniger großen Fehlern behaftet sind. Kaum eine Institution spricht daher von Fakten, sondern vielmehr von Schätzungen über die verschiedenen Untersuchungsmerkmale. Besonders für die Marktforschung ist das Internet jedoch nicht nur Erhebungsmedium, wie die späteren Ausführungen zur Online-Marktforschung zeigen werden, sondern auch Untersuchungsgegenstand. Schließlich ist es für ein Unternehmen, das Entscheidungen über Art und Umfang seiner Aktivitäten im Netz treffen soll, von ganz erheblichem Interesse zu wissen, welche Informationen über Zielgruppen und Märkte vorhanden sind, die das Unternehmen ansprechen bzw. gewinnen möchte.

Statistiken zum Internet können grob in folgende Kategorien gefasst werden:

Statistiken zur Gemeinschaft der Internetnutzer
Statistiken zu unterschiedlichen Contents im Netz
Statistiken zu Suchmaschinen
Statistiken zu rein technischen Fragen

Die folgenden Ausführungen versuchen, einige der wichtigsten Stellen aufzuzeigen, wo umfangreiche Statistiken im Netz zu den angegebenen Themen zu finden sind.

Statistiken zur Gemeinschaft der Internetnutzer
Internet ist ein interaktives und schnelles Medium, das sich in besonderer Weise für die Kundenkommunikation und damit auch für eine Verbesserung der Kundenorientierung und ein schnelleres Reagieren auf Kundenwünsche eignet.¹⁶ Folglich sind Informationen über die Anzahl und die demographische Struktur der Internetnutzer von ganz besonderem Interesse. Eine der am häufigsten gestellten Fragen in diesem Zusammenhang ist die Frage nach der Anzahl der Internet-Nutzer weltweit.¹⁷

Anzahl und demographische Angaben der Internet-Nutzer weltweit / Content-Statistiken
Wie schwierig die Beantwortung dieser Frage tatsächlich ist, zeigt die Tatsache, dass das Web-Angebot NUA (www.nua.com), das durch die Angaben zur Frage "How Many Online?" berühmt geworden ist, diese Schätzungen im November 2000 aufgegeben hat. Der Anbieter, der sich als "the world`s leading resource for Internet trends & statistics" bezeichnet, hatte seine Schätzungen bisher auf extensive Auswertungen von Übersichten und Reports aus der ganzen Welt bezogen, führt dies aber nicht mehr weiter. Statt dessen sind umfangreiche Statistiken zu einer Fülle von einzelnen Themengebieten zu finden, die in die großen Kategorien Geschäftsbereiche, Gesellschaft, Tools und Demographie untergliedert sind.

Ausführliche Antwort auf die Frage nach der Größe der Internet-Gemeinde gibt derzeit das Angebot "Global Reach" (www.glreach.com). Hier wird, gegliedert nach Sprachen, detailliert über die Zahl der sogenannten "Online Bevölkerung" Auskunft gegeben:

Für August 2001 wurden 476 Millionen Internet-Nutzer weltweit angegeben. Dabei rechnet man bis Ende des Jahres 2002 mit 490 Millionen und bis Ende des Jahres 2005 sogar mit 765 Millionen Internet-Nutzern weltweit (www.glreach.com/globstats).

Zukünftig besonders interessant im Angebot von Global Reach dürfte der Bereich "Projected E-commerce figures by country" sein.

Für den europäischen Bereich bietet die GfK¹⁸ einen neuen regelmäßigen Dienst, das "gfk-webgauge" (www.web-gauge.com). Hier werden Statistiken und Informationen zur Entwicklung der Endverbrauchermärkte in sieben europäischen Ländern (D, GB, F, NL, E, B; I) gegeben. Neben Fragen der Nutzung des Internets und zu e-Commerce-Aktivitäten sowie zu online gekauften Produkten und zu bezogenen Dienstleistungen gibt es auch Fragen aus der Lebenstiltypologie. Besonders interessant ist dieser Dienst, da es sich um ein sogenanntes Tracking-Instrument handelt, d.h. einen Studientyp, in dem in regelmäßigen Abständen jeweils die gleichen Sachverhalte bei repräsentativen Stichproben ermittelt werden. Auf diese Weise können Entwicklungen und Veränderungen der Einstellungen und Verhaltensweisen der Internet-Nutzer bzw. der e-Consumers (Alter: 14-69 Jahre) festgehalten werden. In jedem Land umfassen die repräsentative Quotenstichproben mindestens 1000 Teilnehmer (Ausnahme B und NL; hier sind es 500), für die die gleiche Erhebungsmethode (Computer Assisted Telephone Interview CATI) und ein identisches Fragenprogramm eingesetzt wird.¹⁹

Ein Partner der GfK, der ebenfalls europäische Zahlen zur Internet-Nutzung herausgibt und zwar auch über die im gfk-webgauge angegebenen Länder hinaus, ist "Jupiter MMXI" (www.jupitermmxi.com). Hier finden sich beispielsweise auch Daten über die Schweiz und die skandinavischen Länder. Nach eigenen Angaben deckt die Messung von Jupiter MMXI rund 90% der europäischen Internet-Nutzung ab.²⁰

Anzahl und demographische Angaben der Internet-Nutzer in Deutschland
Auch in der Erhebung und Ermittlung von Angaben über Internet-Nutzer in Deutschland, ist die GfK-Gruppe einer der großen Anbieter. Der GfK Online-Monitor lieferte bisher in sieben sogenannten Befragungswellen (letzte Welle im März 2001, neue Zahlen wahrscheinlich im September / Oktober), die stets mit den gleichen Benutzerdefinitionen und Erhebungsmethoden arbeiten, aktuelle Zahlen über Größe und Struktur der Online-Nutzer in Deutschland.

Auch hier liefert Jupiter MMXI Zahlen, die über die GfK-Web-Site zugänglich sind. So gibt eine Pressemeldung vom 27.08.2001 bekannt, dass im 2. Quartal 2001 knapp die Hälfte aller Deutschen (48,7%) Zugang zum Internet hatten und von diesen Personen gaben 72% an, das Internet in den letzten 30 Tagen tatsächlich auch benutzt zu haben. Die Angabe der Nutzung in den letzten Woche wirft eine Frage auf, die an späterer Stelle bei der Online-Marktforschung nochmals eine große Rolle spielt: Wie definiert sich ein Online-Teilnehmer? Hat er einen Web-Anschluss? Nutzt er den Web-Anschluss? Welche Dienste werden genau genutzt? Die Definition, die den GfK-Untersuchungen und auch bei Jupiter MMXI zugrunde liegt lautet: Ein WWW-User ist jemand, der einen Zugang zum WWW hat und diesen zumindest gelegentlich auch nutzt. Diese Definition ist seit der ersten Welle des GfK Online-Monitors unverändert geblieben und stellt daher eine valide, vergleichbare Basis dar.

Statistiken zu Suchmaschinen und technischen Fragen
Unter der Domain www.webhits.de bietet ein Anbieter seit 5 Jahren Web-Statistiken an. Hier kann jeder Betreiber einer Web-Site umfangreiche Statistiken zu seinem Angebot in Auftrag geben. Darüber hinaus bietet webhits aber auch umfangreiche Statistiken besonders zur Nutzung von Suchmaschinen, zu Betriebssystemen und den Verbreitungszahlen der wichtigsten Plug-Ins und ist damit eine wichtige Quelle für Daten und Statistiken aus dem technischen Umfeld (u.a. Javascript, Java, CSS, Cookies) der WWW-Nutzung.

Natürlich gibt es eine Vielzahl weiterer Statistiken, die hier nicht alle aufgezählt werden können. Dies beginnt bei der Frage nach den meistbesuchten Seiten, nach der Frage der häufigsten Verlinkung bis hin zur Prämierung der besten oder schlechtesten Web-Sites.

5. Online Forschung (Online Research) / Online Marktforschung

Online Forschung und Online Marktforschung sind zwei Begriffe die häufig sehr ungenau gebraucht werden. Aus Sicht vieler Marktforscher werden beide Begriffe quasi synonym gesetzt, andere Fachwissenschaftler, die sich z.B. mit Messungen zur Benutzerfreundlichkeit oder Online Experimenten beschäftigen, widersprechen hier vehement. Zwar ist der Bereich der Online-Marktforschung derzeit mit Abstand der größte Bereich innerhalb der Online Forschung, jedoch wäre es falsch, die gesamte Online Forschung darauf zu reduzieren.

Online Forschung ist nicht Online-Marktforschung!
Prinzipiell findet Online Forschung überall dort statt, wo das Internet der Gegenstand der Forschung ist und es gibt kaum eine wissenschaftliche Disziplin, die sich nicht in der einen oder anderen Form mit diesem Forschungsgegenstand beschäftigt. In weiten Teilen der Online Forschung - auch in der Marktforschung - geht es darum, die interessierenden Fragestellungen mit Hilfe empirischer Methoden zu operationalisieren und da klassische Methoden oft nur ungenügend auf das Internet übertragbar sind, wird geforscht, wie das Wissen zur Methodik der empirischen Sozialforschung innerhalb des Internets angewandt werden kann.²¹ In diesen Fällen wird Internet als Instrument der Forschung eingesetzt. Online Forschung wird daher im folgenden als Oberbegriff verstanden, der den Bereich der Online-Marktforschung zwar als Schwerpunkt beinhaltet, darüber hinaus aber noch eine Vielzahl von anderen Facetten, wie z.B. inhaltsanalytische, kommunikationswissenschaftliche oder sozialpsychologische²² Fragestellungen bietet, auch wenn diese hier nicht näher behandelt werden können.

Online-Marktforschung
Marktforschung definiert sich als "systematische Sammlung, Aufbereitung und Analyse und Interpretation von Daten über Märkte und Marktbeeinflussungsmöglichkeiten zum Zweck der Informationsgewinnung für Marketing-Entscheidungen".²³ Online-Marktforschung bedeutet demnach eine Erweiterung dieser Definition um die Daten, die aus bzw. mit Hilfe von Online-Medien gewonnen wurden.

Internet wird in der Marktforschung als Instrument für reaktive und nichtreaktive Befragungsformen eingesetzt. Einige der nichtreaktiven Verfahren wurden unter Punkt 3 vorgestellt. Der größte Vorteil dieser Verfahren liegt darin, dass sie nahezu unbeeinflusst von sogenannten Interviewer-Effekten²⁴ sind und von der "Objektivität" der auszeichnenden Apparate ausgegangen werden kann. Diese Verfahren können daher beispielsweise auch zur Verifizierung von Daten aus reaktiven Verfahren herangezogen werden.²⁵ Die Online-Marktforschung bedient sich beider Verfahren zur Datengewinnung und -analyse

Reaktive Forschungsinstrumente - WWW-Umfragen
Die bekannteste und am weitesten verbreitete reaktive Befragungsform sind WWW-Umfragen, d.h. Nutzerbefragungen in Form von Fragebögen, die das Internet als Datenerhebungsinstrument nutzen.²⁶ Ein Blick in die Umfragen Meta-Liste von Bernad Batanic unter http://www.globalpark.de/studien/ zeigt, welche Menge von aktiven Umfragen sich im Netz befindet. Diese neue Form der Datenerhebung, die besonders wegen ihrer Schnelligkeit und der hohen Benutzerzahlen auffällt, wird jedoch nicht nur positiv gesehen, wie eine aktuelle Einschätzung des Arbeitskreises Deutscher Markt- und Sozialforschungsinstitute e.V. zeigt:

"Behauptungen, die Online-Marktforschung werde in einigen Jahren die traditionellen Instrumente der Datenerhebung nahezu vollständig verdrängen, haben vornehmlich werblich Charakter (…) Sie stellen aber keine zuverlässige Prognose der zukünftigen Entwicklung der Marktforschung dar."²⁷

Verschiedene Gründe tragen derzeit dazu bei, dass die anfängliche Begeisterung für diese neue Befragungsform etwas abgekühlt ist:

Qualitätsfragen
Repräsentativität
Selbstselektion
Mehrfachteilnahme

Qualität von WWW-Umfragen
Betrachtet man die hohe Anzahl der laufenden WWW-Befragungen im Netz, so ist besonders auffällig, dass es bei den Umfragen besonders große Differenzen bei der methodischen Qualität gibt.²⁸

Um die methodische Qualität von Online-Befragungen zu sichern haben der Arbeitskreis Deutscher Markt- und Sozialforschungsinstitute e.V. (ADM), die Arbeitsgemeinschaft Sozialwissenschaftlicher Institute e.V. (ASI), der Berufsverband Deutscher Markt- und Sozialforscher e.V. (BVM) und die Deutsche Gesellschaft für Online-Forschung e.V. (D.G.O.F.) gemeinsame "Standards zur Qualitätssicherung für Online-Befragungen" entwickelt und verabschiedet.²⁹ In diesem Papier, das eine Konkretisierung der allgemeinen Qualitätsstandards der Markt- und Sozialforschung im Hinblick auf Online-Befragungen darstellt, werden die relevanten Qualitätskriterien genannt, die bei der Durchführung wissenschaftlicher Online-Befragungen zu beachten sind. Mit Hilfe dieser Qualitätskriterien werden Online-Studien besser bewert- und vergleichbar. Die Kriterien definieren die Anlage der Untersuchung, die Durchführung der Untersuchung, die Darstellung, Interpretation und Dokumentation sowie auch Online-(Access-) Panels.

Neben diesen allgemeinen Qualitätskriterien lassen sich jedoch auch konkrete Fehler benennen und daraus resultierende Empfehlungen für eine Verbesserung der Umfragen formulieren. Analysen im virtuellen Pretest-Studio der Universität Köln³⁰ haben die fünf häufigsten Fehlergruppen herausgearbeitet, die die Antwortqualität in Online-Umfragen in besonderer Weise beeinträchtigen:

"Handwerkliche Fehler" in den Fragebögen, wie z.B. undeutliche Benennungen, mehrere sachliche Bezüge in einer Frage oder auch unpassende Kategorien.
Zu lange Fragebögen (Faustregel: Fragebögen, die mehr als 15-25 Fragen enthalten, sind zu lang).
Fragebögen sind zu langweilig, d.h. sie fordern nicht heraus und interessieren nicht.
Fragen werden nicht medienadäquat formuliert bzw. präsentiert, d.h. Fragetexte müssen kurz, knapp und übersichtlich präsentiert werden, das Layout soll die Lektüre erleichtern.
Matrixfragen in Tabellenform sind ungeeignet für das Medium, da die gleichförmigen Antwortskalen zu einer Antworttendenz verleiten. Jede Frage soll für sich angeboten werden.

Viele dieser Fehler können vermieden werden, wenn die technischen Erfordernisse zuvor bedacht werden, Aufmerksamkeit erzeugt und durch ein gelungenes Design angesprochen wird. Unbedingt durchgeführt werden sollte ein Pretest, der sich im Internet leicht durchführen lässt und bei dem Personen, die den Fragebogen nicht kennen, diesen bewerten sollen. Viele Schwächen oder Verständnisschwierigkeiten, die die "Fragebogen-Entwickler" gar nicht entdecken können, fallen dann sofort auf.

Repräsentativität
Noch bevor ein konkretes Fragebogen-Design entwickelt wird, stellt sich die Frage nach der Grundgesamtheit der zu Befragenden. Da es sich um WWW-Befragungen handelt, lautet die Grundgesamtheit hier also "Internet-Nutzer". Doch wie definieren sich Internet-Nutzer? Zu den stichprobentechnischen Besonderheiten des Internets zählt es, dass die Grundgesamtheit der Internet-Nutzer nicht klar abgrenzbar ist - es gibt keine Verzeichnisse oder Listen der Benutzer und daher ist auch keine gezielte Ansprache über das WWW möglich.³¹ Damit ist es auch nicht möglich, eine Auswahlwahrscheinlichkeit für jedes Element anzugeben, was zur Frage der Repräsentativität der Befragung bzw. der Stichprobe der Befragten führt. "Die gezielte Ansprache zufällig aus einer gegebenen Grundgesamtheit ausgewählter Personen ist die einzige Möglichkeit, eine nicht nur repräsentative, sondern auch theoretisch korrekte, d.h. mathematisch fundierte Stichprobe zu gewinnen."³² Anders ausgedrückt ist eine Stichprobe dann repräsentativ, wenn sie die Parameter der Grundgesamtheit gut schätzt. Da diese Parameter aber in der Regel nicht bekannt sind, geht man davon aus, dass eine Stichprobe die Grundgesamtheit dann gut abbildet, wenn sie

zufällig gezogen wird und
keine systematischen Ausfälle vorliegen.³³

Im Falle von WWW-Umfragen gibt es keine aktive Stichprobenziehung, sondern die Stichprobe "rekrutiert sich selbst", ein Phänomen, das auch als "Selbstselektion" bezeichnet wird. ³⁴

Selbstselektion
Selbstselektion heißt, dass die oftmals schon spezifische Gruppe der WWW-Nutzer, die per Banner oder anderer Werbung auf die Befragung aufmerksam gemacht werden, letztlich selbst über Teilnahme oder Nicht-Teilnahme entscheidet. So existiert in diesen Befragungen nicht wie üblich eine Gruppe von Antwort-Verweigerern (Nonresponse-Quote), deren Größe oftmals eine wichtige Rolle spielt. Eine Ausschöpfungsquote³⁵ lässt sich also gar nicht angeben, was bedeutet, dass keine Zahlen über systematische Ausfälle vorliegen.

Mehrfachteilnahme
Darüber hinaus gibt es neben denen, die an der Befragung gar nicht teilnehmen möchten, auch solche, die an einer Befragung mehrfach teilnehmen, z.B. wenn ein sehr interessantes Incentive, d.h. ein Teilnahmeanreiz angeboten wird. Wie Ausführungen zu den dynamischen IP-Adressen gezeigt haben, schützt beispielsweise die Überprüfung der IP-Adresse nur unzureichend vor Mehrfachteilnahme und bei Befragungen, die mit Hilfe von E-Mail-Adressen durchgeführt werden, ist es durch Internet-Dienste wie www.hotmail.com, www.gmx.de oder www.freenet.de sogar ein Leichtes, sich mehrere "E-Mail-Identitäten" zuzulegen.

Selbst in neuester Literatur wird daher die Meinung vertreten: "Eine repräsentative Befragung auf der Basis eines echten Random-samples wird auf absehbare Zeit mit keiner Form einer internetbasierten Untersuchung, egal ob per E-mail, Newsgroups oder WWW, erreichbar sein - mit Ausnahme einiger weniger Sonderfälle, in denen eine klar definierte Grundgesamtheit existiert und der Forscher Zugang zu den Adressdaten dieser Grundgesamtheit hat."³⁶ Dass nicht nur die Wissenschaft, sondern auch die Wirtschaft diese Einschätzung teilt, zeigt die Studie zum Thema "Akzeptanzanalyse Online-Marktforschung" der SKOPOS GmbH, die im Auftrag von McKinsey die Hauptverantwortlichen für Marktforschung in 26 (deutschen) Großunternehmen befragt hat. Der Fokus der Analyse lag auf der Einschätzung des momentanen Status und auch der erwarteten Entwicklung. Als Ergebnis zeigt sich, dass zwar steigende Ausgaben für Online-Marktforschung erwartet werden (von momentan 10 auf 30% bis 2005), trotzdem aber verschiedene Online-Untersuchungsmethoden auch in Zukunft, wegen der genannten Probleme der Stichprobenziehung, eher eine untergeordnete Bedeutung zugemessen wird.³⁷

6. Statistik als Thema / Content im Internet

Statistik als Thema im Netz wird an dieser Stelle angesprochen, da es einige ganz außergewöhnlich gute Web-Sites gibt, die sich mit dem Thema "Statistik" beschäftigen. Darüber hinaus ist eine interessante Entwicklung zu verfolgen, nämlich die, dass eine Web-Site vom Netz genommen wird, um auf einem optischen Speichermedium vertrieben zu werden - eine Entwicklung, wie sie beispielsweise in den USA nur in umgekehrter Richtung zu beobachten ist.

6.1 Von der Web-Site zur CD - MM*Stat

Am Institut für Statistik und Ökonometrie der Humboldt-Universität wurde das interaktive Statistik-Tool "MM*Stat" entwickelt, dessen Zielgruppe die Statistik-Lernenden aller wissenschaftlichen Fachrichtungen sein sollen.³⁸ Das Programm deckt das Spektrum von den Grundbegriffe der Statistik, wie Verteilungen und Skalen bis hin zu Inferenztests und Zeitreihenanalysen ab. Das Programm ist ein wirklich gut gelungenes Beispiel für e-learning, d.h. der Lernprozess kann vom Nutzer individuell gestaltet werden, je nachdem wie schnell die einzelnen Recheinheiten und Lektionen verstanden wurden. Am Ende jedes der insgesamt 12 Kapitel steht eine Überprüfung des gelernten Stoffes.

Wurde im vergangenen Jahr das Produkt allerdings noch mit den Worten beschrieben "....[das] am Institut für Statistik und Ökonometrie der Humboldt-Universität Berlin entwickelt wurde, aber auch von jedem außerhalb frei genutzt werden kann(www.mm-stat.de)"³⁹, so musste nun bedauerlicherweise festgestellt werden, dass es das Produkt nur noch als CD-ROM-Version und nicht mehr im Netz gibt. Diese Entwicklung kann von Lehrenden im Bereich Statistik nur mit Bedauern aufgenommen werden. Es bleibt zu hoffen, dass der Springer-Verlag, der dieses Produkt nun vertreibt, sich evtl. doch wieder für eine Online-Version entscheidet, die dann evtl. über Password und Lizenzgebühren wieder einem großem Publikum über das Netz angeboten werden kann. Bis dahin können die Nutzer nur auf einige exemplarisch für viele ausgewählte Web-Sites zur Statistik hingewiesen werden, die eine Fülle von Informationen und Links zum Thema bieten.

Interessante Web-Sites zum Thema Statistik

http://didaktik.physik.uni-wuerzburg.de/~pkrahmer/home/statistik.htm
Diese Site enthält eine Fülle von Links zur Statistik und Wahrscheinlichkeitsrechnung. Dabei geht das Niveau von der Sekundarstufe II bis hin zur Arbeit an Hochschulen. Damit ist die Seite für ein breites Publikum von Interesse. Besonders erfreulich ist, dass die Links in der Regel auch kurz kommentiert werden, so dass man grob abschätzen kann, was sich hinter dem Link verbirgt. Mit über 130 Links ist diese Site eine Fundgrube rund um den gesamten statistischen Bereich.
http://www.math.uah.edu/sta
Das Projekt, das sich hinter dieser Web-Adresse verbirgt heißt "virtual labratory in probability and statistics" und wendet sich als Zielgruppe direkt an Studierende und Lehrende der Statistik. Es wird gestaltet vom Department of Mathematical Sciences der University of Alabama und hat bereits mehrere Preise gewonnen, u.a. den National Science Foundation Award. Als konkrete Inhalte werden interaktive Lernseiten und Prüfungsaufgaben aus den Bereichen Statistik, Wahrscheinlichkeitsrechnung und spezielle statistische Modelle angeboten.

7. Schlussfolgerungen und Ausblick

Zusammenfassend lassen sich folgenden Aussagen über die Grenzen und Potenziale des Bereiches "Statistik und Internet" treffen:

Der Begriff "Web-Statistik" verschwindet mehr und mehr. Stattdessen setzt sich der Begriff Online Forschung durch. Die gesamte Forschung über das Internet wird mit dem Obergriff Online Forschung bezeichnet.
Innerhalb der Online-Forschung können drei große Bereiche unterschieden werden:
- Nicht-reaktive Forschung: Logfile-erstellung und -analyse, Webmining
- Reaktive Forschung: WWW-Befragungen (Online-Marktforschung), Online-Experimente
- Meta-Statistiken: Wie viele User hat das Netz, hat ein Land, wie viele Sites ein Fachgebiet, wie viele Suchmaschinen?
Die Logfile-Erstellung ist mit verschiedenen Problemen behaftet, die wiederum durch technische Aspekte wie Proxy-Server und dynamische IP-Adressen entstehen. Daher ist die Analyse der Logfiles alleine nur bedingt aussagekräftig, kann aber - gemeinsam mit anderen Verfahren - zu interessanten Ergebnissen führen.
Niemand wagt mehr ernsthafte Prognosen über die Anzahl der WWW-Nutzer. Während solche Schätzungen bekannt gegeben werden, sind sie bereits überholt und namhafte Anbieter wie z.B. NUA haben sich aus diesem Bereich zurückgezogen und entwickeln solche Prognosen nur noch für kleinere Bereiche, wie einzelne Länder oder Wirtschaftsbereiche.
WWW-Befragungen bzw. Online-Marktforschung ergänzt den bisher traditionellen Rahmen der Marktforschungsinstrumente. Eine Substitution ist wegen verschiedener methodischer Probleme, wie fehlender Repräsentativität und Selbstselektion auch langfristig nicht erkennbar.
Mit der fortschreitenden Verbreitung des Internets wird sich die Problematik der fehlenden Repräsentativität relativieren. Darüber hinaus gibt es auch Fragestellungen, bei denen der Aspekt der Repräsentativität heute schon eine nur untergeordnete Rolle spielt und wo WWW-Umfragen hervorragend geeignet sind. Ein Beispiel hierfür sind Mitarbeiterumfragen in Intranets.
Statistik selbst ist als Thema im Internet umfangreich vertreten und für nahezu alle Bereiche existieren Sites, die für Studierende und Lehrende interessant und hilfreich sind. Als problematisch wird der Rückzug von online-Versionen zugunsten von offline-Versionen gesehen.

Fazit

Web-Statistik bzw. Online-Forschung entwickelt sich rasant und spielt in viele andere Wissenschaftsgebiete mit hinein. Da mit der ersten Flaute der New Economy auch ein stärkerer Rechtfertigungszwang für Ausgaben in diesen Bereichen einhergeht, wird sich die Bedeutung der verschiedenen Felder, wie Log-file-Analysen und Online-Marktforschung noch weiter erhöhen. Wer um die methodischen Probleme der einzelnen Verfahren weiß und vor diesem Hintergrund vorsichtig analysiert, wird in diesem Bereich, der durch eine enorme Dynamik in bezug auf die Internet-Nutzer, ihre Wünsche und Gewohnheiten sowie auch deren inhaltliche Schwerpunkte geprägt ist, zu aufschlussreichen Forschungsergebnissen gelangen.

Anmerkungen und Literatur

1. Eine gute Einführung in die Gesamtthematik gibt: Janetzko, Dietmar: Statistische Anwendungen im Internet: Daten in Netzumgebungen erheben, auswerten und präsentieren. - München: Addison-Wesley, 1999.

2. Werner, Andreas: Kontaktmessung im WWW. S. 214 f in: Online Research: Methoden, Anwendungen und Ergebnisse / hrsg. Von Bernard Batinic - Göttingen: Hogrefe, 1999. S. 213-225.

3. Ausführliche Informationen über die Proxy-Server-Problematik finden sich im Internet-Angebot der Informationsgemeinschaft zur Feststellung der Verbreitung von Werbeträgern e.V. (IVW) unter www.ivw.de und hier insbesondere in einem Artikel über die "Messung der Werbeträgerleistung von Online-Medien" unter www.ivw.de/verfahren/caches.htm

4. www.ivw.de/verfahren

5. Janetzko, Dietmar: Surfer im Visier: Beobachten, Befragen, Belauschen - "Netizens" werden zum Lieblingsopfer von Markt- und Sozialforschern. S. 91 in: c`t Magazin für Computertechnik (1999), 20. S. 86-92.

6. Cookies sind Identifikations-Strings, die in eine Textdatei geschrieben werden.

7. Eine repräsentative Stichprobe von Haushalten (Panel) wird von der Gesellschaft für Kommunikationsforschung (GfK) mit einem Messgerät ausgestattet, das an den Fernsehapparat angeschlossen wird. Dieses Gerät misst die Mediennutzung und ermittelt durch eine spezielle Fernbedienung nach Drücken entsprechender Tasten auch die jeweilige Person, die das Medium gerade nutzt.

8. Jarchow, Christian: Werbeforschung im Internet. S.276 in: Theobald, Axel; Dreyer, Marcus; Starsetzki, Thomas [Hrsg.]: Online-Marktforschung : Theoretische Grundlagen und praktische Erfahrungen. - Wiesbaden: Gabler, 2001. - S. 276-289.

9. www.ivw.de

10. a.a.o.

11. Werner, Andreas: Kontaktmessung im WWW. S. 219 in: Online Research: Methoden, Anwendungen und Ergebnisse / hrsg. Von Bernard Batinic ... - Göttingen : Hogrefe, 1999. S. 213-225.

12. Bager, Jo; Becker, Jörg; Munz, Rudolf: Zentrallager: Data Warehouse - zentrale Sammelstelle für Informationen. S.290 in: c`t magazin für comptertechnik, 1997, 3. S. 284-293.

13. Zerr, Konrad: Online-Marktforschung - Erscheinungsformen und Nutzenpotenziale. S. 22 in: Theobald, Axel; Dreyer, Marcus; Starsetzki, Thomas [Hrsg.]: Online-Marktforschung: Theoretische Grundlagen und praktische Erfahrungen. - Wiesbaden: Gabler, 2001. - S.8-26.

14. Janetzko, Dietmar: Surfer im Visier: Beobachten, Befragen, Belauschen - "Netizens" werden zum Lieblingsopfer von Markt- und Sozialforschern. S. 88f in: c`t Magazin für Computertechnik (1999), 20. S. 86-92.

15. Gentsch, Peter, Roth, Michael, Faulhaber, Nina Johanna: Data Mining in der Online-Marktforschung - Auf dem Weg zu gläsernen Märkten und Kunden? S.350. in: Theobald, Axel; Dreyer, Marcus; Starsetzki, Thomas [Hrsg.]: Online-Marktforschung: Theoretische Grundlagen und praktische Erfahrungen. - Wiesbaden: Gabler, 2001. - S.359-367.

16. Gadeib, Andera: Ansprüche und Entwicklung eines Systems zur Befragung über das World Wide Web. S.103 in: Online Research: Methoden, Anwendungen und Ergebnisse / Hrsg. von Bernard Batinic - Göttingen: Hogrefe, 1999. S. 103-111.

17. Da die Anzahl der Statistik-Angebote zum Internet riesig ist, sollen hier nur exemplarisch einige der bekanntesten Anbieter hervorgehoben werden.

18. GfK steht für Gesellschaft für Kommunikationsforschung, die spezielle Gruppe nennt sich GfK Medienforschung

19. GfK-Pressemeldung vom 07.05.2001 s. www.gfk.de

20. Jupiter MMXI, OML s. www.jupitermmxI.com

21. Online Research: Methoden, Anwendungen und Ergebnisse / Hrsg. von Bernard Batinic - Göttingen: Hogrefe, 1999. S. 5

22. Eines der Standardwerke zu diesem Bereich soll hier Erwähnung finden: Döring, Nicola: Sozialpsychologie des Internets: Die Bedeutung des Internets für Kommunikationsprozesse, Identitäten, soziale Beziehungen und Gruppen. Göttingen: Hogrefe, 1999. 516 S.

23. Pepels, Werner: dtv-Lexikon der Marktforschung, 1997. S. 191.

24. Sogenannte reaktive Messeffekte sind alle Einflüsse, die - gewollt oder ungewollt - durch den Interviewer, Forscher o.ä. entstehen. Es ist seit langem experimentell nachgewiesen, dass beispielsweise Alter oder Geschlecht eines Interviewers die Ergebnisse beeinflussen können.

25. Log-file-Analysen können beispielsweise Interview-Aussagen verifzieren. Wenn alle Befragten angeben, ein System oder eine Software häufig genutzt zu haben, der Server-Logfile aber keinen entsprechend frequentierten Zugang verzeichnet, wird offenkundig, dass die Befragten in ihrer Einschätzung irren.

26. Dazu zählen also nicht nur Befragungen, die im Internet online auszufüllen sind, sondern auch Fragebögen zum Downloaden oder Fragebögen, die per E-Mail versandt werden. Dieser Begriff der Online-Befragung entspricht der Definition des ADM.

27. Möglichkeiten der Online-Marktforschung realistisch beurteilen. ADM-Pressemitteilung. www.adm-ev.de Pressemitteilung 7/2000.

28. Leider sind viele Personen offenbar der Ansicht, dass jeder einen Fragebogen erstellen kann und auch die Durchführung von Umfragen "einfach so" im Internet durchgeführt werden kann. Die Qualität kann in vielen Fällen nur als mangelhaft bezeichnet werden.

29. Das angegebene Papier kann als zweisprachige Broschüre über die Homepage des ADM bestellt werden. (www.adm-ev.de). Auf den Homepages der anderen Vereinigungen wird das Papier als Datei zum Download angeboten.

30. Gräf, Lorenz: Optimierung von WWW-Umfragen: Das Online Pretest-Studio. in: Online Research: Methoden, Anwendungen und Ergebnisse / Hrsg. von Bernard Batinic - Göttingen: Hogrefe, 1999. S. 159-177.

31. Hauptmanns, Peter; Lander, Bettina: Zur Problematik von Internet-Stichproben. S.31 in: Theobald, Axel; Dreyer, Marcus; Starsetzki, Thomas [Hrsg.]: Online-Marktforschung: Theoretische Grundlagen und praktische Erfahrungen. - Wiesbaden: Gabler, 2001. - S. 27-40.

32. Theobald, Axel: Das WWW als Befragungsinstrument. - Wiesbaden: Gabler, 2000. S.44.

33. Schnell, R.; Hill, P.B.; Esser, E.: Methoden der empirischen Sozialforschung. - 5. Auflage. - München: Oldenbourg, 1995. S. 259.

34. Hauptmanns, Peter: Grenzen und Chancen von quantitativen Befragungen mit Hilfe des Internets. S. 26 f in: Online Research: Methoden, Anwendungen und Ergebnisse / Hrsg. von Bernard Batinic - Göttingen: Hogrefe, 1999. S. 21-38.

35. Ausschöpfungsquote = 100% - Nonresponsequote

36. Hauptmann, Peter; Lander, Bettina: Zur Problematik von Internet-Stichproben. S. 38 in: Theobald, Axel; Dreyer, Marcus; Starsetzki, Thomas [Hrsg.]: Online-Marktforschung: Theoretische Grundlagen und praktische Erfahrungen. - Wiesbaden: Gabler, 2001. - S. 27-40.

37. Das Management Summary der genannten Studie ist unter www.skopos.de abrufbar.

38. Pressemitteilung Humboldt-Universität zu Berlin, Nr. 26/2000. http://www.hu-berlin/presse/pressemit/2000/pm26_2000.htm.

39. Janetzko, Dietmar: Statistisch gesehen in: c`t Magazin für Computertechnik, 2000, 16. S. 56.

Zur Autorin

Professor Dr. Simone Fühles-Ubach

Statistik, Organisation und Management von Informationseinrichtungen
Fachbereich Informationswissenschaft
Fachhochschule Köln
Claudiusstraße 1
D-50678 Köln
E-Mail: simone.fuehles_ubach@fh-koeln.de

Web-Statistik - Potenziale und Grenzen *

Web-Statistik - Potenziale und Grenzen ^*