Logfile-Analyse
Logfile-Analysen sind Zugriffstatistiken, die Auskunft über die Nutzung eines Internet-Angebotes geben. Grundlage von Logfile-Analysen sind die Log-Dateien des Web-Servers, in denen alle Zugriffe protokolliert werden.
Jedes Log-Datei-Format enthält im wesentlichen dieselben Informationen. Sie sind lediglich in einer unterschiedlichen Reihenfolge gemäß einer der üblichen Standards angeordnet. Die vier wichtigsten Standards sind die Formate NCSA, W3SVC, Microsoft IIS3.0 und O'Reilly. Die meisten anderen Standards sind Variationen dieser Formate.
Eine Log-Datei beinhaltet meistens die folgenden Informationen:
- IP oder DNS -Adresse des zugreifenden Computers,
- Benutzername (bei passwortgeschützten Accounts),
- Zeitpunkt des Zugriffs,
- Kommando, das an den Server gestellt wird - meistens wird mit dem Befehl (GET) eine Datei angefordert,
- Dateiname und Pfadangabe,
- das benutzte Übertragungsprotokoll, z.B. HTTP 1.0,
- die Antwort des Servers, z.B. 200 (Übertragung erfolgreich), 404 (Datei nicht gefunden), 503 (Server überlastet),
- übertragene Byte,
- URL, die der Nutzer unmittelbar vor der aktuellen Abfrage besucht hat,
- Browser und Betriebssystem des Nutzers.
Auswertung
Log-File Statistiken sollten sorgfältig geprüft und vorsichtig interpretiert werden (vgl. Heindl, 2003). Die Hauptprobleme bei der Auswertung sind zum einen die Unterscheidung einzelner Nutzer und zum anderen unvollständige Daten auf Grund von Caching.
Es kann vorkommen, dass mehrere Nutzer unter der gleichen IP-Adresse auf das Angebot zugreifen und in den Log-Dateien als einzelner Nutzer gewertet werden. Gleichzeitig kann auch ein einzelner Nutzer auf Grund von dynamischer IP-Vergabe mehrfach gezählt werden. Das Cachen von Webseiten durch Browser oder Proxy-Server kann die Zugriffszahlen nach unten verfälschen.
Wenn man diese Einschränkungen bei der Auswertung berücksichtigt, können Logfile-Daten Kennzahlen für die Nutzung eines Internetangebotes liefern. Im folgenden Sind einige gängige Dimensionen zur Auswertung von Logfiles aufgeführt:
- Jede Zeile im der Logdatei des Web-Servers erzeugt einen so genannten Hit. Hits erfassen damit alle Dateien, die vom Server zum Client übertragen werden. Wenn in eine HTML-Seite beispielsweise Bilder eingebunden sind, erzeugen diese zusätzliche Hits. Sogar nicht gefundene Dateien werden als Hits gezählt. Für die Einschätzung des tatsächlichen Erfolgs einer Web-Seite sind Hits somit nicht geeignet. Sie können anhand der Hits jedoch zum Beispiel herauszufinden, wie sich der Gesamtverkehr (Traffic) auf der Website über bestimmte Zeiträume hinweg entwickelt.
- Pageviews (Page-Impressions, Seiten-Anfragen) messen die Anzahl von Aufrufen einzelner Webseiten eines Online-Angebotes. Sie können daran sehen, welche Bereiche die Nutzer besonders interessieren.
- Sessions (Visits, Besuche, Sitzungen) geben Auskunft über die Zugriffe auf das gesamte Webangebot. Per Konvention gilt eine Session als beendet, wenn 30 Minuten lang kein neuer Zugriff erfolgt. Die durchschnittliche Dauer einer Session können ebenso wie die pro Session erfolgten Seitenaufrufe Hinweise auf die Intensität der Nutzung geben.
- Die Zahl der Visitors (Besucher) zeigt, wie viele einzelne Besucher in einem definierten Zeitraum auf das Internetangebot zugegriffen haben. Aus der Anzahl der Mehrfach-Besucher und über die Sessions pro Besucher können Schlussfolgerungen gezogen werden, ob das Internetangebot für eine regelmäßige Nutzung attraktiv ist.
- Klickpfade zeigen den Weg einzelner Nutzer durch das Webangebot. Sie können Aufschluss darüber geben, wie die Nutzer mit der Navigation und Verlinkung innerhalb des Hypertextes umgehen. Seiten, auf denen besonders viele Nutzer das Internetangebot verlassen, können unter Umständen einer Überarbeitung bedürfen.
Technik
Es stehen diverse Produkte mit unterschiedlichem Funktionsumfang zur Verfügung, mit denen sich Log-Files auswerten lassen. Das Portal e-teaching.org verwendet zur Logfile-Auswertung das Produkt Sawmill.