Absolute Häufigkeit

Hallo zusammen,
ich habe folgende aufgabe bekommen und soll dazu halt ein programm schreiben:
Verarbeitung von log Dateien: statistische Auswertungen, Filtering. Die log Dateien enthalten zu jedem Request den Returncode (des Servers), die Größe der Response (in Byte), die Antwortzeit (in Millisekunden) sowie die Größe des Request (in Byte).

Für eine log Datei sind nun folgende Werte zu berechnen bzw. auszugeben:
1.Minimum, Maximum und Durchschnitt der Größen von Response und Request sowie der Antwortzeiten.
2.Eine Tabelle mit den absoluten Häufigkeiten der Returncodes.
3.Zudem sollen alle Requests ausgegeben werden, die einen von x verschiedenen Returncode haben.

Die Ausgabe soll in eine Datei erfolgen.

so eine Zeile davon sieht dann so aus:

Host-IP User Datum und Zeit Http Request 1 2 3 4
Method URL Version
------------------------------------------------------------------------------------------------------------------------------------------ xxx.xxx.xxx.xx xxx - [26/Nov/2007:07:59:32 +0100] „POST /xxx/xx/xxxxxxx-xxxx HTTP/1.1“ xxx xxx xxx xxx

1 = Returncode
2 = Response (byte)
3 = Time (ms)
4 = Request (byte)
so, jetzt hab ich eigentlich so ziemlich alles bis auf punkt 2, das mit der absoluten häufigkeit.

ich weiss ehrlich gesagt nicht so wirklich, wie ich das anstellen soll, hab natürlich auch schon im internet gesucht, aber nichts wirklich brauchbares gefunden.

also, wenn ich mir das mal so vorstell, muss da nachher eine Tabelle stehen, die wie folgt aussieht:

Returncode: Häufigkeit:
xxx | 2
xxxx | 5
xxxxxxx | 1

so ungefähr…
d.h. das programm muss sich die returncodes nehmen, gucken was das für einer ist (ihn quasie mit den anderen vergleichen) und zählen wie oft er vorkommt.

ich wüsst ja, wie ichs machen könnt, wenn es nur returncodes gebe die mir bekannt sind. dann würd ich die einfach durch if abfragen durchgehen. aber das is nicht der fall, also mir sind die verschiedenen returncodes nicht bekannt.

kann mir da vielleicht wieder jemand einen tip begeben?

Hallo
Returncode (des Servers)

Was bedeutet „Returncode“? HTTP Status Code?
Falls HTTP Status Code, dann gibt es eine begrenzte Anzahl:

http://www.w3.org/Protocols/rfc2616/rfc2616-sec10.html

Gruss
Patrick

Ja, schon. aber mein kollege meinte ich soll darauf net aufbauen, da da auch immer mal welche dazu kommen könnten, keine ahnung kenn mich da auch net so aus.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Auch hallo.

Eins vorweg: eine solche Aufgabe lässt sich mit einer Skriptsprache wie Perl leichter lösen als mit Java, da diese das Arbeiten mit Dateien und ‚Regex‘ standardmässig beherrscht.

Für eine log Datei sind nun folgende Werte zu berechnen bzw.
auszugeben:
1.Minimum, Maximum und Durchschnitt der Größen von Response
und Request sowie der Antwortzeiten.

Minimum (od. Maximum): relevante Werte in ein Array einlesen, Dummy Variable deklarieren und den ersten Wert des Felds zuweisen, if-Schleife definieren und vergleichen lassen ob Dummy > oder

vielen dank für die Antwort.
Mag sein, das man es anders besser lösen kann als in java, muss aber java benutzen.
hab das programm jetzt so einigermaßen fertig, nur die fehlerbehandlung muss ich noch machen, läuft halt nur im optimal fall.

[Bei dieser Antwort wurde das Vollzitat nachträglich automatisiert entfernt]

Java beherrscht auch Regexp
Java beherrscht auch Regexp