Hallo zusammen,
ich habe mal wieder ein schönes kleines Problemchen zu lösen.
Täglich bekomme ich eine Liste mit Datensätzen in der folgenden Art:
YYYY/MM/DD-HH:mm:ss;Gruppierkriterium1;Gruppierkriterium2;Begriff1;Begriff2;Begriff3;Begriff4
Um diese Liste über einen längeren Zeitraum auswerten zu können wird diese Liste heute täglich aufaddiert und die doppelten Einträge werden per sort -u rausgeschmissen. Damit durch den Zeitstempel nicht alle Einträge eindeutig sind, wird dieser vorher per cut auch rausgeworfen, genauso wie die laufende Nummer.
Leider ist dieses Verfahren ziemlich blöd, denn der Zeitstempel wird benötigt. Die eigentliche Anforderung wäre: Täglich diese Liste an die Bestehende anhängen und dabei immer nur den neusten Eintrag behalten, wobei der Schlüssel aus Gruppierkriterium 1 und 2 besteht.
Beispielsweise:
2011/11/11-13:59:13;A;1;Begriff1;Begriff2;Begriff3;Begriff4
2011/11/11-13:59:26;A;2;Begriff1;Begriff2;Begriff3;Begriff4
2011/11/11-14:54:12;A;1;Begriff1;Begriff2;Begriff3;Begriff4
nach der Gruppierung soll es nur noch die letzten beiden Einträge geben, der Erste fällt raus, da der Dritte neuer ist.
Ich stehe leider völlig auf dem Schlauch, wo ich überhaupt anfangen könnte zu suchen wie sich das realisieren ließe. Eine Programmiersprache steht nicht zur Verfügung, nur die Shell. Die Liste lässt sich auch nicht anpassen. Könnt ihr mir helfen, welche Programme überhaupt dafür in Frage kämen und wie ihr da rangehen würdet.
Viele Dank!
Viele Grüße
romy
Piraten ahoi