Titelseite Flyer
Startseite Sponsoren/Partner Veranstalter
Data-Mining-Anwendertag Teilnehmer prudsys
Programm Jury TU Chemnitz
Jobbörse Preise Presse
Preisträger Auswertung Data-Mining-Cup 2001
Titelseite Flyer

Auswertung der Aufgabe des Data-Mining-Cup 2000

Die Daten

Wie in der Aufgabenstellung angegeben, wurden für den Wettbewerb Daten von Mummer + Partner bereitgestellt. Dabei handelte es sich um Kundendaten mit Response-Informationen auf zwei verschiedene Mailings. Die Datensätze bestanden aus mikrogeografischen Merkmalen von pan-adress sowie weiteren Kundenmerkmalen. Diese Daten lagen als Textdatei vor, welche aus einer Datenbank exportiert wurde.

Aufbereitung

Durch PRUDENTIAL SYSTEMS wurde ein ID-Merkmal hinzugefügt. 10.000 Datensätze sind zum Lernen zufällig ausgewählt und von den verbleibenden 34.820 ist die Zielgrösse verdeckt worden. Für den Cup fand eine der beiden möglichen Zielgrössen Verwendung. Diese bedeutet eine positive Response auf ca. 5% der Datensätze. In den beim Cup bereitgestellten Daten sind nur die mikrogeografischen Merkmale enthalten. Das Kriterium des Wettbewerbs war eine Gewinnmaximierung bei den zurückgehaltenen 34.820 Datensätzen unter den angegebenen Kosten.

Problem

In den Originaldaten sind von den 44.820 Datensätzen nur 38.890 voneinander verschieden, in den Wettbewerbsdaten durch die Projektion sogar noch weniger. Bei identischen Datensätzen ist auch die Zielgrösse (bis auf eine Ausnahme) identisch. Duplikate existieren für beide Ausprägungen der Zielgrösse Response. In der Aufgabe des Data-Mining-Cup 2000 waren somit 5.947 Datensätze der 34.820 vorherzusagenden bereits in der Lerndaten enthalten. Unabhängig von der nicht bekannten tatsächlichen Response wäre dieser Sachverhalt jedoch aus den bekannten Lerndaten ableitbar gewesen.

Mögliche Ursachen

Das Vorhandensein von Duplikaten könnte zurückgeführt werden auf: Projektionen der Daten, Vervielfachung beim Erzeugen der Tabelle als Join in einer relationalen Datenbank oder Mehrfacheintragung in der Ursprungsdatenbasis.

Auswirkungen

Beim Feststellen oben beschriebener Probleme ist im realen Data-Mining-Prozess natürlich eine Rückkopplung zum Bereitsteller der Daten erforderlich und eine Korrektur der Daten und eventuell des Data-Mining-Zieles vorzunehmen.

Für die Lösung der Wettbewerbsaufgabe durch die Teilnehmer war eine solche enge Zusammenarbeit mit dem Bereitsteller der Daten nicht gegeben, so dass unabhängig von der realen Verwertbarkeit der erstellten Modelle die angegebenen Gewinnkriterien gelten. Zusätzlich wird eingeräumt, dass eine derartige Schwierigkeit für einen Teilnehmer unerwartet war. Aus den eingereichten Ergebnissen ist zu erkennen, dass durch keinen Teilnehmer die Anomalie bewusst erkannt wurde, obwohl diese, wie bereits erwähnt, aus den bereitgestellten Wettbewerbsdaten selbst folgt.

Mit Vermutung und Identifikation der Anomalie in den Wettbewerbsdaten lässt sich im Sinne des zu maximierenden Zielfunktionals natürlich ein deutlich besseres Ergebnis ableiten. Es war anzunehmen, dass durch die Wiedererkennung von identischen Daten in der zu klassifizierenden Menge bereits ein hoher Wert erreicht wird. Tatsächlich zeigte sich, dass ein relativ "einfaches" (d.h. kompliziertes, overfittendes) Modell die Wettbewerbsaufgabe gut löst. Nach der Auswertung aller eingereichten offiziellen und ausser Konkurrenz erstellten Modelle an den unter Verschluss gehaltenen Response-Angaben der 38.420 Datensätze zeigte sich der Erfolg dieser Herangehensweise:

ModellErgebnis nach Wettbewerbskriterium in DM
Orakel (vollständiges Wissen)372.035
prudsys84.995
1. Platz67.038
2. Platz64.105
3. Platz62.457
4. Platz61.787
5. Platz58.536
6. Platz52.955
7. Platz51.846

Im Vergleich hier das theoretische Ergebnis bei korrekter Vorhersage aller Responder (Orakel) und die Ergebnisse der 7 besten Teilnehmer. Bei dem Modell von prudsys sind mehr als 78.000 DM allein durch Wiedererkennung erzeugt worden. Wenn jetzt noch die Generalisierungsfähigkeit des Modells verbessert wird, kann der Wert auf den tatsächlich unbekannten Daten leicht auf mindestens 25.000 DM erhöht werden. Im Sinne der Wettbewerbskriterien sind damit durchaus mehr als 100.000 DM möglich.

dmc2000@prudsys.com