Titelseite Flyer
Startseite Sponsoren/Partner Veranstalter
Data-Mining-Anwendertag Teilnehmer prudsys
Programm Jury TU Chemnitz
Jobbörse Preise Presse
Preisträger Auswertung Data-Mining-Cup 2001
Titelseite Flyer

Ablauf der Problembearbeitung

Korrekturen und Hinweise zur Wettbewerbsaufgabe

Informationen zur Abgabe der Ergebnisse

Schema Ablauf

Scenario

Ein Versandhändler wirbt neue Kunden, indem er ihnen einen Werbebrief (Mailing) schickt. Er besitzt Adressen von Personen, die noch nicht Kunde bei ihm sind. Um die Kosten des Mailings zu minimieren, möchte er mittels Data Mining die anzuschreibenden Adressen qualifizieren und nur eine Auswahl aller Adressen anschreiben.

Dazu führt er ein Testmailing mit 10.000 zufällig ausgewählten Adressen durch. Er speichert für jede angeschriebene Person, ob diese reagiert hat oder nicht. Ausgehend davon benutzt er den prudsys DISCOVERER 2000, um einen Klassifikator zu generieren, der die Adressen in Bezug auf die Reagiererwahrscheinlichkeit bewertet. Dieser wird auf die insgesamt 34.820 weiteren Adressen in der Datenbank angewendet.

Um den Gewinn durch das Mailing zu maximieren, benutzt er die bekannten Kosten und Gewinne des Mailings. Ein Anschreiben kostet im Durchschnitt 12,-- DM. Reagiert die angeschriebene Person, wird ein durchschnittlicher Gewinn von 185,-- DM erzielt.

Aufgabe

Folgende Data-Mining-Aufgabe ist zu bearbeiten. Anhand des Testmailings ist ein Klassifikator zu generieren, der auf die nicht angeschriebenen Kunden anzuwenden ist. Als Ergebnis ist:

  1. eine Liste der anzuschreibenden Kunden,
  2. eine sortierte Liste mit ID und Scorewert und
  3. die erzeugte Klassifikatordatei (Datei .cla) zu liefern

Als Software ist der prudsys DISCOVERER 2000 zu benutzen, so wie er im Rahmen des Wettbewerbs zur Verfügung gestellt wird.

Daten

Zwei Textdateien werden zur Verfügung gestellt:

  • Eine Datei enthält die Daten des Testmailings. Das Reagierverhalten ist im Merkmal RESPONSE gespeichert.
  • In einer anderen Datei stehen die Merkmale aller 34.820 bisher nicht angeschriebenen Kunden. Diese Daten sind zu qualifizieren.

Die Reaktion auf das Mailing ist für die 34.820 Kunden bekannt und wird nur im Rahmen des Wettbewerbs zurückgehalten. Die Bewertung der Güte der erzielten Ergebnisse erfolgt anhand dieser Reaktion.

Dabei wird der realisierte Gewinn auf der durch den Teilnehmer bestimmten Liste der anzuschreibenden Kunden (von den möglichen 34.820) unter oben angegebenen Kosten bestimmt.

Dank

Die im Rahmen des Wettbewerbs benutzen Daten wurden uns freundlicherweise von Mummert + Partner (http://www.mummert.de) zur Verfügung gestellt. Alle beschreibenden Merkmale wurden aus der mikrogeografischen Datenbank von pan-adress (http://www.pan-adress.de) genommen.

dmc2000@prudsys.com