donderdag 21 mei 2009

Foutje in Technet Webcast Data Mining

Het is een oude webcast maar kan goed gebruikt worden om toch vaak gemaakte fout met Data Mining aan het licht te brengen.

Webcast: Introduction to Data Mining with SQL Server 2005

Op een gegeven moment wordt in de demo een Report aangemaakt met behulp van een DMX query tegen het CustomerTarget Decision Tree mining model. Als je goed kijkt naar het resultaat zie je dat predictprobability functie overal dezelfde percentages weergeeft. De presentator praat er gewoon overheen door te zeggen dat de getoonde percentage allemaal boven de waarde ligt van de where clause in de query...

Dit is echter niet goed, normaal gesproken zou je verschillende percentage uit een perdictprobability function moeten krijgen.

Wat is nu de oorzaak?

In het data mining model voor de decision tree is het veld AGE geselecteerd. Als je nu de tree displayed dan is dit veld het eerste veld waarop de nodes gaan splitsen. In het dataset dat gebruikt wordt om het rapport te maken zit echter geen AGE object. Het model kan de data dus niet volledig door het DT model laten gaan en komt dus op ongeveer een 50/50 voorspelling uit.

Gebruik je het Naive Bayens model dan zie je wel verschillende waarde, dit model ignored echter het AGE object omdat het hier niet mee kan werken.

De oplossing voor als je dit zelf in een demo wilt tonen is het AGE object niet mee te nemen in het data mining model. Een andere oplossing is de AGE via een named calculation in de DSV toe te voegen:

Wil je zelf de demo een keer proberen? Je kan een PDF hier downloaden met de stappen van de demo.

Geen opmerkingen: