Statistiek voor Managers Een 10-stappen plan voor Managers Ir. Paul P.J. Durlinger 10-10-2012 / WP.06.2012 0 Inleiding Statistiek is een woord dat bij velen onder u gemengde gevoelens zal oproepen. Toch denk ik dat het management iets moet weten van statistiek. Statistiek bestudeert immers alles wat te maken heeft met onzekerheid, en juist onzekerheid maakt logistiek complex. Daarbij zijn veel managementbeslissingen impliciet gebaseerd op statistische overwegingen. Zoals het bepalen van veiligheidsvoorraden, het afgeven van levertijden, het vaststellen van budgetten, het maken van investeringsbeslissingen en veel kwaliteitsgerelateerde zaken. Het is in dit paper niet de bedoeling om de manager op te leiden tot volleerd statisticus. Verre van dat maar ik leg wel een aantal eenvoudige, direct toepasbare principes uit. Ik kijk naar het gemiddelde en de standaardafwijking. Ik leg de normale verdeling met zijn toepassingen uit en ik leer de lezer om te gaan met “uitschieters”. Tenslotte behandel ik de regressieanalyse. En niet onbelangrijk, ik probeer het aantal formules te minimaliseren. 1. Datarepresentatie Stel u bent de producent van Quispels, een niet onbelangrijk product in het realiseren van fantasie-objecten in sprookjesparken. Er zijn een aantal types, die uit voorraad geleverd worden, waaronder Q-A. Verder zijn er een aantal specifieke types, die alleen op order gemaakt worden. Type Q-S1 valt hier onder. Type Q-A wordt elke week gemaakt en op vrijdag week X moet men bepalen hoeveel stuks Q-A men in week X+1 moet maken. Deze zijn dan beschikbaar op maandagmorgen week X+2. Het is dus zaak om te weten wat de verwachte vraag zal zijn in week X+2. Type Q-S1 wordt op order gemaakt. De klanten vragen altijd om een levertijd en tot nu toe geeft men 4 weken af. Niet omdat men dit goed berekend heeft, maar meer omdat dit een levertijd is die heel vaak gehaald wordt. Nu vraagt men zich af of dat niet beter kan. In dit paper kijken we hoe Statistiek kan helpen bij het oplossen van deze vraagstukken. Als eerste kijken we naar het probleem Q-A. Uw salesmanager zegt dat de gemiddelde afzet van product Q-A, 80 stuks per week is. Op dat ogenblik moet de wedervraag zijn: “Hoe kom je daar aan?”. Dat klinkt flauw maar is het niet. Heeft hij gekeken naar de afzet van de laatste 2 weken of 4 weken of 25 weken. Of heeft hij maandcijfers gedeeld door 4 (of 4.2), of heeft hij dagcijfers geaggregeerd naar weken? Dit alles heeft te maken met het vaststellen van de steekproefgrootte. Dit probleem bespreek ik later in paragraaf 6. En wat betekent 80 nou? Dat de vraag de volgende weken ook 80 zal zijn? Tijd voor een nadere analyse. Uit de computer worden de verkoopcijfers gehaald van de laatste 50 weken (in week 51 en 52 worden geen Quispels gemaakt en gevraagd) en weergegeven in tabel 1 89 85 82 77 82 68 64 81 90 88 92 79 86 83 79 74 77 71 81 79 76 96 90 73 94 65 80 87 80 82 77 70 71 78 66 83 85 72 81 78 Tabel 1 Afzetgegevens Quispels Statistiek voor Managers 2 75 80 62 81 74 87 80 78 75 72 Wat leren we uit tabel 1? Eigenlijk niet veel, maar als we deze gegevens importeren in Exel kunnen we wel eenvoudig het gemiddelde berekenen. Binnen de statistiek gebruiken we de Griekse letter μ (mu) voor het gemiddelde. Dat blijkt 79,1 te zijn, dus de schatting van de salesmanager was correct. Maar verder is het allemaal een beetje chaotisch. Daarom rangschikken we deze gegevens van laag naar hoog. De resultaten vinden we in tabel 2 62 73 78 81 86 64 74 78 81 87 65 74 79 81 87 66 75 79 82 88 68 75 79 82 89 70 76 80 82 90 71 77 80 83 90 71 77 80 83 92 72 77 80 85 94 72 78 81 85 96 Tabel 2 Afzet gegevens Quispels geordend op groote Nu kunnen we al wat meer zien. De waarden liggen tussen 62 en 96. Dit geeft ons meteen de range. De range is het verschil tussen de hoogste en de laagste waarde en is in dit geval 34. Maar we kunnen nog twee dingen eenvoudig afleiden. De eerste is de mediaan. De mediaan is ook een soort gemiddelde. Links en rechts van de mediaan liggen evenveel waarnemingen. Nou is dat met onze 50 (een even aantal) waarnemingen wat moeilijk, maar dan zeggen we dat de mediaan tussen de 25e en 26e waarneming ligt. In ons geval tussen 79 en 80. En dat is ongeveer gelijk aan het gemiddelde van 79,1. Dat betekent dus dat de helft van de weken de vraag groter was dan het gemiddelde en de helft lager. Maar wat zegt dat nu over de vraag van de komende week? Om daar wat meer inzicht in te krijgen maken we een frequentiediagram. We geven dit diagram weer in figuur 1. 6 4 2 0 62 64 66 68 70 72 74 76 78 80 82 84 86 88 90 92 94 96 Frequentie Histogram Afzet Figuur 1 Frequentiediagram oorspronkelijke gegevens We zien dat de meeste waarden rond de 80 zitten, maar echte uitschieters zitten er niet in. We hebben hoogstwaarschijnlijk te weinig waarnemingen om echt een duidelijke verdeling te zien. Omdat we maar 50 waarnemingen hebben gaan we clusteren in klassen en kijken hoeveel waarnemingen we per categorie zien. Het bepalen van aantal klassen of de klassenbreedte is enigszins subjectief maar bij 50 waarnemingen zijn 7 of 8 klassen redelijk. Wij hebben als klassenbreedte 5 gekozen waardoor we 8 klassen hebben. Het resultaat zien we in tabel 3 Statistiek voor Managers 3 Frequentie 60-64 2 65-69 3 70-74 8 75-79 12 80-84 13 85-89 7 90-94 4 95-99 1 Tabel 3 Klassenindeling met klassenbreedte 5 Wanneer we opnieuw een frequentiediagram tekenen ziet die er als in figuur 2 Frequentiediagram 14 Frequentie 12 10 8 6 4 2 0 60-64 65-69 70-74 74-79 80-84 85-89 90-94 95-99 Afzet Figuur 2 Frequentiediagram van klassen Figuur 2 geeft een duidelijker beeld van de verdeling van de afzet gedurende de laatste 50 weken. Een andere mogelijkheid zou zijn geweest om de data af te zetten tegen de tijd om te zien of er een bepaald verloop in zit. We geven dit weer in figuur 3. Afzet in de tijd 100 Afzet 90 80 70 60 50 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 weken Figuur 3 Statistiek voor Managers Afzet in de tijd 4 Ik raad de lezer aan om altijd een grafische weergave te vragen van gegevens. Dit geeft een veel duidelijker beeld dan de “gewone” cijfers. Vooral het frequentiediagram geeft ons een goed eerste beeld over de verdeling van bijvoorbeeld de afzet. Daarmee krijgt men ook een beeld hoe groot de vraag in de toekomst zal zijn als we niet te maken met een trend. De verdeling hangt af van twee parameters, gemiddelde en spreiding die we in de volgende paragrafen bekijken. 2. Gemiddelde In onderstaande tabel 4 laten we twee reeksen A en B zien. A B 7 6 7 7 10 9 11 14 15 14 Tabel 4 Voorbeeldreeksen A en B Het rekenkundig gemiddelde (μ) van reeks A en B is in beide gevallen 10, maar de mediaan van beide reeksen is verschillend. De mediaan was het getal die de reeks in twee gelijke delen opsplitste. De helft was groter en de helft was kleiner. De mediaan is in ons voorbeeld het derde getal. Voor reeks A is dat 10 en voor reeks B is dat 9. Dan kennen we nog een derde soort gemiddelde en dat is de modus. Dat is het getal dat het meeste voorkomt. Voor reeks A is dat het getal 7 en voor reeks B is dat het getal 14. We komen op de toepassingen later terug. Een interessante vraag is: Welke van de twee reeksen is het meest onregelmatig of vertoont de meeste spreiding? 3. Spreiding Vraag is welke van beide reeksen (A of B) de grootste spreiding vertoont. Een van de maten van spreiding is de range, die in de vorige paragraaf behandeld is. Dit is het verschil tussen de grootste en de kleinste waarde van de reeks De range voor beide reeksen is 8 dus dit geeft geen uitsluitsel. Echter de range is geen echt goede indicator voor spreiding omdat hij erg gevoelig is voor extrema. Wanneer we over spreiding praten hebben we het eigenlijk over de spreiding t.o.v. het gemiddelde. Ik heb dat voor beide reeksen bepaald in tabel 5 en vervolgens heb ik de afwijkingen gesommeerd en gemiddeld. Deze grootheid heet de Gemiddelde Fout (GF) A : μ=10 Afwijking B : μ=10 Afwijking 7 7 -3 6 10 -3 7 -4 11 0 9 -3 15 1 14 -1 5 14 4 4 Tabel 5 Berekening Gemiddelde fout Statistiek voor Managers 5 SOM 0 SOM 0 GF 0 GF 0 We zien nu dat de som van de afwijkingen in beide gevallen 0 is. Helaas is dat altijd zo als we de spreiding op deze manier berekenen. De plussen en minnen heffen elkaar op. De gemiddelde afwijking zegt daarom niet veel. In praktijk zien we toch echter dat mensen op deze manier vaak een gemiddelde voorspelfout berekenen. Dit kan leiden tot verkeerde conclusies. Omdat plussen en minnen elkaar opheffen. Dus ook de GF geeft geen uitsluitsel voor de onregelmaat van de reeks. Omdat we alleen geïnteresseerd zijn in een afwijking t.o.v. het gemiddelde en minder of deze nu plus of min is kunnen we ook kijken naar de Absolute Afwijking, of nog beter naar de Gemiddelde Absolute Afwijking (GAA). Deze is berekend in tabel 6 A : μ=10 Abs Afwijking B : μ=10 Abs Afwijking 7 3 6 4 7 3 7 3 10 0 9 1 11 1 14 4 15 5 14 4 SOM 12 SOM 16 GAA 2,4 GAA 3.3 Tabel 6 Berekening Gemiddelde Absolute Afwijking De Engelse benaming voor Gemiddelde Absolute Afwijking is Mean Absolute Deviation, ook wel MAD geheten. Op basis van deze grootheid is reeks A regelmatiger. Een andere methode om plussen en minnen kwijt te raken is de afwijkingen te kwadrateren. Vervolgens bepalen we het gemiddelde van de kwadratische afwijkingen (GKA). Zie Tabel 7 A : μ=10 Afwijking2 B : μ=10 Afwijking2 7 32 6 42 7 32 7 32 10 02 9 12 11 12 14 42 15 52 14 42 SOM 44 SOM 58 GKA 8,8 GKA 11,6 Tabel 7 Bepaling Gemiddelde Kwadratische Afwijking of Variantie De statistische benaming voor GKA is variantie en wordt geschreven als σ2 (sigma-kwadraat). Nu is de variantie uitgedrukt in een “vreemde” eenheid. Wanneer de eenheid van reeks A “stuks” zou zijn, is de eenheid van de variantie stuks2. Dit is voor de meesten onder ons, inclusief de auteur, niet goed voor te stellen. We gebruiken daarom als parameter de wortel uit de variantie die we standaardafwijking of standaarddeviatie noemen. Deze duiden we aan als σ (√σ2 = sigma). In formule vorm (nou ja een formule kan wel) is dat: N (x Statistiek voor Managers i 1 i )2 N 6 Onder het wortelteken staat de variantie. Wanneer we de standaardafwijking voor reeks A uitrekenen vinden we 3 en voor reeks B vinden we 3.4. Op basis van de standaardafwijking kunnen we concluderen dat reeks A onregelmatiger is. Ik heb nog een voorbeeld waarbij ik een andere reeks neem. Voor deze reeks heb ik de belangrijke parameters uitgerekend en in onderstaande tabel 8 gezet. σ2 16.8 11.6 Μ 20 10 Reeks A Reeks B σ 4,1 3,4 Tabel 8 Vergelijking tussen twee reeksen op basis van μ, σ en σ2 Wat is nu de meest regelmatige reeks? U zou opnieuw verwachten dat dit reeks B is; de σ van reeks B is immers kleiner dan die van reeks A. Echter het gemiddelde van reeks A is ook anders dan die van B. Bij reeks A zien we dat σ = 4.1 bij een gemiddelde van 20. Bij reeks B vinden we σ=3.3 bij een gemiddelde van 10. Relatief is reeks A dus regelmatiger! Een maat die deze relatie tussen gemiddelde en standaardafwijking meeneemt is de zogenaamde variatie-coefficient VC en die we definieren als VC Hoe kleiner VC des te regelmatiger de reeks. We zien nu dat VCA = 4.1/20=0,205 en VCB = 3.3/10=0.33. Reeks A is dus regelmatiger. We hebben de standaardafwijking voor de 50 afzetgegevens berekend en deze blijkt 7.67 stuks/week te zijn. Wat dat concreet betekend gaan we in de volgende paragraaf zien. 4. De normale verdeling Terug naar de basisvraag. De gemiddelde afzet was 80 stuks/week (om precies te zijn 79,1) stuks en de standaardafwijking is 7.67 stuks/week. Uit de vraag van de laatste 50 weken konden we een verdeling construeren als in figuur 2. Wat betekent dat nou voor de volgende week? Is de vraag dan ook weer 80? Of kan hij ook 100 zijn en wat is dan de kans daarop? We kunnen natuurlijk uitgaan van de ruwe data en daar schattingen uit afleiden maar het zou mooier zijn als we wat systematischer te werk konden gaan. Wanneer we naar figuur 2 kijken zien we dat e vraag een bepaalde verdeling volgt. Een dergelijke verdeling noemen we een normale verdeling en deze geef ik weer in figuur 4. 60 70 80 Figuur 4 Statistiek voor Managers 90 100 Normale verdeling 7 De normale verdeling is een mooie, symmetrische verdeling. Dat wil zeggen dat gemiddelde en modus en mediaan hetzelfde zijn. En verder dat de linkerhelft en de rechterhelft identiek zijn (maar wel gespiegeld). Op de X-as staan de “mogelijke” afzetten (of andere grootheden) en op de verticale as staat een soort frequentie. Ik zeg met name soort omdat uit de hoogte niet direct af te leiden is hoe vaak een bepaalde waarde voorkomt. De figuur is een kansverdeling en de som van de kansen dat er een bepaalde afzet optreedt, is gelijk aan 100% (of 1). De kans dat een waarde optreedt die groter (of kleiner) is dan het gemiddelde is 50% (0.5). De vorm van de kromme wordt bepaald door de standaardafwijking. Een grote standaardafwijking maakt dat de krommem wat “platter” is maar minder hoog. Een kleine standaardafwijking maakt dat de kromme wat hoger is maar minder plat. Zie figuur 5 Figuur 5 Een aantal normale verdelingen Het oppervlakte onder de kromme blijft immers 100%! Links staat een normale verdeling met een kleine standaardafwijking, rechts een met een grote standaardafwijking. Deze grafiek kunnen we nu gaan gebruiken om te bepalen wat de kans is dat de afzet groter of kleiner is dan een bepaalde waarde. Bijvoorbeeld: wat is de kans dat de afzet groter is dan 100? In onze grafiek komt dat overeen met het gearceerde vlak in figuur 6 60 Figuur 6 70 80 90 100 Kans dat de afzet groter is dan 100 We kunnen dat helaas niet rechtstreeks afleiden maar moeten gebruik maken van een omleiding via een tabel. In de appendix treft de lezer een dergelijke tabel aan. In onderstaande tabel staat een klein stukje van deze tabel Statistiek voor Managers 8 Z 0,0 0,1 0,2 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0.500 0.504 0,508 0,512 0,516 0,5199 0,5239 0,5279 0,5319 0,5359 0.54 0,5438 0,578 0,5517 0,5557 0,5596 0,5636 0,5675 0,5714 0,5753 0,5793 0,5832 0,5478 0,5910 0,5948 0,5987 0,6026 0,6864 0,6103 0,6141 Tabel 7 Deel van een normale verdelingtabel Wanneer we naar de tabel kijken zien we boven en links waarden staan voor een parameter”z”. Van boven naar beneden loopt deze in stapjes van 0.1 van een waarde van 0.0 tot 3.0. Op de horizontale as worden de stapjes nog eens onderverdeeld in stapjes van 0.01. De getallen in de tabel zelf zijn kansen. Deze lopen van 0.5 linksboven tot 0.990 rechtsonder De waarde die bij z=0 hoort is 0,5. Bij een z-waarde van 0,16 hoort blijkbaar een kans van 0.5596. Maar wat betekent dat voor de praktijk? Wat is de betekenis van “z”? De parameter z heeft te maken met de standaardafwijking. We kunnen z definiëren als: Het aantal standaardafwijkingen dat een bepaald punt x op de X-as verwijderd is van het gemiddelde (μ) In ons Quispel-voorbeeld was het gemiddelde 80 en de standaardafwijking afgerond 8 (eigenlijk 7.67). We wilden weten wat de kans is dat de volgende week de afzet groter is dan 100. De waarde 100 ligt 20 eenheden of 2.5 standaard afwijking van het gemiddelde. Dus z is in dit geval 2.5. In formule vorm z x gemiddelde( ) in ons voorbeeld s tan daardafwijking( ) z 100 80 2,5 8 Bij z=2.5 vinden we in de tabel een kans van 0,9938 oftewel 99,38%. Dat wil voor deze tabel zeggen dat de kans dat de afzet kleiner is da 100 gelijk is aan 99.38%. Dus de kans dat de vraag groter is dan 100 is gelijk aan 100%-99.38%=0.68%. Elke normale verdelingstabel werkt een beetje anders; daarom staat boven de tabel een tekening die aangeeft welke kans bedoelt wordt. Voor deze tabel is dat het gearceerde deel van de grafiek. Dus de kans dat iets kleiner is! De formule voor het bepalen van z geldt voor elke willekeurige normale verdeling. Dus als we van een normale verdeling het gemiddelde (µ) en standaardafwijking (σ) kennen, kunnen we voor elke willekeurige x bepalen wat de kans is dat iets groter (of kleiner) dan x is. De hoogste waarde voor z in onze tabel is 3.09 met een bijbehorende kans van 99,9%. Dat wil zeggen dat de kans, dat een waarde optreedt die groter is dan µ+3,09xσ gelijk is aan 0,1%. In ons voorbeeld; de kans dat de vraag groter is dan 125 (80 + 8x3,09) is gelijk aan 0,1%. Oftewel verwaarloosbaar klein. We kunnen praktisch stellen dat bij een normale verdeling alle waarnemingen zullen liggen tussen µ-3,09xσ en µ+3,09xσ. Uit de tabel kunnen we afleiden dat 95% van de waarden zal liggen tussen µ-2xσ en µ+2xσ en 99% tussen µ-3xσ en µ+3xσ (de term Six-Sigma krijgt nu ongetwijfeld meer betekenis). Ik geef dit weer in figuur 7. Statistiek voor Managers 9 Figuur 7 5. Normale verdeling met betrouwbaarheidsintervallen Andere verdelingen Er zijn natuurlijk ook andere verdelingen in het universum. In onderstaande figuur 8 geef ik er nog twee. Uniforme verdeling expoenetiele verdeling 6 16 14 5 Frequentie Frequentie 12 10 8 6 4 4 3 2 1 2 0 0 1 2 3 4 5 6 7 8 9 1 10 3 4 5 6 Waarde Waarde Figuur 8 2 Exponentiële en Uniforme verdeling De linker verdeling is een zogenaamde (negatief) exponentiële verdeling. Hij is een beetje scheef. Bij deze verdeling liggen modus en mediaan links van het gemiddelde. Deze verdeling gebruikt men vaak in de wachttijdtheorie. De tijd tussen twee aankomsten van klanten bij een loket, de afstand tussen twee auto’s op een drukke weg of de duur van telefoongesprekken volgen deze verdeling. De rechter verdeling is een uniforme verdeling. De uitkomsten, als u gooit met één dobbelsteen volgen deze verdeling. In principe gaan alle berekeningen op een analoge manier als bij de normale verdeling, alleen moet men andere tabellen gebruiken. Zaak is wel dat u van te voren kijkt of u wel met een normale verdeling te maken hebt. Dat kan door een frequentiediagram (zoals in fig. 2) te maken en vervolgens te kijken of hij een beetje lijkt op Statistiek voor Managers 10 een normale verdeling (of een andere verdeling). In geval van twijfel kan een statisticus met de Chi-kwadraat toets bepalen of hij (de verdeling) statistisch wel genoeg lijkt op iets bekends. Het is maar dat u het weet. 6. Steekproefgrootte of het mysterie van de groene dwerg. In de vorige paragrafen heb ik een aantal algemene uitspraken gedaan op basis van onze 50 waarnemingen. Maar mag dat eigenlijk wel? Had ik niet meer waarden moeten meenemen of waren minder dan 50 ook genoeg geweest om die uitspraken over gemiddelde en standaardafwijking te doen? Ik neem mijn toevlucht tot een gedachte-experiment. Ik kan me voorstellen dat na het lezen van al deze bladzijden de lezer nu en dan opkijkt van het papier. En ik kan me ook heel goed voorstellen dat hij/zij dan plotseling een groen dwergje meent te zien dat ca 25 cm groot is. Troost u met de gedachte dat dit in IJsland de gewoonste zaak van de wereld is. De prangende vraag is nu natuurlijk: “hoe groot zijn groene dwergjes gemiddeld?”. Ik stel voor dat u even nadenkt over deze vraag. Het enige logische antwoord is 25 cm, u heeft immers geen andere informatie (tenzij u heel vaak in IJsland heeft vertoefd). Zou de populatie van groene dwergjes immers gemiddeld 10 cm lang zijn dan had u te maken met een reuze-dwerg. Zou de lengte gemiddeld 50 cm zijn dan had u te maken met een mini-dwerg. Een van beide situaties zou wel heel toevallig zijn. Vervolgens ziet u nog twee dwergen verschijnen. Een van 20 en een van 27.5 cm. Dit zal uw eerste vermoeden over de lengte bevestigen. Als later nog een tiental soortgelijke dwergen binnen komen kunt u een goede schatting maken. Zeker wanneer er even later nog een buslading groene dwergen binnenstroomt. U weet genoeg om u een goed beeld te vormen van de gemiddelde lengte van de groene dwerg. Ik sluit hierbij de mogelijkheid van een busreis naar een reuze-dwerg conventie uit. Iets soortgelijks zien we in de statistiek. Op basis van een steekproef probeert men wat te zeggen over de populatie. Wanneer u slechts een paar waarnemingen heeft is het moeilijk iets algemeens te zeggen. Maar wanneer u een redelijk aantal waarnemingen heeft zullen meer waarnemingen niets substantieels toevoegen. U zult hooguit wat zekerder worden van uw zaak. Er is veel onderzoek gedaan naar steekproefgrootte maar een algemene consensus lijkt te zijn dat er toch minstens 30 waarnemingen nodig zijn om iets zinnigs te zeggen. Heeft u minder data moet u voorzichtig zijn of de hulp van een statisticus inroepen 7. De uitschieter Wederom terug naar ons oorspronkelijke Quispel-probleem. De sales manager komt maandagochtend blij binnen op de MT-meeting en zegt dat afgelopen week 120 stuks verkocht zijn. De markt trekt blijkbaar aan zegt hij. Maar is dat ook zo? Uitgaande van de normale verdeling die we gevonden hadden met een gemiddelde van 80 en een standaardafwijking van 8 zou een afzet van 120 wel heel toevallig zijn. Voordat er meer gegevens bekend zijn moet men heel voorzichtig zijn met een dergelijke verdachte waarde. Zeker wanneer een week later de afzet weer 80 of 90 zou zijn. Het is beter om een dergelijke heel toevallige waarde niet mee Statistiek voor Managers 11 te nemen in parameterberekeningen. Dit verwijderen van “ongewenste” waarden noemen we uitschietercorrectie. Heel gebruikelijk is het om waarden die groter zijn dan µ+2,5σ of kleiner dan µ-2,5σ te verwijderen. De kans dat deze waarden optreden is iets meer dan 1%. In ons voorbeeld zijn dat de waarden, die groter zijn dan 100 (80+2.5x8) of kleiner dan 60 (80-2.5x8). Wanneer we nog eens kijken naar onze waarnemingen zien we dat alle waarnemingen binnen de grenzen vallen. 8. De regressieanalyse Een statistische analyse die vaak gebruikt (of misbruikt) wordt is de zogenaamde “regressieanalyse”. Deze analyse probeert een verband te leggen tussen twee variabelen: bijvoorbeeld tussen lengte en gewicht van mannen, de ijsverkoop en buitentemperatuur of tussen reclamebudget en verkopen. Als voorbeeld gebruiken we ons gedachten-experiment en kijken we of er een verband bestaat tussen de lengte en het gewicht van mannelijke groene dwergen. In onderstaande figuur 9 geven we de data van 25 dwergen weer. Gewicht (kg) relatie Lengte-Gewicht 70 65 60 55 50 45 40 35 30 25 20 19 21 23 25 27 29 31 Lengte (cm) Figuur 9 Relatie Lengte en gewicht De vraag die we willen beantwoorden is: Wat is het (gemiddelde) gewicht van een dwerg van 22,5 cm? Om dit te bepalen moeten we kijken of er überhaupt een verband is tussen lengte en gewicht van groen dwergen. Kijkend naar figuur 9 lijkt het aannemelijk dat ook voor groene dwergen geldt:”Hoe langer de dwerg hoe zwaarder”. Maar hoe ziet dat verband er uit? Een mogelijkheid is om een lijn te trekken door de puntenwolk die het “beste” past. Als ik een aantal lezers vraag zo’n lijn te trekken zou ik zeker een aantal verschillende lijnen krijgen. Regressieanalyse software bepaalt deze lijn op basis van de afstand van de punten tot de lijn. De lijn met de (totale) minimale afstand tot de punten is de beste. Dit is precies wat u intuïtief probeerde te doen wanneer u een lijn door de puntenwolk moet trekken. Het is duidelijk dat er altijd een lijn te trekken valt maar de vraag is natuurlijk:”Hoe goed is deze lijn?”. De grootheid die dit aangeeft is de correlatie coëfficiënt, weergegeven door de letter “r”. Deze r wordt bij elke regressieanalyse berekend. De waarde van r ligt tussen 1 en 0 (of tussen -1 en 0). Een r van 1 is een perfecte fit. Bijvoorbeeld het verband tussen de straal en de omtrek van een cirkel. Alle punten zullen dan op één lijn liggen. Een r-waarde van 0 wil zeggen dat er geen enkel Statistiek voor Managers 12 verband is. En een r van 0.7 zal er tussen in liggen. In figuur 10 geef ik een voorbeeld van zulke “punten-wolken”. Puntenwolk r=0,7 Puntenwolk r=0 100 100 90 90 80 80 70 70 60 60 50 50 40 40 30 30 20 20 10 10 0 0 0 10 20 0 30 Figuur 10 10 20 30 Puntenwolken met r=0 en r=7 Beide extrema zullen in praktijk nooit voorkomen. Om echter een sterk verband te mogen veronderstellen moet de r minstens een waarde van 0.8 hebben. Daarbij laat ik in het midden of het verband een causaal verband is. We hebben een regressieanalyse voor ons dwergprobleem uitgevoerd en vinden als regressielijn Y=2,125X – 1,68 en de waarde van r is 0,825. Zie figuur 11. Gewicht (kg) relatie Lengte-Gewicht y = 2,125x - 1,6811 R = 0,825 70 65 60 55 50 45 40 35 30 25 20 19 21 23 25 27 29 31 Lengte (cm) Figuur 11 Regressielijn en correlatiecoëfficiënt Dus we mogen spreken van een sterk verband. Volgende vraag is hoe goed dat verband is. Daarvoor gebruikt men in de statistiek als grootheid de determinatiecoëfficiënt (scrabblewoord) weergegeven als r2 (het kwadraat van de correlatiecoëfficiënt). Dit wil zeggen hoeveel % mag worden toegeschreven aan jet verband tussen de twee variabelen. In ons dwergvoorbeeld is r2 gelijk aan 0.68. Dat wil zeggen dat het gewicht voor 68% voorspeld wordt door de grootheid lengte. Daarnaast dragen misschien lichaamsbouw, botstructuur, eet en leef gewoonten en andere onbekende factoren ook hun steentje bij. Zij zijn verantwoordelijk voor de resterende 32%. We kunnen hieruit afleiden dat we r2 zo groot mogelijk willen hebben, liefst 70% of meer. Dit impliceert dat r groter moet zijn dan 0.8 Natuurlijk is dit geen wet van Meden En Perzen maar een r-waarde van bijvoorbeeld 0.6 zegt niet zoveel. Dat betekent namelijk dat maar 36% verklaard wordt door het verband tussen de twee variabelen en 64% door onbekende invloeden. Statistiek voor Managers 13 9. Trend of geen trend? Soms is het handig om te weten of de data een trend vertonen. Ook daarbij kan de regressieanalyse helpen. De uitkomst van een regressieanalyse is altijd een regressielijn van de vorm Y = aX + b In ons groene dwerg voorbeeld was deze lijn Y=2.125X-1,68 (a=2,125, b=-1,68). Vraag is of er echte een trend inzit, met andere woorden: verschilt “a” in de vergelijking echt van nul? Gelukkig geeft de regressieanalyse ook antwoord op deze vraag. In ons voorbeeld verschilt a echt significant van 0. Voor het precieze antwoord verwijs ik naar de referenties. 10 Interpoleren en extrapoleren We kijken weer naar ons voorbeeld. De regressielijn voor dit voorbeeld was Y=2.125X-1,68. We wilden graag weten wat het gemiddelde gewicht voor een dwerg van 22.5 cm zou zijn. Dat kunnen we nu berekenen en het blijkt dat het gemiddelde gewicht ca 46 kg zal zijn. Ik zeg met nadruk gemiddeld omdat de regressielijn een soort “gemiddelde lijn” is door de puntenwolk. Omdat de lengte van 22.5 cm binnen de range van waarnemingen ligt noemen we dit interpoleren. Maar hoeveel zou een dwerg wegen van 15 cm of 35 cm? Deze lengtes vallen immers niet binnen de range. Mogen we dan toch de regressievergelijking gebruiken en zeggen dat de dwergen gemiddeld 30.kg en 72.6 kg wegen? Met andere woorden: mogen we extrapoleren? Nou eigenlijk niet. We weten niet hoe de regressielijn zou zijn als we meer waarnemingen hadden gehad. In principe zou het niet veel mogen uitmaken maar er schuilen gevaren bij extrapoleren. Zeker als het echte verband niet door een rechte lijn is weer te geven. Bij reclame weten we dat er afnemende meeropbrengsten zijn dus zal er zeker geen rechte lijn gelden. Maar misschien wel in het bestudeerde gebied: binnen de range van waarnemingen. 11. Samenvatting In dit white-paper heb ik enkele begrippen uit de statistiek behandeld. Ik heb enkele maten voor het gemiddelde besproken zoals rekenkundig gemiddelde, modus en mediaan. Vervolgens zijn maten voor spreiding zoals range, variantie en standaardafwijking de revue gepasseerd. We hebben veel aandacht besteed aan de normale verdeling waarbij we gezien hoe we met behulp van de z-waarde en een tabel kunnen bepalen wat de kans is dat een bepaalde waarde optreedt. Aan de hand van groene dwergen hebben we gekeken naar het probleem van de steekproefgrootte en uitschietercorrectie. Hierbij heb ik aangegeven dat we minstens 30 waarnemingen moeten hebben om zinnige uitspraken te doen. Ook is gekeken naar de regressieanalyse waarbij we de betekenis van de correlatiecoëfficiënt (r) en de determinatiecoëfficiënt (r2) uitgelegd hebben. Aangetoond is dat de waarde van r minstens 0.8 moet zijn wil er sprake zijn van een sterk verband. Tenslotte heb ik de mogelijkheden van interen extrapoleren besproken. Statistiek voor Managers 14 12 Referenties Darrell Huff “How to lie with Staitistics” Penguin Books, Londen, 1991 Derek Rowntree “Statistics without Tears” Penguin Books, Londen, 1991 Deborah Rumsey “Statistiek voor Dummies” Wiley, Indianapolis, 2003 Statistiek voor Managers 15 Tables of the Normal Distribution Probability Content from -oo to Z Z | 0.00 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 ----+---------------------------------------------------------------------0.0 | 0.5000 0.5040 0.5080 0.5120 0.5160 0.5199 0.5239 0.5279 0.5319 0.5359 0.1 | 0.5398 0.5438 0.5478 0.5517 0.5557 0.5596 0.5636 0.5675 0.5714 0.5753 0.2 | 0.5793 0.5832 0.5871 0.5910 0.5948 0.5987 0.6026 0.6064 0.6103 0.6141 0.3 | 0.6179 0.6217 0.6255 0.6293 0.6331 0.6368 0.6406 0.6443 0.6480 0.6517 0.4 | 0.6554 0.6591 0.6628 0.6664 0.6700 0.6736 0.6772 0.6808 0.6844 0.6879 0.5 | 0.6915 0.6950 0.6985 0.7019 0.7054 0.7088 0.7123 0.7157 0.7190 0.7224 0.6 | 0.7257 0.7291 0.7324 0.7357 0.7389 0.7422 0.7454 0.7486 0.7517 0.7549 0.7 | 0.7580 0.7611 0.7642 0.7673 0.7704 0.7734 0.7764 0.7794 0.7823 0.7852 0.8 | 0.7881 0.7910 0.7939 0.7967 0.7995 0.8023 0.8051 0.8078 0.8106 0.8133 0.9 | 0.8159 0.8186 0.8212 0.8238 0.8264 0.8289 0.8315 0.8340 0.8365 0.8389 1.0 | 0.8413 0.8438 0.8461 0.8485 0.8508 0.8531 0.8554 0.8577 0.8599 0.8621 1.1 | 0.8643 0.8665 0.8686 0.8708 0.8729 0.8749 0.8770 0.8790 0.8810 0.8830 1.2 | 0.8849 0.8869 0.8888 0.8907 0.8925 0.8944 0.8962 0.8980 0.8997 0.9015 1.3 | 0.9032 0.9049 0.9066 0.9082 0.9099 0.9115 0.9131 0.9147 0.9162 0.9177 1.4 | 0.9192 0.9207 0.9222 0.9236 0.9251 0.9265 0.9279 0.9292 0.9306 0.9319 1.5 | 0.9332 0.9345 0.9357 0.9370 0.9382 0.9394 0.9406 0.9418 0.9429 0.9441 1.6 | 0.9452 0.9463 0.9474 0.9484 0.9495 0.9505 0.9515 0.9525 0.9535 0.9545 1.7 | 0.9554 0.9564 0.9573 0.9582 0.9591 0.9599 0.9608 0.9616 0.9625 0.9633 1.8 | 0.9641 0.9649 0.9656 0.9664 0.9671 0.9678 0.9686 0.9693 0.9699 0.9706 1.9 | 0.9713 0.9719 0.9726 0.9732 0.9738 0.9744 0.9750 0.9756 0.9761 0.9767 2.0 | 0.9772 0.9778 0.9783 0.9788 0.9793 0.9798 0.9803 0.9808 0.9812 0.9817 2.1 | 0.9821 0.9826 0.9830 0.9834 0.9838 0.9842 0.9846 0.9850 0.9854 0.9857 2.2 | 0.9861 0.9864 0.9868 0.9871 0.9875 0.9878 0.9881 0.9884 0.9887 0.9890 2.3 | 0.9893 0.9896 0.9898 0.9901 0.9904 0.9906 0.9909 0.9911 0.9913 0.9916 2.4 | 0.9918 0.9920 0.9922 0.9925 0.9927 0.9929 0.9931 0.9932 0.9934 0.9936 2.5 | 0.9938 0.9940 0.9941 0.9943 0.9945 0.9946 0.9948 0.9949 0.9951 0.9952 2.6 | 0.9953 0.9955 0.9956 0.9957 0.9959 0.9960 0.9961 0.9962 0.9963 0.9964 2.7 | 0.9965 0.9966 0.9967 0.9968 0.9969 0.9970 0.9971 0.9972 0.9973 0.9974 2.8 | 0.9974 0.9975 0.9976 0.9977 0.9977 0.9978 0.9979 0.9979 0.9980 0.9981 2.9 | 0.9981 0.9982 0.9982 0.9983 0.9984 0.9984 0.9985 0.9985 0.9986 0.9986 3.0 | 0.9987 0.9987 0.9987 0.9988 0.9988 0.9989 0.9989 0.9989 0.9990 0.9990 Statistiek voor Managers 16 Far Right Tail Probabilities Z P{Z to oo} | Z P{Z to oo} | Z P{Z to oo} | Z P{Z to oo} ----------------+-----------------+------------------+-----------------2.0 0.02275 | 3.0 0.001350 | 4.0 0.00003167 | 5.0 2.867 E-7 2.1 0.01786 | 3.1 0.0009676 | 4.1 0.00002066 | 5.5 1.899 E-8 2.2 0.01390 | 3.2 0.0006871 | 4.2 0.00001335 | 6.0 9.866 E-10 2.3 0.01072 | 3.3 0.0004834 | 4.3 0.00000854 | 6.5 4.016 E-11 2.4 0.00820 | 3.4 0.0003369 | 4.4 0.000005413 | 7.0 1.280 E-12 2.5 0.00621 | 3.5 0.0002326 | 4.5 0.000003398 | 7.5 3.191 E-14 2.6 0.004661 | 3.6 0.0001591 | 4.6 0.000002112 | 8.0 6.221 E-16 2.7 0.003467 | 3.7 0.0001078 | 4.7 0.000001300 | 8.5 9.480 E-18 2.8 0.002555 | 3.8 0.00007235 | 4.8 7.933 E-7 | 9.0 1.129 E-19 2.9 0.001866 | 3.9 0.00004810 | 4.9 4.792 E-7 | 9.5 1.049 E-21 These tables are public domain. They are produced by APL programs written by the author, William Knight Statistiek voor Managers 17