Uitwerking tentamen Statistiek (153100) voor BK, 11 augustus 2004 Opgave 1 a. Kleinste waarneming: 2.84 = a Q1 (25% van 30 is 7.5, dus de 8ste waarneming in grootte): 4.78 = b De mediaan (n = 30 gemiddelde van 15e en 16e waarde):(5.66 + 5.82)/2 = 5.74 = c. Q3 : 7.26 = d en Grootste waarneming 11.91 Zijn er uitschieters? Volgens de 1.5 *IKA-regel zijn dit de waarden groter dan 7.26 + 1.5 × (7.26 – 4.78) = 10.98 en waarden kleiner dan 4.78 – 1.5 × (7.26 – 4.78) = 1.06. Er is dus 1 uitschieter: de waarde 11.91 = f. 8.84 = e is de grootste waarneming, op de uitschieter na. b. De box in de boxplot suggereert enige scheefheid naar rechts, want de mediaan ligt links van het midden in de box. De rechterstaart is vergelijkbaar, zo niet korter dan de linkerstaart. Er is een uitschieter naar rechts: 11.91. c. De conclusie luidt: overschrijdingskans > α = 5% dus H0 niet verwerpen: er kan normaliteit verondersteld worden voor de maximale regenval per dag. d. Een 90%-betrouwbaarheidsinterval voor µ, de verwachte maximale regenval, heeft s grenzen x t . (We gaan dus uit van een normaal model: de gegeven n standaardafwijking is niet de “bekende” σ, maar de uit de waarnemingen berekende steekproefstandaardafwijking s!). Hierin zijn n=30, x = 6.04 en s =1.91 gegeven. t* = 1.699 is uit de t(30-1)-tabel, bij staartkans p=0.05 (ofwel C = 0.90). Dus 95%-BI(μ) = (5.45, 6.63) e. Het gaat hierbij om twee onafhankelijke aselecte steekproeven, waarbij in beide gevallen normaliteit verondersteld wordt voor de maximale regenvalhoeveelheden. De µ’s en σ’s zijn onbekend en mogelijk verschillend. We passen dus de tprocedure voor 2 onafhankelijke steekproeven met onbekende en verschillende σ’s toe. Hypothesen: we toetsen H 0 : μA μB tegen H a : μA μB (de gemiddelde maximale regenval is in B groter dan in A). De kansverdeling die we toepassen is de t(min(n1-1,n2-1))-, dus de t(19)verdeling. Opgave 2 Gegeven is: P(St) = 0.70 en P(A|St) = 0.25 P(Pl) = 0.30 en P(A|Pl) = 0.80 Dus (wet van de totale kans): P(A) = P(A|St)P(St) + P(A|Pl)P(Pl) = 0.25x0.70 + 0.80x0.30 = 0.175 + 0.240 = 0.415 Bayes: P(St|A) = P(A|St)P(St)/P(A) = 0.175/0.415 = 35/83 = 0.422 (Dus P(Pl|A) = 0.578. ) Opgave 3 Er is geen sprake van de binomiale verdeling omdat het kiezen van de 40 studenten uit de 100 zonder terugleggen gebeurt waardoor de kans (p) dat je een jongen hebt, afhangt van wie je eerder hebt gekozen (, ongeacht het aantal jongens onder de 100). Als er bijvoorbeeld, 30 jongens (en dus 70 meisjes) zijn is de kans dat de eerst gekozene een jongen is 30/100. Maar, als de eerste een jongen is, is de kans dat de tweede ook een jongen is, 29/99. Opgave 4 a. Nee: de correlatiecoefficient is een maat voor lineaire samenhang. -0.99 betekent sterke negatieve lineaire samenhang. De punten in het spreidingsdiagram liggen dicht in de buurt van een lijn met negatieve richtingscoëfficiënt (we weten niets over de absolute waarde daarvan). b. Nee: dat geldt alleen als X en Y onafhankelijk zijn. Algemeen geldt alleen dat µX + µY de verwachtingswaarde van X +Y is. c. Ja (volgt uit de centrale limietstelling: niet de populatieverdeling “wordt”normaal, maar wel de verdeling van het steekproefgemiddelde als we de steekproefomvang voldoende groot nemen). d. Nee: ook met kleine steekproeven kun je betrouwbaarheidsintervallen (bij gegeven betrouwbaarheid opstellen) en kun je een toets uitvoeren (bij gegeven onbetrouwbaarheid.). Bij kleine steekproeven zijn betrouwbaarheidsintervallen echter i.h.a. vrij breed en is het onderscheidend vermogen (de power) van de toets vaak laag. e. Ja Opgave 5 a. Het gaat hierbij om een rechtseenzijdige z-toets op µ (bekende σ = 100!) x 0 491.4 475 De waarde van de toetsingsgrootheid is z = 1.644 n 100 100 De kritieke waarde bij α = 0.05 is c = 1.645 Conclusie: z= 1.644 < 1.645 = c, dus H0 niet verwerpen. Een positief effect van het trainingsprogramma op de testresultaten is statistisch onvoldoende aangetoond (op 5%-niveau). Met de (rechter) overschrijdingskans: P( Z ≥1.644 ) ≈ P(Z ≥1.64) = 5.05% > α = 5%, dus H0 niet verwerpen (GR geeft ook P-waarde net iets groter dan 5%). b. Als in werkelijkheid de training de gemiddelde score van studenten verhoogt tot 500, is de kans 80% dat de conclusie luidt dat de scores significant verhoogd zijn. Opgave 6 a. 1. Het gaat hier om gepaarde waarnemingen: we passen de 1 steekproef t-procedure toe voor de 6 verschillen (waarde A- waarde B), aannemende dat deze verschillen onafhankelijk zijn en normaal verdeeld (met onbekende σ). 2. Toets H0 : = 0 tegen Ha : ≠ 0 met = 0.10 x μ0 x 3. Toetsingsgrootheid t s n s/ 6 4. t is t(5)-verdeeld als = 0 5. Waargenomen verschillen: -12.3, -10.4, -4.2, +2.8, -8.7, -16.2 Dus x ≈ -8.17 en s ≈ 6.68 , dus t -2.996 6. Tweezijdige toets: t ≤ -c of t ≥ c, dan H0 verwerpen. Kritieke waarde c: P( t(5) ≥ c) = 0.05 = ½ dus c = 2.015 7. Conclusie: t = -2.996 < -c, dus H0 verwerpen. 8. Een verschil in werkelijke waarde van de aandelen A en B is aangetoond op 10%significantieniveau. (met overschrijdingskans: 2× P(t(5)≥ |-2.996|) ≈ 2×0.01 <0.10 dus H0 verwerpen) b. (i) De tekentoets (ii) Het aantal positieve verschillen is T = 1 (T = 5 bij verschillen B-A) (iii) T is B(6, ½ ) als H0 (geen verschil in waarde tussen A en B) geldt. c. Het verschil 0 is bevat in het 99%-betrouwbaarheidsinterval voor het verwachte verschil. Op 1%-niveau kan H0 dus niet verworpen worden. De conclusie bij a. is tegengesteld (H0 verwerpen), maar deze was op 10%-niveau genomen. Opgave 7 a. De gevraagde verdelingen van de grootte van bedrijven van eigenaren resp. alle restauranthouders staan in de volgende tabel: a b c totaal Eigenaren (1) aantallen 83 18 2 103 percentage 81% 17% 2% 100% Alle restauranthouders aantallen 139 66 56 261 percentage 53% 25% 21% 100% De gevraagde verdelingen verschillen sterk: eigenaren hebben in het algemeen veel minder personeelsleden in dienst dan de “gemiddelde” restauranthouder. b. 1. Het gaat hier om een EAS en het verband tussen twee kwalitatieve variabelen “vorm van eigendom” (nominaal) en “aantal werknemers” (klassen: ordinaal), met elk 3 waarden. Op de kruistabel passen we de chikwadraattoets op de onafhankelijkheid toe. 2. We toetsen H0: de variabelen zijn onafhankelijk tegen Ha de variabelen zijn afhankelijk 3. Toetsingsgrootheid is Χ 2 O E 2 E 4. X is bij onafhankelijkheid chikwadraat verdeeld met df = (r-1)(c-1) = 4 5. waargenomen waarde X2 = 67.917 (gegeven). 6. Rechtseenzijdige toets: Als X2 ≥ 9.49, dan H0 verwerpen Kritieke waarde c uit de 2 -tabel ( α = 5%, df = 4): c 9.49 . 7. Uitkomst 67.917 ligt in kritiek gebied H 0 verwerpen. 8. Statistisch is aangetoond, bij onbetrouwbaarheid 5%, dat de eigendomsvorm en het aantal werknemers afhankelijk zijn. 2 c. Als voorwaarde geldt dat de verwachte (niet de waargenomen) celaantallen minstens 5 zijn. De verwachte celaantallen bij de waargenomen aantallen 2 en 4 zijn respectievelijk 22.1 en 5.6 zijn groter dan 5 (berekend met de formule E = rijsom×kolomsom/n) ------------------------------------------------------------------------------------------------------- ---------- Controle opgave 6 met SPSS: Paired Samples Statistics Pair 1 aandeel A aandeel B Mean 67,4333 75,6000 N 6 6 Std. Deviation 4,27676 4,58127 Std. Error Mean 1,74598 1,87029 Pa ired Sa mpl es Test Paired Differenc es Pair 1 aandeel A - aandeel B Mean -8, 1667 St d. Deviat ion 6,67673 St d. Error Mean 2,72576 99% Confidenc e Int erval of t he Difference Lower Upper -19,1573 2,8240 t -2, 996 df 5 Sig. (2-tailed) ,030