uitwtentBK11aug04

advertisement
Uitwerking tentamen Statistiek (153100) voor BK, 11 augustus 2004
Opgave 1
a. Kleinste waarneming: 2.84 = a
Q1 (25% van 30 is 7.5, dus de 8ste waarneming in grootte): 4.78 = b
De mediaan (n = 30 gemiddelde van 15e en 16e waarde):(5.66 + 5.82)/2 = 5.74 = c.
Q3 : 7.26 = d en
Grootste waarneming 11.91
Zijn er uitschieters? Volgens de 1.5 *IKA-regel zijn dit de waarden groter dan 7.26 +
1.5 × (7.26 – 4.78) = 10.98 en waarden kleiner dan 4.78 – 1.5 × (7.26 – 4.78) = 1.06.
Er is dus 1 uitschieter: de waarde 11.91 = f.
8.84 = e is de grootste waarneming, op de uitschieter na.
b. De box in de boxplot suggereert enige scheefheid naar rechts, want de mediaan ligt
links van het midden in de box. De rechterstaart is vergelijkbaar, zo niet korter dan de
linkerstaart. Er is een uitschieter naar rechts: 11.91.
c. De conclusie luidt: overschrijdingskans > α = 5% dus H0 niet verwerpen: er kan
normaliteit verondersteld worden voor de maximale regenval per dag.
d. Een 90%-betrouwbaarheidsinterval voor µ, de verwachte maximale regenval, heeft
s
grenzen x  t 
. (We gaan dus uit van een normaal model: de gegeven
n
standaardafwijking is niet de “bekende” σ, maar de uit de waarnemingen berekende
steekproefstandaardafwijking s!). Hierin zijn n=30, x = 6.04 en s =1.91 gegeven.
t* = 1.699 is uit de t(30-1)-tabel, bij staartkans p=0.05 (ofwel C = 0.90).
Dus 95%-BI(μ) = (5.45, 6.63)
e. Het gaat hierbij om twee onafhankelijke aselecte steekproeven, waarbij in beide
gevallen normaliteit verondersteld wordt voor de maximale regenvalhoeveelheden.
De µ’s en σ’s zijn onbekend en mogelijk verschillend. We passen dus de tprocedure voor 2 onafhankelijke steekproeven met onbekende en verschillende
σ’s toe.
Hypothesen: we toetsen H 0 : μA  μB tegen H a : μA  μB (de gemiddelde maximale
regenval is in B groter dan in A).
De kansverdeling die we toepassen is de t(min(n1-1,n2-1))-, dus de t(19)verdeling.
Opgave 2
Gegeven is: P(St) = 0.70
en P(A|St) = 0.25
P(Pl) = 0.30
en P(A|Pl) = 0.80
Dus (wet van de totale kans):
P(A) = P(A|St)P(St) + P(A|Pl)P(Pl) = 0.25x0.70 + 0.80x0.30 = 0.175 + 0.240 = 0.415
Bayes: P(St|A) = P(A|St)P(St)/P(A) = 0.175/0.415 = 35/83 = 0.422
(Dus P(Pl|A) = 0.578. )
Opgave 3
Er is geen sprake van de binomiale verdeling omdat het kiezen van de 40 studenten uit de
100 zonder terugleggen gebeurt waardoor de kans (p) dat je een jongen hebt, afhangt van
wie je eerder hebt gekozen (, ongeacht het aantal jongens onder de 100). Als er
bijvoorbeeld, 30 jongens (en dus 70 meisjes) zijn is de kans dat de eerst gekozene een
jongen is 30/100. Maar, als de eerste een jongen is, is de kans dat de tweede ook een
jongen is, 29/99.
Opgave 4
a. Nee: de correlatiecoefficient is een maat voor lineaire samenhang. -0.99 betekent
sterke negatieve lineaire samenhang. De punten in het spreidingsdiagram liggen dicht
in de buurt van een lijn met negatieve richtingscoëfficiënt (we weten niets over de
absolute waarde daarvan).
b. Nee: dat geldt alleen als X en Y onafhankelijk zijn. Algemeen geldt alleen dat
µX + µY de verwachtingswaarde van X +Y is.
c. Ja (volgt uit de centrale limietstelling: niet de populatieverdeling “wordt”normaal,
maar wel de verdeling van het steekproefgemiddelde als we de steekproefomvang
voldoende groot nemen).
d. Nee: ook met kleine steekproeven kun je betrouwbaarheidsintervallen (bij gegeven
betrouwbaarheid opstellen) en kun je een toets uitvoeren (bij gegeven
onbetrouwbaarheid.). Bij kleine steekproeven zijn betrouwbaarheidsintervallen echter
i.h.a. vrij breed en is het onderscheidend vermogen (de power) van de toets vaak
laag.
e. Ja
Opgave 5
a. Het gaat hierbij om een rechtseenzijdige z-toets op µ (bekende σ = 100!)
x  0
491.4  475
De waarde van de toetsingsgrootheid is z 
= 1.644

 n
100 100
De kritieke waarde bij α = 0.05 is c = 1.645
Conclusie: z= 1.644 < 1.645 = c, dus H0 niet verwerpen. Een positief effect van het
trainingsprogramma op de testresultaten is statistisch onvoldoende aangetoond (op
5%-niveau).
Met de (rechter) overschrijdingskans: P( Z ≥1.644 ) ≈ P(Z ≥1.64) = 5.05% > α = 5%,
dus H0 niet verwerpen (GR geeft ook P-waarde net iets groter dan 5%).
b. Als in werkelijkheid de training de gemiddelde score van studenten verhoogt tot 500,
is de kans 80% dat de conclusie luidt dat de scores significant verhoogd zijn.
Opgave 6
a. 1. Het gaat hier om gepaarde waarnemingen: we passen de 1 steekproef t-procedure
toe voor de 6 verschillen (waarde A- waarde B), aannemende dat deze verschillen
onafhankelijk zijn en normaal verdeeld (met onbekende σ).
2. Toets H0 :  = 0 tegen Ha :  ≠ 0 met = 0.10
x  μ0
x

3. Toetsingsgrootheid t 
s n
s/ 6
4. t is t(5)-verdeeld als  = 0
5. Waargenomen verschillen: -12.3, -10.4, -4.2, +2.8, -8.7, -16.2
Dus x ≈ -8.17 en s ≈ 6.68 , dus t  -2.996
6. Tweezijdige toets: t ≤ -c of t ≥ c, dan H0 verwerpen.
Kritieke waarde c: P( t(5) ≥ c) = 0.05 = ½  dus c = 2.015
7. Conclusie: t = -2.996 < -c, dus H0 verwerpen.
8. Een verschil in werkelijke waarde van de aandelen A en B is aangetoond op 10%significantieniveau.
(met overschrijdingskans: 2× P(t(5)≥ |-2.996|) ≈ 2×0.01 <0.10 dus H0 verwerpen)
b. (i) De tekentoets
(ii) Het aantal positieve verschillen is T = 1 (T = 5 bij verschillen
B-A) (iii) T is B(6, ½ ) als H0 (geen verschil in waarde tussen A en B) geldt.
c. Het verschil 0 is bevat in het 99%-betrouwbaarheidsinterval voor het verwachte
verschil. Op 1%-niveau kan H0 dus niet verworpen worden. De conclusie bij a. is
tegengesteld (H0 verwerpen), maar deze was op 10%-niveau genomen.
Opgave 7
a. De gevraagde verdelingen van de grootte van bedrijven van eigenaren resp. alle
restauranthouders staan in de volgende tabel:
a
b
c
totaal
Eigenaren (1)
aantallen
83
18
2
103
percentage
81% 17% 2% 100%
Alle restauranthouders aantallen
139 66
56
261
percentage 53% 25% 21% 100%
De gevraagde verdelingen verschillen sterk: eigenaren hebben in het algemeen veel
minder personeelsleden in dienst dan de “gemiddelde” restauranthouder.
b. 1. Het gaat hier om een EAS en het verband tussen twee kwalitatieve variabelen “vorm
van eigendom” (nominaal) en “aantal werknemers” (klassen: ordinaal), met elk 3
waarden. Op de kruistabel passen we de chikwadraattoets op de onafhankelijkheid toe.
2. We toetsen H0: de variabelen zijn onafhankelijk tegen
Ha de variabelen zijn afhankelijk
3. Toetsingsgrootheid is Χ 2  
O  E 2
E
4. X is bij onafhankelijkheid chikwadraat verdeeld met df = (r-1)(c-1) = 4
5. waargenomen waarde X2 = 67.917 (gegeven).
6. Rechtseenzijdige toets: Als X2 ≥ 9.49, dan H0 verwerpen
Kritieke waarde c uit de  2 -tabel ( α = 5%, df = 4): c  9.49 .
7. Uitkomst 67.917 ligt in kritiek gebied  H 0 verwerpen.
8. Statistisch is aangetoond, bij onbetrouwbaarheid 5%, dat de eigendomsvorm en het
aantal werknemers afhankelijk zijn.
2
c. Als voorwaarde geldt dat de verwachte (niet de waargenomen) celaantallen minstens 5
zijn. De verwachte celaantallen bij de waargenomen aantallen 2 en 4 zijn respectievelijk
22.1 en 5.6 zijn groter dan 5 (berekend met de formule E = rijsom×kolomsom/n)
------------------------------------------------------------------------------------------------------- ----------
Controle opgave 6 met SPSS:
Paired Samples Statistics
Pair
1
aandeel A
aandeel B
Mean
67,4333
75,6000
N
6
6
Std. Deviation
4,27676
4,58127
Std. Error
Mean
1,74598
1,87029
Pa ired Sa mpl es Test
Paired Differenc es
Pair 1
aandeel A - aandeel B
Mean
-8, 1667
St d. Deviat ion
6,67673
St d. Error
Mean
2,72576
99% Confidenc e
Int erval of t he
Difference
Lower
Upper
-19,1573
2,8240
t
-2, 996
df
5
Sig. (2-tailed)
,030
Download