Document

advertisement
Kenmerk: EWI07/TW/SK/007/DM
Datum:
19 juli 2017
Tentamen Statistiek I (153004) voor BK, BSK en GZW
Vrijdag 2 februari 2007, 9.00-12.00 uur
Dit tentamen bestaat uit 7 opgaven. Het formuleblad en 4 tabellen zijn separaat toegevoegd.
Gebruik van een rekenmachine is toegestaan.
Vermeld je naam, studentnummer en studierichting op tentamenbriefje en werk.
Geef bij beantwoording kort maar duidelijk aan hoe je aan het antwoord komt.
Opgave 1 ( Bedieningsduren helpdeskklanten)
In een onderzoek naar de effectiviteit van een helpdesk werden onder meer de
bedieningsduren van klanten, die de helpdesk een probleem voorlegden, onderzocht.
Hieronder staan de bedieningsduren (in minuten) in een steekproef van 42 klanten,
gerangschikt van klein naar groot gemeten.
0.20
1.80
2.24
3.10
5.76
0.62
1.85
2.26
3.34
6.44
0.63
1.86
2.29
3.66
1.02
1.91
2.37
3.69
1.08
1.93
2.41
3.81
1.23
1.99
2.42
3.98
1.23
2.10
2.49
4.52
1.24
2.11
2.57
4.67
1.38
2.16
2.81
4.95
1.45
2.21
2.94
5.22
Deze meetgegevens worden als volgt samengevat:
Het steekproefgemiddelde is 2.570 en
de steekproefstandaardafwijking is 1.421
Het histogram van frequenties ziet er als volgt uit:
Bedieningsduren bij helpdesk (n=42)
12
10
Frequentie
8
6
4
2
0
,25
,75
1,25 1,75 2,25 2,75
3,25 3,75 4,25 4,75 5,25 5,75 6,25
Bedieningsduur
a. Geef de 5-getallensamenvatting van de gemeten bedieningsduren.
b. Ga na of er sprake is van uitschieters.
c. Geef minstens 2 maten voor het midden en 2 maten voor de spreiding en hun waarden
voor deze dataset.
d. Wat is het verschil tussen de waarden voor de mediaan en steekproefgemiddelde en hoe
kun je dit verschil verklaren aan de hand van het histogram?
e. Als gevraagd wordt om een betrouwbaarheidsinterval te bepalen voor de verwachte
bedieningsduur van een willekeurige klant, kies je dan voor de z-procedure of de tprocedure? Motiveer uw antwoord.
f. Om toetsen en betrouwbaarheidsintervallen m.b.t. de verwachte waarde te bepalen wordt
veelal uitgegaan van normale verdeling.
1. Is normaliteit voor de bedieningsduren een redelijke veronderstelling? Waarom (niet)?
2. Kunnen we de z- of de t-procedure in dit geval toepassen? Waarom (niet)?
Opgave 2
Bij een benzinestation tankt 40% van de klanten normaal, 35% super een 25% superplus. Van de
mensen die normale benzine tanken moet 30% minstens € 50 betalen. Van de mensen die super
tanken, moet 50% minstens € 50 betalen. En van de mensen die superplus tanken, moet 60% minstens
€ 50 betalen. (Andere brandstoffen worden bij dit benzinestation niet verkocht)
Beantwoord de volgende vragen en geef een duidelijke toelichting op je berekening (met behulp van
een kansboom of door het toepassen van de kansregels).
a. Wat is de kans dat de eerstvolgende klant minstens € 50 moet betalen?
b. De volgende klant blijkt meer dan € 50 te moeten betalen: hoe groot is de kans dat hij superplus
heeft getankt?
Opgave 3
Een studentenvakbond onderzoekt het bestedingspatroon van studenten in Groningen. In een aselecte
steekproef van 30 studenten bleek het gemiddelde bedrag aan uitgaven per maand gelijk aan 691 euro
te zijn bij een steekproefstandaardafwijking van 62 euro.
a. Geef op grond van deze steekproef een 95%-betrouwbaarheidsinterval voor het gemiddelde
bedrag aan uitgaven van alle Groningse studenten.
b. Geef aan of het in a bepaalde interval breder of smaller wordt als
1. Dezelfde steekproefresultaten waren bereikt bij een steekproef van 100 studenten.
2. De betrouwbaarheid groter wordt gekozen.
3. Het gemiddelde in de steekproef 50 euro lager is.
Ga bij de volgende vragen er vanuit dat het bedrag X, dat een willekeurige Groningse student
uitgeeft, normaal verdeeld is met µ = 691 en σ = 62.
c. Geef de kansverdeling van het gemiddelde van 100 willekeurig gekozen Groningse studenten en
bereken de kans dat dit gemiddelde boven 700 euro ligt.
d. Bepaal een interval (a, b) zodanig dat de kans dat het bedrag X tussen a en b ligt 95% is en dat
P(X ≥ b) = 0.025. Waarom is dit interval breder dan het in onderdeel a bepaalde
betrouwbaarheidsinterval?
Opgave 4
Een student moet een scriptie schrijven over de verschillen in gemeentelijke
belastingtarieven. Via veldonderzoek wil hij nagaan of de leges voor
(ver)bouwvergunningen verschillen bij de grotere steden (> 100.000 inwoners) enerzijds en
bij plattelandgemeenten anderzijds. Op basis van een tweetal aselecte steekproeven van 8
steden en 8 plattelandgemeenten tracht hij hierover een uitspraak te doen. De resultaten
hebben betrekking op de leges voor bouwplannen ter waarde van € 20.000 en zijn als volgt
gepresenteerd (in €):
Stad
397 410 428 500 511 519 528 640
platteland 381 402 410 450 457 458 501 560
a. Bereken en vergelijk de steekproefgemiddelden en de steekproefstandaardafwijkingen
van beide steekproeven.
b. Voer een parametrische toets uit waaruit blijkt of het vermoeden, dat de betreffende leges
in steden en plattelandgemeenten verschillen, juist is. Werk de toetsingsprocedure
puntsgewijs uit, door de kritieke waarde bij α = 0.10 te bepalen.
c. We kunnen ook een niet-parametrische (verdelingsvrije) toets uitvoeren op de
meetgegevens in de tabel. Beantwoord hierover de volgende vragen:
1. Hoe heet deze toets?
2. Wanneer valt deze (in het algemeen) te prefereren boven de bij a uitgevoerde toets?
3. Bepaal de waarde van de toetsingsgrootheid.
4. Geef de kansverdeling van de toetsingsgrootheid.
Opgave 5
De onderstaande tabel vermeldt de scores voor twee luistertoetsen Spaans van 20 middelbare
schooldocenten: toets 1 is gehouden vóór en toets 2 ná een intensieve zomercursus in Spaans.
Docent Toets 1 Toets 2 Toets 2- Toets 1
1
30
29
-1
2
28
30
+2
3
31
32
+1
4
26
30
+4
5
20
16
-4
6
30
25
-5
7
34
31
-3
8
15
18
+3
9
28
33
+5
0
20
25
+5
11
30
32
+2
12
29
28
-1
13
31
34
+3
14
29
32
+3
15
34
32
-2
16
20
27
+7
17
26
28
+2
18
25
29
+4
19
31
32
+1
20
29
32
+3
x
s≈
27.3
5.038
28.75
4.745
1.45
3.203
a. Voer de toetsingsprocedure uit om na te gaan of de zomercursus een positief effect heeft op de
luistervaardigheidscores, uitgaande van normale verdeling(en).
b. Er is een niet-parametrische toets als alternatief voor de toets in onderdeel a mogelijk.
1. Geef de naam van deze toets.
2. Geef de kansverdeling van de toetsingsgrootheid.
3. Geef de waarde van de toetsingsgrootheid en bepaal de overschrijdingskans.
4. Hoe luidt de conclusie?
Opgave 6 (Is vruchtensap een remedie tegen Alzheimer?)
In de zomer van 2006 kopten verscheidene bladen dat vruchtensap de kans op Alzheimer met de helft
vermindert. Deze conclusie werd getrokken uit Amerikaans onderzoek onder bejaarde Japanse
immigranten in Seattle. Deze homogene groep is gekozen om andere factoren zo veel mogelijk uit te
sluiten. Aanleiding voor het onderzoek is het vermoeden dat vruchtensap helpt voorkomen dat er
“alzheimerplaques” in de hersenen wordt gevormd. 6 Jaar geleden trof men bij de 1589 bejaarden
geen sporen van Alzheimer aan. Men stelde vast hoeveel glazen vruchtensap per week de
betrokkenen (gemiddeld) dronken en wie er in deze 6 jaar Alzheimer heeft ontwikkeld. We bekijken
de gegevens, waarop de publicaties gebaseerd zijn, nader (uit De Volkskrant van 9 september 2006):
Aantal glazen vruchtensap per week
Minder dan 1 1 of 2 Meer dan 2
positief
30
11
22
Alzheimer screening
negatief
517
246
763
a. Bereken de kansen op Alzheimer in tienden van procenten, afhankelijk van het aantal glazen
vruchtensap per week. Wat is je (voorlopige) conclusie?
b. Bepaal een 95%-betrouwbaarheidsinterval voor het percentage (de fractie) van
Alzheimerpatiënten onder de mensen die minder dan 1 glas vruchtensap drinken.
c. Geef (afgerond in hele procenten):
1. De voorwaardelijke verdeling van het aantal glazen vruchtensap voor de mensen met
Alzheimer.
2. De marginale verdeling van het aantal glazen vruchtensap.
d. Voer een toets uit om te onderzoeken of er een verband bestaat tussen Alzheimer en het aantal
glazen vruchtensap per week. U kunt zich bij de uitwerking van dit onderdeel beperken tot het
geven van de hypothesen, het berekenen van de waarde van de toetsingsgrootheid en de
bijbehorende kritieke waarde en het trekken van een conclusie.
Opgave 7
figuur 1
figuur 2
lineaire regressie van y op x met regressierechte
lineaire regressie van y op x met regressierechte

210
40







180

170

160
50






 



 

 













60












 
 




 
30
 
variabele y
 
190
 

 





 




 





y = 131.01 + 0.69
*x

variabele y


200
20












 






 
 

 

10


 











 



 






0


variabele y = 68.99 + -0.69 * x

-10
70
80
variabele x
90
100
50
60
70
80
variabele x
90
100
figuur 3
figuur 4
lineaire regressie van y op x met regressierechte
lineaire regressie van y op x met regressierechte
variabele y = 100.85 + 0.72 * x
120

120


 




110

115

variabel e y
variabele y
115

 




110




105
105

100


0
variabele y = 122.38 + -0.72 * x
100
10
20
30
variabele x
0
10
20

30
variabele x
De onderstaande vragen hebben betrekking op de 4 figuren hierboven. Van deze figuren
komen de 4 correlatiecoëfficiënten voor in de volgende rij van 7 waarden (in opklimmende
volgorde): -1.45, -0.98, -0.75, 0, +0.75, + 0.98 en +1.45
a.
b.
c.
d.
Geef voor elke figuur de bijbehorende correlatiecoëfficiënt. (Figuur 1: r = …. , etc.)
Geef voor figuur 1 het percentage door het lineaire model verklaarde variantie.
Voorspel voor figuur 1 de waarde van y als x = 85 en als x =120.
Wat is een essentieel verschil tussen de twee berekende voorspellingen in onderdeel c?
-------------------------------------------------------------
Normering:
1
2
3
4
5
6
7
a b c d e f a b a b c d a b c a b a b c d a b c d
3 3 3 2 2 3 4 3 4 3 3 4 3 8 7 8 6 4 4 4 6 4 3 3 3
Totaal
100
Berekening eindcijfer = (aantal punten tentamen + aantal punten SPSS)/12 afgerond
Opmerking: na de herkansing in april vervallen de in het studiejaar 2006/2007 behaalde punten voor
de SPSS-opdrachten.
Download