EXAMEN : Basisbegrippen statistiek Examen 16

advertisement
Naam en studentennummer
EXAMEN : Basisbegrippen statistiek
Examen 16 januari 2015
Oplossingen
1
Naam en studentennummer
Vraag 1
a) Leg in max. 3 lijnen uit wat een dichtheidsfunctie is en illustreer met 3 duidelijk verschillende
voorbeelden.
Een (kans) dichtheids functie van een (toevals)veranderlijke X is steeds groter dan of =0 ( f(x)
>=0) en heeft een opp onder de curve =1. De oppervlakte onder de curve tussen a en b is te
interpreteren als een kans dat X tussen a en b ligt
3 vb : dichtheidsfunctie vaneen t-verdeling , normaalverdeling en chi-kwadraatverdeling
b) Een nieuw geneesmiddel wordt getest bij psychiatrische patienten. We wensen te testen of de
nieuwe behandeling effectief is en testen of de proportie patienten die positief( =goed) reageren
dezelfde is in de groep met het nieuw geneesmiddel is als in de controlegroep met het oud
geneesmiddel. Stel p1 de proportie die goed reageert in de groep met het nieuwe geneesmiddel.Stel
p2 de proportie in de controle groep.
Welke van de volgende hypothese toetsen is geschikt ? ( één antwoord mogelijk)
A. Ho : p1 <p2 and Ha: p1≥ p2
B. Ho : p1≤ p2 and Ha: p1> p2 alleen met dit alternatief zal de proportie die goed reageert
groter zijn dan in de controlegroup)
C. Ho : p1= p2 and Ha: p1 ≠p2
D. Ho : p1= p2 and Ha: p1< p2
Als dan de P-waarde= 0.0062 welke voorlopige conclusie wordt dan gesuggereerd? ( één
antwoord mogelijk)
A. Het nieuw middel heeft geen effect.
B. Het nieuw geneesmiddel reduceert de proportie patienten die positief reageren.
C. Het nieuw geneesmiddel doet de proportie patienten die negatief reageren stijgen.
D. De test geeft geen uitsluitsel of de nieuwe methode helpt of niet helpt.
p-waarde <0.05 en zlfs ook <0.01 dus de nulhypothese dat p1=p2 wordt verworpen en
wijst op een significant verschil. Dus de test suggereert wel dat er een positief resultaat mag
verwacht worden ( zoals in B wordt gesteld) , maar de test geeft geen uitsluitsel . Je mag het
dus niet als bewezen beschouwen dat het nieuwe middel helpt .
c)
Juist of verkeerd: Indien verkeerd, leg uit waarom.
Er wordt een steekproef genomen uit de studentenpopulatie van eerste bach en de lengte wordt gemeten
van elke student. Stel dat een 95 % betrouwbaarheidsinterval wordt berekend voor het onbekende
populatiegemiddelde µ =1 meter 72 cm ±15 cm
1. Elke hypothese omtrent de lengte tussen 1 m 57 en 1 m 87 is een aanvaardbare hypothese
en elke hypothese buiten het interval is een hypothese die wordt verworpen
Juist
2
Naam en studentennummer
2. Het steekproefgemiddelde verandert van steekproef tot steekproef, maar het
betrouwbaarheidsinterval is steeds hetzelfde
Verkeerd omdat het B.I. afhangt van het steekproefgemiddelde dus het verandert
mee.
3. Als telkens nieuwe steekproeven worden getrokken met dezelfde steekproefgrootte, dan zal
je vaststellen dat in ongeveer 2.5 % van deze steekproeven het werkelijk
populatiegemiddelde niet in het betrouwbaarheidsinterval ligt.
Verkeerd het is 5 %
een 95 % B.I.!!
4. Als de betrouwbaarheid van het interval groter wordt gekozen bvb 99 % , dan zal het
betrouwbaarheidsinterval kleiner worden.
Verkeerd
  
Het wordt groter !! Kijk bvb. naar het B.I. .
X z
 2


 n
Omdat zα/2=1.96 indien 95% betrouwbaarheid en
zα/2=2.575 indien 99% betrouwbaarheid
5. De p-waarde die wordt bekomen om te testen of het populatiegemiddelde = 1m 75 is kleiner
dan 0.05
Verkeerd
Omdat
de waarde 1m75 binnen de 95% betrouwbaarheidsgrenzen ligt wordt de
nulhypothese niet verworpen en moet de P-waarde groter zijn dan 0.05
d). Twaalf juryleden worden geselecteerd uit een populatie waarin 45 % personen van Spaanse
oorsprong zijn. Wat is nu de kans dat in deze jury van 12 personen , 2 juryleden van Spaanse
oorsprong zijn? ( leg ook uit hoe je aan het resultaat komt)
X= aantal Spaans geselecteerden
X= is binomiaal verdeeld met het aantal herhalingen n= 12 en de kans op Spaans
p=0.45
12  2
10
2
10
 p (1  p)  66(0.45) (0.55) = 0.0334 of 3.3%
2
P(X=2)= P  X  x   
e). Stel dat de doorlooptijd (=X) van een zaak bij het Hof van Beroep normaal verdeeld is met een
gemiddelde van 8 maanden en een standaardafwijking van 2 maanden
In hoeveel maanden worden 80% van alle processen voltooid?
X is normaal verdeeld met gemiddeld gelijk aan 8 en standaardafwijking= 2
Gegeven :P( X<x)=80 %
Gevraagd Wat is x ?
Oplossing:
Als X normaal verdeeld is met gemiddelde 8m en s= 2m dan is Z=(X-8)/2 standaard normaal verdeeld
en
P(X<x)= P( (X-8)/2<(x-8)/2)= P(Z<(x-8)/2)=0.80 P(0<Z<(x-8)/2)=0.80-0.50 =0.30 Uit tabel
normaalverdeling volgt dat
(x-8)/2=0.845- Dus x=9.69 maanden
3
Naam en studentennummer
f) “ Statisticians and forensic scientists sometimes use the phrase “the likelihood of the
evidence” (ref: Fundamentals of Probability and Statistical Evidence in Criminal Proceedings Royal Statistical Society)
Wat betekent dit ? ( max. 2 lijnen)
Likelihood  probability . Dus het gaat hier over de aannemelijkheid, waarschijnlijkheid van het
bewijsmateriaal (Evidence), bvb bloedsporen, dna ,..
cfr ook 2.13 p 35
‘Statisticians and forensic scientists sometimes use the phrase “the likelihood of the evidence”. This is
shorthand for “the likelihood of finding the evidence in the context of the crime scene and the
environment of the suspect” (or its contextual equivalents). References to “likelihood” in this context
are often synonyms for “probability”.
g) Waarom is een boxplot een zeer informatieve grafische voorstelling ?
( kort antwoord )
Op 1 plot worden tegelijk Mediaan, Q1,Q3, Min, Max,en het gemiddelde voorgesteld, ook eventueel
outliers.
Daarenboven krijgen we een idee van de spreiding ( met Interkwartielafstand, Max-Min) en de
symmetrie of de scheefheid van de verdeling
2) In mei 2006 waren 65 % van de Amerikanen vóór de doodstraf in geval van moord. In oktober
2006 wijst een enquête bij 1005 Amerikanen uit dat 673 personen vóór de doodstraf zijn. De titel
van een artikel in de krant luidt:
‘Meer Amerikanen zijn voor de doodstraf’ of ‘More Americans favour the death penalty’
Gebruik een hypothese test om deze bewering te toetsen. ( significantieniveau is 5 %)
Is de titel in de krant gerechtvaardigd ?
Stap 1: H0: p=0.65
H1: p>0.65 ! eenzijdig omdat we proberen aan te tonen dat er meer voorstanders zijn ‘
Stap 2: Teststatistiek is de steekproefproportie
Deze is onder de H0 normaal verdeeld omdat de steekproef groot genoeg is ( gebruik hier de
Centrale limietstelling ) met gemiddelde = 0.65 en variantie 0.65(1-0.65)/1005
Standaardiseer dan en
P̂  0.65
0.65( 1 0.65 )
1005
=
Z en is
normaal verdeeld met gemiddelde 0 en variantie 1
Stap 3: Stel α=0.05 dan is het kritisch punt z0.05=1.645 ( tabel normaalverdeling!!!)
Stap 4: In de steekproef is p̂  673/1005=0.67 en dan wordt z=1.3
Stap5 : 1.3 <1.645 en dit betekent dat de nulhypothese niet wordt verworpen.
Dus we oordelen dat de titel voorbarig is en niet gerechtvaardigd.
4
Naam en studentennummer
3) De volgende tabel toont het aantal overlevenden van de Titanic op een ( historisch) totaal van 2224
passagiers.
Overlevend
Dood
M
338
1352
1690
V
316
109
425
Kind
57
52
109
711
1513
2224
M: mannelijke volwassenen
V: vrouwelijke volwassenen
Is het spreekwoord ‘ Vrouwen en kinderen eerst’ hier van toepassing? Voer een gepaste test uit.
( significantieniveau is 5 %)
Hier zijn verschillende oplossingen mogelijk:
Eerste mogelijke oplossing
De gepaste test is bvb. de Chi-kwadraattest waarbij de kolommen Vrouwen en kinderen worden
samengeteld, en de overlevingspercentages van de V+K worden dan met deze van de mannen
vergeleken
De tabel wordt dan:
Overlevend
Dood
M
338
1352
1690
V+K
373
161
425
711
1513
2224
Dan is de
H0: er is geen verband tussen overleven en M/V+K
H1: er is wel een verband
De Chi-kwadraatstatistiek heeft dan 1 vrijheidsgraad en het kritisch punt= 3.84
De verwachte waarden zijn dan
M
V+K
Overlevend
540.28
170.62
711
Dood
1149.7
363.28
1513
1690
425
2224
De steekproefwaarde van de teststatistiek is wordt : 463.65
Omdat deze veel groter is dan 3.84 wordt de nulhypothese verworpen .
Dus er is een mogelijk verband. Maar hiermee hebben we nog niets gezegd over de aard van het
verband , maar dit blijkt dan uit de overlevings percentages omdat er duidelijk meer vrouwen en
kinderen overleven ( 69.85% ≈70 %) dan Mannen ( 20 %)
Opmerking:
Indien de twee kolommen V+K niet werden samengenomen was de
Chi-kwadraat teststatistiek=(483.75) en het aantal vrijheidsgraden= 2 met kritisch punt 5.99
Dit werd ook als correct gerekend
Een tweede mogelijkheid was :
Doe een test op het verschil tussen proporties in onafhankelijke steekproeven.
5
Naam en studentennummer
H0: kans overleven (V +K ) =kans overleven M of
H0:p1=p2
en
H1: kans overleven (V+K) > P(M) of
H1: p1>p2
Hiet voeren we een eenzijdige test uit omtrent het verschil in proporties in onafhankelijke
steekproeven. wordt hier niet verder uitgewerkt )
4) In de volgende tabel vergelijken we de resultaten van 10 studenten voor het
proefexamen ( eerste rij) en voor het examen in januari (tweede rij) .
Studentnr. 1
proef
9
januari
11
Verschil 2
2
9
9
0
3
11
12
1
4
11
13
2
5
6
4
-2
6
12
9
-3
7
9
13
4
8
18
15
-3
9
5
8
3
10
7
10
3
We zullen een gepaarde t-test uitvoeren omdat het over dezelfde 10 studenten gaat in
januari en bij het proefexamen.
En berekenen meteen de verschillen voor de 10 studenten
Deze gepaarde t-test is in feite een test omtrent één gemiddelde van het verschil.
Gemiddelde van het verschil = 0.7
Standaardafwijking (verschil)=s= 2.58 !!!!
Pas op: de standaardafwijking van het verschil is niet gelijk aan het verschil van de
standaardafwijkingen. ( zie opmerking hierna)
Voer een hypothese test uit om te beslissen of er een significant beter resultaat wordt
bekomen in januari dan bij het proefexamen ?
a) Wat is de nulhypothese ? Wat is de alternatieve hypothese ?
H0: er is geen verschil of het verschil µ verschil =µ januari-µproef =0
H1: er is wel een verschil en µ januari> µproef of het verschil µ verschil =µ januari-µproef >0
Een eenzijdige test omtrent één gemiddelde !!
b) Bereken de P-waarde voor deze test .
Test grootheid = 
D 0
sD
n
Heeft een t verdeling met 10-1=9 vrijheidsgraden en kritisch punt 1.833 ( α=5%)
In deze steekproef is t=
0.7
= 0.857
2.58
10
6
Naam en studentennummer
P-waarde is groter dan 5% omdat uit tabel ( of grafiek) blijkt dat
P(T>0.857) > P(T>1.833)=5%
c) Wat is je besluit?
We verwerpen de nulhypothese dus niet . Dus we behouden de nulhypothese.
Belangrijke opmerking :
s (proef)= 3.68 en s(jan)=3.13 maar deze standaardafwijkingen hebben we in feite niet
nodig in de berekeningen
Pas op: de standaardafwijking van het verschil is niet gelijk aan het verschil van de
standaardafwijkingen. Hier heeft de monitor zich vergist en dit verkeerd overgebracht.
Vandaar werd deze fout , die door veel studenten werd gemaakt niet meegerekend en
werd bij het kwoteren alleen gekeken of de methodologie correct werd toegepast zonder
naar het numeriek resultaat te kijken. ( want bij een foutieve standaardafwijking, zou in
dit geval de nulhypothese worden verworpen)
7
Naam en studentennummer
Tabel : normaalverdeling
Z
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
2
2.1
2.2
2.3
2.4
2.5
2.6
2.7
2.8
2.9
3
0
0.01
0.02
0.03
0.04
0.05
0.06
0.07
0.08
0.09
0
0.0398
0.0793
0.1179
0.1554
0.1915
0.2257
0.258
0.2881
0.3159
0.3413
0.3643
0.3849
0.4032
0.4192
0.4332
0.4452
0.4554
0.4641
0.4713
0.4772
0.4821
0.4861
0.4893
0.4918
0.4938
0.4953
0.4965
0.4974
0.4981
0.4987
0.004
0.0438
0.0832
0.1217
0.1591
0.195
0.2291
0.2611
0.291
0.3186
0.3438
0.3665
0.3869
0.4049
0.4207
0.4345
0.4463
0.4564
0.4649
0.4719
0.4778
0.4826
0.4864
0.4896
0.492
0.494
0.4955
0.4966
0.4975
0.4982
0.4987
0.008
0.0478
0.0871
0.1255
0.1628
0.1985
0.2324
0.2642
0.2939
0.3212
0.3461
0.3686
0.3888
0.4066
0.4222
0.4357
0.4474
0.4573
0.4656
0.4726
0.4783
0.483
0.4868
0.4898
0.4922
0.4941
0.4956
0.4967
0.4976
0.4982
0.4987
0.012
0.0517
0.091
0.1293
0.1664
0.2019
0.2357
0.2673
0.2967
0.3238
0.3485
0.3708
0.3907
0.4082
0.4236
0.437
0.4484
0.4582
0.4664
0.4732
0.4788
0.4834
0.4871
0.4901
0.4925
0.4943
0.4957
0.4968
0.4977
0.4983
0.4988
0.016
0.0557
0.0948
0.1331
0.17
0.2054
0.2389
0.2704
0.2995
0.3264
0.3508
0.3729
0.3925
0.4099
0.4251
0.4382
0.4495
0.4591
0.4671
0.4738
0.4793
0.4838
0.4875
0.4904
0.4927
0.4945
0.4959
0.4969
0.4977
0.4984
0.4988
0.0199
0.0596
0.0987
0.1368
0.1736
0.2088
0.2422
0.2734
0.3023
0.3289
0.3531
0.3749
0.3944
0.4115
0.4265
0.4394
0.4505
0.4599
0.4678
0.4744
0.4798
0.4842
0.4878
0.4906
0.4929
0.4946
0.496
0.497
0.4978
0.4984
0.4989
0.0239
0.0636
0.1026
0.1406
0.1772
0.2123
0.2454
0.2764
0.3051
0.3315
0.3554
0.377
0.3962
0.4131
0.4279
0.4406
0.4515
0.4608
0.4686
0.475
0.4803
0.4846
0.4881
0.4909
0.4931
0.4948
0.4961
0.4971
0.4979
0.4985
0.4989
0.0279
0.0675
0.1064
0.1443
0.1808
0.2157
0.2486
0.2794
0.3078
0.334
0.3577
0.379
0.398
0.4147
0.4292
0.4418
0.4525
0.4616
0.4693
0.4756
0.4808
0.485
0.4884
0.4911
0.4932
0.4949
0.4962
0.4972
0.4979
0.4985
0.4989
0.0319
0.0714
0.1103
0.148
0.1844
0.219
0.2517
0.2823
0.3106
0.3365
0.3599
0.381
0.3997
0.4162
0.4306
0.4429
0.4535
0.4625
0.4699
0.4761
0.4812
0.4854
0.4887
0.4913
0.4934
0.4951
0.4963
0.4973
0.498
0.4986
0.499
0.0359
0.0753
0.1141
0.1517
0.1879
0.2224
0.2549
0.2852
0.3133
0.3389
0.3621
0.383
0.4015
0.4177
0.4319
0.4441
0.4545
0.4633
0.4706
0.4767
0.4817
0.4857
0.489
0.4916
0.4936
0.4952
0.4964
0.4974
0.4981
0.4986
0.499
8
Naam en studentennummer
9
Naam en studentennummer
10
Download