Naam en studentennummer EXAMEN : Basisbegrippen statistiek Examen 16 januari 2015 Oplossingen 1 Naam en studentennummer Vraag 1 a) Leg in max. 3 lijnen uit wat een dichtheidsfunctie is en illustreer met 3 duidelijk verschillende voorbeelden. Een (kans) dichtheids functie van een (toevals)veranderlijke X is steeds groter dan of =0 ( f(x) >=0) en heeft een opp onder de curve =1. De oppervlakte onder de curve tussen a en b is te interpreteren als een kans dat X tussen a en b ligt 3 vb : dichtheidsfunctie vaneen t-verdeling , normaalverdeling en chi-kwadraatverdeling b) Een nieuw geneesmiddel wordt getest bij psychiatrische patienten. We wensen te testen of de nieuwe behandeling effectief is en testen of de proportie patienten die positief( =goed) reageren dezelfde is in de groep met het nieuw geneesmiddel is als in de controlegroep met het oud geneesmiddel. Stel p1 de proportie die goed reageert in de groep met het nieuwe geneesmiddel.Stel p2 de proportie in de controle groep. Welke van de volgende hypothese toetsen is geschikt ? ( één antwoord mogelijk) A. Ho : p1 <p2 and Ha: p1≥ p2 B. Ho : p1≤ p2 and Ha: p1> p2 alleen met dit alternatief zal de proportie die goed reageert groter zijn dan in de controlegroup) C. Ho : p1= p2 and Ha: p1 ≠p2 D. Ho : p1= p2 and Ha: p1< p2 Als dan de P-waarde= 0.0062 welke voorlopige conclusie wordt dan gesuggereerd? ( één antwoord mogelijk) A. Het nieuw middel heeft geen effect. B. Het nieuw geneesmiddel reduceert de proportie patienten die positief reageren. C. Het nieuw geneesmiddel doet de proportie patienten die negatief reageren stijgen. D. De test geeft geen uitsluitsel of de nieuwe methode helpt of niet helpt. p-waarde <0.05 en zlfs ook <0.01 dus de nulhypothese dat p1=p2 wordt verworpen en wijst op een significant verschil. Dus de test suggereert wel dat er een positief resultaat mag verwacht worden ( zoals in B wordt gesteld) , maar de test geeft geen uitsluitsel . Je mag het dus niet als bewezen beschouwen dat het nieuwe middel helpt . c) Juist of verkeerd: Indien verkeerd, leg uit waarom. Er wordt een steekproef genomen uit de studentenpopulatie van eerste bach en de lengte wordt gemeten van elke student. Stel dat een 95 % betrouwbaarheidsinterval wordt berekend voor het onbekende populatiegemiddelde µ =1 meter 72 cm ±15 cm 1. Elke hypothese omtrent de lengte tussen 1 m 57 en 1 m 87 is een aanvaardbare hypothese en elke hypothese buiten het interval is een hypothese die wordt verworpen Juist 2 Naam en studentennummer 2. Het steekproefgemiddelde verandert van steekproef tot steekproef, maar het betrouwbaarheidsinterval is steeds hetzelfde Verkeerd omdat het B.I. afhangt van het steekproefgemiddelde dus het verandert mee. 3. Als telkens nieuwe steekproeven worden getrokken met dezelfde steekproefgrootte, dan zal je vaststellen dat in ongeveer 2.5 % van deze steekproeven het werkelijk populatiegemiddelde niet in het betrouwbaarheidsinterval ligt. Verkeerd het is 5 % een 95 % B.I.!! 4. Als de betrouwbaarheid van het interval groter wordt gekozen bvb 99 % , dan zal het betrouwbaarheidsinterval kleiner worden. Verkeerd Het wordt groter !! Kijk bvb. naar het B.I. . X z 2 n Omdat zα/2=1.96 indien 95% betrouwbaarheid en zα/2=2.575 indien 99% betrouwbaarheid 5. De p-waarde die wordt bekomen om te testen of het populatiegemiddelde = 1m 75 is kleiner dan 0.05 Verkeerd Omdat de waarde 1m75 binnen de 95% betrouwbaarheidsgrenzen ligt wordt de nulhypothese niet verworpen en moet de P-waarde groter zijn dan 0.05 d). Twaalf juryleden worden geselecteerd uit een populatie waarin 45 % personen van Spaanse oorsprong zijn. Wat is nu de kans dat in deze jury van 12 personen , 2 juryleden van Spaanse oorsprong zijn? ( leg ook uit hoe je aan het resultaat komt) X= aantal Spaans geselecteerden X= is binomiaal verdeeld met het aantal herhalingen n= 12 en de kans op Spaans p=0.45 12 2 10 2 10 p (1 p) 66(0.45) (0.55) = 0.0334 of 3.3% 2 P(X=2)= P X x e). Stel dat de doorlooptijd (=X) van een zaak bij het Hof van Beroep normaal verdeeld is met een gemiddelde van 8 maanden en een standaardafwijking van 2 maanden In hoeveel maanden worden 80% van alle processen voltooid? X is normaal verdeeld met gemiddeld gelijk aan 8 en standaardafwijking= 2 Gegeven :P( X<x)=80 % Gevraagd Wat is x ? Oplossing: Als X normaal verdeeld is met gemiddelde 8m en s= 2m dan is Z=(X-8)/2 standaard normaal verdeeld en P(X<x)= P( (X-8)/2<(x-8)/2)= P(Z<(x-8)/2)=0.80 P(0<Z<(x-8)/2)=0.80-0.50 =0.30 Uit tabel normaalverdeling volgt dat (x-8)/2=0.845- Dus x=9.69 maanden 3 Naam en studentennummer f) “ Statisticians and forensic scientists sometimes use the phrase “the likelihood of the evidence” (ref: Fundamentals of Probability and Statistical Evidence in Criminal Proceedings Royal Statistical Society) Wat betekent dit ? ( max. 2 lijnen) Likelihood probability . Dus het gaat hier over de aannemelijkheid, waarschijnlijkheid van het bewijsmateriaal (Evidence), bvb bloedsporen, dna ,.. cfr ook 2.13 p 35 ‘Statisticians and forensic scientists sometimes use the phrase “the likelihood of the evidence”. This is shorthand for “the likelihood of finding the evidence in the context of the crime scene and the environment of the suspect” (or its contextual equivalents). References to “likelihood” in this context are often synonyms for “probability”. g) Waarom is een boxplot een zeer informatieve grafische voorstelling ? ( kort antwoord ) Op 1 plot worden tegelijk Mediaan, Q1,Q3, Min, Max,en het gemiddelde voorgesteld, ook eventueel outliers. Daarenboven krijgen we een idee van de spreiding ( met Interkwartielafstand, Max-Min) en de symmetrie of de scheefheid van de verdeling 2) In mei 2006 waren 65 % van de Amerikanen vóór de doodstraf in geval van moord. In oktober 2006 wijst een enquête bij 1005 Amerikanen uit dat 673 personen vóór de doodstraf zijn. De titel van een artikel in de krant luidt: ‘Meer Amerikanen zijn voor de doodstraf’ of ‘More Americans favour the death penalty’ Gebruik een hypothese test om deze bewering te toetsen. ( significantieniveau is 5 %) Is de titel in de krant gerechtvaardigd ? Stap 1: H0: p=0.65 H1: p>0.65 ! eenzijdig omdat we proberen aan te tonen dat er meer voorstanders zijn ‘ Stap 2: Teststatistiek is de steekproefproportie Deze is onder de H0 normaal verdeeld omdat de steekproef groot genoeg is ( gebruik hier de Centrale limietstelling ) met gemiddelde = 0.65 en variantie 0.65(1-0.65)/1005 Standaardiseer dan en P̂ 0.65 0.65( 1 0.65 ) 1005 = Z en is normaal verdeeld met gemiddelde 0 en variantie 1 Stap 3: Stel α=0.05 dan is het kritisch punt z0.05=1.645 ( tabel normaalverdeling!!!) Stap 4: In de steekproef is p̂ 673/1005=0.67 en dan wordt z=1.3 Stap5 : 1.3 <1.645 en dit betekent dat de nulhypothese niet wordt verworpen. Dus we oordelen dat de titel voorbarig is en niet gerechtvaardigd. 4 Naam en studentennummer 3) De volgende tabel toont het aantal overlevenden van de Titanic op een ( historisch) totaal van 2224 passagiers. Overlevend Dood M 338 1352 1690 V 316 109 425 Kind 57 52 109 711 1513 2224 M: mannelijke volwassenen V: vrouwelijke volwassenen Is het spreekwoord ‘ Vrouwen en kinderen eerst’ hier van toepassing? Voer een gepaste test uit. ( significantieniveau is 5 %) Hier zijn verschillende oplossingen mogelijk: Eerste mogelijke oplossing De gepaste test is bvb. de Chi-kwadraattest waarbij de kolommen Vrouwen en kinderen worden samengeteld, en de overlevingspercentages van de V+K worden dan met deze van de mannen vergeleken De tabel wordt dan: Overlevend Dood M 338 1352 1690 V+K 373 161 425 711 1513 2224 Dan is de H0: er is geen verband tussen overleven en M/V+K H1: er is wel een verband De Chi-kwadraatstatistiek heeft dan 1 vrijheidsgraad en het kritisch punt= 3.84 De verwachte waarden zijn dan M V+K Overlevend 540.28 170.62 711 Dood 1149.7 363.28 1513 1690 425 2224 De steekproefwaarde van de teststatistiek is wordt : 463.65 Omdat deze veel groter is dan 3.84 wordt de nulhypothese verworpen . Dus er is een mogelijk verband. Maar hiermee hebben we nog niets gezegd over de aard van het verband , maar dit blijkt dan uit de overlevings percentages omdat er duidelijk meer vrouwen en kinderen overleven ( 69.85% ≈70 %) dan Mannen ( 20 %) Opmerking: Indien de twee kolommen V+K niet werden samengenomen was de Chi-kwadraat teststatistiek=(483.75) en het aantal vrijheidsgraden= 2 met kritisch punt 5.99 Dit werd ook als correct gerekend Een tweede mogelijkheid was : Doe een test op het verschil tussen proporties in onafhankelijke steekproeven. 5 Naam en studentennummer H0: kans overleven (V +K ) =kans overleven M of H0:p1=p2 en H1: kans overleven (V+K) > P(M) of H1: p1>p2 Hiet voeren we een eenzijdige test uit omtrent het verschil in proporties in onafhankelijke steekproeven. wordt hier niet verder uitgewerkt ) 4) In de volgende tabel vergelijken we de resultaten van 10 studenten voor het proefexamen ( eerste rij) en voor het examen in januari (tweede rij) . Studentnr. 1 proef 9 januari 11 Verschil 2 2 9 9 0 3 11 12 1 4 11 13 2 5 6 4 -2 6 12 9 -3 7 9 13 4 8 18 15 -3 9 5 8 3 10 7 10 3 We zullen een gepaarde t-test uitvoeren omdat het over dezelfde 10 studenten gaat in januari en bij het proefexamen. En berekenen meteen de verschillen voor de 10 studenten Deze gepaarde t-test is in feite een test omtrent één gemiddelde van het verschil. Gemiddelde van het verschil = 0.7 Standaardafwijking (verschil)=s= 2.58 !!!! Pas op: de standaardafwijking van het verschil is niet gelijk aan het verschil van de standaardafwijkingen. ( zie opmerking hierna) Voer een hypothese test uit om te beslissen of er een significant beter resultaat wordt bekomen in januari dan bij het proefexamen ? a) Wat is de nulhypothese ? Wat is de alternatieve hypothese ? H0: er is geen verschil of het verschil µ verschil =µ januari-µproef =0 H1: er is wel een verschil en µ januari> µproef of het verschil µ verschil =µ januari-µproef >0 Een eenzijdige test omtrent één gemiddelde !! b) Bereken de P-waarde voor deze test . Test grootheid = D 0 sD n Heeft een t verdeling met 10-1=9 vrijheidsgraden en kritisch punt 1.833 ( α=5%) In deze steekproef is t= 0.7 = 0.857 2.58 10 6 Naam en studentennummer P-waarde is groter dan 5% omdat uit tabel ( of grafiek) blijkt dat P(T>0.857) > P(T>1.833)=5% c) Wat is je besluit? We verwerpen de nulhypothese dus niet . Dus we behouden de nulhypothese. Belangrijke opmerking : s (proef)= 3.68 en s(jan)=3.13 maar deze standaardafwijkingen hebben we in feite niet nodig in de berekeningen Pas op: de standaardafwijking van het verschil is niet gelijk aan het verschil van de standaardafwijkingen. Hier heeft de monitor zich vergist en dit verkeerd overgebracht. Vandaar werd deze fout , die door veel studenten werd gemaakt niet meegerekend en werd bij het kwoteren alleen gekeken of de methodologie correct werd toegepast zonder naar het numeriek resultaat te kijken. ( want bij een foutieve standaardafwijking, zou in dit geval de nulhypothese worden verworpen) 7 Naam en studentennummer Tabel : normaalverdeling Z 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 2 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 3 0 0.01 0.02 0.03 0.04 0.05 0.06 0.07 0.08 0.09 0 0.0398 0.0793 0.1179 0.1554 0.1915 0.2257 0.258 0.2881 0.3159 0.3413 0.3643 0.3849 0.4032 0.4192 0.4332 0.4452 0.4554 0.4641 0.4713 0.4772 0.4821 0.4861 0.4893 0.4918 0.4938 0.4953 0.4965 0.4974 0.4981 0.4987 0.004 0.0438 0.0832 0.1217 0.1591 0.195 0.2291 0.2611 0.291 0.3186 0.3438 0.3665 0.3869 0.4049 0.4207 0.4345 0.4463 0.4564 0.4649 0.4719 0.4778 0.4826 0.4864 0.4896 0.492 0.494 0.4955 0.4966 0.4975 0.4982 0.4987 0.008 0.0478 0.0871 0.1255 0.1628 0.1985 0.2324 0.2642 0.2939 0.3212 0.3461 0.3686 0.3888 0.4066 0.4222 0.4357 0.4474 0.4573 0.4656 0.4726 0.4783 0.483 0.4868 0.4898 0.4922 0.4941 0.4956 0.4967 0.4976 0.4982 0.4987 0.012 0.0517 0.091 0.1293 0.1664 0.2019 0.2357 0.2673 0.2967 0.3238 0.3485 0.3708 0.3907 0.4082 0.4236 0.437 0.4484 0.4582 0.4664 0.4732 0.4788 0.4834 0.4871 0.4901 0.4925 0.4943 0.4957 0.4968 0.4977 0.4983 0.4988 0.016 0.0557 0.0948 0.1331 0.17 0.2054 0.2389 0.2704 0.2995 0.3264 0.3508 0.3729 0.3925 0.4099 0.4251 0.4382 0.4495 0.4591 0.4671 0.4738 0.4793 0.4838 0.4875 0.4904 0.4927 0.4945 0.4959 0.4969 0.4977 0.4984 0.4988 0.0199 0.0596 0.0987 0.1368 0.1736 0.2088 0.2422 0.2734 0.3023 0.3289 0.3531 0.3749 0.3944 0.4115 0.4265 0.4394 0.4505 0.4599 0.4678 0.4744 0.4798 0.4842 0.4878 0.4906 0.4929 0.4946 0.496 0.497 0.4978 0.4984 0.4989 0.0239 0.0636 0.1026 0.1406 0.1772 0.2123 0.2454 0.2764 0.3051 0.3315 0.3554 0.377 0.3962 0.4131 0.4279 0.4406 0.4515 0.4608 0.4686 0.475 0.4803 0.4846 0.4881 0.4909 0.4931 0.4948 0.4961 0.4971 0.4979 0.4985 0.4989 0.0279 0.0675 0.1064 0.1443 0.1808 0.2157 0.2486 0.2794 0.3078 0.334 0.3577 0.379 0.398 0.4147 0.4292 0.4418 0.4525 0.4616 0.4693 0.4756 0.4808 0.485 0.4884 0.4911 0.4932 0.4949 0.4962 0.4972 0.4979 0.4985 0.4989 0.0319 0.0714 0.1103 0.148 0.1844 0.219 0.2517 0.2823 0.3106 0.3365 0.3599 0.381 0.3997 0.4162 0.4306 0.4429 0.4535 0.4625 0.4699 0.4761 0.4812 0.4854 0.4887 0.4913 0.4934 0.4951 0.4963 0.4973 0.498 0.4986 0.499 0.0359 0.0753 0.1141 0.1517 0.1879 0.2224 0.2549 0.2852 0.3133 0.3389 0.3621 0.383 0.4015 0.4177 0.4319 0.4441 0.4545 0.4633 0.4706 0.4767 0.4817 0.4857 0.489 0.4916 0.4936 0.4952 0.4964 0.4974 0.4981 0.4986 0.499 8 Naam en studentennummer 9 Naam en studentennummer 10