5 Hypothesetoetsen 1 Inhoudsopgave 0. Wie heeft gelijk? 3 1. Kritiek gebied 6 2. Toetsen met de binomiale verdeling 12 3. Toetsen met de normale verdeling 15 4. Samenvatting 18 5. Gemengde opgaven 19 Bij dit hoofdstuk hoort een digimap. Daarin staan opgaven waarbij er iets met ict valt te beleven. Ze hebben hetzelfde nummer als de bijbehorende opgave in deze tekst. Je herkent ze aan het icoontje ! . Via de digimap kom je bij VU-Statistiek of op een website terecht. De opgaven in de digimap kunnen op drie manieren worden gebruikt: - niet, aanvullend op de corresponderende opgave in deze tekst, vervangend voor de corresponderende opgave in deze tekst. Colofon © 2011 cTWO Experimentele uitgave Kansrekening en Statistiek, vwo, wiskunde A en C versie 2 (april 2012) auteurs Leon van den Broek, Maris van Haandel digiboek Carel van de Giessen met medewerking van Simon Biesheuvel, Piet Versnel, Peter van Wijk Op dit werk zijn de bepalingen van Creative Commons van toepassing. Iedere gebruiker is vrij het materiaal voor eigen, nietcommerciële doeleinden aan te passen. De rechten blijven aan cTWO. 2 0. Wie heeft gelijk? Reden tot ongerustheid? In het dorpje Weurt bij Nijmegen heerst grote onrust over een volgens de bevolking onrustbarend hoog aantal gevallen van kanker onder de 2600 inwoners. Een op verzoek van de bewoners gehouden onderzoek van de GGD regio Nijmegen heeft de onrust alleen maar aangewakkerd. De GGD constateerde dat in de periode 1989-1992 bij mannen in Weurt 50 procent meer gevallen van kanker voorkwamen dan het landelijk gemiddelde. Er waren 33 gevallen van kanker geconstateerd, terwijl op basis van het landelijk gemiddelde 22 gevallen te verwachten waren. Weurt (gemeente Beuningen) is aan drie kanten omgeven door industrieterreinen, waar een vuilverbrandingsoven, een ijzergieterij en andere zware industrie dagelijks hun afvalstoffen lozen. Volgens de bewoners zijn de fabrieken verantwoordelijk voor de kankergevallen en steeds meer voorkomende neus, keel- en oogklachten. 1 Lees bovenstaand artikel uit NRC-Handelsblad van 19 januari 1995 (ingekort). Je mag aannemen dat de helft van Weurts bevolking mannelijk is. a. Lijkt jou het aantal keer dat kanker voorkomt in Beuningen significant hoger dan in de rest van het land? b. Lijkt jou dat het aangrenzende fabrieksterrein de oorzaak is van het verhoogde aantal kankergevallen in Weurt? In dit hoofdstuk zullen we een methode behandelen om te beslissen of de inwoners van Weurt een verhoogd risico hebben op kanker. (Het alternatief is dat het hogere aantal kankergevallen op toeval berust.) c. Leg uit dat je uit het artikel kunt afleiden dat onder normale omstandigheden het percentage kankergevallen onder mannen ongeveer 1,7% is. Stel dat in Weurt de kans op kanker even groot is als in de rest van Nederland, dus 0,017 per persoon. Je kunt de mannelijke bevolking van Weurt dan beschouwen als een groep van 1300 willekeurige mannen. Het aantal kankergevallen in zo'n groep noemen we X. X is binomiaal verdeeld. d. Wat is het “aantal herhalingen n”, wat is de “succeskans p” en wat is de verwachtingswaarde van X? e. Wat is de kans dat X niet meer dan 5 van 22 afwijkt? Wat is de kans dat X niet meer dan 10 van 22 afwijkt? f. Vind jij, gezien de kansen in het vorige onderdeel, een aantal van 33 uitzonderlijk hoog? Vind jij dat de bevolking van Weurt reden tot ongerustheid heeft? In dit hoofdstuk zal de volgende vraag centraal staan: bij welke aantallen kankerpatiënten verwerp je de mogelijkheid dat zo’n aantal door toeval tot stand is gekomen. (Dit bekijken we natuurlijk ook in andere contexten.) De conclusie is dat de mannen in Weurt een duidelijk hoger risico op kanker hebben. Wat de oorzaak hiervan is, is een heel ander verhaal. Uit een rapport van het Universitair Medisch Centrum St Radboud, uit april 2004: De resultaten van de huidige studie laten zien dat, over een periode van 13 jaar, de longkankerincidentie bij mannen in Weurt is verhoogd met circa 35 (SMR= Standardised Mortality Rate: 1,35). Ook over deze lange periode blijft de nauwkeurigheid van deze schatting echter beperkt. De schatting is gebaseerd op 27 gevallen van longkanker, terwijl er 20 werden verwacht. In het verleden leek de longkankerincidentie bij mannen sterker verhoogd. De huidige berekeningen wijzen erop dat tenminste een deel van die verhoging door toeval is veroorzaakt. 3 De resultaten zeggen niets over mogelijke oorzaken van longkanker. Aangezien roken de belangrijkste oorzaak is voor het ontstaan van longkanker, zou op zijn minst informatie bekend moeten zijn over het aantal rokers in Weurt in de afgelopen decennia. Hiernaast kunnen ook beroepsexposities een rol hebben gespeeld. De rol van milieufactoren lijkt ondergeschikt daar alleen bij mannen en niet bij vrouwen een verhoging in de longkankerincidentie is gevonden. We gaan allerlei situaties bekijken, waar je ook op grond van een statistisch gegeven een conclusie moet trekken. Het is de bedoeling is dat je de vragen op gevoel beantwoordt; je hoeft je antwoorden dus niet te verantwoorden. Hoe je verantwoord conclusies kunt trekken, komt later in de hoofdstuk aan de orde. Dan zullen we op deze voorbeelden terugkomen. 2 In tien worpen valt een munt zeven keer op kop. Iemand beweert daarom dat de munt vals is. a. Geef je hem gelijk? Zeg dat het aantal keer (van de tien) dat de munt op kop valt niet zeven is maar n. b. Bij welke waarden van n geef je hem gelijk? We vergroten de aantal met een factor 100. in duizend worpen valt een munt 700 keer op kop. c. Denk je dat de munt vals is? Zeg dat het aantal keer (van de duizend) dat de munt op kop valt niet 700 is maar n. d. Bij welke waarden van n concludeer je dat de munt vals is? 3 “Ik had graag een stuk Edammer van een pond”. De kaasboer snijdt op het oog een stuk kaas voor de klant. In acht van de tien keer blijkt het meer dan 500 gram te zijn. Een klant beweert dat de kaasboer systematisch teveel snijdt. a. Geef je hem gelijk? Zeg dat het aantal keer (van de tien) dat de kaasboer te veel afsnijdt niet acht is maar n. b. Bij welke waarden van n geef je de klant gelijk? 4 De consumentenbond neemt een steekproef en weegt twintig 5 kg-zakken aardappelen (zo staat het op de zakken) van een zekere groothandel. Ze blijken in totaal 97 kg te bevatten. a. Lijkt jou de conclusie gerechtvaardigd dat 5 kg-zakken van de groothandel minder dan 5 kg bevatten? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen? 5 Een dictator beweert dat 70% van de bevolking zijn beleid steunt. Van de eerste tien mensen die je ondervraagt zeggen er vijf dat ze het beleid van de dictator afkeuren. a. Lijkt je de conclusie gerechtvaardigd dat de dictator de zaak te gunstig voor hem voorstelt? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen? 6 Een supermarkt zegt dat de gemiddelde wachttijd voor haar kassa’s niet meer dan 2 minuten bedraagt. De laatste vier keer heb ik bijgehouden hoe lang ik moest wachten: 3, 4, 3 en 2 minuten. Ik beweer dat de supermarkt een oneerlijk beeld schetst van de werkelijkheid. Ben jij het met mij eens? 4 7 Geloof je in helderziendheid? In 1968 experimenteerde de parapsycholoog J. Barry om te kijken of personen met hun gedachten de groei van paddenstoelen konden vertragen. Zijn experiment werd goed opgezet. Er namen tien personen aan het experiment deel. Ze werden elk in een kamer gezet; elk had een eigen maar verder identieke verzameling paddenstoelen. Elke verzameling was verdeeld in tweeën: vijf paddenstoelen waren experimenteel en vijf vormden de controlegroep. Iedere proefpersoon moest zich concentreren op de experimentele paddenstoelen en ze met zijn gedachten dwingen trager te gaan groeien. Het bleek dat bij negen van de tien personen de experimentele groep paddenstoelen trager groeide dan de controlegroep. Volgens J. Barry was dit een significant resultaat. (Uit: Risico’s van Peter Sprent, 1990) a. Geef commentaar. b. Wat zou jij aanbevelen om meer zekerheid te verkrijgen? 8 Op de website nos.nl werd op 21 juni 2011 het volgende bericht geplaatst (het bericht is enigszins ingekort). Onder de 47 patiënten die op de Intensive Care van het Maasstad Ziekenhuis in Rotterdam een multiresistente bacterie hebben opgelopen, zijn 21 doden gevallen. Dat blijkt uit het onderzoek van het ziekenhuis zelf. Wetenschappers van het RIVM zijn nu bezig die onderzoeksresultaten te controleren. Het aantal besmettingen en ook doden zou dus nog kunnen oplopen. Het is heel moeilijk om te zeggen hoeveel doden daadwerkelijk het gevolg zijn van een infectie veroorzaakt door de multiresistente bacterie. Patiënten op een IC zijn altijd ernstig ziek en verzwakt. De artsen op de intensive care van het Maasstad Ziekenhuis gaan ervan uit dat alle patiënten zijn overleden aan hun eigenlijke kwaal, zegt arts microbioloog Tjaco Ossenwaarde van het Maasstad Ziekenhuis. a. Lijkt je de conclusie gerechtvaardigd dat alle 21 patiënten zijn overleden aan hun eigenlijke kwaal en niet mede aan de besmetting met de multiresistente bacterie? b. Wat zou je nog meer willen weten, om met meer zekerheid een oordeel te kunnen vellen? 5 1. Kritiek gebied ! 9 De wiskunde A-docent Jan Stoer zag het examen met vertrouwen tegemoet. Zijn klas had goed gewerkt, dus verwachtte hij dat het vwo wiskunde A-examen wel goed zou gaan. En dat bleek ook het geval te zijn: de 25 leerlingen scoorden de volgende cijfers: 7,6 8,7 8,0 7,8 6,1 8,5 6,8 6,9 8,3 9,9 5,6 6,8 8,0 3,4 5,3 9,4 8,6 5,7 4,1 6,9 6,8 8,5 7,6 7,1 8,0 Jan maakte bij de cijfers een frequentiehistogram, met klassebreedte 1. De cijfers 4,5 t/m 5,4 komen in de klasse “5”, enzovoort. a. Wat was de mediaan van de cijfers? 10 8 6 4 2 0 3 4 5 6 7 8 9 10 Voor alle leerlingen in Nederland die het wiskunde A-examen in 2010 hebben gemaakt, was de mediaan 6,7. b. Hoeveel procent van de klas van Jan Stoer scoorden boven de landelijke mediaan? Geen wonder dat Jan Stoer trots was op zijn klas (en op zichzelf). Henk Modaal, zijn collega Frans, is niet zo onder de indruk van de prestaties van Jans klas. Hij redeneert: als je een munt 25 keer opgooit, kan die best 19 of meer keer op kop vallen. c. Hoe groot is die kans? d. Wat denk jij, is de trots van Jan Stoer terecht? Twee meningen, die van Jan en van zijn collega staan tegenover elkaar: Jan: “de klas heeft buitengewoon goed gepresteerd”, Henk: “dit kan best toeval zijn”. Als Henk gelijk heeft, is de kans p dat een leerling bovenmodaal scoort !. Dat noemen we de nulhypothese: H0. Als Jan gelijk heeft, is die kans groter dan ! ; dat is de alternatieve hypothese H1. H1 zegt niet hoe groot de kans p precies is; alleen maar dat hij groter is dan ! . Wie gelijk heeft is niet met zekerheid vast te stellen. Maar wel hoe zeldzaam de prestatie van Jans klas is, onder de aanname dat Henk gelijk heeft. We benaderen het probleem nu algemener (en vergeten even dat er 19 leerlingen boven de landelijke mediaan scoorden. • Stel dat in Jan Stoers klas alle 25 leerlingen boven de landelijke mediaan zouden hebben gescoord. Dan zou het wel heel toevallig zijn dat dat resultaat door toeval tot stand is gekomen. In dat geval zal elk weldenkend mens Henks hypothese verwerpen. • Stel dat in Jans Stoers klas maar 14 leerlingen boven de landelijke mediaan zouden hebben gescoord. Dat is een heel gewoon resultaat. Dan zal een weldenkend mens Henks hypothese niet verwerpen. Vraag: bij welk aantallen leerlingen die boven de mediaan scoren verwerp je Henks hypothese, en bij welke aantallen niet? Met andere woorden: Waar trek je de grens? 6 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Hierboven staan de mogelijke aantallen leerlingen die boven de landelijke mediaan scoren; de aantallen lager dan 12 zijn weggelaten. Stel dat we de grens tussen 16 en 17 trekken: 12 13 14 15 16 17 18 19 20 21 22 23 24 25 De kans dat door louter toeval (zoals Henk beweerde) het aantal in het linker stuk terecht komt is 0,946, de kans dat hij in het rechter stuk terecht komt is dus 0,054. Het aantal leerlingen boven de mediaan in Jan Stoers klas was 19. Dat zit in het rechter stuk. Omdat de kans om daarin terecht te komen slechts 0,054 is, is de prestatie van Jans klas waarschijnlijk geen toeval. We hadden de grens ook tussen 17 en 18 kunnen trekken: 12 13 14 15 16 17 18 19 20 21 22 23 24 25 De kans op het rechter stuk is nu zelfs maar 0,022. Omdat het aantal in Jans klas in dat gebied valt, is de conclusie gerechtvaardigd dat Jan een goede klas had. Er zit iets willekeurigs in de aanpak. Wat vind je een kleine kans? Dat bepaalt waar je de grens gaat trekken. En dat bepaalt weer of je Henk gelijk geeft of niet. De beslissingsprocedure is als volgt: • We letten op het aantal leerlingen dat boven de landelijke mediaan scoort: dat is de toetsingsgrootheid X. • De mogelijke waarden worden opgesplitst in twee stukken, zo dat - als H0 waar is - de kans dat X een waarde binnen het ene (in dit geval rechter) stuk aanneemt kleiner is dan !. • Als X dan toch een waarde in dat stuk aan blijkt te nemen, zal men H0 verwerpen. Dat stuk heet het kritieke gebied. “Kritiek”, omdat dan wel eens een verkeerde beslissing genomen kan worden. Het kritieke gebied hangt af van de waarde van !. ! heet wel het significantieniveau. Vaak wordt ! = 0,05 genomen. ! 10 a. Wat is het kritieke gebied in bovenstaand voorbeeld bij ! = 0,05? b. En bij ! = 0,02? 11 Iemand zegt helderziende te zijn. Hij kan zeggen of een speelkaart een klaveren, ruiten, harten of schoppen is – zonder de kaart te zien natuurlijk. Hem worden twintig kaarten voorgelegd, waarvan hij de kleur gaat voorspellen. X is het aantal goede voorspellingen dat hij gaat doen. a. Wat is het waardengebied van X? Stel H0 : De “helderziende” is een bedrieger en heeft geen talent om kaarten te voorspellen. b. Wat is dan de kans per kaart dat hij hem goed voorspelt? c. Wat is dan de verwachtingswaarde van X? d. Wat is het kritieke gebied als ! = 0,05? En als ! = 0,1? En als ! = 0,02? 7 12 Een atleet zegt tegen een journalist dat hij de 100 meter loopt in 11,0 seconden en dat hij 80% van zijn sprints loopt binnen de 11,3 seconden. Neem aan dat zijn 100-metertijd normaal verdeeld is. a. Welke standaardafwijking volgt uit de beweringen van de atleet? In drie decimalen. De atleet gaat de 100 meter lopen. De tijd in seconden die hij gaat realiseren noemen we T. Veronderstel dat de atleet gelijk heeft. We splitsen de verzameling mogelijke waarden van T in twee stukken: - waarden boven of gelijk aan een zekere grenswaarde g; dat is het kritieke gebied, - waarden onder die grenswaarde g. Dat doen we zo, dat - als de atleet gelijk heeft - een resultaat in het kritieke gebied kleiner dan ! is. b. Wat is het kritieke gebied als ! = 0,1. c. Bepaal ook het kritieke gebied als ! = 0,05. De journalist gelooft de atleet niet als T een waarde boven of gelijk aan g aanneemt; anders wel. De atleet realiseert een tijd van 11,48 seconde. d. Wat is bij elk van de waarden van " de conclusie van de journalist? Theorie Iemand doet een bewering, een ander twijfelt aan de juistheid daarvan. Een hypothesetoets is een procedure om te beslissen wie gelijk krijgt. Daarbij heb je: • twee hypothesen: de nulhypothese H0 en de alternatieve hypothese H1, • een toetsingsgrootheid; dat is het aantal X dat geteld wordt (of een gewicht dat gemeten wordt, of ...), • een criterium dat zegt bij welke waarden van X de nulhypothese wordt verworpen. Deze waarden vormen het zogenaamde kritieke gebied. Het kritieke gebied wordt zo bepaald dat - als H0 waar is - de kans dat X een waarde aanneemt in het kritieke gebied kleiner is dan een vooraf afgesproken ". Deze " heet het significantieniveau. Voor " neemt men vaak 0,05 , 0,01 of zelfs 0,005, afhankelijk van hoe zwaarwegend de beslissing is. Schematisch: • H0 : ……………. H1 : ……………. • X = ………. • ! = …. • Kritiek gebied : ……………. Voorbeeld (opgave 9) • H0 : Henk heeft gelijk H1 : Jan heeft gelijk • X = het aantal leerlingen dat hoger dan de landelijke mediaan scoort X is binomiaal verdeeld met n = 25 en succeskans p • H0 : p = ! H1 : p > ! • ! = 0,05 • Kritiek gebied : 17, 18, … , 25 13 Behandel de opgaven 11 en 12 net zoals in het voorbeeld. 8 Na het opstellen van de hypothesetoets volgt een experiment (*). Daarin neemt X een waarde aan. • Als X in het kritieke gebied zit, wordt H0 verworpen (en dus H1 geaccepteerd). Waarschijnlijk gebeurt dat terecht, maar helemaal zeker is dat niet. Het is dus mogelijk dat een verkeerde beslissing wordt genomen. Vandaar de term kritiek gebied. Als H0 ten onrechte wordt verworpen, spreekt men van de fout van de eerste soort. De kans op de fout van de eerste soort is kleiner dan !. • Als X niet in het kritieke gebied zit, wordt H0 niet verworpen. Er is een redelijke kans dat dit onterecht gebeurt. Men spreekt dan van de fout van de tweede soort. Dit wordt meestal minder erg gevonden. Opmerking: als H0 niet verworpen wordt, omdat het resultaat niet significant is, kan er toch (veel) twijfel bestaan of H0 wel juist is. Vergelijk dit met de rechtspraak: als een verdachte bij gebrek aan bewijs niet wordt veroordeeld, betekent dat nog niet dat hij onschuldig is. (*) Let op de juiste volgorde. Je moet eerst de toets opstellen en daarna pas het experiment uitvoeren. 14 In het begin van een voetbalwedstrijd moet de speelrichting van de teams worden bepaald en wie mag aftrappen. De scheidsrechter doet dit door “tossen”: hij gooit een muntstuk op; als het op kop valt kiest het team dat kop koos de speelrichting en de andere partij doet de aftrap. (Voor de tweede helft is het omgekeerd.) Men gaat er bij de toss vanuit dat het muntstuk met evenveel kans op kop als op munt valt. Als in plaats van een muntstuk een kroonkurk wordt gekozen, is dat niet zo zeker. De kans dat een kroonkurk met de holle kant naar boven valt, noemen we p. We zetten twee meningen tegenover elkaar: H0 : p = 0,5 " H1 : p # 0,5 Omdat p volgens de alternatieve hypothese zowel groter als kleiner dan 0,5 kan zijn, hebben we hier te maken met een tweezijdige toets. X is het aantal keer dat de holle kant boven komt, in een serie van vijftig worpen. H0 zal worden verworpen als de waarde van X sterk afwijkt van het verwachte aantal 25, naar beneden of naar boven. Het kritieke gebied bestaat dus uit twee stukken, namelijk de erg lage aantallen en de erg hoge aantallen. Beide stukken moeten een kans hebben van hoogstens !". a. Bepaal het kritieke gebied bij ! = 0,1. X blijkt de waarde 37 aan te nemen. b. Is de kroonkurk bruikbaar om te tossen? 15 Sanne en Harm toepen regelmatig samen. Toepen is een kaartspel waarbij de spelers elk vier kaarten krijgen uit een spel van 32 kaarten: B, V, H, A, 7, 8, 9, 10 van elke kleur. De 10 is de hoogste, de boer de laagste kaart. Het is dus gunstig om 10’en te krijgen. De kans dat een speler minstens één 10 krijgt is 0,43. a. Reken dat na. 9 Die kans is 0,43 , tenminste als er eerlijk gedeeld wordt. Harm is argwanend en denkt dat Sanne de kaarten “steekt” als ze de kaarten deelt. Hij denkt dat Sanne – als ze zelf deelt - veel vaker ten minste één 10 heeft dan in 43% van de keren. We gaan dit vermoeden toetsen, in twintig keer dat Sanne deelt. b. Formuleer H0 en H1. c. Leg uit dat je hier niet met een tweezijdige toets te maken hebt. We spreken hier van een eenzijdige toets. d. Wat is de toetsingsgrootheid? e. Bepaal het kritieke gebied bij ! = 0,1. Harm telt dat Sanne dertien keer een of meer 10’en had als ze deelde. f. Wat gaat Harm concluderen bij ! = 0,1? Over eenzijdig en tweezijdig Vaak constateren mensen iets, bijvoorbeeld dat een munt vaak op kop valt en denken daarom dat ze eenzijdig moeten toetsen. H0: kans op kop = ! tegen H1: kans op kop > !. Dit is onjuist. Zo’n constatering mag je wel op het idee brengen een hypothese te toetsen, maar je moet onbevoordeeld aan de toets beginnen: eerst de toets formuleren en dan pas het experiment uitvoeren. In dit geval moet dus tweezijdig getoetst worden. In het voorbeeld van het toepen deelt Sanne eerlijk of niet. Als ze oneerlijk deelt, is het verwachte aantal 10’en per keer groter dan ! en beslist niet kleiner. Nu moet dus eenzijdig getoetst worden. 16 Sanne beweert dat een punaise met kans $ met de punt naar boven valt en met kans % met de punt naar beneden. Harm zou niet weten waarom dat zo is. Om Sannes bewering te toetsen, keert hij een bakje met honderd punaises ondersteboven en telt het aantal punaises X dat met de punt omhoog komt te liggen. Als significantieniveau neemt hij 0,1. Het kritieke gebied bestaat uit twee stukken. De kans dat de waarde van X in één van die stukken ligt, moet dus kleiner dan 0,05 zijn. a. Bereken P(X & 84) en P(X ' 66). b. Wat zal Harms conclusie zijn als X de waarde 84 blijkt te hebben? c. Wat zal Harms conclusie zijn als X de waarde 66 blijkt te hebben? Als X de waarde 84 blijkt te hebben, hoeven we niet het kritieke gebied te bepalen. We kunnen volstaan met de kans P(X # 84). Omdat die kleiner is dan !" = 0,05, kan Harm Sannes bewering verwerpen. We noemen P(X # 84) de overschrijdingskans van 84, dat is de kans op een aantal van 84 of meer. 10 17 Nog even terug naar het vermeende steken van de kaarten door Sanne (opgave 15). Neem aan dat H0 waar is: Sanne deelt eerlijk. X is het aantal keer dat Sanne een of meer 10’en krijgt in een serie van twintig keer dat ze zelf deelt. Als significantieniveau kiezen we weer 10%. Wat is dan P(X # 13)? Omdat deze kans kleiner is dan 0,1, zullen we H0 bij ! = 0,1 verwerpen, als Sanne 13 keer ten minste één 10 krijgt in de serie van twintig. Ook nu hoeven we dus niet het kritieke gebied te bepalen. De kans P(X # 13) is de overschrijdingskans van 13, dat is de kans op een aantal van 13 of groter. 18 Gregor Mendel (1822-1884) deed biologische experimenten, waarbij hij erwtenplantjes met elkaar kruiste. Volgens de theorie moesten 75% van de nakomelingen geel zijn en 25% groen. Hij testte de theorie met 8023 erwtenplantjes van de tweede generatie. a. Welke waren Mendels H0- en H1-hypothese, denk je? Wat was zijn toetsingsgrootheid? b. Wat is het kritieke gebied bij ! = 0,05? Soms moet je eenzijdig en soms tweezijdig toetsen. In het geval van tweezijdig toetsen, bestaat het kritieke gebied uit twee stukken. Die worden zó bepaald dat de kans dat de toetsingsgrootheid X een waarde in een van die stukken aanneemt – als H0 waar is – kleiner is dan ". Dus zó dat de kans dat X een waarde in één van die stukken aanneemt kleiner is dan !". Stel dat X de waarde x aanneemt. H0 wordt verworpen als de overschrijdingskans P(X & x) kleiner is dan !" en ook als de overschrijdingskans P(X ' x) kleiner is dan !". In het geval van eenzijdig toetsen, bestaat het kritieke gebied uit één stuk. Dat wordt zó bepaald dat de kans dat de toetsingsgrootheid X een waarde in dat stuk aanneemt – als H0 waar is – kleiner is dan ". Stel dat X de waarde x aanneemt. Bij een rechtszijdige toets wordt H0 verworpen als de overschrijdingskans P(X & x) kleiner is dan " en bij een linkszijdige toets als de overschrijdingskans P(X ' x) kleiner is dan ". 11 ! 2 Toetsen met de binomiale verdeling 19 In de kantine van een groot bedrijf staan vierkante tafeltjes met vier stoelen er omheen. Een psycholoog observeert het gedrag van de mensen die zich daar in de middagpauze ophouden. In het bijzonder kijkt hij naar de tafeltjes waaraan twee mensen zitten. Die twee kunnen tegenover elkaar zitten of naast elkaar aan de hoek van het tafeltje. In de loop van enkele dagen ziet hij 87 keer twee mensen aan een tafeltje: 34 keer tegenover elkaar en 53 keer naast elkaar. De psycholoog concludeert hieruit dat er een uitgesproken voorkeur is voor de hoekopstelling. (Een mogelijke verklaring is dat men oogcontact wil vermijden en dat kan moeilijk als men tegenover elkaar zit.) Statistisch verdedigt hij zijn bevinding als volgt: als er geen voorkeur zou zijn tussen beide opstellingen, zullen deze met gelijke kans worden gekozen, dus allebei met kans ! . Laat p de kans zijn op de hoekpositie en neem als toetsingsgrootheid X het aantal keer dat de hoekopstelling wordt gekozen. a. Formuleer de H0- en H1-hypothese, in termen van p. De psycholoog deed 87 observaties. X is binomiaal verdeeld met 87 herhalingen en onbekende kans p. b. Bereken de kans dat - onder H0 - daarbij 53 of meer keer de hoekopstelling wordt geconstateerd. c. Waarom is hier sprake van een tweezijdige toets? d. Wat is je conclusie bij een significantieniveau van 10%? e. Ben je het eigenlijk wel eens met p = ! als je ervan uitgaat dat de twee mensen zonder een bepaalde voorkeur aan een tafeltje gaan zitten? We bekijken nog even de situaties van paragraaf 0. 20 In tien worpen valt een munt zeven keer op kop. Iemand beweert daarom dat de munt vals is. a. Geef je hem gelijk, bij een significantieniveau 0,1? “Ik had graag een stuk Edammer van een pond”. De kaasboer snijdt op het oog een stuk kaas voor de klant. In acht van de tien keer blijkt het meer dan 500 gram te zijn. Een klant beweert dat de kaasboer systematisch teveel snijdt. b. Geef je hem gelijk, bij een significantieniveau 0,1? Een dictator beweert dat 70% van de bevolking zijn beleid steunt. Van de eerste tien mensen die je ondervraagt zeggen er vijf dat ze het beleid van de dictator afkeuren. c. Verwerp je de bewering van de dictator, bij significantieniveau 0,05? J. Barry beweerde dat men met zijn gedachten de groei van paddenstoelen kan vertragen. In een experiment bleek dat bij negen van de tien proefpersonen de experimentele groep paddenstoelen trager groeide dan de controlegroep. d. Kun je, bij significantieniveau 0,05, concluderen dat J. Barry gelijk heeft? 12 21 Een examen bestaat uit twintig multiple-choicevragen. Bij elk van de twintig vragen moet je een van de vier antwoorden aankruisen. Heb je negen of meer antwoorden goed dan ben je geslaagd. Iemand die niets van het onderwerp begrijpt en alle vragen op de gok beantwoordt kan door stom geluk toch slagen. a. Hoe groot is zijn kans om te slagen? Van een leerling vermoedt de leraar dat hij de toets volledig op de gok heeft ingevuld. Die leerling scoorde 8 goede antwoorden. b. Is deze score voldoende reden om het vermoeden van de leraar te verwerpen, bij een significantieniveau van 10%? Een andere leerling heeft zich beter op de test voorbereid. Zijn kans p op het aankruisen van een juist antwoord is duidelijk groter dan 0,25. De kans om te slagen hangt af van p. Bij elke waarde van p kun je die kans op de GR uitrekenen. c. Hoe kan dat op jouw GR? d. Voer die kans op je GR in bij Y = … (dus als functie) en teken op de GR de grafiek van die functie. e. Voor welke p is de slaagkans 90%? 22 Bij een Aa$Aa-kruising is de kans p dat een nakomeling van type aa is gelijk aan % . Bij alle andere kruisingen, bijvoorbeeld Aa$aa of Aa$AA, heeft p een andere waarde. In een bepaalde situatie was het type van de ouders niet duidelijk. Wel vermoedde men dat beide ouders van het type Aa zouden zijn. Door middel van een toets wil men vaststellen of het vermoeden juist is. a. Wat zijn de hypothesen? Wat is de toetsingsgrootheid? Is het een éénzijdige toets? Van de 36 nakomelingen bleken er 15 van het type aa te zijn. b. Wat is je conclusie bij een significantieniveau van 5%? 23 Volgens de VVV van het eiland Texel regent het daar in de zomer maar op 15% van de dagen. Anja gaat daar drie weken kamperen. X is het aantal dagen dat het regent in de eenentwintig dagen dat Anja op Texel kampeert. Neem aan dat X binomiaal verdeeld is. Veronderstel dat de VVV gelijk heeft (dat is H 0). a. Wat zijn dan E(X) en Var(X)? Anja weet alles van hypothesetoetsen en zegt dat ze de bewering van de VVV op grond van haar vakantie-ervaring kan verwerpen bij significantieniveau 0,05. b. Hoeveel dagen heeft het tijdens Anja’s vakantie geregend? c. Waarom is het eigenlijk twijfelachtig of X wel binomiaal verdeeld is? 13 De tekentoets 24 Een panel deskundigen proeft van acht bekende wijnen de jaargangen 2010 en 2011 en gaat daarbij na of er kwaliteitsverschil is. Na het proeven bleek dat zes van de acht wijnen van 2010 als beter werden beoordeeld. Concludeer je, bij een significantieniveau van 10%, dat er sprake is van kwaliteitsverschil? Bij elk van de wijnen wordt beslist welke de beste is: de wijn van 2010 of die van 2011. Het gaat er niet om hoeveel beter. De beste krijgt een +, de andere een (. Vervolgens worden het aantal +'en (of ('en) geteld. Daarom wordt zo'n toets een tekentoets genoemd. Voorbeeld tekentoets We vergelijken de resultaten van paren planten. Het enige verschil tussen twee planten in een paar is dat bij de een wel kunstmest is toegepast, bij de andere niet. Als de kunstmestplant het beter doet dan de plant in zijn paar zonder kunstmest, noteer je dat met +, anders met (. De toetsingsgrootheid X is het aantal +’en. p is de kans op een +. H 0: p = ! Voor H1 zijn er drie mogelijkheden: H1: p # ! ; H0 wordt verworpen als de tweezijdige overschrijdingskans kleiner dan ! is. H1: p > ! ; H0 wordt verworpen als de eenzijdige overschrijdingskans kleiner dan ! is. H1: p < ! ; H0 wordt verworpen als de eenzijdige overschrijdingskans kleiner dan ! is. Opmerking: Wat doe je als er bij een tekentoets twee gelijke voorkomen (twee planten met en zonder kunstmest presteren even goed)? Dat moet je van tevoren afspreken. Je zou die bij de resultaten weg kunnen laten. Je zou ze ook voor de helft mee kunnen tellen bij de ene groep en voor de helft bij de andere groep. 25! Soms scoort een leerling bij een herkansing ineens veel hoger dan bij de eerste toets, maar het omgekeerde komt ook voor. Een docent wiskunde zegt dat herkansingen zinloos zijn, omdat ze even vaak slechter als beter gemaakt worden dan de eerste toets. Dit jaar heeft hij veertien keer een leerling een herkansing gegeven. De resultaten staan hieronder: eerste toets 4,7 2,0 5,5 6,1 4,7 5,4 6,9 3,3 5,0 5,1 5,5 4,8 4,4 2,9 herkansing 4,6 3,6 5,6 7,1 4,4 5,5 8,0 3,5 5,6 5,2 5,1 5,2 2,8 4,4 Tot welke conclusie leidt een tekentoets bij significantie 0,05? 26 Twaalf mensen met een hoge bloeddruk werden behandeld met een nieuw medicijn. Hieronder staat hun bloeddruk vóór en na de behandeling: vóór 83 72 101 98 77 101 88 96 96 107 79 79 na 79 71 91 100 88 96 84 95 97 100 80 75 Concludeer je dat het medicijn helpt? Gebruik een tekentoets met significantie 5%. 14 3 Toetsen met de normale verdeling ! 27 In Nederland worden jaarlijks ongeveer 185.000 kinderen geboren. Het aantal jongetjes daaronder is 94900, met een sd van 215. Op grond hiervan is gesteld dat de kans op een jongetje 0,513 is. a. Reken de kans 0,513 na. Het aantal jaarlijkse geboortes schommelt wel een beetje, maar dat heeft nauwelijks invloed op de sd. In 2010 werden 183.866 kinderen geboren. b. Bij welke aantallen jongetjes zal de gestelde kans van 0,513 op een jongetje moeten worden aangepast, bij een significantieniveau van 5%? Het aantal jongetjes onder de 183.866 geboortes lijkt normaal verdeeld te zijn, maar in feite is het binomiaal verdeeld. 90000 95000 100000 c. Controleer daarmee de gegeven sd van 215. 28 Een toetsingsgrootheid X is normaal verdeeld met ) = 4,6 en met onbekende µ. Er zijn twee hypotheses: H0: µ = 83,4 , H1: µ % 83,4. a. Wat is het kritieke gebied bij " = 0,05? b. Wordt de hypothese H1 geaccepteerd bij het steekproefresultaat X = 92,7? Vaak is het probleem bij toetsen met een normaal verdeelde grootheid dat de standaardafwijking eerst moet worden berekend. Dat gebeurt met de wortel-n-wet (Normale verdeling, bladzijde 30): Algemeen Als X1, X2, … , Xn onafhankelijk zijn, allemaal met standaardafwijking &, dan heeft • de som S = X1 + X2 + … + Xn standaardafwijking n * &, • 29 het gemiddelde G = 1 ( X1 + X2 + … + Xn) standaardafwijking n * &. Zakken met 2,5 kg aardappelen bevatten natuurlijk zelden precies 2500 gram. Ontevreden klanten beweren dat er vaak te weinig in zit. Een leverancier beweert dat in zijn zakken van 2,5 kg gemiddeld 2500 gram aardappelen zit met een standaardafwijking van 80 gram. Een consumentenvereniging doet een onderzoek. In verschillende winkels worden in totaal 40 van die zakken gekocht. 15 De totale inhoud T van die zakken wordt gewogen. (T in grammen) We mogen wel aannemen dat T normaal verdeeld is. a. Als de leverancier het bij het rechte eind heeft, wat is dan het te verwachten totale gewicht? b. Heb je hier te maken met een éénzijdige of met een tweezijdige toets? Waarom? c. Welke twee hypothesen staan tegenover elkaar? d. Hoe groot is, als H0 juist is, sd(T)? e. Bepaal het kritieke gebied bij significantieniveau 5%. De totale inhoud van de 40 zakken bleek 99,16 kg te zijn. f. Worden de ontevreden klanten in het gelijk gesteld bij een significantieniveau van 5%? We komen nog even terug op een andere situatie in paragraaf 0. 30 Een supermarkt zegt dat de gemiddelde wachttijd voor haar kassa’s niet meer dan 2 minuten bedraagt. Laten we eens aannemen dat de wachttijd normaal verdeeld is met een gemiddelde van 2 minuten en een standaardafwijking van 0,5 minuten. De laatste vier keer heb ik bijgehouden hoe lang ik moest wachten: 3, 4, 3 en 2 minuten. Ik beweer dat de supermarkt een oneerlijk beeld schetst van de werkelijkheid. Krijg ik gelijk bij een significantieniveau van 5%? 31 Het bedrag dat in een week bij de kassa's van een supermarkt binnenkomt, is in zes van de tien weken meer dan + 40.000. Neem aan dat de wekelijkse omzet X normaal verdeeld is met standaardafwijking + 6515. a. Bereken E(X). Het filiaal van de supermarkt is iets kleiner. De bedrijfsleider hiervan beweert dat zijn omzet + 45.000 per week is met een standaardafwijking van + 5.000. De standaardafwijking van de omzet van de twee vestigingen samen kun je uitrekenen via de varianties van hun omzetten, dankzij de formule Var(X+Y) = Var(X) + Var(Y), mits X en Y onafhankelijk zijn. b. Wat is die standaardafwijking? Een accountant constateert dat in de afgelopen vier weken de totale omzet van de twee winkels + 368.743,36 was. c. Is er, bij een significantieniveau van 5%, voldoende reden om de bewering van de bedrijfsleider van het filiaal te verwerpen? 32 Het IQ van een Nederlander is normaal verdeeld met een gemiddelde van 100 en een standaardafwijking van 15. Het vermoeden bestaat dat profvoetballers bovengemiddeld slim zijn. Om dat te onderzoeken nemen we een steekproef van 25 profvoetballers en onderwerpen ze aan een IQ-test. Het gemiddelde IQ in deze steekproef noemen we µ. a. Formuleer de H0- en de H1-hypothese. Wat is de toetsingsgrootheid G? Om de toets uit te kunnen voeren moeten we de standaardafwijking kennen van het gemiddelde IQ van 25 mensen. b. Wat is de standaardafwijking van G? 16 c. Bij welke waarden van µ mag ik concluderen dat profvoetballers inderdaad bovengemiddeld slim zijn, bij ! = 0,05? Uit ons onderzoek blijkt het gemiddelde IQ in de steekproef gelijk te zijn aan 107. d. Bereken de kans dat ten onrechte geconcludeerd wordt dat profvoetballers bovengemiddeld slim zijn. 33 In een bedrijf is het aantal uur dat dagelijks wordt overgewerkt normaal verdeeld met gemiddeld 9,1 uur en standaardafwijking 2,1 uur. Er wordt een nieuw systeem van flexibele werktijden ingevoerd. In een periode van 25 werkdagen bleek de gemiddelde dagelijkse overwerktijd 8,4 uur per dag te zijn. Neem aan dat de standaardafwijking onveranderd 2,1 uur is. Onderzoek of bij een significantieniveau van 5% geconcludeerd kan worden dat het nieuwe systeem invloed heeft op de overwerktijd. 34 In elektronische apparatuur worden veel chips gebruikt. Neem aan dat de levensduur van chips van type A normaal verdeeld is met verwachtingswaarde µ = 8,0 jaar en standaardafwijking 2,0 jaar. Een klant koopt 500 chips van type A. a. Hoeveel van deze chips zullen naar verwachting binnen 5 jaar stukgaan? Van de chips van type B vermoedt men dat µ kleiner is dan 8,0 jaar. Een laboratorium test daarom 50 chips van type B. Van deze bleken er na vijf jaar 7 stuk te zijn. Neem aan dat ook van deze chips de standaardafwijking van de levensduur 2,0 jaar is. b. Geeft deze uitkomst voldoende aanleiding om bij een significantieniveau van 1% de aanname dat µ = 8,0 jaar te verwerpen? 17 4 Samenvatting Een hypothesetoets is een methode om te beslissen bij een meningsverschil. De twee meningen die tegenover elkaar staan zijn H0, de nulhypothese en H1, de alternatieve hypothese. De hypotheses handelen over de kans-parameter p van een binomiale verdeling of de gemiddeldeparameter µ van een normale verdeling. Als je uitgaat van een onbevooroordeelde, kritische waarnemer, is de inhoud van H0: er is niets bijzonders aan de hand; wat er gebeurt, is zuiver toeval. p of µ hebben onder H0 een vaste waarde (bijv. p = 0,25), terwijl bij H1 een heel gebied van mogelijkheden is (bijv. H1: p < 0,25, een éénzijdige toets of H1: p % 0,25, een tweezijdige toets). werkelijkheid conclusie na experiment ! Er is een toetsingsgrootheid X, bijvoorbeeld het aantal successen (bij een binomiale verdeling) of een totale waarde of een gemiddelde waarde (bij een normale verdeling). Op grond van de waarde die X aanneemt bij een experiment, wordt H0 verworpen of niet. Als H0 juist is, zal het steekproefresultaat in de buurt van E(X) zitten. Als het steekproefresultaat daar sterk van afwijkt, zal H0 worden verworpen. De waarden van X waarbij H0 wordt verworpen vormen het kritieke gebied. Dat wordt zo bepaald dat de kans op een uitkomst in het kritieke gebied - als H0 waar is - kleiner is dan een vooraf gekozen waarde ", het zogenaamde significantieniveau. Het ten onrechte verwerpen van H0 is meestal een ernstige fout, de zogenaamde fout van de eerste soort. H0 is waar H1 is waar H0 is waar correct fout tweede soort H1 is waar fout eerste soort correct Als X1, X2, … , Xn onafhankelijk zijn, allemaal met standaardafwijking &, dan heeft • de som S = X1 + X2 + … + Xn standaardafwijking n * &, 1 1 * &. • het gemiddelde G = ( X1 + X2 + … + Xn) standaardafwijking n n De theorie van de hypothesetoetsing stamt uit de vorige eeuw. De Britse statistici Karl Pearson (vanaf 1900) en Ronald Fisher (1922) hebben deze ontwikkeld (ofschoon ze het onderling niet eens waren en andere accenten legden). 18 5 Gemengde opgaven Deze paragraaf is een grote verzameling gevarieerde oefenopgaven. Er zijn ook grote opgaven waarin meerdere aspecten van Kansrekening en Statistiek aan de orde komen. Het is niet noodzakelijk dat alle opgaven worden gemaakt. De opgaven die van een examen afkomstig zijn, kunnen zijn aangepast. 35 Melddag In deze opgave gaan we uit van een jaar van 365 dagen. In zo'n jaar telt januari 31, februari 28, maart 31 en april 30 dagen. We nummeren de dagen van het jaar vanaf 1 januari; 1 februari heeft dan nummer 32. Voor de bemesting van grasland gebruikt men stikstofkunstmest. Uit onderzoek is gebleken dat de eerste bemesting in het voorjaar het hoogste rendement geeft als men direct na het bereiken van een temperatuursom (T-som) van 200 °C strooit. De T-som is de som van de gemiddelde etmaaltemperaturen vanaf 1 januari. Elke volgende dag wordt de gemiddelde etmaal-temperatuur van die dag bij de vorige T-som opgeteld. Zodra de T-som meer dan 200 is, worden de boeren hiervan via de radio op de hoogte gebracht. De dag waarop dit gebeurt, noemen we de melddag. Uit gegevens over lange tijd blijkt dat het nummer van de melddag bij benadering normaal verdeeld is met een gemiddelde van 105 en een standaardafwijking van 10. a. Bereken de kans dat de melddag een dag in april is. De mest moet beslist droog bewaard worden. Boeren en tussenhandelaren nemen deze daarom niet in voorraad. Zodra de melddag is aangebroken, wordt de mest bij kunstmestfabriek KF besteld. KF moet daar rekening mee houden. Bij het opstellen van een voorlopig jaarschema in december wenst KF dat het risico van een onvoldoende voorraad stikstofkunstmest op de melddag kleiner is dan 1%. b. Bereken de uiterste datum die KF in het voorlopig jaarschema kan opnemen voor het op peil zijn van de voorraad kunstmest. De boeren met veel grasland vormen een belangrijke afnemersgroep voor KF. Tot dusver bestelde 20% van hen de mest in zakken en kozen de overigen voor de iets goedkopere aanvoer van losse mest. Met deze percentages als uitgangspunt heeft KF al een voorraad opgebouwd als eind februari in een vakblad in een artikel gewezen wordt op enige lichte risico's die verbonden zijn aan het gebruik van losse mest. In het geval dit artikel een grote wijziging in het bestelgedrag veroorzaakt, moet KF alsnog haar productieschema herzien. De directie laat daarom een onderzoeksbureau een enquête houden onder 100 boeren met veel grasland. Hen wordt de vraag voorgelegd of ze de kunstmest in zakken zullen bestellen. Als het artikel geen invloed heeft mag men verwachten dat het aantal dat ja antwoordt verwachtingswaarde 20 heeft en standaardafwijking 4. Het bleek dat 25 van de boeren ja antwoordden. c. Is deze uitslag, met een significantieniveau van 10%, voldoende reden om het productieschema te herzien? CSE Wiskunde A 1993, tweede tijdvak 19 36 Mendels bedrog? Gregor Mendel (1822-1884) mag beschouwd worden als de vader van de genetica. Zijn experimenten werden onder andere uitgevoerd met erwtenplantjes. Die hadden gele en groene zaadjes en na kruising van de oudergeneraties ontstond een tweede generatie waarvan ongeveer 75% geel en 25% groen was. Er is twijfel gerezen of Mendel wel eerlijk heeft gewerkt. Het bleek namelijk dat zijn resultaten wel akelig goed met zijn theorie klopten. In een van zijn experimenten bijvoorbeeld kreeg Mendel 8023 tweedegeneratie zaadjes waarvan er 2001 groen waren. En dat is wel erg dicht in de buurt van het aantal dat er volgens de theorie uit moest komen. a. Welk aantal moest er volgende de theorie uitkomen? b. Wat is de kans dat in een binomiaal kansexperiment met n = 8023 en p = 0,25 het resultaat niet meer dan 5 afwijkt van het gemiddelde? Dit is nog geen aanleiding voor argwaan. Maar Mendels andere experimenten gaven ook allemaal resultaten die nauwelijks afweken van wat er volgens de theorie uit moest komen. Op grond hiervan berekende de statisticus Fisher dat de kans dat door toeval de experimenten zo mooi kloppende waarden op zouden leveren 0.00004 was. Fisher formuleert het heel mild: There are two possibilities: - either Mendel's data were massaged - or he was pretty lucky The first possibility is easier to believe. Experimentatoren doen dit wel vaker. Ongewenste metingen worden niet meegeteld; aantallen worden enigszins aangepast. Tenslotte wil elke onderzoeker overtuigend voor de dag komen. Overigens doet dit niets af aan de theorie van Mendel: die klopt en is heel belangrijk in de biologie. 20 37 Alcohol Alcohol beïnvloedt de rijvaardigheid. De politie houdt daarom regelmatig alcoholcontroles. Enkele jaren geleden meende Veilig Verkeer Nederland dat er aan de alcoholcontroles nog wel wat verbeterd zou kunnen worden. Zie het artikel hiernaast. Bij een alcoholcontrole werd 1,45% van de gecontroleerde automobilisten bestraft. Neem aan dat het percentage van 35 in de tweede alinea van het artikel juist is. Als alle automobilisten die te veel hadden gedronken, waren bestraft dan zou het percentage niet 1,45 zijn geweest, maar hoger. a. Bereken dat hogere percentage. HUIZEN Veilig Verkeer Nederland (VVN) stoort zich aan de manier waarop de politie ompringt met automobilisten die te veel gedronken hebben. Volgens de organisatie wordt 35 procent van de bestuurders die te veel hebben gedronken niet bestraft omdat de controleapparatuur van de politie te ruim staat afgesteld. … Met meer dan 0,5 promille alcohol in het bloed is een automobilist wettelijk strafbaar. Volgens VVN staat de apparatuur van de politie al jaren afgesteld op 0,7 promille waardoor veel bestuurders-in-overtreding niet tegen de lamp lopen. Een woordvoerder van de politie erkent dat deze marge is ingebouwd om onnauwkeurigheden in de apparatuur te ondervangen. Daarmee wordt voorkomen dat mensen worden vervolgd, terwijl later het wettelijk bewijs niet kan worden geleverd. „Dat is gebeurd op last van Justitie”, zegt hij. In het artikel speelt de onnauwkeurigheid van de apparatuur een belangrijke rol: de metingen geven bijna nooit de werkelijke waarde van het promillage alcohol dat in het bloed aanwezig is. Het verschil tussen het gemeten promillage en het werkelijke promillage noemen we de meetfout. We gaan er in deze opgave van uit dat de meetfout normaal verdeeld is, met een gemiddelde van 0 promille. Afwijkingen naar boven en afwijkingen naar beneden zijn dus even waarschijnlijk. Neem aan dat de standaardafwijking van de meetfout 0,1 promille is. Een automobilist met 0,48 promille alcohol in het bloed is wettelijk niet strafbaar. Stel dat deze automobilist wordt gecontroleerd. Als de meting meer dan 0,7 promille aangeeft, dan wordt deze automobilist (ten onrechte) bestraft. b. Bereken de kans dat de meetfout zo groot is dat deze automobilist (ten onrechte) wordt bestraft. Toen de grens in de apparatuur op 0,7 promille werd gesteld, was de apparatuur nog zo onnauwkeurig dat een ruime marge noodzakelijk was: er zouden anders te veel mensen ten onrechte bestraft worden. Volgens een woordvoerder van VVN is nauwkeurigheid tegenwoordig geen probleem meer. Kennelijk is de standaardafwijking van de meetfout bij de huidige apparatuur kleiner geworden. Neem aan dat de standaardafwijking van de meetfouten tegenwoordig 0,02 promille is. Justitie wil de grens waarop de apparatuur wordt afgesteld zo kiezen dat van de gecontroleerde automobilisten met 0,5 promille alcohol in het bloed slechts 1% (ten onrechte) bestraft wordt. c. Bereken in twee decimalen nauwkeurig boven welk gemeten promillage automobilisten dan bestraft worden. CSE wiskunde A12 2004, tweede tijdvak 21 38 The Great Black Out Op 9 november 1965 viel de stroom uit in New York City, een storing die 24 uur duurde: "the Great Black Out". Negen maanden later schreven de kranten over een geboorte-explosie in New York. Onderstaande tabel vermeldt het aantal geboorten per dag in New York gedurende de periode van 270 tot 290 dagen na de "the Great Black Out", in augustus 1966. Het gemiddelde aantal geboorten per dag dat over deze periode ongeveer 435 bedraagt, blijkt echter niet zoveel hoger te liggen dan het gemiddelde over het jaar 1966 dat 430 bedraagt. do 4 448 vr 5 466 za 6 377 zo 7 344 ma 8 448 di 9 438 wo 10 455 do 11 468 vr 12 462 za 13 405 zo 14 377 ma 15 451 di 16 497 wo 17 458 do 18 429 vr 19 434 za 20 410 zo 21 351 ma 22 461 di 23 508 Neem aan dat het aantal geboorten per dag over het hele jaar in New York redelijk constant is. a. Laat zien dat het aantal dagen in de periode van 4 tot en met 23 augustus 1966 waarop het aantal geboorten boven het gemiddelde van 430 ligt, niet significant hoog is. Neem een significantieniveau van 5%. In de 20 dagen voorafgaande aan 4 augustus 1966 bleek op zoveel dagen het aantal geboorten kleiner te zijn dan 430, dat men van een significante afwijking kan spreken bij een significantieniveau van 5%. b. Wat weet je van het aantal dagen dat het aantal geboorten beneden het jaargemiddelde lag? Het aantal geboorten per dag op de drie zondagen in de periode 4 - 23 augustus 1966 is kleiner dan 379. Men wil onderzoeken of het aantal geboorten op zondag opvallend laag is. Neem aan dat het aantal geboorten per dag in New York normaal is verdeeld met een gemiddelde van 430 en een standaardafwijking van 40 in de 50 weken die volgen op de periode van 4 - 23 augustus 1966. c. Toon aan dat de kans dat op een willekeurig gekozen dag het aantal geboorten kleiner is dan 379 ongeveer 0,10 is. In de 50 weken die volgen op de periode 4 - 23 augustus 1966 blijken er 10 zondagen te zijn met een aantal geboorten kleiner dan 379. d. Is het aantal zondagen met het aantal geboorten kleiner dan 379 significant hoog? Neem een significantieniveau van 3%. CSE wiskunde A 1985, tweede tijdvak 39 Quiz Ad en Bob zijn de spelers in een kennisquiz. De quiz bestaat uit een serie vragen op een gebied waar Ad en Bob even bekwaam zijn: ze beantwoorden allebei 60% van de vragen goed. Als een vraag gesteld wordt aan Ad en hij het antwoord niet weet, krijgt Bob de gelegenheid te antwoorden. En omgekeerd. a. Toon aan dat de kans dat een vraag goed wordt beantwoord (door een van beide spelers) gelijk is aan 0,84. Degene die als eerste de gelegenheid krijgt te antwoorden krijgt voor het goede antwoord 100 euro en de ander krijgt voor het goede antwoord 200 euro. b. Is degene die als eerste mag antwoorden in het voordeel, dat wil zeggen is het verwachte bedrag dat hij zal winnen groter dan dat van zijn tegenspeler? 22 Veronderstel dat voor beide spelers de kans om het goede antwoord te geven p is (in plaats van 0,6). c. Bij welke waarde van p maakt het niet uit wie als eerste de vraag mag beantwoorden? Hierna geldt weer dat beide spelers kans 0,6 hebben om een vraag goed te beantwoorden. Ad mag als eerste antwoorden. d. Bereken de variantie van het bedrag dat Ad verdient bij deze vraag. Bereken de variantie van het bedrag dat Bob verdient bij deze vraag. Het bedrag dat Ad bij deze vraag meer verdient dan Bob heeft verwachtingswaarde 12 en standaardafwijking 124,3. e. Zijn "het bedrag dat A verdient" en "het bedrag dat B verdient" onafhankelijk? Bij de tien vragen die A als eerste mocht beantwoorden won Ad 700 euro meer dan Bob. f. Is dit voldoende aanleiding om het uitgangspunt dat beide 60% van de vragen konden beantwoorden te verwerpen, bij significantieniveau van 5%? 40 Heupoperaties Patiënten lopen na een operatie in het ene ziekenhuis veel meer gevaar een infectie te krijgen dan in het andere. In het jaar 2003 werden in een bepaald ziekenhuis 120 heupoperaties uitgevoerd, waarna 6 patiënten een infectie kregen. De directie vond het percentage van 5% infectiegevallen te hoog en nam extra preventieve maatregelen. In 2004 werden 154 heupoperaties uitgevoerd, met nu 2 infectiegevallen. Men vroeg zich af of dit betere resultaat toeval was of door de extra preventieve maatregelen kwam. a. Bereken de kans op hoogstens 2 infectiegevallen bij 154 operaties voor het geval dat de kans op infectie per operatie 0,05 is. Omdat de zojuist berekende kans klein is, neemt men aan dat na de extra preventieve maatregelen de kans op infectie na een operatie is afgenomen. De kans op infectie na een operatie na de extra preventieve maatregelen noemen we p. b. Bereken voor welke waarde van p geldt: de kans op hoogstens 2 infectiegevallen bij 154 patiënten is 0,05. De afgelopen vijf jaar was de verpleegduur in Nederlandse ziekenhuizen bij heupoperaties ongeveer normaal verdeeld met een gemiddelde van 4,5 dagen en een standaardafwijking van 1,8 dagen. Enkele chirurgen hebben de laatste tijd bij heupoperaties een infectieremmend medicijn toegediend. Een zorgverzekeraar beweert dat door behandeling met dit medicijn de gemiddelde verpleegduur korter is dan 4,5 dagen. Men neemt een aselecte steekproef van 100 patiënten die behandeld zijn met het medicijn. Van deze 100 patiënten blijkt de gemiddelde verpleegduur 4,1 dagen te zijn. Neem aan dat de standaardafwijking van de verpleegduur bij heupoperaties onveranderd 1,8 dagen is. c. Onderzoek of door de uitkomst 4,1 dagen de zorgverzekeraar bij een significantieniveau van 5% gelijk krijgt. CSE wiskunde B 2008, eerste tijdvak 41 Geboortegewicht Bij een onderzoek in de VS rond de volksgezondheid werd het gewicht van mannelijke baby's bij de geboorte geregistreerd. Dit geboortegewicht bleek normaal verdeeld te zijn met een gemiddelde van 3592 gram en een standaardafwijking van 96 gram. a. Toon aan dat ruim 32% van deze baby's minder dan 3548 gram weegt. b. Bereken de kans dat van tien willekeurig gekozen jongetjes er precies vier bij de geboorte minder dan 3548 gram wegen. 23 Lange tijd werd aangenomen dat ook voor de Nederlandse situatie diezelfde normale verdeling met gemiddelde 3592 gram en standaardafwijking 96 gram gold. Een Nederlandse onderzoeker is echter van mening dat het gemiddelde geboortegewicht bij mannelijke baby’s in Nederland hoger ligt. Van een aselecte steekproef van 200 Nederlandse jongetjes is het gemiddelde geboortegewicht gelijk aan 3605 gram. We nemen aan dat de standaardafwijking 96 gram is. c. Onderzoek of dit steekproefresultaat voldoende aanleiding geeft deze onderzoeker gelijk te geven. Neem als significantieniveau 0,05. CSE wiskunde A 2000, eerste tijdvak 42 Soepverkoop op school In de schoolkantine verkoopt Hennie Gerritsen soep aan de scholieren. Het aantal bekers dat hij per dag verkoopt wisselt nogal sterk. Dat aantal is bij benadering normaal verdeeld met verwachtingswaarde 40 en standaardafwijking 10. Hennie maakt 's ochtends de soep voor de hele dag. Hij besluit om soep voor 50 bekers te maken. a. Bereken de kans dat Hennie 5 of meer bekers overhoudt. Elke verkochte beker soep levert Hennie 35 cent winst op. Op elke niet verkochte (maar wel bereide) beker soep lijdt hij een verlies van 20 cent. b. Druk de nettowinst (in centen) uit in het aantal verkochte bekers x. Wat is de verwachtingswaarde en wat is de standaardafwijking van de nettowinst? Hennie wil niet te veel soep maken, want daar blijft hij dan mee zitten. c. Voor hoeveel bekers moet Hennie soep maken, opdat hij 20% kans heeft om te weinig te hebben? Op een gegeven moment gaat Hennie het anders aanpakken: hij maakt soep voor twee dagen tegelijk en wel de dubbele hoeveelheid, dus voor 100 bekers. d. Wat is nu de kans dat hij na twee dagen 10 of meer bekers overhoudt? In vier opeenvolgende dagen worden 180 bekers soep verkocht. Dat is meer dan Hennie normaal mag verwachten. Dit kan een gevolg zijn van een structurele verandering in de verkoop, maar het kan ook een toevallige schommeling zijn. e. Bepaal op grond van de oude aannames de verwachtingswaarde en de standaardafwijking van de totale verkoop over vier dagen. Hennie denkt dat zijn verkoop structureel is gestegen. f. Onderzoek of deze conclusie gerechtvaardigd is bij een significantieniveau van 10%. 43 De badkuipkromme Bij veel in massaproductie vervaardigde apparaten is de levensduur afhankelijk van het toeval. Bij de modellering daarvan onderscheidt men drie tijdsintervallen: • een korte beginperiode, waarin fabricage- en materiaalfouten aan het licht komen; er gaan dan relatief veel apparaten stuk, • een lange normale werkperiode, waarin slechts weinig apparaten stukgaan, • een korte eindperiode, waarin vrijwel alle apparaten door veroudering en slijtage stukgaan. 24 Onderstaande figuur illustreert een wiskundig model dat voor de analyse van de levensduur van een bepaald type apparaten gebruikt wordt. Het gaat om apparaten waarbij de begin- en eindperiode beide ongeveer een half jaar duren en de normale werkperiode ongeveer 10 jaar bedraagt. De apparaten worden maximaal 11 jaar oud. Op de horizontale as staat de tijd t, gemeten in jaren. De figuur toont de grafiek van een functie f waarvoor geldt dat de oppervlakte onder de grafiek op het interval 0 ' t ' 11 gelijk is aan 1. Voor ieder tijdstip a tussen 0 en 11 jaar is de kans dat een willekeurig apparaat stukgaat vóórdat het een leeftijd van a jaren bereikt, gelijk aan de oppervlakte onder de grafiek van f tussen de tijdstippen t = 0 en t = a. In de figuur is voor a = 1 die oppervlakte grijs aangegeven. De grafiek van f wordt vanwege de vorm een badkuipkromme genoemd. In dit geval heeft de badkuipkromme de volgende eigenschappen: • de grafiek is symmetrisch in de lijn t = 5,5 • de oppervlakte onder de grafiek tussen t = 0 en t = 1 is ongeveer 0,14 • de grafiek loopt tussen t = 1 en t = 10 ongeveer horizontaal. a. Bereken met behulp van bovenstaande eigenschappen de kans dat een apparaat een levensduur bereikt tussen 2 en 7 jaar. De fabrikant geeft één jaar garantie op het apparaat. Als het binnen één jaar stukgaat, wordt het gratis vervangen door een nieuw exemplaar. Ook dat kan weer binnen een jaar stukgaan, waarna ook dat exemplaar gratis wordt vervangen, enzovoort. Iemand koopt vier van deze apparaten. b. Bereken de kans dat precies één keer een apparaat van deze persoon gratis wordt vervangen door een nieuw exemplaar. Men kiest aselect 150 van deze apparaten en bekijkt hun levensduur. De standaardafwijking van de levensduur van één apparaat is 3,5 jaar. c. Wat is de standaardafwijking van de gemiddelde levensduur van de 150 apparaten? Van de groep van 150 apparaten bleek de gemiddelde levensduur slechts 5,1 jaar te zijn. d. Geeft dit voldoende aanleiding om de veronderstelde gemiddelde levensduur van een apparaat naar beneden bij te stellen? Neem een significantieniveau van 10%. CSE wiskunde B 2005, eerste tijdvak 25 44 Kwartetten Een supermarktketen houdt een actie: “Kwartetten”. Bij elke vijf euro aan boodschappen krijg je een kaart waarop één van de volgende zes producten staat afgebeeld: aardbeienijs, kauwgum, chocoladereep, frisdrank, chips, douchegel. Als je vier kaarten met hetzelfde product erop hebt (een kwartet), krijg je dat product als prijs. Op sommige kaarten staat geen product, maar een hand met kaarten: dat is een joker. In plaats van vier kaarten met hetzelfde product kun je ook drie kaarten met dat product en één joker gebruiken voor een prijs. Je mag maximaal één joker per kwartet gebruiken. De eigenaar van de supermarktketen heeft er voor gezorgd dat 4% van alle kaarten joker is. Verder zijn er van elk product evenveel kaarten gemaakt, dus 16% kaarten met aardbeienijs, 16% met kauwgum, enzovoort. De kaarten die de klanten krijgen, zijn willekeurig over de supermarkten verdeeld. Er zijn 200.000 kaarten gedrukt. De actie duurt twee weken. Meneer De Vries krijgt in deze twee weken in totaal 10 kaarten. Het aantal jokers dat hij krijgt, noemen we X. De kansverdeling van X mag benaderd worden met een binomiale verdeling. a. Waarom mag de kansverdeling van X benaderd worden met een binomiale verdeling? Geef de twee argumenten die hiervoor nodig zijn. b. Bereken de kans dat er bij die 10 kaarten van meneer De Vries minstens één joker is. De eigenaar van de supermarktketen probeert van tevoren in te schatten hoeveel inkomsten hij door deze actie misloopt. In de tabel hiernaast staan de prijzen van de producten in euro’s. aardbeienijs 2,50 douchegel 1,80 frisdrank 1,15 We gaan uit van de volgende denkbeeldige situatie: er zijn 10.000 klanten, die gemiddeld elk 20 kaarten krijgen tijdens de twee chocoladereep 0,90 weken dat de actie duurt. Bij elke kaart is voor precies 5 euro aan chips 0,90 boodschappen gedaan. Door kaarten te ruilen of door samen te werken, kunnen klanten meer prijzen winnen tijdens deze actie. kauwgum 0,90 We nemen aan dat al deze klanten hun kaarten onderling ruilen of aan elkaar weggeven, zodat alle 200.000 kaarten gebruikt worden voor een kwartet. De klanten gebruiken de jokers bij het duurste product. In de hierboven beschreven situatie heeft de eigenaar maximaal inkomstenverlies. Dit bedrag is een klein percentage van het bedrag dat de klanten hebben uitgegeven voor de kaarten. c. Bereken dit percentage. Deze kwartetactie wordt in een 6e klas bij wiskunde A besproken. Zoals in het begin van de opgave vermeld wordt, heeft de eigenaar van de supermarktketen ervoor gezorgd dat elk product op 16% van de kaarten afgebeeld is. De leerlingen van de 6e klas vermoeden echter dat er te weinig kaarten met de duurste producten zijn. Om hun vermoeden te onderzoeken, voeren ze een hypothesetoets uit. Ze houden de komende week bij welke kaarten ze krijgen. Na afloop van die week hebben ze in totaal 123 kaarten waarvan 51 kaarten met de drie duurste producten. d. Tot welke conclusie komen ze op grond van hun hypothesetoets, bij een significantieniveau van 5%? CSE wiskunde A 2011, eerste tijdvak 26 45 Spreekuur Een (vrouwelijke) huisarts heeft op elke werkdag twee uren gereserveerd voor een spreekuur. De ervaring heeft haar geleerd dat zij tijdens het spreekuur gemiddeld tien minuten voor een patiënt nodig heeft. De huisarts deelt de patiënten die van haar spreekuur gebruik maken in drie groepen in: • gemakkelijke patiënten die hoogstens 5 minuten tijd kosten; • gewone patiënten die tussen de 5 en 15 minuten tijd kosten; • tijdrovende patiënten die minstens 15 minuten tijd kosten. We maken bij deze situatie het volgende wiskundige model: • elke werkdag komen er 12 patiënten op het spreekuur; • de tijd die de huisarts tijdens het spreekuur voor een patiënt nodig heeft, is normaal verdeeld met een gemiddelde van 10 minuten en een standaardafwijking van 4 minuten. a. Bereken de verwachtingswaarde van het aantal tijdrovende patiënten tijdens een spreekuur. b. Bereken de kans dat de huisarts tijdens een spreekuur 2 gemakkelijke en 10 gewone patiënten krijgt. c. Bereken de kans dat tijdens een spreekuur minstens zes patiënten meer dan 10 minuten kosten. In een week had de arts voor de 60 patiënten op haar spreekuur in totaal 654 minuten nodig. Dat is aanzienlijk meer dan je zou verwachten bij 60 patiënten. d Onderzoek of deze gegevens voldoende aanleiding geven om de veronderstelde gemiddelde tijd van 10 minuten te verhogen, bij een significantieniveau van 5%. De huisarts beweert dat zij de afgelopen vijf jaar van haar ruim 3000 patiënten 30% wel eens een keer doorverwezen heeft naar een specialist in het ziekenhuis. Haar plaatsvervanger (tijdens een vakantie) denkt dat dit percentage minder is en neemt een steekproef van 50 patiënten. e. Bij welke aantallen die worden doorverwezen zal de plaatsvervanger de bewering van de huisarts verwerpen. bij significantieniveau 10%? CSE wiskunde B 2004, tweede tijdvak 46 Stoppen met roken Veel mensen beginnen op jonge leeftijd met roken en proberen daar op latere leeftijd weer mee op te houden. Dat lukt niet altijd. Het Centraal Bureau voor de Statistiek (CBS) publiceert regelmatig cijfers waarmee het rookgedrag van Nederlanders kan worden bestudeerd. In de tabel hiernaast vind je enkele getallen. a. Bereken met hoeveel procent het totale aantal gerookte sigaretten in 2005 is afgenomen ten opzichte van 2001. Er zijn veel hulpmiddelen om minder te gaan roken of er zelfs helemaal mee te stoppen. Eén daarvan is het gebruik van tabletten van het merk Fumostop. Om na te gaan of Fumostop een middel is dat inderdaad helpt, wordt het volgende onderzoek uitgevoerd. Uit alle zware rokers wordt aselect een groep van 18 proefpersonen gekozen. Elke proefpersoon krijgt 10 27 jaar 2001 2005 aantal Nederlanders, in miljoenen 16,0 16,3 percentage rokers 33,3% 29,5% gemiddeld aantal sigaretten per roker per jaar 4526 4271 1 2 3 4 5 tabletten die uiterlijk niet van elkaar verschillen. De tabletten zijn genummerd verpakt in doordrukstrips. Elke proefpersoon moet 10 dagen lang iedere dag bij het opstaan een willekeurig gekozen tablet innemen, het nummer van dat tablet noteren en bijhouden hoeveel sigaretten hij die dag rookt. Wat de proefpersonen niet weten maar de onderzoekers wel, is dat 5 van de tabletten inderdaad van het merk Fumostop zijn. De andere 5 tabletten bevatten geen enkele werkzame stof. We geven de ‘echte’ tabletten aan met F en de andere tabletten met NF. Aan de genoteerde tabletnummers kunnen de onderzoekers zien wanneer de F- en wanneer de NF-tabletten ingenomen zijn. Nico is één van de 18 proefpersonen. Het is mogelijk dat hij om de dag een F-tablet inneemt, waarmee bedoeld wordt dat hij steeds na een F-tablet de volgende dag een NF-tablet inneemt en omgekeerd. b. Bereken de kans dat hij om de dag een F-tablet inneemt. De onderzoekers vermoeden dat het gebruik van F-tabletten leidt tot het roken van minder sigaretten. Om dat na te gaan, wordt van elke proefpersoon bijgehouden hoeveel sigaretten hij in totaal heeft gerookt op de vijf dagen met een F-tablet en op de vijf dagen met een NF-tablet. Het resultaat vind je in de tabel hieronder. aantal sigaretten proefpersoon 1 bij gebruik van F-tabletten 106 bij gebruik van NF-tabletten 112 2 3 4 5 6 7 8 9 10 90 109 72 103 118 124 103 89 87 108 132 92 96 120 145 129 101 104 11 12 13 14 92 145 101 100 127 138 124 121 15 16 17 18 97 112 104 102 139 100 93 118 c. Onderzoek met behulp van een tekentoets of er voldoende aanleiding is om het vermoeden van de onderzoekers te bevestigen. Neem hierbij als significantieniveau 5%. Van de mensen die in 2006 rookten, rookte 24,5% per dag 20 sigaretten of meer. Rokers rookten toen gemiddeld 11,4 sigaretten per dag. Tine wil onderzoeken of het aantal sigaretten per dag normaal verdeeld zou kunnen zijn. Ze bedenkt de volgende aanpak: “Als er sprake is van een normale verdeling, dan kan ik de bijbehorende standaardafwijking berekenen. Daarna kan ik nagaan of die waarde – in combinatie met dat gemiddelde 11,4 – tot een conclusie leidt.” d. Bereken die standaardafwijking en toon daarmee aan dat het aantal sigaretten dat een roker per dag in 2006 rookte, niet normaal verdeeld kan zijn. CSE wiskunde A vwo 2010, eerste tijdvak 47 Multiple choice Een student moet een test afleggen die bestaat uit 10 meerkeuzevragen. Elke vraag bestaat uit drie alternatieven. De score op iedere vraag is 0 (fout) of 1 (juist). Een student haalt een score van 8/10 en beweert gegokt te hebben. Geloof je hem? 28 Antropometrie Voor sommige doeleinden wordt onderscheid gemaakt tussen oudere mensen (70 jaar en ouder) en jongere mensen (20 tot 60 jaar). De TU Delft heeft in 1998 uitgebreid antropometrisch onderzoek gedaan bij oudere mensen. Hierbij is onder andere de vuisthoogte gemeten. De vuisthoogte is van belang voor bijvoorbeeld koffers en tassen op wieltjes. Omdat oudere mensen gemiddeld minder lang zijn dan jongere mensen, verwacht men dat de vuisthoogte van oudere mannen kleiner is dan die van mannen van 20 tot 60 jaar. De vuisthoogte van mannen van 20 tot 60 jaar is gemiddeld 817 mm met een standaardafwijking van 47 mm. Bij een steekproef van 128 mannen van 70 jaar en ouder was de gemiddelde vuisthoogte 761 mm. Dit steekproefresultaat (761 mm) was ruim voldoende aanleiding om te concluderen dat de vuisthoogte van mannen van 70 jaar en ouder kleiner is dan die van mannen van 20 tot 60 jaar. Bereken bij een steekproef van 128 mannen van 70 jaar en ouder tot welke waarde van het steekproefresultaat men deze conclusie nog kan trekken. Neem een significantieniveau van 5%. vuisthoogte 48 CSE Wiskunde A vwo 2010, tweede tijdvak 49 Stollingstijd Artsen schrijven aspirines voor aan hartpatiënten om te voorkomen dat bloedklonters aders zullen verstoppen. De volgende studie werd uitgevoerd om na te gaan of het gebruik van aspirines een positieve invloed heeft op klontervorming in het bloed, d.w.z. dat de stollingstijd groter wordt. Bij twaalf volwassen mannen observeerde men de stollingstijd (de tijd die het duurt voordat een bloedklonter is gevormd). De stollingstijd (in minuten) werd gemeten vóórdat de mannen aspirines innamen en drie uur na het innemen van twee aspirines. De data vind je hieronder (bovenste rij is voor inname; onderste rij is na inname). 11,3 11,5 10,9 11,0 11,0 11,5 11,2 11,5 11,8 11,3 11,3 10,3 12,3 12,5 12,8 13,0 13,0 12,0 12,0 12,5 12,0 12,3 12,3 12,0 Toets hiermee met een tekentoets of het toedienen van aspirines een positieve invloed heeft op klontervorming, met 5% significatieniveau. 50 Toevalsgetallen Een grafische rekenmachine heeft een randomgenerator; die genereert toevalsgetallen van tien decimalen, van 0,0000000000 t/m 0,9999999999. Het toevalsgetal X is uniform verdeeld; 0 ' X < 1. Het gemiddelde van X is (nagenoeg) 0,5 en de standaardafwijking is 0,288675. a. Genereer honderd randomgetallen en bereken het gemiddelde van deze honderd getallen. Als je twijfelt of de randomgenerator op je rekenmachine wel goed werkt, dan kun je dat controleren door een groot aantal toevalsgetallen te genereren. Het gemiddelde van die getallen is volgens de wet van de grote aantallen bij benadering normaal verdeeld. b. Genereer vijfhonderd getallen en bereken daarvan het gemiddelde. 29 Op de TI gaat dat zó: - LIST / OPS / 5:seq( ENTER - Voer in: rand,k,1,500) - Sla de 500 getallen op: STO L1 - Bereken het gemiddelde met STAT / CALC / 1 – Var Stats ENTER - voer in L1 ENTER Op de Casio gaat dat zó: - MENU Statistics=2 - Je komt dan in het lijsten invoerscherm. - Zet de cursor op het woord List 1 - Dan OPTN PROB=F5 RAND=F4 List=F5 - Zorg nu voor RanList#(500) Dit geeft 500 Random getallen in Lijst 1 c. Toets hiermee of de randomgenerator op je rekenmachine goed werkt, met 5% significatieniveau. 30 Antwoorden bij “Hypothesetoetsen” Opg. 1a 1b 1c 1d 1e 1 Klassengesprek Klassengesprek 22/1300 x 100% ≈ 1,7% n = 1300 en p = 0,017 dus van 17 t/m 27 BinCD(27, n = 1300, p = 0,017) - BinCD(16, n = 1300, p = 0,017) ≈ 0.7638 1e 2 dus van 12 t/m 32 BinCD(32, n = 1300, p = 0,017) - BinCD(11, n = 1300, p = 0,017) ≈ 0.9761 1f Klassengesprek Opg. 2 t/m 8 (op een paar vragen na, die staan hierna) Klassengesprek Opg. 4b ik zou niet alleen het totaal, maar ook de afzonderlijke gewichten willen weten en ik zou de gewichten van een veel grotere steekproef willen weten. Opg. 5b ik zou de antwoorden van een veel grotere steekproef willen weten. Opg. 7b ook nu zou ik de antwoorden van een veel grotere steekproef willen weten. Opg. 8b hoe is dit in andere ziekenhuizen, is daar een lager percentage? Opg. 9a 9b 9c 9d 7,6 19/25 = 76% 1 - BinCD(X = 18, n = 25, p = 0.5) ≈ 0,0073 vast wel Opg. 10a Y=1 - BinCD(X = X - 1, n = 25, p = 0.5) < 0,05 tabel geeft X = 17 met 0,053.. en X = 18 met 0,021; dus 18 t/m 25 X = 19 geeft 0,0073.. dus 19 t/m 25 10b Opg. 11a 11b 11c 11d 0 t/m 20 ¼ 20 x ¼ = 5 Y = 1 - BinCD(X = X - 1, n = 20, p = 0.25) < 0,05 tabel geeft X = 8 met 0,101.. en X = 9 met 0,040; dus 9 t/m 20 Y < 0,10 geeft ook 9 t/m 20 Y < 0,02 tabel geeft X = 9 met 0,040; en X = 10 met 0,013.. dus 10 t/m 20 Opg. 12a 12b 12c 12d NormCD(-10 , 11.3, µ = 11, σ = X) = 0,8 via tabel of grafiek geeft σ = 0,3564.. ≈ 0,356 InvNormCD(0.9, µ = 11, σ = 0.356) ≈ 11,456 dus het kritieke gebied is 11,456 en groter InvNormCD(0.95, µ = 11, σ = 0.356) ≈ 11,586 dus het kritieke gebied is 11,586 en groter Bij α = 0,1 krijgt de atleet geen gelijk. Bij α = 0,05 krijgt de atleet gelijk. Opg. 13 opg. 11 wordt H0 : p = ¼ H1 : p > ¼ X = het aantal goed voorspelde kaarten α = 0,05 enz opg. 12 wordt H0 : µ = 11 H1 : µ > 11 T = de 100 meter tijd α = 0,1 enz. Opg. 14a Y = BinCD(X = X , n = 50, p = 0.5) < 0,05 tabel geeft X = 19 met 0,059.. en X = 18 met 0,032; dus 0 t/m 18 Y=1 - BinCD(X = X - 1, n = 50, p = 0,5) < 0,05 tabel geeft X = 31 met 0,059.. en X = 32 met 0,032; dus 32 t/m 50 het kritieke gebied is dus 0 t/m 18 en 32 t/m 50 Nee, want we verwerpen de hypothese dat p = 0,5 omdat 37 in het kritieke gebied ligt. 14b 99 4 28 Opg. 15a 1 – P(geen 10) = 1 - 0 4 = 0,430.. ≈ 0,43 32 4 15b 15c 15d 15e 15f Opg. 16a 16b 16c H0 : p = 0,43 H1 : p > 0,43 Alleen als Sanne teveel tienen krijgt, denkt Harm dat ze steekt. X is het aantal keer dat Sanne minstens één 10 krijgt als ze deelt. Y = 1 - BinCD(X = X - 1, n = 20, p = 0,43) < 0,1 tabel geeft X = 11 met 0,194.. en X = 12 met 0,095; dus 12 t/m 20 Harm concludeert dat Sanne steekt. bij aantal ≥ 84 kans = 1 - BinCD(X = 83, n = 100, p = ¾ ) = 0,0211; < ½α bij aantal ≤ 66 kans = BinCD(X = 66, n = 100, p = ¾ ) = 0,0275; < ½α 84 ligt in het kritieke gebied, dus geeft Harm Sanne geen gelijk. 66 ligt ook in het kritieke gebied, dus ook nu geeft Harm Sanne geen gelijk. Opg. 17 1 - BinCD(X = 12, n = 20, p = 0,43) = 0,039.. Opg. 18a 18b H0 : p = 0,75 H1 : p ≠ 0,75 X = het aantal gele nakomelingen α = 0,05 Y = BinCD(X = X, n = 8023, p = 0,75 ) < 0,025 tabel geeft X = 5940 met 0,024.. en X = 5941 met 0,0257.. dus 0 t/m 5940 Y = 1 - BinCD(X = X - 1, n =8023, p = 0,75) < 0,025 tabel geeft X = 6093 met 0,0258.. en X = 6094 met 0,0242.. dus 6094 t/m 8023 het kritieke gebied is dus 0 t/m 5940 en 6094 t/m 8023 Opg. 19a 19b 19c H0 : p = ½ H1 : p ≠ ½ X = het aantal keer hoekpositie. 1 - BinCD(X = 52, n = 87, p = ½ ) ≈ 0,027 Er staat niet dat de psycholoog vooraf al het vermoeden had dat mensen veelal oogcontact vermijden. 0,027 < ½α dus accepteer je H1, dus accepteer je dat de kans op een hoekpositie geen ½ is. Als persoon 1 al zit, zijn er voor persoon 2 nog 3 plaatsen over, 2 van de 3 geven een hoekpositie. De kans op een hoekpositie = 2/3 zou dus logischer zijn. 19d 19e Opg. 20a 20b 20c 20d H0 : p = ½ H1 : p ≠ ½ (vals) X = het aantal keer munt. 1 - BinCD(X = 6, n = 10, p = ½ ) ≈ 0,17; > ½ α H0 accepteren, hij krijgt dus geen gelijk. H0 : p = ½ H1 : p > ½ (snijdt meer af) X = het aantal keer dat de kaas meer dan 500 gr weegt. 1 - BinCD(X = 7, n = 10, p = ½ ) ≈ 0,054; < α H1 accepteren, de klant krijgt dus gelijk. H0 : p = 0,7 (dictator) H1 : p ≠ 0,7 X = het aantal keer dat het beleid van de dictator wordt gesteund. BinCD(X = 5, n = 10, p = 0.7 ) ≈ 0,17; > ½ α H0 accepteren, de dictator krijgt dus gelijk. H0 : p = ½ H1 : p > ½ (J. Barry) X = het aantal keer dat de paddenstoelgroei wordt vertraagd. 1 - BinCD(X = 8, n = 10, p = ½ ) ≈ 0,0107; < α H1 accepteren, J. Barry krijgt dus gelijk. Opg. 21a kans op goedgokken is ¼ slaagkans = 1 - BinCD(X = 8, n = 20, p = ¼ ) ≈ 0,0409 21b H0 : p = ¼ (leraar) H1 : p > ¼ X = het aantal goede antwoorden. 21c kans op 9 of meer goed = 1 - BinCD(X = 8, n = 20, p = X ) 21d Y1 = 1 - BinCD(X = 8, n = 20, p = X ) 21e Y2 = 0,9 intersect geeft p ≈ 0,57 Opg. 22a 22b Opg. 23a 23b 23c H0 : p = ¼ (Aa x Aa) H1 : p ≠ ¼ X = het aantal nakomelingen van type aa. Tweezijdige toets (voor biologen: p kan ook nul zijn, dus kleiner dan ¼ kan ook) bij p = ¼ is de verwachting 9 de kans op 15 of meer goed = 1 - BinCD(X = 14, n = 36, p = ¼ ) = 0,0209.. < ½ α H1 accepteren, dus we verwerpen het vermoeden dat beide ouders van het type Aa zijn. E(X) = np = 21 x 0,15 = 3,15 Var(X) = np(1 – p) = 21 x 0,15 x 0,85 = 2,6775 H0 : p = 0,15 H1 : p ≠ 0,15 Y = BinCD(X = X, n = 21, p = 0,15 ) < 0,025 tabel geeft X = 0 met 0,0329.. en X = 1 met 0,155.. aan deze kans geen kritiek gebied. Y = 1 - BinCD(X = X - 1, n = 21, p = 0,15 ) < 0,025 tabel geeft X = 7 met 0,0287.. en X = 8 met 0,008.. dus 8 t/m 21 dagen regen. de kans op regen is niet onafhankelijk van de vorige dag. Opg. 24 H0 : p = ½ H1 : p ≠ ½ X = het aantal keer dat 2010 beter is beoordeeld. α = 0,1 de kans op 6 of meer goed = 1 - BinCD(X = 5, n = 8, p = ½ ) = 0,14.. > ½α er is dus geen reden om voor kwaliteitsverschil te kiezen. Opg. 25 H0 : p = ½ (docent) H1 : p > ½ (herkansen helpt) X = het aantal keer de herkansing beter is. α = 0,05 de kans op 10 of meer goed = 1 - BinCD(X = 9, n = 14, p = ½ ) = 0,089.... > α er is dus reden om de wiskunde docent te geloven. Opg. 26 H0 : p = ½ H1 : p > ½ (medicijn helpt) X = het aantal keer dat de bloeddruk lager is. α = 0,05 de kans op 8 of meer goed = 1 - BinCD(X = 7, n = 12, p = ½ ) = 0,19.... > α er is dus geen reden om te geloven dat het medicijn helpt. Opg. 27a 27b 94900/185000 = 0,5129.. ≈ 0,513 H0 : p = 0,513 H1 : p ≠ 0,513 X = het aantal jongetjes dat geboren wordt in 2010. α = 0,05 Y = BinCD(X = X, n = 183866, p = 0,513 ) < 0,025 tabel geeft X = 93902 met 0,024.. en X = 93903 met 0,02508.. dus 0 t/m 93902 Y = 1 - BinCD(X = X - 1, n = 183866, p = 0,513 ) < 0,025 tabel geeft X = 94743 met 0,0252.. en X =94744 met 0,0249.. dus 94744 t/m 183866 we besluiten de kans aan te passen als het aantal jongetjes ligt tussen 0 t/m 93902 of tussen 94744 t/m 183866 opmerking: kan je rekenmachine niet met deze grote aantallen rekenen, stap dan over op de normale verdeling met µ = 183866 x 0,513 en σ = √(183866 × 0,513 × 0,487) InvNormCD(0.025, µ = 83.4, σ = 4.6) ≈ 74,4 InvNormCD(0.975, µ = 83.4, σ = 4.6) ≈ 92,4 dus kleiner dan 74,4 en groter dan 92,4 ja Opg. 28a 28b Opg. 29a 29b 29c 29d 29e 29f 40 x 2500 = 100 000 eenzijdig, omdat klanten niet klagen bij te veel aardappelen. H0 : µ = 100 000 H1 : µ < 100 000 X = het totale gewicht van 40 zakken. sd(T) = 80 x √40 InvNormCD(0.05, µ = 100 000, σ = 80 x √40) ≈ 99168 Het kritieke gebied is dus minder dan 99168 gram. 99,16 ligt in het kritieke gebied, dus krijgen de ontevreden klanten gelijk. Opg. 30 Opg. 31a 31b 31c Opg. 32a 32b 32c 32d H0 : µ = 8 H1 : µ > 8 X = de totale wachttijd. α = 0,05 Kans op een totale wachttijd van 12 of meer minuten = 99 NormCD( 12, 10 , µ = 8, σ = 0,5 x √4 ) = 0,000031.. < α dus krijg ik gelijk. 99 NormCD(40 000, 10 , µ = X, σ = 6515) = 0,6 via tabel of grafiek geeft µ ≈ 41651 sd(X+Y) = ( + ) = () + () = √6515 + 5000 ≈ 8213 als de bedrijfsleider gelijk heeft is de omzet van de twee winkels in 4 weken 4 x (41651 + 45000) = 346604 H0 : µ = 346604 (bedrijfsleider) H1 : µ ≠ 346604 X = de totale omzet van de twee winkels in 4 weken. α = 0,05 sd = 8213 x √4 = 16426 99 de overschrijdingskans = NormCD(368 743.36, 10 , µ=346604, σ=16426) = 0,088.. > ½α er is dus geen reden om de bewering van de bedrijfsleider te verwerpen. H0 : µ = 100 H1 : µ > 100 G = het gemiddelde IQ van 25 profvoetballers. sd(G) = 15 / √25 = 3 InvNormCD(0.95, µ = 100, σ = 3) = 104,9.. ≈ 105 dus bij 105 of hoger. 99 NormCD(107, 10 , µ = 100, σ = 3) = 0,0098.. ≈ 0,01 Opg. 33 H0 : µ = 9,1 H1 : µ ≠ 9,1 (het hoeft niet vermindering te zijn, dus tweezijdig toetsen) X = de gemiddelde overwerktijd over 25 dagen. α = 0,05 99 NormCD(-10 , 8.4, µ = 9.1, σ = 2.1 /√25) = 0,047.. > ½α Dus kan er niet geconcludeerd worden dat er invloed is. Opg. 34a de kans op stukgaan binnen vijf jaar = NormCD(-10 , 5, µ = 8, σ = 2 ) = 0,0668 verwachte aantal = 0,0668 x 500 = 33,4.. ≈ 33 resultaat is 7 stuk na vijf jaar, dat is een aantal, dus binomiale toets H0 : p = 0,668 H1 : p > 0,668 (µ kleiner) X = het aantal dat stuk is na 5 jaar. α = 0,01 de kans op 7 of meer stuk = 1 - BinCD(X = 6, n = 50, p = 0,0668 ) = 0,047.... > α dus H0 accepteren, geen reden om µ = 8,0 te verwerpen. 34b Opg. 35a 35b 35c 99 31 + 28 + 31 = 90 april loopt vanaf 90 tot 120 NormCD(90, 120, µ = 105, σ = 10) ≈ 0,866 InvNormCD(0.01, µ = 105, σ = 10) = 81,7.. dus de voorraad moet op peil zijn op dag 81 en dat is 22 maart X = het aantal dat ja antwoordt. α = 0,1 H0 : µ = 20 H1 : µ > 20 99 NormCD(24.5, 10 , µ = 20, σ = 4) ≈ 0,13.. > α dus geen reden om het productieschema te herzien. Opg. 36a 36b 8023 x 0,25 = 2005,75 ≈ 2006 2001 t/m 2011 BinCD(X = 2011, n = 8023, p = 0,25 ) - BinCD(X = 2000, n = 8023, p = 0,25 ) ≈ 0,113 Opg. 37a 37b 37c 1,45 komt overeen met 65% 100% komt overeen met 1,45 / 65 x 100 ≈ 2,23 99 NormCD(0.22, 10 , µ = 0, σ = 0.1) ≈ 0,014 grens bij de meetfout wordt InvNormCD(0.99, µ = 0, σ = 0.02) ≈ 0,05 Het promillage wordt dus 0,5 + 0,05 = 0,55 Opg. 38a het aantal dagen met meer dan 430 geboortes is 13 H0 : p = ½ H1 : p > ½ X = het aantal dagen met meer dan 430 geboortes. α = 0,05 1 - BinCD(X = 12, n = 20, p = ½ ) ≈ 0,13.. > α dus geen significante afwijking. 38b 38c 38d Opg. 39a 39b 39c H0 : p = ½ H1 : p ≠ ½ (afwijking) X = het aantal dagen met minder dan 430 geboortes. α = 0,05 Y = BinCD(X = X, n = 20, p = ½ ) < 0,025 tabel geeft X = 5 met 0,020.. en X =6 met 0,057.. dus 0 t/m 5 Y = 1 - BinCD(X = X - 1, n = 20, p = ½ ) < 0,025 tabel geeft X = 14 met 0,057.. en X =15 met 0,020.. dus 15 t/m 20 het aantal geboorten beneden het jaargemiddelde was 0 t/m 5 of 15 t/m 20 99 NormCD(-10 , 378.5, µ = 430, σ = 40) = 0,098.. ≈ 10% H0 : p = 0,1 H1 : p > 0,1 X = het aantal zondagen met minder dan 379 geboortes. α = 0,03 1 - BinCD(X = 9, n = 50, p = 0.1 ) = 0,0245.. < α dus significant hoog aantal kans op goed = 0,6 kans op fout en daarna goed = 0,4 x 0,6 = 0,24 samen is dit 0,84 e e 1 persoon 2 persoon winst 100 0 winst 200 0 Kans 0,6 0,4 Kans 0,24 0,76 verwachting 60 de eerste persoon is in het voordeel e 1 persoon winst 100 0 1-p Kans p verwachting 48 e 2 persoon verwachting100p 200 (1 - p)p 0 ;. verwachting 200(1 - p)p 2 39d 39e 39f winst Kans 2 los op 100p = 200(1 - p)p dus 100p = 200p – 200p dus 200p – 100p = 0 100p( 2p – 1) = 0 dus p = 0 of p = ½ Var(Ad) = 2400 Var(Bob) = 7296 Nee, wat Ad verdient beïnvloed de kans op wat Bob kan verdienen. Bij 60% goed beantwoorden hoort µ = 12 H0 : µ = 12 H1 : µ ≠ 12 (het kan ook minder zijn, dus tweezijdig toetsen) X = het bedrag dat A meer verdient dan B. α = 0,05 99 NormCD(700, 10 , µ = 12, σ = 124,3) ≈ 0,0000000156 < ½ α ja, voldoende aanleiding. Opg. 40a 40b 40c BinCD(X = 2, n = 154, p = 0,05 ) ≈ 0,015 BinCD(X = 2, n = 154, p = X ) = 0,05 met grafiek of tabel geeft p ≈ 0,04 H0 : µ = 4,5 H1 : µ < 4,5 (zorgverzekeraar) X = de gemiddelde verpleegduur in dagen van 100 patiënten. α = 0,05 99 NormCD(-10 , 4.1, µ = 4.5, σ = 1.8 / √100) ≈ 0,013.. < α de zorgverzekeraar krijgt gelijk. Opg. 41a 41b 41c NormCD(-10 , 3548, µ = 3592, σ =96) = 0,3228.. ≈ 32% BinPD(X = 4, n = 10, p = 0,32 ) ≈ 0,218 H0 : µ = 3592 H1 : µ > 3592 (onderzoeker) X = het gemiddelde geboortegewicht van 200 jongetjes . α = 0,05 99 NormCD(3605, 10 , µ = 3592, σ = 96 / √200) ≈ 0,0277.. < α de onderzoeker krijgt gelijk. Opg. 42a kans op verkoop 45 of minder (let op continuïteitscorrectie) is 99 NormCD(-10 , 45.5, µ = 40, σ =10) ≈ 0,71 0,35x – 0,2(50 – x) = 0,35x – 10 + 0,2x = 0,55x – 10 euro x is normaal verdeeld met µ = 40 en σ = 10 0,55x – 10 is normaal verdeeld met µ = 0,55 x 40 – 10 = 12 en σ = 0,55 x 10 = 5,5 42b 42c 42d 99 σ (x1 + x2) = σ ( ) + σ ( ) = √200 99 NormCD(-10 , 90.5, µ = 80, σ =√200) ≈ 0,77 42e µ = 160 σ = √10 + 10 + 10 +10 = 20 42f Opg. 43a 43b 43c 43d Opg. 44a 44b 44c 44d H0 : µ = 160 H1 : µ > 160 (Hennie) X = de totale verkoop in 4 dagen. α = 0,10 99 NormCD(179.5, 10 , µ = 160, σ =20) = 0,16.. > α de conclusie is niet gerechtvaardigd. 1 – 2 x 0,14 = 0,72 0,72 / 9 = 0,08 5 x 0,08 = 0,40 kans dat precies 1 van de 4 binnen een jaar stuk maal kans dat vervanger niet binnen een jaar stuk gaat = BinPD(1, 4, 0.14) x 0,86 ≈ 0,306 σ = 3,5 / √150 = 0,2858 H0 : µ = 5,5 H1 : µ < 5,5 X = de gemiddelde levensduur van 150 apparaten. α = 0,10 99 NormCD(-10 , 5.1, µ = 5.5, σ =0.2858) = 0,08.. < α Niet voldoende aanleiding tot bijstelling naar beneden. wel of geen joker dus twee mogelijkheden 10 t.o.v. het totaal is zo weinig dat het mag worden benaderd door trekken met terugleggen. 10 1 min de kans op 0 jokers = 1 – 0,96 ≈ 0,34 0,16 x 200 000 = 32 000 kaarten van elk soort, maar 0,04 x 200 000 = 8000 jokers Dus 8 000 kwartetten met aardbeienijs en een joker, blijft over 32 000 – 3 x 8000 = 8000 aardbeienijs, dus 2 000 kwartetten. Van alle overige soorten 8000 kwartetten. Kosten 10 000 x 2,50 + 8 000 x 1,80 + 8 000 x 1,15 + 3 x 8 000 x 0,90 = 70 200 Inkomsten 200 000 x 5 = 1000 000 70 200 / 1000 000 ≈ 7% H0 : p = 0,48 H1 : p < 0,48 X = het aantal kaarten met de drie duurste producten. α = 0,05 BinCD(51,123, 0.48) = 0,086.. > α er is geen reden om aan te nemen dat hun vermoeden juist is. 99 Opg. 45a 45b NormCD(15, 10 , µ = 10, σ =4) ≈ 0,1056 verwachtingswaarde ≈ 12 x 0,1056 ≈ 1,27 kans op een gemakkelijke patiënt is ook 0,1056 kans op een gewone patiënt is 1 – 2 x 0,1056 = 0,7887 2 10 x 0,1056 x 0,7887 ≈ 0,07 45c de kans op meer dan 10 minuten = ½ Kans op minstens 6 = 1 – BinCD(X = 5, n = 12, p = ½ ) ≈ 0,61 H0 : µ = 600 H1 : µ > 600 X = de totale tijd bij 60 patiënten. α = 0,05 99 NormCD(654, 10 , µ = 600, σ = 4 x √60) = 0,0407.. < α dus voldoende aanleiding om de gemiddelde tijd te verhogen. H0 : p = 0,3 H1 : p < 0,3 X = het aantal doorverwezen patiënten. α = 0,05 Y = BinCD(X = X, n = 15, p = 0.3 ) < 0,1 tabel geeft X = 1 met 0,035.. en X = 2 met 0,12.. dus het kritieke gebied is 0 en 1 Bij 0 of 1 doorverwezen patiënten zal de bewering van de huisarts verworpen worden. 45d 45e Opg. 46a 46b 46c 16 x 0,333 x 4526 ≈ 24115 16,3 x 0,295 x 4271 ≈ 20537 afname 3578 3578 / 24115 ≈ 15% kans op F, NF ,F, NF, F ; = 5/10 x 5/9 x 4/8 x 4/7 x 3/6 x 3/5 x 2/4 x 2/3 x 1/2 x 1/1 = 1/252 kans op NF ,F, NF, F, NF ; is ook 1/252 opgeteld ≈ 0,008 Tekentoets, het aantal keer dat F een kleiner aantal heeft dan NF is 14 H0 : p = ½ H1 : p > ½ X = het aantal keer dat F een kleiner aantal heeft dan NF. α = 0,05 kans op 14 of meer = 1 - BinCD(X = 13, n = 18, p = ½ ) ≈ 0,015 < α Dus wordt het vermoeden van de onderzoekers bevestigd. Opg. 47 H0 : p = 1/3 H1 : p > 1/3 (hij heeft er toch voor geleerd) X = het aantal juiste antwoorden. α = ? Kans op 8 of meer juiste antwoorden = 1 - BinCD(X = 7, n = 10, p =1/3 ) = 0,003; Zelfs bij α = 1% geloof ik hem niet. Opg. 48 H0 : µ = 817 H1 : µ < 817 X = de gemiddelde vuisthoogte bij 128 mannen. α = 0,05 InvNormCD(0.05, µ = 817, σ = 47 / √128) ≈ 810,2 dus bij 810mm of lager. Opg. 49 Tekentoets, het aantal keer dat het bovenste getal kleiner is dan het getal eronder is 8 H0 : p = ½ H1 : p > ½ X = het aantal keer dat het bovenste getal kleiner is dan het getal eronder. α = 0,05 kans op 8 of meer = 1 - BinCD(X = 7, n = 12, p = ½ ) ≈ 0,19.. > α het vermoeden is dat aspirines niet helpen. Opg. 50a 50b 50c H0 : µ = 0,5 H1 : µ ≠ 0,5 X = het gemiddelde van 500 randomgetallen. α = 0,05 Laat het gemiddelde (G) van die 500 getallen berekenen. Is G < 0,5, dan bereken je 99 NormCD(-10 , G, µ = 0.5, σ =0.288675 / √500) = 0,; Antwoord kleiner dan 0,025, dan is er reden tot twijfel aan de GR randomgenerator Is G > 0,5, dan bereken je 99 NormCD(G, 10 , µ = 0.5, σ =0.288675 / √500) = 0,; Antwoord kleiner dan 0,025, dan is er reden tot twijfel aan de GR randomgenerator