Oefeningen Statistiek Hoofdstuk 2 1. Hier volgen de scores van 11 leden van een vrouwelijk golfteam, in twee rondes van een toernooi. (Een golfscore is het aantal slagen dat nodig is om de baan af te leggen, lage scores zijn dus beter). Speler 1 2 3 4 5 6 7 8 9 10 11 Ronde 1 Ronde 2 89 94 90 85 87 89 95 89 86 81 81 76 105 89 83 87 88 91 91 88 79 80 (a) Zet de scores van ronde 2 uit tegen de scores van ronde 1 (b) Bestaat er een samenhang tussen de scores? Indien dat het geval is, is hij dan positief of negatief? Verklaar waarom men kan verwachten dat de scores in twee rondes van een toernooi een samenhang zullen vertonen zoals die welke u hebt waargenomen. (c) Er is een globaal lineair patroon in het spreidingsdiagram, maar er is één punt dat duidelijk buiten dit patroon valt. Omcirkel dit punt in uw diagram. Een goede golfspeler kan een abnormaal slechte ronde hebben, of een slechte speler kan een abnormaal goede ronde hebben. Kunt u uit de gegevens opmaken of de uitzonderlijke waarde werd veroorzaakt door een goede speler of door een slechte speler? Welke andere gegevens hebt u nodig om deze twee mogelijkheden te kunnen onderscheiden? 2. De tabel geeft data betreffende het vetloze lichaamsgewicht (in kg) en de snelheid van de stofwisseling in rusttoestand, voor 12 vrouwen en 7 mannen die als proefpersoon meewerkten aan een onderzoek naar corpulentie. De onderzoekers geloven dat het vetloze lichaamsgewicht (het gewicht na weglating van alle vet) een belangrijke invloed heeft op de snelheid van de stofwisseling. Proefpers. Gesl. Gew. Snelh. Proefpers. Gesl. Gew. Snelh. 1 2 3 4 5 6 7 8 9 10 M M V V V V M V V M 62.0 62.9 36.1 54.6 48.5 42.0 47.4 50.6 42.0 48.7 1792 1666 995 1425 1396 1418 1362 1502 1256 1614 11 12 13 14 15 16 17 18 19 V V M V V V V M M 40.3 33.1 51.9 42.4 34.5 51.1 41.2 51.9 46.9 1189 913 1460 1124 1052 1347 1204 1867 1439 (a) Maak een spreidingsdiagram voor de data van de vrouwelijke proefpersonen. Wat is de verklarende variabele? (b) Is de samenhang tussen deze variabelen positief of negatief? Wat kunt u zeggen over de globale vorm van de relatie? (c) Voeg nu de gegevens over de mannen aan uw diagram toe, gebruik daarbij een andere kleur of een ander symbool. Is het type relatie dat u onder (b) vond ook voor de mannen geldig? Hoe verschillen de mannelijke proefpersonen als groep van de vrouwelijke proefpersonen als groep? 3. De aanwezigheid van schadelijke insecten in de landbouwakkers wordt gedetecteerd door met lijm besmeerde planken op te stellen en de insecten te bestuderen die op de planken zijn opgevangen. Sommige kleuren zijn aantrekkelijker voor insecten dan andere. In een experiment dat tot doel had te ontdekken welke kleur het beste is voor het aantrekken van het bladhaantje op granen, werden in juli voor elke van vier kleuren zes planken geplaatst in een haverveld. De tabel hieronder geeft data over het aantal opgevangen bladhaantjes. (met wijzigingen afkomstig uit M.C. Wilson and R.E. Shade, "Relative attractiveness of various luminescent colors to the ceral leaf beetle and the meadow spittleburg" Journal of Economic Entomology, 60 (1967), blz. 578-580). Kleur plank Citoengeel Wit Groen Blauw Aantal gevangen insecten 45 21 37 16 59 12 32 11 48 14 15 20 46 17 25 21 38 13 39 14 47 17 41 7 (a) Maak een grafiek van het aantal gevangen insecten tegen de kleur van de plank (zet de kleuren op gelijke afstanden van elkaar op de horizontale as). Bereken het gemiddelde aantal voor elke kleur, voeg de gemiddelden aan de grafiek toe en verbind de gemiddelden door lijnsegmenten. (b) Formuleer de conclusies die u, op grond van de gegevens, kunt trekken omtrent de aantrekkelijkheid van deze vier kleuren voor het bladhaantje. (c) Is het zinvol te spreken over een positieve of negatieve samenhang tussen plankkleur en aantal insecten? 4. De vaste kosten voor mobilofoondiensten bedragen per maand 30 ecu, en elk uur gebruik kost daarboven nog eens 33 ecu. Geef een vergelijking voor het bedrag y van de maandelijkse rekening in termen van het aantal uren gebruik in die maand (x). U gebruikt de mobilofoon ongeveer 15 uur per maand. Hoe hoog zal uw maandelijkse rekening zijn? Een andere firma biedt de mobilofoon aan voor 50 ecu per maand, plus 25 ecu per uur gebruik. Zou overstappen naar deze firma u geld besparen? 5. Sarah's ouders zijn bezorgd omdat ze nogal kort schijnt te zijn voor haar leeftijd. Hun kinderarts heeft de volgende gegevens over Sarah's lengte: Leeftijd (maanden) 36 48 51 54 57 60 Lengte (cm) 86 90 91 93 94 95 (a) Maak een spreidingsdiagram van de gegevens. Let op het sterk lineair patroon. (b) De vergelijking van de regressielijn is: y=71.950 + 0.383 x (c) Hoeveel groeit Sarah gemiddeld per maand volgens deze regressielijn? Doorgaans neemt de lengte van opgroeiende meisjes in de leeftijd tussen 4 jaar (48 maanden) en 5 jaar (60 maanden) toe met 6 cm per jaar. Met welke helling correspondeert dat? Groeit Sarah sneller dan normaal (sterkere helling) of langzamer (kleinere helling)? Sarah's kinderarts heeft de ongewone helling van Sarah's groeikromme opgemerkt, en besluit enkele aanvullende tests te verrichten. Men ontdekt dat Sarah een tekort aan groeihormonen heeft, hetgeen met een dosering van synthetische groeihormonen kan worden behandeld. (d) Gebruik uw vergelijking uit (b) om Sarah's lengte bij de leeftijd van 40 maanden en van 65 maanden te voorspellen. Gebruik vervolgens die informatie om de kleinste-kwadratenlijn in het diagram te tekenen. 6. Langeafstandslopers maken zich tijdens een race zorgen over hun vorm. Eén maat voor de vorm is de stapfrequentie, het aantal stappen per seconde. Een loper is niet efficiënt als zijn stapfrequentie te hoog ligt of te laag. Natuurlijk moet de stapfrequentie toenemen als de snelheid toeneemt. In een onderzoek over de 21 beste Amerikaanse vrouwelijke lopers, hebben onderzoekers de stapfrequentie gemeten bij verschillende snelheden. De volgende tabel geeft voor deze vrouwen de snelheden (in meters per seconde) en de gemiddelde stapfrequentie Snelheid 4.84 5.15 5.33 5.67 6.09 6.42 6.74 Stapfrequentie 3.05 3.12 3.17 3.25 3.36 3.46 3.55 (a) Teken de data met de snelheid op de x-as en de stapfrequentie op de yas. Worden deze data goed beschreven door een rechte lijn? (b) a = 1.764 en b = 0.264. Teken de kleinste-kwadratenlijn in uw diagram van onderdeel (a). (c) Bereken, door de regressielijn te gebruiken, voor elke in de tabel gegeven snelheid de voorspelde waarde. Gebruik die resultaten om de residuen te berekenen. Verifieer dat de som van de residuen gelijk is aan 0. (d) Zet de residuen uit tegen de snelheid. Bespreek het patroon. Zegt de grafiek iets over hoe goed de lineaire aanpassing voldoet? Kunt u de residuen uitzetten tegen het tijdstip waarop de waarnemingen zijn gedaan? 7. Hier komen de golfscores van 11 leden van een vrouwelijk golfteam, in twee rondes van een wedstrijd: Speler 1 2 3 4 5 6 7 8 9 10 11 Ronde 1 Ronde 2 89 94 90 85 87 89 95 89 86 81 81 76 105 89 83 87 88 91 91 88 79 80 (a) Teken de data met de scores van ronde 1 op de x-as en die van ronde 2 op de y-as. Er is een globaal lineair patroon, met uitzondering van één invloedrijke waarneming. Markeer die waarneming in uw diagram. (b) Computersoftware geeft de volgende twee regressielijnen, die ene is berekend uit alle 11 waarnemingen, de andere onder weglating van de invloedrijke waarneming: y = 20.49 + 0.754x y = 50.01 + 0.410x Teken beide lijnen in uw diagram. Welke lijn laat de invloedrijke waarneming weg? Verklaar hoe u die lijn hebt gevonden. 8. Een studente vraagt zich af of mensen de neiging hebben om uit te gaan met iemand van overeenkomstige lengte. Zij meet haar eigen lengte, die van haar kamergenote en van de vrouwen in naburige kamers; daarna meet ze de lengte van de eerstvolgende man met wie een vrouw uitgaat. Hier volgen de gegevens (lengte in centimeters). Vrouwen 168 163 168 165 178 165 Mannen 183 173 178 173 180 165 (a) Maak een spreidingsdiagram van deze gegevens. Verwacht u op grond van het diagram een positieve of een negatieve correlatie? In de buurt van ±1 of niet? (b) Op basis van SPSS is de correlatie tussen beide = 0.563 (c) Hoe zou r veranderen als alle mannen 15 centimeter korter waren dan de in de tabel gegeven lengtes? Is de correlatie nuttig bij het beantwoorden van de vraag of vrouwen de neiging hebben uit te gaan met mannen die langer zijn dan zij zelf? (d) Als iedere vrouw uitging met een man die precies 8 centimeter langer was dan zij zelf, wat zou dan de correlatie tussen de lengtes van mannen en vrouwen zijn? 9. Elk van de volgende beweringen bevat een blunder. Geef telkens aan wat er mis is. (a) 'Er bestaat een grote correlatie tussen het geslacht van Amerikaanse werknemers en hun inkomen'. (b) 'Wij vonden een grote correlatie (r = 1.09) tussen de door studenten gegeven beoordeling van de onderwijskwaliteiten van stafleden en de door andere stafleden gegeven beoordeling'. (c) 'De correlatie tussen plantdichtheid en maïsopbrengst bleek r = 0.23 liter te zijn' 10. Een onderzoek onder eerstejaarsstudenten van een universiteit over aanwezigheid bij de lessen en behaalde cijfers, bracht aan het licht dat in het algemeen de studenten die een hoger percentage van de lessen volgden ook hogere cijfers behaalden. Aanwezigheid bij de lessen verklaarde bij de onderzochte studenten 16% van de variatie in het cijfer. Wat is de numerieke waarde van de correlatie tussen het percentage bijgewoonde lessen en het cijfer? 11. Voor een grote groep economiestudenten is de correlatie tussen de totale score van een studente vóór het examen en de score bij het examen gelijk aan r = 0.6. Het gemiddelde van de totale scores bij de oefenexamens van alle economiestudenten is 280, de standaardafwijking bedraagt 30. De examenscores hebben als gemiddelde 75, met standaardafwijking 8. De hoogleraar is het examen van Julie kwijtgeraakt, maar weet dat haar totale oefenexamen-score 300 bedroeg. Hij besluit haar examenscore te voorspellen bij de oefenexamens. (a) Wat is bij deze cursus de helling van de regressielijn van examenscores op oefenexamen-scores? (b) Teken de grafiek van deze regressielijn en gebruik hem om Julie's examenscore te voorspellen. 12. In een onderzoek naar het verband tussen hoge bloeddruk en hart- en vaatziekten werd een groep blanke mannen in de leeftijd van 35 tot 64 jaar gedurende 5 jaar gevolgd. Aan het begin van het onderzoek had iedere man ofwel een 'lage' systolische bloeddruk (minder dan 140 mm Hg), ofwel een 'hoge' bloeddruk (140 mm Hg of meer). De volgende tabel geeft het aantal mannen in elke bloeddrukcategorie en het aantal sterfgevallen aan hart- en vaatziekten gedurende die vijfjarige periode. Bloeddruk Laag Hoog Stergevallen Totaal 21 55 2676 3338 (a) Bereken het sterftecijfer (sterfgevallen als fractie van het totaal) voor elke groep mannen. (b) Ondersteunen deze gegevens de gedachte dat er een verband bestaat tussen hoge bloeddruk en overlijden aan hart- en vaatziekten? Licht uw antwoord toe. 13. De volgende kruistabel deelt de in 1988 gepleegde gevallen van zelfdoding in volgens het geslacht van het slachtoffer en de gebruikte methode (bij 'ophanging' zijn inbegrepen wurging en verstikking). Schrijf op grond van deze data een korte uiteenzetting over de verschillen tussen mannen en vrouwen bij zelfdoding. Daarbij moet men niet vergeten, ter onderbouwing van de uitspraken, de relevante aantallen of percentages te vermelden. Methode Mannen Vrouwen Vuurwapens Vergif Ophanging Anders 15656 3403 3588 1431 2513 2422 787 607 Totaal 24078 6329 14. Een onderzoek naar kinderen op de basisschool, in de leeftijd van 6 tot 11 jaar, stelt een grote correlatie vast tussen de schoenmaat x en de score y bij een leesvaardigheidstoets. Geef verklaring voor deze samenhang 15. Een onderzoek toont aan dat er een duidelijk positieve relatie bestaat tussen de omvang van een ziekenhuis (gemeten naar het aantal bedden x) en het mediale aantal dagen y dat patiënten in het ziekenhuis verblijven. Zouden de grote ziekenhuizen hun rekeningen soms verhogen door de patiënten langer vast te houden? 16. Er bestaat een waargenomen samenhang tussen het cholesterolgehalte van het bloed en de formatie van afzetting in de aderen, hetgeen weer leidt tot het risico van een hartaanval. Het cholesterolgehalte kan door vele oorzaken worden beïnvloed, waaronder erfelijkheid en voedingsgewoonten. Men vermoedt dat het gebruiken van veel rood vlees, eieren en melkproducten een hoog cholesterolgehalte kan veroorzaken. Geef aan welk soort informatie u zou willen hebben om bewijsmateriaal te kunnen aandragen vóór of tegen de bewering dat dergelijke eetgewoonten het cholesterolgehalte doen stijgen.