Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Context: cruciale factor bij statistisch redeneren Prof. dr. Herman Callaert Statistiek = de wetenschap van het “leren uit cijfermateriaal” in aanwezigheid van variabiliteit en toeval en waarbij de context van reële onderzoeksvragen cruciaal is. Inhoudstafel 1 Voorbeelden van de rol van context ........................................................................................... 1 1.1 Schoolboeken: hoeveel boeken sleuren leerlingen dagelijks mee? ..................................... 1 1.2 Als je extra calcium aan je dieet toevoegt, daalt dan je bloeddruk? .................................... 1 2 Aandachtspunten bij onderwijs in de statistiek ........................................................................... 2 3 Slaafs uitrekenen of interpretatie in context? .............................................................................. 2 3.1 Een vergelijking ................................................................................................................... 2 3.2 Synoniemen, pizza’s en context .......................................................................................... 3 3.3 Pseudo-context: voorbeelden ............................................................................................... 4 Centrum voor statistiek Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren 1 Voorbeelden van de rol van context 1.1 Schoolboeken: hoeveel boeken sleuren leerlingen dagelijks mee? Op een donderdag werd in een school aan 120 leerlingen gevraagd hoeveel boeken (handboeken, schriften en ringmappen) zij die dag hadden meegebracht. Het gemiddelde was x 11.5 : een “typische” leerling had zo’n 11 à 12 boeken bij. In een andere school wilden twee leerkrachten dit project overdoen. Zij spraken af dat zij elk 60 leerlingen zouden ondervragen. Zij brachten hun gegevens samen en vonden een gemiddelde x 8.2 . Heeft in die school een “typische” leerling zo’n 8-tal boeken bij? Zonder verdere context kan je hier niet op antwoorden. In wiskunde kan je van 120 getallen het gemiddelde berekenen. Je hebt daarvoor geen context nodig, alleen wiskundige bewerkingen (zoals optellen en delen). In statistiek heeft “het gemiddelde” een betekenis. Of het gemiddelde een zinvol kengetal is voor “centrum”, “typisch”, “representatief”,… hangt af van de vraagstelling en van de manier waarop de data zijn opgemeten. Het onderzoek van die 2 leerkrachten toont een grafiek met 2 clusters: één rond 5 en één rond 11. Inderdaad, de ene leerkracht had het aantal schoolboeken geteld op een donderdag, de andere op een woensdag [de volledige dataset van dit voorbeeld staat in de tekst over “Het gemiddelde” bij de werkteksten op http://www.uhasselt.be/lesmateriaal-statistiek ]. 1.2 Als je extra calcium aan je dieet toevoegt, daalt dan je bloeddruk? Hieronder staan de gegevens (in mmHg), opgemeten bij 21 mensen. Een groep van 10 nam dagelijks een calciumsupplement. De andere 11 deden dat niet. Het gaat over de “daling” van de systolische bloeddruk (de bovendruk) na 12 weken. Het resultaat 7 geeft aan dat bij die persoon de bloeddruk na 12 weken met 7 mmHg gedaald is. Het resultaat - 4 betekent dat bij die persoon de bloeddruk met - 4 mmHg gedaald is wat erop neerkomt dat hij met 4 mmHg gestegen is. Groep 1 (nam extra calcium): 7, -4, 18, 17, -3, -5, 6, 10, 11, -2 Groep 2 (nam geen extra calcium): -1, 12, -1, -3, 3, -5, 5, 2, -11, -1, -3 Je zou nu bijvoorbeeld een t-toets kunnen uitvoeren. Rekentechnisch is dat niet moeilijk. De wiskundige formules zijn gekend en met 1 muisklik geeft elk statistisch pakket je de p-waarde (4.4 %). En dan, wat weet je dan? Kan je nu besluiten dat calcium helpt om de bloeddruk te verlagen? Centrum voor statistiek 1 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Vanuit statistisch standpunt kan je zonder verdere context geen zinvol besluit trekken: - hoe zijn die mensen gekozen? (spontane vrijwilligers? internetoproep? advies huisarts?...) - hoe zijn zij in 2 groepen verdeeld? (op eigen initiatief? oordeel cardioloog? lukraak?...) - hoe verliep de studie? (blind? verstrengelende factoren?...) - als je een verschil in bloeddruk ziet, is calcium dan de oorzaak? 2 Aandachtspunten bij onderwijs in de statistiek Leerlingen ontdekken het verschil tussen wiskundig redeneren en statistisch redeneren: wiskunde: uiteindelijk gaat het in wiskunde om de studie van onderliggende structuren en patronen, los van een concrete context. statistiek: wat structuren en patronen betekenen wordt in statistiek in grote mate bepaald door de context. Leerlingen ontdekken dat interpretatie van data en context niet noodzakelijk tot een éénduidig antwoord leidt. Statistische problemen starten met een vraag en eindigen met een antwoord dat onderbouwd is met cijfermateriaal, context, modelonderstellingen, wiskundige technieken, wetenschappelijke argumenten.. En voor de leerkracht… hoeveel tijd besteed je aan de studie van context? In statistiek is abstract redeneren onlosmakelijk verbonden met interpretatie van data en context. 3 Slaafs uitrekenen of interpretatie in context? 3.1 Een vergelijking Soms helpt het om onderwijs in de statistiek te vergelijken met onderwijs in een ander vak, bijvoorbeeld fysica (of natuurwetenschappen). Wat is de praktijk bij onderwijs in de fysica? Bij “trillingen en golven” denk je spontaan aan licht, geluid,… Dat zijn boeiende fysische verschijnselen waarbij je als leerkracht samen met leerlingen op stap kan gaan om een nieuwe wereld te ontdekken. Concrete ervaringen en proeven in een labo spelen een cruciale rol om vanuit verwondering een nieuwsgierigheid op te wekken naar “hoe zit dit in elkaar… dit wil ik echt weten”. Centrum voor statistiek 2 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Observaties in een labo vragen naar een beschrijving. Een eenvoudige formulering kan daarbij een prima start zijn. Dieper begrijpen heeft ook nood aan precieze vakterminologie en abstract redeneren. In dit kader is een studie van de sinusfunctie nuttig om de waargenomen fysische verschijnselen te helpen verklaren. Wiskunde verdiept en complementeert de kennis opgedaan in het labo. Stel je even voor dat fysica (of natuurwetenschappen) niet als apart vak zou bestaan, maar als beperkt onderdeel van het lessenpakket wiskunde. Welke vorming krijgen leerlingen als zij alleen maar wiskundige eigenschappen zouden aangeleerd krijgen terwijl ze de weg naar het labo nog nooit hebben ontdekt? Dat de leerkracht wiskunde bij de sinusfunctie ook de woorden amplitude en frequentie laat vallen, brengt weinig aarde aan de dijk als die woorden geen enkele fysische realiteit oproepen. Wat is de praktijk bij onderwijs in de statistiek? Statistiek is een methodologische discipline = reikt, ten behoeve van andere wetenschappen, methoden aan om op een juiste manier data te verzamelen en daaruit zinvolle informatie te halen. Statistiek is een experimentele discipline maar statistiek heeft geen eigen cijfermateriaal. Het labo van de statistiek is het cijfermateriaal van de andere disciplines. "The best thing about being a statistician is that you get to play in everybody else's backyard" (John Tukey). Cijfermateriaal = getallen in een context. De conclusie van een statistisch onderzoek staat of valt bij de manier waarop de data tot stand zijn gekomen. Het klassieke onderwijs in de statistiek beperkt zich tot “wiskundig beschrijven en modelleren”. Cruciale aspecten zoals “hoe zijn de data tot stand gekomen?” of “hoe interpreteer je de resultaten van de analyse in de context van de onderzoeksvraag?” worden totaal genegeerd. Het is zoals “fysica zonder labo”. 3.2 Synoniemen, pizza’s en context Synoniemen: wiskunde, statistiek en middeleeuws Chinees. Scenario 1: wiskunde 4 Het somteken x staat voor i 1 i x1 x2 x3 x4 . 1 4 Gegeven: voor 4 getallen geldt dat xi 10 4 i 1 Gevraagd: wat is de som van die 4 getallen? Antwoord leerling: de som is gelijk aan 40. Reactie leerkracht: proficiat, je kent wiskunde. Scenario 2: statistiek Het gemiddelde van 4 getallen noteer je als x wat staat voor 1 4 xi . 4 i 1 Gegeven: voor 4 getallen geldt dat x 10 . Gevraagd: wat is de som van die 4 getallen? Antwoord leerling: de som is gelijk aan 40. Reactie leerkracht: proficiat, je kent statistiek. Centrum voor statistiek 3 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Scenario 3: middeleeuws Chinees In het middeleeuws Chinees betekent ohuu “de som gedeeld door het aantal”. Gegeven: voor 4 getallen geldt dat hun ohuu gelijk is aan 10. Gevraagd: wat is de som van die 4 getallen? Antwoord leerling: de som is gelijk aan 40. Reactie leerkracht: proficiat, je kent middeleeuws Chinees. Bij elk scenario moest de leerling precies dezelfde wiskundige bewerking uitvoeren. Het is niet omdat je een wiskundetechniek een andere naam geeft dat je iets leert over een andere discipline, zoals statistiek of middeleeuws Chinees. Pizza’s en pseudo-context. Een leerkracht wiskunde denkt dat hij “de droge stof” moet opsmukken met concrete voorbeelden uit het leven van elke dag (“ervaringsgerichte wiskunde”). Bij de studie van een cirkeloppervlak dat in sectoren moet worden verdeeld, brengt de leerkracht een pizza mee. Die pizza moet in 6 gelijke stukken verdeeld worden. Hoe groot moeten dan de sectoren zijn? Bereken de hoeken. Bij de volgende les begint die leerkracht weer met: we hebben een pizza en die moet nu als volgt verdeeld worden … En bij de volgende les zijn het de leerlingen die als eerste het woord nemen: “beste leerkracht, zwijg nu a.u.b. over die pizza’s en zeg maar direct welke hoeken we moeten uitrekenen”. Als je dit verhaal overdreven vindt, kijk dan eens naar enkele voorbeelden hieronder. Kijk ook eens naar opgaven in de handboeken of teksten die je zelf gebruikt. Bij hoeveel opgaven kan de context de leerling echt boeien? En waar vind je voorbeelden waarbij de context zo cruciaal is dat het antwoord op de opgave ervan afhangt (zoals bij calcium supplement en bloeddruk)? 3.3 Pseudo-context: voorbeelden Pizza-voorbeelden waarbij de context alleen maar een last is waar de leerling zo snel mogelijk vanaf moet geraken, zijn er bij de vleet. Je kan er boeken mee vullen (en de handboeken zijn ermee gevuld)! Hieronder 2 voorbeelden uit peilingen: het MaLT project 2003-2006 (toetsten i.v.m. nationaal wiskunde curriculum in Engeland) de Peiling wiskunde 3de graad ASO, KSO,TSO 2015 (eindtermen – Vlaamse overheid) Centrum voor statistiek 4 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Een opgave uit het MaLT project De context van deze vraag gaat over het aantal goals dat bij een match gescoord wordt. Volgens het aangegeven “Objective” is het met deze vraag de bedoeling om na te gaan of leerlingen het gemiddelde van discrete gegevens “begrijpen” en “kunnen gebruiken” [understand and use]. Dit is een typisch voorbeeld van een pizza-context, opgesteld vanuit wiskundig denken. Men wil een wiskundige eigenschap toetsen en zuigt daarbij wat context uit de duim. Je kan je moeilijk voorstellen dat deze context leerlingen ook maar enigszins aanspreekt, noch de voetbalfans, noch de voetbalhaters. De echte vraag is: ken je de formule waarvoor gemiddelde “een synoniem” is? kan je met deze formule “rekenen”? Een leerling (die weet hoe je dit soort vragen moet aanpakken – hij heeft er weinig andere gezien) laat onmiddellijk alle blabla weg en leest de vraag als: “Het gemiddelde van 20 getallen is 4. Bereken de som van die getallen”. Inderdaad, volgens het ingevulde formulier met de verbetercode is het antwoord 80. Als de leerling in het open vakje het getal 80 invult dan krijgt hij de code “correct”. Hij heeft dan getoond dat hij het gemiddelde begrijpt en kan gebruiken. Vraag: 1 n xi en er tevens van n i 1 overtuigd is dat het gemiddelde een maat is voor variabiliteit, kan die de opgave correct oplossen? Een leerling die onthouden heeft dat “gemiddelde” staat voor de formule Antwoord: ja. HET IS MOEILIJK OM VAN HET VAK STATISTIEK EEN NOG GROTERE KARIKATUUR TE MAKEN . Centrum voor statistiek 5 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren Een opgave uit de peiling wiskunde 3e graad (2015) Zoals bij de vorige vraag is het ook hier duidelijk dat dit geen “statistische’ vraag is maar een “wiskundige”. Een leerling kan “wiskundige” vragen over het gemiddelde oplossen als hij de wiskundige formule (mogelijks in verschillende verschijningsvormen) kent en verder geen rekenfout maakt (of op de juiste knop van het rekentoestel drukt). Als wiskundige definitie staat “gemiddelde” voor “de som gedeeld door het aantal”. Je kan hierbij enkele extra manipulaties inbouwen, afhankelijk van de manier waarop de getallen gegeven zijn (deze wiskundige manipulaties hebben niets te maken met het begrip gemiddelde). De som van getallen vind je als volgt: een rij getallen: tel alle getallen samen discrete gegevens, gegroepeerd in een frequentietabel of voorgesteld door een staafdiagram: vermenigvuldig elk getal met zijn frequentie en tel dan samen continue gegevens, gegroepeerd in een frequentietabel met klassenindeling of voorgesteld door een histogram: neem als rekenregel: vermenigvuldig elk klassenmidden met de klassenfrequentie en tel samen. Centrum voor statistiek 6 Statistiek voor het secundair onderwijs Context: een cruciale factor bij statistisch redeneren In de bijhorende tekst staat bij deze opgave: “In deze opgave moet de leerling een gemiddelde bepalen van gegroepeerde gegevens vanuit een grafische voorstelling. De leerling moet de klassenmiddens bepalen en dan het gemiddelde berekenen met behulp van de frequenties, die onder de vorm van getallen gegeven zijn.” De onderste lijn geeft aan dat 47 % van de leerlingen het correcte antwoord C heeft aangeduid. Om bij deze opgave tot het juiste antwoord te komen, is het niet nodig om te weten of het gemiddelde gaat over centrum of spreiding of wat dan ook. Je moet de rekenregel kennen in de vorm die aangepast is aan de manier waarop de gegevens worden gepresenteerd. De vraag “Hoeveel weegt de handbagage van de passagiers gemiddeld?” stimuleert de leerling helemaal niet om naar de context te kijken. Integendeel, men verwacht een slaafse toepassing van een aangeleerde contextloze techniek om een gemiddelde te berekenen bij een gegeven histogram. Nochtans gaat het hier volgens de tekst over een onderzoek: “Een luchtvaartmaatschappij heeft onderzocht…” en “… de resultaten van het onderzoek…”. De resultaten van het onderzoek worden gepresenteerd in een histogram. Uit het histogram is duidelijk dat de luchtvaartmaatschappij uitermate streng gecontroleerd heeft op het maximum toegelaten gewicht. Geen enkele handbagage woog meer dan 10 kg. Het is ook duidelijk (en als je ooit gevlogen hebt dan zie je het zo voor je ogen) dat heel wat mensen geprobeerd hebben om hun handbagage tot op de rand te vullen. Soms wordt nog vlug een boek uit de iets te zware handbagage verhuisd naar een valies. Deze “realistische context” roept twijfel op bij de keuze van het klassenmidden bij de laatste klasse. Denk je echt dat 9 kg een goede representatie is van de 51 203 handbagages die allemaal in die laatste klasse (van 8 kg tot 10 kg) terechtkwamen? Je moet bijna blind zijn om niet te zien hoe scheef het histogram is. Het vertrekt van laag (bij de eerste klasse) en stijgt (globaal) naar een uitgesproken hoge top (bij de laatste klasse) waarna het afbreekt. Na 10 is er niets meer. Als je vanuit deze steekproef een voorstel zou doen voor de populatie van de gewichten, dan kom je terecht op een dichtheidsfunctie van de vorm zoals hiernaast. Van enige symmetrie rond een centrum, laat staan van een gelijkenis met een klokvormige curve, is hier helemaal geen sprake. Als je, bij de data van dit onderzoek, toch een vraag wil stellen waarin het woord gemiddelde voorkomt, dan luidt die als: Zou je bij deze data het gemiddelde als kenmerk voor het centrum gebruiken? Motiveer uw antwoord. en niet: Bereken het gemiddelde. Centrum voor statistiek 7