Uittreksel Basisboek Statistiek Inhoudsopgave Voorwoord ................................................................................................................. 2 1. Inleiding ................................................................................................................. 3 1.1 De drie deelgebieden van de statistiek............................................................. 3 1.2 Statistiek in de praktijk, enkele voorbeelden .................................................... 3 1.3 Populatie en steekproef ................................................................................... 3 1.4 Waarnemen en meten ..................................................................................... 4 1.5 De data-matrix ................................................................................................. 4 2. Tabellen en grafieken ............................................................................................ 5 2.1 Frequentietabel en het histogram ................................................................... 5 2.2 Indelen in klassen ........................................................................................... 5 2.3 Andere voorstellingen voor een reeks waarnemingen ..................................... 6 2.4 Lijn- en staafdigrammen ................................................................................. 6 2.5 Verhoudingsdiagrammen ................................................................................ 7 2.6 Enkele valstrikken ........................................................................................... 7 2.7 Samenvatting.................................................................................................. 7 3. Maten voor ligging en spreiding ............................................................................. 8 3.1 Het rekenkundig gemiddelde ........................................................................... 8 3.2 Meridiaan en modus ........................................................................................ 8 3.3 Gemiddelde, mediaan en modus berekenen bij een klassenindeling ............... 9 3.4 Gemiddelde, mediaan of modus? .................................................................. 10 3.5 De standaardafwijking.................................................................................... 10 3.6 De standaardafwijking bij een klassenindeling ............................................... 11 3.7 Het twee-sigma-interval ................................................................................. 11 3.8 De kwartielen ................................................................................................. 12 3.9 Andere maten voor ligging ............................................................................. 12 3.10 Andere maten voor spreiding ....................................................................... 13 3.11 Berekeningen met de TI-83 Plus .................................................................. 13 3.12 De regelkaart ............................................................................................... 13 4. Twee variabelen .................................................................................................. 14 4.1 De kruistabel .................................................................................................. 14 4.2 De data-matrix ............................................................................................... 14 4.3 Het spreidingsdiagram ................................................................................... 14 4.4 De regressielijn en 4.5 De correlatiecoëfficiënt .............................................. 15 4.6 Berekeningen met de TI-83............................................................................ 16 5. Verhoudingscijfers ............................................................................................... 17 5.1 Enkelvoudige indexcijfers............................................................................... 17 5.2 Samengestelde indexcijfers ........................................................................... 17 5.3 De indexcijfers van Laspeyres en Paasche .................................................... 18 5.4 Twee berekeningswijzen ................................................................................ 19 5.5 Indexcijfers bij het CBS .................................................................................. 19 7 Elementaire kansrekening .................................................................................... 20 7.1 Het begrip kans.............................................................................................. 20 7.2 Rekenregels voor kansen .............................................................................. 21 7.3 Voorwaardelijke kansen ................................................................................. 21 7.4 Combinatoriek................................................................................................ 22 8 Kansvariabelen .................................................................................................... 23 8.1 Discrete verdelingen ...................................................................................... 23 8.2 Verwachtingen en standaardafwijking ............................................................ 23 8.3 Combinaties van discrete kansvariabelen ...................................................... 24 8.3.1 Som van twee kansvariabelen .................................................................... 24 8.3.2 Steekproefgemiddelde ................................................................................ 24 8.4 Continue verdelingen ..................................................................................... 25 Uittreksel Statistiek 9 Discrete verdelingen............................................................................................. 26 9.1 De binomiale verdeling .................................................................................. 26 9.2 De Poisson-verdeling ..................................................................................... 26 9.3 Enkele andere verdelingen ............................................................................ 27 9.4 Voorspellingsgebieden................................................................................... 27 10 De normale verdeling ......................................................................................... 28 10.1 De vorm van de normale verdeling .............................................................. 28 10.2 Combinaties van normale kansvariabelen .................................................... 28 10.3 Benaderingen met de normale verdeling...................................................... 29 11 Schatten ............................................................................................................. 30 11.1 Schattingen zijn niet exact ........................................................................... 30 11.2 Enkele veelgebruikte schatters .................................................................... 30 11.3 Betrouwbaarheidsintervallen voor van een normale verdeling .................. 31 11.4 Betrouwbaarheidsintervallen voor p van een binomiale verdeling ................ 31 11.5 Betrouwbaarheidsintervallen voor van een Poisson-verdeling .................. 32 11.6 De keuze van een steekproefomvang .......................................................... 32 11.7 Steekproefmethoden.................................................................................... 32 12 Toetsen .............................................................................................................. 33 12.1 De beginselen van een toets........................................................................ 33 12.2 De 2 toets voor de klassenindeling ............................................................ 34 12.3 De 2 toets op onafhankelijkheid................................................................. 35 12.4 De tekentoets............................................................................................... 35 12.5 De rangtekentoets........................................................................................ 35 12.6 Toetsen omtrent van een normale verdeling ............................................. 36 12.7 Toetsen omtrent p van een binomiale verdeling ........................................... 38 12.8 Toetsen omtrent van een Poisson-verdeling ............................................ 39 12.9 Procedures en begrippen ............................................................................. 40 Gebruik van de TI-89 bij Statistiek ........................................................................... 41 Voorwoord Dit is een uitgebreid uittreksel van het Basisboek Statistiek (1e druk 1996). Het bevat alle begrippen en formules, in de volgorde zoals die in het boek aan bod komen. Bij de formules heb ik zoveel mogelijk verwijzingen opgenomen naar formules in het tabellenboek (1e druk 1993). De verwijzingen naar formules in het boek staan met [blokhaken] aangegeven, de verwijzingen naar formules in het tabellenboek staan tussen (booghaakjes). Op deze manier heb ik geprobeerd een brug te slaan tussen de volgorde waarin de theorie in het boek wordt behandeld en de indeling van het tabellenboek. Ik heb deze module doorgewerkt met een TI-83. In een bijlage heb ik enkele aanwijzingen opgenomen voor het werken met en TI-89. Succes met de module Statistiek! Bert Kraai Versie 2.0 Blz. 2 van 41 Uittreksel Statistiek 1. Inleiding 1.1 De drie deelgebieden van de statistiek Deel 1: Beschrijvende statistiek = verzameling technieken voor het vastleggen van gegevens met het doel overzicht te verschaffen. Deel 2: Kansrekening = theorie van berekeningen betreffende de uitkomsten bij experimenten waarbij het toeval een rol speelt. Deel 3: Verklarende statistiek = wetenschap die tot doel heeft: het trekken van conclusies omtrent populaties op basis van steekproeven het doen van voorspellingen die tenminste een bepaalde kans hebben om uit te komen. 1.2 Statistiek in de praktijk, enkele voorbeelden Enquête = 1. Formulier met vele vragen die alle door vele mensen moeten worden beantwoord 2. Een experiment waarbij vele mensen allen dezelfde vragen moeten beantwoorden Steekproef = Deelverzameling van de populatie, gewoonlijk gebruikt voor het doen van metingen. Populatie = Verzameling van 'objecten' of 'elementen' waarop het onderzoek is gericht. Totale doelgroep van het onderzoek. Aselect = Willekeurig gekozen, 'eerlijk', door loting. Panel = Vaste groep 'objecten' of 'elementen' die gedurende enige tijd gevolgd worden. Tijdreeks = Rij getallen met de tijd als variabele. Extrapoleren = Doortrekken van een bepaalde lijn, trend. Voorwaarde: omstandigheden moeten gelijk blijven (is echter bijna nooit het geval!). 1.3 Populatie en steekproef Elementen = Objecten in een populatie. Variabele = Grootheid waarvan de waarde tijdens een experiment of bij een enquête kan worden vastgesteld. Waarde van een variabele = Gemeten waarde, uitgedrukt in de eenheid van de bij de variabele horende grootheid. Versie 2.0 Blz. 3 van 41 Uittreksel Statistiek 1.4 Waarnemen en meten Meetniveau = Aanduiding van de aard van waarnemingen: nominaal, ordinaal of metrisch. Kwantitatieve variabele = Uitkomst is een getal = numeriek = metrisch. Voorbeelden: proefwerkcijfers, schoenmaat Kwalitatieve variabele = Uitkomst is geen getal. Voorbeelden: diersoort, haarkleur, geloof, automerk Nominale variabele = Uitkomst is een soort, een indeling in een bepaalde categorie. Voorbeelden: zie kwalitatieve variabele. NB: soorten zijn wel numeriek te coderen! Schaal = Verzameling mogelijke waarden van een variabele, het domein. Ordinale variabele = Uitkomst is net als bij een nominale variabele een soort, die ingedeeld kan worden in een bepaalde categorie. Nu echter hebben deze categorieën een bepaalde logische volgorde uitkomsten zijn rangschikbaar. Voorbeelden: opleidingsniveau Discrete variabele = Uitkomst is een geheel getal. Voorbeelden: aantal kinderen Continue variabele = Uitkomst is een reëel getal. Voorbeelden: gewicht Ratioschaal = Continue variabele met natuurlijk nulpunt Voorbeelden: gewicht, lengte Intervalschaal = Continue variabele zonder natuurlijk nulpunt Voorbeelden: temperatuur in oC, tijd, bouwjaar Experiment = Reeks van handelingen gericht op het verkrijgen van uitkomsten van één of meer grootheden waarvan de waarde tijdens een experiment of bij een enquête kan worden vastgesteld. Deterministisch = Toeval heeft geen invloed op de uitkomst, bv. natuurkundige experimenten. Stochastisch = Uitkomst is afhankelijk van het toeval. 1.5 De data-matrix Data-matrix = Tabel waarin de resultaten van een reeks ondervragingen of experimenten is gerangschikt. In de rijen staan de objecten opgesomd, in de kolommen de resultaten. Meestal worden de resultaten gecodeerd. Coderen = Uitkomsten omzetten in getallen, met behulp van een sleutel. Voorbeelden: IQ, EQ. Versie 2.0 Blz. 4 van 41 Uittreksel Statistiek 2. Tabellen en grafieken 2.1 Frequentietabel en het histogram Klasse = interval van getallen waarin waarnemingen kunnen liggen. Frequentie = aantal malen dat een bepaalde waarde (of: een waarde in een bepaalde klasse) voorkomt. Turfstaat = tabel van de waarden (of klassen) met daarachter turfstreepjes om de frequentie aan te geven. Cumulatieve frequentie = gesommeerde frequentie van de betreffende waarde/klasse PLUS alle voorgaande waarden/klassen. Relatieve frequentie = percentage van de betreffende frequentie ten opzichte van de totale frequentie. Histogram = tabel waarbij op de ene as de waarden/klassen staan aangegeven en op de andere as de frequentie. 2.2 Indelen in klassen Klassenindeling = de wijze waarop de waarden worden ingedeeld in klassen. Klassebreedte = interval tussen hoogste en laagste waarde van een klasse. Klassegrenzen = waarden waarbij de ene klasse ophoudt en de volgende klasse begint. Frequentiepolygoon = grafiek bestaande uit lijntjes, die de middens van de bovenzijde van de naast elkaar liggende rechthoeken van het histogram verbinden. Frequentiedichtheid = frequentie gedeeld door standaardklassebreedte. Modus = waarde/klasse die het meeste voorkomt = de hoogste staaf. Modale klasse = klasse die het meeste voorkomt (bv. modaal inkomen). Deze klasse heeft de hoogste frequentiedichtheid. Eentoppig = unimodaal = histogram heeft 1 top. Tweetoppig = bimodaal = histogram heeft 2 toppen. Symetrisch = links en rechts van de modus zijn elkaars spiegelbeeld. Asymetrisch = links en rechts van de modus zijn niet elkaars spiegelbeeld. Scheef naar rechts = histogram is eentoppig en de staart naar de rechterkant loopt verder door dan naar de linkerkant. Versie 2.0 Blz. 5 van 41 Uittreksel Statistiek Normaal = histogram is ééntoppig en symetrisch en de vorm voldoet aan een speciale formule uit hoofdstuk 10 (deze formule is geen toetsstof). Stamdiagram = gekanteld histogram, waarbij op de ene as de klassen staan aangegeven en op de andere as alle gevonden waarden binnen de betreffende klasse worden vermeld. Variant 1: gevonden waarden worden geordend. Variant 2: de as met klassen wordt in het midden geplaatst, waarbij zowel links als rechts de waarden van 2 steekproeven worden genoteerd. Waardevol bij het vergelijken van 2 soortgelijke steekproeven. De frequentie is te berekenen door het tellen van de gevonden waarden per klasse. 2.3 Andere voorstellingen voor een reeks waarnemingen Cumulatieve-frequentiepolygoon = grafiek waarin de rechter klassegrenzen uitgezet zijn tegen de cumulatieve frequentie. De frequentiedichtheid is te berekenen uit de richtingscoëfficient van elk lijnstuk. Met deze frequentiedichtheden is het histogram te tekenen. Eendimensionale spreidingsdiagram = diagram waarbij op de horizontale as de klassegrenzen staan aangegeven met daarboven alle gemeten waarden met een punt/ster/kruisje/streepje. Voordeel: bij kleine reeksen waarnemingen zijn in één oogopslag de ligging en spreiding van de getallen vast te stellen. Box-plot = lijn waarin de volgende 5 kengetallen worden aangegeven: kleinste middelste van de kleinste helft middelste middelste van de grootste helft grootste. Lorentz-curve = cumulatieve frequentie afgezet tegen de cumulatieve waarde. Concentratie-coëfficient = kan afgeleid worden uit de oppervlakte rechtsonder de Lorentz-curve. Hoe kleiner deze oppervlakte, hoe hoger de concentratie-coëfficient. 2.4 Lijn- en staafdigrammen Lijndiagram = Grafiek waarin de ontwikkeling van een variabele in de tijd (= tijdstippen) wordt gevolgd met behulp van een aaneenschakeling van rechte lijnstukjes. Wordt vooral gebruikt om de onderlinge verschillen aan te geven. Staafdiagram = Grafiek om de waarden van een variabele in bepaalde tijdvakken weer te geven. Hierbij ligt de nadruk meer op het weergeven van de absolute grootte. NB. De staven staan los van elkaar (in tegenstelling tot het stamdiagram)! Tijdgrafiek = Lijndiagram, eventueel in de vorm van een kromme. Scheurlijn = onderbreking van de as. NIET toegestaan bij een staafdiagram. Versie 2.0 Blz. 6 van 41 Uittreksel Statistiek 2.5 Verhoudingsdiagrammen Samengestelde staafdiagram = figuur waarin verschillende waarden gegroepeerd zijn weergegeven (gegevens in groepen tegen elkaar aan, groepen los van elkaar). Vooral bruikbaar om verhoudingen binnen groepen EN de trend van ieder staafdiagram weer te geven. Stapeldiagram = samengesteld staafdiagram waarbij de staven gestapeld zijn i.p.v. naast elkaar weergegeven. Vooral bruikbaar om cumulatieven EN samenstelling van groepen weer te geven. Relatief stapeldiagram = stapeldiagram waarin de verhoudingen van de staven ten opzichte van elkaar zijn weergegeven in percentages. Vooral bruikbaar om de onderlinge verhouding binnen groepen aan te geven. Cirkeldiagram = cirkel waarin de relatieve frequenties zijn weergegeven. Vooral bruikbaar om de onderlinge verhoudingen weer te geven. Stroomdiagram = Schema waarin de dikte van de pijlen hoeveelheden aangeven. Beelddiagram = Staafdiagram waarbij de hoeveelheden zijn uitgedrukt in de grootte (oppervlakte) van symbolen of met behulp van het aantal symbolen. 2.6 Enkele valstrikken Gezichtsbedrog = de weergave van het diagram geeft een misleidende afspiegeling van de werkelijkheid. Voorbeeld: oppervlakte symbool beelddiagram neemt bij verdubbeling van lengte en breedte toe met een factor 4. Relatieve stijging/daling. Voorbeelden: Dalende lijn in een groeipercentage is nog steeds groei. Stijgende lijn in verliespercentage betekent meer verlies. Percentages van verhoudingscijfers. Voorbeelden: Verhoudingscijfers/percentages onderling vergelijkingen. 2.7 Samenvatting Vereisten in een grafiek Opschrift, eventueel bronvermelding Schaalverdeling Bijschriften bij de assen Eenheden vermelden bij schaal of bijschrift Scheurlijn (indien schaal verknipt) Versie 2.0 Vereisten in een tabel Opschrift, eventueel bronvermelding Handige klassegrenzen indien indeling moet worden gemaakt Eenheden vermelden Blz. 7 van 41 Uittreksel Statistiek 3. Maten voor ligging en spreiding 3.1 Het rekenkundig gemiddelde (ongewogen) Rekenkundig gemiddelde = som van de getallen gedeeld door het aantal getallen. x n i 1 xi x i x [3.1 blz. 79] (1.1 blz. 12) n n n waarbij x = steekproefgemiddelde en n = totale aantal waarden (steekproefgrootte). Als rekening gehouden wordt met frequentie waarmee waarden voorkomen: x k i 1 k xi f i f i 1 i x f f i i i xf xf n f [3.2 blz. 79] (1.11 blz. 14) waarbij x = steekproefgemiddelde, k = waarden/klassen, f = frequentie en n = totale aantal waarden (steekproefgrootte) = som van de frequenties. Wegingsfactor = wegingscoëfficient = getal waarmee waarnemingen worden gewogen bij het bepalen van een gemiddelde. Gewogen (rekenkundig) gemiddelde = som van de (getallen maal bijbehorende wegingsfactor) gedeeld door de som van de wegingsfactoren. x n i 1 n xi wi w i 1 i x w w i i i xw w [3.3 blz. 81] (1.3 blz. 12) waarbij x = steekproefgemiddelde, w = wegingsfactor en n = totale aantal metingen = steekproefgrootte. Kengetal voor de ligging = maat voor ligging = locatiemaat = plaatsbepalende parameter 3.2 Meridiaan en modus Centrummaten: gemiddelde, mediaan en modus. Worden ook wel lokatiematen of plaatsbepalende parameter genoemd. Modus = waarde die het meest voorkomt. Bruikbaar bij alle schaalsoorten. Veel toegepast bij nominale schaal (bv. diersoorten). NB: is als centrummaat alleen geschikt als het om zeer grote hoeveelheden waarnemingen gaat. Mediaan = middelste waarneming. Bruikbaar bij ordinale schaal (bv. leeftijd), intervalschaal en ratioschaal. NB: bij een even aantal waarnemingen wordt het gemiddelde van de middelste 2 genomen. Gemiddelde -> zie § 3.3 Bruikbaar bij intervalschaal en ratioschaal. Versie 2.0 Blz. 8 van 41 Uittreksel Statistiek 3.3 Gemiddelde, mediaan en modus berekenen bij een klassenindeling Modale klasse Bepaling: de klasse met de grootste frequentiedichtheid. NB: de uitkomst is afhankelijk van de gekozen klassenindeling! Gemiddelde berekenen bij klassenindeling Aanname: alle waarden in een klasse worden gesteld op het midden van die klasse. NB: dit levert een benadering op van het oorspronkelijk rekenkundige gemiddelde van de afzonderlijke waarnemingen. Mediaan berekenen bij klassenindeling Methode: uitrekenen bij welke waarde de oppervlakte van het histogram in tweeën gedeeld wordt. NB 1: ook dit levert een benadering op van de oorspronkelijke mediaan op basis van de afzonderlijke waarnemingen. NB 2: er zijn verschillende rekenmethoden. In het boek wordt de volgende gegeven. NB 3: deze rekenmethode kan ook toegepast worden bij relatieve frequenties. NB 4: de mediaan is ook te schatten uit de cumulatieve-frequentiepolygoon, nl. daar waar de polygoon de hoogte van 50% bereikt. Formule in woorden: ondergrens klasse meridiaan + (percentage klassebreedte tot aan de meridiaan * klassebreedte) x me g h gk rh b hk hk [3.4 blz. 84] g = linkergrens van de klasse waarin de meridiaan ligt r = rechtergrens van deze klasse h = aantal getallen links van de mediaan in deze klasse k = aantal getallen rechts van de mediaan in deze klasse b = breedte van de klasse (= r-g). Alternatieve berekening in woorden: (ondergrens klasse meridaan * aantal getallen links van meridiaan in deze klasse + bovengrens klasse meridiaan * aantal getallen rechts van meridiaan in deze klasse) / totaal aantal getallen in deze klasse. xme ai 1 / 2n Fi 1 a ( F 1 / 2n) bi (1 / 2n Fi 1 ) (bi ai ) i i fi fi (1.12 blz. 14) ai = ondergrens klasse waar meridiaan in ligt bi = bovengrens klasse waar meridiaan in ligt Fi-1 = cumulatieve frequentie t/m klasse i-1 fi = frequentie van de klasse I n = steekproefgrootte = totale aantal waarnemingen. Versie 2.0 Blz. 9 van 41 Uittreksel Statistiek 3.4 Gemiddelde, mediaan of modus? De centrummaat die gebruikt mag worden is afhankelijk van het type variabele (bron: studiewijzer): Type variabele Nominaalschaal Ordinaalschaal Intervalschaal en Ratioschaal Centrummaat Modus Modus, mediaan Modus, mediaan, gemiddelde, spreidingsmidden Daarnaast bepaald het doel welke centrummaat gekozen dient te worden. Enkele voorbeelden: Gemiddelde: bij doorberekenen kosten voor ophalen huisvuil per huishouden. Mediaan: bij het achteraf bepalen van de cesuur voor een toets. Modus: bepaling modale inkomen. 3.5 De standaardafwijking Spreidingsmaat = maat voor spreiding van de getallen. Spreidingsmaten: variantie, standaardafwijking (=standaarddeviatie), spreidingsmidden Variantie = spreidingsmaat berekend uit de som van de kwadratische afstanden tot het rekenkundig gemiddelde. Symbool: 2 Formule: de som van de kwadratische afstanden tot het rekenkundig gemiddelde gedeeld door het aantal getallen. 2 n i 1 ( xi x ) 2 f i n (x i x) 2 f i n x 2 i n fi x 2 [3.5 blz. 85 en 3.9 blz. 89] (1.14 blz. 15) Standaardafwijking = standaarddeviatie = wortel uit de variantie. Symbool: Reden worteltrekken: uitkomst is uitgedrukt in de oorspronkelijke eenheid. 2 Steekproefvariantie Symbool: s2 Bij steekproeven worden variantie en standaardafwijking iets anders berekend. Hierbij wordt niet gedeeld door n (aantal waarnemingen), maar door n-1. Reden: schatten variantie populatie. Formule: de som van de kwadratische afstanden tot het rekenkundig gemiddelde gedeeld door (het aantal getallen - 1) Versie 2.0 Blz. 10 van 41 Uittreksel Statistiek n s 2 i 1 ( xi x ) 2 f i n 1 (x i x) 2 f i n 1 x 2 i fi nx 2 n 1 [3.6 blz. 87] (1.16 blz. 15) Steekproefstandaardafwijking = wortel uit steekproefvariantie Symbool: s s s2 Standaardfout = standaardafwijking gedeeld door de wortel uit de steekproefomvang. Doel: indicatie verkrijgen tussen het steekproefgemiddelde en het populatiegemiddelde. Vuistregel: het werkelijke verschil tussen het steekproefgemiddelde en het populatiegemiddelde is meestal niet groter dan 2 x de standaardfout. [3.10 blz. 89] n Variatiecoëfficient = standaardafwijking gedeeld door gemiddelde. Relateert de mate van spreiding aan de gemiddelde grootte van een variabele. x [blz. 90] 3.6 De standaardafwijking bij een klassenindeling Hierbij gaan we uit van het klassenmidden (xi) en houden we rekening met de frequentieverdeling. De uitkomsten van variantie en standaardafwijking op basis van een klassenindeling kunnen sterk afwijken van de uitkomsten gevonden op basis van de oorspronkelijke waarnemingen! 3.7 Het twee-sigma-interval Vuistregel: 90 à 95% van de getallen bevinden zich tussen de grenzen die zich links en rechts op een afstand van tweemaal de standaardafwijking van het gemiddelde bevinden. Dit interval wordt het twee-sigma-interval genoemd, ookwel het 2- interval. ( x 2 ; x 2 ) Versie 2.0 [3.11 blz. 92] Blz. 11 van 41 Uittreksel Statistiek 3.8 De kwartielen Eerste kwartiel: meridiaan van het linkerdeel naast de meridiaan. Derde kwartiel: meridiaan van het rechterdeel naast de meridiaan. Halve kwartielafstand = (eerste kwartiel + derde kwartiel) / 2. Box-plot geeft in grafiekvorm de volgende 5 kengetallen weer: kleinste eerste kwartiel mediaan derde kwartiel grootste. 3.9 Andere maten voor ligging Harmonisch gemiddelde = omgekeerde (reciproke) van het rekenkundig gemiddelde van de omgekeerden. Toepassing: gemiddelde snelheid berekenen over een bepaald traject, dat bestaat uit deels snelweg, deels provinciale weg. n 1 x i [blz. 94] (1.4 blz. 12) Meetkundig gemiddelde = n-de machtswortel van het product van de n getallen. Toepassing: berekening gemiddelde groeifactor. n x x ...x [blz. 95] (1.6 blz. 13) 1 2 n Spreidingsmidden = gemiddelde van de kleinste + grootste waarneming. Toepassing: het midden schatten bij een min of meer symmetrische verdeling. kleinste+grootste [blz. 95] 2 Percentielen = vergelijkbaar met meridiaan en kwartielen, echter nu met vrij gekozen percentages. Voorbeeld: het eentwintigste percentiel = waarde waarbij ten hoogste 5% van de waarnemingen links van dit percentiel ligt. x p ai Versie 2.0 pn Fi 1 a ( F pn) bi ( pn Fi 1 ) (bi ai ) i i fi fi (1.13 blz. 14) Blz. 12 van 41 Uittreksel Statistiek 3.10 Andere maten voor spreiding Spreidingsbreedte = variatiebreedte = hoogste - laagste waarde. Opmerking: hangt sterk af van de waarnemingen die geselecteerd worden. Bij het vergelijken van de spreidingsbreedte van verschillende rijen waarnemingen is het noodzakelijk dat deze rijen evenveel getallen bevatten. grootste-kleinste [blz. 96] Gemiddelde absolute afwijking = gemiddelde over de absolute afwijking ten opzichte van het rekenkundig gemiddelde. Beperking van deze formule: variantie en standaardafwijking zijn te berekenen uit het aantal getallen, hun som en de som van hun kwadraten. Bij de gemiddelde absolute afwijking zijn alle individuele getallen nodig om opnieuw het gemiddelde uit te rekenen zodra een getal wordt toegevoegd. n i 1 | xi x | f i n | x i x |fi n [blz. 97] 3.11 Berekeningen met de TI-83 Plus Uit te voeren stappen voor berekenen gemiddelde, variantie en standaarddeviatie: 1. Lijst invoeren. Kies STAT, Edit. Lijst leegmaken door op het lijstnummer te gaan staan en op CLEAR te drukken. Verlaat met 2nd, QUIT. 2. Berekeningen uitvoeren. Kies 2nd, LIST, MATH. 3. Grafiek tekenen. Kies 2nd, STAT PLOT en stel grafiek in. Tonen met GRAPH of ZOOM optie 9 (ZoomStat). Let op! Deze rekenmachine ondersteunt alleen het berekenen van de steekproefvariantie en steekproefstandaarddeviatie! 3.12 De regelkaart Regelkaart = een tijdlijn waarop de berekende gemiddelden uit steekproeven worden uitgezet. Soms aangevuld met spreidingsbreedte. Toepassing: bij serieproductie in de discrete industrie (dikte) of procesindustrie (warmte). Uit studiewijzer Net als bij de centrummaat zijn de toegestande spreidingsmaten afhankelijk van het type variabele: Type variabele Nominaalschaal Ordinaalschaal Intervalschaal en Ratioschaal Versie 2.0 Spreidingsmaat - (geen) kwartielen, percentielen, halve kwartielafstand, spreidingsbreedte als bij ordinaalschaal + variantie, standaardafwijking, gemiddelde absolute afwijking Blz. 13 van 41 Uittreksel Statistiek 4. Twee variabelen 4.1 De kruistabel Kruistabel = tweedimensionale kruistabel Cel = 'ondeelbaar elemen' (vak) in een kruistabel Kolomtotaal = som van de aantallen (of percentages) in de cellen van een kolom van een kruistabel Regeltotaal = som van de aantallen (of percentages) in de cellen van een rij uit een kruistabel Randtotaal = regel- of kolomtotaal in een kruistabel Onafhankelijke variabelen = de waarde van de ene variabele beïnvloedt niet de voorspelbaarheid van de andere variabele. 4.2 De data-matrix Data-matrix = rechthoekig schema waarin alle uitkomsten van de variabelen in kolommen zijn weergegeven (bijvoorbeeld in relatie tot de tijd). Record = regel in een datamatrix = groep gegevens behorend bij 1 onderzoekseenheid (bv. tijdstip). Onderzoekseenheid = object, individu of tijdstip waaraan (waarop) een groep van metingen is verricht. 4.3 Het spreidingsdiagram Waarnemingspaar = tweetal waarnemingen van twee verschillende variabelen van dezelfde onderzoekseenheid. Spreidingsdiagram = diagram waarmee de meetwaarden van twee variabelen en hun mogelijke samenhang zichtbaar worden gemaakt. Puntenwolk = verzameling van punten die ontstaat als men de meetwaarden van twee variabelen in een assenstelsel tegen elkaar uitzet. Versie 2.0 Blz. 14 van 41 Uittreksel Statistiek 4.4 De regressielijn en 4.5 De correlatiecoëfficiënt Regressielijn = lijn waarmee de ligging van een puntenwolk kan worden aangeduid Regressievergelijking = vergelijking van de regressielijn Er zijn twee methoden om de regressievergelijking te berekenen: 1. via het bepalen van de richtingscoëfficient en y-as afsnijding (kleinste kwadraten schatting) 2. via de normaalvergelijkingen Methode 1: bepalen richtingscoëfficient en y-as afsnijding (kleinste kwadraten schatting) ^ y a bx [4.1 blz. 126] (1.19 blz. 15) waarin: b ( x x)( y y) x y n x y ( x x) x nx i i i 2 i 2 i i [4.2 en 4.6 blz. 126, 128] (1.20 blz. 15) 2 a y bx [4.3 blz. 126] (1.21 blz. 15) Methode 2: via de normaalvergelijkingen na ( x)b y [4.4 blz. 128] (1.19 blz. 15) ( x)a ( x )b xy 2 Hieruit kunnen a en b volgens bovenstaande formules worden berekend. Lineair verband = de ene variabele is middels een lineaire functie af te leiden uit de andere. De puntenwolk ligt op 1 rechte lijn. Positief verband = hogere waarden van de ene variabele corresponderen met hogere waarden van de andere waarden Negatief verband = hogere waarden van de ene variabele corresponderen met lagere waarden van de andere waarden Correlatiecoëffiënt = getal (tussen -1 en +1) dat de strerkte van het verband tussen twee variabelen aangeeft. NB. heeft alleen betekenis bij rechtlijnige verbanden. r ( x x)( y ( x x) ( y i i y) i y) 2 2 i x y i i nx y ( xi2 n x )( y i2 n y ) 2 2 [4.6 blz. 128] (1.22 blz. 16) Kleinste-kwadraten-methode = methode voor het berekenen van de regressievergelijking. Uitgangspunt is dat de som van de kwadratische afstanden van de punten tot deze lijn zo klein mogelijk moet zijn. Zwaartepunt van de puntenwolk = het snijpunt van de gemiddelden van beide variabelen. Dit punt ligt altijd op de regressielijn Regressiecoëfficiënt = relatiecoëfficiënt = richtingscoëfficiënt van de regressielijn. Helling van een lijn uitgedrukt in verticale verplaatsing gedeeld door verplaatsing naar rechts. Versie 2.0 Blz. 15 van 41 Uittreksel Statistiek Predictor = voorspellende variabele = onafhankelijke variabele = instelbare variabele De variabele die door de onderzoeker kan worden ingesteld dan wel als verklarend kan worden gezien voor de uitkomst van de andere variabele. NB: de variabele is niet onafhankelijk van de andere variabele. In deze zin is het synoniem "onafhankelijke variabele" misleidend. Respons = voorspelde variabele = afhankelijke variabele = voorspelde variabele De variabele waarvan de uitkomst (in zekere mate) afhangt van een variabele waarvan de waarde door de onderzoeker kan worden ingesteld of die hij als instelbaar beschouwd NB: de keuze welke variabele de predictor is en welke de respons is soms discutabel Normaalvergelijkingen = vergelijkingen waarmee de regressievergelijking volgens het kleinste-kwadraten-principe kan worden bepaald 4.6 Berekeningen met de TI-83 Voer 2 lijsten in: L1 en L2 (zie hoofdstuk 3.11). Bereken de regressievergelijking met STAT CALC. Kies optie 4: LinReg(ax + b). Vul eventueel de lijstnamen in gescheiden door een komma (default worden lijsten L1 en L2 genomen). Let op: in de vergelijking worden variabelen a en b zijn omgewisseld t.o.v. het boek! Versie 2.0 Blz. 16 van 41 Uittreksel Statistiek 5. Verhoudingscijfers 5.1 Enkelvoudige indexcijfers Enkelvoudig indexcijfer = getal dat de warde van 1 variabele uitdrukt ten opzichte van de waarde van die variabele in de basis Basis = eenheid (periode, land of bedrijf) waarvoor het indexcijfer 100 is Basisperiode = periode (kwartaal, jaar) waarvoor het indexcijfer gelijk is aan 100 Basis verleggen = andere periode kiezen die als basis wordt gebruikt. Berekening: delen door het oude indexcijfer van de nieuwe basis en vermenigvuldigen met 100. Verslagperiode = objectperiode = periode (kwartaal, jaar) waarop het indexcijfer betrekking heeft NB: berekeningen uitvoeren met zoveel mogelijk decimalen, uitkomsten bij presentatie afronden op 1 decimaal. 5.2 Samengestelde indexcijfers Samengesteld indexcijfer = getal dat de waarde van een combinatie van meer dan 1 variabele uitdrukt ten opzichte van de waarde van zo'n combinatie in de basisperiode Prijsindexcijfer = getal waarmee de prijs of prijzen in een bepaalde periode kunnen worden vergeleken met de prijs of prijzen in de basisperiode Prijsindexcijfer van Carli = gewone rekenkundig gemiddelde van de indexcijfers van de afzonderlijke bestanddelen Een gewogen gemiddelde zou nauwkeuriger zijn, maar dit maakt de berekening van het prijsindexcijfer (onnodig) ingewikkeld Waarde-indexcijfer = de waarde (omzet) in een bepaalde periode vergeleken met de waarde (omzet) in de basisperiode Iw pq p q 1 1 0 Versie 2.0 0 *100 w w 1 *100 [5.1 blz. 144] (2.8 blz. 20) 0 Blz. 17 van 41 Uittreksel Statistiek 5.3 De indexcijfers van Laspeyres en Paasche Directe methode = berekening uitgaande van oude en nieuwe prijzen en hoeveelheden Indexcijfers Laspeyres en Paasche 1. prijsindexcijfer 2. hoeveelheidsindexcijfer NB: het verschil is dat Laspeyres bij het prijsindexcijfer de hoeveelheid uit het oude jaar als basis neemt, terwijl Paasche de hoeveelheid van het nieuwe jaar als uitgangspunt neemt. Andersom neemt Laspeyres bij het hoeveelheidsindexcijfer de prijs uit het oude jaar als basis, terwijl Paasche de prijs van het nieuwe jaar als uitgangspunt neemt. Indexcijfers Fischer = meetkundige gemiddelde van de indexcijfers van Laspeyres en Paasche Prijs Laspeyres pq p q pq p q I pL 1 0 0 Prijs Paasche I pP 1 1 0 Prijs Fischer 0 1 w I *100 w w *100 *100 w / I *100 0 1 1 p q p q pq pq I qL 0 1 0 I qP 0 1 1 1 Hoeveelheid Fischer p p I pF I pL I pP Hoeveelheid Laspeyres Hoeveelheid Paasche 0 0 w I *100 w w *100 *100 w / I *100 0 q 0 1 1 q I qF I qL I qP [5.2 t/m 5.7 blz. 146-150] (2.2 t/m 2.7 blz 19) Factortest = test of met het product van een prijsindexcijfer en een hoeveelheidsindexcijfer het waarde-indexcijfer kan worden bepaald. NB: de indexcijfers van Laspeyres voldoen NIET aan de factortest! Hetzelfde geldt voor de indexcijfers van Paasche. Wel aan de factortest voldoen: I w Versie 2.0 I pL I qP 100 I pP I qL 100 I pF I qF 100 [5.6 blz. 148] (2.8 blz. 20) Blz. 18 van 41 Uittreksel Statistiek 5.4 Twee berekeningswijzen Directe methode = berekening uitgaande van oude en nieuwe prijzen en hoeveelheden Indirecte methode = berekening gewogen gemiddelde met behulp van indexcijfers. Hierbij wordt i.p.v. de nieuwe prijs cq. nieuwe hoeveelheid alleen gerekend met de oude waarde vermenigvuldigd met het enkelvoudige (!) indexcijfer voor de stijging van resp. prijs of hoeveelheid. 5.5 Indexcijfers bij het CBS Geen toetsstof Versie 2.0 Blz. 19 van 41 Uittreksel Statistiek 7 Elementaire kansrekening Kansrekening houdt zich bezig met experimenten of metingen waarbij de gevolgen (gebeurtenissen of meetresultaten) van tevoren niet vastliggen. 7.1 Het begrip kans Kans (Lapache) = het aantal 'gunstige' mogelijkheden gedeeld door het totale aantal mogelijkheden, mits deze gelijkelijk mogelijk zijn Uitkomst = elementaire gebeurtenis = meetresultaat Voorbeeld: 6 gooien met een dobbelsteen Gebeurtenis = (verzameling van) uitkomst(en) Voorbeeld: even aantal ogen gooien met een dobbelsteen = {2, 4, 6} Zuivere dobbelsteen = kans op iedere uitkomst is 1/6 Aselecte trekking = elk lot heeft een gelijke kans om getrokken te worden Relatieve frequentie = fractie = percentage dat een bepaalde uitkomst wordt verkregen bij een experiment. Empirische wet van de grote aantallen = bij een groot aantal herhalingen van een experiment zal de relatieve frequentie de kans naderen. Absolute frequentie = aantal maal (in aantal) dat een bepaalde uitkomst wordt verkregen bij een experiment. NB. Bij een groot aantal herhalingen van een experiment zal het absolute verschil tussen het theoretische aantal op basis van de berekende kans en het werkelijk gevonden aantal toenemen. Versie 2.0 Blz. 20 van 41 Uittreksel Statistiek 7.2 Rekenregels voor kansen Meerdimensionale kansverdeling = kansverdeling van twee of meer kansvariabelen. Simultane kans = kans op het gelijktijdig optreden van meer dan 1 kansvariabele. Kruistabel = rechthoekig schema van simulane kansen bij meerdimensionale kansverdeling. Complement = verzameling mogelijke uitkomsten waarbij een gebeurtenis G NIET optreedt = NIET G = ontkenning NB. Hier geldt dat G + NIET G samen gelijk zijn aan 1. Voorbeeld: kans op 6 gooien EN kans op niet 6 gooien = 1. Disjuncte gebeurtenissen = gebeurtenissen die niet gelijktijdig op kunnen treden = sluiten elkaar uit. De kans op het optreden van 1 of beide disjuncte gebeurtenissen vindt men door beide afzonderlijke kansen op te tellen: P(A of B) = P(A) + P(B). (speciale optelregel voor disjuncte gebeurtenissen) Voorbeeld: man of zwanger De kans op het optreden van zowel A als B vindt men door de doorsnede te bepalen: P(A en B). Voorbeeld: vrouw EN zwanger Bij niet-disjuncte gebeurtenissen vindt men de kans op het optreden van A of B met: P(A of B) = P(A) + P(B) - P(A en B). (algemene optelregel) Voorbeeld: (vrouw tussen de 30 en 40) OF zwanger. Onafhankelijke gebeurtenissen = 2 gebeurtenissen beïnvloeden elkaar niet. Hier geldt de speciale productregel voor onafhankelijke gebeurtenissen: P(A en B) = P(A) * P(B) (speciale productregel voor onafhankelijke gebeurtenissen) Met behulp van deze regel kan men vaststellen: uit uitkomsten bepalen of 2 gebeurtenissen A en B onafhankelijk zijn als men weet dat A en B onafhankelijk zijn de kans berekenen dat zowel A als B zullen voorkomen. 7.3 Voorwaardelijke kansen Voorwaardelijke kans = de kans op het optreden van de 2e gebeurtenis is afhankelijk van de uitkomst van de eerste trekking. N(A) = het aantal mogelijke uitkomsten waarbij gebeurtenis A hoort. P(B|V) = P(B en V) (definitie voorwaardelijke kans) P(V) Lees: de kans dat B en V optreden onder de voorwaarde dat V is getrokken. Kruiselings vermenigvuldigen levert de algemene productregel: P(B en V) = P(V) * P(B|V) (algemene productregel) Versie 2.0 Blz. 21 van 41 Uittreksel Statistiek Bij een aslecte trekking van 1 element uit een populatie is de kans op een kenmerk K gelijk aan de fractie elementen met dat kenmerk. Voorbeeld: kans op 1 gooien met een dobbelsteen = 1/6 (fractie van het totaal) De voorwaardelijke kans op een kenmerk K in deelverzameling van de populatie is gelijk aan de fractie met kenmerk K in die deelverzameling. Voorbeeld: kans op het aantreffen van een zwangere vrouw binnen een populatie van vrouwen tussen de 30 en 40 jaar oud. Lastig is dat het Nederlands taalgebruik vaak voor meerderlij uitleg vatbaar is, afhankelijk van waar de klemtoon wordt gelegd. Voorbeelden: het percentage vrouwen dat B studeert = P(V|B) het percentage vrouwen dat B studeert = P(V en B) het percentage vrouwen dat B studeert = P(B|V) Categorisch systeem = indeling in disjuncte klassen die samen de gehele populatie bestrijken. Marginale kans = kolomtotaal of regeltotaal in een kruistabel van de simultane kansen. Deze staan in de "marge". NB. In een categorisch systeem is de marginale kans van een rij gelijk aan: de som van (de kans van elke cel) = de som van (voorwaardelijke kans elke cel * marginale kans bijbehorende kolom). 7.4 Combinatoriek Permutatie = mogelijke volgorde van een trekking. Het totaal aantal mogelijke volgorden (permutaties) is te berekenen met n! n * (n 1) * (n 2)...3 * 2 *1 [7.12 blz. 212] (3.9 blz. 23) Combinatie = mogelijkheid om een deelverzameling uit een populatie te trekken. De volgorde van de elementen is hierbij niet van belang. Te berekenen met de binomiaalcoëfficient n boven k: n! n k k!(n k )! [7.13 blz. 214] (3.11 blz. 23) Afspraak: 0! = 1, want er is 1 mogelijkheid om 0 elementen uit een populatie te trekken: de lege verzameling. Evenzo is er 1 mogelijkheid om alle n elementen uit een populatie te trekken. n n 1 0 n Rekenmachine: <getal> MATH PRB nCr <getal>. Variatie = de volgorde in de deelverzameling is van belang, maar in de overblijvende populatie niet. Te berekenen door het aantal mogelijke deelverzamelingen te vermenigvulden met het aantal mogelijke volgorden binnen een deelverzameling: (n over k) * k! n! * k! = n! [7.14 blz. 216] (3.10 blz. 23) k! (n-k)! (n-k)! Rekenmachine: <getal> MATH PRB nPr <getal>. Versie 2.0 Blz. 22 van 41 Uittreksel Statistiek 8 Kansvariabelen 8.1 Discrete verdelingen Kansvariabele = Stochast = grootheid waarbij meer dan één uitkomst mogelijk is en waarbij de optredende uitkomst van het toeval afhangt. Voorbeelden: aantal ogen, temperatuur Kansvariabelen worden onderstreept. Bijvoorbeeld: k Eén mogelijke uitkomst wordt met een gewone letter aangegeven. Bijvoorbeeld: k. Kenmerken discrete kansvariabele: uitkomsten zijn getallen uitkomsten hangen van het toeval af bij elke mogelijke uitkomst van de kansvariabele hoort een positieve kans de som van de kansen op alle mogelijke uitkomsten is 1. Kansverdeling = verzameling van mogelijke uitkomsten van een kansvariabele en de bijbehorende kansen (of in een continu geval: de dichtheid). Kansfunctie = (functie)voorschrift waarmee (bij een discrete kansvariabele) aan elke mogelijke uitkomst de kans op die uitkomst wordt gekoppeld Overschrijdingskans = als k een kansvariabele is, is de rechteroverschrijdingskans van het getal k gelijk aan de kans P(k > k). De linkeroverschrijdingskans is gelijk aan P(k < x). Verdelingsfunctie F(x) van een kansvariabele k is de linkeroverschrijdingskans P(k < x) gezien als functie van x. De verdelingsfunctie is niet-dalend: als x groter wordt, kan F(x) niet kleiner worden. Model = (sterk vereenvoudigde) weergave van de werkelijkheid. Toepasbaar als het aantal waarnemingen uit het verleden te klein is om betrouwbare uitspraken te doen over de relatieve frequenties van de kansen. NB. Een kansverdeling kan een model zijn. 8.2 Verwachtingen en standaardafwijking Verwachting = verwachte waarde = expected value = analogon van gemiddelde = de som van (mogelijke uitkomst * zijn kans). E(x) = xi pi ) Hierin is pi de kans op uitkomst xi. Lineaire transformatie = Als x een kansvariabele is, heet ax + b (voor vaste getallen a en b) een lineaire transformatie van x. E(ax + b) = a E(x) + b Rekenregel voor de variantie Var(ax + b) = a2 Var(x) Lineaire verschuiving heeft geen invloed op de variantie, schaalvergroting wel. Versie 2.0 Blz. 23 van 41 Uittreksel Statistiek Rekenmachine: 2nd STAT, MATH, mean(lijst met uitkomsten, lijst met relatieve kansen) NB. Variantie en Standaarddeviatie zijn niet met de rekenmachine te berekenen, omdat de rekenmachine alleen de steekproefvariantie en -standaarddeviatie ondersteunt. Hierbij wordt gedeeld door n-1 = 0. Herhaling vuistregel: 95% van de uitkomsten bij een steekproef uit een populatie bevindt zich in het 2 -interval: ( 2 , 2 ) 8.3 Combinaties van discrete kansvariabelen 8.3.1 Som van twee kansvariabelen Bij verwachtingen van 2 kansvariabelen x en y met dezelfde grootheid geldt de algemene regel: E = (x + y) = E(x) + E(y). Voorbeeld: opbrengst van bloemen + opbrengst van bollen per vierkante meter land. Alleen als x en y onafhankelijk zijn geldt de speciale optelregel ook voor de varianties Var = (x + y) = Var(x) + Var(y). Voorbeeld: worpen met 2 dobbelstenen NB: standaarddeviaties kunnen nooit opgeteld worden! 8.3.2 Steekproefgemiddelde Als we een steekproef nemen uit een bekende kansverdeling kunnen we het volgende zeggen over het gevonden steekproefgemiddelde: 1. Verwachting van dit steekproefgemiddelde = het populatiegemiddelde . 2. Variantie van het steekproefgemiddelde = variantie populatie gedeeld door steekproefgrootte = 2 n 3. Standaardafwijking van het steekproefgemiddelde = standaadafwijking populatie gedeeld door wortel uit steekproefgroote = n Versie 2.0 Blz. 24 van 41 Uittreksel Statistiek 8.4 Continue verdelingen Homogene = rechthoekige = uniforme verdeling = kansverdeling is een histogram in een rechthoekige vorm. Discreet = kansvariabele waarvan elke uitkomst een opvolger en/of een voorganger heeft. Continue = kansvariabele heeft reële getallen als waarde. Tussen twee mogelijke uitkomsten, hoe weinig verschillend ook, liggen nog oneindig veel andere mogelijke uitkomsten. NB. Hierdoor heeft het alleen zin om intervallen te beschouwen cq. de kansvariabelen in klassen (intervallen) in te delen). Exponentiële verdeling = kansverdeling loopt in een kromme. Voorbeeld: kans op een aardbeving. Functie die de dichtheid van de exponentiële verdeling met verwachting vastlegt: f ( x) 1 e x [8.17 blz. 249] Formule voor de rechteroverschrijdingskans: P (t x) e Versie 2.0 x [8.18 blz. 249] Blz. 25 van 41 Uittreksel Statistiek 9 Discrete verdelingen 9.1 De binomiale verdeling Binomiale verdeling = verdeling die ontstaat uit het aantal successen in een reeks onafhankelijke experimenten met een constante kans op succes. Dit is bijvoorbeeld van toepassing bij een aselecte steekproef met teruglegging. NB. Als de populatie zeer groot is, is het verschil tussen een steekproef met of zonder teruglegging verwaarloosbaar. Parameters van de kansverdeling n = aantal experimenten p = kans op succes Notatie: k heeft een Bin(n;p)-verdeling. Zie tabellen in tabellenboekje. De kans op k successen kan berekend worden met: n P(k k ) p k (1 p ) n k k [9.1 blz. 262] (blz. 41) De verwachting van de binomiale verdeling: E(k ) np [9.2 blz. 263] (blz. 41) De variantie van de binomiale verdeling: Var(k ) np(1 p) npq waarbij q = 1-p [9.3 blz. 263] (blz. 41) 9.2 De Poisson-verdeling Poisson-verdeling = binomiale verdeling bij een zeer lange rij experimenten, waarbij elke mogelijke uitkomst een zeer kleine kans op succes heeft = binomiale verdeling met grote n en kleine p. (Vuistregel: n > 100 en p < 0,02) P(k k ) E(k ) Var(k ) k k! e [9.4 blz. 266] (blz. 54) [9.5 blz. 267] (blz. 54) [9.6 blz. 267] (blz. 54) De binomiale verdeling wordt beter benaderd naarmate de steekproef groter en de kans op succes kleiner is. Als k en m twee onafhankelijke Poisson-grootheden zijn met verwachtingen u1 en u2 dan heeft ook de som k + m een Poisson-verdeling. De verwachting van deze cumulatieve verdeling is u1 + u2. Versie 2.0 Blz. 26 van 41 Uittreksel Statistiek 9.3 Enkele andere verdelingen Hypergeometrische verdeling = trekking zonder teruglegging. r s k nk P (k k ) N n [9.7 blz. 271] (blz 48) Geometrische verdeling = kans dat pas succes optreedt bij een bepaalde trekking. [9.10 blz. 272] (blz. 49) P(k k ) (1 p) k p waarbij k het aantal mislukkingen is dat aan het eerste succes voorafgaat! Multinomiale verdeling = precies r verschillende uitkomsten mogelijk die alle een constante kans op succes hebben. Men telt in een rij van deze experimenten de aantallen malen dat elk van deze uitkomsten optreedt. Voorbeeld: na een verkiezing alle mensen die gestemd hebben vragen op wie zij hun stem hebben uitgebracht. 9.4 Voorspellingsgebieden Voorspellingsgebied = het interval waarin kansvariabele k met een kans van ten minste p% terecht zal komen. Vuistregel: bij de meeste kansvariabelen komt 95% van de uitkomsten terecht in het interval ( 2 , 2 ) Bij het bepalen van de intervalgrenzen m.b.v. de tabel gaan we uit van 0,5 * het toegestane onbetrouwbaarheidspercentage. Bijvoorbeeld 0,5 * 5 = 2,5%. In de tabel zoeken we de eerste waarde van k waarbij de cumulatieve kans groter wordt dan 0,025. De bijbehorende waarde is de ondergrens. De bovengrens is de eerste waarde van k waarbij de cumulieve kans groter wordt dan 0,975. De bijbehorende waarde is de bovengrens. Versie 2.0 Blz. 27 van 41 Uittreksel Statistiek 10 De normale verdeling 10.1 De vorm van de normale verdeling Standaardnormale verdeling heeft de volgende kenmerken: Modus ligt bij 0, buigpunten liggen bij -1 en +1. De dichtheid van deze verdeling is gegeven met de functie: 1 2 e 1 x2 2 [10.1 blz. 285] (blz. 56) In de tabel voor de standaardnormale verdeling (tabel 3.1 op blz. 57) worden alleen de rechteroverschrijdingskansen weergegeven. Hieruit zijn alle andere kansen af te leiden: de kromme is immers symmetrisch. Normale verdeling = verdeling van Gau = N ( , 2 ) Uit deze standaardnormale verdeling kunnen alle andere normale verdelingen worden afgeleid. Kansberekeningen lopen dan ook meestal via de standaardnormale verdeling N (0,1) Omrekening vindt plaats met de formule z x Hieruit is een x-waarde te berekenen als: x z [10.2 blz 290] (blz. 57) Het voorspellingsgebied = ( z , u z ) [10.4 blz. 291] z = z-waarde waarbij de rechteroverschrijdingskans is (blz. 58) De z uit de formule heet de excentriciteit of z-score. 10.2 Combinaties van normale kansvariabelen Hiervoor gelden de formules uit hoofdstuk 8. Samengevat: De verwachting van de som van 2 normale kansvariabelen = som van de verwachtingen: E(ax + by) = aE(x) + bE(y) E(ax - by) = aE(x) - bE(y). De variantie van deze som is alléén gelijk aan de som van de varianties ALS x en y onafhankelijk zijn: Var(ax + by) = a2Var(x) + b2Var(y) Var(ax - by) = a2Var(x) + b2Var(y). De standaardafwijking van de som is uit de variantie te berekenen (dus niet rechtstreeks). Versie 2.0 Blz. 28 van 41 Uittreksel Statistiek 10.2.3: steekproef: Uit het gegeven dat bij een steekproef de verwachting van het steekproefgemiddelde gelijk is aan het gemiddelde van de populatie en de variantie van het steekproefgemiddelde gelijk is aan de variantie van de populatie gedeeld door de wortel uit de steekproefgrootte, is de volgende formule af te leiden voor het voorspellingsgebied (= betrouwbaarheidsinterval normale verdeling, zie 11.3) Uit E (x) en Var ( x) 2 n en ( x) volgt bij een bekende : ( z n , z n n ) [10.5 blz. 294] (af te leiden uit 4.2 blz. 25) met ( z z 1 ) de z-waarde met rechteroverschrijdingskans 2 1 a 2 10.3 Benaderingen met de normale verdeling Centrale limietstelling = de som van een 'groot' aantal kansvariabelen zijn onder bepaalde voorwaarden bij benadering normaal verdeeld. Dit geldt ook voor het gemiddelde. NB. Deze stelling is van groot belang voor berekeningen betreffende het steekproefgemiddelde. Alternatieve verdeling = binomiale verdeling, waarbij iedere ai wordt weergegeven met een 0 (niet-succesvol) of 1 (succesvol). Hiermee zijn de formules voor verwachting en variantie van de binomiale verdeling eenvoudig te bewijzen. Normale benadering = de normale verdeling toepassen voor binomiale, Poisson- en hypergeometrische verdelingen. Voorspellingsgebieden Het voorspellingsgebied voor een binomiale verdeling is bij benadering: [10.6 blz. 299] (af te leiden uit 5.9 blz. 34) (np z npq ; np z npq ) Voorwaarde: npq > 10. Het voorspellingsgebied voor een Poissonverdeling is bij benadering: [10.7 blz. 299] (af te leiden uit 5.13 blz. 35) ( z ; z ) Voorwaarde: 10 Benaderen discrete verdelingen Een binomiale verdeling benadert de normale verdeling beter naarmate n groter is, p dichter ligt bij 0.5 en de verdeling symmetrisch is. Vuistregel: discrete verdelingen zijn redelijk betrouwbaar te benaderen via de normale verdeling als de variantie groter is dan 10. Continuïteitscorrectie = correctie voor het toepassen van een continue verdeling op de berekening van kansen uit een discrete verdeling = Versie 2.0 1 x de klassebreedte. 2 Blz. 29 van 41 Uittreksel Statistiek 11 Schatten 11.1 Schattingen zijn niet exact Parameter = kengetal van een populatie of verdeling. Een populatie heeft een onbekende parameter, bijvoorbeeld N (aantal). Doel van schatten is een getal te produceren dat zo dicht mogelijk ligt bij deze onbekende parameter. Schatter voor = kansvariabele waarmee men de parameter wil gaan schatten Feitelijk een formule. Schatting voor = uitkomst van een schatter voor (1 ) Betrouwbaarheidsinterval voor = intervalschatting = interval verkregen met een methode, waarbij de kans dat de parameter in het interval voorkomt ten minste gelijk is aan (1 ) . Aselecte steekproef = steekproef waarbij elk element dezelfde kans heeft om in de steekproef terecht te komen en waarbij ook elk tweetal elementen dezelfdekans heeft om in de steekproef terecht te komen (geen afhankelijkheden tussen de trekking van elementen). Enkelvoudige aselecte steekproef = één enkele steekproef uit de gehele populatie. 11.2 Enkele veelgebruikte schatters Penetratiegraad = fractie (percentage) van de populatie dat de betreffende eigenschap bezit = aantal successen k gedeeld door steekproefomvang n. f k n Hier is f een schatter voor de kans p. Zuivere schatter = verwachting van de schatter is gelijk aan de parameter die hij schat: k E (k ) np E( f ) E( ) p n n n E (x) Var ( x) ( x) (voor binomiale verdelingen). (verwachting van het steekproefgemiddelde) 2 n (variantie van het steekproefgemiddelde) (std.afw. van het steekproefgemiddelde) n Conclusie: naarmate de steekproefgrootte toeneemt, zal het steekproefgemiddelde dichter in de buurt komen van het populatiegemiddelde. Dit komt doordat de variantie (en daarmee de standaardafwijking) van het steekproefgemiddelde naar 0 nadert. Versie 2.0 Blz. 30 van 41 Uittreksel Statistiek De nauwkeurigheid van de schatter hangt dus af van de steekproefgrootte en de populatievariantie. De steekproefvariantie is gedefinieerd door: s2 2 1 1 n n ( xi x ) 2 (i 1 ( xi ) 2 n x ) i 1 n 1 n 1 [11.6 blz. 319] (1.9 blz 13) Ook andere kengetallen als bv. de mediaan is te schatten. Niet alle kengetallen zijn te schatten, bv. grootste en kleinste kunnen niet op een betrouwbare wijze m.b.v. een steekproef worden bepaald. 11.3 Betrouwbaarheidsintervallen voor van een normale verdeling Voorspellingsinterval normale verdeling: ( z , u z ) [10.4 blz. 291] De formule voor het bepalen van betrouwbaarheidsintervallen hangen af van het feit of de populatievariantie wel of niet bekend is. Voor de toets hoeft alleen de eerste situatie gekend te worden: waarbij de populatievariantie bekend is of berekend kan worden. Betrouwbaarheidsinterval voor het gemiddelde van de populatie op basis van steekproefgrootte, steekproefgemiddelde, en standaardafwijking van het steekproefgemiddelde: ( x z n ,x z n ) [11.7 blz 322] (4.2 blz 25) Deze twee grenzen heten de betrouwbaarheidsgrenzen voor . 11.4 Betrouwbaarheidsintervallen voor p van een binomiale verdeling Voorspellingsinterval binomiale verdeling: (np z npq ; np z npq ) [10.6 blz. 299] (af te leiden uit 5.9 blz. 34) De variantie van een fractie is echter: k Var (k ) np(1 p) p(1 p) pq Var ( f ) Var ( ) n n n n2 n2 [11.10 blz. 326] De benaderingsformule voor een betrouwbaarheidsinterval voor een onbekende parameter (bv. kans p) wordt dan: (f z f (1 f ) f (1 f ) ;f z ) n n [11.12 blz. 329] (4.12 blz. 30) Voorwaarden: n en/of f niet te klein. Eis aan een 95% betrouwbaarheidsinterval is, dat de onbekende parameter met een betrouwbaarheid van 95% in het interval ligt. Aangezien de normale benadering van een binomiale verdeling niet betrouwbaar is voor kleine waarden van n en/of p, is ook het interval niet betrouwbaar bij kleine Versie 2.0 Blz. 31 van 41 Uittreksel Statistiek waarden van n en/of f. Bij zeer kleine waarden van f dient men de Poissonbenadering te kiezen. 11.5 Betrouwbaarheidsintervallen voor van een Poisson-verdeling Voorspellingsgebied Poissonverdeling: [10.7 blz. 299] (af te leiden uit 5.13 blz. 35) ( z ; z ) Benaderingsformule voor de betrouwbaarheidsgrenzen van het populatiegemiddelde van de verdeling op basis van steekproefgemiddelde k: 1 2 z en 4 1 r k 1 z k 1 z 2 4 l k z k [11.14 blz. 331] (af te leiden uit 4.15 blz. 31) Soms zijn van meerdere (m) steekproefcijfers beschikbaar. Als de verdeling een Poisson-verdeling heeft, kan de verwachting van de som berekend worden: m * E(x). Het betrouwbaarheidsinterval van de "som van de steekproefcijfers" kan berekend worden met bovenstaande formule. Delen door het aantal steekproefcijfers levert tenslotte het betrouwbaarheidsinterval voor het verwachte gemiddelde. Zie voorbeeld op blz. 334. 11.6 De keuze van een steekproefomvang Als we de minimale steekproefomvang willen berekenen voor een maximaal toegestane afwijking bij een bepaald betrouwbaarheidspercentage, gaat dit als volgt: afwijking d z n z [11.15 blz. 335] (af te leiden uit 4.2 blz. 25) n z 2 ) daaruit volgt dat n ( d Dit gaat ook op voor binomiale verdelingen. Uit de formule voor de grenswaarden volgt: afwijking d z daaruit volgt dat n ( f (1 f ) n [blz. 340] (af te leiden uit 4.12 blz. 30) z ( f (1 f ) 2 ) d Indien de fractie f niet bekend is, kan men ook 0.5 invullen (de maximale waarde). 11.7 Steekproefmethoden Is geen toetsstof. Versie 2.0 Blz. 32 van 41 Uittreksel Statistiek 12 Toetsen Nulhypothese = beschrijving oude toestand Aternatieve hypothese = bewering die men aan wil tonen over de nieuwe toestand Antonen alternatieve hypothese via de volgende stappen: 1. bedenken proefopzet 2. verrichten waarnemingen 3. toets = berekenen en interpreteren van de uitkomsten In dit hoofdstuk komen alleen de toetsen aan de orde waarmee veranderingen of verschillen van gemiddelden (of verwachtingen) en in percentages (of kansen) worden opgespoord. 12.1 De beginselen van een toets Men toetst de nulhypothese. Wordt deze verworpen, dan neemt men de alternatieve hypothese aan. Nulhypothese H0 = veronderstelling die moet worden getoetst (en die men meestal wil weerleggen) Alternatieve hypothese H1= vermoeden dat men aan wil tonen. De steekproefomvang is van grote invloed op de kwaliteit van de toets. Deze kwaliteit is uit te drukken in het onderscheidingsvermogen. Onderscheidingsvermogen = kans dat de nulhypothese terecht wordt verworpen. Om dit te kunnen bepalen moet de werkelijke waarde bekend zijn. Toetsingsgrootheid = kansvariabele (grootheid) die uit de steekproefuitkomsten wordt berekend en waarmee een hypothese wordt getoetst. Kritieke gebied = verzameling van uitkomsten van de toetsingsgroootheid waarbij de getoetste nulhypothese zal worden verworpen = verzameling waarden die buiten het voorspellingsgebied vallen. Kritieke waarde = grens van het kritieke gebied die het dichtst ligt bij de verwachting van de toetsingsgrootheid. Fout van de eerste soort = het verwerpen van de nulhypothese terwijl deze juist is. De kans op een fout van de eerste soort = onbetrouwbaarheid. Fout van de tweede soort = het niet verwerpen van de nulhypothese terwijl deze onjuist is. Vaak aangeduid met . Onbetrouwbaarheid = kans op fout van de eerste soort. Onbetrouwbaarheidsdrempel = maximale waarde voor de kans op een fout van de drempel eerste soort (moet worden vastgesteld vóór uitvoering van de toets). Wordt vaak aangeduid met . Versie 2.0 Blz. 33 van 41 Uittreksel Statistiek Beslissingsregel: De hypothese H0 wordt verworpen als de uitkomst van de toetsingsgrootheid in het kritieke gebied valt. De alternatieve hypothese wordt dan bewezen verklaard. Anders gezegd: de uitkomsten (verschillen) zijn significant. Significant = de uitkomst van een toetsingsgrootheid heet significant als hiermee de nulhypothese kan worden verworpen. Significantieniveau = 1 - onbetrouwbaarheidsdrempel . 12.2 De 2 toets voor de klassenindeling 2 -grootheid = chi-kwadraat grootheid 2 (Oi Ei ) 2 Ei [12.2 blz. 366] (5.15 blz. 36) waarbij Oi het waargenomen aantal en Ei het verwachte aantal waarnemingen is in klasse i. Vrijheidsgraden = aantal termen in de som - 1. Het recept voor klassenreeks k Gegeven is dat een klassenindeling k klassen heeft. De percentages behorende bij deze klasen zijn doel van het onderzoek. Voer de volgende stappen uit: 1. Stel een tabel op met: de k percentages pi (of kansen) uit de nulhypothese; de k verwachte frequenties Ei bij de gegeven steekproefomvang; de k waargenomen frequenties Oi in de steekproef. 2. Bepaal de kritieke waarde xr uit tabel 4.2 op basis van de gekozen onbetrouwbaarheidsdrempel , bij k-1 vrijheidsgraden. 3. Bereken de uitkomst van 2 . 4. Vergelijk de uitkomst van 2 met de kritieke waarde xr. Is 2 groter dan xr, dan wordt de hypothese dat pi de juiste percentages (kansen) zijn verworpen. Lage waarden van 2 zijn dus niet significant. Opmerking: de nauwkeurigheid van de 2 -verdeling komt in het geding als de verwachte frequenties Ei erg klein zijn. Frequenties lager dan 1 mogen niet voorkomen. Een enkele frequentie lager dan 3 is toegestaan. Mocht dit het geval zijn, dan verdient het aanbeveling om klassen samen te voegen. Versie 2.0 Blz. 34 van 41 Uittreksel Statistiek 12.3 De 2 toets op onafhankelijkheid Een kruistabel van 2 kansvariabelen (kolom, rij) is heeft (k-1)*(r-1) vrijheidsgraden. Het recept voor 2 gerelateerde kansvariabelen k x r Gegeven is dat een klassenindeling k resp. r klassen heeft. De percentages behorende bij deze klasen zijn doel van het onderzoek. Voer de volgende stappen uit: 1. Stel een k x r -tabel op met de k waargenomen frequenties Oij in de steekproef. Bereken hieruit de regel- en kolomtotalen. Bereken op basis hiervan de verwachte frequenties Eij kolomtotaal * regeltotaal steekproefomvang 2. Bepaal de kritieke waarde xr uit tabel 4.2 op basis van de gekozen onbetrouwbaarheidsdrempel , bij (k-1)(r-1) vrijheidsgraden. 3. Bereken de uitkomst van 2 over alle cellen van de kruistabel. 4. Vergelijk de uitkomst van 2 met de kritieke waarde xr. Is 2 groter dan xr, dan wordt de hypothese dat pi de juiste percentages (kansen) zijn verworpen. Lage waarden van 2 zijn dus niet significant. 12.4 De tekentoets Geen toetsstof 12.5 De rangtekentoets Geen toetsstof Versie 2.0 Blz. 35 van 41 Uittreksel Statistiek 12.6 Toetsen omtrent van een normale verdeling Kritiek gebied is éénzijdig, als de toets slechts éénzijdig toetst (rechts of links) Recept 1 (rechtseenzijdige toets): Een normale verdeling heeft een bekende standaardafwijking en een onbekende verwachting . Men beschikt over een steekproef van n waarnemingen uit deze verdeling. Het gemiddelde van deze steekproef is x . Men wil aantonen dat de verwachting groter is dan een bepaalde waarde 0 . De hypothese H0 is: 0 . De alternatieve hypothese H1 is: 0 . Voorbeeld: potten met jam met 95% zekerheid gevuld met minimaal 450 gram jam? 1. Bepaal de kritieke waarde xr voor het steekproefgemiddelde bij onbetrouwbaarheidsdrempel : xr 0 z [blz. 382] n 2. Vergelijk het steekproefgemiddelde x met de kritieke waarde xr. Is x groter of gelijk aan xr, dan wordt de hypothese H0 verworpen. Lage waarden (negatieve en lage positieve) van x zijn dus niet significant. Bij de alternatieven wordt het steekproefgemiddelde eerst gestandaardiseerd. Vervolgens wordt de uitkomst vergeleken met kritieke waarden uit de standaardnormaalverdeling. Recept 1a (rechtseenzijdige toets): z-toets = toets voor de hypothese 0 bij een steekproef uit een normale verdeling met bekende standaardafwijking. 1. Bereken het gestandaardiseerde steekproefgemiddelde met: x 0 = x 0 * n [12.4 blz. 383] n Dit levert een bepaalde z-score op (vandaar de naam z-toets). 2. Als de uitkomst groter of gelijk is aan z dan wordt de hypothese H0 verworpen. Lagere waarden (negatieve en laag positieve) zijn dus niet significant. Recept 1b (linkseenzijdige toets): Situatie als bij recept 1, alleen wil men nu aantonen dat de verwachting kleiner is dan een bepaalde waarde voor 0 . De hypothese H0 is: 0 . De alternatieve hypothese H1 is: 0 . 1. Bereken het gestandaardiseerde steekproefgemiddelde. 2. Als de uitkomst kleiner is dan - z dan wordt de hypothese H0 verworpen. Hogere waarden zijn dus niet significant. Versie 2.0 Blz. 36 van 41 Uittreksel Statistiek Recept 1c (tweezijdige toets): Situatie als bij recept 1, alleen wil men nu aantonen dat de verwachting ongelijk is aan een bepaalde waarde voor 0 . De hypothese H0 is: 0 . De alternatieve hypothese H1 is: 0 . 1. Bereken het gestandaardiseerde steekproefgemiddelde. 2. Vergelijk de uitkomst met de kritieke waarden - z1 / 2 en z1 / 2 Is de uitkomst kleiner dan of gelijk aan - z1 / 2 , dan wordt de hypothese H0 verworpen ten gunste van 0 Is de uitkomst groter dan of gelijk aan z1 / 2 , dan wordt de hypothese H0 verworpen ten gunste van 0 Ligt het gestandaardiseerde steekproefgemiddelde tussen - z1 / 2 en z1 / 2 , dan wordt de hypothese niet verworpen. Onderscheidingsvermogen = kans dat de nulhypothese terecht wordt verworpen = kwaliteitscriterium voor de toets. Fout van de tweede soort = kans dat de nulhypothese ten onrechte wordt verworpen = 1 = onderscheidingsvermogen. Recept voor het berekenen van het onderscheidingsvermogen en de fout van de tweede soort 1. Gegeven zijn de steekproefgrootte, de standaardafwijking, een steekproefgemiddelde en een onbetrouwbaarheidsdrempel. 2. Bereken het kritieke gebied met 1 van bovenstaande recepten. 3. Bereken de kans dat het populatiegemiddelde in dit kritieke gebied terecht komt = onderscheidingsvermogen. Te berekenen met: P( x x )= P(z > x 0 * n ), waarbij x de kritieke grenswaarde is. 4. De fout van de tweede soort = 1 - onderscheidingsvermogen. Versie 2.0 Blz. 37 van 41 Uittreksel Statistiek 12.7 Toetsen omtrent p van een binomiale verdeling Triangeltoets = onderzoek waarbij proefpersonen het afwijkende monster uit een drietal monsters moeten aanwijzen. p = kans dat een aselect gekozen proefpersoon het afwijkende product correct aanwijst. H0: p = 1/3 H1: p > 1/3. Recept voor het berekenen van het onderscheidingsvermogen en de fout van de tweede soort 1. Gegeven zijn de steekproefgrootte n, de werkelijke kans p, een mogelijke waarde van de kans uit de steekproef p0 en een onbetrouwbaarheidsdrempel . 2. Bereken het kritieke gebied (links, rechts of beide zijden) met één van bovenstaande recepten. 3. Bereken de kans dat het steekproefgemiddelde bij een gegeven werkelijke kans pw in dit kritieke gebied terecht komt = onderscheidingsvermogen. Bv. rechts: P( k k )= P(z > k 0,5 np w np w (1 p w ) ), waarbij k de kritieke waarde is. Raadpleeg zo mogelijk een tabel ter controle. 4. De fout van de tweede soort = 1 - onderscheidingsvermogen. Recept tweezijdige toets: Een experiment heeft een kans p op succes. Bij n herhalingen van dit experiment worden k successen vastgesteld. De hypothese H0 is: p = p0. De alternatieve hypothese H1 is: p <> p0. 1. Bereken met de normale benadering de grenzen van het voorspellingsgebied met: np 0 z np 0 (1 p 0 ) 2. Bepaal het kritieke gebied door het complement te nemen van het voorspellingsgebied. Verifieer de kritieke waarden zo mogelijk met behulp van een tabel voor de binomiale verdeling. 3. Ligt de uitkomst van k: In het linker kritieke gebied, dan wordt de hypothese H0 verworpen ten gunste van p < p0. In het rechter kritieke gebied, dan wordt de hypothese H0 verworpen ten gunste van p > p0. In het voorspellingsgebied, dan wordt de hypothese niet verworpen. In dat geval zou p0 de werkelijke waarde van p kunnen zijn. Versie 2.0 Blz. 38 van 41 Uittreksel Statistiek 12.8 Toetsen omtrent van een Poisson-verdeling Recept tweezijdige toets: De kansvariabele k heeft een Poisson-verdeling met verwachting . De hypothese H0 is: 0 . De alternatieve hypothese H1 is: 0 . 1. Bereken met de normale benadering de grenzen van het voorspellingsgebied met: z met z = z1/2a 2. Bepaal het kritieke gebied door het complement te nemen van het voorspellingsgebied. Verifieer de kritieke waarden zo mogelijk met behulp van een tabel voor de Poisson-verdeling. 3. Ligt de uitkomst van k: In het linker kritieke gebied, dan wordt de hypothese H0 verworpen ten gunste van 0 . In het rechter kritieke gebied, dan wordt de hypothese H0 verworpen ten gunste van 0 . In het voorspellingsgebied, dan wordt de hypothese niet verworpen. In dat geval zou 0 de werkelijke waarde van kunnen zijn. Recept voor het berekenen van het onderscheidingsvermogen en de fout van de tweede soort 1. Gegeven zijn een hypothese 0 , een onbetrouwbaarheidsdrempel en een werkelijke waarde van . 2. Bereken het kritieke gebied (links, rechts of beide zijden) met één van bovenstaande recepten. 3. Bereken de kans dat de werkelijke waarde van in dit kritieke gebied terecht komt = onderscheidingsvermogen liefst met behulp van de tabellen voor de Poisson( )-verdelingen. Alternatief P( k k )= P(z > k 0,5 ), waarbij k de kritieke waarde is. 4. De fout van de tweede soort = 1 - onderscheidingsvermogen. Versie 2.0 Blz. 39 van 41 Uittreksel Statistiek 12.9 Procedures en begrippen Een volledige toetsingsprocedure bevat de volgende onderdelen: Voorbereiding 1. Beschrijving van de situatie 2. Definities van de gebruikte symbolen 3. Formulering van de nulhypothese 4. Formulering van de alternatieve hypothese, inclusief de keuze één- of tweezijdige toetsing. 5. Definitie van de toetsingsgrootheid 6. Noemen van de verdeling van de toetsingsgrootheid (normaal, binomiaal, Poisson) 7. Kiezen van de onbetrouwbaarheidsdrempel Uitvoering (methode 1) 1. Bepaling van het kritieke gebied bij de gekozen , zodanig dat in het geval H0 juist is, de kans dat de toetsingsgrootheid in het kritieke gebied komt ten hoogste gelijk is aan . (Eerst via de normale benadering, daarna verificatie m.b.v. tabellen) 2. Berekening van de toetsingsgrootheid (= soms alleen tellen) 3. Vaststellen of de uitkomst van de toetsingsgrootheid in het kritieke gebied ligt 4. Trekken en formuleren van de conclusie. Uitvoering (methode 2) 1. Bepaling van de linker- of rechteroverschrijdingskans, via de normale benadering of m.b.v. tabellen. (NB. Als de uitkomst van k groter is dan de bij H0 verwachte waarde, berekenen we de rechteroverschrijdingskans, ander de linker). 2. Vaststellen of de overschrijdingskans kleiner is dan of gelijk aan . 3. Trekken en formuleren van de conclusie. Hoewel methode 2 eenvoudiger lijkt, heeft het bij herhaaldeijk uitvoeren van toetsen wel zin om de kritieke waarden te bepalen. Bijvoorbeeld bij regelprocessen. Bovendien geeft het kritieke gebied ons de mogelijkheid om de kwaliteit van de toets te bepalen = onderscheidingsvermogen. Versie 2.0 Blz. 40 van 41 Uittreksel Statistiek Gebruik van de TI-89 bij Statistiek Raadpleeg de handleiding van de TI-89: hoofdstuk 15 over de Data/Matrix editor voor het aanmaken van lijsten met gegevens hoofdstuk 16 over statistieken en grafieken van gegevens. Definiëren van een lijst Met de Data/Matrix editor is het eenvoudig om een lijst met gegevens aan te maken, waar je berekeningen mee uit kunt voeren. Kies APPS, Data/Matrix Editor, New, LIST, <naam lijstvariabele, bijvoorbeeld L1> Voer de meetgegevens in in kolom C1. Sluit af met Quit. Berekeningen maken met een lijst Op een bestaande lijstvariabele kun je de volgende functies loslaten: mean(L1) gemiddelde sum(L1) som stddev(L1) populatiestandaardafwijking min(L1) minimum median(L1) mediaan max(L1) maximum. Aanmaken van een dataset Kies APPS, Data/Matrix Editor, New, Data, <naam datavariabele, bijvoorbeeld D1> Voer de meetgegevens in in kolom C1. Voer eventuele frequenties in in kolom C2. Sluit af met Quit. Berekenen statistische variabelen Open de datamatrix in de Data/Matrix Editor met Current (of Open, Data, D1). Druk op F5: Match. Kies bij Calculation Type: Onevar. Vul de kolomnaam in waar de gegevens staan: C1. Als je een tweede kolom met frequenties hebt, zet Use Freq and Categories? op Yes en ul bij Freq de kolomnaam met frequenties in: C2. Druk 2x op Enter. Nu verschijnen de volgende bruikbare gegevens: x gemiddelde som x Sx meestal Versie 2.0 nStat minX q1 medstat q3 maxX steekproefstandaardafwijking (Let op: in opgaven wordt de populatiestandaardafwijking gevraagd!) aantal gegevens minimum eerste kwartiel mediaan derde kwartiel maximum. Blz. 41 van 41