Powerpoint #1 Methodologie, Hoe komt je aan betrouwbare kennis

advertisement
Powerpoint #1
Methodologie, Hoe komt je aan betrouwbare kennis. Hoe je kan onderzoeken zodat er maar 1
interpretatie mogelijk is.
Beschrijvende statistiek, gegevens presenteren. Zo systematisch en objectief mogelijk.
Statistiek, hoe aannemelijk is het dat gegevens door toeval tot stand kunnen komen.
Kansrekening, kansen en intuïtie.
Soorten variatie; natuurlijk(mensen verschillen), methodisch(2 metingen kunnen verschillende
waarden opleveren), factorieel(bv rokers hebben altijd hogere bloeddruk dan niet-rokers)
In statistiek beschrijft een kansmodel de variatie in populatie. Daaruit komen voorwaardelijke
kansuitspraken over de steekproefuitkomsten. Deze uitspraak geeft een betrouwbaarheid over de
populatie.
Kenmerken
- categoriaal
/kwalitatief
-Kwantitatief
/numeriek
-Dichotoom (geslacht of aanwezigheid)
-Nominaal (niet gecategoriseerd; oogkleur of geboorteland)
-Ordinaal (logische volgorde/gecategoriseerd; orkaankracht, opleiding)
-Discreet (aantal/telbaar)
-Continu (ontelbaar; gewicht temperatuur)
Categoriale waarnemen in taart- of frequentiediagrammen.
Continue gegevens in histogram, box-wiskerplot of stem en leafplot.
Categoriale variabelen in stapeldiagram en numerieke in scatterplot.
Samenhang numerieke waarnemingen; correlatie.
Gemiddelde
Mediaan is de middelste waarde van een geordende reeks.
Standaardafwijking
√
(
)
(
)
(
)
Range is hoogste – laagste meetwaarde
IQR is Q3-Q1. Middelste 50% van een geordende reeks.
Correlatiecoëfficiënt
∑
Waarde tussen -1 of 1. 0 betekent afwezigheid verband.
Complementregel Pr(a)=1-Pr(¬a)
Somregel Pr(AvB)=Pr(A)+Pr(B)
Algemene somregel Pr(AvB)=Pr(A)+Pr(B)-Pr(AnB) Correctie voor dubbeltelling.
Productregel Pr(AnB)=Pr(A)*Pr(B)
Algemene productregel Pr(AnB)=Pr(A)*Pr(B|A) |=Gegeven dat
Sensitiviteit kans dat je een positieve test gegeven dat je ziek bent Pr(+|Z)
Specificiteit kans dat je negatieve test krijgt als je niet ziek bent Pr(-|NZ)
Alternatieve verdeling is dat je 2 mogelijke uitkomsten meet. Je bent lactosetolerant of niet. Man of
vrouw. Wel of niet ziek. Dichotome uitkomsten dus. Meestal aangeduid met failure (0) en succes(1).
Binomiale verdeling is een meting doen aan een dichotome uitkomst. Bv 14 willekeurige studenten
het geslacht.
(
)
(
)
(
)
Poissonverdeling bij zeldzame, onafhankelijke gebeurtenissen. Natuurrampen, auto-ongelukken op
de boelelaan. Discrete uitkomsten.
(
)
Standaardiseren z=X-μ/
Standaard deviatie
Drie eenheid statistiek is de populatie, steekproef en model.
Stadaardfout rond een proportie is
Proportieberekening
( )
(
)
z=1,96 bij 95%
T verdeling, moet gemiddelde en sd bepalen. Schatten van σ en sd. Sd is preciezer met veel
metingen.
Vrijheidsgraden zijn gelijk aan 1-N. Bv; bij 5 gegevens is de df 4. T95%;df4=2,776 (in tabel)
Als de df erg groot is zijn z en t verdeling identiek.
sd is te verkleinen door homogene populatie en nauwkeuriger werken.
Powerpoint #2
Statistische toets is objectief. De hypothese gaat over een populatie niet over de steekproef.
Overschrijdingskans (P waarde) is kans op ≥K toevallig goed hebben. Hoe kleiner de P waarde hoe
slechter het toeval de gegevens verklaard.
Een toets is gebaseerd op een nulhypothese en een alternatieve hypothese.
Toetsingsgrootheid is de maat voor hoe ver de gegevens afwijken van wat je verwacht als h0 klopt.
Als iets kleiner is dan 5% dan kan de nul hypothese verworpen worden en worden geconcludeerd dat
de alternatieve hypothese aangenomen kan worden.
Een en tweezijdig toetsen. Bij tweezijdig toetsen moet je keer 2 doen!
Eenzijdig als de hypothese een richting aangeeft en de alternatieve uitkomst oninteressant is.
Type I fout is als je de h0 verwerpt maar hij waar is. Pr(verwerpen|h0)
Type II fout is als de H0 niet waar is, maar verworpen wordt. Pr (behouden|h1)
Als h0 waar is, is X onwaarschijnlijk. Als X waar is, wordt H0 verworpen. “Wanneer de kans op een
gemiddelde van 10 (of nog verder van h0) heel klein is als de h0 waar is, zal h0 niet waar zijn.
Kleine P waarde betekent een sterk signaal, dus dat de werkelijkheid van h0 afwijkt. Of weinig ruis,
dus door de grootte van de steekproef heb je de rol op toeval geminimaliseerd. De P waarde is de
kans op de waargenomen gegevens, of nog extremere, als je ervan uitgaat dat H0 klopt.
BALDI & MOORE
Chapter 1
Populatie is de groep van individuen waar we informatie over willen. Een variabele zijn de
karakteristieken van het individu.
Er zijn 2 soorten variabele
- categoriaal; in een of meerdere categorieën -nominaal (ongeordend; bv bloemkleur)
- ordinaal (logische volgorde, schalen bv van 1 tot 5)
- kwantitatief; numerieke waardes waarmee je rekenkundig kunt werken
- Continu (ontelbaar, elk nummer op een interval)
- Discreet (telbaar)
Distributie/verdeling is hoeveel een variabele plaatsvind en op welke waarde. Categoriale distributie
zie je hoeveel procent van de individuen in een categorie valt.
Counts worden ook wel frequenties genoemd. En de procenten daarvan zijn relatieve frequenties.
Taart chart zijn ronde figuren, elke kleur geeft een procent aan van een categorie. En hebben alle
categorieën nodig om een geheel te vormen
Bar graphs zijn balken naast elkaar. Op alfabet of van groot naar klein.
Histogram(kwantitatief) lijkt op een bargraph, maar plaats individuen in categorieën. Bv haai lengte
11 tot 13 feet, 13 tot 15, ect en een bar plaatst verschillende items die vergeleken worden, bv
verschillende ziektes en procenten ervan. De balken zitten hierbij niet aan elkaar,
Graphs moet je altijd nog bekijken en omschrijven. Graphs kunnen symmetrisch, skewed of
bimodal(2 pieken) zijn.
skewed naar links is als er meer waarden naar links liggen dan naar rechts vergeleken met het
hoogste punt.
Stem en leave plot heeft 2 kolomen met afgeronde getallen
Dotplot.
Timeplot
Chapter 2
Gemiddelde/mean
Kan omhoog of omlaag gebracht worden door uitschieters.
Mediaan is het middelste getal als de observaties in een reeks staan van laag naar hoog. (n+1)/2.
Gemiddelde en mediaan liggen dichtbij elkaar, maar bij een skewed distributie ligt het gemiddelde
anders door uitbijters.
q1 is het eerste kwartiel. Q3 het derde kwartiel.
5 nummer summary bestaat uit minimum, Q1, mediaan, Q3 en maximum. Hiermee is een boxplot te
maken.
IQR=Q3-Q1. Dit is de interquartile range. Q1-(1,5*IQR) en Q3+(1,5*IQR), als waarden hier buiten
vallen zijn het uitschieters.
Standaarddeviatie is de vierkantswortel van de variantie.
Variantie
Standaarddev.
(
)
√
(
)
(
∑(
)
)
(
√
is
)
(
)
(
)
Degrees of freedom is altijd n-1
s is altijd 0 of groter dan 0 en kan door uitbijters worden beinvloed.
Chapter 3
Een response (dependent) variabele meet de uitkomst van een studie. Een explanatory(independent)
variabele legt uit of beïnvloed veranderingen in de response variabele.
Een scatterplot laat de relatie zien tussen 2 kwantitatieve variabelen op dezelfde individuen. Hierbij
staan de explanatory variabele op de x as.
Twee variabele zijn positief associated als de bovengemiddelde waarde bij de andere
bovengemiddelde waardes ligt. En beneden gemiddeld ook bij de beneden gemiddelde ligt. /
Negatief associated is als de bovengemiddelde waarden aan de linker kant van een scatterplot liggen,
dus aan de beneden gemiddelde waardes zijn gerelateerd \
Correlatie is een lineaire relatie.
∑(
) (
)
Als de r positief is, is er een positieve associatie. Correlatie maakt geen verschil tussen explanatory of
response variabelen. Ook de eenheid waarmee gerekend wordt maakt geen verschil. Het ligt altijd
tussen de -1 en 1. Dichtbij de 0 betekent dat er een kleine/zwakke lineaire relatie is. Correlatie is net
als gemiddelde en sd beïnvloedbaar door uitschieters.
Chapter 4
Een regressielijn is recht en vat de relatie van 2 variabelen samen. 1 van de variabelen helpt de
andere voorspellen, zo wordt het vaak gebruikt om de y te voorspellen bij een x.
y=a+bx
b=r*(sy/sx)
a=ȳ-bẍ
Sommige observaties beïnvloeden de rest van de calculaties. Dit zijn influentials. Het verwijderen van
deze data of het buitenbeschouwing laten, zou andere uitkomsten van berekeningen opleveren. (zie
figuur 4.4 tot 4.6)
Extrapolation is het gebruik van de regressielijn om een uitkomst te voorspellen buiten de range van
een variabele die je gemeten hebt. Vaak kloppen deze niet. Bv bij een kind van 3 tot 8 gaat de groei
in een lineair verband, later gaat groeien langzamer en stopt, als je doormiddel van een regressielijn
zou voorspellen zou je bv 4 meter kunnen zijn op een bepaalde leeftijd.
Lurking variabele is een variabele die ervoor kan zorgen dat de correlatie/regressie misleidend kan
zijn. Het is een variabele die niet de explanatory of response is maar toch de data kan beïnvloeden.
Chapter 5
2 way table beschrijft een relatie tussen 2 categoriale variabelen. De rijen beschrijven de behandeling
en de kolommen de uitkomsten van de behandeling.
Marginale distributie is hoeveel procent van het totaal van de kolom van het hele totaal is.
Dus bv
gelukt Niet gelukt
behandeling
20
15
Andere beh.
25
10
Tot.
45
35
Marginale distributie van gelukte behandeling is hoeveel procent 45 van 80 is.
conditionele distributie
Simpsons paradox is als er bij een groep een groter totaal is gebruikt. Je krijgt een misvormd beeld
van de werkelijkheid. In PowerPoint dat van die helikopters.
Chapter 7
Er zijn twee soorten settings om data te verzamelen. Waarnemingsstudies en experimenten,
Waarnemingsstudies observeren individuen en meten de variabelen waarin men geïnteresseerd
is. Experimenten geven zorgen voor een behandeling om zo de response te kunnen observeren.
Twee variabelen zijn confounded als men de effecten op een response variabele die ze geven
niet kan onderscheiden van elkaar. Bv vrouwen werden hormoon pillen na de overgang
gegeven, het zou helpen hartaanvallen te reduceren. De gem. 63 vrouw bleek toch hogere
hartziektekans te hebben, maar vrouwen in hun 50e jaren hadden juist minder calcium in aderen,
wat kleinere kans geeft op hartziektes. De studie focuste op oudere vrouwen en het werkte dus
wel. Het effect van de vrouwen die de pillen namen waren cofounded met de karakteristieken
van de vrouwen die het niet namen.
Of het drinken van wijn zorgt voor betere gezondheid dan bier. Wijn drinkers zijn ander soort
mensen, dus het is cofounded met lurking variabelen zoals educatie, dieet, ect
Sample is een deel van een populatie waarvan je iets wilt weten, zodat je daaraan conclusies kan
trekken over de hele populatie.
Sampling design beschrijft hoe je een sample trekt uit een populatie.
Bij niet alle studies kan een sample gekozen worden die voor de gehele populatie gelden.
Sampling designs:
- Convenience sample is een sample die men met de hand heeft gekozen. Het geeft
onrepresentatieve data. Er zit een bias in je metingen. Een bias als een studie een uitkomst
systematisch begunstigd.
- vrijwilligers response sample is een sample waarbij individuen kiezen of ze meedoen
of niet. Zoals online polls, call-ins, ect. Het zijn soms niet de mensen die je kunt gebruiken voor
de populatie die je wilt testen.
- Probability sample zijn simpele random samples. Een sample door kans gaat bias tegen
en geeft iedereen kans om gekozen te worden. Dit is simple random sampling.
Een SRS is een grootte n individuen waarbij iedereen even veel kans heeft gekozen te worden.
Met behulp van de table of random digits kan dit gekozen worden.
- stratified random is als er belangrijke groepen worden getest en dan bij elkaar worden
genomen als sample. Bv mannen en vrouwen gescheiden.
- Multistage sample is het kiezen van SRS in SRS. Een SRS landen wordt gekozen, daaruit
een SRS scholen, daaruit leerlingen
Undercoverage is als een groep van de populatie uit het samplen wordt gelaten. Dit kan door bv
dat er geen lijst is van de gehele populatie. Een sample waarbij huishoudens worden gebruikt,
mist natuurlijk daklozen, gevangenen, ect.
Non response is als een individu die geselecteerd is niet meedoet aan een sample.
Er kan ook sprake zijn van een reponse bias. Dit wil zeggen dat de ondervraagde of de
interviewer er voor kan zorgen dat er een fout zit, Je kan verschillende antwoorden bij een man
of vrouw. Over sommige dingen lieg je, bv veel alcohol inname ect.
Ook de manier waarop vragen worden gesteld is belangrijk.
Sommige eigenschappen zijn te zeldzaam om een goede sample van te doen. Bv een eigenschap
die je bij 1 op 10000 vind. Hier wordt meestal een case control studie gedaan. Mensen met iets
zeldzaams worden uitgekozen om een bepaalde uitkomst zeker is. Er is een controle groep om als
een baseline te dienen.
Retrospective approach is als er in het verleden wordt gekeken.
Historical control is een case studie waarbij bestaande data wordt gebruikt van voorgaande studies
om een controle groep te maken. Het bespaard kosten, maar de groepen kunnen erg verschillen.
Cohort studies is een groep individuen die iets homogeens hebben of een overeenkomst. Ze geven
heel veel informatie en gedetailleerd maar het duurt erg lang. Ze verliezen ook mensen tijdens dit
onderzoek aan bv ouderdom en mensen die geen zin meer hebben.
Een cohort studie is een prospectieve studie. Dit houdt dus in dat ze allemaal relevante informatie
van de participanten proberen te verkrijgen.
Chapter 8
individuen krijgen vaak de naam subject. Explanatory variabelen krijgen de naam factoren. De
behandeling is een specifiek experimentele conditie op de subjects.
Een experimentele groep is een groep individuen die we een behandeling geven waarvan we het
effect proberen te begrijpen. Maar dit alleen heeft geen nut, want het kan zijn dat de patiënten niet
door de medische procedure, maar door psychische impact beter worden. Dit is het placebo effect.
Een controle groep is een behandeling bedoelt als baseline waarmee de experimentele groep wordt
vergeleken.
Er worden ook echt placebo’s gebruikt, dit zijn meestal suiker pillen. Niet te onderscheiden van het
echte medicijn.
Soms wordt er ook een controle groep gebruikt die niet de gewenste karakteristieke heeft. Bv bij
longkanker test mensen die wel roken gebruiken maar ook die niet roken.
Randomized comparative experiment is als er 2 of meerdere behandelingen en subjectsgroepen voor
behandeling zijn.
Completely randomized is als alle subjects worden de subjects random over de behandelingen
verdeeld. Deze proeven kunnen meerdere behandelingen hebben en meerdere factoren.
Er is altijd een gemiddeld verschil tussen de individuen die verschillende behandelingen krijgen. Er is
altijd een klein verschil hoe mensen reageren op een behandeling.
Een sample moet genoeg subjects hebben en random gekozen worden.
Een geobserveerd effect dat groot dat het zelden door kans gebeurd, noemt men statistisch
significant.
Matched pairs design is voor het vergelijken van 2 behandelingen. Je kiest voor subjects die goed
overeenkomen. De ene krijgt de ene behandeling eerst, het andere individu krijgt de andere
behanfdeling eerst.
Block design is een groep individuen waarvan voor het experiment al bekent is dat ze gelijksoortig
zijn en dat het het resultaat van de behandeling zal beïnvloeden. Dus je hebt bijvoorbeeld 3
behandelingen tegen kanker, maar de progressie verschilt in man en vrouw, je gebruikt nu dus 2
random trekkingen voor de behandeling. Man en vrouw apart.
Double blind is dat de subjects en mensen die de behandeling geven weten welke behandeling de
subjects krijgen, dus niet weten of ze een placebo of echte behandeling toedienen. Dit is nodig als de
onderzoeker de mogelijke uitkomsten moet beoordelen.
Het kan soms zijn dat een experiment niet reëel genoeg is om de subjects te laten geloven dat ze het
echte medicijn toegediend hebben gekregen.
Sommige experimenten kunnen niet worden gedaan om ethische redenen.
Chapter 9
Sample proportie is aantal successen/totaal aantal.
Een fenomeen is pas random als de individuele uitkomsten onzeker zijn met er is toch een
regelmatige distributie als je de proef vaak genoeg herhaald. De propability van een uitkomst van
een fenomeen is de proportie van hoe vaak een uitkomst zal gebeuren in een lange serie van
herhalingen.
Probability beschrijft wat er op lange duur gebeurd.
Een event is een uitkomst of een set van uitkomsten van een random fenomeen.
Probability model is een wiskundige beschrijving van random fenomeen bestaand uit sample space s
(set van alle uitkomsten) en de manier van de probability gegeven aan een event.
Sample space S bij geboort S={M,F}. Bij gewicht zijn er talloze mogelijkheden.
Probability ligt altijd tussen de 0 en 1. 0≤Pr(a)≥1
Alle prbability moet samen 1 zijn. P(S)=1
Als 2 events geen samenvallende uitkomsten hebben geldt dat de één of de andere gebeurd. Is de
som is de individuele probability, dus bv 20% + 45% = 65%
Probability dat 1 event niet gebeurd is de kans 1-Pr(a)
Discreet aantal, telbaar.
Continu is elk getal tussen bv 0 en 1.
Density curve boven horizontale as en heeft een oppervlakte van 1. Deze kunnen ook skewed zijn.
Density curve in ongeveer gelijk in het gebruik als de regressie lijn en is een hulpmiddel.
Random variabele is een variabele waarvan de waarde een numerieke uitkomst op een random
fenomeen heeft.
Probability distributie van een random variabele X vertelt welke waardes X aan kan nemen.
Personal probabilities is een waarde tussen de 0 en 1 waarin een individu schat hoe waarschijnlijk het
is dat een uitkomst gebeurd.
risk is het risico om dood te gaan, ziekte, side-effects, ect. Risk(A)=p
Odds is bv bij gokken, het de ratio dat 2 probabilties Odd(A)=p/(1-p)
Chapter 10
Indepentent houdt in dat de uitkomst van het eerste event het tweede event niet kan beinvloeden.
P(AnB)=P(A)*P(B) bv 2 meisje krijgen ½*½= ¼
Disjoint als A gebeurd en B niet kan gebeuren. Dus P(A of B)= P(A)+P(B)
Conditionele probability is B gegeven A. Dus P(B|A)= P(AnB)/P(A) waarbij A>0 moet zijn
Als A en B niet disjoint zijn en wel samen kunnen gebeuren geldt P(A of B)=P(A)+P(B)-P(AnB)
A en B kan samen gebeuren bij P(AnB)=P(A)*P(B|A)
2 events A&B zijn indepentent als P(B|A)=P(B) en P(AnB)=P(A)*P(B)
Sensitivity is P(+|ziekte)
Specificity is P(-|¬Ziekte)
Positive predictive value PPV is P(ziek|+)
True positive is mensen met een + die ook echt ziek zijn.
Bayes theorem P(Ai|B)=P(B|Ai)*P(Ai)/P(B|A1)(PA1)+P(B|A2)P(A2)
Download