College 1 Substantive issue - Property Valuation Importance of Property Valuation/Appraisal in Real Estate Practice • Transactions/ Hold-Sell • Finance & Performance • Real estate Investment Property Valuation or Appraisal (Waarderen): “Appraisal means a written statement independently and impartially -on objective criteria- prepared by a qualified appraiser setting forth an opinion of defined value of adequately described property as of a specifica data, supported by the presentation and analysis of relevant market information” Property Value (Taxeren): Market value is the expected selling price of the specified real property rights in an arm’-length transaction, as of the date of the appraisal, and assuming a reasonable exposure to the market De expeted selling price is het gemiddelde, bij een (on)gelijke verdeling, de mediaan. Arm’-length transaction is het geval bij executie verkoop of koop door familie. Reasonable exposure is de kans op veel eigen interpretatie Worth is de interne waarde Price = market value = worth ? › Price – observed transaction price › Value – estimate of the likely price › Worth – internal value based on discounted NOI Stap 1 - Doel versus Waarde - Type vastgoed - Tenure type (pacht/huur/dienstverhoudigen) Stap 2 - Waardebalende factoren o Subject o Buurt o Gebied o Verbeteringen aan het huis Stap 3 - Residual Approach Accounts/Profit Approach Cost Approach Income Approach Sales Comparative Approach Stap 4 - Opstellen rapport en verantwoording van bevindingen en keuzes Methodology - Applied Statistics - Data checking o Summary statistics o Scatter plots and distributions o Infuential observations vs Outliers o Transformations & Recoding - Exploratory Analysis o Correlations o Groups and Segmentation o Annova Methods College 2 (Internal) Appraisals: • investment analyses • hold-sell analyses (External) Valuation • Quarterly basis • Market Value – Net asset value for entry and redemption • Different Valuators Valuation Bij Valuation zijn er geen ‘markt’ discountrate’s of IRR’s waardoor de DCF-methode in dit deel niets waard is. Echter bij waarderen is dit wel het geval. Voor markt-valuation heb je marktyields nodig, bar (op basis van contract of markt huur)/nar Problems with Yield Method There are a lot of yields, but which one is appropriate? ROZ/IPD index: Reversionary Yield with corrections Problems: • Discount rate correction • Which corrections • This is all related to the main problem: WHAT IS THE (MARKET) REFERENCE? Aangezien de markt referenties alleen verwijzen naar de bruto yield, gebaseerd op overgangshuren zou dit de basis moeten zijn voor taxeren. Still Remaining Problems: • Valuators always make corrections in the valuation for the difference between market rent and passing rent, but never for the references • Quality of the reference judgement Taxaties lopen achter op de markt omdat taxaties gebasseerd zijn op transacties uit het verleden en minder actueel zijn dan de marktprijzen op dit moment. Dit wordt ook wel lagging genoemd. Daarnaast bestaat er nog het fenomeen van smoothing dat wordt veroorzaakt doordat taxaties worden gebaseerd op eerdere/voorgaande taxaties. De voorgaande taxaties hebben (te) grote invloed en zullen slechts ten dele worden aangepast. Bij economische groei zullen taxateurs wat voorzichtig zijn en bij neergang ook. De taxaties bieden hierdoor een gedempte reflectie van de werkelijkheid. Een nieuwe taxateur begint laag zodat hij gedurende jaren een kleine waardestijging kan toevoegen. Appraisel Appraisal has usually an internal objective: • Acquisition • Investment in existing portfolio • Hold Sell analyses • Disinvestments Appraisals can be external; but an internal value is always necessary More appropriate approaches on building-level: • SWOT analyses • LOH judgement model (L=Location; O=Building; H=Tenant)) • Vacancy as risk indicator • Risk-return analysis De IRR-target wordt gebaseerd op de rente, marktrisico en liquiditeitsrisico. IRR target en BAR-target verschillen van elkaar, waarom? Hogere BAR betekent lagere investeringwaarde Systematische benadering vastgoed erg belangrijk College 3 Appraisel methods Reconciliation is het verantwoorden en inschatten van de werkelijke waarde op basis van de reange van waarden die gevonden worden door de verschillende waarderingsmethoden. Residual Approach - Investeringsbeslissingen - Het doel is om onbewerkt land te waarderen zonder directe markt kennis/bewijzen - Factoren die de waarde beïnvloeden zijn locatie/toegang tot het terrein/ontwikkelbaar gebied/bestemmingplannen/bouwregels/voorgestelde ontwikkeling - Waarde heeft betrekking op de ontwikkelingswaarde en de kosten van ontwikeling - Waarde wordt vastgesteld door de waarde van de opstal (na herontwikkeling) – de bouwkosten. (Residuele grondprijs methode) Account/Profit Approach - Heeft betrekking op waardering van ongebruikelijke vastgoed objecten - Het doel is om de waarde vast te stellen van het object waarbij wordt gekeken naar de opbrengst/handel van de betrokken bedijvigheid. - Waardebeinvloedende factoren zijn final accounts/winst en verlies rek./balance sheets - De waarde is gerelateerd aan de cash-flow of turnover rent, de waarde is een fractie van de winst/omzet van het te verwachten gebruik - Deze benadering heeft een sterke relatie met de ‘income benadering’ Cost Approach - Methode kan gebruikt worden als er geen markt transacties zijn (public buildings) - Het doel is om te taxeren voor de waarde van een object op de balans - De waarde heeft betrekking op de geschatte kosten van de bouw (Construction)/ de waarde van het land in het huidige gebruik/ aanpassing of toevoeging voor onderhoud, schade en slijtage, afschrijvingen. - Waarde is de bouwkosten + het land – de afschrijvingen Income Approach - Wat is een inversteerder bereid te betalen op bais van de te verwachten cashflows - De waarde is afhankelijk van de kapitalisatie rate en het Net Operating Income van het object - Cape rate is rendment risico vrij + risico premie + groei ratio huur + waardevermindering - Aanvangsrendement is kleiner dan het exit rendement - Variants: • Capitalisation rate based on direct comparison using transaction values and rental income. • Capitalisation rate based on return, rental growth rate and depreciation Sale Comparative Approach - Het doel is om de waarde te bepalen op basis van marktgegevens - De waarde is afhankelijk van vergelijkbare referenties - Varianten hierbij zijn de directe verkoop vergelijking, statistische anlayse en de regressieanlayse - Statischtische analyse lijkt om de ‘exploratory anlaysis’ hierbij wordt gekeken naar normaal verdelingen, gemiddelde, midden, modus, etc. - Regressieanlyse, analyse van transactieprijzen, regressie modellen. Lineaire regressie modeling Research Design – Sample design/Model specifications Sample size vs Power – Als er zwakke verbanden worden verwacht dan moet de sample size groter zijn. Zodat de ‘Power’ groter wordt. Power = waarschijnlijkheid van het ontdekken van een statistische significante verhouding Exploring Data • Scatterplots/Distributions • Segmentation to account for heterogeneity between properties • Anova – like age vs rent • Manova – like age & location vs rent (allows for interaction) • Association among variables of interest Multivariate Model Y =Constant + a * X1 + b * X2 + epsilon Y =Constant + a * X1 + b * X2 + Bk*Xk +epsilon Nulhypothese bij lineaire regressie = Er is geen liniear verband tussen de onafhankleiljke en de afhankelijke variabelen. Nulhypothese = regressiecoefficient is nul (geen verband) Alternatieve hypothese = Beta is niet gelijk aan 0 College 4 TOWARDS REGRESSION MODELING Step 1 – Preparing data Step 2 – Transforming/Rescaling data Step 3 – Descriptive analysis Step 4 – Segmentation, Analysis of Variance, Cross-tabulation and Association Step 5 – Explanatory analysis – Model building Single measure heeft betrekking op individuele 'measurements', zoals individele scores op items, leeftijd van individuen, etc. Average measure heeft betrekking op gemiddelde 'measurements', zoals de gemiddelde score op een test met meerdere items, de gemiddelde rating van een aantal beoordelaars, etc. Preparing Data - Checking Data Values o Single and multiple measures/ratio’s - Oulier bepalend o Buiten de kwartielen o Negatieve waarden (als dit niet kan) o Error’s o Influential observations Als e hellingshoek te veel wordt bepaald door een enkele variabele Weggooien Verklaren om hij afhankelijk is van een andere varaibele Transforming/Rescaling data - Checking data values o Descriptisves /Plots/Histogram Descriptive analysis - Correlaties bekijken - Descriptive (or "disinterested") approach which aims primarily at gathering knowledge (i.e. descriptions and explanations) about the object of study but does not wish to modify the object. The target is to find out how things are, or how they have been. Segmentation, Analysis of Variance, Cross-tabulation and Association - Exploring Data o Scatterplots/Distributions o Segmentation to account for heterogeneity between properties o Anova – like age vs rent o Manova – like age & location vs rent (allows for interaction) o Association among variables of interest Explanatory analysis – Model building - True model: Y =Constant + a * X1 + b * X2 + epsilon - Model assumptions o 1. Linearity in parameters o 2. Constant variance in epsilon (homoscedasticity) o 3. Independence of epsilon o 4. Normality Model Assumptions - Multicollineariteit. Er zijn geen onafhankelijke variabelen in het model die (ongeveer) hetzelfde meten. Er is sprake van multicollineariteit als er correlatie van groter dan 0,9 voorkomen. In dit geval moet 1 van beide worden weggelaten. Afhankelijkheid van residuen heeft geen invloed op de regressiecoëfficiënten. De geschatte standaardfouten zijn echter niet meer zuiver: meestal te klein. Te kleine standaardfouten leiden er toe dat toetsen te gemakkelijk een significant resultaat geven, en betrouwbaarheidsintervallen te smal zijn - Homoscedasitie. Is er voor elke combinatie van waarden van alle onafhankelijke variabelen in de populatie een normale verdeling van y-waarden met een constante variantie. De variantie van de residuen mag dus niet afhangen van de waarden van de onafhankelijke variabelen. Is dit wel het geval dan spreekt men van heteroscedasticiteit. Als alle punten evenwichtig rond de horizontale nullijn liggen is de variantie constant (homoscedastisch of homogeen). Als de punten een ‘toeter’vormen is de variantie niet constant. Homogeniteit = contante variantie in de foutterm (epsilon/residuen). Heteroscedasticiteit heeft geen invloed op de schattingen van de regressiecoëfficiënten, maarleidt wel tot onzuivere schattingen van de standaardfouten. Dit heeft onjuiste toetsen en betrouwbaarheidsintervallen tot gevolg. - Normaal verdeeld. De residuen moeten in de populatie normaal verdeeld zijn, met een gemiddelde van 0. Schending van de normaliteitassumptie heeft geen invloed op de schattingen van de regressiegewichten.Wel leidt het tot onjuiste toetsen en betrouwbaarheidsintervallen. Een q-qplot kan hier worden gebruikt om te toetsen. - Linieariteit. Het regressiemodel moet lineair zijn. Dit kan tevens gecontroleerd worden met het spreidingsdiagram van de residuen met de voorspelde waarden, een residual plot of een partial plot. Indien het regressiemodel niet lineair is, is er sprake van een duidelijke patroon, zoals een parabool of andersoortige kromme. Door middel van een residual plot kun je kijken of je data lineair is (de residuen zouden dan random verdeeld moeten zijn om de middenlijn) en of je data homogeen is (de residuen liggen dan op elk punt ongeveer evenver van de middenlijk verspreid). Wanneer je data niet homogeen is of niet lineair dan zou je kunnen proberen om de data te transformeren. College 5 Correlatie Als de correlatie dicht bij de 1 ligt moet je maar 1 variabele meenmen. Waarom? Bij een correlatiematrix zegt het significantie niveau dat een bepaalde variablee wel of niet significant correleert maar er kan zonder significantie alsnog wel een positief of negatief verband zijn. Deze situatie kan zich voordoen bij een grote spreiding waarbij sommige cases een negatief verband hebben maar ook cases zonder verband bijvoorbeeld. Chow test Bij de Chow test gaat het er om, om te kijken of er structurele verschillen zijn in de bijdrage van de x’en op de y. Er wordt gekeken of er verschil is in verschillende groepen. Nul hypothese = Er is geen verschil in variabelen in de verschillende groepen Residual (overblijvend), de residual van een steekproef is het verschil tussen de steekproef en de geschatte regressielijn. Residu is de afwijking van de regressielijn. De (sum of squares) is de som van de gekwadrateerde afwijkingen van het gemiddelde. Standard Error of the Estimate’ (= de standaarddeviatie van de residuele scores) Unristricted (onbeperkt/onbegrensd), alle niet pooled bij elkaar optellen. Restricted (beperkt), is altijd de pooled. Als de F-waarde kleiner is dan de waarde die de tabel aangeeft dan moet de H0 niet worden verworpen. Een hoge F-waarde komt dus ten gusnte aan het vewerpen van de H0. Als de F waarde hoger is dan de kritieke waarde moet H0 verworen worden. College 6 Discrete Keuze Modellen/Dicreet Choise Model Conjoint analysis – Design - Stappen o Opstellen van een theoretisch model o Maken van vignetten o Veldwerk o Analyse en rapportage - Aantal atributen beperken tot 6 - Aantal vigentten beperken tot 15 per respondent - Vignetten zijn reële combinaties van attributen - Statistisch Design om steekproef uit set vignetten te trekken Bij het DKM is er geen R² maar wel een inschatting van de verklarende kracht achter het model, percentage corret, de Nagelkerke R². Deze mag echter niet geïnterpreteerd worden als het percentage verklaarde variantie. Statistische Analyse › Keuze ja/nee -> Discrete keuzemodellen › Rangordening -> Discrete keuzemodellen › Rapportcijfer -> Lineaire Regressie Voorwaarden Discrete Keuze Modellen (voor Y) - Elkaar uitsluiten (het is 0 of 1, geen andere mogelijkheid) - Alle cases moeten aanwezig zijn, uitputtend zijn (bij koop en huur maar 1 van beide meenemen) - Het moet een beperkt aantal cases zijn, een eindig aantal cases Kritiek Discreet Keuze Model - Keuzes zijn niet altijd rationeel, dus niet alle rangorden kunnen gedaan/gemaakt worden - Meten we alles wel? Niet elk detail is mee te nemen - Er wordt alleen maar iets gezegd over nut of welbeining maar niet over mogelijkheden om dit nut te bereiken (bijvoorbeeld een begrensd inkomen) Discreet Keuze Model kijkt naar de kans dat iemand in een huur/koop woning zit. Of de kans dat iemand een actieve VvE heeft. De bijdrage van verschillende variabelen op de kans dat iets aanwezig is of niet. Is de afhankelijke variabele een dichotome variabele (een variabele met slechts twee waarden), dan gebruik je logistische regressie. Dit gaat om de berekening van de kansen op een gebeurtenis. College 7 Y* = latente variabele, de variabele kan continu zijn, we observeren hem niet. We observeren alleen of hij 0 of 1 is. Rangorde die in je hoofd gemaakt wordt maar die we niet observeren. We zien de afwegingen (variabelen) niet maar de beslissing wel. Een groot deel van de variabelen die worden gebruikt in economische modellen zijn theoretische constructies. Het is vaak moeilijk om hieraan getalswaarden toe te kennen, aangezien ze niet direct waarneembaar zijn. Dit type variabelen wordt latente variabelen genoemd. Andere variabelen, die wel kunnen worden waargenomen, zijn dan nodig om te dienen als indicatoren voor de niet waarneembare variabelen. Laten = niet direct merkbaar/meetbaar Met logistische regressie wordt berekend hoe groot de kans is op 1 van de 2 categoreien van een dichotome variable, op basis van onafhankelijke variabelen. Hierbij wordt aan de hand van kansen en kansverhoudingen het verband tussen afhankelijke variabele en onafhankelijke variabelen bepaald. Dit verband blijkt niet lineair en wordt grafisch weergegeven in een S-curve. Als je lineaire regressie zou toepassen, kunnen de voorspelde Y-waarden groter dan 1 of kleiner dan 0 worden. Hierdoor zouden de residuen erg groot kunnen worden en zijn deze niet normaal verdee. (Linieaire regressie gaat voorbij de 1, dus de kan is dan groter dan 100% dat kan dus niet). Bij lineaire regressie worden de parameters berekend met de kleinste kwadraten methode. Bij logistische regressie is dit niet mogelijk. De parameters worden geschat volgens de methode van maximum-likelihood. Gezocht wordt naar paramters die de verdeling van de afhankelijke variabele (categorieën 0 en 1) het beste representeren. Discreet maken naar 0 of 1 door naar boven of naar beneden af te ronden. Bij het DCM wordt niet geschat (bij linieare regressie wel), wel wordt er gekeken of hij de case in de 0 of in de 1 categorie valt. De tabel Dependent Variable Encoding toont welke waarde van afhankelijke variabele in het model de categorie 0 respectievelijk 1 heeft. De voorspelde kansen P (en logit) hebben dus betrekking op categorie 1. Blz 222 e.v. Basishandboek SPSS 17 voor uitleg en interpretatie Logistische regressie. De intercept (constante) en alle onafhankelijke variabelen moetwn orden opgenomen in de logistische regressievergelijking. Ook als ze niet significant zijn. De Wald Statistic (B/S.E.) is een indicator voor het relatieve belang van elke onafhankelijke varibale voor de voorspelling. De variabele met de hoogste score is het belangrijkst. De coefficient Exp(B) is de exponentiële B-coefficient. Dit geeft de invloed weer van de onafhankelijke variable op de kansverhouiding. Deze laat zich alleen goed interpreteren voor categorale variabelen. Om in te kunnen schatten of het model (de classification table) goed voorspeld, of dit een hoog percentage is, moet je de classification table van block 0 (kale model) vergelijken met de classification table van Block 1. Op basis van toeval (kale model) werd 57% goed voorspeld. Het logistische regressiemodel zorgt (in het voorbeeld) dus voor een verbetering van 82%-57%=24%. Logistic distribution – logit model (natuurlijek logaritmen van de odds/kansen/logt (synoniemen)). Normal distriubtion – probit model (verklaarende variabele moet continu zijn) Positief effect, omgekeerde s-curve verbeeld een negatief effect. Verwachte nutswaarde Uji = a + B1*x1 + B2*x2 + Epsilon U =Nut i = persoon j = object Begrippen Regressie Met regressie en variantie-analyse analyseren we experimenten en waarnemingen om te weten te komen of en in welke mate een bepaalde eigenschap door een andere eigenschap wordt verklaard of voorspeld. Sum of Squares De kwadratensom (sum of squares) is de som van de gekwadrateerde afwijkingen van het gemiddelde. De kwadratensom gaat uit van een enkele observatie (x) uit een steekproef die vergeleken wordt met de gemiddelde waarde van die steekproef (xgem.). Het verschil tussen deze twee waarden wordt gekwadrateerd. Dit gebeurt voor alle gevonden waarden voor x binnen de steekproef. De som van al deze waarden vormt de kwadratensom. De residuen vertegenwoordigen het niet door het regressiemodel verklaarde deel van de totale variatie in de waarnemingen en de verschillen, ook wel ‘toeval’ genoemd.. Regressie staat voor het wel door het model verklaarde deel van de totale variatie. Door de kwadratensom door het aantal metingen -1 (n-1) te delen, bereken je de variantie binnen een steekproef. De standaarddeviatie kun je berekenen door de wortel te nemen van de variantie. Variantie De variantie is in de statistiek een maat voor de spreiding van de waarden. Onder de spreiding van de waarden verstaat men de mate waarin de waarden onderling verschillen. Hoe groter de variantie, hoe meer de waarden onderling verschillen, en dus ook hoe meer de waarden van het "gemiddelde" afwijken. De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen. F-waarde Als maatstaf voor de onderlinge verhouding tussen verklaarde en niet-verklaarde variantie gebruiken we de F-statistiek of F-ratio. De totale variantie is per definitie gelijk aan 1. De verklaarde variantie wordt uitgedrukt door de determinatiecoëfficiënt (R2). De niet-verklaarde variantie is dus 1 - R2. De Fwaarde is de verklaringskracht van alle variabelen tezamen. Hoge waarde van F betekent eerder kans op significante uitkomsten. De Anova F geeft de prestatie van je model weer en de Chow- F geeft je de mogelijkheid om significantie te beaplen. Vrijheidsgraden Het aantal vrijheidsgraden (Degrees of Freedom) is gelijk aan het aantal waarnemingen min 1 Het aantal vrijheidsgraden van Regression is gelijk aan het aantal onafhankelijke variabelen. Het aantal vrijheidsgraden van ResidualI is gelijk aan het aantal cases minus het aantal onafhankelijke variabelen minus 1. R² De verklaarde variantie (R²) is dat percentage van de totale variantie in de afhankelijke variabele dat verklaard wordt door het toegepaste model. De Adjusted R² houdt rekening met het toevoegen van extra variabelen en met hoeveel de df zijn agenomen. Hoeveel is de verkoopkracht toegenomen. R is de correlatie tussen de (op basis van de regressieformule) verwachte waarden en de waargenomen waarden. Deze is altijd positief. De adjusted R² past aan voor het aantal variabelen dat opgenomen zit in je regressie. De 'gewone' R² doet dit niet. Hiermee is de gewone R² dus altijd groter of gelijk aan de aangepaste R². Je kan het beste de aangepaste R² nemen, omdat je zoveel mogelijk wilt verklaren aan de hand van zo min mogelijk variabelen. Selectie van variabelen bij meervoudige regressie B & Beta’s Als je kijkt naar het volledige model, dan geeft de B-waarde ons informatie over de relatie tussen variabele Y en elke predictor. Ze geven weer in welke mate de predictor de uitkomsten beïnvloedt, onder de voorwaarde dat alle andere predictoren gelijk worden gehouden. De bèta’s zijn de gestandaardiseerde versies van de B’s. Deze zijn vaak makkelijker te interpreteren, (omdat ze niet afhankelijk zijn van de meetschaal van de variabelen). Alle gestandaardiseerde bèta’s zijn gemeten in standaarddeviaties en zijn dus direct met elkaar te vergelijken. Hierdoor kan er een beter inzicht verkregen worden over hoe ‘belangrijk’ een predictor is in het model. Covariantie en Correlatie Bij correlaties en covarianties gaat het dus over relaties tussen twee waarden. We kunnen met de correlatie en de covariantie alleen maar zeggen dat er een relatie is, vervolgens moeten we zelf nadenken over wat de oorzaak kan zijn voor die relatie. Waarbij de correlatie iets zegt over de mate waarin de ene variabele de andere beïnvloedt (regen veroorzaakt paraplus). Werk veroorzaakt inkomen. Terwijl de covariantie iets zegt over de kracht van de relatie. De covariantie is in de statistiek en kansrekening een parameter die bij twee toevalsvariabelen aangeeft in welke mate de beide toevalsvariabelen (lineair) met elkaar samenhangen. De covariantie geeft aan of en indirect in welke mate de waarden van de ene variabele toe- dan wel afnemen bij toenemende waarden van de andere. Een vergelijkbare parameter is de correlatiecoëfficiënt, die aangeeft in hoeverre sprake is van lineaire samenhang en die direct de sterkte van de samenhang aangeeft. De correlatiecoëfficiënt is gebaseerd op de covariantie, maar in tegenstelling tot de correlatiecoëfficiënt is de covariantie niet onafhankelijk van de schaal, zodat aan de grootte van de covariantie niet direct de sterkte van de samenhang afgelezen kan worden. Multicollineariteit Bij meervoudige regressie kan multicollineariteit optreden wanneer de onafhankelijke variabelen onderling sterk correleren: het effect op de afhankelijke variabele Y wordt dan arbitrair. Immers, beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in Y. Er is geen absolute regel wanneer multicollineariteit 'ernstig' wordt. De oplossing is om één van de twee onderling correlerende onafhankelijke variabelen uit de analyse te verwijderen. Gestandaardiseerde regressiecoefficienten De hoogte van de regressiecoëfficiënten die tot nu toe zijn uitgerekend, was steeds mede afhankelijk van de absolute waarden van de oorspronkelijke gegevens. Bij multipele regressie zijn hierdoor de parameters niet rechtstreeks vergelijkbaar. Om de parameters vergelijkbaar te maken, kunnen we de variabelen in de regressieanalyse standaardiseren (het gemiddelde van iedere variabele wordt nul en de standaarddeviatie één). De resulterende gestandaardiseerde regressiecoëfficiënten worden door SPSS automatisch berekend: dit zijn de bèta's uit de tabel. De bèta's kunnen direct met elkaar vergeleken worden (de constante is bij gestandaardiseerde regressie altijd nul). Gestandaardiseerd = naar vaste maatstaf, gecorrigeerd voor verschillen in samenstelling en grootte Associatiemaat (effect maat) Getal, dat de sterkte en de richting (positief of negatief) van de associatie tussen twee variabelen aangeeft. Transformeren Log-transformatie wordt toegepast voor het 'rechttrekken' van data die rechtsscheve verdeling hebben: door het logaritmiseren nemen hoge uitkomsten sterker af dan lage. Voorbeeld. De waarden van x0 in de tabel nemen exponentieel toe (1, 2, 4,...) en de log-getransformeerde waarden, xt = log(x0) nemen lineair toe: hun verschillen zijn alle gelijk (0.30). Interactie Een interactie-effect is een verschil van een verschil of een effect op een effect. Het idee voor interactie en hoofdeffecten is ontstaan vanuit ANOVA, hetgeen de Analysis of Variance methode is. Hierover zal meer uitleg gegeven worden op een later moment tijdens de studie. Een hoofdeffect is een effect van een onafhankelijk variabel op een afhankelijk variabel dat geen interactie heeft met andere onafhankelijke variabelen. In de meeste gevallen is er slechts een hoofdeffect voor elk afzonderlijk onafhankelijk variabel binnen een onderzoek. Interactie geschiedt wanneer het effect van een onafhankelijk variabel op een afhankelijk variabel veranderd naar aanleiding van het effect van een ander onafhankelijk variabel. Wanneer we naar een hoofdeffect kijken en de hypothese kunnen maken dat het hoofdeffect kan veranderen als een ander element toegevoegd zou worden aan het onderzoek, dan weten we dat er een mogelijkheid van interactie is. Om te kunnen bepalen of er interactie is, moet er eerst gekeken worden naar de afzonderlijke onafhankelijke variabelen (hier wordt naar verwezen als ‘simple main effects’) waarna ze dan kunnen worden gecombineerd in een afzonderlijke test. Een simpele manier om interacties of hoofdeffecten te ontdekken is door een ‘line graph’ (van de gemiddelden) te maken. Hoe minder parallel de twee lijnen zijn, hoe meer kans er is dat er sprake is van een interactie. Als de lijnen parallel lopen, dan is de bovenste lijn veelal het hoofdeffect. In dit geval is er geen interactie. Kansdichtheid (density function) De kansdichtheid beschrijft mathematisch of grafisch de kansverdeling van een continue kansvariabele. De normale verdeling is een begrip uit de kansrekening. Deze verdeling vindt onder meer toepassing in de statistiek. Het is een continue kansverdeling. De bijbehorende kansdichtheid is hoog in het midden, en wordt naar lage en hoge waarden steeds kleiner zonder ooit echt nul te worden. Door de vorm wordt deze kansdichtheid o ok wel klokkromme genoemd. Bij een disrecte variabele kan de kansfunctie beschouwd worden als de weergave van de kansen uite het kansexperiment. De kans bij een continue variabele op een bepaalde gebeurtenis wordt gedefineerd als de kansdichtheid (fx). Overig Als de constante niet significant is betekent dat de intercept net ver van de nul afwijkt. Wel moet deze altijd worden opgenomen in de formule. Dummy variable Trap – do include k-1 Dummies in Om te kijken of je dummies goed zijn kun je een correlatiematrix maken om te chekcen of er geen verband is tussen de verschillende dummies. Regressie kent twee doelen - Effect bepalen (doormiddel van je richtingscoefficient) - Voorspellen Duimregel T waarde = B /S.E. T waarde => 1,64 = significant Standaard error of the estimate = gemiddelde grootte van een residu De standaardfout is in de statistiek de benaming voor de standaardafwijking van het steekproefgemiddelde. De term is afkomstig uit de foutenleer om de nauwkeurigheid aan te geven van een berekend gemiddelde. De standaardfout is in principe kleiner naarmate de steekproef groter is. Foutterm/Epsilon De verticale afwijkingen van ieder punt tot de regressielijn vormen de fouttermen (error terms) of residuen. Alleen wanneer de correlatie perfect is (r = 1), liggen alle punten precies op de lijn. De rechte die het verband tussen X en Y het beste weergeeft is die lijn, waarbij de fouttermen minimaal zijn. Omdat positieve en negatieve afwijkingen tegen elkaar weg zouden vallen, worden de fouttermen gekwadrateerd. De methode voor de berekening van de regressielijn wordt daarom ook wel de methode van de kleinste kwadraten genoemd. Log-Linear, Logit, and Probit Models Overview Log-linear, logit, and probit models are special cases of general linear models (GLM, which includes regression and ANOVA models) to better treat the case of dichotomous and categorical variables. Log-linear analysis deals with association of categorical or grouped data, looking at all levels of possible main and interaction effects, comparing this saturated model with reduced models, with the primary purpose being to find the most parsimonious model which can account for cell frequencies in a table. That is, log-linear analysis is a non-dependent procedure for accounting for the distribution of cases in a crosstabulation of categorical variables. Log-linear analysis is a type of multi-way frequency analysis (MFA) and sometimes log-linear analysis is labeled MFA. Logit modeling is similar to log-linear modeling, but explains one or more dependent categorical variables. When there is a dependent categorical variable, however, binary and multinomial logistic regression are more commonly used. Logistic regression is also used when the independents are continuous (forcing continuous variables into categories attenuates correlation and is not recommended). Conditional logit handles matched-pairs and panel data, and data for analyzing choices. Probit is a variant of logit modeling based on different data assumptions. Logit is the more commonly used, based on the assumption of equal categories. Probit may be the more appropriate choice when the categories are assumed to reflect an underlying normal distribution of the dependent variable, even if there are just two categories. Log-linear models were developed to analyze the conditional relationship of two or more categorical values. Log-linear analysis is different from logistic regression in four ways: The expected distribution of the categorical variables is Poisson, not binomial or multinomial. The link function is the natural log of the dependent, not the logit of the dependent as in logistic regression (the natural log of the odds, which is the probability the dependent equals a given value (usually 1, indicating an event has occurred or a trait is present) divided by the probability it does not). Predictions are estimates of the cell counts in a contingency table, not the logit of y. Logit and probit extend the log-linear model to allow a mixture of categorical and continuous independent variables to predict one or more categorical dependent variables. Both logit and probit usually lead to the same conclusions for the same data. Logit regression yields results equivalent to logistic regression, but with different output options. Many problems can be handled by either logit or logistic regression, though the latter has become more popular among social scientists. Note that generalized linear models, discussed separately, represent a more recent set of procedures which can also analyze categorical dependents and independents, and in this sense represent a different method of implementing log-linear, logit, probit, Poisson, and other models. See also the separate section on ordinal regression, which can also implement logit, probit, and other models. See also the separate section on probit response models, which additionally supports logit response models. Traditional approaches to categorical data relied on chi-square and other measures of significance to establish if a relationship existed in a table, then employed any of a wide variety of measures of association to come up with a number, usually between 0 and 1, indicating how strong the relationship was. Loglinear methods are similar in function but have the advantage of making it far easier to analyze multi-way tables (more than two categorical variables) and to understand just which values of which variables and which interaction effects are contributing the most to the relationship. For simple two-variable tables, traditional approaches may still be preferred, but for multivariate analysis of three or more categorical variables, log-linear analysis is preferred. Loglinear methods also differ from multiple regression in substituting maximum likelihood estimation of a link function of the dependent for regression's use of least squares estimation of the dependent itself. The link function transforms the dependent variable and it is this transform, not the raw variable, which is linearly related to the model (the terms on the right-hand side of the equation). The link function used in log-linear analysis is the log of the dependent, y. The function used in logit is the natural log of the odds ratio. The function used in probit is the inverse of the standard normal cumulative distribution function. There are several possible purposes for undertaking log-linear modeling, the primary being to determine the most parsimonious model which is not significantly different from the saturated model, which is a model that fully but trivially accounts for the cell frequencies of a table. Log-linear analysis is used to determine if variables are related, to predict the expected frequencies (table cell values) of a dependent variable, the understand the relative importance of different independent variables in predicting a dependent, and to confirm models using a goodness of fit test (the likelihood ratio). Residual analysis can also determine where the model is working best and worst. Often researchers will use hierarchical loglinear analysis (in SPSS, the Model Selection option under Loglinear) for exploratory modeling, then use general loglinear analysis for confirmatory modeling. SPSS supports these related procedures, among others: Kaplan – Meier Survival Analysis & Cox Regression Survival analyse Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn (vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is en dat een event per individu maar hoogstens één keer kan optreden. Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijdtot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden: Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de tijd-tot-event van deze persoon langer is dan 12 weken. Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient weten we alleen dat de eventvrije periode langer is dan 8 weken. Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt. Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de studie zonder een relapse gehad te hebben. Wanneer gebruik ik een Kaplan Meier analyse? Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode: De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk. Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op een event vlak voordat het event optreedt de studie verlaten. De tijdstippen waarop de events optreden zijn exact bekend. Patienten worden vanaf het begin van de onderzochte periode gevolgd. Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen genoemd. De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve. De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat op ongeveer 92%. Hoe test ik of Kaplan Meier survival curves van elkaar verschillen? We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B significant is: Cox Regression Met Cox-regressie kun je in het algemeen afleiden welke variabelen invloed hebben, en hoe sterk die invloed is, op de 'relative hazard' van een gebeurtenis (de toename van de kans op het optreden van een gebeurtenis in het onmiddellijk volgende tijdvak/stip.) Dit is een statistisch model (Cox 1972) om een overlevingscurve te berekenen die rekening houdt met de invloed van co-variabelen en waarbij niet elke persoon noodzakelijk evenlang aan het onderzoek heeft deelgenomen.