College 1 - Real Estate Club Groningen

advertisement
College 1
Substantive issue - Property Valuation
Importance of Property Valuation/Appraisal in Real Estate Practice
• Transactions/ Hold-Sell
• Finance & Performance
• Real estate Investment
Property Valuation or Appraisal (Waarderen):
“Appraisal means a written statement independently
and impartially -on objective criteria- prepared by a
qualified appraiser setting forth an opinion of defined
value of adequately described property as of a
specifica data, supported by the presentation and
analysis of relevant market information”
Property Value (Taxeren):
Market value is the expected selling price of the
specified real property rights in an arm’-length
transaction, as of the date of the appraisal, and
assuming a reasonable exposure to the market
De expeted selling price is het gemiddelde, bij een (on)gelijke verdeling, de mediaan.
Arm’-length transaction is het geval bij executie verkoop of koop door familie.
Reasonable exposure is de kans op veel eigen interpretatie
Worth is de interne waarde
Price = market value = worth ?
› Price – observed transaction price
› Value – estimate of the likely price
› Worth – internal value based on discounted NOI
Stap 1
- Doel versus Waarde
- Type vastgoed
- Tenure type (pacht/huur/dienstverhoudigen)
Stap 2
- Waardebalende factoren
o Subject
o Buurt
o Gebied
o Verbeteringen aan het huis
Stap 3
-
Residual Approach
Accounts/Profit Approach
Cost Approach
Income Approach
Sales Comparative Approach
Stap 4
- Opstellen rapport en verantwoording van bevindingen en keuzes
Methodology - Applied Statistics
- Data checking
o Summary statistics
o Scatter plots and distributions
o Infuential observations vs Outliers
o Transformations & Recoding
- Exploratory Analysis
o Correlations
o Groups and Segmentation
o Annova Methods
College 2
(Internal) Appraisals:
• investment analyses
• hold-sell analyses
(External) Valuation
• Quarterly basis
• Market Value – Net asset value for entry and redemption
• Different Valuators
Valuation
Bij Valuation zijn er geen ‘markt’ discountrate’s of IRR’s waardoor de DCF-methode in dit deel niets
waard is. Echter bij waarderen is dit wel het geval.
Voor markt-valuation heb je marktyields nodig, bar (op basis van contract of markt huur)/nar
Problems with Yield Method
There are a lot of yields, but which one is appropriate?
ROZ/IPD index: Reversionary Yield with corrections Problems:
• Discount rate correction
• Which corrections
• This is all related to the main problem: WHAT IS THE (MARKET) REFERENCE?
Aangezien de markt referenties alleen verwijzen naar de bruto yield, gebaseerd op overgangshuren
zou dit de basis moeten zijn voor taxeren. Still Remaining Problems:
• Valuators always make corrections in the valuation for the
difference between market rent and passing rent, but never for
the references
• Quality of the reference judgement
Taxaties lopen achter op de markt omdat taxaties gebasseerd zijn op transacties uit het verleden en
minder actueel zijn dan de marktprijzen op dit moment. Dit wordt ook wel lagging genoemd.
Daarnaast bestaat er nog het fenomeen van smoothing dat wordt veroorzaakt doordat taxaties
worden gebaseerd op eerdere/voorgaande taxaties. De voorgaande taxaties hebben (te) grote
invloed en zullen slechts ten dele worden aangepast. Bij economische groei zullen taxateurs wat
voorzichtig zijn en bij neergang ook. De taxaties bieden hierdoor een gedempte reflectie van de
werkelijkheid.
Een nieuwe taxateur begint laag zodat hij gedurende jaren een kleine waardestijging kan toevoegen.
Appraisel
Appraisal has usually an internal objective:
• Acquisition
• Investment in existing portfolio
• Hold Sell analyses
• Disinvestments
Appraisals can be external; but an internal value is always necessary
More appropriate approaches on building-level:
• SWOT analyses
• LOH judgement model (L=Location; O=Building; H=Tenant))
• Vacancy as risk indicator
• Risk-return analysis
De IRR-target wordt gebaseerd op de rente, marktrisico en liquiditeitsrisico.
IRR target en BAR-target verschillen van elkaar, waarom?
Hogere BAR betekent lagere investeringwaarde
Systematische benadering vastgoed erg belangrijk
College 3
Appraisel methods
Reconciliation is het verantwoorden en inschatten van de werkelijke waarde op basis van de reange
van waarden die gevonden worden door de verschillende waarderingsmethoden.
Residual Approach
- Investeringsbeslissingen
- Het doel is om onbewerkt land te waarderen zonder directe markt kennis/bewijzen
- Factoren die de waarde beïnvloeden zijn locatie/toegang tot het terrein/ontwikkelbaar
gebied/bestemmingplannen/bouwregels/voorgestelde ontwikkeling
- Waarde heeft betrekking op de ontwikkelingswaarde en de kosten van ontwikeling
- Waarde wordt vastgesteld door de waarde van de opstal (na herontwikkeling) – de
bouwkosten. (Residuele grondprijs methode)
Account/Profit Approach
- Heeft betrekking op waardering van ongebruikelijke vastgoed objecten
- Het doel is om de waarde vast te stellen van het object waarbij wordt gekeken naar de
opbrengst/handel van de betrokken bedijvigheid.
- Waardebeinvloedende factoren zijn final accounts/winst en verlies rek./balance sheets
- De waarde is gerelateerd aan de cash-flow of turnover rent, de waarde is een fractie van de
winst/omzet van het te verwachten gebruik
- Deze benadering heeft een sterke relatie met de ‘income benadering’
Cost Approach
- Methode kan gebruikt worden als er geen markt transacties zijn (public buildings)
- Het doel is om te taxeren voor de waarde van een object op de balans
- De waarde heeft betrekking op de geschatte kosten van de bouw (Construction)/ de waarde
van het land in het huidige gebruik/ aanpassing of toevoeging voor onderhoud, schade en
slijtage, afschrijvingen.
- Waarde is de bouwkosten + het land – de afschrijvingen
Income Approach
- Wat is een inversteerder bereid te betalen op bais van de te verwachten cashflows
- De waarde is afhankelijk van de kapitalisatie rate en het Net Operating Income van het object
- Cape rate is rendment risico vrij + risico premie + groei ratio huur + waardevermindering
- Aanvangsrendement is kleiner dan het exit rendement
- Variants:
• Capitalisation rate based on direct comparison using transaction values and rental income.
• Capitalisation rate based on return, rental growth rate and depreciation
Sale Comparative Approach
- Het doel is om de waarde te bepalen op basis van marktgegevens
- De waarde is afhankelijk van vergelijkbare referenties
- Varianten hierbij zijn de directe verkoop vergelijking, statistische anlayse en de
regressieanlayse
- Statischtische analyse lijkt om de ‘exploratory anlaysis’ hierbij wordt gekeken naar normaal
verdelingen, gemiddelde, midden, modus, etc.
- Regressieanlyse, analyse van transactieprijzen, regressie modellen.
Lineaire regressie modeling
Research Design – Sample design/Model specifications
Sample size vs Power – Als er zwakke verbanden worden verwacht dan moet de sample size groter
zijn. Zodat de ‘Power’ groter wordt. Power = waarschijnlijkheid van het ontdekken van een
statistische significante verhouding
Exploring Data
• Scatterplots/Distributions
• Segmentation to account for heterogeneity between properties
• Anova – like age vs rent
• Manova – like age & location vs rent (allows for interaction)
• Association among variables of interest
Multivariate Model
Y =Constant + a * X1 + b * X2 + epsilon
Y =Constant + a * X1 + b * X2 + Bk*Xk +epsilon
Nulhypothese bij lineaire regressie = Er is geen liniear verband tussen de onafhankleiljke en de
afhankelijke variabelen.
Nulhypothese = regressiecoefficient is nul (geen verband)
Alternatieve hypothese = Beta is niet gelijk aan 0
College 4
TOWARDS REGRESSION MODELING
Step 1 – Preparing data
Step 2 – Transforming/Rescaling data
Step 3 – Descriptive analysis
Step 4 – Segmentation, Analysis of Variance, Cross-tabulation and Association
Step 5 – Explanatory analysis – Model building
Single measure heeft betrekking op individuele 'measurements', zoals individele scores op items,
leeftijd van individuen, etc. Average measure heeft betrekking op gemiddelde 'measurements', zoals
de gemiddelde score op een test met meerdere items, de gemiddelde rating van een aantal
beoordelaars, etc.
Preparing Data
- Checking Data Values
o Single and multiple measures/ratio’s
- Oulier bepalend
o Buiten de kwartielen
o Negatieve waarden (als dit niet kan)
o Error’s
o Influential observations
 Als e hellingshoek te veel wordt bepaald door een enkele variabele
Weggooien
Verklaren om hij afhankelijk is van een andere varaibele
Transforming/Rescaling data
- Checking data values
o Descriptisves /Plots/Histogram
Descriptive analysis
- Correlaties bekijken
- Descriptive (or "disinterested") approach which aims primarily at gathering knowledge (i.e.
descriptions and explanations) about the object of study but does not wish to modify the
object. The target is to find out how things are, or how they have been.
Segmentation, Analysis of Variance, Cross-tabulation and Association
- Exploring Data
o Scatterplots/Distributions
o Segmentation to account for heterogeneity between properties
o Anova – like age vs rent
o Manova – like age & location vs rent (allows for interaction)
o Association among variables of interest
Explanatory analysis – Model building
- True model: Y =Constant + a * X1 + b * X2 + epsilon
- Model assumptions
o 1. Linearity in parameters
o 2. Constant variance in epsilon (homoscedasticity)
o 3. Independence of epsilon
o 4. Normality
Model Assumptions
- Multicollineariteit. Er zijn geen onafhankelijke variabelen in het model die (ongeveer)
hetzelfde meten. Er is sprake van multicollineariteit als er correlatie van groter dan 0,9
voorkomen. In dit geval moet 1 van beide worden weggelaten. Afhankelijkheid van residuen
heeft geen invloed op de regressiecoëfficiënten. De geschatte standaardfouten zijn echter
niet meer zuiver: meestal te klein. Te kleine standaardfouten leiden er toe dat toetsen te
gemakkelijk een significant resultaat geven, en betrouwbaarheidsintervallen te smal zijn
-
Homoscedasitie. Is er voor elke combinatie van waarden van alle onafhankelijke variabelen in
de populatie een normale verdeling van y-waarden met een constante variantie. De
variantie van de residuen mag dus niet afhangen van de waarden van de onafhankelijke
variabelen. Is dit wel het geval dan spreekt men van heteroscedasticiteit. Als alle punten
evenwichtig rond de horizontale nullijn liggen is de variantie constant (homoscedastisch of
homogeen). Als de punten een ‘toeter’vormen is de variantie niet constant. Homogeniteit =
contante variantie in de foutterm (epsilon/residuen). Heteroscedasticiteit heeft geen invloed
op de schattingen van de regressiecoëfficiënten, maarleidt wel tot onzuivere schattingen van
de standaardfouten. Dit heeft onjuiste toetsen en betrouwbaarheidsintervallen tot gevolg.
-
Normaal verdeeld. De residuen moeten in de populatie normaal verdeeld zijn, met een
gemiddelde van 0. Schending van de normaliteitassumptie heeft geen invloed op de
schattingen van de regressiegewichten.Wel leidt het tot onjuiste toetsen en
betrouwbaarheidsintervallen. Een q-qplot kan hier worden gebruikt om te toetsen.
-
Linieariteit. Het regressiemodel moet lineair zijn. Dit kan tevens gecontroleerd worden met
het spreidingsdiagram van de residuen met de voorspelde waarden, een residual plot of een
partial plot. Indien het regressiemodel niet lineair is, is er sprake van een duidelijke patroon,
zoals een parabool of andersoortige kromme.
Door middel van een residual plot kun je kijken of je data lineair is (de residuen zouden dan random
verdeeld moeten zijn om de middenlijn) en of je data homogeen is (de residuen liggen dan op elk
punt ongeveer evenver van de middenlijk verspreid). Wanneer je data niet homogeen is of niet
lineair dan zou je kunnen proberen om de data te transformeren.
College 5
Correlatie
Als de correlatie dicht bij de 1 ligt moet je maar 1 variabele meenmen. Waarom?
Bij een correlatiematrix zegt het significantie niveau dat een bepaalde variablee wel of niet significant
correleert maar er kan zonder significantie alsnog wel een positief of negatief verband zijn. Deze
situatie kan zich voordoen bij een grote spreiding waarbij sommige cases een negatief verband
hebben maar ook cases zonder verband bijvoorbeeld.
Chow test
Bij de Chow test gaat het er om, om te kijken of er structurele verschillen zijn in de bijdrage van de
x’en op de y. Er wordt gekeken of er verschil is in verschillende groepen.
Nul hypothese = Er is geen verschil in variabelen in de verschillende groepen
Residual (overblijvend), de residual van een steekproef is het verschil tussen de steekproef en de
geschatte regressielijn.
Residu is de afwijking van de regressielijn.
De (sum of squares) is de som van de gekwadrateerde afwijkingen van het gemiddelde.
Standard Error of the Estimate’ (= de standaarddeviatie van de residuele scores)
Unristricted (onbeperkt/onbegrensd), alle niet pooled bij elkaar optellen.
Restricted (beperkt), is altijd de pooled.
Als de F-waarde kleiner is dan de waarde die de tabel aangeeft dan moet de H0 niet worden
verworpen. Een hoge F-waarde komt dus ten gusnte aan het vewerpen van de H0. Als de F waarde
hoger is dan de kritieke waarde moet H0 verworen worden.
College 6
Discrete Keuze Modellen/Dicreet Choise Model
Conjoint analysis – Design
- Stappen
o Opstellen van een theoretisch model
o Maken van vignetten
o Veldwerk
o Analyse en rapportage
- Aantal atributen beperken tot 6
- Aantal vigentten beperken tot 15 per respondent
- Vignetten zijn reële combinaties van attributen
- Statistisch Design om steekproef uit set vignetten te trekken
Bij het DKM is er geen R² maar wel een inschatting van de verklarende kracht achter het model,
percentage corret, de Nagelkerke R². Deze mag echter niet geïnterpreteerd worden als het
percentage verklaarde variantie.
Statistische Analyse
› Keuze ja/nee -> Discrete keuzemodellen
› Rangordening -> Discrete keuzemodellen
› Rapportcijfer -> Lineaire Regressie
Voorwaarden Discrete Keuze Modellen (voor Y)
- Elkaar uitsluiten (het is 0 of 1, geen andere mogelijkheid)
- Alle cases moeten aanwezig zijn, uitputtend zijn (bij koop en huur maar 1 van beide
meenemen)
- Het moet een beperkt aantal cases zijn, een eindig aantal cases
Kritiek Discreet Keuze Model
- Keuzes zijn niet altijd rationeel, dus niet alle rangorden kunnen gedaan/gemaakt worden
- Meten we alles wel? Niet elk detail is mee te nemen
- Er wordt alleen maar iets gezegd over nut of welbeining maar niet over mogelijkheden om
dit nut te bereiken (bijvoorbeeld een begrensd inkomen)
Discreet Keuze Model kijkt naar de kans dat iemand in een huur/koop woning zit. Of de kans dat
iemand een actieve VvE heeft. De bijdrage van verschillende variabelen op de kans dat iets aanwezig
is of niet.
Is de afhankelijke variabele een dichotome variabele (een variabele met slechts twee waarden), dan
gebruik je logistische regressie. Dit gaat om de berekening van de kansen op een gebeurtenis.
College 7
Y* = latente variabele, de variabele kan continu zijn, we observeren hem niet. We observeren alleen
of hij 0 of 1 is. Rangorde die in je hoofd gemaakt wordt maar die we niet observeren. We zien de
afwegingen (variabelen) niet maar de beslissing wel. Een groot deel van de variabelen die worden
gebruikt in economische modellen zijn theoretische constructies. Het is vaak moeilijk om hieraan
getalswaarden toe te kennen, aangezien ze niet direct waarneembaar zijn. Dit type variabelen wordt
latente variabelen genoemd. Andere variabelen, die wel kunnen worden waargenomen, zijn dan
nodig om te dienen als indicatoren voor de niet waarneembare variabelen.
Laten = niet direct merkbaar/meetbaar
Met logistische regressie wordt berekend hoe groot de kans is op 1 van de 2 categoreien van een
dichotome variable, op basis van onafhankelijke variabelen. Hierbij wordt aan de hand van kansen en
kansverhoudingen het verband tussen afhankelijke variabele en onafhankelijke variabelen bepaald.
Dit verband blijkt niet lineair en wordt grafisch weergegeven in een S-curve. Als je lineaire regressie
zou toepassen, kunnen de voorspelde Y-waarden groter dan 1 of kleiner dan 0 worden. Hierdoor
zouden de residuen erg groot kunnen worden en zijn deze niet normaal verdee. (Linieaire regressie
gaat voorbij de 1, dus de kan is dan groter dan 100% dat kan dus niet).
Bij lineaire regressie worden de parameters berekend met de kleinste kwadraten methode. Bij
logistische regressie is dit niet mogelijk. De parameters worden geschat volgens de methode van
maximum-likelihood. Gezocht wordt naar paramters die de verdeling van de afhankelijke variabele
(categorieën 0 en 1) het beste representeren. Discreet maken naar 0 of 1 door naar boven of naar
beneden af te ronden.
Bij het DCM wordt niet geschat (bij linieare regressie wel), wel wordt er gekeken of hij de case in de 0
of in de 1 categorie valt. De tabel Dependent Variable Encoding toont welke waarde van afhankelijke
variabele in het model de categorie 0 respectievelijk 1 heeft. De voorspelde kansen P (en logit)
hebben dus betrekking op categorie 1.
Blz 222 e.v. Basishandboek SPSS 17 voor uitleg en interpretatie Logistische regressie.
De intercept (constante) en alle onafhankelijke variabelen moetwn orden opgenomen in de
logistische regressievergelijking. Ook als ze niet significant zijn.
De Wald Statistic (B/S.E.) is een indicator voor het relatieve belang van elke onafhankelijke varibale
voor de voorspelling. De variabele met de hoogste score is het belangrijkst.
De coefficient Exp(B) is de exponentiële B-coefficient. Dit geeft de invloed weer van de
onafhankelijke variable op de kansverhouiding. Deze laat zich alleen goed interpreteren voor
categorale variabelen.
Om in te kunnen schatten of het model (de classification table) goed voorspeld, of dit een hoog
percentage is, moet je de classification table van block 0 (kale model) vergelijken met de
classification table van Block 1. Op basis van toeval (kale model) werd 57% goed voorspeld. Het
logistische regressiemodel zorgt (in het voorbeeld) dus voor een verbetering van 82%-57%=24%.
Logistic distribution – logit model (natuurlijek logaritmen van de odds/kansen/logt (synoniemen)).
Normal distriubtion – probit model (verklaarende variabele moet continu zijn)
Positief effect, omgekeerde s-curve verbeeld een negatief effect.
Verwachte nutswaarde
Uji = a + B1*x1 + B2*x2 + Epsilon
U =Nut
i = persoon
j = object
Begrippen
Regressie
Met regressie en variantie-analyse analyseren we experimenten en waarnemingen om te weten te
komen of en in welke mate een bepaalde eigenschap door een andere eigenschap wordt verklaard of
voorspeld.
Sum of Squares
De kwadratensom (sum of squares) is de som van de gekwadrateerde afwijkingen van het
gemiddelde. De kwadratensom gaat uit van een enkele observatie (x) uit een steekproef die
vergeleken wordt met de gemiddelde waarde van die steekproef (xgem.). Het verschil tussen deze
twee waarden wordt gekwadrateerd. Dit gebeurt voor alle gevonden waarden voor x binnen de
steekproef. De som van al deze waarden vormt de kwadratensom.
De residuen vertegenwoordigen het niet door het regressiemodel verklaarde deel van de totale
variatie in de waarnemingen en de verschillen, ook wel ‘toeval’ genoemd.. Regressie staat voor het
wel door het model verklaarde deel van de totale variatie.
Door de kwadratensom door het aantal metingen -1 (n-1) te delen, bereken je de variantie binnen
een steekproef. De standaarddeviatie kun je berekenen door de wortel te nemen van de variantie.
Variantie
De variantie is in de statistiek een maat voor de spreiding van de waarden. Onder de spreiding van de
waarden verstaat men de mate waarin de waarden onderling verschillen. Hoe groter de variantie,
hoe meer de waarden onderling verschillen, en dus ook hoe meer de waarden van het "gemiddelde"
afwijken. De variantie meet min of meer het gemiddelde van het kwadraat van deze afwijkingen.
F-waarde
Als maatstaf voor de onderlinge verhouding tussen verklaarde en niet-verklaarde variantie gebruiken
we de F-statistiek of F-ratio. De totale variantie is per definitie gelijk aan 1. De verklaarde variantie
wordt uitgedrukt door de determinatiecoëfficiënt (R2). De niet-verklaarde variantie is dus 1 - R2. De Fwaarde is de verklaringskracht van alle variabelen tezamen. Hoge waarde van F betekent eerder kans
op significante uitkomsten.
De Anova F geeft de prestatie van je model weer en de Chow- F geeft je de mogelijkheid om
significantie te beaplen.
Vrijheidsgraden
Het aantal vrijheidsgraden (Degrees of Freedom) is gelijk aan het aantal waarnemingen min 1 Het
aantal vrijheidsgraden van Regression is gelijk aan het aantal onafhankelijke variabelen.
Het aantal vrijheidsgraden van ResidualI is gelijk aan het aantal cases minus het aantal onafhankelijke
variabelen minus 1.
R²
De verklaarde variantie (R²) is dat percentage van de totale variantie in de afhankelijke variabele dat
verklaard wordt door het toegepaste model.
De Adjusted R² houdt rekening met het toevoegen van extra variabelen en met hoeveel de df zijn
agenomen. Hoeveel is de verkoopkracht toegenomen.
R is de correlatie tussen de (op basis van de regressieformule) verwachte waarden en de
waargenomen waarden. Deze is altijd positief.
De adjusted R² past aan voor het aantal variabelen dat opgenomen zit in je regressie. De 'gewone' R²
doet dit niet. Hiermee is de gewone R² dus altijd groter of gelijk aan de aangepaste R². Je kan het
beste de aangepaste R² nemen, omdat je zoveel mogelijk wilt verklaren aan de hand van zo min
mogelijk variabelen.
Selectie van variabelen bij meervoudige regressie
B & Beta’s
Als je kijkt naar het volledige model, dan geeft de B-waarde ons informatie over de relatie tussen
variabele Y en elke predictor. Ze geven weer in welke mate de predictor de uitkomsten beïnvloedt,
onder de voorwaarde dat alle andere predictoren gelijk worden gehouden.
De bèta’s zijn de gestandaardiseerde versies van de B’s. Deze zijn vaak makkelijker te interpreteren,
(omdat ze niet afhankelijk zijn van de meetschaal van de variabelen). Alle gestandaardiseerde bèta’s
zijn gemeten in standaarddeviaties en zijn dus direct met elkaar te vergelijken. Hierdoor kan er een
beter inzicht verkregen worden over hoe ‘belangrijk’ een predictor is in het model.
Covariantie en Correlatie
Bij correlaties en covarianties gaat het dus over relaties tussen twee waarden. We kunnen met de
correlatie en de covariantie alleen maar zeggen dat er een relatie is, vervolgens moeten we zelf
nadenken over wat de oorzaak kan zijn voor die relatie.
Waarbij de correlatie iets zegt over de mate waarin de ene variabele de andere beïnvloedt (regen
veroorzaakt paraplus). Werk veroorzaakt inkomen. Terwijl de covariantie iets zegt over de kracht van
de relatie.
De covariantie is in de statistiek en kansrekening een parameter die bij twee toevalsvariabelen
aangeeft in welke mate de beide toevalsvariabelen (lineair) met elkaar samenhangen. De covariantie
geeft aan of en indirect in welke mate de waarden van de ene variabele toe- dan wel afnemen bij
toenemende waarden van de andere.
Een vergelijkbare parameter is de correlatiecoëfficiënt, die aangeeft in hoeverre sprake is van lineaire
samenhang en die direct de sterkte van de samenhang aangeeft. De correlatiecoëfficiënt is
gebaseerd op de covariantie, maar in tegenstelling tot de correlatiecoëfficiënt is de covariantie niet
onafhankelijk van de schaal, zodat aan de grootte van de covariantie niet direct de sterkte van de
samenhang afgelezen kan worden.
Multicollineariteit
Bij meervoudige regressie kan multicollineariteit optreden wanneer de onafhankelijke variabelen
onderling sterk correleren: het effect op de afhankelijke variabele Y wordt dan arbitrair. Immers,
beide onafhankelijke variabelen 'verklaren' vrijwel dezelfde variatie in Y. Er is geen absolute regel
wanneer multicollineariteit 'ernstig' wordt. De oplossing is om één van de twee onderling
correlerende onafhankelijke variabelen uit de analyse te verwijderen.
Gestandaardiseerde regressiecoefficienten
De hoogte van de regressiecoëfficiënten die tot nu toe zijn uitgerekend, was steeds mede afhankelijk
van de absolute waarden van de oorspronkelijke gegevens. Bij multipele regressie zijn hierdoor de
parameters niet rechtstreeks vergelijkbaar. Om de parameters vergelijkbaar te maken, kunnen we de
variabelen in de regressieanalyse standaardiseren (het gemiddelde van iedere variabele wordt nul en
de standaarddeviatie één). De resulterende gestandaardiseerde regressiecoëfficiënten worden door
SPSS automatisch berekend: dit zijn de bèta's uit de tabel. De bèta's kunnen direct met elkaar
vergeleken worden (de constante is bij gestandaardiseerde regressie altijd nul).
Gestandaardiseerd = naar vaste maatstaf, gecorrigeerd voor verschillen in samenstelling en grootte
Associatiemaat (effect maat)
Getal, dat de sterkte en de richting (positief of negatief) van de associatie tussen twee variabelen
aangeeft.
Transformeren
Log-transformatie wordt toegepast voor het 'rechttrekken' van data die rechtsscheve verdeling
hebben: door het logaritmiseren nemen hoge uitkomsten sterker af dan lage. Voorbeeld. De
waarden van x0 in de tabel nemen exponentieel toe (1, 2, 4,...) en de log-getransformeerde waarden,
xt = log(x0) nemen lineair toe: hun verschillen zijn alle gelijk (0.30).
Interactie
Een interactie-effect is een verschil van een verschil of een effect op een effect. Het idee voor
interactie en hoofdeffecten is ontstaan vanuit ANOVA, hetgeen de Analysis of Variance methode is.
Hierover zal meer uitleg gegeven worden op een later moment tijdens de studie. Een hoofdeffect is
een effect van een onafhankelijk variabel op een afhankelijk variabel dat geen interactie heeft met
andere onafhankelijke variabelen. In de meeste gevallen is er slechts een hoofdeffect voor elk
afzonderlijk onafhankelijk variabel binnen een onderzoek. Interactie geschiedt wanneer het effect
van een onafhankelijk variabel op een afhankelijk variabel veranderd naar aanleiding van het effect
van een ander onafhankelijk variabel. Wanneer we naar een hoofdeffect kijken en de hypothese
kunnen maken dat het hoofdeffect kan veranderen als een ander element toegevoegd zou worden
aan het onderzoek, dan weten we dat er een mogelijkheid van interactie is. Om te kunnen bepalen of
er interactie is, moet er eerst gekeken worden naar de afzonderlijke onafhankelijke variabelen (hier
wordt naar verwezen als ‘simple main effects’) waarna ze dan kunnen worden gecombineerd in een
afzonderlijke test. Een simpele manier om interacties of hoofdeffecten te ontdekken is door een ‘line
graph’ (van de gemiddelden) te maken. Hoe minder parallel de twee lijnen zijn, hoe meer kans er is
dat er sprake is van een interactie. Als de lijnen parallel lopen, dan is de bovenste lijn veelal het
hoofdeffect. In dit geval is er geen interactie.
Kansdichtheid (density function)
De kansdichtheid beschrijft mathematisch of grafisch de kansverdeling van een continue
kansvariabele. De normale verdeling is een begrip uit de kansrekening. Deze verdeling vindt onder
meer toepassing in de statistiek. Het is een continue kansverdeling. De bijbehorende kansdichtheid is
hoog in het midden, en wordt naar lage en hoge waarden steeds kleiner zonder ooit echt nul te
worden. Door de vorm wordt deze kansdichtheid o ok wel klokkromme genoemd.
Bij een disrecte variabele kan de kansfunctie beschouwd
worden als de weergave van de kansen uite het
kansexperiment. De kans bij een continue variabele op
een bepaalde gebeurtenis wordt gedefineerd als de
kansdichtheid (fx).
Overig
Als de constante niet significant is betekent dat de intercept net ver van de nul afwijkt. Wel moet
deze altijd worden opgenomen in de formule.
Dummy variable Trap – do include k-1 Dummies in
Om te kijken of je dummies goed zijn kun je een correlatiematrix maken om te chekcen of er geen
verband is tussen de verschillende dummies.
Regressie kent twee doelen
- Effect bepalen (doormiddel van je richtingscoefficient)
- Voorspellen
Duimregel
T waarde = B /S.E.
T waarde => 1,64 = significant
Standaard error of the estimate = gemiddelde grootte van een residu
De standaardfout is in de statistiek de benaming voor de standaardafwijking van het
steekproefgemiddelde. De term is afkomstig uit de foutenleer om de nauwkeurigheid aan te geven
van een berekend gemiddelde. De standaardfout is in principe kleiner naarmate de steekproef groter
is.
Foutterm/Epsilon
De verticale afwijkingen van ieder punt tot de regressielijn vormen de fouttermen (error terms) of
residuen. Alleen wanneer de correlatie perfect is (r = 1), liggen alle punten precies op de lijn.
De rechte die het verband tussen X en Y het beste weergeeft is die lijn, waarbij de fouttermen
minimaal zijn. Omdat positieve en negatieve afwijkingen tegen elkaar weg zouden vallen, worden de
fouttermen gekwadrateerd. De methode voor de berekening van de regressielijn wordt daarom ook
wel de methode van de kleinste kwadraten genoemd.
Log-Linear, Logit, and Probit Models
Overview
Log-linear, logit, and probit models are special cases of general linear models (GLM, which includes
regression and ANOVA models) to better treat the case of dichotomous and categorical variables.
Log-linear analysis deals with association of categorical or grouped data, looking at all levels of
possible main and interaction effects, comparing this saturated model with reduced models, with the
primary purpose being to find the most parsimonious model which can account for cell frequencies
in a table. That is, log-linear analysis is a non-dependent procedure for accounting for the distribution
of cases in a crosstabulation of categorical variables. Log-linear analysis is a type of multi-way
frequency analysis (MFA) and sometimes log-linear analysis is labeled MFA.
Logit modeling is similar to log-linear modeling, but explains one or more dependent categorical
variables. When there is a dependent categorical variable, however, binary and multinomial logistic
regression are more commonly used. Logistic regression is also used when the independents are
continuous (forcing continuous variables into categories attenuates correlation and is not
recommended).
Conditional logit handles matched-pairs and panel data, and data for analyzing choices.
Probit is a variant of logit modeling based on different data assumptions. Logit is the more commonly
used, based on the assumption of equal categories. Probit may be the more appropriate choice when
the categories are assumed to reflect an underlying normal distribution of the dependent variable,
even if there are just two categories.
Log-linear models were developed to analyze the conditional relationship of two or more categorical
values. Log-linear analysis is different from logistic regression in four ways:
The expected distribution of the categorical variables is Poisson, not binomial or multinomial.
The link function is the natural log of the dependent, not the logit of the dependent as in logistic
regression (the natural log of the odds, which is the probability the dependent equals a given value
(usually 1, indicating an event has occurred or a trait is present) divided by the probability it does
not).
Predictions are estimates of the cell counts in a contingency table, not the logit of y.
Logit and probit extend the log-linear model to allow a mixture of categorical and continuous
independent variables to predict one or more categorical dependent variables. Both logit and probit
usually lead to the same conclusions for the same data. Logit regression yields results equivalent to
logistic regression, but with different output options. Many problems can be handled by either logit
or logistic regression, though the latter has become more popular among social scientists.
Note that generalized linear models, discussed separately, represent a more recent set of procedures
which can also analyze categorical dependents and independents, and in this sense represent a
different method of implementing log-linear, logit, probit, Poisson, and other models. See also the
separate section on ordinal regression, which can also implement logit, probit, and other models. See
also the separate section on probit response models, which additionally supports logit response
models.
Traditional approaches to categorical data relied on chi-square and other measures of significance to
establish if a relationship existed in a table, then employed any of a wide variety of measures of
association to come up with a number, usually between 0 and 1, indicating how strong the
relationship was. Loglinear methods are similar in function but have the advantage of making it far
easier to analyze multi-way tables (more than two categorical variables) and to understand just
which values of which variables and which interaction effects are contributing the most to the
relationship. For simple two-variable tables, traditional approaches may still be preferred, but for
multivariate analysis of three or more categorical variables, log-linear analysis is preferred.
Loglinear methods also differ from multiple regression in substituting maximum likelihood estimation
of a link function of the dependent for regression's use of least squares estimation of the dependent
itself. The link function transforms the dependent variable and it is this transform, not the raw
variable, which is linearly related to the model (the terms on the right-hand side of the equation).
The link function used in log-linear analysis is the log of the dependent, y. The function used in logit is
the natural log of the odds ratio. The function used in probit is the inverse of the standard normal
cumulative distribution function.
There are several possible purposes for undertaking log-linear modeling, the primary being to
determine the most parsimonious model which is not significantly different from the saturated
model, which is a model that fully but trivially accounts for the cell frequencies of a table. Log-linear
analysis is used to determine if variables are related, to predict the expected frequencies (table cell
values) of a dependent variable, the understand the relative importance of different independent
variables in predicting a dependent, and to confirm models using a goodness of fit test (the likelihood
ratio). Residual analysis can also determine where the model is working best and worst. Often
researchers will use hierarchical loglinear analysis (in SPSS, the Model Selection option under
Loglinear) for exploratory modeling, then use general loglinear analysis for confirmatory modeling.
SPSS supports these related procedures, among others:
Kaplan – Meier Survival Analysis & Cox Regression
Survival analyse
Survival analyse wordt gebruikt voor data die informatie geeft over de tijd tot het optreden van een
bepaald event. Met tijd wordt in deze bedoeld het aantal jaren, maanden of weken vanaf de start
van de follow-up van een patient tot aan het optreden van een event. Het event kan overlijden zijn
(vandaar de naam survival analyse), maar ook een relapse, herstel of een ander helder gedefinieerd
eindpunt. In het algemeen wordt er bij survival analyse vanuit gegaan dat er maar één type risico is
en dat een event per individu maar hoogstens één keer kan optreden.
Bij het meten van tijd-tot-event data is vaak sprake van gecensureerde waarnemingen. Hierbij heb je
iets aan informatie over de 'survival time' van een patient, maar weet je niet precies hoe lang de tijdtot-event is. Een voorbeeld. Stel dat in een studie patienten over een periode van twaalf weken
gevolgd worden. Censurering (Eng.: censoring) kan op drie manieren optreden:
Een patient is gevolgd vanaf het begin van de studie tot aan het eind van de 12 weekse studie
periode. Op dat moment heeft de patient het event nog niet gekregen. We weten nu alleen dat de
tijd-tot-event van deze persoon langer is dan 12 weken.
Een patient trekt zich terug uit de studie na 6 weken, dus voor het eind van de studieperiode. Van
deze persoon weten we alleen dat de tijd-tot event langer is dan 6 weken. Of een patient start aan
de studie maar raakt na het laatste contact op 8 weken 'lost to follow up'. Ook van deze patient
weten we alleen dat de eventvrije periode langer is dan 8 weken.
Een patient kan niet tot het einde gevolgd worden doordat hij een ander type event krijgt.
Bijvoorbeeld: we onderzoeken tijd tot relapse na operatie, maar een patient overlijdt tijdens de
studie zonder een relapse gehad te hebben.
Wanneer gebruik ik een Kaplan Meier analyse?
Om de tijd tot het optreden van het event voor de gehele steekproef te kwantificeren, wordt er vaak
een Kaplan Meier analyse gebruikt. De Kaplan Meier analyse is een niet-parametrische aanpak. Dat
wil zeggen dat er geen aanname gedaan wordt ten aanzien van het soort verdeling (normaal, gamma
etc.) van de event tijden. Toch zitten er wel een paar aannames achter deze methode:
De prognose van patienten die vroeg of laat zijn geïncludeerd in de studie is gelijk.
Patienten die gecensureerd zijn op een bepaald tijdstip hebben dezelfde prognose als patienten die
op datzelfde tijdstip wel in de studie zijn gebleven (en op dat moment nog geen event hebben
gehad). Er wordt niet aan deze aanname voldaan als bijvoorbeeld personen met een grote kans op
een event vlak voordat het event optreedt de studie verlaten. De tijdstippen waarop de events
optreden zijn exact bekend. Patienten worden vanaf het begin van de onderzochte periode gevolgd.
Als er bijvoorbeeld pas 10 dagen na interventie gestart wordt met het volgen van survival stutus van
patienten, dan zullen patienten die in de eerste 10 dagen reeds overleden zijn niet vertegenwoordigd
zijn in de studie. Een Kaplan-Meier analyse geeft dan geen goede inschatting van de echte survival
tijd. Survival modellen die rekening houden met dit verschijnsel worden late entry survival modellen
genoemd.
De basis gedachte achter de Kaplan Meier procedure is het opdelen van de tijdsschaal. Op ieder
moment dat er bij één of meerdere patienten een event optreedt, wordt de kans daarop geschat
door het aantal events op dat moment te delen door het aantal personen dat op dat moment nog in
de studie zit (i.e. niet eerder al een event heeft gehad of gecensureerd is). De survival functie (of
cumulatieve proportie van 'survivors') combineert deze schattingen over alle tijdstippen. Op deze
manier wordt het resultaat minimaal beïnvloed door patienten die halverwege de rit gecensureerd
raken. Een Kaplan-Meier analyse resulteert in een 'life table' en een survival curve.
De volgende life table en survival curve laten bijvoorbeeld zien wat de verwachte overlevingskans is
van patienten die een dotterbehandeling hebben ondergaan. Je ziet in de tweede kolom ("Time") van
de life table dat er op dag 4 en dag 6 patienten gecensureerd raakten en dat er op dag 0 vijf events
waren, op dag 1 een event, op dag 5 twee events en dag 7 een event optrad. Op de dagen dat er een
event optrad, is de cumulatieve survival berekend. In de survival curve zie je de geschatte survival
functie over de eerste 200 dagen na interventie. Na 200 dagen wordt de kans op overleven geschat
op ongeveer 92%.
Hoe test ik of Kaplan Meier survival curves van elkaar verschillen?
We kunnen de curves ook apart schatten en vergelijken voor twee (of meer) subgroepen in onze
data. Om te testen of de Kaplan Meier curves van 2 (of meer) groepen significant van elkaar
verschillen, wordt vaak de log-rank test gebruikt. Hierbij is de nulhypothese dat de curves niet van
elkaar verschillen. De test vergelijkt de geobserveerde verschillen tussen de survival curves met
verschillen die zouden kunnen ontstaan als er geen verschil is tussen de groepen. In het volgende
voorbeeld concluderen we bijvoorbeeld dat het verschil tussen treatment A en treatment B
significant is:
Cox Regression
Met Cox-regressie kun je in het algemeen afleiden welke variabelen invloed hebben, en hoe sterk die
invloed is, op de 'relative hazard' van een gebeurtenis (de toename van de kans op het optreden van
een gebeurtenis in het onmiddellijk volgende tijdvak/stip.) Dit is een statistisch model (Cox 1972) om
een overlevingscurve te berekenen die rekening houdt met de invloed van co-variabelen en waarbij
niet elke persoon noodzakelijk evenlang aan het onderzoek heeft deelgenomen.
Download