De Nederlander bestaat niet

advertisement
De Nederlander bestaat niet
Abdel Abdellaoui
Netherlands Twin Register, VU University Amsterdam
[email protected]
Principal Component Analysis (PCA)
Voor we een complex systeem met veel variabelen (SNPs
in dit geval) op gedetailleerd niveau kunnen begrijpen,
moeten de grote lijnen begrepen worden.
Een PCA vat de patronen
samen die de meeste
variatie verklaren in PCs.
PCs op genoom-wijde
SNPs reflecteren vaak
genetische afkomst
(ancestry).



2
Genetische variatie binnen Nederland
~500 000 SNPs gemeten
in ~7500 NTR en NESDA
individuen.

3
PC1, PC2, and PC3

De kleuren van de stippen reflecteren de gemiddelde PC
waarde per postcode (gebaseerd op de huidige woonplaats
van 4 441 ongerelateerde individuen).
4
PC1 (“Noord-Zuid”; N=4,441)



5
Correleert .66 met de Europese
Noord-Zuid PC.
Correlatie tussen ouders = .56
Correleert significant met
homozygositeit: serial founder
effect?
Serial founder effect: homozygosity increases as you move
away from Addis Ababa, Ethopia
6
Lichaamslengte


In het noorden van NL zijn mensen gemiddeld
langer dan in het zuiden. Ook in Europa: mensen uit
Noord-Europa zijn langer dan mensen in ZuidEuropa.
Lichaamslengte correleert nauwelijks met de NoordZuid gradient gebaseerd op huidige woonplaats:


Lichaamslengte correleert echter heel significant
met de Noord-Zuid PC:


mannen: r = .036, p = .232; vrouwen: r = .050, p = .020
mannen: r = .142, p < .001; vrouwen: r = .153, p < .001
Dit toont aan dat de PC een betere maat is voor
genetische afkomst dan de geografische locatie, en
dat de verschillen in lichaamslengte verklaard
kunnen worden door genetische factoren
7
PC2 (“Oost-West”, N=4,441)
8
PC3 (“Middle-Band”; N=4,441)
Bijbelgordel?
SGP stemmers
9
PC3 (N=4,441)
10
Natuurlijke selectie vs genetic drift


Hoe langer en sterker twee (sub)populaties van elkaar geisoleerd
zijn, hoe groter de verschillen in allel frequenties worden
(grotendeels door random fluctuaties: genetic drift).
Als er in een van de populaties een evolutionaire selectiedruk
op een SNP is, worden de allel frequentie verschillen voor deze
SNP nog groter
11
Natuurlijke selectie vs genetic drift



De 1000 individuen met de laagste PC score werden vergeleken met de 1000
individuen met de hoogste PC score.
Met de 500 000 SNPs wordt een schatting gemaakt van de verwachte allel
frequentie verschillen onder genetic drift.
Vervolgens wordt voor elke SNP berekend of de allel frequentie verschillen
significant groter zijn dan onder genetic drift (oftewel of ze onder selectiedruk
lijden).
12

Natuurlijke selectie vs genetic drift
499,849 SNPs in totaal (51.4% binnen genen):




PC1 (Noord vs Zuid): 273 significante SNPs (59% binnen 88 genen)
PC2 (Oost vs West): 172 significante SNPs (58.1% binnen 55 genen)
PC3 (Middle-Band vs de rest): 100 significante SNPs (75% binnen
41 genen)
Veel van deze genen hebben in eerdere studies ook signalen
van selectie laten zien binnen Europa:

13
HERC2 (PC1), LCT (PC1), CADPS (PC1), IRF1 (PC1), SLC44A5
(PC1), R3HDM1 (PC1), ACOXL (PC3), and BTBD9 (PC3)
HERC2 & oogkleur




Het sterkste effect werd geobserveerd voor PC1 (Noord vs Zuid)
voor een SNP in de HERC2 gene (rs8039195). Deze SNP is sterk
geassocieerd met oogkleur in vorige GWASs (p = 7.8 × 10-112 in de
huidige dataset).
rs8039195 (HERC2)
Population
CC
CT
TT
De analyse werd herhaald in de
Finnish
.0
6.5
93.5
1000 Genomes sequence dataset
Northern Dutch
.4
13.1
86.5
1.2
21.4
77.4
voor 3495 SNPs in en rond het HERC2 British
Southern Dutch
2.3
23.9
73.7
.0
50.0
50.0
gen, door Noord-Europese populaties Iberian
Toscan
16.8
42.1
41.1
(Brits en Fins) te vergelijken met
Zuid-Europese populaties (Spaans en Italiaans).
Van de SNPs die we in de NLse populatie gemeten hebben, had
rs8039195 het sterkste signaal.
Van alle 3495 SNPs, had rs12913832 het sterkste signaal, een SNP
die vlakbij rs8039195 ligt en daardoor vaak samen overgeërfd
wordt.
14
15
Natuurlijke selectie vs genetic drift

Er waren significante signalen in genen die een belangrijke
rol in het brein spelen:






SLC6A4 (PC3; a.k.a. SERT, encodes the serotonin transporter)
GRIN2A (PC1; encodes a subunit for the NMDA receptor)
BDNF (PC2; encodes the brain-derived neurotrophic factor)
GRM7 (PC1; encodes metabotropic glutamate receptor)
AUTS2 (PC3; autism susceptibility candidate 2)
De top 11 biologische functies waren gerelateerd aan het
brein (p ≤ 1.26 × 10-4) met als meest significante functie
neurotransmission of nervous tissue (p = 2.2 × 10-6).
16
Natuurlijke selectie vs genetic drift

Een aantal andere opvallende genen:



17
FTO (PC1; Noord-Zuid): is sterk geassocieerd met BMI en overgewicht.
LCT (PC1 ; Noord-Zuid): beinvloedt of je als volwassene lactase kan
verteren
HCP5 (HLA Complex P5 gene) uit de MHC regio. Komt in meerdere PCs
voor (PC1 & PC2), and speelt een rol in het immune system.
Sterke variatie in genen uit het HLA complex wordt in veel menselijke
populaties waargenomen.
Andere genen die een rol in het immuunsysteem spelen en significante
signalen van selectiedruk lieten zien in deze en andere studies zijn:
IRF1 (PC1), ACE (PC1), LRRC4C (PC2), PLCL1 (PC3), and HSPD1 (PC3).
Runs of homozygosity (ROHs)
18
Runs of homozygosity (ROHs)
Als je voor een SNP hetzelfde allel erft van je vader als van je moeder, ben
je voor die SNP homozygoot.
Een groep opeenvolgende SNPs homozygoot zijn wordt ook wel een run
of homozygosity (ROH) genoemd:




A
A
a
A
a
a
Van de moeder
A
A
a
A
a
a
A
A
a
A
a
a
Van de vader
a
A
A
A
A
a
ROH
Geen ROH
Hoe sterker de ouders gerelateerd zijn, hoe langer de ROHs. Lange
ROHs kunnen schadelijke effecten hebben, doordat de kans op
homozygote schadelijke recessieve allelen groter wordt.
Het effect van endogamie op de gezondheid van het nageslacht wordt
bestudeerd door de proportie van het genoom dat uit ROHs bestaat te
analyseren (= Froh).
19
Autozygosity measured by Froh
20
Religie in Nederland


Nederland heeft een lange geschiedenis (>400 jaar) van sociale
segregatie en assortative mating op basis van religie.
 82% van de koppels hadden dezelfde religie (of gebrek aan religie)
Hierdoor zijn religieuze ouderparen wellicht sterker aan elkaar
gerelateerd
1849
21
Current NTR
dataset (N=25,450)
Genotyped
dataset (N=6,367)
Religie en Froh in Nederland
1849


Current NTR
dataset (N=25,450)
Genotyped
dataset (N=6,367)
We hebben getest of religieuze affiliatie geassocieerd is met Froh
(N = 4,022).
De analyses zijn gecorrigeerd voor de drie NL PCs, en of de
individuen komen uit een stad met >100k inwoners.
22
ROHs en Religie

Niet-religieuzen hadden een significant lagere Froh dan
religieuzen:
Included in model
Main test
Two religious groups and non religious
group (as two dummy variables)
Not religious vs. Protestant
Post-hoc tests Not religious vs. Catholic
Catholic vs. Protestant
23
p-value
Empirical p
(100k permutations)
5.80 × 10-5
7 × 10-5
1.36 × 10-3
1 × 10-3
3.67 × 10-5
8 × 10-5
.766
.770
Katholiek
NL in
1849
24
Protestants
NL
vandaag
Niet-religieus
Depressie en homozygositeit




Religiositeit is eerder in verband gebracht met psychiatrische
aandoeningen.
Ook in onze dataset zien we dat religieuzen minder vaak
depressief waren:
 ß = -0.84, p < 10-16
Het lijkt erop dat mensen met meer homozygoot DNA een lagere
kans op depressie hebben (p = .04).
Als er in de analyse rekening gehouden wordt met religie,
verdwijnt deze associatie (p = .138).
25


Hoger opgeleiden zijn minder homozygoot dan lager opgeleiden.
Vermenging van verschillende genetische achtergronden komt vaker
voor bij hoger opgeleiden:



Hoger opgeleiden migreren vaker en verder dan lager opgeleiden.
Hoger opgeleiden krijgen vaker kinderen met andere hoger opgeleide
Nederlanders.
Homozygositeit is sterker geassocieerd met het opleidingsniveau van de
ouders dan met die van de kinderen.
Korte migratie-afstand
Lange migratie-afstand
26
Lager
opgeleide
vaders
Hoger
opgeleide
vaders

Genetische achtergrond is minder sterk met geografie
geassocieerd in kinderen met hoger opgeleide en nietreligieuze ouders.
27
Conclusies



Zelfs binnen relatief homogene
populaties kunnen we systematische
genetische verschillen in afkomst
detecteren. Deze verschillen kunnen
samenhangen met erfelijke fenotypes.
Verschillen in homozygositeit tussen
sociale groepen laten zien dat het gedrag
van onze voorouders de genetische
populatiestructuur subtiel kan
beinvloeden.
Het is belangrijk onderzoek
te doen naar de invloed van
gedrag van onze (voor)ouders
op de genetische opmaak van
de huidige populatie.
28
Dank!
Dorret I. Boomsma, Brenda W.J.H. Penninx, Eco J. de Geus , Jouke-Jan Hottenga, Gonneke Willemsen,
Toos van Beijsterveldt, Meike Bartels, Michel G. Nivard, Dirk J.A. Smit, Conor Dolan, Peter de Knijff,
Xiangjun Xiao, Paul Scheet, Andrew Brooks, Erik A. Ehli, Yueshan Hu, Gareth E. Davies, James J.
Hudziak, Patrick F. Sullivan, en natuurlijk alle deelnemers van de NTR en NESDA studies!
29
[email protected]
Ancestry-informative PCs replicated in nextgeneration sequencing dataset GoNL
30
Identifying Dutch with non-European ancestry


PCs were calculated using a set of 1014 unrelated individuals from 1000
Genomes, and were then projected on ~7500 Dutch individuals.
258 individuals were excluded. Parental birth place was available for 132 of
these individuals, of which 55.3% had at least one parent born outside of
the Netherlands (as opposed to 4% of the rest of the individuals).
31
Identifying Dutch with non-European ancestry


PCs were calculated using a set of 1014 unrelated individuals from 1000
Genomes, and were then projected on ~7500 Dutch individuals.
258 individuals were excluded. Parental birth place was available for 132 of
these individuals, of which 55.3% had at least one parent born outside of
the Netherlands (as opposed to 4% of the rest of the individuals).
32
Identifying Dutch with non-European ancestry


PCs were calculated using a set of 1014 unrelated individuals from 1000
Genomes, and were then projected on ~7500 Dutch individuals.
258 individuals were excluded. Parental birth place was available for 132 of
these individuals, of which 55.3% had at least one parent born outside of
the Netherlands (as opposed to 4% of the rest of the individuals).
33
Why exclude long-range LD regions?

Elevated levels of LD can be
overrepresented in PCs,
deluding the genome-wide
patterns that reflect the subtle
ancestry differences.
GWAS on PC: PC reflects variation at chr8
inversion
34
Why exclude long-range LD regions?

Elevated levels of LD can be
overrepresented in PCs,
deluding the genome-wide
patterns that reflect the subtle
ancestry differences.
GWAS on PC: PC reflects variation at
MHC region (chr 6)
35
Why also prune for LD?
“Strong LD at a given locus which affects many markers could
result in an axis of variation which corresponds to genetic
variation specifically at that locus, rather than to genome-wide
ancestry. Nonetheless, we recommend inferring population
structure using all markers. This recommendation is based on
an analysis of HapMap data which suggests that these potential
problems will not affect results in practice.”
36
Effect of minimizing LD

PCA was conducted on three sets of SNPs varying in LD on 1000 Genomes
populations and Dutch subjects separately

PCs were identical for 1000 Genomes across the 3 SNP sets. For the Dutch dataset,
there were big differences:
SNP set used for PCA
Nr. of SNPs
for PCA
Correlations between PCs and
North-South gradient (N = 3363)
Correlations between PCs and
East-West gradient (N = 3363)
Pearson
Correlation
Difference test
Pearson
Correlation
Difference test
λ for GWASs on
height including
the North-South
PC as a covariate
SNP set 1: All SNPs that passed QC
499,849
rPC2,↕= .428
-
rPC8,↔= .205
-
1.03937
SNP set 2: SNP set 1 without the
24 long-range LD regions
487,672
rPC1,↕= .574
p = 3.9*10-46
(versus SNP set 1)
rPC3,↔= .260
p = 4.2*10-10
(versus SNP set 1)
1.03092
SNP set 3: SNP set 2 with genomewide LD based SNP pruning
130,248
rPC1,↕=.588
p = 1.9*10-4
(versus SNP set 2)
rPC2,↔=.369
p = 3.5*10-21
(versus SNP set 2)
1.02961

Conclusion: minimizing LD is necessary in order to capture ancestry in more
homogeneous datasets (i.e., datasets with subjects from a single population)
37
Association between education and ROHs



When ancestry correlates with geography, this means that higher
educated parents are more likely to choose a mate with a different
ancestral background.
The association between parental educational attainment and Froh is
fully mediated by parental birthplace distance (i.e., when including
parental birthplace distance, association between Froh and parental
education disappears).
This was tested with the Sobel test for mediation (paternal
education: pmediation = 2.4 × 10-4; maternal education: pmediation = 2.3 ×
10-4)
38
PC1 & PC2 N=4,441
39
PC1 & PC3 N=4,441
40
Download