De Nederlander bestaat niet Abdel Abdellaoui Netherlands Twin Register, VU University Amsterdam [email protected] Principal Component Analysis (PCA) Voor we een complex systeem met veel variabelen (SNPs in dit geval) op gedetailleerd niveau kunnen begrijpen, moeten de grote lijnen begrepen worden. Een PCA vat de patronen samen die de meeste variatie verklaren in PCs. PCs op genoom-wijde SNPs reflecteren vaak genetische afkomst (ancestry). 2 Genetische variatie binnen Nederland ~500 000 SNPs gemeten in ~7500 NTR en NESDA individuen. 3 PC1, PC2, and PC3 De kleuren van de stippen reflecteren de gemiddelde PC waarde per postcode (gebaseerd op de huidige woonplaats van 4 441 ongerelateerde individuen). 4 PC1 (“Noord-Zuid”; N=4,441) 5 Correleert .66 met de Europese Noord-Zuid PC. Correlatie tussen ouders = .56 Correleert significant met homozygositeit: serial founder effect? Serial founder effect: homozygosity increases as you move away from Addis Ababa, Ethopia 6 Lichaamslengte In het noorden van NL zijn mensen gemiddeld langer dan in het zuiden. Ook in Europa: mensen uit Noord-Europa zijn langer dan mensen in ZuidEuropa. Lichaamslengte correleert nauwelijks met de NoordZuid gradient gebaseerd op huidige woonplaats: Lichaamslengte correleert echter heel significant met de Noord-Zuid PC: mannen: r = .036, p = .232; vrouwen: r = .050, p = .020 mannen: r = .142, p < .001; vrouwen: r = .153, p < .001 Dit toont aan dat de PC een betere maat is voor genetische afkomst dan de geografische locatie, en dat de verschillen in lichaamslengte verklaard kunnen worden door genetische factoren 7 PC2 (“Oost-West”, N=4,441) 8 PC3 (“Middle-Band”; N=4,441) Bijbelgordel? SGP stemmers 9 PC3 (N=4,441) 10 Natuurlijke selectie vs genetic drift Hoe langer en sterker twee (sub)populaties van elkaar geisoleerd zijn, hoe groter de verschillen in allel frequenties worden (grotendeels door random fluctuaties: genetic drift). Als er in een van de populaties een evolutionaire selectiedruk op een SNP is, worden de allel frequentie verschillen voor deze SNP nog groter 11 Natuurlijke selectie vs genetic drift De 1000 individuen met de laagste PC score werden vergeleken met de 1000 individuen met de hoogste PC score. Met de 500 000 SNPs wordt een schatting gemaakt van de verwachte allel frequentie verschillen onder genetic drift. Vervolgens wordt voor elke SNP berekend of de allel frequentie verschillen significant groter zijn dan onder genetic drift (oftewel of ze onder selectiedruk lijden). 12 Natuurlijke selectie vs genetic drift 499,849 SNPs in totaal (51.4% binnen genen): PC1 (Noord vs Zuid): 273 significante SNPs (59% binnen 88 genen) PC2 (Oost vs West): 172 significante SNPs (58.1% binnen 55 genen) PC3 (Middle-Band vs de rest): 100 significante SNPs (75% binnen 41 genen) Veel van deze genen hebben in eerdere studies ook signalen van selectie laten zien binnen Europa: 13 HERC2 (PC1), LCT (PC1), CADPS (PC1), IRF1 (PC1), SLC44A5 (PC1), R3HDM1 (PC1), ACOXL (PC3), and BTBD9 (PC3) HERC2 & oogkleur Het sterkste effect werd geobserveerd voor PC1 (Noord vs Zuid) voor een SNP in de HERC2 gene (rs8039195). Deze SNP is sterk geassocieerd met oogkleur in vorige GWASs (p = 7.8 × 10-112 in de huidige dataset). rs8039195 (HERC2) Population CC CT TT De analyse werd herhaald in de Finnish .0 6.5 93.5 1000 Genomes sequence dataset Northern Dutch .4 13.1 86.5 1.2 21.4 77.4 voor 3495 SNPs in en rond het HERC2 British Southern Dutch 2.3 23.9 73.7 .0 50.0 50.0 gen, door Noord-Europese populaties Iberian Toscan 16.8 42.1 41.1 (Brits en Fins) te vergelijken met Zuid-Europese populaties (Spaans en Italiaans). Van de SNPs die we in de NLse populatie gemeten hebben, had rs8039195 het sterkste signaal. Van alle 3495 SNPs, had rs12913832 het sterkste signaal, een SNP die vlakbij rs8039195 ligt en daardoor vaak samen overgeërfd wordt. 14 15 Natuurlijke selectie vs genetic drift Er waren significante signalen in genen die een belangrijke rol in het brein spelen: SLC6A4 (PC3; a.k.a. SERT, encodes the serotonin transporter) GRIN2A (PC1; encodes a subunit for the NMDA receptor) BDNF (PC2; encodes the brain-derived neurotrophic factor) GRM7 (PC1; encodes metabotropic glutamate receptor) AUTS2 (PC3; autism susceptibility candidate 2) De top 11 biologische functies waren gerelateerd aan het brein (p ≤ 1.26 × 10-4) met als meest significante functie neurotransmission of nervous tissue (p = 2.2 × 10-6). 16 Natuurlijke selectie vs genetic drift Een aantal andere opvallende genen: 17 FTO (PC1; Noord-Zuid): is sterk geassocieerd met BMI en overgewicht. LCT (PC1 ; Noord-Zuid): beinvloedt of je als volwassene lactase kan verteren HCP5 (HLA Complex P5 gene) uit de MHC regio. Komt in meerdere PCs voor (PC1 & PC2), and speelt een rol in het immune system. Sterke variatie in genen uit het HLA complex wordt in veel menselijke populaties waargenomen. Andere genen die een rol in het immuunsysteem spelen en significante signalen van selectiedruk lieten zien in deze en andere studies zijn: IRF1 (PC1), ACE (PC1), LRRC4C (PC2), PLCL1 (PC3), and HSPD1 (PC3). Runs of homozygosity (ROHs) 18 Runs of homozygosity (ROHs) Als je voor een SNP hetzelfde allel erft van je vader als van je moeder, ben je voor die SNP homozygoot. Een groep opeenvolgende SNPs homozygoot zijn wordt ook wel een run of homozygosity (ROH) genoemd: A A a A a a Van de moeder A A a A a a A A a A a a Van de vader a A A A A a ROH Geen ROH Hoe sterker de ouders gerelateerd zijn, hoe langer de ROHs. Lange ROHs kunnen schadelijke effecten hebben, doordat de kans op homozygote schadelijke recessieve allelen groter wordt. Het effect van endogamie op de gezondheid van het nageslacht wordt bestudeerd door de proportie van het genoom dat uit ROHs bestaat te analyseren (= Froh). 19 Autozygosity measured by Froh 20 Religie in Nederland Nederland heeft een lange geschiedenis (>400 jaar) van sociale segregatie en assortative mating op basis van religie. 82% van de koppels hadden dezelfde religie (of gebrek aan religie) Hierdoor zijn religieuze ouderparen wellicht sterker aan elkaar gerelateerd 1849 21 Current NTR dataset (N=25,450) Genotyped dataset (N=6,367) Religie en Froh in Nederland 1849 Current NTR dataset (N=25,450) Genotyped dataset (N=6,367) We hebben getest of religieuze affiliatie geassocieerd is met Froh (N = 4,022). De analyses zijn gecorrigeerd voor de drie NL PCs, en of de individuen komen uit een stad met >100k inwoners. 22 ROHs en Religie Niet-religieuzen hadden een significant lagere Froh dan religieuzen: Included in model Main test Two religious groups and non religious group (as two dummy variables) Not religious vs. Protestant Post-hoc tests Not religious vs. Catholic Catholic vs. Protestant 23 p-value Empirical p (100k permutations) 5.80 × 10-5 7 × 10-5 1.36 × 10-3 1 × 10-3 3.67 × 10-5 8 × 10-5 .766 .770 Katholiek NL in 1849 24 Protestants NL vandaag Niet-religieus Depressie en homozygositeit Religiositeit is eerder in verband gebracht met psychiatrische aandoeningen. Ook in onze dataset zien we dat religieuzen minder vaak depressief waren: ß = -0.84, p < 10-16 Het lijkt erop dat mensen met meer homozygoot DNA een lagere kans op depressie hebben (p = .04). Als er in de analyse rekening gehouden wordt met religie, verdwijnt deze associatie (p = .138). 25 Hoger opgeleiden zijn minder homozygoot dan lager opgeleiden. Vermenging van verschillende genetische achtergronden komt vaker voor bij hoger opgeleiden: Hoger opgeleiden migreren vaker en verder dan lager opgeleiden. Hoger opgeleiden krijgen vaker kinderen met andere hoger opgeleide Nederlanders. Homozygositeit is sterker geassocieerd met het opleidingsniveau van de ouders dan met die van de kinderen. Korte migratie-afstand Lange migratie-afstand 26 Lager opgeleide vaders Hoger opgeleide vaders Genetische achtergrond is minder sterk met geografie geassocieerd in kinderen met hoger opgeleide en nietreligieuze ouders. 27 Conclusies Zelfs binnen relatief homogene populaties kunnen we systematische genetische verschillen in afkomst detecteren. Deze verschillen kunnen samenhangen met erfelijke fenotypes. Verschillen in homozygositeit tussen sociale groepen laten zien dat het gedrag van onze voorouders de genetische populatiestructuur subtiel kan beinvloeden. Het is belangrijk onderzoek te doen naar de invloed van gedrag van onze (voor)ouders op de genetische opmaak van de huidige populatie. 28 Dank! Dorret I. Boomsma, Brenda W.J.H. Penninx, Eco J. de Geus , Jouke-Jan Hottenga, Gonneke Willemsen, Toos van Beijsterveldt, Meike Bartels, Michel G. Nivard, Dirk J.A. Smit, Conor Dolan, Peter de Knijff, Xiangjun Xiao, Paul Scheet, Andrew Brooks, Erik A. Ehli, Yueshan Hu, Gareth E. Davies, James J. Hudziak, Patrick F. Sullivan, en natuurlijk alle deelnemers van de NTR en NESDA studies! 29 [email protected] Ancestry-informative PCs replicated in nextgeneration sequencing dataset GoNL 30 Identifying Dutch with non-European ancestry PCs were calculated using a set of 1014 unrelated individuals from 1000 Genomes, and were then projected on ~7500 Dutch individuals. 258 individuals were excluded. Parental birth place was available for 132 of these individuals, of which 55.3% had at least one parent born outside of the Netherlands (as opposed to 4% of the rest of the individuals). 31 Identifying Dutch with non-European ancestry PCs were calculated using a set of 1014 unrelated individuals from 1000 Genomes, and were then projected on ~7500 Dutch individuals. 258 individuals were excluded. Parental birth place was available for 132 of these individuals, of which 55.3% had at least one parent born outside of the Netherlands (as opposed to 4% of the rest of the individuals). 32 Identifying Dutch with non-European ancestry PCs were calculated using a set of 1014 unrelated individuals from 1000 Genomes, and were then projected on ~7500 Dutch individuals. 258 individuals were excluded. Parental birth place was available for 132 of these individuals, of which 55.3% had at least one parent born outside of the Netherlands (as opposed to 4% of the rest of the individuals). 33 Why exclude long-range LD regions? Elevated levels of LD can be overrepresented in PCs, deluding the genome-wide patterns that reflect the subtle ancestry differences. GWAS on PC: PC reflects variation at chr8 inversion 34 Why exclude long-range LD regions? Elevated levels of LD can be overrepresented in PCs, deluding the genome-wide patterns that reflect the subtle ancestry differences. GWAS on PC: PC reflects variation at MHC region (chr 6) 35 Why also prune for LD? “Strong LD at a given locus which affects many markers could result in an axis of variation which corresponds to genetic variation specifically at that locus, rather than to genome-wide ancestry. Nonetheless, we recommend inferring population structure using all markers. This recommendation is based on an analysis of HapMap data which suggests that these potential problems will not affect results in practice.” 36 Effect of minimizing LD PCA was conducted on three sets of SNPs varying in LD on 1000 Genomes populations and Dutch subjects separately PCs were identical for 1000 Genomes across the 3 SNP sets. For the Dutch dataset, there were big differences: SNP set used for PCA Nr. of SNPs for PCA Correlations between PCs and North-South gradient (N = 3363) Correlations between PCs and East-West gradient (N = 3363) Pearson Correlation Difference test Pearson Correlation Difference test λ for GWASs on height including the North-South PC as a covariate SNP set 1: All SNPs that passed QC 499,849 rPC2,↕= .428 - rPC8,↔= .205 - 1.03937 SNP set 2: SNP set 1 without the 24 long-range LD regions 487,672 rPC1,↕= .574 p = 3.9*10-46 (versus SNP set 1) rPC3,↔= .260 p = 4.2*10-10 (versus SNP set 1) 1.03092 SNP set 3: SNP set 2 with genomewide LD based SNP pruning 130,248 rPC1,↕=.588 p = 1.9*10-4 (versus SNP set 2) rPC2,↔=.369 p = 3.5*10-21 (versus SNP set 2) 1.02961 Conclusion: minimizing LD is necessary in order to capture ancestry in more homogeneous datasets (i.e., datasets with subjects from a single population) 37 Association between education and ROHs When ancestry correlates with geography, this means that higher educated parents are more likely to choose a mate with a different ancestral background. The association between parental educational attainment and Froh is fully mediated by parental birthplace distance (i.e., when including parental birthplace distance, association between Froh and parental education disappears). This was tested with the Sobel test for mediation (paternal education: pmediation = 2.4 × 10-4; maternal education: pmediation = 2.3 × 10-4) 38 PC1 & PC2 N=4,441 39 PC1 & PC3 N=4,441 40