Computers bij experimenten in de deeltjesfysica

advertisement
Computers bij experimenten in de
deeltjesfysica
Een virtuele rondleiding in het ATLAS-experiment
Frank Filthaut
Radboud Universiteit Nijmegen / NIKHEF
Inhoud
• Doelstellingen en methodes in de deeltjesfysica
• Triggers en data-acquisitie
• Reconstructie en analyse van data
15-11-2006
TU/e
2
Wat is deeltjesfysica?
• Doelstellingen:
– Erachter komen wat de
fundamentele bouwstenen
van materie zijn: elementaire
deeltjes
– De interacties tussen deze
deeltjes kunnen beschrijven
• Links met andere takken van
wetenschap / technologie:
– Astronomie (kosmologie,
kernfysische processen in
sterren)
– Spin-off (medische industrie,
WWW, Grid …)
15-11-2006
TU/e
3
Elementaire deeltjes
• Quarks komen niet vrij in de
natuur voor, maar alleen in
de vorm van hadronen
(gebonden toestanden van
quarks en/of antiquarks)
• Leptonen komen wel vrij voor,
maar alleen het elektron is
echt stabiel. Neutrino’s zijn
ongeladen en zijn bij
versneller-experimenten niet
waarneembaar
• Er is geen interactie “op
afstand”: interacties worden
overgebracht door
krachtdeeltjes
15-11-2006
TU/e
4
Waarom hoge-energiefysica?
• Van de op de vorige pagina genoemde fermionen zijn alleen
het elektron en de up- en down-quarks in “gewone” materie
aanwezig: de andere deeltjes zijn zwaar (mt = 175 GeV/c2, even
zwaar als een goud-atoom) en vervallen zeer snel (naar lichtere
deeltjes)
• Hoge energieën zijn nodig om deze zware deeltjes te kunnen
produceren
15-11-2006
TU/e
5
Deeltjesversnellers en botsingen
(Extreem) voorbeeld: de
Large Hadron Collider
(LHC) bij CERN
• botsingen tussen
protonen met
energieën van 7 TeV)
• Snelheid van de
protonen:
v = 0,99999991 c
• Detectie van bij de
interacties
vrijkomende hoogenergetische deeltjes
mbv gespecialiseerde
detectoren (bv ATLAS)
15-11-2006
TU/e
6
Deeltjesversnellers en botsingen
• Waarom zo’n enorm
versnellercomplex? In een
homogeen magneetveld B:
p=qBr
• Met B = 9 T, p = 7 TeV en het
versnellen van een
eenheidslading: r ~ 27 km
• In de praktijk: 1232 dipolen
met ieder een lengte van 15
m
– B = 9 T: supergeleidende
magneten
– In één behuizing: in feite twee
verschillende magneten
15-11-2006
TU/e
7
Complexiteit van experimenten
15-11-2006
TU/e
8
Detectie van deeltjes
• Doel: detecteren en zo goed mogelijk meten van alle deeltjes
die bij een hoog-energetische interactie vrijkomen
– Verschillende deeltjes (e±, , ±, hadronen) interageren op
verschillende manieren met de verschillende detectormaterialen
– Veel deeltjes leven veel te kort (tot ~ 10-24 s) om “direct”
waargenomen te worden: ze moeten indirect “gereconstrueerd”
worden aan de hand van hun vervalsproducten
• Vereist:
– Zeer hoge dichtheid van meetelementen (precieze metingen, goed
onderscheid tussen deeltjes die zich op korte afstand van elkaar
bevinden)
• in totaal ~107 meetelementen
– Zeer grote hoeveelheid materiaal om alle deeltjes (behalve ±) te
stoppen
15-11-2006
TU/e
9
Selectie van fysische processen
• De luminositeit (~intensiteit) van
de LHC-bundels moet tenminste
1033 cm-2 s-1 worden
– 108 interacties per seconde!
– Met 4·107 bundelbotsingen per
seconde: meerdere interacties
per bundelbotsing
• Fysisch “interessante” interacties
per seconde:
– 101 voor W-boson productie
– 10-2 voor “lichte” Higgs-bosonen
Een snelle (real time) selectie
van de interessante processen is
cruciaal!
15-11-2006
TU/e
10
Selectie van fysische processen (2)
• In werkelijkheid zien de
interacties er veel
gecompliceerder uit dan zoals
gesuggereerd door de
voorgaande ATLAS-simulatie!
– Honderden geladen deeltjes
iedere 25 ns
– Langzame signalen in de
calorimeters: overlap tussen
signalen van verschillende
bundelbotsingen
• Voor preciese metingen zijn
veel meetelementen nodig
– Tracking: ~ 50 m 
ruwweg 107 elementen
In termen van “ruwe” data: ~ 10 TB/s. Een on-line selectie is nodig
om dit te reduceren tot ~ 200 MB/s (200 interacties/s)!
15-11-2006
TU/e
11
Real-time selectie: triggers
• Van “triviale” situaties…
– Geen uitlezing tijdens
signaalverwerking:
“dead time”
• via extra buffering…
– Geen uitlezing als buffers
vol zijn
• en synchronisatie met de
bundelbotsingen…
– Gebruik van triggers
voornamelijk om
oninteressante
interacties te verwerpen
• naar de LHC-situatie
– Elektronische “pipelines”
– Tijd om de snelste beslissingen te nemen » tijd tussen botsingen
15-11-2006
TU/e
12
Tijdsschalen en telsnelheden
• Detectorgegevens zijn
te complex om de
selectie in een keer te
maken
• Strategie: gooi eerst
snel de duidelijke
“rotzooi” weg, zodat
er meer tijd overblijft
om naar de moeilijker
gevallen te kijken
– Typisch 3 niveaus
• “Rotzooi”: typisch
laag-energetische
hadronische
interacties
Digitalisatie (en “zero suppression”) van
gegevens gebeurt pas na een 1e niveau trigger
15-11-2006
TU/e
13
Een beslissing iedere 25 ns
•
Niveaus 1&2: houd het simpel en lokaal! Alleen calorimetrie, muonen.
• Intensief gebruik FPGA’s, PPCs (berekeningen), Gb/s links
(communicatie)
• 1e niveau trigger-beslissing op basis van simpele AND/OR regels
15-11-2006
TU/e
14
Een beslissing iedere 25 ns
• Voor muonen zijn extra (snelle)
detectoren nodig om een 1eniveau triggerbeslissing te
kunnen nemen: Resistive Plate
Chambers, Thin Gap Chambers
– Grofmazig (< 3cm), maar
voldoende gesegmenteerd om
een snelle impulsmeting te
kunnen doen
• Algoritme:
– Gebruik signalen in een laag als
uitgangspunt
– Zoek naar signalen in andere
lagen
• Grootte van het zoekbereik
bepaalt minimum muon pT
• In de praktijk: zoekbereik ~40cm
(RPC), ~10cm(TGC): ruwweg 107
associaties
15-11-2006
TU/e
15
Van hardware naar software
• Trigger-niveau 2:
gebruik van
standaard PC farms
– Vorige generaties
experimenten:
hardware of
speciale processors
• Maar PCs zien maar
een beperkt deel van
iedere interactie:
nauwkeurig(er)
bekijken van die RoIs
die tot een LVL1
accept leidden
– Geen “globale”
informatie
• Berekeningen duren niet allemaal even lang  extra boekhouding
om bij te houden of individuele PCs binnen redelijke tijd gereed zijn
– Monitor-processen, queueing theory (bereken kans op fouten)
15-11-2006
TU/e
16
On-line data-reconstructie
• De uiteindelijke (3e niveau) trigger-beslissing wordt genomen op
basis van informatie van de gehele detector (calorimetrie,
muonsysteem, tracking)
• Probleem: hoe de gegevens van verschillende gedeeltes van de
detector in één computer to verzamelen?
• Typisch ~ 1 sec/interactie
 voor 3-3.5 kHz input
rate zijn 1600 (Linux) dual
CPU PCs nodig!
• Uitgebreid onderzoek
nodig naar bruikbare
switches (Gb/s poorten,
intern ~100 Gb/s), en
optimum gebruik hiervan
(tcp/udp, ATM, …):
“traffic shaping”
• Uitgebreide monitoring
— Bijeen zoeken van bij elkaar horende verschillende data-fragmenten
15-11-2006
TU/e
17
Reconstructie van interacties
We hebben de interessantie interacties geselecteerd. Wat nu?
• Taak van een reconstructieprogramma: een zo goed
mogelijke benadering geven
van de deeltjes die in de
interactie geproduceerd
werden
• Voorbeeld: reconstructie
van de trajecten van
geladen deeltjes:
– Patroonherkenning
– Bepalen van richting en
impuls
• Andere taken (“objecten”):
– e±,,±
– Jets (groepen hadronen ~
quarks/gluonen)
15-11-2006
TU/e
18
Patroonherkenning
• Met name het associëren van individuele “hits” (signalen
achtergelaten in meetelementen) met trajecten van geladen
deeltjes is een moeilijke taak:
– Inefficiënties (missende hits), elektronische ruis (extra hits)
– Alle combinaties van gemeten hits nagaan (~ N!) is onbegonnen
werk!
• Twee verschillende soorten algoritme om dit probleem op te
lossen. Lokale algoritmes:
– Begin met hits in de buitenste
laag van de tracking-detector,
definieer mogelijke trajecten
– Als binnen deze begrenzingen
inderdaad hits gevonden worden
in de laag daarbinnen, kan dit
gebruikt worden voor scherpere
begrenzingen
– NB: in de praktijk is dit geen 2D
maar een 3D probleem!
15-11-2006
TU/e
19
Patroonherkenning
• Een veel gebruikte techniek voor het herkennen en meten van
trajecten: Kalman filtering. In gelineariseerde vorm:
– Toestandsvector: pk = Fk pk-1+ Pkk (propagatie F, ”process noise” )
– Meting:
mk = Hkpk + k (meetonzekerheden )
• Voorspel pk op basis van pk-1 :
– pk|k-1 = Fk pk-1|k-1
– Ck|k-1= Fk Ck-1|k-1 (Fk)T + Pk Qk(Pk)T (C en Q cov.mtx van p en )
• Update pk met behulp van de meting mk(neem die meting die
het best past bij de voorspelling):
– pk|k = pk|k-1 + Kk (mk - Hkpk|k-1)
– Kk = Ck|k-1 (Hk)T (Vk+Hk Ck|k-1 (Hk)T )-1 (V cov.mtx van )
– Ck|k = (1- Kk Hk)Ck|k-1
• Mogelijke toepassingen:
– Bepaling van parameters p (“track fitting”)
– Meenemen van veranderingen in trajecten (“kink finding”)
• Kalman filter ook gebruikt in vele andere gebieden
– Oospronkelijk (1960): berekening raketbanen
15-11-2006
TU/e
20
Patroonherkenning (2)
• Ook globale algoritmes (die alle hits in een keer beschouwen)
zijn mogelijk
– Voorbeeld: de Hough-transformatie “vertaalt” iedere hit naar een
hyper-oppervlak in de ruimte van mogelijke parameters van
trajecten van geladen deeltjes
– 2D: 2 parameters als alleen
rechte lijnen beschouwd
worden (bekijk Duality applet)
of als verondersteld kan
worden dat (binnen de
resolutie) alle deeltjes uit het
interactiepunt komen
 aantal operaties ~ Nhit · Nbin
– 3D: 5 parameters in het meest
algemene geval. In de praktijk
is een 2D benadering (waarbij
3D parameters bepaald
worden mbv extra zinformatie) afdoende
Uiteindelijk wordt vaak een combinatie van algoritmes gebruikt
15-11-2006
TU/e
21
Patroonherkenning (3)
• Als alle geladen deeltjes
gevonden zijn, zijn we nog niet
klaar: deze kunnen gebruikt
worden om “lang” levende
deeltjes te identificeren
– B  1,5 ps,    0,3 ps
– Gemiddeld afgelegde afstand
voor verval: c  
– Voor voldoende hoge
impulsen: ~ mm (goed te zien
door preciese extrapolatie van
trajecten)
• Ook hier is patroonherkenning
nodig:
– welke trajecten horen bij het
interactiepunt
– welke zijn compatibel met
“displaced vertices”
15-11-2006
TU/e
22
Calibratie
• Als individuele detectorelementen afmetingen hebben van
~50 m (tracker), dan moet tot op <5 m bekend zijn waar die
detectorelementen zich bevinden!
– Optische metingen (LEDs, laser-interferometrie) etc. niet op alle
momenten bruikbaar en geven niet altijd de beste informatie
– Gebruik de gereconstrueerde data voor de beste precisie
• Voorbeeld: silicium-sensoren in tracking-detector
– ~ 5000 sensoren, met ieder 6 te bepalen parameters (3 translaties, 3
rotaties) 
2-minimalisatie leidt tot inversie van matrix van dimensie 3· 104
– Er zijn meerdere manieren om een dergelijk probleem in de praktijk
aan te pakken:
• Beschouw trajecten als gegeven  iteratieve procedure
• Pas ook trajecten van geladen deeltjes aan (5 parameters per traject) 
matrix nog veel groter (maar kan worden gereduceerd)
• In beide gevallen: associatie van hits met trajecten moet juist zijn
• Praktische beperkingen: calibraties klaar na enkele uren
– Beste startpunt voor reconstructie van nieuwe data
15-11-2006
TU/e
23
Data-productie
• Verwachtingen t.a.v. reconstructie van interacties:
– 15 kSI2k-s / interactie (1 kiloSpecInt-2k ~ 1 PC uit 2004)
– Met 200 Hz “interessante” interacties: 3000 PCs nodig (als data slechts
eenmaal gereconstrueerd hoeven te worden)!
• Calibratie en uitlijnen
van de diverse
meetelementen: een
iteratief proces
Higgs-deeltje, mH=130 GeV/c2
• Simulatie van fysische
interacties en van de
respons van de detector
voor deze interacties:
• ~ 20% van het aantal
data-interacties…
• maar 100 s / interactie!
15-11-2006
TU/e
24
Data-productie (2)
• Dezer dagen is het niet meer redelijk al deze rekenkracht op
CERN zelf te stationeren… het alternatief is een tiered systeem
CERN
Tier 0
~ 75 MB/s/T1
Tier 1
(x10)
NL
UK
USA
~ Gb/s links
Tier 2
•
•
•
Primaire reconstructie, calibratie, opslag ruwe data (5PB/jr): CERN
Re-reconstructie, simulatie, opslag ruwe/gereconstrueerde data (2PB/jr):
tier-1 centra (~ 2000 PCs)
Simulatie, data-analyse, opslag compacte data: tier-2 centra (~ 200 PCs)
15-11-2006
TU/e
25
Data-analyse: software
• Uiteindelijke fysica-resultaten: uit het (herhaald, iteratief)
bestuderen van (gedeeltes van) de data
– Met behup van computerprogramma’s!
• Het bestuderen van ~ 109 opgeslagen interacties / jaar is niet
triviaal!
– Alle code op basis van C++ (object orientation, dynamische
geheugen-allocatie, beschikbaarheid betrouwbare compilers, …)
– Uitgebreid software-management om efficiënte software-ontwikkeling
mogelijk te maken (CVS, indeling in pakketten): ~ 106 regels code
• Oplossing: begin met een
snelle pre-selectie
– Rudimentaire eigenschappen
van interacties bekend uit
reconstructie
– Opgeslagen als metadata in
een relationele DB (à la
ORACLE), met verwijzingen
naar (random access) data
15-11-2006
Eisen aan
dataset
Metadata DB
collecties
gegevens in
bestanden
TU/e
26
Data-analyse: het Grid
• Het ATLAS-experiment alleen al telt ~ 2000 fysici
– En dit is maar een van de 4 LHC-experimenten
– Onmogelijk om alle analyse van gegevens op CERN te doen
– Niet nieuw: het World Wide Web is op CERN ontwikkeld juist om
adequate communicatie tussen collega’s mogelijk te maken
• Oplossing: maak data-analyse zoveel mogelijk gedistribueerd
• Het Grid:
– Gebruikers specificeren
applicatie / dataset
– Op basis hiervan wordt een
“execution site” gekozen
– Applicatie-software wordt
gecopieerd
– Benodigde (en nog niet
aanwezige) data worden
transparant gecopieerd
– Resultaten worden naar de
gebruiker gestuurd
15-11-2006
TU/e
27
Data-analyse: het Grid
Het werkt! Productie van gesimuleerde events gebruikt inmiddels Grid tools
Analyse van data komt nog…
15-11-2006
TU/e
28
Tot slot…
• Er zijn legio onderwerpen waarvoor geen/onvoldoende tijd is ze
hier te behandelen:
– Mogelijke (interessante) fysische processen, fysica-analyse (volg een
college deeltjesfysica!)
– Samenwerkingsaspecten (videoconferencing, mailing lists,
documentatie, …)
– Signaalverwerking
• De LHC-versneller draait nog niet! Over 1-2 jaar zullen we zien
hoe realistisch deze vooruitzichten zijn. Wellicht zien we een van
de volgende dingen:
– Het Higgs-boson
– Donkere materie
(SuperSymmetrie)
– Extra dimensies
– Mini-zwarte gaten
15-11-2006
TU/e
29
Download