Research Data Zone

advertisement
Research Data Zone
Joyce Nijkamp, UvA ([email protected])
Peter Hinrich, SURFnet ([email protected])
IT projecten voor onderzoeksdomein @ UvA
• Projectenportfolio 2016 Onderzoeksdomein
- Gericht op realisatie referentiearchitectuur domein Onderzoek (in
ontwikkeling).
• Voorbeeld van lopende projecten:
- Research Data Zone (voorheen: ScienceDMZ)
- Science Gateways
- Research Data Management
- Implementatie UvA-HvA Data repository
- Opslag infrastructuur architectuur (SDS, iRODS)
- Research Workspaces/ VRE
- Federatieve toegang tot Research IT en infra van UvA en HvA
- Referentie architectuur RDM (landelijk)
Uitgangspunten architectuur ontwikkeling voor
Onderzoek @ UvA
Uitgangspunten typerend voor domein Onderzoek:
• Co-creatie. Driver: Dynamiek in onderzoek en technologie, Expertise
- Onderzoekers, IM, Architecten, IT suppliers, andere instellingen
- Vanuit kerncompetenties
- Van projectkaart tot implementatie
• Landelijk draagvlak. Driver: Onderzoek is internationaal, orgoverstijgend
- SURF partner voor disseminatie, afstemming
- Veel landelijke architectuur – initiatieven
- Architecturen worden blauwdruk => opname in HORA
Wat is een Research Data Zone (RDZ) ?
• Wat is een RDZ?
The RDZ is a portion of the network, built at or near the campus or laboratory's local
network perimeter that is designed such that the equipment, configuration, and security
policies are optimized for high-performance scientific applications rather than for
general-purpose business systems or “enterprise” computing.
• Kenmerken van een RDZ
Voor grote datasets en/of waar beveiliging belangrijk aspect is
Geautomatiseerde dedicated verbinding
De onderzoeker heeft de lead
Beleid mag afwijken van beleid reguliere netwerk (firewalls ed)
Trusted parties, gebaseerd op afspraken en protocollen
Fasering RDZ dienst
• Einddoel: Software Defined oplossing (automatisch, op
initatie van onderzoeker)
• Eerste stap: Pilots om RDZ concept te demonstreren met vast
ingestelde oplossingen
• Daarna: verder automatiseren
Het Research Data Zone (RDZ) pilotproject
• Kenmerken van de Aanpak
- Co-creatie met wetenschap
- Gesprekken met faculteiten. Daar kwam behoefte naar voren:
traag netwerk grote datastromen, vertrouwelijkheid niet
gewaarborgd
- Onderzoeker is opdrachtgever
- Pilotsgewijs bij innovatieprojecten, Learning by doing
- Aansluiting op landelijke / SURF ontwikkelingen
• Pilot deelname:
- Humanities: text historici
- Life Sciences: publiek en privaat (SILS, IBED, Seedvalley)
Inhoud van de pilots
• Humanities
Datauitwisseling tussen
- UvA – UU - SURFsara (met HPC node) - KB (databron).
 Data hebben hoog volume (xTB )en zijn soms vertrouwelijk
(auteursrecht)
• Life sciences:
Datauitwisseling tussen SILS – Enza – SURFsara (met HPC node)
 Data hebben hoog volume (xTB )en databronnen zijn
vertrouwelijk (concurentiegevoelig)
Vervolgstappen
1. In kaart brengen use cases en requirements (ongoing)
2. Uitnodiging voor samenwerking met andere universiteiten
die met zelfde probleem zitten (ongoing)
3. Architectuur ontwerp
4. Pilot implementatie
5. Implementatieadvies RDZ als centrale dienst voor onderzoek
Aanleiding: Data omvang wordt groter
Netwerken worden sneller
Data omvang neemt toe en wordt probleem in
steeds meer disciplines.
Steeds meer grote archieven voor communities
Radio astronomie
Klimaatdata
Satellietdata
DNA sequencing
Beperkingen van TCP
• Veel research data transfers gebruiken TCP
• Maximale doorvoer is beperkt, packet loss heeft grote invloed
• Packet loss wordt gezien als congestie, en vermindert doorvoer
Met dank aan Eli Dart (Esnet) en Toni Hey (STFC)
Beperkingen van TCP
Local Area
Maximale throughput
in Mbit/s
National Area
(RUG - Unimaas)
Metro Area
(VUMC-AMC)
RTT in ms
Firewall Issues
•
•
•
•
Beperkt in maximale throughput
Grote aantallen kleine flows
Kleine buffers
Meer latency
• Niet geschikt voor ‘exotische’ protocollen
Optimaliseren voor grote datastromen
•
•
•
•
Grotere packetsize (jumboframes)
Andere netwerk protocollen (UDP)
Andere transfer protocollen (GridFTP)
Access control ipv firewall
Maatwerk....
Research Data Zone
Research Data Zone
•
Netwerk zone voor research data
•
Geoptimaliseerd voor data delen &
-transport
•
Gestandaardiseerde oplossingen
•
Policy Framework
•
Toegangsrestrictie en AAI
Science DMZ architectuur, met dank aan Eli Dart (Esnet)
Niet alleen voor de ultra high-end toepassingen!
Internationaal
15:00 parallelsessie:
“Campusinfrastructuur en big data transfer”
Download