Research Data Zone Joyce Nijkamp, UvA ([email protected]) Peter Hinrich, SURFnet ([email protected]) IT projecten voor onderzoeksdomein @ UvA • Projectenportfolio 2016 Onderzoeksdomein - Gericht op realisatie referentiearchitectuur domein Onderzoek (in ontwikkeling). • Voorbeeld van lopende projecten: - Research Data Zone (voorheen: ScienceDMZ) - Science Gateways - Research Data Management - Implementatie UvA-HvA Data repository - Opslag infrastructuur architectuur (SDS, iRODS) - Research Workspaces/ VRE - Federatieve toegang tot Research IT en infra van UvA en HvA - Referentie architectuur RDM (landelijk) Uitgangspunten architectuur ontwikkeling voor Onderzoek @ UvA Uitgangspunten typerend voor domein Onderzoek: • Co-creatie. Driver: Dynamiek in onderzoek en technologie, Expertise - Onderzoekers, IM, Architecten, IT suppliers, andere instellingen - Vanuit kerncompetenties - Van projectkaart tot implementatie • Landelijk draagvlak. Driver: Onderzoek is internationaal, orgoverstijgend - SURF partner voor disseminatie, afstemming - Veel landelijke architectuur – initiatieven - Architecturen worden blauwdruk => opname in HORA Wat is een Research Data Zone (RDZ) ? • Wat is een RDZ? The RDZ is a portion of the network, built at or near the campus or laboratory's local network perimeter that is designed such that the equipment, configuration, and security policies are optimized for high-performance scientific applications rather than for general-purpose business systems or “enterprise” computing. • Kenmerken van een RDZ Voor grote datasets en/of waar beveiliging belangrijk aspect is Geautomatiseerde dedicated verbinding De onderzoeker heeft de lead Beleid mag afwijken van beleid reguliere netwerk (firewalls ed) Trusted parties, gebaseerd op afspraken en protocollen Fasering RDZ dienst • Einddoel: Software Defined oplossing (automatisch, op initatie van onderzoeker) • Eerste stap: Pilots om RDZ concept te demonstreren met vast ingestelde oplossingen • Daarna: verder automatiseren Het Research Data Zone (RDZ) pilotproject • Kenmerken van de Aanpak - Co-creatie met wetenschap - Gesprekken met faculteiten. Daar kwam behoefte naar voren: traag netwerk grote datastromen, vertrouwelijkheid niet gewaarborgd - Onderzoeker is opdrachtgever - Pilotsgewijs bij innovatieprojecten, Learning by doing - Aansluiting op landelijke / SURF ontwikkelingen • Pilot deelname: - Humanities: text historici - Life Sciences: publiek en privaat (SILS, IBED, Seedvalley) Inhoud van de pilots • Humanities Datauitwisseling tussen - UvA – UU - SURFsara (met HPC node) - KB (databron). Data hebben hoog volume (xTB )en zijn soms vertrouwelijk (auteursrecht) • Life sciences: Datauitwisseling tussen SILS – Enza – SURFsara (met HPC node) Data hebben hoog volume (xTB )en databronnen zijn vertrouwelijk (concurentiegevoelig) Vervolgstappen 1. In kaart brengen use cases en requirements (ongoing) 2. Uitnodiging voor samenwerking met andere universiteiten die met zelfde probleem zitten (ongoing) 3. Architectuur ontwerp 4. Pilot implementatie 5. Implementatieadvies RDZ als centrale dienst voor onderzoek Aanleiding: Data omvang wordt groter Netwerken worden sneller Data omvang neemt toe en wordt probleem in steeds meer disciplines. Steeds meer grote archieven voor communities Radio astronomie Klimaatdata Satellietdata DNA sequencing Beperkingen van TCP • Veel research data transfers gebruiken TCP • Maximale doorvoer is beperkt, packet loss heeft grote invloed • Packet loss wordt gezien als congestie, en vermindert doorvoer Met dank aan Eli Dart (Esnet) en Toni Hey (STFC) Beperkingen van TCP Local Area Maximale throughput in Mbit/s National Area (RUG - Unimaas) Metro Area (VUMC-AMC) RTT in ms Firewall Issues • • • • Beperkt in maximale throughput Grote aantallen kleine flows Kleine buffers Meer latency • Niet geschikt voor ‘exotische’ protocollen Optimaliseren voor grote datastromen • • • • Grotere packetsize (jumboframes) Andere netwerk protocollen (UDP) Andere transfer protocollen (GridFTP) Access control ipv firewall Maatwerk.... Research Data Zone Research Data Zone • Netwerk zone voor research data • Geoptimaliseerd voor data delen & -transport • Gestandaardiseerde oplossingen • Policy Framework • Toegangsrestrictie en AAI Science DMZ architectuur, met dank aan Eli Dart (Esnet) Niet alleen voor de ultra high-end toepassingen! Internationaal 15:00 parallelsessie: “Campusinfrastructuur en big data transfer”