Over InfoFarm InfoFarm is het Big Data en Data Science

advertisement
 Over InfoFarm
InfoFarm is het Big Data en Data Science competence center binnen Cronos.
Wij zijn nog maar recent opgestart (eind 2013), en ons team bestaat nu uit 13 mensen:
Data Scientists (met verschillende achtergronden in kwantitatieve domeinen), gecombineerd
met mensen die zich vanuit een Java-ontwikkelingsachtergrond in het Big Data domein
hebben ingewerkt (Hadoop, Spark, ...), aangevuld met een infrastructuur-specialist.
Wij staan onze klanten bij in Data Science projecten; het vinden van waardevolle informatie
uit (al dan niet grote) datasets.
Gewapend met de klassieke tools uit de open source community (Spark, Hadoop, Hive, Pig,
enz...) bouwen we praktische Big Data oplossingen voor klanten, en analyseren we hun
gegevens met Data Mining en Machine Learning technieken in R, MLlib, e.d.
We hebben dergelijke opdrachten al uitgevoerd voor e-commerce klanten, in de
telecom-business, in de logistiek, diensten-sector en de publieke sector.
Beschrijving van de opdracht
Bedrijven merken vaak pas wanneer er iets mis loopt wanneer ze hierop gewezen worden,
of wanneer er iemand specifiek naar op zoek gaat. We willen een systeem ontwikkelen dat
voor hen abnormale patronen in hun data gaat herkennen, waardoor ze hier proactief op
kunnen reageren. Denk aan klanten van wie hun account gekaapt wordt waardoor ze plots
vanop verschillende plaatsen vanuit heel de wereld beginnen inloggen, of servers die
worden overgenomen waardoor ze overmatig veel requests beginnen te sturen, dagelijkse
processen die plots veel meer data te verwerken krijgen door een update aan een ander
systeem, …
Je bent verantwoordelijk voor het analyseren, ontwerpen en bouwen van een systeem
dat grote datasets kan analyseren, en daaruit abnormale gebeurtenissen kan filteren.
Deze abnormale gebeurtenissen moeten dan getoond worden samen met een
begrijpelijke verklaring waarom deze data abnormaal is.
De eerste opdracht zal zijn het systeem te ontwikkelen dat de data kan begrijpen. Dit is
minder eenvoudig dan het lijkt. De structuur van het bestand zal onderzocht moeten
worden, er zal moeten gekeken worden of er recurrente velden zijn en wat de
datatypes van deze velden zijn. Dit moet allemaal automatisch gebeuren, of op zijn
minst met zo weinig mogelijk menselijke interactie.
Verder zullen normale patronen ontdekt moeten worden. Verschillende velden zullen
moeten geteld, geaggregeerd en gegroepeerd worden. Je kan hier gebruiken van
eenvoudige statistische methoden, of er kan gebruik gemaakt worden van verschillende
Machine Learning technieken. Je wordt in je keuze van de juiste algoritmes bijgestaan
door onze Data Scientists.
Daarna zal je abnormale patronen moeten identificeren, weer door middel van Machine
Learning technieken of statistische methodes, en deze op een begrijpbare manier tonen
aan je gebruikers. Je zal dus de beslissing van het systeem moeten duiden, en uitleggen
waarom dit element gemarkeerd is als abnormaal (bijvoorbeeld door het te vergelijken
met normale data uit dezelfde dataset)
Ook zal er een user interface gebouwd moeten worden waar nieuwe datasets kunnen
worden opgeladen, en abnormale elementen uit deze datasets getoond kunnen worden,
op een visueel attractieve manier.
Verder kan er ook gekeken worden of deze technieken ook toepasbaar zijn wanneer er real
time nieuwe data binnenkomt: bijvoorbeeld door een training set met historische gegevens
aan te bieden. Als er dan nieuwe data binnenkomt die abnormaal is, moet de gebruiker
hierop gewezen worden, en net als bij het batchproces uitgelegd krijgen waarom de
binnenkomende data als abnormaal gemarkeerd werd.
Te gebruiken technologieën
Je zal gebruik maken van Apache Spark, Spark MLLib (Machine Learning Library) en
Spark Streaming (Streaming Data Processing)
Programmeren doe je in Scala of in Java. Dus enige affiniteit met Big Data Technologieën
(Hadoop, Spark, …) is een plus. Maar met een goede achtergrond in Java kom je al een
heel eind.
Verdere benodigde technologieën zijn vrij te kiezen en te bepalen tijdens de analysefase.
We helpen je uiteraard wel bij het maken van de juiste keuze. Zeker bij het kiezen van
de juiste algoritmes voor de data-analyse kan je heel wat hulp verwachten van onze Data
Scientists.
Het aanbod van InfoFarm
Je werkt hier aan een heel concreet project, waarmee we uiteindelijk in afgewerkte
vorm ook naar onze klanten willen trekken. Je werkt dus niet aan een abstract project
dat uiteindelijk nooit meer gebruikt zal worden.
InfoFarm is een jong bedrijf, en ook onze werknemers zijn allemaal relatief jong. Je werkt
in onze kantoren in Kontich, waar alles voorzien is om je werkdag aangenaam door te
komen.
Je krijgt volledige ondersteuning van onze werknemers, fzowel op technisch als op
analytisch vlak. Je kunt werken op je eigen laptop (Mac of Windows, maakt ons niet uit).
Wij voorzien de software, en eventueel opleidingsmateriaal (boeken, cursussen) mocht je
merken dat je bepaalde technologieën die je nodig hebt toch niet gezien hebt in de
opleiding.
Download