Over InfoFarm InfoFarm is het Big Data en Data Science competence center binnen Cronos. Wij zijn nog maar recent opgestart (eind 2013), en ons team bestaat nu uit 13 mensen: Data Scientists (met verschillende achtergronden in kwantitatieve domeinen), gecombineerd met mensen die zich vanuit een Java-ontwikkelingsachtergrond in het Big Data domein hebben ingewerkt (Hadoop, Spark, ...), aangevuld met een infrastructuur-specialist. Wij staan onze klanten bij in Data Science projecten; het vinden van waardevolle informatie uit (al dan niet grote) datasets. Gewapend met de klassieke tools uit de open source community (Spark, Hadoop, Hive, Pig, enz...) bouwen we praktische Big Data oplossingen voor klanten, en analyseren we hun gegevens met Data Mining en Machine Learning technieken in R, MLlib, e.d. We hebben dergelijke opdrachten al uitgevoerd voor e-commerce klanten, in de telecom-business, in de logistiek, diensten-sector en de publieke sector. Beschrijving van de opdracht Bedrijven merken vaak pas wanneer er iets mis loopt wanneer ze hierop gewezen worden, of wanneer er iemand specifiek naar op zoek gaat. We willen een systeem ontwikkelen dat voor hen abnormale patronen in hun data gaat herkennen, waardoor ze hier proactief op kunnen reageren. Denk aan klanten van wie hun account gekaapt wordt waardoor ze plots vanop verschillende plaatsen vanuit heel de wereld beginnen inloggen, of servers die worden overgenomen waardoor ze overmatig veel requests beginnen te sturen, dagelijkse processen die plots veel meer data te verwerken krijgen door een update aan een ander systeem, … Je bent verantwoordelijk voor het analyseren, ontwerpen en bouwen van een systeem dat grote datasets kan analyseren, en daaruit abnormale gebeurtenissen kan filteren. Deze abnormale gebeurtenissen moeten dan getoond worden samen met een begrijpelijke verklaring waarom deze data abnormaal is. De eerste opdracht zal zijn het systeem te ontwikkelen dat de data kan begrijpen. Dit is minder eenvoudig dan het lijkt. De structuur van het bestand zal onderzocht moeten worden, er zal moeten gekeken worden of er recurrente velden zijn en wat de datatypes van deze velden zijn. Dit moet allemaal automatisch gebeuren, of op zijn minst met zo weinig mogelijk menselijke interactie. Verder zullen normale patronen ontdekt moeten worden. Verschillende velden zullen moeten geteld, geaggregeerd en gegroepeerd worden. Je kan hier gebruiken van eenvoudige statistische methoden, of er kan gebruik gemaakt worden van verschillende Machine Learning technieken. Je wordt in je keuze van de juiste algoritmes bijgestaan door onze Data Scientists. Daarna zal je abnormale patronen moeten identificeren, weer door middel van Machine Learning technieken of statistische methodes, en deze op een begrijpbare manier tonen aan je gebruikers. Je zal dus de beslissing van het systeem moeten duiden, en uitleggen waarom dit element gemarkeerd is als abnormaal (bijvoorbeeld door het te vergelijken met normale data uit dezelfde dataset) Ook zal er een user interface gebouwd moeten worden waar nieuwe datasets kunnen worden opgeladen, en abnormale elementen uit deze datasets getoond kunnen worden, op een visueel attractieve manier. Verder kan er ook gekeken worden of deze technieken ook toepasbaar zijn wanneer er real time nieuwe data binnenkomt: bijvoorbeeld door een training set met historische gegevens aan te bieden. Als er dan nieuwe data binnenkomt die abnormaal is, moet de gebruiker hierop gewezen worden, en net als bij het batchproces uitgelegd krijgen waarom de binnenkomende data als abnormaal gemarkeerd werd. Te gebruiken technologieën Je zal gebruik maken van Apache Spark, Spark MLLib (Machine Learning Library) en Spark Streaming (Streaming Data Processing) Programmeren doe je in Scala of in Java. Dus enige affiniteit met Big Data Technologieën (Hadoop, Spark, …) is een plus. Maar met een goede achtergrond in Java kom je al een heel eind. Verdere benodigde technologieën zijn vrij te kiezen en te bepalen tijdens de analysefase. We helpen je uiteraard wel bij het maken van de juiste keuze. Zeker bij het kiezen van de juiste algoritmes voor de data-analyse kan je heel wat hulp verwachten van onze Data Scientists. Het aanbod van InfoFarm Je werkt hier aan een heel concreet project, waarmee we uiteindelijk in afgewerkte vorm ook naar onze klanten willen trekken. Je werkt dus niet aan een abstract project dat uiteindelijk nooit meer gebruikt zal worden. InfoFarm is een jong bedrijf, en ook onze werknemers zijn allemaal relatief jong. Je werkt in onze kantoren in Kontich, waar alles voorzien is om je werkdag aangenaam door te komen. Je krijgt volledige ondersteuning van onze werknemers, fzowel op technisch als op analytisch vlak. Je kunt werken op je eigen laptop (Mac of Windows, maakt ons niet uit). Wij voorzien de software, en eventueel opleidingsmateriaal (boeken, cursussen) mocht je merken dat je bepaalde technologieën die je nodig hebt toch niet gezien hebt in de opleiding.