Query Approximation Techniques for Data Analytics

Datum: 5 september 2016

Locatie: UAntwerpen, Campus Middelheim, A.143 - Middelheimlaan 1 - 2020 Antwerpen (route: UAntwerpen, Campus Middelheim)

Tijdstip: 16 uur

Organisatie / co-organisatie: Departement Wiskunde-Informatica

Promovendus: Reuben Ndindi

Promotor: Floris Geerts

Korte beschrijving: Doctoraatsverdediging Reuben Ndindi - Faculteit Wetenschappen, Departement Wiskunde-Informatica



Abstract

Technologische ontwikkelingen van de laatste decennia maken het genereren en opslaan van grote hoeveelheden gegevens steeds goedkoper en eenvoudiger. Onderzoekscentra, overheden, bedrijven, en zelfs individuen zijn in het bezit van enorme hoeveelheden gegevens. Dergelijke grote hoeveelheden gegevens zorgen echter voor nieuwe uitdagingen. Inderdaad, ze dienen te worden geanalyseerd om daarna, gebaseerd op deze analyses beslissingen te nemen of conclusies te vormen.

Dit analyse proces valt onder de noemer van data analytics en bestaat enerzijds uit het verkennen van de gegevens door middel van queries (bevragingen) aan de onderliggende database, en anderzijds uit het toepassen van data mining  technieken om kennis uit deze gegevens te halen.

De  grote hoeveelheid aan data vraagt echter om zeer efficiënte methoden om queries te evalueren. Inderdaad, zelfs het uitvoeren van zeer eenvoudige queries vereist soms een scan van de dataset, dit kan uren tot zelfs dagen duren. Hoewel recente ontwikkelingen in hardware en de opkomst van nieuwe parallelle computing paradigma's (zoals MapReduce, Spark) het tot op zekere hoogte mogelijk maken om queries op  een parallelle en gedistribueerde  manier te evalueren, lossen deze niet alle problemen op.  In de laatste jaren is de interesse voor het ontwikkelen van efficiënte benaderingsmethoden voor queries dan ook sterk toegenomen, omdat deze gebruikers op een snelle manier inzicht geven in de data.

Query benaderingstechnieken zijn echter vooral ontworpen voor zogenaamde aggregatie-queries. In de meeste toepassingen zijn echter ook “gewone” queries aanwezig die geen aggregatie gebruiken. Als deel van dit proefschrift beschrijven we een algemene techniek die het toelaat om dergelijk queries te benaderen. Meer bepaald tonen we aan dat we door bestaande database-systemen minimaal aan te passen, queries op een zeer nauwkeurige manier kunnen benaderen én kunnen we de fouten die deze benaderingen maken precies kwantificeren.

Zoals reeds vermeld vormen technieken uit data mining ook een essentieel onderdeel van data analytics. In het bijzonder betreft het hier clusteringtechnieken die objecten in groepen  verdelen aan de hand van bepaalde kwantitatieve maten. Een veel gebruikte clusteringmethode is correlatieclustering. Het doel is om objecten te groeperen zodat zich binnenin een groep zoveel mogelijk gelijkaardige objecten bevinden, en zoveel mogelijk objecten die niet gelijkaardig zijn, zich in aparte groepen bevinden. Correlatie clusteringmethoden genereren dergelijke groepering op een automatische manier. Om op een interactieve manier grote hoeveelheden gegevens te clusteren moeten clusteringmethoden gebruikers toelaten de kwaliteit van een clustering te controleren. Als deel van dit proefschrift bekijken we correlatieclustering vanuit dit interactief oogpunt.



Link: http://---