Mining Patterns in Dirty Data for Detecting and Correcting Inconsistencies

Datum: 10 oktober 2018

Locatie: Campus Middelheim, A.143 - Middelheimlaan 1 - 2020 Antwerpen (route: UAntwerpen, Campus Middelheim)

Tijdstip: 16 uur

Organisatie / co-organisatie: Departement Wiskunde-Informatica

Promovendus: Joeri Rammelaere

Promotor: Floris Geerts & Bart Goethals

Korte beschrijving: Doctoraatsverdediging Joeri Rammelaere - Faculteit Wetenschappen, Departement Wiskunde-Informatica



Abstract

Data wordt gegenereerd, bij elkaar geschraapt, en geïntegreerd tegen nooit eerder geziene snelheden. Tegelijkertijd blijkt de kwaliteitscontrole op deze data niet in staat om bij te blijven. Veel van onze data komt voort uit mogelijk onbetrouwbare bronnen, zoals gebrekkige sensoren, heuristische technieken, en overwerkte mensen. Bijgevolg wordt deze enorme massa aan data steeds meer dirty.

Dit fenomeen is problematisch voor iedere grote organizatie, en kost de economie van de VS alleen al naar schatting honderden miljoenen tot miljarden dollars op jaarbasis. Afgezien van bedrijven die financiële verliezen lijden, heeft de dirtiness van data ook een serieuze impact op gebieden zoals data analyse, kennisextractie uit databases, en machine learning. Dergelijke applicaties steunen traditioneel op grote hoeveelheden data, en vermits de data vaak dirty is, kan dit leiden tot foute conclusies, gebrekkige modellen, of valse patronen.

In dit proefschrift ligt de focus op foutieve data, in de vorm van combinaties van waarden die een overtreding vormen van bepaalde logische regels. Zulke regels noemen we kwaliteitsregels, en ze specifiëren typisch hoe “propere” data er hoort uit te zien. Doorheen dit proefschrift hebben we vanuit verschillende invalshoeken het probleem bekeken om deze kwaliteitsregels te vinden. De voornaamste uitdaging hierbij is dat, in de meeste gevallen, de correcte regels niet gekend zijn. We benaderen dit probleem in dit proefschrift door een gebruiker in te schakelen om kwaliteitsregels te valideren, en door een geschikte interessemaat te gebruiken voor het vinden van overtredingen van deze regels. De gebruikte technieken zijn veelal geworteld in het gebied van pattern mining, een deelgebied van kennisextractie uit databases, dat vooral is gericht op het ontdekken van interessante associaties tussen zaken of gebeurtenissen.



Link: https://www.uantwerpen.be/wetenschappen