Abstract
In de afgelopen decennia is de beschikbaarheid van data exponentieel gegroeid door technologische vooruitgang zoals goedkopere en grotere opslag en een toename van informatieverzamelende apparaten. Als gevolg hiervan zijn datasets enorm in omvang toegenomen en bevatten ze vaak miljoenen observaties en variabelen. Deze ontwikkeling heeft nieuwe uitdagingen gecreëerd voor de gebieden van statistiek en machine learning, die erop gericht zijn deze grote datasets op een efficiënte en uitgebreide manier te analyseren. In dit project richten we ons op regressie-analyse, een van de meest populaire hulpmiddelen voor het modelleren van een responsvariabele als functie van een aantal predictorvariabelen.
Een belangrijke uitdaging bij regressie-analyse is dat de kwaliteit van de data over het algemeen onbekend is. In het bijzonder kan de data anomalieën, meetfouten en andere soorten verdachte gegevens bevatten. Het negeren van dit feit kan rampzalige effecten hebben op de resultaten van vrijwel elke methode voor data-analyse. Aan de andere kant is het detecteren van uitschieters erg moeilijk, en nog moeilijker wanneer de omvang van de dataset toeneemt. Dit motiveert de behoefte aan methodologie voor regressie die robuust is tegen uitschieters, zodat betrouwbare resultaten kunnen worden verkregen, zelfs wanneer de dataset gecontamineerd is.
Traditioneel beschouwt het domein van de robuuste statistiek "casewise" uitschieters die zich op het niveau van de observatie voordoen. Dit betekent dat een observatie ofwel verdacht is, of volledig betrouwbaar. Meer recent werd "celgewijze" contaminatie voorgesteld, die zich op het niveau van de cel voordoet en een meer realistisch vertrekpunt vormt de context van big data. Een celgewijs contaminatiemodel impliceert dat voor een gegeven observatie bepaalde variabelen betrouwbaar kunnen zijn, terwijl andere dat niet zijn. De uitdaging wordt dus om de niet-gecontamineerde datacellen te identificeren en deze te gebruiken voor de schatting, terwijl de invloed van de gecontamineerde cellen wordt beperkt.
Hoewel er verschillende voorstellen zijn gedaan voor regressie onder celgewijze contaminatie, ontbreekt het de hele onderzoekslijn aan richting en algemene fundamenten. Voor gevalsgewijze verontreiniging bestaan er algemene kaders voor de ontwikkeling van robuuste schatters, en deze omvatten hulpmiddelen voor het analyseren van hun statistische en computationele eigenschappen. Het ontbreken van celgewijze tegenhangers van deze kaders maakt het probleem van celgewijze contaminatie in het algemeen slecht begrepen.
Dit voorstel brengt kennis uit robuuste statistiek, machine learning en optimalisatie samen en bouwt verder op mijn zeer recente werk over robuuste covariantie schatting om het probleem van celgewijze uitschieters in regressie fundamenteel aan te pakken. Het project begint met het maken van een duidelijk overzicht van de state-of-the-art door middel van een benchmarkstudie en een samenvatting van de bestaande theorie. Het zal vervolgens een algemeen kader onderzoeken voor celgewijze robuuste lineaire regressie, de eigenschappen van het kader afleiden en efficiënte optimalisatiestrategieën ontwerpen. Het biedt mogelijkheden voor uitbreidingen in de richting van geregulariseerde schatting en niet-lineaire modellering. Naast de ontwikkeling van methodologie, streeft het project ernaar de ernst van celgewijze contaminatie in praktische uitdagingen te beoordelen door samen te werken met experts op het gebied van macro-economische tijdreeksmodellering en geneesmiddelenontwikkeling.
Gezien de alomtegenwoordigheid van regressie-analyse, impliceren de verwachte resultaten een brede potentiële impact, die ver buiten de fundamentele disciplines van statistiek en informatica reikt, tot disciplines zoals epidemiologie, omics, fysica, chemometrie en economisch beleid.
Onderzoeker(s)
Onderzoeksgroep(en)
Project type(s)