Frequent pattern discovery for integrated omics data

Datum: 5 juli 2016

Locatie: UAntwerpen, Campus Middelheim, A.143 - Middelheimlaan 1 - 2020 Antwerpen

Tijdstip: 16 uur

Promovendus: Stefan Naulaerts

Promotor: Kris Laukens & Wim Vanden Berghe

Korte beschrijving: Doctoraatsverdediging Stefan Naulaerts - Faculteit Wetenschappen



Abstract

Data mining en het gebruik van algorithmes om patronen te identificeren in grote hoeveelheden data vormen al sinds tientallen jaren een integrale hoeksteen van bioinformatica. Desalniettemin zijn verscheidene beloftevolle technieken nog onvoldoende geëvalueerd op praktische problemen die relevant zijn voor ondermeer biologen. In deze doctoraatshesis, bestuderen we specifiek de wereld van frequent itemset mining algoritmes. Dit stemt overeen met het zoeken van correlaties, gebruik makend van heuristieken. Frequent itemset mining algorithmes zijn zeer flexibel in gebruik en staan ons toe om zeer snel grote hoeveelheden correlatiepatronen te genereren op een wijze die onafhankelijk is van het omics-niveau. Bovendien kunnen deze algorithmes toegepast worden op combinaties van 'omics'-niveaus, waardoor 'cross-level' patronen geïdentificeerd en bestudeerd kunnen worden. Door deze eigenschappen, in combinatie met hun inherente verklarend vermogen, vormt deze groep van technieken een interessant studieobject voor deze thesis.

In een eerste stap, bestuderen we de relatie tussen correlaties bekomen via frequent itemset mining en eigenschappen die traditioneel van onschatbare waarde zijn gebleken voor biologen en biochemici: ontologiën en interactienetwerken. Een logisch vervolg hiervan is de vraag hoe deze patronen op een manier gevisualiseerd kunnen worden die intuïtief is voor wetenschappers die minder vertrouwd zijn met de algorithmes. Verder gebruikten we deze methoden om een nieuw soort meta-analyse uit te voeren die in staat is om frequent samen voorkomende biologische elementen (zoals eiwitten) op te sporen en zetten we de stap naar kankeronderzoek, waarin we in staat waren om kankersubtypes te identificeren en te correleren aan medische parameters zoals overlevingskans van de patiënt. Ten slotte gebruikten we een workflow gebaseerd op dezelfde technieken om op een homogene manier medicinaal belangrijke stoffen in functie van hun werking en potentiële drug targets te kunnen karakteriseren.