Samenhangend patroon Mining in Sequential en Spatial Data

Datum: 2 september 2015

Locatie: UAntwerpen - Campus Middelheim - Lokaal A.143 - Middelheimlaan 1 - 2020 Antwerpen

Tijdstip: 15 uur

Organisatie / co-organisatie: Departement Wiskunde-Informatica

Promovendus: Cheng Zhou

Promotor: Bart Goethals

Korte beschrijving: Doctoraatsverdediging Cheng Zhou - Departement Wiskunde-Informatica, Faculteit Wetenschappen



Abstract

Het doel van patroon mining is op zoek naar patronen in de gegevens die kunnen helpen bij het verklaren van de onderliggende structuur. Om praktisch bruikbaar te zijn, moet de gevonden patronen interessant en makkelijk te begrijpen zijn. In de praktijk worden we geconfronteerd met verschillende mogelijke toepassingen en verschillende soorten gegevens, zoals sequentiegegevens, eiwitstructuren, geografische databank datastroom, waarbij de ruimtelijke/temporele informatie van de gegevens belangrijk. Daarom, bij het zoeken naar interessante patronen in deze gegevens moeten we rekening houden hoe ruimtelijk/tijdelijk dicht bij elkaar zijn punten optreden.

In dit proefschrift bestuderen we het probleem van patroon mining voor verschillende toepassingen, dwz sequentieclassificatie, structuur-analyse en voorspellingen in event streams, door het definiëren van verschillende interestingness maten.

We proberen het probleem van de sequentieclassificatie op basis van interessante patronen gevonden in een dataset van gelabelde sequenties. De interestingness van een patroon in een bepaalde klasse van sequenties wordt bepaald door het combineren van de cohesie en de support van de patroon. We gebruiken de ontdekte patronen om classificatie regels te genereren, en presenteren twee manieren om hiermee een classificatiemodel te bouwen. Verder testen we een aantal machine learning algoritmen voor sequentieclassificatie met behulp van de gevonden patronen als features om elke sequentie als een feature vector te kunnen vertegenwoordigen.

We presenteren nieuwe interestingness maatregelen om cohesieve itemsets in een of meerdere multidimensionale ruimtelijke structuren te identificeren. De bruikbaarheid van de methode blijkt uit de toepassing ervan om interessante patronen van cohesieve aminozuren te vinden binnen een groep eiwitten op basis van hun atoomcoördinaten in de moleculaire structuur. De experimenten op de geografische gegevens van een stad demonstreren de efficiëntie en begrijpbaarheid van het algoritmes.

We presenteren een predictiemodel bestaande uit een frequente sequentiële patroon miner en een event predictiemodel. Ten eerste, introduceren we een nieuwe methode voor de patroon miner om de optimale foutgrens dynamisch te bepalen door het geheugengebruik te maximaliseren om een hogere nauwkeurigheid te bereiken. Ten tweede, gebruiken we de gevonden patronen om toekomstige gebeurtenissen te voorspellen. Binnen deze context zijn de interessante patronen deze waarvan voorspelde positie valt binnen het voorspellingsbereik.