Fijnmazige sentiments- en opiniedetectie van politieke berichten op sociale netwerksites 01/02/2014 - 31/12/2014

Abstract

Dit project beoogt de ontwikkeling van een geannoteerd corpus voor fijnmazige sentiments- en opiniedetectie van berichten op sociale netwerken. Onze case study zal berichten monitoren over politiek in het kader van de Belgische verkiezingen in 2014. We annoteren hierbij niet enkel het sentiment van het bericht op een meer robuuste manier, maar duiden ook de houder van de opinie, het object van de opinie en de eigenschappen van dat object aan.

Onderzoeker(s)

Onderzoeksgroep(en)

De computationele leerbaarheid van morfologisch complexe talen. 01/10/2009 - 30/09/2012

Abstract

Doelstelling van het project: Traditionele systemen voor spellingcontrole maken gebruik van een woordenlijst. Wanneer een woord niet voorkomt in de woordenlijst, markeert het systeem het woord als "fout". Recente systemen (o.a. Németh 2009) benaderen het probleem van spellingcontrole voor agglutinerende talen vanuit een andere invalshoek: een woord wordt beschouwd als een spelfout, als het niet kan worden gegenereerd door eenachterliggend morfotactisch model. In dit project onderzoeken we hoe een spellingchecker kan gebruikt worden als hulpmiddel bij het automatisch leren van een morfotactisch systeem voor het Swahili.

Onderzoeker(s)

Onderzoeksgroep(en)

Computationele technieken voor stylometrie voor het Nederlands. 01/01/2007 - 31/12/2010

Abstract

In dit project stellen we een methodologie voor de automatische extractie en analyse van stijlkenmerken voor die we willen toepassen op individuele auteurs (auteursherkenning, zowel van non-fictie als fictie) en groepen van auteurs (extractie van stijlkenmerken geassocieerd met sekse en leeftijdsgroep). De methodologie bevat de volgende onderdelen: (1) Een automatische taalkundige analyse van documenten met behulp van de beschikbare tekstanalyse-instrumenten op het niveau van morfologische structuur, woordsoort, globale syntactische structuur en semantische rollen (subject, object, temporeel, locatie) voor de constructie van potentieel relevante stilistische kenmerken. (2) Gebruik van niet-gesuperviseerde en gesuperviseerde leertechnieken voor de selectie van de meest informatieve stilistische kenmerken en de constructie van een model van de stijl van een auteur (of group van auteurs). (3) Evaluatie van de geconstrueerde modellen door (a) vergelijking met stilistische analyses in taalkunde en literatuurwetenschap en (b) empirische toetsing van de voorspellende kracht van de modellen.

Onderzoeker(s)

Onderzoeksgroep(en)

Het Sawa Corpus ¿ een parallel corpus "Engels ¿ Kiswahili". 01/01/2007 - 31/12/2008

Abstract

Dit project beoogt een opgelijnd parallel corpus voor het talenpaar Engels ¿ Kiswahili door middel van semi-automatische annotatie. Deze oplijning faciliteert niet alleen onderzoek naar statistische automatische vertaling, maar maakt ook projectie van annotatie mogelijk. In dit project onderzoeken we hoe dependentie-analyses uit de brontaal (Engels) kunnen worden geprojecteerd op de doeltaal (Kiswahili).

Onderzoeker(s)

Onderzoeksgroep(en)

Linguïstische beschrijving van minderheidstalen met behulp van automatische leertechnieken. 01/10/2006 - 30/09/2009

Abstract

Linguïstisch geannotateerde tekstcorpora zijn een belangrijk hulpmiddel bij de taaltechnologische ontsluiting van een taal. Voor commercieel interessante talen, zoals het Engels en het Nederlands, kunnen bestaande geannoteerde corpora gebruikt worden om accurate en robuste taaltechnologische toepassingen te ontwikkelen. Als er geen vooraf geannoteerde corpora beschikbaar zijn, wat het geval is bij minderheidstalen, zijn de traditionele datagebaseerde algoritmen echter onbruikbaar. Dit project onderzoekt de geautomatiseerde linguïstische beschrijving van minderheidstalen op basis van alternatieve classificatietechnieken. Daarbij zal gebruik worden gemaakt van algoritmen die het gebrek aan geannoteerde corpora omzeilen door zelf een eerste classificatie af te leiden. Die classificatie kan gebaseerd zijn op corpora met lopende tekst (techniek: "unsupervised learning") of op bestaande, geannoteerde corpora voor een andere taal (techniek: "kennistransfer"). De methodologie die in dit project wordt voorgesteld, laat toe om het gebruik en de werking van de respectieve classificatietechnieken systematisch te vergelijken en te evalueren.

Onderzoeker(s)

Onderzoeksgroep(en)

OCAPI - Ontsluiting van CGN annotatie voor portabiliteit naar nieuwe informatiebronnen. 01/05/2005 - 31/12/2006

Abstract

Onderzoeker(s)

Onderzoeksgroep(en)

Syntaxis als knelpunt in taaltechnologisch onderzoek. Aanpassing van geheugen-gebaseerde leersysteem voor en door syntactisch onderzoek met autonome intelligente agenten. 01/10/2000 - 30/09/2002

Abstract

Dit project verkent de mogelijke integratie van twee sub-disciplines van de Artificiële Intelligentie aan de hand van de problematische rol van syntaxis binnen beide. Het syntactisch onderzoek binnen Memory Based Reasoning spitst zich toe op de optimalisering van twee classificatietaken: classificatie van segmentering (afbakenen van constituenten) en classificatie van desambiguering (toekennen van grammaticale categorieën). De robotische experimenten zoals die door de Origins of Language onderzoek van het AI-lab van de VUB worden uitgevoerd, kunnen eveneens worden geherinterpreteerd als classificatie-experimenten. In beide domeinen is deze classificatie problematisch. Overkoepelende experimenten, waarin eigenschappen van zowel MBR als het OoL-onderzoek worden gecombineerd, zullen proberen nieuwe inzichten aan te brengen voor beide onderzoeksdomeinen. zodat een aantal belangrijke beperkingen kunnen worden overkomen.

Onderzoeker(s)

Onderzoeksgroep(en)

    Syntaxis als knelpunt in taaltechnologisch onderzoek. Aanpassing van geheugen-gebaseerde leersysteem voor en door syntactisch onderzoek met autonome intelligente agenten. 01/10/1998 - 30/09/2000

    Abstract

    Dit project verkent de mogelijke integratie van twee sub-disciplines van de Artificiële Intelligentie aan de hand van de problematische rol van syntaxis binnen beide. Het syntactisch onderzoek binnen Memory Based Reasoning spitst zich toe op de optimalisering van twee classificatietaken: classificatie van segmentering (afbakenen van constituenten) en classificatie van desambiguering (toekennen van grammaticale categorieën). De robotische experimenten zoals die door de Origins of Language onderzoek van het AI-lab van de VUB worden uitgevoerd, kunnen eveneens worden geherinterpreteerd als classificatie-experimenten. In beide domeinen is deze classificatie problematisch. Overkoepelende experimenten, waarin eigenschappen van zowel MBR als het OoL-onderzoek worden gecombineerd, zullen proberen nieuwe inzichten aan te brengen voor beide onderzoeksdomeinen. zodat een aantal belangrijke beperkingen kunnen worden overkomen.

    Onderzoeker(s)

    Onderzoeksgroep(en)