Onderzoeksgroep

Centrum voor Computerlinguïstiek en Psycholinguïstiek (CLiPS)

Expertise

Ontwikkeling van systemen voor taalverwerking / Computermodellen taalverwerking en taalverwerving / Textanalyse / Computerstylometrie / Corpusverwerving, -annotatie en -exploitatie

'Ik vertegenwoordig het volk, en mijn tegenstander niet!' De effecten van vertegenwoordigende claims op het gevoel van burgers dat ze (niet) vertegenwoordigd worden. 01/11/2020 - 31/10/2021

Abstract

Veel studies beschrijven de afkeer van burgers t.o.v. politiek. Mensen lijken het gevoel te hebben dat ze niet naar behoren worden vertegenwoordigd door de politici die men verkiest. Waar komt dit gevoel vandaan? Een gedeeltelijke verklaring, zo stel ik in dit project, kunnen we vinden in de communicatie van politici, meer bepaald in hun vertegenwoordigende claims. Elke dag beweren politici mensen te vertegenwoordigen (bv. Ik vertegenwoordig vrouwen) en stellen ze dat hun tegenstanders dit niet doen (bv. Hij vertegenwoordigt het volk niet). Doordat men genoemd wordt als 'de vertegenwoordigde' zullen sommigen zich misschien goed vertegenwoordigd voelen, terwijl anderen zich net vergeten en niet vertegenwoordigd voelen. Echter, weinig tot geen studies hebben tot dusver gedefinieerd wat 'zich vertegenwoordigd voelen' precies wil zeggen, laat staan dit gemeten. Ook is er amper empirisch onderzoek naar de vertegenwoordigende claims van politici. Hierdoor weten we zo goed als niets over de mogelijke effecten van deze claims op het gevoel van burgers dat ze (niet) vertegenwoordigd worden door politici en partijen. Dit project buigt zich over deze hiaten in de literatuur door eerst 'zich (niet) vertegenwoordigd voelen' te operationaliseren en te meten en vervolgens, de vertegenwoordigende claims door politici in Vlaanderen te meten en analyseren. Tenslotte zal ik experimenteel nagaan hoe deze claims de mate beïnvloeden waarin burgers zich vertegenwoordigd voelen.

Onderzoeker(s)

Onderzoeksgroep(en)

Onderzoekscentrum naar politieke vertegenwoordigers en hun communicatie 01/01/2020 - 31/12/2025

Abstract

In een context van stijgende ontevredenheid bij burgers met politieke representatie, onderzoekt PREPINTACT de overtuigingen, attitudes en gedragingen van drie types individuele intermediaire actoren—politici, leiders van belangengroepen en journalisten—in combinatie met de parallelle overtuigingen, attitudes en gedragingen van gewone burgers. Het project vertrekt van het idee dat we moeten inzoomen op individuele actoren om beter te begrijpen hoe representatie werkt. We onderzoeken de op- en neerwaartse stromen van informatie die de kern vormen van representatie en die de samenleving en het politiek systeem aan elkaar koppelen. Het consortium heeft een bijzondere interesse in politieke ongelijkheid. Een basishypothese is dat bepaalde, zwakkere maatschappelijke groepen minder adequaat worden gerepresenteerd. Binnen dat algemene kader lanceert PREPINTACT een aantal specifieke, comparatieve onderzoeksprojecten die gebruik maken van een hele reeks methoden uit de sociale wetenschappen (experimenten, surveys, observaties…) en de computerlinguïstiek. De concrete projecten onderzoeken de accuraatheid van de publieke- opiniepercepties van intermediairen, de sociale vertekening in hun persoonlijke netwerken, hun selectieve communicatie naar hun kiezers/leden/publiek toe, de rol van de sociale media in het versterken van hun attitudes, de manier waarop ze representeren binnen hun organisatie (partijen, media…), etc. Tezamen vormen deze projecten een nooit geziene, diepgaande studie van hoe intermediairen de representatieve democratie doen werken (of niet).

Onderzoeker(s)

Onderzoeksgroep(en)

Dialectsyntaxis herbekeken. 01/01/2020 - 31/12/2024

Abstract

Het wetenschappelijke onderzoeksnetwerk Re-Examining Dialect Syntax (REEDS-netwerk) brengt taalwetenschappers uit Vlaanderen, Europa en de VS samen met verschillende empirische en theoretische achtergronden en met complementaire expertise, in een poging om te komen tot een diepere, meer afgeronde en beter gegrond begrip van dialectsyntaxis in het bijzonder en taalvariatie in het algemeen.

Onderzoeker(s)

Onderzoeksgroep(en)

European Language Grid 12/12/2019 - 30/06/2022

Abstract

ELG zal het commerciële landschap van de Europese taaltechnologie versterken door een pan-Europese markt te creëren. CLiPS is het National Competence Centres (NCC) voor België. ELG heeft 32 NCC's opgezet om een sterk Europees netwerk op te zetten. Ze zullen fungeren als regionale bruggen naar het project. De NCC's zullen ELG ondersteunen bij het verzamelen van regionale informatie over bedrijven, onderzoekscentra, middelen, diensten en projecten. Ze zullen regionale ELG-workshops organiseren en ELG in hun gebied promoten en bruggen slaan naar financieringsinstellingen.

Onderzoeker(s)

Onderzoeksgroep(en)

Kunstmatige Intelligentie voor creatief taalgebruik. 01/12/2019 - 30/11/2021

Abstract

Recente vooruitgang in Natural Language Processing (NLP) heeft geresulteerd in betrouwbare patroonvergelijkingstechnieken (meestal gebaseerd op diepe neurale netwerken) voor verschillende NLP-taken (tekst naar spraak, spraak naar tekst, tekstgeneratie, tekstvertaling, multimodaliteit, tekstanalyse, ...) . Het creatieve gebruik van taal (bijvoorbeeld in reclameslogans, liedjesteksten, humor, ironie, metafoor, ...) is buiten het bereik van de huidige benaderingen gebleven. We zullen onderzoeken hoe de verbeterde stand van zaken in de technieken voor 'letterlijke' taalverwerking het ontwerp van creatieve taalverwerkingssystemen kan beïnvloeden. Valorisatieplan: Het onderzoek richt zich op twee soorten gebruikers en toepassingen: (i) professionele schrijvers die hulpmiddelen zullen kunnen gebruiken om ideeën en concepten te genereren (woordspelingen, grappen, titels, korte teksten met metaforen) en (ii) taalliefhebbers die zullen worden voorzien van tools die hun schrijfproductie kunnen stimuleren door voorbeelden en ideeën te produceren. Benadering: 1. Ontwikkeling van proofs of concept van domeinafhankelijk creatief schrijven 2. Ontwerp van applicaties en hulpmiddelen voor copywriting 3. Ontwerp van applicaties voor ondersteuning bij het schrijven als entertainment

Onderzoeker(s)

Onderzoeksgroep(en)

Reputatie en Structurele Hervormingen van Publieke Organisaties: Een Verklarende studie van Dynamieken doorheen de tijd. 01/11/2019 - 31/10/2022

Abstract

Dit project focust op de wederzijdse relatie tussen de reputatie van overheidsorganisaties en de structurele hervormingen die ze ervaren. Overheidsorganisaties voeren belangrijke taken uit. Wanneer de prestatie van overheidsorganisaties in vraag wordt gesteld, staan politici en ambtenaren vaak onder druk om structurele hervormingen door te voeren (bv. door taken weg te nemen van deze organisaties of hun diensten te reorganiseren). Hervormingen hebben dan ook symbolische waarde, als signaal dat percepties rond problemen met overheidsorganisaties erkend en aangepakt worden. Nochtans is de relatie tussen percepties over prestaties van overheidsorganisaties (of: hun reputatie) en de structurele hervormingen van deze organisaties nog niet onderzocht op een groot aantal cases. Evenmin kennen we het effect van hervormingen op de toekomstige reputaties van deze organisaties. Dit project gaat in op deze lacunes. De dynamische relaties tussen de reputatie van organisaties en hun hervormingen worden onderzocht op een diverse set van 60 Vlaamse overheidsorganisaties. Bijzondere aandacht gaat naar de modererende rol van diverse vormen van reputatiemanagement, alsook van organisatie- en contextfactoren. Recente ontwikkelingen in geautomatiseerde tekstanalyse worden toegepast om data te verzamelen over verschillende facetten van de reputaties en het reputatiemanagement van organisaties. Geavanceerde statistische modellen laten toe om bovengenoemde relaties te analyseren doorheen de tijd.

Onderzoeker(s)

Onderzoeksgroep(en)

Accommodatie en non-accommodatie in het informele online taalgebruik van adolescenten: Sociale determinanten en linguïstische effecten. 01/10/2019 - 19/01/2023

Abstract

Deze studie wil onderzoeken hoe tieners hun informele online taalgebruik aanpassen aan hun gesprekspartner, en welke sociale en contextuele factoren dit proces van accommodatie beïnvloeden. Aangezien de analyse van linguïstische accommodatie in sociale-mediacontexten nog grotendeels onontgonnen terrein is, vult het project een lacune. Het wil de impact onderzoeken van meerdere aspecten van het socio-demografische profiel van tieners en hun interactie op een brede waaier aan talige en pragmatische kenmerken. We willen nagaan of uiteenlopende patronen van talige aanpassing kunnen worden waargenomen voor jongeren met een verschillend socio-demografisch profiel, en welke talige kenmerken het meest of minst vatbaar blijken voor aanpassing. Binnen het onderzoeksdesign wordt een onderscheid gemaakt tussen robuuste analyses van intergroepaccommodatie en gedetailleerde diachrone analyses van accommodatie tussen bepaalde individuen. Deze unieke opzet kan tot vernieuwende sociolinguïstische bevindingen leiden m.b.t. het profiel van (non-)accommodators, en een grondig inzicht verschaffen in de sociale, linguïstische en pragmatische parameters die accommoderend taalgedrag beïnvloeden (en bij uitbreiding ook processen van taalverandering). Op een algemener theoretisch vlak beogen we een eenduidige afbakening van het concept accommodatie om een antwoord te bieden op de fundamentele vraag of echte accommodatie ondubbelzinnig onderscheiden kan worden van andere oorzaken van talige adaptatie.

Onderzoeker(s)

Onderzoeksgroep(en)

Vlaams AI programma 01/07/2019 - 31/12/2021

Abstract

Het Vlaams AI-onderzoeksprogramma heeft als doel om het strategisch basis onderzoek omtrent AI aan de Vlaamse universiteiten en kenniscentrums te stimuleren. Dit onderzoek moet toepasbaar en relevant zijn voor de Vlaamse industrie. Concreet werden er 4 grote uitdagingen, met toenemende complexiteit, gedefinieerd: 1. Het ondersteunen van complexe beslissingen: focus op het nemen van complexe beslissingen door AI-systemen gebaseerd op datasets die mogelijks onvolledige of foutieve informatie kunnen bevatten. 2. Het verzamelen en verwerken van informatie in de edge: focus op het gebruik van AI-systemen in de egde i.p.v. de cloud door de integratie van software en hardware en de ontwikkeling van algoritmen die minder energie en andere hulpbronnen nodig hebben. 3. De autonome interactie met andere beslissingsentiteiten: focus op samenwerking tussen verschillende AI-systemen die onafhankelijk van elkaar opereren. 4. Het naadloos communiceren en samenwerken met mensen: focus op de natuurlijke interactie tussen mensen en AI-systemen en de ontwikkeling van AI-systemen die complexe omgevingen kunnen begrijpen en menselijke redeneringen kunnen toepassen.

Onderzoeker(s)

Onderzoeksgroep(en)

Het taalkundige landschap van haatspraak in sociale media. 01/01/2019 - 31/12/2022

Abstract

Haatspraak in sociale media is een breed verspreid fenomeen dat vaak de aandacht krijgt in de media. In dit project onderzoeken we de eigenschappen van de taal die wordt gebruikt om haat uit te drukken in de sociale media, vooral tegenover migranten en LGBT. Eerst verzamelen we voorbeelden uit sociale media en ontwikkelen we methodes voor de automatische taalkundige analyse ervan. De analyse zal zowel op oppervlakkig taalkundig niveau (spelling en grammaticale patronen) als op een dieper taalkundig niveau (bijvoorbeeld figuurlijk taalgebruik, rol van context en impliciete uitdrukkingen) gebeuren. Naast de taalkundige beschrijving van het fenomeen zullen we ook systemen ontwikkelen voor de automatische detectie ervan in sociale media tekst. Het project gebeurt in samenwerking met onderzoeksgroepen in Slovenië en richt zich op Nederlands, Sloveens en Engels.

Onderzoeker(s)

Onderzoeksgroep(en)

Het oplossen van vraagstukken uit de kansrekening en combinatoriek in natuurlijke taal. 01/01/2018 - 31/12/2021

Abstract

In dit project wordt een volautomatische aanpak ontwikkeld die toelaat oefeningen op te lossen over combinatoriek en waarschijnlijkheidsleer, zoals die in inleidende tekstboeken in discrete wiskunde kunnen gevonden worden. De mogelijkheid dergelijke problemen op te lossen is een belangrijke cognitieve en intellectuele vaardigheid en wordt geëvalueerd als onderdeel van academische toelatingsproeven zoals de SAT, GMAT en GRE. De vraagstukken zullen geformuleerd worden in natuurlijke taal en de taak voor het systeem is om automatisch de vragen te beantwoorden. We zullen een twee-stappen aanpak ontwikkelen hiervoor. In de eerste stap analyseren en transformeren we de natuurlijke taal vraag naar een hoog-niveau model geformuleerd in een declaratieve taal. In de tweede stap wordt dit hoog-niveau model opgelost door de inferentiemechanismen van de declaratieve modelleringstaal te gebruiken. De taal en de inferentiemechanismen zijn gebaseerd op de principes van probabilistisch programmeren, een steeds populairder programmeerparadigma. Hoewel het onmiddellijke doel van het project het oplossen van de vraagstukken is, is het lange termijn doel om bij te dragen tot de automatisering van het oplossen van probabilistische en combinatorische problemen en toe te laten dit soort problemen in natuurlijke taal te modelleren en programmeren, twee doelstellingen die uiterst relevant zijn voor cognitive computing en artificiële intelligentie

Onderzoeker(s)

Onderzoeksgroep(en)

Intelligente neurale systemen als geïntegreerde erfgoedinstrumenten (INSIGHT). 15/12/2016 - 31/07/2022

Abstract

Het INSIGHT-project zet in op de toepassing van geautomatiseerde algoritmes uit het domein van de artificiële intelligentie om culturele erfgoedinstellingen te ondersteunen bij hun lopende digitalisatie-initiatieven en het beheer van hun snel groeiende digitale collecties. We focussen op de recente vooruitgang in machine-gebaseerd leren, waar de toepassing van diepe neurale netwerken tot belangrijke doorbraken heeft geleid in natuurlijke taalverwerking en computationele perceptie-studies. We gaan na hoe geavanceerde algoritmes kunnen gebruikt worden om op (semi-automatische wijze) digitale objecten te beschrijven en te catalogeren, in het bijzonder deze waarvoor geen of slechts nauwelijks metadata beschikbaar zijn. Dit project plaatst de collecties van twee federale museumclusters te Brussel centraal (Koninklijke Musea voor Schone Kunsten en Koninklijke Musea voor Kunst en Geschiedenis) en neemt zich voor hun digitale collecties klaar te maken om opgenomen te worden in Europeana.

Onderzoeker(s)

Onderzoeksgroep(en)

Big Data van het verleden voor de toekomst van Europa (Time Machine) 01/03/2019 - 29/02/2020

Abstract

Europe moet dringend zijn engagement met zijn verleden herstellen en intensiveren. Time Machine zal Europa de technologie geven om zijn identiteit te versterken tegen de achtergrond van globalisering, populisme en toenemende sociale uitsluiting, door zijn geschiedenis en cultureel erfgoed om te vormen tot een levende hulpbron voor de co-creatie van zijn toekomst. Het Large Scale Research Initiative (LSRI) zal een grootschalige digitalisering en computerinfrastructuur ontwikkelen die de millennia van de Europese historische en geografische evolutie in kaart brengt, waarbij kilometers aan archieven, grote collecties van musea en bibliotheken en geohistorische datasets in een gedistribueerd digitaal informatiesysteem worden omgezet. Om te slagen wordt een reeks fundamentele doorbraken op het gebied van kunstmatige intelligentie en ICT nagestreefd, waardoor Europa de leider wordt op het gebied van de extractie en analyse van Big Data uit het verleden. Time Machine zal sociale en geesteswetenschappen naar grotere problemen leiden, waardoor nieuwe interpretatieve modellen op superieure schaal kunnen worden gebouwd. Het zal een nieuw tijdperk van open toegang tot bronnen inluiden, waar vroeger en nu onderzoek open wetenschap is. Deze voortdurende stroom van kennis zal een diepgaand effect hebben op het onderwijs, de reflectie over lange trends stimuleren en het kritisch denken aanscherpen, en zal fungeren als een economische motor voor nieuwe beroepen, diensten en producten, met gevolgen voor belangrijke sectoren van de Europese economie, waaronder ICT, de creatieve industrie en het toerisme, de ontwikkeling van slimme steden en landgebruik. De CSA zal een volledig LSRI-voorstel ontwikkelen rond de tijdmachine visie. Er zullen gedetailleerde routekaarten worden opgesteld, georganiseerd rond wetenschap en technologie, operationele beginselen en infrastructuur, exploitatiemogelijkheden en kadervoorwaarden. Een verspreidingsprogramma is gericht op verdere versterking van het snel groeiende ecosysteem, dat momenteel 95 onderzoeksinstellingen, de meest prestigieuze Europese verenigingen voor cultureel erfgoed, grote ondernemingen en innovatieve KMO's, invloedrijke bedrijfs- en maatschappelijke organisaties en internationale en nationale institutionele organen telt.

Onderzoeker(s)

Onderzoeksgroep(en)

CLARIAH-VL: Open Service Infrastructuur voor Humane Wetenschappen. 01/02/2019 - 31/01/2021

Abstract

Open Humanities Service Infrastructure is the Flemish contribution to the European DARIAH and CLARIN infrastructures. It brings together and extends the portfolio of services enabling digital scholarship in the Arts and Humanities offered by the DARIAH-VL Virtual Research Environment Service Infrastructure (VRE-SI; Hercules & FWO 2015-2018) with the digital tools and language data that are offered through CLARIN-DLU/Flanders. The consortium which includes the network of Digital Humanities Research Centres at the universities of Antwerp, Brussels, Ghent and Leuven has been extended with the Dutch Language Institute (INT) – the CLARIN-ERIC certified B-Centre for Flanders. CLARIAH-VL will implement a modular research infrastructure embedding high-quality, user-friendly tools and resources into the workflows of humanities researchers in the five focus areas of linguistics; literature; socio-economic history; media studies; ancient history and archaeology. CLARIAH-VL aims to provide sustainable services, while fostering experimental development and innovation. Offering an open infrastructure which facilitates public humanities is a guiding principle for CLARIAH-VL. It will ensure the accessibility and relevance of the humanities to the general public, specific (heritage) community groups and policy makers. It will make it technically possible to share knowledge, including sharing and co-creating knowledge with non-specialist users, such as facilitating citizen science and crowdsourcing projects. Furthermore, by implementing international best practices in FAIR (Findability, Accessibility, Interoperability and Reusability) Research Data Management (RDM), CLARIAH-VL will pave the way to Flemish participation in the European Open Science Cloud.

Onderzoeker(s)

Onderzoeksgroep(en)

De rol van de semantiek in het modelleren van het bilinguale mentale lexicon. 01/10/2018 - 18/06/2020

Abstract

Bilingualen, mensen die tegelijk twee of meer talen kennen en gebruiken, zijn een interessante bron van informatie voor het ontdekken van de interne structuur van het taalsysteem. De huidige modellen voor bilinguaal lezen van woorden verklaren de meeste empirische gegevens, maar tonen weinig aandacht voor de rol van betekenis. Ze modelleren woorden bovendien in isolatie. In dit project ontwikkelen we computermodellen van zinsverwerking waardoor betekenis een centrale rol speelt die het verdient en nieuwe verklaringen gegeven kunnen worden voor verschillende fenomenen in de bilinguale verwerking van woorden.

Onderzoeker(s)

Onderzoeksgroep(en)

Sabbatsverlof 2018-2019 Prof. Walter Daelemans 01/10/2018 - 30/09/2019

Abstract

De focus ligt op twee deelprojecten: in stilometrie wordt gekeken naar methodologische aspecten, vooral in verband met persoonlijkheidsdetectie uit tekst: optimalisatie van features, acquisitie en kwaliteit van data, modelselectie, en vooral verklaring van de werking van getrainde machine learning modellen. In het deelproject over machine learning van taal worden methodes onderzocht voor de integratie van kennis en redeneren met de op dit moment populaire deep learning "zwarte dozen".

Onderzoeker(s)

Onderzoeksgroep(en)

CATCH 2020: Computerondersteunde Transcriptie van Complexe Handschriften. 01/05/2018 - 30/04/2021

Abstract

CATCH 2020 beoogt een werkende infrastructuur aan te bieden om automatisch transcripties van complexe handgeschreven documenten te genereren. Om dit te verwezenlijken vertrekt het project van het bestaande Transkribus platform voor Handwritten Text Recognition (HTR) of 'automatische handgeschreven tekstherkenning'. Deze technologie stelt ons in staat om handgeschreven tekstuele documenten te behandelen en te verwerken op een manier die vergelijkbaar is met de manier waarop OCR (Optical Character Recognition) digitale kopieën van gedrukte teksten verwerkt. In plaats van platte transcripties, zal CATCH 2020 echter gestructureerde tekst produceren, alsook de nodige tools om tekstuele en linguïstische dimensies aan de transcripties toe te voegen. Om dit te bereiken combineert het project moderne inzichten uit de editiewetenschap met geavanceerde technologie uit de computerlinguïstiek.

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Towards a European Time Machine 01/10/2017 - 30/09/2020

Abstract

Wat als we door de tijd zouden kunnen reizen met hetzelfde gemak als we ons door de ruimte verplaatsen? Met het Time Machine consortium werken we toe naar een grootschalig FET Flagship-project om een grootschalige simulator te bouwen die in staat is om meer dan 2000 jaar aan Europese geschiedenis in kaart te brengen. Deze "Big Data" uit het verleden, die een gedeelde motor voor de toekomst kan worden, kan ongeziene verschuivingen teweegbrengen op cultureel, economisch en maatschappelijk gebied. Een beter begrip van het verleden is een belangrijke voorwaarde voor een beter begrip van de hedendaagse maatschappelijke uitdagingen waar Europa voor staat en draagt bij tot een meer inclusieve samenleving. Onderzoekers van over de hele wereld slaan de handen in elkaar voor het opzetten van een Time Machine (teletijdsmachine) Flagship project om het verleden opnieuw tot leven te wekken met een van de meest ambitieuze projecten in de menswetenschappen tot op heden, en zeker op het vlak van de culturele cultuur en identiteit. Het fundamentele idee achter dit project is gebaseerd op Europa's unieke culturele erfgoed: de lange Europese geschiedenis, de uitzonderlijke Europese meertaligheid en de inter- en multiculturaliteit die zo eigen is aan Europa.

Onderzoeker(s)

Onderzoeksgroep(en)

Optimalisatie van het aanpassingsvermogen van klinische informatie extractie systemen: deep learning en user-feedback propagatie-technieken. 01/09/2017 - 31/08/2021

Abstract

Tegenwoordig zijn grote hoeveelheden niet-gestructureerde tekstuele medische gegevens beschikbaar (bijvoorbeeld klinische rapporten), wat mogelijkheden open voor optimalisatie van de kwaliteit van de gezondheidszorg en voor de veiligheid van de patiënten. Hoewel de taaltechnologie al goede instrumenten en systemen beschikbaar heeft voor de automatisering van de verwerking van deze medische documenten, schiet de accuraatheid ervan dikwijls tekort wanneer de context van de informatie-extractie wijzigt (andere medische specialiteit, ander ziekenhuis, andere specialist). Dit project bestudeert de mogelijkheid van een schaalbare aanpak die zich aanpast aan dergelijke nieuwe contexten. Om dit doel te bereiken zullen we aanpakken gebaseerd op diepe neurale netwerken, het "human-in-the-loop" paradigma en persistent leren onderzoeken. Dit project gebeurt in samenwerking met Lynxcare Clinical Informatics, een medische IT bedrijf dat zich concentreert op het verbeteren van toegang tot medische informatie en reductie van administratieve kosten in ziekenhuizen.

Onderzoeker(s)

Onderzoeksgroep(en)

De invloed van politiek nieuws op burgers, en van burgers op het politieke nieuws, in tijden van sociale media. Theoretische uitdagingen en empirische mogelijkheden. 01/01/2017 - 31/12/2020

Abstract

In een democratie hebben burgers nood aan politieke kennis. De massa media worden traditioneel aanzien als een belangrijke bron om burgers van politieke informatie te voorzien. Studies over agenda-setting en framing hebben veelvuldig aangetoond dat de nieuwsmedia een duidelijke invloed hebben op wat mensen weten, en hoe ze over politiek denken. De vraag is in welke mate deze klassieke inzichten overeind blijven in het digitale tijdperk. Het stijgend belang van het internet en de sociale media in het bijzonder als kanalen van informatie en communicatie hebben de manier waarop mensen leren over de wereld, en de politiek in het bijzonder, drastisch veranderd. Zo staat bijvoorbeeld de rol van de media als agenda-setter en 'framer' onder druk, omdat sociale media het causale verband, van massa media naar publiek, ter discussie stellen. Journalisten worden meer en meer beïnvloed door discussies op blogs, Facebook, Twitter en andere platformen. Bovendien, hebben politici meer mogelijkheden om de traditionele media te omzeilen en het publiek direct te beïnvloeden. Kortom, we bestuderen hoe mensen nieuws consumeren en hoe ze daardoor beïnvloed worden, maar ook hoe journalisten en politici op hun beurt beïnvloed worden door de reacties van mensen op het nieuws. Digitale media stellen niet enkel de klassieke theoretische inzichten in vraag, ze bieden tegelijk nieuwe mogelijkheden om informatiestromen en hoe mensen ermee omgaan te bestuderen. Vandaag is het mogelijk om agenda-setting en framing meer accuraat te bestuderen, gebaseerd op grotere databestanden van mediaboodschappen en de publieke reacties daarop (commentaren, likes, tweets). Bovendien laat het analyseren van digitale teksten toe om demografische profielen en opinies van burgers in kaart te brengen en onze kennis van de modererende factoren van agenda-setting en framing effecten te bestuderen. Om deze ongeziene bron van geschreven taal en digitaal gedrag te interpreteren, kiezen we voor een multi-disciplinaire samenwerking tussen computer linguïstiek, data mining en sociale wetenschappen. De agenda-setting en framing theorie worden in een digitale context getoetst aan de hand van 'big data' analyses. Computer linguïstische technieken zullen worden gebruikt om automatisch de onderwerpen en opinies in sociale media berichten te analyseren. De mogelijkheden van digitale tekst analyse gaan echter nog verder dan het louter testen van bestaande theorieën. Onze ambitie bestaat erin om de nieuwe data mogelijkheden ook te gebruiken om aan theorie ontwikkeling te doen door op een inductieve manier naar onderliggende patronen te zoeken. Door gebruik te maken van data mining technieken op de digitale gebruiker gegevens kunnen we tot inzichten komen over welke gebeurtenissen, personen en onderwerpen burgers 'liken' en willen 'delen'. Concreet, zullen we één belangrijk gepland event bestuderen, de Belgische verkiezingscampagne van 2019, en één niet gepland of onverwacht event in de loop van de volgende jaren. We verwachten dat de informatiestroom voor beide types van events structureel verschillen. Voor elk event plannen we een survey en een grote kwantitatieve data verzameling gedurende vier weken van alle politieke nieuwsberichten van de belangrijkste nieuwswebsites, en sociale mediaplatformen Twitter en Facebook.

Onderzoeker(s)

Onderzoeksgroep(en)

Diepe taalkundige features voor computationele stylometrie. 01/10/2016 - 30/09/2018

Abstract

In dit project trachten we nieuwe, meer linguïstische tekstkenmerken te ontdekken die kunnen helpen in het stylometrisch onderzoek naar auteursprofilering. Meer specifiek gaan we op zoek naar tekstkenmerken gerelateerd aan semantiek en discourse, zoals bijvoorbeeld semantische densiteit. Onze hypothese stelt dat deze nieuwe tekstkenmerken informatie bevatten over de auteur, aanvullend aan oppervlakkige features, zoals bag-of-words, die momenteel vaak gebruikt worden in machine learning experimenten. Deze kenmerken worden getest in voornamelijk 3 use cases: herkenning van leeftijd, geslacht en persoonlijkheid van de auteur.

Onderzoeker(s)

Onderzoeksgroep(en)

De rol van de semantiek in het modelleren van het bilinguale mentale lexicon. 01/10/2016 - 30/09/2018

Abstract

Bilingualen, mensen die tegelijk twee of meer talen kennen en gebruiken, zijn een interessante bron van informatie voor het ontdekken van de interne structuur van het taalsysteem. De huidige modellen voor bilinguaal lezen van woorden verklaren de meeste empirische gegevens, maar tonen weinig aandacht voor de rol van betekenis. Ze modelleren woorden bovendien in isolatie. In dit project ontwikkelen we computermodellen van zinsverwerking waardoor betekenis een centrale rol speelt die het verdient en nieuwe verklaringen gegeven kunnen worden voor verschillende fenomenen in de bilinguale verwerking van woorden.

Onderzoeker(s)

Onderzoeksgroep(en)

ACCUMULATE: Acquisitie van cruciale medische informatie met behulp van taaltechnologie. 01/01/2016 - 30/06/2020

Abstract

Het ACCUMULATE project zal automatisch cruciale kennis en informatie detecteren in de vrije tekst van klinische rapporten geschreven in het Engels of het Nederlands. Hiertoe zal gewerkt worden aan het ontwerp, de ontwikkeling en de evaluatie van geavanceerde taaltechnologiecomponenten voor diepe semantische analyse van teksten die vaak morfo-syntactisch niet welgevormd zijn. Een bijkomende focus ligt op de gemakkelijke herbruikbaarheid van de ontwikkelde technologie in andere domeinen en talen en op het gebruik van visualisatietechnieken.

Onderzoeker(s)

Onderzoeksgroep(en)

Periodisering in de literatuurgeschiedenis: een computationeel model van de geschiedenis van de Nederlandse literatuur. 01/10/2015 - 30/11/2015

Abstract

In literaire geschiedschrijving is het gebruikelijk dat onderzoekers historische gebeurtenissen opdelen in periodes (bv. de romantiek). Dit proces heet periodisering en wordt beschouwd als een belangrijke taak in het historisch literair onderzoek. Niettegenstaande de grote relevantie hiervan, is periodisering een controversiële aangelegenheid: sommige bijzonder invloedrijke modellen worden beschouwd als een erfenis uit de negentiende eeuw, en hun hedendaagse relevantie wordt niet zelden in vraag gesteld. Het doel van dit project bestaat eruit een computationeel model te ontwikkelen van de evolutie van de Nederlandstalige literatuur in de Lage Landen (13e tot 20e eeuw). Dit diachroon model zal technieken gebruiken uit de computationele tekstanalyse ('Distant Reading') om veranderingen op te sporen inzake de stilistische en thematische eigenschappen van teksten. Het is belangrijk dat dit een data-gedreven model is, dat niet zal vertrekken vanuit bestaande, mogelijk vooringenomen hypotheses. Dit model zal zorgvuldig geïnterpreteerd worden tegen het achterdoek van de bestaande, traditionele vakbeoefening in literaire studies. Op deze wijze kunnen we tot een beter begrip komen van de validiteit van bestaande periodiseringsvoorstellen inzake de Nederlandse literatuurgeschiedenis. Dit project draagt zo bij aan het intensieve, internationale debat over de integratie van van traditionele 'close reading'-methodes, en moderne computationele methodes voor Distant reading.

Onderzoeker(s)

Onderzoeksgroep(en)

Digitale Geesteswetenschappen Vlaanderen. 01/01/2015 - 31/12/2019

Abstract

Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.

Onderzoeker(s)

Onderzoeksgroep(en)

De interactie van gender en sociale klasse in de chattaal van Vlaamse tieners. 01/01/2015 - 31/12/2018

Abstract

Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.

Onderzoeker(s)

Onderzoeksgroep(en)

Diepe taalkundige features voor computationele stylometrie. 01/10/2014 - 30/09/2016

Abstract

In dit project trachten we nieuwe, meer linguïstische tekstkenmerken te ontdekken die kunnen helpen in het stylometrisch onderzoek naar auteursprofilering. Meer specifiek gaan we op zoek naar tekstkenmerken gerelateerd aan semantiek en discourse, zoals bijvoorbeeld semantische densiteit. Onze hypothese stelt dat deze nieuwe tekstkenmerken informatie bevatten over de auteur, aanvullend aan oppervlakkige features, zoals bag-of-words, die momenteel vaak gebruikt worden in machine learning experimenten. Deze kenmerken worden getest in voornamelijk 3 use cases: herkenning van leeftijd, geslacht en persoonlijkheid van de auteur.

Onderzoeker(s)

Onderzoeksgroep(en)

Een publiek beschikbare Economische Onzekerheids-Indicator voor de G8 landen m.b.v. tekst mining. 01/10/2014 - 30/09/2015

Abstract

In dit project focussen we op de vraag: hoe kunnen we onzekerheid omtrent economisch beleid meten? Recent ontwikkelden we een EPU (Economic Policy Uncertainty) index voor België, door online nieuwsartikels van de grootste kranten te minen. Gegeven de veelbelovende resultaten die we bekwamen, wensen we deze tekst mininggebaseerde methodologie toe te passen voor andere landen (de G8 landen) en zullen we een publieke website creëren waar deze index wekelijks automatisch zal worden geupdate.

Onderzoeker(s)

Onderzoeksgroep(en)

Webservices voor tekstanalyse:profilering en opiniedetectie. 01/02/2014 - 31/01/2015

Abstract

We willen commerciële webservices opzetten die opinies en auteursprofielen (leeftijd, geslacht, persoonlijkheid, opleidingsniveau, regio) uit tekst winnen, op basis van automatische tekstanalyse. In dit project ontwikkelen we de basistechnologie: data verzamelen en annoteren, machine learning algoritmen trainen en een serverplatform opzetten. In een vervolgtraject richten we een spin-off van de onderzoeksgroep op. De voorgestelde taaltechnologie is nuttig voor een waaier van big data toepassingen, en bestaat nog niet voor het Nederlands en slechts gedeeltelijk voor het Engels.

Onderzoeker(s)

Onderzoeksgroep(en)

Datafusie en gestructureerd input- en output- machinaal leren technieken voor geautomatiseerde klinische codering. 01/01/2014 - 31/12/2017

Abstract

Dit project kadert in een onderzoeksopdracht tussen enerzijds UA en anderzijds IWT. UA levert aan IWT de onderzoeksresultaten genoemd in de titel van het project onder de voorwaarden zoals vastgelegd in voorliggend contract.

Onderzoeker(s)

Onderzoeksgroep(en)

Bootstrapping operaties in de taalverwerving: een computationeel psycholinguistische benadering. 01/01/2014 - 31/12/2017

Abstract

We onderzoeken hoe kinderen abstracte linguïstische categorieën leren. Daarvoor worden computersimulaties van bootstrapping operaties ontworpen: hoe kan kennis uit één domein gebruikt worden om kennis te verwerven van een ander domein? In de simulaties wordt reële omgevingstaal aan jonge kinderen gebruikt en wordt nagegaan hoe grammaticale woordcategorieën en grammaticaal geslacht via een combinatie van distributionele, fonologische en morfologische bootstrapping verworden kunnen worden.

Onderzoeker(s)

Onderzoeksgroep(en)

Evaluatie van hulpmiddelen binnen het SUCCEED project. 25/10/2013 - 24/10/2014

Abstract

Dit project kadert in een dienstverleningsopdracht tussen enerzijds UA en anderzijds the University of Alicante. UA levert aan the University of Alicante de onderzoeksresultaten genoemd in de titel van het project onder de voorwaarden zoals vastgelegd in voorliggend contract.

Onderzoeker(s)

Onderzoeksgroep(en)

Automatische monitoring voor Cyberspace Toepassingen (AMiCA) 01/01/2013 - 31/12/2016

Abstract

Hoewel het gebruik van het internet door kinderen meestal volkomen veilig en verrijkend is, zijn er ook risico's verbonden aan het gebruik van vooral social networking sites (SNS). Verschillende initiatieven werden opgezet om kinderen te beschermen tegen deze potentiële bedreigingen door preventie en door in te grijpen als het misloopt, maar gezien de enorme overvloed aan informatie is het onmogelijk voor de belanghebbenden om alle potentieel schadelijke situaties (zoals cyberpesten, suïcidaal gedrag of grooming door pedofielen) te traceren. Het automatisch traceren van schadelijke inhoud en schadelijke gedragingen vereist een crossmedia filtering aanpak, die onmiddellijk risico's kan detecteren, die kritieke situaties doorgeeft aan moderatoren van sociale netwerksites en die accurate kwantitatieve informatie verstrekt zodat longitudinale en beleidsondersteunende informatie ter beschikking komt over de online veiligheid van kinderen. Deze filtering zal gebeuren rekening houdend met de verwachtingen en online ervaringen van adolescenten en kinderen en ook gebruik makend van een aanpak die op een respectvolle en zorgzame manier omgaat met privacy-gevoelige informatie.

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Digitaal Archief van Belgische Neo-Avant-gardetijdschriften (DABNAP). 01/01/2013 - 31/12/2014

Abstract

De naoorlogse kunstenaarstijdschriften vormen een unieke informatiebron over én een sprekende getuigenis van de doe-het-zelfpraktijk kenmerkend voor de neo-avant-garde. Dit project wil een omvangrijk en representatief corpus van Belgische neo-avant-gardetijdschriften digitaliseren, en vervolgens aan de hand van innovatieve, geautomatiseerde taaltechnologie het achterliggende netwerk van kunstenaars in beeld brengen en analyseren.

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Een middeleeuws Styloom? Een verkenning van de Universele Styloom-Hypothese in middeleeuws proza. 01/10/2012 - 30/09/2015

Abstract

Computergestuurd onderzoek binnen de kwantitatieve stijlleer of stylometrie heeft geleid tot de "Styloom-hypothese": de niet-bewezen aanname dat iedere auteur zo een individuele schrijfstijl heeft dat dit "stilistisch DNA" kwantitatief kan gemodeleerd worden. In dit project wordt casusgewijs getoetst in welke mate deze aanname opgaat voor middeleeuwse literatuur. Dat is uitdagend, want middeleeuwse teksten bevatten veel variatie (bv. spelling) die niet teruggaan op de oorspronkelijke auteur van teksten, maar op latere kopiisten. Dit onderzoeksproject legt de nadruk op twee casussen. Ten eerste zal ik de stylometrie toepassen op Brabantse geestelijke teksten uit de dertiende en veertiende eeuw (o.m. Hadewijch en Jan van Ruusbroec). Ten tweede zal ik de stijl bestuderen van Latijnse literatuur uit de elfde eeuw van Anglo-Vlaamse herkomst (o.m. Drogo, Goscelinus).

Onderzoeker(s)

Onderzoeksgroep(en)

Automatisch verwerken van samenstellingen. 01/07/2012 - 31/12/2013

Abstract

Dit project kadert in een onderzoeksopdracht tussen enerzijds UA en anderzijds NTU. UA levert aan NTU de onderzoeksresultaten genoemd in de titel van het project onder de voorwaarden zoals vastgelegd in voorliggend contract.

Onderzoeker(s)

Onderzoeksgroep(en)

Abstracte regels of statistisch leren? De impact van lexicale en sublexicale homofonie tijdens het spellen en lezen van homofone werkwoordvormen. 01/01/2012 - 31/12/2015

Abstract

Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.

Onderzoeker(s)

Onderzoeksgroep(en)

Auteurschap, compositie en tekstuele samenhang van drie zestiende-eeuwse mystieke teksten: Die evangelische peerle, Van den tempel onser sielen, de Arnhemse mystieke preken. Een stylometrische benadering 01/01/2011 - 31/12/2014

Abstract

Dit project betreft fundamenteel kennisgrensverleggend onderzoek gefinancierd door het Fonds voor Wetenschappelijk Onderzoek-Vlaanderen. Het project werd betoelaagd na selectie door het bevoegde FWO-expertpanel.

Onderzoeker(s)

Onderzoeksgroep(en)

Analyseren van de impact van nieuws- en beursberichten op Belgische aandeelprijzen via tekst mining. 01/01/2011 - 31/12/2013

Abstract

In dit project zullen we nagaan hoe algemene en beursspecifieke nieuwsberichten met geavanceerde text mining technieken gebruikt kunnen worden voor het automatisch voorspellen van het effect op Belgische aandelenprijzen. Inzichten zullen bekomen worden in welke nieuwsleveranciers en welke combinaties van woorden het grootste effect hebben. Het ontworpen systeem zal geëvalueerd worden als trading tool, alsook als beslissingsondersteunend systeem voor investeerders.

Onderzoeker(s)

Onderzoeksgroep(en)

Het eindrijm in de Middelnederlandse epiek (ca. 1200-1500): ontwikkeling, verhouding tot auteurspersoonlijkheid en samenhang met genres. 01/10/2010 - 30/09/2012

Abstract

Dit project onderzoekt het eindrijm in de Middelnederlandse epiek (ca. 1200-1500). Aan de hand van drie onderzoeksvragen wil ik de ontwikkeling ervan in kaart brengen, zijn relevantie voor auteursherkenning bepalen en zijn samenhang met genres onderzoeken. Vanuit een breder literair-historisch perspectief wordt daarbij telkens de vraag gesteld hoe onderscheidend of creatief Middelnederlandse auteurs zich in hun werk opstelden. De methodologie die ik wil gebruiken is computergebaseerd en geautomatiseerd (cf. Hinskens & Van Dalen-Oskam 2007). Het project is op die manier afgestemd op de omvang van het onderzoeksmateriaal en de complexiteit van de onderzoeksvragen.

Onderzoeker(s)

Onderzoeksgroep(en)

Automatic monitoring for cyberspace applications (AMICA). 01/10/2010 - 30/09/2011

Abstract

Het AMiCA ("Automatic Monitoring for Cyberspace Applications") project wil relevante wehsites zoals blogs, chat rooms en sociale netwerksites monitoren met het oog op de automatische detectie van schadelijke of alarmerende berichten, foto's en video's. Gezien het stijgend belang van beeld (vb. porno, automutilatie) in dergelijke toepassingen wordt uitgegaan van een interdisciplinaire aanpak waarin tekst- en beeldverwerking gecombineerd worden. Classificatiessystemen zullen gebouwd worden die dergelijke schadelijke berichten "on-the-fly" knnen detecteren. Bij detectie van een kritieke situatie (vh. cyherpesten), worden de relevante gebruikers hiervan op de hoogte gebracht.

Onderzoeker(s)

Onderzoeksgroep(en)

Statistisch Relationeel Leren van Natuurlijke Taal. 01/01/2010 - 31/12/2013

Abstract

Dit project wil onderzoeken hoe technieken van statistisch relationeel leren gebruikt kunnen worden voor het leren van natuurlijke taal. Daarbij zal de nadruk liggen op uitdagende taken van de natuurlijke taalverwerking, zoals "semantic role labeling", waarbij syntactische en semantische afhankelijkheden, gestructureerde en ongestructureerde gegevens, lokale en globale modellen, en probabilistische en logische informatie met elkaar moeten gecombineerd worden. Voor wat betreft het statistisch relationeel leren zal onze aandacht vooral uitgaan naar representaties die gebaseerd zijn op probabilistische uitbreidingen van de programmeertaal Prolog. Het project wil hierbij niet alleen betere resultaten in de natuurlijke taalverwerking realiseren maar ook betere algoritmen en systemen voor statistisch relationeel leren.

Onderzoeker(s)

Onderzoeksgroep(en)

Een veiliger internet: het (semi)automatisch herkennen van internetpedofilie in meertalige online social networks. 01/01/2010 - 31/12/2013

Abstract

In dit project stellen we enerzijds een methodologie voor om de manuele controle van peer-to-peernetwerken te (semi)automatiseren en anderzijds een methodologie voor de automatische extractie en analyse van stijlkenmerken (geassocieerd met persoonlijkheid, leeftijdsgroep en misleidend taalgebruik) die we willen toepassen op individuele pedofielen en groepen van pedofielen in chatruimtes.

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Training van Interpersoonlijke communicatie door natuurlijke taalinteractie met autonome virtuele karakters (deLearyous). 01/01/2010 - 31/12/2012

Abstract

Het doel van het deLearyous-onderzoeksproject is het ontwikkelen van een interactieve serious 3D-game voor het trainen van interpersoonlijke communicatievaardigheden binnen een professionele context, bvb. in een werkgever-werknemer- of klant-bediende-relatie. Het spel bestaat erin de trainee te laten interageren met autonome virtuele karakters, die op een realistische en expressieve manier inspelen op de input van de speler. Op deze wijze kan de trainee verschillende gedragspatronen en rollen op eigen tempo inoefenen, en dit in een veilige, virtuele omgeving. De rol can CLiPS in het project is de ontwikkeling van algoritmen en methodes voor emotie-analyse van tekst, het detecteren van onderwerpen in tekst, en dialoogvoering.

Onderzoeker(s)

Onderzoeksgroep(en)

Project TST Tools voor het Nederlands als Webservices in een Workflow (TTNWW). 01/01/2010 - 30/09/2012

Abstract

Het doel van het project is om allerlei bestaande componenten die ontwikkeld zijn in CGN en STEVIN in te passen in een workflowsysteem voor web services dat ontwikkeld wordt in CLARIN-verband, en dit geheel te laten draaien op servers van erkende CLARIN-centra, met als doel faciliteiten aan te bieden voor onderzoekers uit de HSS met geen of weinig technische bagage. Deze faciliteiten moeten 1) hen in staat stellen hun onderzoeksvragen beter of makkelijker aan te pakken en 2) mogelijkheden bieden voor het formuleren van nieuwe typen onderzoeksvragen, i.e. onderzoeksvragen die voor CLARIN niet gesteld konden worden of niet doelmatig te beantwoorden waren.

Onderzoeker(s)

Onderzoeksgroep(en)

Een web service voor stylometrie- en leesbaarheidsonderzoek voor het Nederlands (STYLENE). 01/01/2010 - 31/12/2011

Abstract

Doel van het project is de implementatie van een robuust, modulair stysteem voor stylometrie- en leesbaarheidsonderzoek op basis van bestaande technieken voor automatische tekstanalyse en zelflerende technieken, en de ontwikkeling van een web service die onderzoekers in de HSS toelaat teksten te analyseren met behulp van het systeem. Op die manier wil het project recente vooruitgang op het gebied van het computationeel modelleren van stijl en leesbaarheid beschikbaar maken voor onderzoek in de sociale en geesteswetenschappen.

Onderzoeker(s)

Onderzoeksgroep(en)

De computationele leerbaarheid van morfologisch complexe talen. 01/10/2009 - 30/09/2012

Abstract

Doelstelling van het project: Traditionele systemen voor spellingcontrole maken gebruik van een woordenlijst. Wanneer een woord niet voorkomt in de woordenlijst, markeert het systeem het woord als "fout". Recente systemen (o.a. Németh 2009) benaderen het probleem van spellingcontrole voor agglutinerende talen vanuit een andere invalshoek: een woord wordt beschouwd als een spelfout, als het niet kan worden gegenereerd door eenachterliggend morfotactisch model. In dit project onderzoeken we hoe een spellingchecker kan gebruikt worden als hulpmiddel bij het automatisch leren van een morfotactisch systeem voor het Swahili.

Onderzoeker(s)

Onderzoeksgroep(en)

Naar een synthese van kennisgebaseerde en datagebaseerde methodes in de computertaalkunde. 01/10/2009 - 30/09/2010

Abstract

Hybride systemen voor natuurlijke taalverwerking die diepe, op taalkundig inzicht gebaseerde, analyses combineren met de inductieve datagebaseerde methodes kunnen een significante verbetering van de accuraatheid en toepasbaarheid van de computertaalkunde bewerkstelligen. Er zijn evenwel verschillende manieren waarop een dergelijk hybridisering gerealiseerd kan worden. In dit project zal ik vooral kijken naar de cognitiewetenschap als inspiratiebron voor nieuwe hybride aanpakken. Dit werk bouwt voort op eerder werk rond memory-based language processing als cognitief relevant model.

Onderzoeker(s)

Onderzoeksgroep(en)

Machine learning technieken voor datamining en hun toepassingen. 01/01/2009 - 31/12/2013

Abstract

De onderzoeksgemeenschap streeft naar de versterking en de coordinatie van het Vlaamse onderzoek op het gebied van machine learning voor datamining in het algemeen, en bepaalde belangrijke toepassingen zoals bioinformatica en tekstmining in het bijzonder. Vlaamse participanten: Computational Modeling Lab (VUB), CNTS (UA), ESAT-SISTA (KU Leuven), DTAI (KU Leuven), ISLab (UA).

Onderzoeker(s)

Onderzoeksgroep(en)

Artificiële Creativiteit in visuele communicatie en kunst: een algoritme voor spitsvondige, evoluerende conceptontwikkeling en datavisualisatie. 01/10/2008 - 30/09/2012

Abstract

Met behulp van technieken uit de Artificiële Intelligentie wordt een computeralgoritme ontwikkeld dat een inhoudelijke opdracht (of dataset) ontleedt op kernbegrippen en relaties, daarbij relevante informatie opzoekt, verwerkt, bundelt en deze tenslotte in relatie brengt tot creatieve en visuele oplossingen. Dit algoritme wil menselijke creativiteit nabootsen door bestaande concepten te verbinden en te hercombineren tot er innovatieve visuele uitvoer uit opborrelt. De visuele uitvoer evolueert mee naargelang de inhoudelijke data wijzigt en uitbreidt.

Onderzoeker(s)

Onderzoeksgroep(en)

Het eindrijm in de middelnederlandse epiek (ca. 1200-1500): ontwikkeling, verhouding tot auteurspersoonlijkheid en samenhang met genres. 01/10/2008 - 30/09/2010

Abstract

Dit project onderzoekt het eindrijm in de Middelnederlandse epiek (ca. 1200-1500). Aan de hand van drie onderzoeksvragen wil ik de ontwikkeling ervan in kaart brengen, zijn relevantie voor auteursherkenning bepalen en zijn samenhang met genres onderzoeken. Vanuit een breder literair-historisch perspectief wordt daarbij telkens de vraag gesteld hoe onderscheidend of creatief Middelnederlandse auteurs zich in hun werk opstelden. De methodologie die ik wil gebruiken is computergebaseerd en geautomatiseerd (cf. Hinskens & Van Dalen-Oskam 2007). Het project is op die manier afgestemd op de omvang van het onderzoeksmateriaal en de complexiteit van de onderzoeksvragen.

Onderzoeker(s)

Onderzoeksgroep(en)

Fostering Language resources Network (FlaReNet). 01/09/2008 - 01/09/2011

Abstract

Internationale samenwerking en de creatie van een gemeenschap zijn de belangrijkste positieve factoren voor een coherente ontwikkeling van het gebied van Taalhulpmiddelen in de nabije toekomst. FlaReNet is een Europees forum voor de facilitering van interactie tussen belanghebbenden in het gebied van Taalhulpmiddelen. De organisatie ervan houdt er rekening mee dat Taalhulpmiddelen verschillende dimensies vertonen en vanuit verschillende perspectieven benderd moeten worden: technisch, maar ook organisatorisch, economisch, juridisch en politiek. Het netwerk richt zich eveneens op de multiculturele en multilinguale aspecten die essentieel zijn voor toegang en gebruik van digitale inhoud in het Europa van vandaag.

Onderzoeker(s)

Onderzoeksgroep(en)

NEON: Nederlandse ondertiteling. 01/06/2008 - 31/05/2009

Abstract

In dit project ontwikkelt CNTS een systeem voor automatische ondertiteling op basis van de output van spraakherkenning. Zo'n systeem laat toe om zinnen waar nodig te vereenvoudigen en in te korten zonder dat ze ongrammaticaal worden of veel van hun betekenis verliezen. Als methode wordt een combinatie van regelgebaseerde en statistische technieken gebruikt. Het project verloopt in samenwerking met onder meer de VRT en de NOS en de spraakherkenningsonderzoeksgroep van de K.U. Leuven.

Onderzoeker(s)

Onderzoeksgroep(en)

Text Mining met heterogene databanken. Een toepassing op de optimale ontdekking van genetische varianten relevant voor ziekten. 01/07/2007 - 30/06/2011

Abstract

Het project introduceert een methodologie voor "text mining" met heterogene informatiebronnen en de toepassing ervan in moleculaire genetica en kennismanagement. Bestaande tekstanalyse en graaf-gebaseerde data mining technieken zullen worden uitgebreid om deze methodologie mogelijk te maken. De methodologie wordt toegepast in een biomedische toepassing (ordening van kandidaat ziekte veroorzakende genen) en een kennismanagement toepassing (bepalen van profiel van personen op basis van www informatie).

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Computationele technieken voor stylometrie voor het Nederlands. 01/01/2007 - 31/12/2010

Abstract

In dit project stellen we een methodologie voor de automatische extractie en analyse van stijlkenmerken voor die we willen toepassen op individuele auteurs (auteursherkenning, zowel van non-fictie als fictie) en groepen van auteurs (extractie van stijlkenmerken geassocieerd met sekse en leeftijdsgroep). De methodologie bevat de volgende onderdelen: (1) Een automatische taalkundige analyse van documenten met behulp van de beschikbare tekstanalyse-instrumenten op het niveau van morfologische structuur, woordsoort, globale syntactische structuur en semantische rollen (subject, object, temporeel, locatie) voor de constructie van potentieel relevante stilistische kenmerken. (2) Gebruik van niet-gesuperviseerde en gesuperviseerde leertechnieken voor de selectie van de meest informatieve stilistische kenmerken en de constructie van een model van de stijl van een auteur (of group van auteurs). (3) Evaluatie van de geconstrueerde modellen door (a) vergelijking met stilistische analyses in taalkunde en literatuurwetenschap en (b) empirische toetsing van de voorspellende kracht van de modellen.

Onderzoeker(s)

Onderzoeksgroep(en)

Gravital: parsing en problem-solving van natuurlijke taal als motor voor het genereren van visuele communicatie en kunst. 01/01/2007 - 31/12/2008

Abstract

In dit project wordt de toepassing van natuurlijke taal verwerking en redeneren onderzocht als instrument bij het genereren van grafische ontwerpen en kunst. In de context van de NodeBox software zal de MBSP shallow parser aangepast worden aan het domein van visuele communicatie en zal hij geïntegreerd worden in de NodeBox toepassing.

Onderzoeker(s)

Onderzoeksgroep(en)

Linguïstische beschrijving van minderheidstalen met behulp van automatische leertechnieken. 01/10/2006 - 30/09/2009

Abstract

Linguïstisch geannotateerde tekstcorpora zijn een belangrijk hulpmiddel bij de taaltechnologische ontsluiting van een taal. Voor commercieel interessante talen, zoals het Engels en het Nederlands, kunnen bestaande geannoteerde corpora gebruikt worden om accurate en robuste taaltechnologische toepassingen te ontwikkelen. Als er geen vooraf geannoteerde corpora beschikbaar zijn, wat het geval is bij minderheidstalen, zijn de traditionele datagebaseerde algoritmen echter onbruikbaar. Dit project onderzoekt de geautomatiseerde linguïstische beschrijving van minderheidstalen op basis van alternatieve classificatietechnieken. Daarbij zal gebruik worden gemaakt van algoritmen die het gebrek aan geannoteerde corpora omzeilen door zelf een eerste classificatie af te leiden. Die classificatie kan gebaseerd zijn op corpora met lopende tekst (techniek: "unsupervised learning") of op bestaande, geannoteerde corpora voor een andere taal (techniek: "kennistransfer"). De methodologie die in dit project wordt voorgesteld, laat toe om het gebruik en de werking van de respectieve classificatietechnieken systematisch te vergelijken en te evalueren.

Onderzoeker(s)

Onderzoeksgroep(en)

Detecting and exploiting semantic overlap (DAESO). 01/06/2006 - 31/05/2009

Abstract

Dezelfde informatie kan in taal op veel verschillende manieren weergegeven worden. Kennis over parafrasering (zelfde semantische inhoud, verschillende verwoording) en "entailment" (de ene expressie impliceert de andere) kan dit probleem tot op zekere hoogte oplossen. In DAESO worden technieken ontwikkeld die toelaten om dergelijke semantische relaties tussen tekst automatisch vast te stellen. De bruikbaarheid van de aanpak zal onderzocht worden in de context van enkele toepassingen: "question answering", informatie-extractie en automatische samenvatting van tekst.

Onderzoeker(s)

Onderzoeksgroep(en)

Project website

Computerlinguistiek, taal- en spraaktechnologie. 01/01/2006 - 31/12/2010

Abstract

CLIF is de Vlaamse vereniging van onderzoeksgroepen voor computerlinguistiek, taal- en spraaktechnologie. Het doel van de vereniging is het stimuleren van samenwerking op het gebied van onderzoek en de gezamenlijke ontwikkeling van hulpmiddelen die de capaciteiten van individuele deelnemende groepen te boven gaat.

Onderzoeker(s)

Onderzoeksgroep(en)

Coreferentieresolutie voor het extraheren van antwoorden. (STEVIN-COREA) 01/05/2005 - 31/10/2007

Abstract

Coreferentieresolutie vervult een sleutelfunctie bij het automatisch interpreteren van tekst. Het is een probleem dat tot op heden vooral vanuit een linguïstisch standpunt werd bestudeerd. De nadruk lag daarbij dan vooral op pronominale coreferentieresolutie, nl. het zoeken van een antecedent voor een gegeven anaforisch voornaamwoord. Prakische toepassingen zoals informatie-extractie (IE), automatisch samenvatten en automatische vraag-beantwoord-systemen (QA) vereisen echter een correcte herkenning van de coreferentiële relaties tussen verschillende types nominale constituenten. Corpusgebaseerde computationele systemen die dergelijke relaties automatisch detecteren, moeten getraind en getest worden op voldoende geannoteerde data. Voor het Nederlands echter zijn er nauwelijks geannoteerde corpora beschikbaar en bovendien bestaan er geen automatische systemen voor de resolutie van coreferentiële relaties tussen nominale constituenten. In COREA zal er een robuust systeem ontwikkeld worden voor de resolutie van dergelijke coreferentiële relaties en zal het effect van coreferentieresolutie onderzocht worden op praktische toepassingen zoals IE en QA.

Onderzoeker(s)

Onderzoeksgroep(en)

Semi-supervised leertechnieken voor Informatie Extractie. 01/10/2004 - 31/12/2005

Abstract

Informatie Extractie (IE) heeft als doel het extraheren van relevante data uit een verzameling meer of minder gestructureerde documenten. Huidige systemen werden steeds ontwikkeld op basis van geannoteerde data die echter duur en moeilijk te verkrijgen zijn. Daarom wil dit project IE systemen ontwikkelen door middel van semi-supervised leertechnieken, waarbij gebruik wordt gemaakt van grote verzamelingen niet-geannoteerde gegevens, die gemakkelijk te verkrijgen zijn.

Onderzoeker(s)

Onderzoeksgroep(en)

Situationele factoren bij de productie van geflecteerde woordvormen: een psycholinguïstische en computationele benadering. 01/01/2004 - 31/12/2007

Abstract

De productie van geïnflecteerde woordvormen zoals het meervoud of de verleden tijd wordt traditioneel beschouwd als een proces dat vooral steunt op morfologische, fonologische en syntactische karakteristieken van de basisvorm. Hoewel descriptieve grammatica's in deze context ook metalinguïstische informatie vermelden, wordt daar in recente invloedrijke modellen van taalproductie, zoals Steven Pinkers Words and Rules theorie uit 1999, geen aandacht aan besteed. In een recent experiment toonden wij echter aan dat sprekers van het Nederlands metalinguïstische informatie gebruiken als hen gevraagd wordt meervouden te genereren voor pseudowoorden. Deze resultaten ondermijnen niet enkel Minkers assumptie dat het Nederlands twee default meervouden heeft die enkel op basis van fonologische informatie toegekend worden, maar ze werpen ook de fundamentele vraag op of modellen met een regelgebaseerde component überhaupt in staat zijn om metalinguïstische informatie te incorporeren.

Onderzoeker(s)

Onderzoeksgroep(en)

Supercomputing cluster. 01/01/2004 - 31/12/2006

Abstract

Onderzoeker(s)

Onderzoeksgroep(en)

Pattern Analysis, Statistical Modelling and Computational Learning (PASCAL). 01/12/2003 - 29/02/2008

Abstract

Pascal is een FP6 netwerk met als doel het oprichten van een gedistribueerd instituut voor onderzoek naar patroonherkenning, statistische modellering en zelflerende systemen, als kerntechnologieën voor multimodale interfaces. Deze interfaces zijn in staat tot natuurlijke interactie met mesnelijke gebruikers. De rol van CNTS in het netwerk is de toepassing van zelflerende systemen bij problemen van natuurljke taal verwerking.

Onderzoeker(s)

Onderzoeksgroep(en)

Het gebruik van heel grote tekstcorpora om automatisch structuur te vinden in natuurlijke taal. 01/10/2003 - 28/02/2005

Abstract

van teksten en woordenboeken in vele verschillende talen. Deze corpora worden nog niet altijd gebruikt bij het onderzoeken van taalhypothesen en fundamentele vragen in de linguïstiek. Computers worden nu meer en meer gebruikt, en dit onderzoek wil bijdragen aan het ontwikkelen van deze trend. Het uiteindelijke doel is het introduceren van bestaande technieken in de taaltechnologie om specifieke hypotheses over taalstructuur, -functie, -verandering en 'typologie beter te kunnen bestuderen.

Onderzoeker(s)

Onderzoeksgroep(en)

Textmining uit biologische tekst (BioMinT). 01/01/2003 - 31/03/2006

Abstract

Het doel van het BioMinT project is de ontwikkeling van generieke text mining software die (1) verschillende types van informatievragen interpreteert, (2) relevante documenten uit de biologische literatuur zoekt, (3) de gezochte informatie uit deze documenten extraheert, en (4) het resultaat presenteert als de vuller van velden in een database of als een gestructureerd rapport. Het consortium bestaat uit biologen (University of Manchester, Zwitsers instituut voor Bio-informatica) en data / text mining groepen (CNTS Universiteit Antwerpen, PharmaDM, Oostenrijks instituut voor AI, Geneve AI Lab).

Onderzoeker(s)

Onderzoeksgroep(en)

Semi-supervised leertechnieken voor Informatie Extractie. 01/01/2003 - 30/09/2004

Abstract

Informatie Extractie (IE) heeft als doel het extraheren van relevante data uit een verzameling meer of minder gestructureerde documenten. Huidige systemen werden steeds ontwikkeld op basis van geannoteerde data die echter duur en moeilijk te verkrijgen zijn. Daarom wil dit project IE systemen ontwikkelen door middel van semi-supervised leertechnieken, waarbij gebruik wordt gemaakt van grote verzamelingen niet-geannoteerde gegevens, die gemakkelijk te verkrijgen zijn.

Onderzoeker(s)

Onderzoeksgroep(en)

FLaVoR: Flexible Large Vocabulary Recognition: Incorporatie van taalkundige kennisbronnen in een modulaire spraakherkennersarchitectuur 01/10/2002 - 30/09/2006

Abstract

In dit project wordt onderzocht of de 'alles-in-een' strategie die in de huidige spraakherkenners gevolgd wordt, waarbij taak-specifieke, syntactische, en lexicale kennis verweven is in een enkel op eenvoudige formalismen gebaseerd taalmodel, vervangen kan worden door een modulaire architectuur waarbij naast akoestisch-fonetisch en intonatie-gerelateerde parameters ook generische en domeinspecifieke taalkundige informatiebronnen worden gebruikt.

Onderzoeker(s)

Onderzoeksgroep(en)

Functies van audiovisuele prosodie. 01/10/2002 - 30/09/2005

Abstract

Het hier voorgestelde onderzoeksproject richt zich op een functionele benadering van visuele en verbale prosodie (samengevat als 'audiovisuel prosodie') in gesproken interacties. Het is intuitief duidelijk dat prosodie een belangrijke communicatieve functie heeft: prosodie kan uitingen voorzien van 'extra' informatie die niet reeds besloten ligt in de woorden of de syntactische structuur van een zin. Terwijl we al redelijk wat weten over de pragmatiek van verbale prosodie, is echter nog onvoldoende duidelijk hoe auditieve cues combineren met visuele informatie voor het signaleren van bepaalde communicatieve functies. De meeste evidentie over de rol van visuele cues is impressionistisch en anecdotisch van aard, en de weinige descriptieve resultaten over visuele signalen zijn niet zo expliciet dat ze bijvoorbeeld kunnen worden geincorporeerd in een echt computationeel model. Meer specifiek wil ik me richten op de signaalwaarde van audiovisuele prosodie voor het aangeven van beurtwisseling (2.1), informatiestructuur (2.2), positieve en negatieve terugmeldingssignalen (2.3) en emotionele en attitudinele connotaties van uitingen (2.4). 2.1 Beurtwisseling : Uit eerder onderzoek komt naar voren dat gesprekspartners in een dialoog heel precies de beurt van elkaar kunnen overnemen. In dit postdoc project wil ik nagaan in hoeverre gesprekspartners in de beurtwisseling gevoelig zijn voor specifieke visuele cues: daarbij kan ik voortbouwen op inzichten van ethnomethodologen die eerder aantoonden dat oogcontact erg van belang is voor het aangeven van het einde van een 'turn'. 2.2 Informatiestructuur : Uit vroeger werk is gebleken dat sprekers auditieve prosodie gebruiken om belangrijke (nieuwe, contrastieve) informatie te onderscheiden van minder belangrijke (gegeven). Dat gebeurt, voor talen zoals het Nederlands en het Engels, doorgaans door middel van distributie van toonhoogteaccenten. Uit verkennend onderzoek blijkt nu dat luisteraars ook 'accenten' waarnemen op basis van wenkbrauw-bewegingen (eerder werk samen met Emiel Krahmer). Dit werk zou ik graag verderzetten, waarbij het mij van belang lijkt om dit crosslinguistisch op te zetten. 2.3 Feedback: Tijdens mijn vorige mandaat heb ik me in belangrijke mate gericht op het gebruik van auditieve prosodie voor het aangeven van 'positieve' en 'negatieve' terugmeldingssignalen. Pilotonderzoek geeft aan dat gesprekspartners ook erg gevoelig zijn voor specifieke visuele prosodie die hetzelfde doel dienen (met name bewegingen van wenkbrauwen, hoofd , ogen en mond), en dat die op interessante manier interageren met auditieve prosodie. 2.4 Attitutidinele en emotionele structuur: Uit verschillende studies is gebleken dat mensen via prosodie kunnen signaleren wat ze vinden van een uiting die ze uitspreken (attitude), of hoe ze zich voelen terwijl ze een uiting produceren (emotie). Het een open vraag is hoe auditieve en visuele cues in dynamische stimuli emotie en attitude kunnen signaleren.

Onderzoeker(s)

Onderzoeksgroep(en)

Technieken voor de incorporatie van linguïstische kennis in zelflerende systemen voor natuurlijke taal. 01/10/2002 - 30/09/2003

Abstract

Twee fundamentele problemen in de computerlinguïstiek zijn de kost van annoteren van tekst (het aanbrengen van linguïstische informatie), en het verzamelen van genoeg data. Ik wil deze problemen tegelijk aanpakken, en in een theoretische en experimentele studie kijken naar de effecten van i)featureselectie en -constructiemethodes: technieken die het mogelijk maken te kijken welke taalkundige bronnen belangrijk zijn in het oplossen van linguïstische taken, en ii) methodes zoals active learning, expectation-maximization, cotraining en bootstrapping: deze methodes maken het annoteren van corpora sneller of overbodig.

Onderzoeker(s)

Onderzoeksgroep(en)

    Multilingual subtitling of multimedia content (MUSA). 01/09/2002 - 28/02/2005

    Abstract

    Het doel van MUSA is het creeren van een multimodaal, multilinguaal systeem dat spraak en andere audio omzet naar transcripties in tekst, deze transcripties vertaalt naar andere talen, en dan ondertitels genereert op basis van deze vertalingen. MUSA zal voor het Engels, Frans, en Grieks gemaakt worden. Een state-of-the-art spraakherkenningssysteem zal uitgebreid worden en aangepast aan de context van het project. Een innovatief scenario voor automatische vertaling zal ontwikkeld worden waarin machinevertaling, vertaalgeheugens en term-substitutie gecombineerd zullen worden. De Antwerpse groep is verantwoordelijk voor de samenvatting van zinnen ten behoeve van ondertitelgeneratie met behulp van een automatische analyse van de taalkundige structuur van de zin.

    Onderzoeker(s)

    Onderzoeksgroep(en)

    Machine learning technieken voor datamining en hun toepassingen. 01/01/2002 - 31/12/2006

    Abstract

    De onderzoeksgemeenschap streeft naar de versterking en de coordinatie van het Vlaamse onderzoek op het gebied van machine learning voor datamining in het algemeen, en bepaalde belangrijke toepassingen zoals bioinformatica en tekstmining in het bijzonder. Vlaamse participanten: Computational Modeling Lab (VUB), CNTS (UA), ESAT-SISTA (KU Leuven), DTAI (KU Leuven), ADReM (UA).

    Onderzoeker(s)

    Onderzoeksgroep(en)

    Semaduct : combinatie van deductieve en inductieve technieken voor lexicale semantiek 01/01/2002 - 31/12/2005

    Abstract

    Doel van dit project is de confrontatie en integratie van deductieve en inductieve benaderingen van computerlinguistiek in het domein van de lexicale semantiek. Subprojecten zijn onder meer: de combinatie van gesuperviseerde en niet-gesuperviseerde leertechnieken voor semantische kennisverwerving en desambiguering, incorporatie van linguistische kennis in inductieve technieken, en de verfijning van bestaande semantische tagsets met behulp van machine learning.

    Onderzoeker(s)

    Onderzoeksgroep(en)

    OntoBasis : extractie van ontologieën uit tekst. 01/01/2002 - 31/12/2005

    Abstract

    De belangrijkste doelstelling van CNTS voor dit project is de toepassing en aanpassing van eerder ontwikkelde "shallow parsing" technologie voor (i) de extractie van lexons (ontologische relaties) uit niet- of semi-gestructureerde bronnen, (ii) de evaluatie van bestaande ontologieën, en (iii) de adaptatie van ontologieën (bijv. WordNet) voor specifieke domeinen. Een tweede doelstelling is het onderzoeken van de bruikbaarheid van ontologieën voor de verbetering van tekstanalyse met behulp van "shallow parsing".

    Onderzoeker(s)

    Onderzoeksgroep(en)

    Tekstanalyse en zelflerende systemen voor prosodie. 01/01/2001 - 31/12/2004

    Abstract

    Doel van dit project is empirisch te onderzoeken of een natuurlijk klinkende prosodie kan worden gegenereerd op basis van twee methodes die recent succesvol zijn gebleken in andere taalverwerkingsdomeinen: (a) robuuste analyse van tekst met behulp van technieken uit information retrieval en information extraction, en (b) geavanceerde zelflerende en meta-lerende systemen.

    Onderzoeker(s)

    Onderzoeksgroep(en)

    Taalverwerving bij jonge kinderen met een cochleaire implantatie : een longitudinaal effectenonderzoek van hun auditieve, spraak- en taalontwikkeling. 01/01/2001 - 31/12/2004

    Abstract

    In dit project onderzoeken we de auditieve ontwikkeling, de spraak- en taalverwerving bij congenitaal dove kinderen met een cochleair implantaat (CI) geïmplanteerd tijdens het tweede levensjaar. Het doel is systematisch het effect van de CI te onderzoeken op verschillende aspecten van de taal- en spraakontwikkeling: ? Onderzoek van het effect van een CI op het auditieve vlak; ? Onderzoek van het effect van CI op het articulatorisch vlak (de spraak); ? Onderzoek van het effect van CI op de taalverwerving en communicatieve ontwikkeling. In essentie willen we nagaan hoe de toegang tot auditieve informatie evolueert en welke impact die toegang tot de gesproken taal heeft op de eigen spontane spraak en taal van het kind. De wetenschappelijke doelstellingen van het onderzoeksproject zijn (i) descriptief en (ii) fundamenteel psycholinguïstisch. (i)Descriptief: een longitudinale beschrijving van de auditieve ontwikkeling en de spraak-, taal- en communicatie-ontwikkeling na een CI. De descriptie zal ons een antwoord geven op de vraag: verloopt de taalverwerving kwalitatief en kwantitatief zoals bij normaal horende baby's? Is er een kwalitatief en/of kwantitatief onderscheid in de auditieve ontwikkeling, spraak- en taalontwikkeling tussen baby's afhankelijk van de leeftijd waarop ze een CI krijgen? (ii) Fundamenteel psycholinguïstische doelstellingen: ? Onderzoek van de perceptie van segmentele en suprasegmentele karakteristieken van de spraak in relatie tot hun productie; ? Onderzoek van de fonologische ontwikkeling op segmenteel en suprasegmenteel vlak met bijzondere aandacht voor de evolutie van truncatiepatronen; ? Onderzoek van de lexicale en morfosyntactische verwerving met speciale aandacht voor de evolutie van `functiewoorden' of gesloten klasse woorden t.a.v. open klasse woorden, een oppositie gerelateerd aan perceptuele saillantie; ? Onderzoek van communicatieve ontwikkeling, met bijzondere aandacht voor (1) het gebruik en de plaats van spraak tgo. (conventionele) gebaren, (2) het gebruik van interactionele middelen (aandacht trekken/richten/'), (3) de omvang en het gebruik van types interactiebeurten door kind en volwassen conversatiepartner.

    Onderzoeker(s)

    Onderzoeksgroep(en)

    Uitvoering van de actielijn b/c van het Actieplan voor het Nederlands in taal- en spraaktechnologie. 01/01/2001 - 31/12/2001

    Abstract

    Inventarisering van beschikbare taaltechnologische hulpmiddelen (software componenten en dataverzamelingen) voor industriële ontwikkeling in taaltechnologie voor het Nederlands en advies over de prioritering van investeringen in de ontwikkeling van deze hulpmiddelen.

    Onderzoeker(s)

    Onderzoeksgroep(en)

      Atranos : automatische transcriptie en normalisatie van spraak 01/10/2000 - 30/09/2004

      Abstract

      Doel van het project is bij te dragen tot de ontwikkeling van betere producten voor de verbatim transcriptie van spraak, en voor de omzetting van deze transcripties naar een vorm die beter aangepast is aan de noden van de eindgebruiker. Een toepassing die als case study zal worden bestudeerd is het genereren van ondertitels ten behoeve van slechthorenden. CNTS zal leertechnieken onderzoeken voor de transcriptie van onbekende woorden en statistische technieken voor alignment en de voorspelling van ondertitels uit transcripties.

      Onderzoeker(s)

      Onderzoeksgroep(en)

      Opsporen en traceren van concepten in krantentekst. 01/07/2000 - 31/07/2003

      Abstract

      Doel van dit project is (i) het automatisch vinden van belangrijke nieuwe concepten (onderwerpen) in nieuws- en WWW-teksten, en (ii) het volgen van de evolutie van connotaties en definities van dergelijke concepten in de tijd. Het wetenschappelijke doel is de evaluatie van het nut voor deze taak van de combinatie van statistische en informatie theoretische technieken uit de Information Retrieval en statistische taalverwerking met taaltechnologische componenten als "shallow parsers".

      Onderzoeker(s)

      Onderzoeksgroep(en)

        Wetenschappelijke onderzoeksgemeenschap computerlinguistiek, taal- en spraaktechnologie. 01/01/2000 - 31/12/2004

        Abstract

        Het doel van deze Wetenschappelijke Onderzoeksgemeenschap (met roepnaam CLIF: Computational Linguistics in Flanders) is het samenbrengen van de Vlaamse expertise in het domein van de taal- en de spraakverwerking. Voor de handhaving van het Nederlands als gelijkwaardig met grotere talen in Europa is deze bundeling van expertise essentieel. De samenwerking tussen de deelnemende onderzoeksgroepen zal verlopen volgens een aantal krachtlijnen: 'Het samenbrengen van de fundamentele onderzoeksinspanningen op het vlak van de taal- en spraakverwerking in Vlaanderen. 'Het faciliteren van de onderzoeksactiviteiten van de deelnemende onderzoeksgroepen met het oog op een zo ruim mogelijke (her-)bruikbaarheid van gegevensbestanden voor gesproken en geschreven taal. 'CLIF wil zich in de nabije toekomst heel specifiek toespitsen op de uitwerking van de integratie van fundamenteel onderzoek in de taal- en de spraaktechnologie in een Vlaamse context. 'CLIF wil zich ook inzetten bij dienstverlening door advies en specifieke onderwijsaktiviteiten.

        Onderzoeker(s)

        Onderzoeksgroep(en)

        Neurale netwerken en genetische algoritmen voor taaltechnologie met de CAM Brain Machine. 01/04/1999 - 31/12/2000

        Abstract

        Fundamenteel onderzoek naar de toepassingsmogelijkheden van neurale netwerken en genetische algoritmen in taal- en spraaktechnologie, in de context van de implementatie ervan op evolutionaire hardware. Integratie van deze technieken met bestaande statistische en zelflerende methodes voor desambiguering by taalanalyse. Dit project is in samenwerking met Flanders Language Valley (FLV).

        Onderzoeker(s)

        Onderzoeksgroep(en)

          Automatisch leren van computationele grammatica's. 01/05/1998 - 30/04/2001

          Abstract

          Het thematisch netwerk Leren van Computationele Grammatica's (LCG) onderzoekt verschillende manieren waarop zelflerende technieken kunnen worden toegepast bij het verbeteren van computationele grammatica's. LCG zal hiertoe een aantal zelflerende technieken uittesten, zowel symbolische als statistische. Het wetenschappelijke doel is het vinden van een omschrijving van het type leertechnieken dat in staat is taal te leren. Dit weerspiegelt een uitdaging in de theoretische taalkunde hoe is Taalverwerving mogelijk, en kan tot praktische toepassingen in de taaltechnologie leiden. In dit netwerk (waarin UIA samenwerkt met Groningen, Tuebingen, SRI Cambridge, University College Dublin, Suissetra Geneve en Xerox Research Center Grenobles) neemt UIA de toepassing van geheugengebaseerde leertechnieken voor zijn rekening.

          Onderzoeker(s)

          Onderzoeksgroep(en)

            Computationele psycholinguistiek : natuurlijke en artificiele taalverwerving en -verwerking. 01/01/1998 - 31/12/2003

            Abstract

            Zijn taalverwerving en (volwassen) taalgebruik mogelijk zonder aanname van abstracte linguïstische representaties? Deze vraag wordt bestudeerd aan de hand van een nieuwe methodologie: technieken uit drie verschillende disciplines worden gebruikt, nl. het taalverwervingsonderzoek, de psycholingu'stiek en de Artificiële intelligentie. De eerste twee disciplines bestuderen de reële taalleerder/-gebruiker, terwijl de laatste de Artificiële taalleerder/-gebruiker bestudeert. In het verleden werden Artificiële leermodellen gebruikt om effecten te simuleren die in het reÙle taalgebruik werden geobserveerd. Hoewel simulaties de computationele kracht van het leersysteem demonstreren en interessante hypothesen suggereren omtrent de eigenlijke taalgebruiker, werden ze nooit gebruikt om hypothesen te falsifiÙren uit (ontwikkelings)psycholinguïstische studies. In het voorgestelde project willen we Artificiële taalleerders/-gebruikers niet enkel inzetten om het reÙle taalgebruik te simuleren maar tevens om factoren te isoleren die het gedrag van het model beïnvloeden en vervolgens de effecten van diezelfde factoren te bestuderen in psycholinguïstische experimenten en in taalverwervingsonderzoek. Als de effecten bij de Artificiële leerder/gebruiker verschillen van die bij de reÙle leerder/gebruiker, kan het leermodel worden aangepast om uiteindelijk zijn gedrag in overeenstemming te brengen met dat van de taalgebruiker. Deze methode waarbij de resultaten omtrent taalverwerving en psycholingu'stiek worden gerelateerd aan computationeel werk en omgekeerd is dus een heuristiek om eigenschappen te ontdekken van de representatie van taal in de reÙle taalleerder/-gebruiker.

            Onderzoeker(s)

            Onderzoeksgroep(en)

            Contextuele interpretatie van natuurlijke taal dmv. abductieve redeneringen inductief verworven kennis. 01/01/1997 - 31/12/2000

            Abstract

            Op linguïstisch vlak stellen er zich twee fundamentele problemen bij de modellering van het contextuele interpreteren, namelijk 1. Het leggen van verbanden die niet expliciet in de tekst worden vermeld, zoals coreferentie en temporele relaties 2. de contextuele disambiguering van ambigue woorden of constructies We zullen in dit project focussen op de representatie en de interpretatie van temporele expressies in het Nederlands. Als startpunt wordt gebruik gemaakt van de representatietaal van Discourse Representation Theory. De bedoeling is om met data mining technieken disambigueringsregels op te stellen. Hiervoor zal naar gepaste gegevensmodellering en oplossingsmethodes voor de inferentie gezocht moeten worden. Het project wil de mogelijkheden onderzoeken van het abductieve redeneren bij de contextuele interpretatie van temporele expressies en van het inductieve redeneren bij de extractie van regels voor disambuguering.

            Onderzoeker(s)

            Onderzoeksgroep(en)

              De verwerving van talige kennis. 01/01/1997 - 31/12/1997

              Abstract

              Onderzoeker(s)

              Onderzoeksgroep(en)

                Een datagedreven model van taalverwerving : computationele en psycholinguïstische studies. 01/01/1996 - 31/12/2000

                Abstract

                Het doel van het project is de ontwikkeling van een computationeel psycholinguïstisch model van morfosyntactische verwerving van het Nederlands. Het omvat twee luiken: een psycholinguïstisch luik waarin de verwerving van de morfosyntaxis bestudeerd wordt, m.b. de morfologische en distributionele reflexen van het kenmerk 'finiet', en een computationeel luik waarin een computermodel van dezelfde taalaspecten wordt geimplementeerd, gebruik makend van de principes van 'gelijkenis gebaseerd redeneren'.

                Onderzoeker(s)

                Onderzoeksgroep(en)

                  Electronisch archief voor de taaltechnologie van het Nederlands. 01/10/1995 - 31/12/1996

                  Abstract

                  Het doel van dit project is het installeren, ontwikkelen, ter beschikking stellen en verrijken van een elektronische 'server' voor software, data- verzamelingen, kennisbanken, en corpora die verband houden met taaltechnologisch onderzoek voor het Nederlands. Deze gegevens worden via de "informatiesnelweg" aan de Vlaamse, Nederlandse en internationale onderzoeksgemeenschap m.b.t. taaltechnologie ter beschikking gesteld. Een dergelijke informatiedienst is essentieel voor de ontwikkeling van de Nederlandstalige taaltechnologie: (i) voor het verzekeren van de herbruikbaarheid van onderzoeksgegevens en (ii) voor het vermijden van een onproduktieve herhaling van of overlapping in onderzoeksinspanningen, en (iii) als een didactische informatiebron voor studenten in de taaltechnologie en computerlinguistiek.

                  Onderzoeker(s)

                  Onderzoeksgroep(en)

                    Geheugen-gebaseerde acquisitie en verwerking van morfologische en syntactische kennis van taaltechnologische toepassingen. 01/07/1995 - 30/06/1996

                    Abstract

                    Het doel van dit project is de ontwikkeling van een computationeel model van morfofonologische en syntac tische verwerving en verwerking, gebaseerd op princi pes ontleend aan het geheugen-gebaseerd redeneren. In dit kader wordt gestreefd naar de abstractie van taalkundige kennis op een taalonafhankelijke en een domeinonafhankelijke wijze.

                    Onderzoeker(s)

                    Onderzoeksgroep(en)

                      Computerlinguistiek en taaltechnologie. 01/01/1995 - 31/12/1999

                      Abstract

                      De Onderzoeksgroep 'Computerlinguistiek en taaltechnologie' heeft als doel de Vlaamse expertise op het vlak van computerlinguistiek en taaltechnologie samen te brengen en te versterken. De voornaamste hoofdlijnen: (i) Het samenbrengen van de versnipperde onderzoeksinspanningen op het vlak van de natuurlijke taalverwerking in Vlaanderen, met het oog op de uitbouw van een multidisciplinair gevoede taaltechnologie voor het Nederlands. (ii) Het specifiek richting geven aan de onderzoeksactiviteiten van de deelnemende onderzoeksgroepen met het oog op een zo ruim mogelijke herbruikbaarheid van de resultaten van de onderzoeksinspanningen in een Europees perspectief.

                      Onderzoeker(s)

                      Onderzoeksgroep(en)

                        FONILEX : een uitspraaklexicon voor het Nederlands in Vlaanderen. 01/01/1995 - 30/06/1997

                        Abstract

                        Dit project stelt een gegevensbank samen met de uitspraak van een representatief staal van woordvormen uit het Nederlandse in de Vlaamse uitspraak variant. De gegevensbank is bedoeld als instrument ter ondersteuning van spraakonderzoek, m.b. voor gebruik in foneemgebaseerde herkenners, systemen voor synthese van tekst-naar-spraak en systemen die spraak- en taalverwerking integreren.

                        Onderzoeker(s)

                        Onderzoeksgroep(en)

                          Machinale verwerving van pragmatische kennis: theoretische overwegingen en een implementatie. 01/10/1994 - 30/09/1996

                          Abstract

                          Dit project is een studie in het domein van de automatische verwerving van kennis (Zelflerende systemen). De specifieke kennisvorm waar het om gaat is natuurlijke taal, meer bepaald de pragmatische aspecten ervan. Bedoeling is de ontwikkeling van een gefundeerd kader voor het opbouwen van leermodellen van pragmatische informatie.

                          Onderzoeker(s)

                          Onderzoeksgroep(en)

                            De verwerving van talige kennis : cognitieve en taaltechnologische aspecten. 01/01/1994 - 31/12/1997

                            Abstract

                            In dit project bestuderen wij het proces van taalverwerving via een data-gestuurde benadering en via het uitvoeren van experimenten met artificieel leeralgorithmes waarbij beeldleren kan ingevoerd worden.

                            Onderzoeker(s)

                            Onderzoeksgroep(en)