Taaltechnologie legt haatberichten bloot

Date: 15 April 2016

Introduction: Twitter wil niet dat zijn platform gebruikt wordt om terrorisme te promoten. Maar hoe controleer je die miljoenen tweets per dag?

Textgain, een nieuwe spin-off van de Universiteit Antwerpen, ontwikkelde taaltechnologie die automatisch haatberichten uit IS-hoek kan traceren.

De Universiteit Antwerpen bouwde de voorbije jaren heel wat expertise op in het automatisch analyseren van enorme hoeveelheden tekst. Wetenschappers screenden zo in 2014 alle Nederlandstalige Twitterberichten met de naam van een bekende politicus. Dit resulteerde in een ‘politieke barometer’, die aangaf met welk sentiment er over een politicus of politieke partij getweet werd. Tijdens het VTM-programma K3 zoekt K3 analyseerden de onderzoekers de overdonderende hoeveelheid tweets in real-time, wat hen toeliet het nieuwe meidentrio vooraf juist te voorspellen.

Met die ervaring op zak richtten onderzoekers Guy De Pauw, Tom De Smedt en professor Walter Daelemans onlangs de spin-off Textgain op. Taaltechnologie staat centraal bij de boreling: “Met de spin-off willen we de technologie die ontwikkeld werd binnen de onderzoeksgroep CLiPS (Computational Linguistics & Psycholinguistics) naar de markt brengen”, aldus De Pauw. “Die technologie laat toe om automatisch feiten, opinies en demografische informatie te extraheren uit bijvoorbeeld sociale media, krantenartikels en e-mails, in verschillende talen. Die informatie is erg waardevol voor toepassingen binnen big data en e-marketing.”

“Voor een bedrijf is het belangrijk om te weten hoe er op de sociale media over hen gesproken wordt”, legt De Smedt uit. “Maar er wordt zoveel gepost en getweet dat het onmogelijk is zelf die gegevens te screenen. Daar kan Textgain bij helpen. Het gaat verder dan je zou denken: dat I love it! een positieve uitspraak is, ligt voor de hand. Maar de technologie kan ook inschatten dat die commentaar waarschijnlijk  geschreven is door een vrouw en niet door een man. Ook leeftijd en zelfs persoonlijkheidskenmerken kunnen we aanduiden. Dergelijke informatie is erg nuttig voor marketeers.”

Veiligheidsdiensten
Textgain is niet alleen actief op marketingvlak. De spin-off  zet hun taaltechnologie ook in om terroristische haatberichten op te sporen op Twitter. De Smedt: “In februari kondigde Twitter aan dat ze hun platform niet gebruikt willen zien worden om terrorisme te verheerlijken. 125 000 accounts werden reeds afgesloten, meestal accounts die aan IS en aanhangers konden worden toegeschreven.”

Maar de strijd tegen haatberichten is ontzettend moeilijk. Textgain ontwikkelde nu software die automatisch haatpredikende woorden en combinaties van woorden opspoort. “Onze software past zichzelf bovendien voortdurend aan, want de retoriek evolueert. We moeten deze technologie uiteraard  voorzichtig gebruiken, maar op termijn zien we mogelijkheden om samen te werken met bijvoorbeeld veiligheidsdiensten.”