Data integration for clinical coding algorithms

Datum: 27 november 2017

Locatie: Campus Drie Eiken, Promotiezaal Q0.02 - Universiteitsplein 1 - 2610 Antwerpen-Wilrijk (route: UAntwerpen, Campus Drie Eiken)

Tijdstip: 16 uur

Organisatie / co-organisatie: Departement Wiskunde-Informatica

Promovendus: Elyne Scheurwegs

Promotor: Bart Goethals & Walter Daelemans

Korte beschrijving: Doctoraatsverdediging Elyne Scheurwegs - Faculteit Wetenschappen - Departement Wiskunde-Informatica



Abstract

Klinisch coderen is het toewijzen van diagnostische en procedurele codes aan een verblijf van een patient in een ziekenhuis. In dit proefschrift maken wij gebruik van zelflerende algoritmes om deze klinische codes te voorspellen, zichzelf baserend op meerdere databronnen. Deze databronnen kunnen zowel gestructureerd als ongestructureerd (tekstueel) zijn. De klinische codes worden voorspeld per patiëntenverblijf, waarin data uit één of meerdere van deze databronnen aanwezig is.

In hoofdstuk 2 maken we een vergelijking tussen verschillende methodes om meerdere bronnen samen te brengen. We maken een onderscheid tussen vroege dataintegratie, waar we alle informatie als één geheel presenteren aan een classificator en late dataintegratie, waar we een aparte classificator trainen voor elke databron en we de resultaten van al deze classificatoren presenteren aan een meta-classificator, die een uiteindelijke voorspelling zal maken. In dit opzet is de late dataintegratiemethode het meest performant, voornamelijk omdat de informatiedensiteit van features afgeleid van elke bron zodanig uit elkaar ligt, dat een vroege dataintegratiemethode er niet in slaagt om hier de meest relevante features uit te kiezen. Late dataintegratie laat ons toe om extra bronnen toe te voegen, ongeacht de (on)gestructureerde aard van de bron, zonder een verlies in performantie. We zien ook dat de resultaten voor verschillende medische specialismen erg uiteenlopend zijn. Dit kan verklaard worden omdat het voorspellen van klinische codes in elk specialisme een andere complexiteit heeft, en een verschillende hoeveelheid data, van variabele kwaliteit, beschikbaar is voor elk specialisme.

Teksten in hoofdstuk 2 zijn gerepresenteerd als een ‘bag of words’, waarbij een feature wordt gemaakt van elk individueel woord, met als waarde het aantal keer dat het voorkomt in de tekst. Het zoeken naar een betere manier om ongestructureerde bronnen te representeren is het onderwerp van hoofdstuk 3. In dit hoofdstuk onderzoeken we het gebruik van aaneengesloten sequenties van één of meerdere woorden, die een medische betekenis kunnen hebben (mMWE's), als primaire entiteiten om informatie voor te stellen. Hierbij wordt getracht om gebruik te maken van methodes die geen gebruik maken van expliciete voorkennis, zoals lexicons van medische termen, omdat deze alleen partieel beschikbaar zijn voor het Nederlands. Er wordt wel vergeleken met een lexicon-gebaseerde techniek.

We gaan ook in op het gebruik van gedistribueerde semantische modellen, zoals Word2Vec, om de semantische betekenis van verschillende concepten te veralgemenen naar het patiëntenverblijf toe. Dit kan het mogelijk maken om mMWE's met een gelijkaardige betekenis te generaliseren. De meest succesvolle techniek om informatie toe te voegen via Word2Vec was het uitbreiden van de features met concepten die naburig zijn aan de aanwezige concepten in een patiëntenverblijf, maar dit werkte enkel voor het voorspellen van diagnostische codes. Wanneer we een hybride techniek gaan gebruiken, die de toegevoegde naburige concepten gaat beperken tot enkel concepten die ook in de UMLS lexicon voorkomen (zonder de LMI-concepten die al aanwezig waren te filteren), zien we een algemene verbetering in micro-F-measure tegenover een niet-restrictieve aanpak en tegenover een representatie die enkel bestaat uit concepten.

Deze techniek om de UMLS lexicon te gebruiken om een lijst van concepten te reduceren naar een relevante subset wordt ook gebruikt in hoofdstuk 5. Hier gebruiken we UMLS als filter om concepten gerelateerd aan psychiatrische aandoeningen te extraheren, door concepten mee te nemen die gedefinieerd zijn in DSM, of die een maximale afstand van n relationele stappen nodig hebben om tot bij een DSM-gedefinieerd concept te raken. Deze techniek zorgt ervoor dat we symptomen en medicatie die gerelateerd zijn aan psychiatrische condities - maar die niet gedefinieerd zijn in de (beperkte) lijst van diagnoses waaruit DSM bestaat - automatisch kunnen extraheren als features, zonder de gehele UMLS mee te moeten nemen als concepten. In plaats van het gebruik van generalisatietechnieken die de gedetecteerde, case-specifieke, features gaat representeren in algemene features, gebruiken we Random Forests om te classificeren. Inherent aan deze classificatiemethode is dat zwakkere features gebruikt worden om zwakkere beslissingsbomen te creëren, hetgene leidt tot overfitting voor individuele bomen. Door deze bomen uiteindelijk in ensemble te gebruiken, wordt er opnieuw gegeneraliseerd, en leidt dit tot een goede predictie.

In het vierde hoofdstuk gaan we opnieuw in op het integreren van informatie uit verschillende bronnen, deze keer met de ongestructureerde bronnen gerepresenteerd als een lijst van concepten, zowel gedetecteerd met lexicons als data-driven. We gaan dieper in op een vroege dataintegratiemethode, voornamelijk omdat een late dataintegratiemethode een databron te sterk generaliseert (en representeert met een enkel datapunt: één predictie per databron). Om vroege dataintegratie tot een goed resultaat te laten leiden, moeten we de classifiers een datarepresentatie aanbieden waarin er weinig redundantie en ruis aanwezig is. Hiervoor verkiezen we featureselectietechnieken tegenover methodes die een abstracte representatie maken van de data (e.g, embeddings) omwille van de interpreteerbaarheid van de resultaten. We introduceren confidence-coverage als featureselectietechniek, waarbij we enerzijds features gaan rangschikken op basis van hun correlatie met de samples die tot een bepaalde klasse horen, en anderzijds sample coverage gebruiken om deze features te selecteren, waarbij we features prefereren die kunnen zorgen voor een classificatie van het hoogste aantal samples. Confidence coverage zorgt voor een hogere F-measure, zowel tegenover een gain ratio baseline setup en predictie met de beste individuele databron. Wanneer we een experiment met gain ratio en confidence coverage vergelijken wanneer dezelfde input wordt gegeven, zal het experiment met confidence coverage minder features selecteren, waardoor het experiment computationeel 63.2% minder tijd nodig heeft (tot gemiddeld 62 minuten). Dit lagere aantal features heeft ook minder redundantie tussen de individuele features, waardoor de datarepresentatie zowel compacter als beter interpreteerbaar wordt.



Url: http://www.uantwerpen.be/wetenschappen