Dynamic Reading: the processing of orthographic features by dynamical systems

Date: 11 September 2020

Venue: Online doctoraatsverdediging - Blackboard Collaborate - - -

Time: 3:00 PM

PhD candidate: Stéphan Tulkens

Principal investigator: Walter Daelemans & Dominiek Sandra

Short description: Doctoraatsverdediging Stéphan Tulkens - Faculteit Letteren en Wijsbegeerte



Abstract (in English)

During single word reading, words are primarily identified by their visual properties: the letters or characters that make up that word. From a common sense point of view, this process of identification can be considered to be like looking up words in a dictionary. Several phenomena, however, point towards a much larger role for interactive, dynamic processing during visual processing: the identification of a word depends on the other words a person knows, and is not just the result of a visual stimulus. One of these phenomena is the neighborhood effect, which is the effect that words that look more like other words are read more quickly. For example, the word “BOOK” looks like several other words, such as “NOOK”, “ROOK”, “TOOK” and “LOOK”, while “SONIC” only looks like “TUNIC” and “TONIC”. All things being equal, “BOOK” is therefore read faster. The role of the neighborhood effect, and modeling the neighborhood effect using dynamic models of word recognition, is the topic of this thesis.

The thesis is divided into two parts, and is prefaced by an introductory theoretical chapter. The theoretical chapter mainly deals with the philosophical preliminaries of the work, and specifically with the notion of representation employed in many theories and models of word reading, and how a specific notion of representation is employed in many theories of word reading, including those governing the neighborhood effect.

The first part of this thesis deals with measuring the neighborhood effect, and specifically with the notion of similarity employed in the definition of the neighborhood effect. In short, there exist many featurizations of orthography, also called orthographic codes, all of which result in differences in how words can be said to be orthographically similar. According to some feature sets, the words “TREE” and “THREE”, for example, are very similar, while to others, these words are very dissimilar. In the first chapter, we discuss wordkit, a Python package containing implementations of all these feature sets, along with tools for accessing popular corpora. This toolkit thus facilitates research in word reading.

In the second chapter, we compare several feature sets, and introduce a new metric for comparing them, which we call Representation Distance (RD). This metric is the sum of the distances to the 20 closest neighbors for an arbitrary vector space. Previous metrics only operated on string representations, and therefore could not be used to compare theories of orthographic representation. In a regression analysis using French, Dutch and British English corpora, we show that feature sets that are more flexible, i.e., feature sets that assign higher similarity to THREE and TREE, explain less variance in lexical decision latencies. We also show that RD, the newly proposed metric, can be used to analyze hidden state matrices of Multi-Layer Perceptrons.

In the third chapter, we expand this analysis, and optimize the different feature sets by jointly optimizing the number of nearest neighbors taken into account in the calculation of RD, and the parameters of the feature sets. We apply this to five alphabetic languages: the three languages used in the previous study, as well as American English and Spanish. We show that all results of the optimizations are in agreement across these languages. We also introduce a feature weighting scheme based on a discrete version of negentropy, the complement of entropy. Finally, we also present results on Hangul, the alphabet of Korean. These results diverge from the results on the other alphabetic languages, and, as such, raise questions of whether the way we measure the neighborhood effect is specific to alphabetic languages.

The second part of the thesis deals with the dynamic models that process these orthographic features. In this part, we specifically study the Interactive Activation (IA) model, a dynamic model of word recognition first published in 1981. In a first chapter, we introduce Metameric, a toolkit for the IA model and related models, together with some empirical work demonstrating some of the assumptions inherent in the IA model and IA networks. We specifically show that the assumption that IA models can only use words of a specific length is false, and show how the model can be extended to use words of any length. In the second chapter, we present a working version of the BIA+ model, a bilingual version of the IA model. This model, although very popular, has only been available as a theoretical model, and has not been implemented before. Using a process called rational reconstruction, we use the theoretical version of the BIA+ model to create an implemented version. We show that one of the main theoretical commitments of BIA+, that language information is explicitly represented, is not backed up by the implemented version of the BIA+ model. In the final chapter, we introduce a new model, called SIMBL, which is a simple dynamic model of lexical decision. This model is more flexible than the IA model in terms of which orthographic features it accepts, but still can explain some common results in lexical decision experiments.

Finally, we present a short conclusion in which we discuss how these dynamic models could be extended to a fully visually grounded model of reading.

 

Nederlands

Tijdens het lezen worden woorden geïdentificeerd door middel van hun visuele eigenschappen, zoals de letters of andere karakters waaruit woorden bestaan. Dit proces van visuele identificatie zou men metaforisch als een soort van toegangscode kunnen zien: de reeks karakters die een woord voorstelt is een sleutel van een bepaalde kluis, die de betekenis en associaties van een woord bevat. Verschillende fenomenen spreken dit tegen, en laten zien dat dit proces van toegang eerder dynamisch en interactief is. De identificatie van een woord hangt niet puur af van de visuele stimulus, maar wordt beïnvloedt door andere woorden die de lezer kent. Een van deze fenomenen is het zogenaamde neighborhood effect: woorden die meer op andere woorden lijken worden sneller geïdentificeerd dan woorden. Dit fenomeen is waarschijnlijk het gevolg van competitie of co-activatie tussen woord-representaties. Het bestuderen van dynamische modellen die dit fenomeen kunnen verklaren, is het onderwerp van deze thesis.

De thesis is verdeeld in twee delen, en wordt voorafgegaan door een theoretisch kader. Het theoretisch kader bevat, naast een introductie, ook de filosofische veronderstellingen van het werk. Hierin besteden we met name aandacht aan de notie representatie, een term die in de beschrijving van veel modellen gebruikt wordt, maar zelden volledig uitgelegd wordt.

Het eerste deel van de thesis gaat over het neighborhood effect als zodanig, en specifiek over de notie van orthografische gelijkenis die in de definitie van het effect gebruikt wordt. In het kort zijn er veel verschillende mogelijkheden om orthografie te representeren. Elk van deze mogelijkheden noem je een feature set. Feature sets verschillen dus in woorden op elkaar lijken. Volgens sommige feature sets lijken de woorden DRIE en DIE bijvoorbeeld veel op elkaar, voor andere dan weer niet. In het eerste hoofdstuk van dit deel bespreken we wordkit, een softwarepakket dat veel van deze feature sets implementeert, en daarmee de reproduceerbaarheid van experimenten vergroot, omdat het softwarepakket hergebruikt kan worden voor nieuwe experimenten. In het tweede hoofdstuk vergelijken we een aantal van deze feature sets, en introduceren een nieuwe metriek om ze te vergelijken. Deze metriek noemen we Representation Distance (RD). De RD van een bepaald woord is gedefiniëerd als de afstand tot de twintig dichtstbijzijnde andere woorden in een arbitraire vectorruimte die gedefinieerd wordt door de feature set. Eerdere metrieken opereerden alleen op string representaties, en konden daarom niet gebruikt worden om arbitraire feature sets met elkaar te vergelijken. Met RD laten we zien dat feature sets die meer orthografische flexibiliteit toelaten tegelijkertijd minder variantie verklaren in de reactietijden van lexicale decisie experimenten in drie verschillende alfabetische talen. Daarnaast laten we zien dat RD gebruikt kan worden om inzicht te krijgen in hoe een neuraal netwerk, zoals een Multi-Layer Perceptron (MLP), de woorden verwerkt. In het derde hoofdstuk breiden we de analyse van het vorige hoofdstuk uit, en optimaliseren we de verschillende feature sets door tegelijk het aantal woorden dat in de berekening van RD gebruikt wordt, en de parameters van deze feature sets, te optimaliseren.

Daarnaast introduceren we twee nieuwe corpora, en laten we zien dat de resultaten die we vinden identiek zijn voor al deze talen, wat aantoont dat onze resultaten niet taalspecifiek zijn. Daarnaast introduceren we een techniek die individuele features van de feature set weegt. Deze is gebaseerd op een discrete variant van negentropie, het complement van entropie. Tenslotte presenteren we ook de eerste resultaten op Hangul, het Koreaanse alfabet. De resultaten voor het Koreaans divergeren van die van de andere vijf alfabetische talen. Dit laat zien dat het neighborhood effect wellicht geen algemeen cognitief effect is, maar eerder specifiek is aan alfabetische talen.

Het tweede deel van deze thesis gaat over dynamische modellen die de orthografische features uit het eerste deel verwerken. In dit deel bestuderen we specifiek het Interactive Activatie-model (IA), een dynamisch model van woordherkenning uit 1981. In een eerste hoofdstuk introduceren we Metameric, een simulator en tool waarmee IA en andere modellen makkelijk gereproduceerd kunnen worden. Daarnaast bevat het hoofdstuk enkele algemene empirische resultaten over het IA-model en IA-netwerken in het algemeen. In het tweede hoofdstuk van dit deel bespreken we het BIA+ model, een bilinguaal IA-model. Het BIA+ model had tot de publicatie van dit hoofdstuk nog geen implementatie, alleen maar een theoretische beschrijving. We beschrijven de implementatie van het BIA+ model, en de moeilijkheden die we in het creëren van deze implementatie tegenkwamen. Een vergelijking van het theoretische en geïmplementeerde model laat zien dat het BIA+ model een te grote nadruk legt op de rol van taligheid. Voor de simulatie van bilinguale effect is, althans in het framework van BIA+, geen notie van taal nodig. In het laatste hoofdstuk van dit deel, en tevens het laatste hoofdstuk van deze thesis, introduceren we SIMBL, een algemeen dynamisch model dat, in tegenstelling tot IA, niet beperkt is tot het gebruiken van een enkele soort orthografische representatie. We laten zien dat SIMBL verschillende effecten in lexicale decisie experimenten kan verklaren.



Link: https://www.uantwerpen.be/en/research-groups/clips/