Onderzoeksgroep

De novo massaspectrometrie peptide sequencing met een transformer groot taalmodel. 01/11/2025 - 31/10/2027

Abstract

Proteomics heeft als doel biologische systemen te begrijpen door eiwitten en hun modificaties te karakteriseren. Een belangrijke computationele uitdaging in massaspectrometrie (MS) gebaseerde proteomics is het identificeren van peptiden uit tandem-MS-spectra. Conventionele methoden worden beperkt door hun afhankelijkheid van bestaande databases met eiwitsequenties, waardoor een groot deel van de spectra niet geïdentificeerd kan worden. De novo peptide sequencing biedt een oplossing door peptidesequenties rechtstreeks uit spectra te genereren, maar de huidige oplossingen hebben verschillende beperkingen. Ze hebben een lage nauwkeurigheid, beperkte generaliseerbaarheid over verschillende MS instrumenten en hebben moeilijkheden bij het verwerken van complexere peptidenklassen zoals peptiden uit het immuunsysteem. Casanovo pakt deze beperkingen aan door gebruik te maken van recente vooruitgang in deep learning en taalmodellen. Casanovo heeft een transformer-gebaseerde architectuur waarmee het spectra naar aminozuursequenties vertaalt met ongekende nauwkeurigheid, en overtreft daarmee aanzienlijk de bestaande academische en commerciële de novo sequencing modellen. Dit project zal de prestaties van Casanovo verder verbeteren door de meest uitgebreide trainingsdataset tot nu toe samen te stellen, de modelarchitectuur te optimaliseren met een focus op nauwkeurigheid en efficiëntie, en gespecialiseerde strategieën te ontwikkelen voor toepassingen in immunopeptidomics. In het bijzonder zal het werk zich richten op het overwinnen van de unieke uitdagingen van niet-tryptische peptiden en diverse MS instrumenten. Daarnaast zullen nieuwe methoden worden ontwikkeld om de betrouwbaarheid van identificaties te kunnen inschatten, waarmee een statistisch kader wordt vastgesteld voor de interpretatie van de novo identificaties. Door de nauwkeurigheid, robuustheid en toegankelijkheid van de novo sequencing te verbeteren, zal dit project een next-generation AI-framework voor het identificeren van peptiden vestigen, waardoor diepere biologische inzichten mogelijk worden en onderzoek in proteomics wordt versneld, immunologie wordt bevorderd en innovatie in biotechnologie wordt gestimuleerd.

Onderzoeker(s)

Onderzoeksgroep(en)

Project type(s)

  • Onderzoeksproject