Abstract
Massaspectrometrie (MS) is een essentiële technologie in proteomics en metabolomics, die grote hoeveelheden data genereert. Het hergebruik van data wordt echter belemmerd door onvolledige metadata en inconsistente kwaliteitscontrole (QC), waardoor onderzoekers beperkt zijn in het vinden, vergelijken en integreren van datasets. Ik zal deze barrières aanpakken door geavanceerde bioinformatica- en machine learning-oplossingen te ontwikkelen voor geautomatiseerde metadata-extractie en QC-beoordeling in MS-gebaseerde omics. Ten eerste zal ik workflows ontwerpen om metadata te extraheren uit ruwe MS-data en wetenschappelijke literatuur. Deze tools zullen worden geïntegreerd met publieke formaten en opslagplaatsen zoals SDRF-Proteomics en de PRIDE-database, waardoor gestructureerde annotatie van zowel technische parameters als biologische context voor openbare MS-data mogelijk wordt. Ten tweede zal ik een gestandaardiseerd QC-raamwerk implementeren dat zowel identificatievrije als -gebaseerde metrieken biedt, zodat onderzoekers in één oogopslag de betrouwbaarheid van data kunnen beoordelen. Een machine learning-gedreven dashboard zal de dataselectie verder mogelijk maken door afwijkende experimenten te markeren. Door de beschikbaarheid van metadata te verbeteren en transparante QC te garanderen, zal dit project hergebruik van openbare MS-datasets mogelijk maken, waardoor secundaire analyses, metastudies en AI-gestuurde toepassingen in MS-gebaseerde omics worden versneld.
Onderzoeker(s)
Onderzoeksgroep(en)
Project type(s)