5,000 brains, one pipeline: building a multimodal resource from seven open datasets

Valentina Sammassimo

⏳ 3 min

What happens when you stitch together the strengths of the biggest open neuroimaging cohorts, and then run them all through the very same, carefully engineered pipeline? You get a clean, consistent, and unusually rich picture of the human brain at rest and in structure.

Over the past months, we have pulled off a milestone we’re genuinely proud of: we assembled and preprocessed 5,000 subjects with both T1-weighted structural MRI and resting-state fMRI, merging data from Cam-CAN, HCP Aging, HCP Young Adults, NKI, OASIS-3, PREVENT-AD, and SALD. That’s 10,000 scans processed through a single pipeline — ready for large-scale, reproducible analyses.

 

How did we make seven datasets speak the same language?
A single, end-to-end pipeline kept the playing field level across studies:

  • Quality control that scales. We started with MRIQC to flag outliers and artifacts, so only data passing a consistent bar moved forward.
  • Structural + functional preprocessing, together. Our fMRI workflow integrates fMRIPrep, XCP-D, and FSL; for T1w we included intensity non-uniformity correction, skull stripping, and tissue segmentation, and we ran FreeSurfer to extract volumes, cortical thickness, surface areas, gyrification, and curvature.
  • From signals to systems. On resting-state data we applied motion and distortion correction, temporal filtering, confound regression, and spatial smoothing. Then we layered on REACT — Receptor-Enriched Analysis of functional Connectivity by Targets — to enrich connectivity maps with normative molecular information linked to dopamine, noradrenaline, and serotonin systems.

What’s inside the resource?

  • High-quality raw anatomical and functional scans
  • Preprocessed T1w and resting-state images
  • REACT-enriched functional connectivity maps
  • Tabular .tsv files with structural features and parcellated functional measures

Why this matters?
Uniform processing across heterogeneous cohorts is the backbone of trustworthy population neuroscience. With this dataset, we (and you!) can push on questions that benefit from scale and consistency — linking structure, function, and molecular proxies — from brain-age modeling and normative modeling to early signatures of neurodegeneration and heterogeneity in clinical populations.

 

What’s next?
We’re now leveraging this resource for multimodal analyses and making our workflows as transparent and reusable as possible. If you’re interested in methods, collaboration, or downstream applications, we’d love to hear from you.

•    •    •

Cosa succede quando metti insieme i punti di forza dei più grandi coorti di neuroimaging open e li fai passare attraverso la stessa pipeline, progettata con cura? Ottieni un quadro pulito, coerente e insolitamente ricco del cervello umano — nella struttura e a riposo.

 

Negli ultimi mesi, abbiamo raggiunto un traguardo di cui siamo davvero orgogliosi: abbiamo assemblato e preprocessato 5.000 soggetti con risonanza magnetica strutturale T1w e fMRI resting-state, fondendo dati da Cam-CAN, HCP Aging, HCP Young Adults, NKI, OASIS-3, PREVENT-AD e SALD. In totale, 10.000 scan sono state armonizzate in modo uniforme in un’unica pipeline, pronte per analisi su larga scala e riproducibili.

 

Come abbiamo fatto parlare la stessa lingua a sette dataset?
Una pipeline unica, end-to-end, ha reso possibile un preprocessing comune a tutti gli studi:

  • Controllo qualità scalabile. Siamo partiti da MRIQC per individuare outlier e artefatti, così solo i dati che superavano una soglia uniforme sono avanzati.
  • Preprocessing strutturale + funzionale, insieme. La pipeline fMRI integra fMRIPrep, XCP-D e FSL; per le T1w abbiamo incluso correzione dell’eterogeneità d’intensità, skull stripping e segmentazione tissutale, ed eseguito FreeSurfer per estrarre volumi, spessore corticale, superfici corticali, indici di girificazione e curvatura.
  • Dai segnali ai sistemi. Al segnale resting-state abbiamo applicato correzione del movimento e distorsione, filtraggio temporale, regressione dei confondenti e smoothing spaziale. Poi abbiamo aggiunto REACT — Receptor-Enriched Analysis of functional Connectivity by Targets — per arricchire le mappe di connettività con informazioni molecolari normative legate ai sistemi dopaminergico, noradrenergico e serotoninergico.

Cosa contiene la risorsa?

  • Immagini raw anatomiche e funzionali di alta qualità
  • Immagini preprocessate T1w e resting-state
  • Mappe di functional connectivity arricchite con REACT
  • File .tsv con feature strutturali e misure funzionali parcellizzate

Perché è importante?
Un’elaborazione uniforme su coorti eterogenee è la spina dorsale per studi di popolazione nelle neuroscienze. Con questo dataset possiamo (e potete!) affrontare domande che richiedono larga scala e consistenza — collegando struttura, funzione e proxy molecolari — dal brain-age e modelling normativo alla prevenzione di fenomeni di neurodegenerazione e all’eterogeneità nei contesti clinici.

E adesso?
Stiamo già sfruttando questa risorsa per analisi multimodali e puntiamo a rendere i nostri flussi di lavoro il più trasparenti e riutilizzabili possibile. Se ti interessano i metodi, una collaborazione o le applicazioni downstream, ci farebbe piacere parlarne.

Marco Pinamonti & Valentina Sammassimo


Comments

Leave a Reply

Your email address will not be published. Required fields are marked *

0
Would love your thoughts, please comment.x