La piattaforma di calcolo bioinformatico BioDec (BIP)

La piattaforma di calcolo bioinformatico BioDec (BioInfo Platform - BIP) è un insieme di programmi per realizzare un cluster di calcolo per il Next Generation Sequencing (NGS) e la bioinformatica.

La piattaforma di calcolo bioinformatico BioDec (BioInfo Platform - BIP) è un insieme di programmi per realizzare un cluster di calcolo per il Next Generation Sequencing (NGS) e la bioinformatica. Le moderne tecniche NGS permettono di accumulare una grande quantità di dati genomici, proteomici e genetico-medici con facilità e costi contenuti: questa mole di dati permette di svolgere analisi e simulazioni altrimenti impossibili, e quindi avere dei risultati e delle indicazioni funzionali alla ricerca farmaceutica, alla ricerca di vaccini ed alla diagnostica medica in generale.

I servizi

I programmi della BioDec BIP sono fruiti in diversi modi (nativamente sui server fisici, o come macchine virtuali, o come container) al fine di formare una piattaforma di servizi che eroghi le seguenti funzionalità:

  • un ambiente di virtualizzazione,

  • uno storage distribuito iperconvergente ad altre prestazioni e ad alta affidabilità,

  • un servizio di identity management,

  • i servizi di code di calcolo sui nodi di computazione,

  • l'installazione delle principali applicazioni di calcolo bioinformatico e NGS,

  • un'applicazione per la gestione di annotazioni di genoma umano (partendo da file in formato BAM e VCF),

  • un'applicazione per svolgere analisi computazionali bioinformatiche tramite un'interfaccia web,

  • un'applicazione per svolgere analisi statistiche tramite un'interfaccia web,

  • un sistema di backup,

  • un sistema di archiviazione,

  • un ambiente per il versionamento del codice di calcolo,

  • un ambiente di continuous integration e continuous deployment (CI e CD),

  • un servizio di issue tracking,

  • un servizio di monitoraggio (log management, allarmistica, metriche),

  • i servizi di rete infrastrutturali (VPN, proxy, firewall),

  • i servizi di automazione,

  • una meta-package manager proprietario per l'archiviazione e la riproduzione delle applicazioni di calcolo bioinformatico e NGS, denominato LTSAR system (Long-Term Software Archive and Reproduction System): in particolare quest ultima applicazione BioDec consente di riprodurre a distanza anche di anni le medesime pipeline sofware che potevano essere in produzione anni addietro, riferendo pacchetti o librerie che potrebbero anche non essere più disponibili su Internet,

  • una piattaforma di container Linux da utilizzare come servizio (PAAS).

In particolare, la piattaforma di calcolo BioDec BIP mira a realizzare un ambiente contenuto ed autonomo per tutte le attività di un gruppo di ricercatori che debbano sia eseguire delle pipeline di analisi che gestire successivamente grandi moli di dati.

L'innovazione

La novità della piattaforma BioDec BIP risiede nell'integrazione di numerose componenti che coprono l'intero stack tecnologico, partendo dalle applicazioni installate sui server fisici (ad esempio per gestire gli ambienti di virtualizzazione di storage) e arrivando agli ambienti nelle macchine virtuali in cui si trovano i pacchetti utilizzati dai ricercatori, fino alla gestione del codice, del ciclo di vita del medesimo e di tutte gli stadi dei dati (dati caldi, freddi, archiviati, eccetera). In particolare, l'integrazione di best practices tipiche del mondo dello sviluppo software, come il versionamento del codice e i sistemi di Continuous Integration e di Continuous Delivery, permette di creare degli artefatti e degli ambienti di calcolo validati, i quali consentono di raggiungere obiettivi come:

  1. la ripetibilità delle analisi,

  2. la verifica della qualità dei risultati ottenuti,

  3. il controllo nel tempo, anche a distanza di decenni, della qualità di quanto prodotto - in particolare questa funzione è abilitata dall'uso dello LTSAR system come sistema di archiviazione del codice, ed è una funzione unica della BIP,

  4. il riesame di dati vecchi con nuovi metodi di calcolo,

  5. tempi di sviluppo e di messa in opera estremamente rapidi, anche per pipeline di calcolo di centinaia di componenti.

Vincoli

La BioDec BIP richiede di essere installata su un insieme di macchine fisiche o virtuali, e può funzionare sia in ambito on-premise che cloud. Al fine di garantire la completezza dell'ambiente si sconsiglia di utilizzare dei server singoli, anche perché andrebbero a cadere certe garanzie di ridondanza e quindi di disponibilità in caso di problemi (disaster recovery).

Inoltre, la capacità concreta di calcolo e di storage è direttamente proporzionale al numero di risorse (CPU, RAM, dischi, rete ad alte prestazioni) che l'insieme di macchine possiede, e pertanto certe garanzie di performance non dipendono dall'architettura della BioDec BIP, ma dalle caratteristiche dell'hardware (o del cloud) offerto.

archiviato sotto: ,