Implementazione LUSTRE File System per Cluster di Calcolo OAS
Date Issued
2023
Author(s)
Abstract
Il cluster di calcolo di OAS utilizzava IBM GPFS come filesystem condiviso e
pur avendo delle prestazioni eccellenti, nonché un buon livello di sicurezza,
aveva il difetto di essere molto costoso.
La licenza risaliva ad una versione datata del software in quanto IBM richiede
una licenza annuale per poter utilizzare le versioni più recenti e ciò ne
rendeva il mantenimento troppo oneroso.
Un aspetto negativo riscontrato con la versione in nostro possesso era lo
sporadico calo delle prestazioni con conseguente blocco del sistema e la
necessità di riavviare le macchine. Le motivazioni di tale fenomeno
risiedevano probabilmente nella vetustà della versione di GPFS licenziata e
nella disomogeneità dei sistemi operativi dei nodi che lo implementavano.
In effetti la maggior parte dei nodi implementavano, come Sistema Operativo,
Centos 6 e questo comportava una forte limitazione nell’uso del software più
aggiornato, ad esempio l’uso dei container era quasi impossibile.
C’era anche un problema di sicurezza, le vecchie versioni del Sistema
Operativo non ricevono più gli aggiornamenti di sicurezza, che però era di
lieve entità in quanto quasi tutti i nodi appartenevano ad una rete locale.
1LUSTRE è un file system distribuito molto usato in ambito scientifico (se non il
più usato), è gratuito ed è mantenuto dalla comunità degli utilizzatori.
È presente una grande mole di documentazione ed esempi che però non
sono aggiornati in modo organico, bisogna fare molta attenzione alla versione
di LUSTRE cui si riferiscono.
Inoltre la grande maggioranza delle implementazioni usano Ethernet come
sistema di collegamento tra i nodi e sono molto poche le implementazioni, e
quindi le relative documentazioni, che usano Infiniband.
L’utilizzo di Infiniband è stato dettato dall’hardware già presente nel cluster di
calcolo precedente, nonostante la versione datata delle schede (e dello
switch) Infiniband in nostro posesso si è deciso di continuare ad usarlo per via
della bassa latenza che lo caratterizza.
Un altro problema legato all’utilizzo della tecnologia Infiniband è l’alto costo
degli apparati, questo comporterà un attento ragionamento quando si
presenterà l’occasione di espandere ed aggiornare il cluster.
Per l’implementazione di tutto il sistema si è fatto riferimento al manuale
operativo “Lustre* Software Release 2.x” nella versione del 2017 rilasciato da
Intel e nella pagina wiki: “https://wiki.lustre.org” fonte preziosa di informazioni
soprattutto per la parte relativa ad Infiniband.
Si è seguita la strategia di pianificare attentamente la configurazione
desiderata, ciò ha permesso di individuare le caratteristiche tecniche da
implementare e soprattutto i comandi corretti da impartire velocizzando tutta la
procedura e riducendone la complessità totale.
Sebbene Lustre preveda la possibilità di avere delle repliche a livello di file per
aumentare la sicurezza si è scelto di non farne uso in quanto si sarebbe
dovuto raddoppiare lo storage.
La strategia scelta è stata di lasciare l’intero filesystem come “scratch” ed
usare un altro filesystem, molto più piccolo ma con backup, per conservare i
dati.
Report number
233
Rights
open.access
File(s)![Thumbnail Image]()
Loading...
Name
Implementazione LUSTRE File System per Cluster di Calcolo OAS.pdf
Size
361.51 KB
Format
Adobe PDF
Checksum (MD5)
8b73db6b8113f373cf905b428a887578