Storage condiviso nel cloud

Storage parallelo

Le soluzioni NAS possono fornire prestazioni ragionevoli per un’ampia gamma di applicazioni nel cloud e consentono di eseguire molte istanze client che condividono lo stesso storage (storage condiviso). Ma cosa succede se hai bisogno di più prestazioni di quelle che un singolo gateway NAS può fornire? O cosa fai quando hai applicazioni che possono beneficiare dell’IO parallelo? La buona notizia è che ci sono alcune soluzioni disponibili nel Marketplace di Amazon. Queste AMI forniscono storage parallelo condiviso per le applicazioni.

L’archiviazione parallela consente di combinare istanze (cioè più di una) e archiviazione in un singolo file system. Ciò consente capacità molto grandi e un throughput più rapido. I dettagli esatti di come lo storage e i server sono combinati in un unico file system dipendono dal file system specifico, ma concettualmente l’idea è quella di diffondere parti del file su più server con il proprio storage in modo che l’accesso ai dati per un file possa essere fatto in parallelo e in modo da poter perdere un server e lo storage senza perdita di dati (o accesso ai dati).

In questo articolo, ho intenzione di coprire due opzioni nel Marketplace di Amazon: Lustre, e OrangeFS.

Lustre: Lustre è il file system parallelo più comune per HPC secondo alcuni studi (ad es. 2013 IDC file system studio). È open-source con una comunità di sviluppo e due gruppi sponsor (Open Scalable File System – OpenSFS e European Open File System-EOFS). Ci sono diverse aziende che venderanno contratti di supporto per Lustre (ad esempio Intel) o una soluzione hardware e software combinata (Xyratex, DDN, Dell, Terascala, Bull, Inspur) che include il supporto per Lustre oltre all’hardware.

Recentemente, Intel ha creato una versione di Lustre che viene eseguita in AWS utilizzando istanze EC2 e volumi EBS. Questa versione, chiamata ICEL (Intel Cloud Edition of Lustre) ha tre diverse opzioni di istanza in questo momento, una delle quali è gratuita ma non viene fornita con alcun supporto. Le istanze sono:

  • Supporto globale utilizzando istanze HVM
  • Supporto globale
  • Versione community

Le due versioni con Supporto globale forniscono supporto, una delle quali utilizza istanze HVM. La “Versione Comunità” è libero di utilizzare, ma se si esegue in problemi, è necessario rivolgersi alla comunità Lustre mailing list per chiedere aiuto.

Proprio come altre soluzioni di storage nel cloud, ICEL è costruito da istanze di calcolo e storage AWS. Si utilizza un’istanza come OSS (Object Storage Server) e si collegano volumi EBS ad essa per l’archiviazione. Fare lo stesso per i server MDS (Metdata Server) e MGS (Management Server): selezionare un’istanza di calcolo e quindi allegare volumi EBS ad essa. Per ottenere le prestazioni desiderate, selezionare il numero di istanze OSS necessarie e per ottenere la capacità desiderata, allegare un numero di volumi EBS a ciascun OSS. (Per rendere le cose simmetriche, si consiglia di utilizzare lo stesso numero di volumi EBS per ogni istanza OSS.)

Assemblare le istanze OSS e MDS con volumi EBS allegati e formattati, inclusa l’installazione e la configurazione di Lustre, può richiedere molto tempo. ICEL ha creato un modello CloudFormation che fa tutto questo per voi. È sufficiente impostare il valore KeyName sulla chiave ssh e impostare il valore LustreZA sulla zona di disponibilità specifica nella regione che si sta utilizzando e il modello automatizza la distribuzione di ICEL per l’utente. Una volta che ICEL è installato e funzionante, è necessario installare il client Lustre sulle istanze che si prevede di utilizzare con ICEL.

Ci sono alcuni materiali in tutto il web che discutono ICEL e le prestazioni. La prima presentazione è stata nell’aprile 2013 al Lustre User Group (LUG) 2013. C’è anche un video della carta, dove Robert Read discute Lustro in AWS. Si noti che Robert ha fatto alcuni test utilizzando DNE (Distributed NameSpace) per Lustre, che è la prima versione di metadati distribuiti per Lustre. La cosa davvero sorprendente della creazione di soluzioni di storage parallelo in AWS è che se hai bisogno di più throughput IO aggregato, puoi semplicemente aggiungere istanze OSS. Se avete bisogno di più capacità, basta spin up nodi OSS aggiuntivi. Se hai bisogno di maggiori prestazioni di metadati aggregati, devi solo attivare istanze MDS con volumi EBS. Non devi aspettare settimane per ottenere nuovo hardware—basta girare una nuova istanza, e si è fuori per le gare.

La presentazione più recente risale all’autunno del 2013 alla conferenza LAD13 (European Lustre User Group Conference). La presentazione ICEL è disponibile online. C’è anche un video di accompagnamento della presentazione. Se si nota nella presentazione, gli autori menzionano che gli attuali AMIS Lustre in Marketplace sono dotati di Ganglia, LMT (Lustre Monitoring Tool) e ltop (parte di LMT), che possono essere utilizzati per monitorare il file system Lustre. Hanno anche uno screenshot di Gangli che illustrano strumenti di monitoraggio per ICEL.

Come una questione di piena divulgazione, lavoro in Intel come senior Product manager per Intel Lustre nella divisione dati ad alte prestazioni (HPDD), ma il prodotto ICEL è prevalentemente gestito da un altro team con la divisione.

OrangeFS: Uno dei primissimi file system paralleli è PVFS (Parallel Virtual File System). E ‘ iniziato come un progetto di ricerca presso la Clemson University con il primo documento pubblicato nel 1996. PVFS è stato costantemente raffinato e sviluppato nel tempo, anche la deposizione delle uova una riscrittura, PVFS2. Una società di software di nome Omnibond ha recentemente creato una versione commerciale di PVFS2, chiamato OrangeFS che viene fornito con pieno supporto.

Esiste una versione di OrangeFS in AWS che utilizza le istanze di calcolo e i volumi EBS. “OrangeFS in the Cloud” è stato annunciato a maggio di 2013. Ci sono due AMI:

  • Versione comunità
  • Avanzata (IOPS con provisioning)

La versione community non utilizza IOPS provisioned con i volumi EBS, con conseguente riduzione delle prestazioni. Ci sono un totale di sette possibili istanze di calcolo EC2 che è possibile utilizzare con questa AMI. Ha anche un prezzo fisso per istanza di $0,45 / ora ma nessun supporto.

La versione avanzata viene fornita con supporto, costa $0,85 / ora e utilizza le stesse istanze della versione community, tranne che utilizza IOPS Provisioned per ottenere prestazioni IOPS migliori.

Sia la community che le edizioni avanzate hanno quattro opzioni di creazione:

  1. “1-fare clic su” singola istanza con 1.28 TB di capacità
  2. 4 istanze con 5 TB di capacità
  3. 8 istanze con 10 TB di capacità
  4. 16 istanze con 20 TB di capacità

Il numero di istanze si riferisce al numero di istanze di calcolo EC2 utilizzate.

Ci sono un paio di riferimenti sul web che parlano di OrangeFS stesso e sull’utilizzo di OrangeFS nel cloud. Puoi leggere su PVFS o OrangeFS nei loro rispettivi siti Web, ma c’è un documento abbastanza estensivodalla Conferenza internazionale IEEE 2012 sui sistemi di storage di massa e sulla tecnologia che vale la pena leggere. È scritto da Walt Ligon, che è stato uno dei creatori del progetto PVFS.

Un secondo elemento di nota è una presentazione intitolata, An MPI-IO Cloud Cluster Bioinformatices Summer Project. La presentazione è piuttosto interessante perché ha un paio di parti. La prima parte è una presentazione sui componenti di storage di Amazon. La seconda parte riguarda l’utilizzo di applicazioni bioinformatiche che utilizzano MPI-IO e OrangeFS nel cloud.

Sommario

Sempre più carichi di lavoro di elaborazione tecnica o HPC si stanno spostando nel cloud. Molti di questi carichi di lavoro hanno bisogno o funzionano meglio con lo storage condiviso. La creazione di storage condiviso nel cloud sta solo iniziando a essere affrontata. Queste soluzioni sono costruite con gli stessi componenti delle soluzioni NAS nel data center: elaborazione, rete, storage e software. La grande differenza è che è possibile avviare un’istanza di calcolo o aggiungere spazio di archiviazione nel giro di pochi minuti piuttosto che settimane o forse mesi in attesa che l’hardware arrivi, venga installato, testato e messo in produzione.

Utilizzando Amazon come esempio, ci sono alcuni progetti iniziali ed esperimenti con NAS nel cloud tra cui alcune soluzioni commerciali come SoftNAS Cloud. È abbastanza facile configurare la propria soluzione NAS se si desidera utilizzare gli stessi comandi che si userebbero se si stesse costruendo la propria soluzione. Soluzioni commerciali come SoftNAS Cloud offrono la possibilità di avere tutto il lavoro pesante fatto per voi in cambio di pagare per il software (e si ottiene il supporto).

Oltre al NAS, è anche possibile creare soluzioni di storage parallele. Ad esempio, in Amazon AWS, ci sono due opzioni, una per Lustre e una per OrangeFS (PVFS). Entrambi utilizzano le stesse istanze di elaborazione e archiviazione utilizzate per il NAS, ma vengono create diverse istanze combinate per creare un singolo file system. Se hai bisogno di più prestazioni, aggiungi solo più istanze. Se hai bisogno di più capacità, aggiungi più istanze. Poiché questo è il cloud, è molto facile far girare una nuova istanza e aggiungerla allo storage esistente.

Foto per gentile concessione di .

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.