gedeelde opslag in de Cloud

parallelle opslag

NAS-oplossingen kunnen redelijke prestaties leveren voor een breed scala aan toepassingen in de cloud en u in staat stellen veel clientinstances uit te voeren die dezelfde opslag delen (gedeelde opslag). Maar wat gebeurt er als u meer prestaties nodig hebt dan wat een enkele NAS-gateway kan bieden? Of wat doe je als je toepassingen hebt die kunnen profiteren van parallelle IO? Het goede nieuws is dat er een aantal oplossingen beschikbaar zijn in de Amazon Marketplace. Deze Ami ‘ s bieden gedeelde parallelle opslag voor toepassingen.

met parallelle opslag kunt u instanties (dat wil zeggen meer dan één) en opslag combineren naar een enkel bestandssysteem. Dit maakt zeer grote capaciteiten en snellere doorvoer mogelijk. De exacte details van hoe de opslag en servers worden gecombineerd in een enkel bestandssysteem zijn afhankelijk van het specifieke bestandssysteem, maar conceptueel is het idee om delen van het bestand te verspreiden over meerdere servers met hun eigen opslag, zodat de toegang tot gegevens voor een bestand parallel kan worden gedaan en zodat u een server en opslag kunt verliezen zonder verlies van gegevens (of toegang tot de gegevens).

In dit artikel ga ik twee opties in de Amazon Marketplace behandelen: Lustre en OrangeFS.

Lustre: Lustre is het meest voorkomende parallelle bestandssysteem voor HPC volgens sommige studies (bijv. 2013 IDC file system study). Het is open-source met een ontwikkelingsgemeenschap en twee sponsorende groepen (Open Scalable File System-OpenSFS en European Open File System-EOFS). Er zijn verschillende bedrijven die ofwel ondersteuningscontracten voor Lustre (bijvoorbeeld Intel) verkopen of een gecombineerde hardware-en softwareoplossing (Xyratex, DDN, Dell, Terascala, Bull, Inspur) die naast de hardware ook ondersteuning voor Lustre omvat.

onlangs heeft Intel een versie van Lustre gemaakt die draait in AWS met EC2 instances en EBS volumes. Deze versie, genaamd ICEL (Intel Cloud Edition van Lustre) heeft drie verschillende instance opties op dit moment, waarvan een gratis te gebruiken, maar komt niet met enige ondersteuning. De instanties zijn:

  • globale ondersteuning met behulp van HVM instances
  • globale ondersteuning
  • Community Version

de twee versies met globale ondersteuning bieden u ondersteuning, waarvan er één HVM instances gebruikt. De “Community Version” is gratis te gebruiken, maar als je problemen tegenkomt, moet je je wenden tot de community Lustre mailinglijsten voor hulp.

net als andere opslagoplossingen in de cloud, is ICEL opgebouwd uit AWS compute en storage instances. U gebruikt een instantie als OSS (Object Storage Server) en voegt er EBS-volumes aan toe voor opslag. U doet hetzelfde voor de servers van MDS (Metdata Server) en MGS (Management Server): selecteer een compute-instantie en voeg er vervolgens EBS-volumes aan toe. Om de gewenste prestaties te krijgen, selecteert u het aantal Oss-instanties dat u nodig hebt en om de gewenste capaciteit te krijgen, koppelt u een aantal EBS-volumes aan elke OSS. (Om dingen symmetrisch te maken, is het raadzaam dat u hetzelfde aantal EBS-volumes gebruikt voor elke Oss-instantie.)

het assembleren van de Oss-en MDS-instanties met aangesloten en geformatteerde EBS-volumes, inclusief het installeren en configureren van Lustre, kan tijdrovend zijn. ICEL heeft een CloudFormation template gemaakt die dit alles voor u doet. U hoeft alleen de KeyName-waarde in te stellen op uw ssh-sleutel en de LustreZA-waarde in te stellen op de specifieke beschikbaarheidszone in de regio die u gebruikt, en de sjabloon automatiseert de implementatie van ICEL voor u. Zodra ICEL is up and running, dan moet je de Lustre client installeren op de instanties die u van plan bent te gebruiken met ICEL.

er zijn enkele materialen rond het web die ICEL en de prestaties bespreken. De eerste presentatie was in April 2013 op de Lustre User Group (LUG) 2013. Er is ook een video van de krant, waar Robert Read bespreekt Lustre in AWS. Merk op dat Robert deed een aantal testen met behulp van DNE (Distributed NameSpace) voor Lustre, dat is de eerste release van gedistribueerde metadata voor Lustre. Het echt verbazingwekkende ding over het bouwen van parallelle opslagoplossingen in AWS is dat als je meer geaggregeerde Io-doorvoer nodig hebt, je gewoon Oss-instanties kunt toevoegen. Als je meer capaciteit nodig hebt, draai je gewoon extra Oss-knooppunten op. Als u meer geaggregeerde metadata prestaties nodig hebt, u gewoon spin-up MDS exemplaren met EBS volumes. Je hoeft niet te wachten voor weken om nieuwe hardware te krijgen—je gewoon spin up een nieuwe instantie, en je bent weg naar de races.

de meest recente presentatie vond plaats in het najaar van 2013 op de LAD13-conferentie (European Lustre User Group Conference). De ICEL presentatie is online beschikbaar. Er is ook een begeleidende video van de presentatie. Als u merkt in de presentatie, de auteurs vermelden dat de huidige Lustre AMIs in de markt komen met Ganglia, LMT (Lustre Monitoring Tool) en ltop (onderdeel van LMT), die kan worden gebruikt voor het toezicht op het Lustre bestandssysteem. Ze hebben zelfs een screenshot van Ganglia ter illustratie van monitoring tools voor ICEL.Ik werk bij Intel als senior product manager voor Intel Lustre in de High Performance Data Division (Hpdd), maar het ICEL product wordt voornamelijk door een ander team van de divisie behandeld.

OrangeFS: een van de allereerste parallelle bestandssystemen is PVFS (Parallel Virtual File System). Het begon als een onderzoeksproject aan Clemson University, waarvan het eerste artikel werd gepubliceerd in 1996. PVFS is gestaag verfijnd en ontwikkeld in de loop van de tijd, zelfs het ontstaan van een herschrijving, PVFS2. Een software bedrijf genaamd OMNIBOND heeft onlangs een commerciële versie van PVFS2, genaamd OrangeFS die wordt geleverd met volledige ondersteuning.

er is een versie van OrangeFS in AWS die zowel de compute instances als de EBS volumes gebruikt. “OrangeFS in The Cloud” werd aangekondigd in Mei 2013. Er zijn twee AMIs:

  • communautaire versie
  • Geavanceerd (IOPS))

de community-versie maakt geen gebruik van IOPS met de EBS-volumes, wat resulteert in lagere prestaties. Er zijn in totaal zeven mogelijke EC2 compute instances die je kunt gebruiken met deze AMI. Het heeft ook een vaste prijs per instantie van $ 0,45 / uur, maar geen ondersteuning.

de geavanceerde versie wordt geleverd met ondersteuning, kost $0,85 / uur, en gebruikt dezelfde instanties als de Community-versie, behalve dat het Provisioned IOPS gebruikt om betere IOPS-prestaties te bereiken.

zowel de community-als de advanced editions hebben vier creatieopties:

  1. “1-klik op” enkele instantie met 1.28TB capaciteit
  2. 4 exemplaren met 5 TB capaciteit
  3. 8 exemplaren met 10 TB capaciteit
  4. 16 exemplaren met 20 TB capaciteit

het aantal exemplaren verwijst naar het aantal gebruikte EC2-rekeninstances.

er zijn een paar verwijzingen op het web die spreken over OrangeFS zelf en over het gebruik van OrangeFS in de cloud. Je kunt over PVFS of OrangeFS lezen op hun respectievelijke websites, maar er is een vrij uitgebreide paper van de 2012 IEEE International Conference on Massive Storage Systems and Technology die het lezen waard is. Het is geschreven door Walt Ligon, een van de initiatiefnemers van het PVFS-project.

een tweede opmerking is een presentatie getiteld, Een MPI-IO Cloud Cluster Bioinformatices Summer Project. De presentatie is heel interessant omdat het een paar onderdelen heeft. Het eerste deel is een presentatie over de Amazon storage componenten. Het tweede deel gaat over het gebruik van bio-informatica applicaties die MPI-IO en OrangeFS gebruiken in de cloud.

samenvatting

steeds meer technische computing-of HPC-workloads komen in de cloud terecht. Veel van deze workloads moeten of werken beter met gedeelde opslag. Het creëren van gedeelde opslag in de cloud begint pas te worden aangepakt. Deze oplossingen zijn opgebouwd uit dezelfde componenten als NAS-oplossingen in uw datacenter: berekenen, netwerk, opslag en software. Het grote verschil is dat u kunt spin-up een compute instantie of opslag toe te voegen in de kwestie van een paar minuten in plaats van weken of misschien maanden wachten op de hardware te komen, worden geïnstalleerd, getest en in productie.Met Amazon als voorbeeld zijn er enkele eerste ontwerpen en experimenten met NAS in de cloud, waaronder enkele commerciële oplossingen zoals SoftNAS Cloud. Het is vrij eenvoudig om uw eigen NAS-oplossing te configureren als u precies dezelfde commando ‘ s wilt gebruiken die u zou gebruiken als u uw eigen oplossing zou bouwen. Commerciële oplossingen zoals SoftNAS Cloud bieden de mogelijkheid om al het zware werk voor u te laten doen in ruil voor het betalen voor de software (en u krijgt ondersteuning).

naast NAS kunt u ook parallelle opslagoplossingen maken. Bijvoorbeeld, in Amazon AWS, zijn er twee opties, een voor glans, en een voor OrangeFS (PVFS). Beide gebruiken dezelfde reken-en opslag-instanties die u voor NAS gebruikt, maar u maakt meerdere instanties die worden gecombineerd om een enkel bestandssysteem te creëren. Als je meer prestaties nodig hebt, voeg dan gewoon meer exemplaren toe. Als je meer capaciteit nodig hebt, voeg dan gewoon meer instanties toe. Aangezien dit de cloud is, is het heel gemakkelijk om een nieuwe instantie te draaien en toe te voegen aan de bestaande opslag.

foto met dank aan .

Geef een antwoord

Het e-mailadres wordt niet gepubliceerd.