armazenamento compartilhado na nuvem

armazenamento paralelo

as soluções NAS podem fornecer desempenho razoável para uma ampla gama de aplicativos na nuvem e permitir que você execute muitas instâncias do cliente compartilhando o mesmo armazenamento (armazenamento compartilhado). Mas o que acontece se você precisar de mais desempenho do que um único gateway NAS pode fornecer? Ou o que você faz quando tem aplicativos que podem se beneficiar do parallel IO? A boa notícia é que existem algumas soluções disponíveis no mercado da Amazon. Essas AMIs fornecem armazenamento paralelo compartilhado para aplicativos.

o armazenamento paralelo permite combinar instâncias (ou seja, mais de uma) e armazenamento em um único sistema de arquivos. Isso permite capacidades muito grandes e taxa de transferência mais rápida. Os detalhes exatos de como o armazenamento e servidores são combinadas em um único sistema de arquivos dependem do sistema de arquivo específico, mas conceitualmente a idéia é espalhar partes do arquivo em vários servidores com o seu próprio armazenamento de modo que o acesso a dados para um arquivo pode ser feito em paralelo e de modo que você pode perder um servidor e de armazenamento sem perda de dados (ou de acesso aos dados).

neste artigo, vou cobrir duas opções no Amazon Marketplace: Lustre e OrangeFS.Lustre: Lustre é o sistema de arquivos paralelos mais comum para HPC de acordo com alguns estudos (por exemplo, 2013 estudo do sistema de arquivos IDC). É open-source com uma comunidade de desenvolvimento e dois grupos patrocinadores (Open Scalable File System – OpenSFS e European Open File System – EOFS). Existem várias empresas que venderão contratos de suporte para Lustre (por exemplo, Intel) ou uma solução combinada de hardware e software (Xyratex, DDN, Dell, Terascala, Bull, Inspur) que inclui suporte para Lustre além do hardware.Recentemente, a Intel criou uma versão do Lustre que é executada na AWS usando instâncias EC2 e volumes EBS. Esta versão, chamada ICEL (Intel Cloud Edition do Lustre) tem três opções de instância diferentes no momento, uma das quais é gratuita, mas não vem com nenhum suporte. As instâncias são:

  • Suporte Global usando HVM instâncias
  • Suporte Global
  • Comunidade Versão

As duas versões com Suporte Global de apoio, uma delas usa HVM instâncias. A “versão da Comunidade” é gratuita, mas se você tiver problemas, precisará recorrer às listas de discussão do Community Luster para obter ajuda.Assim como outras soluções de armazenamento na nuvem, o ICEL é construído a partir de instâncias de computação e armazenamento da AWS. Você usa uma instância como um oss (Object Storage Server) e anexa volumes EBS a ela para armazenamento. Você faz o mesmo para os servidores MDS (servidor Metdata) e mgs (servidor de Gerenciamento): selecione uma instância de computação e, em seguida, anexe volumes EBS a ela. Para obter o desempenho desejado, selecione o número de instâncias OSS necessárias e, para obter a capacidade desejada, anexe vários volumes EBS a cada OSS. (Para tornar as coisas simétricas, é recomendável que você use o mesmo número de volumes EBS para cada instância oss.)

montar as instâncias OSS e MDS com volumes EBS anexados e formatados, incluindo a instalação e configuração do Lustre, pode ser demorado. O ICEL criou um modelo CloudFormation que faz tudo isso por você. Você só precisa definir o valor KeyName para sua chave ssh e definir o valor LustreZA para a zona de disponibilidade específica na região que você está usando, e o modelo automatiza a implantação do ICEL para você. Depois que o ICEL estiver instalado e funcionando, você precisará instalar o cliente Lustre nas instâncias que planeja usar com o ICEL.

existem alguns materiais na web que discutem o ICEL e o desempenho. A primeira apresentação foi em abril de 2013 no Lustre User Group (LUG) de 2013. Há também um vídeo do artigo, onde Robert Read discute Lustre na AWS. Observe que Robert fez alguns testes usando dne (NameSpace distribuído) para Lustre, que é a primeira versão de metadados distribuídos para Lustre. A coisa realmente incrível sobre a construção de soluções de armazenamento paralelo na AWS é que, se você precisar de mais taxa de transferência de IO agregada, poderá apenas adicionar instâncias oss. Se você precisar de mais capacidade, basta girar nós oss adicionais. Se você precisar de mais desempenho agregado de metadados, basta girar instâncias MDS com volumes EBS. Você não precisa esperar semanas para obter um novo hardware—você apenas cria uma nova instância e está pronto para as corridas.

a apresentação mais recente é do Outono de 2013 na conferência LAD13 (European Lustre User Group Conference). A apresentação do ICEL está disponível online. Há um vídeo que acompanha a apresentação também. Se você notar na apresentação, os autores mencionam que os atuais Lustre AMIs no Marketplace vêm com gânglios, LMT (Ferramenta de monitoramento Lustre) e ltop (parte do LMT), que pode ser usado para monitorar o sistema de arquivos Lustre. Eles até têm uma captura de tela de gânglios ilustrando ferramentas de monitoramento para ICEL.

por uma questão de divulgação completa, trabalho na Intel como gerente sênior de produto da Intel Lustre na Divisão de dados de alto desempenho (HPDD), mas o produto ICEL é predominantemente tratado por outra equipe com a divisão.OrangeFS: um dos primeiros sistemas de arquivos paralelos é o PVFS (Parallel Virtual File System). Começou como um projeto de pesquisa na Clemson University com o primeiro artigo sendo publicado em 1996. PVFS tem sido constantemente refinado e desenvolvido ao longo do tempo, mesmo gerando uma reescrita, PVFS2. Uma empresa de software chamada Omnibond criou recentemente uma versão comercial do PVFS2, chamada OrangeFS que vem com suporte total.

existe uma versão do OrangeFS na AWS que usa as instâncias de computação, bem como os volumes EBS. “OrangeFS na nuvem” foi anunciado em maio de 2013. Existem dois AMIs:

  • versão da Comunidade
  • avançado (IOPS provisionado)

a versão da comunidade não usa IOPS provisionados com os volumes EBS, resultando em menor desempenho. Há um total de sete instâncias de computação EC2 possíveis que você pode usar com esta AMI. Ele também tem um preço fixo por instância de US $0,45/hr, mas sem suporte.

a versão avançada vem com suporte, custa US $ 0,85 / hora e usa as mesmas instâncias da versão da Comunidade, exceto que usa IOPS provisionados para obter um melhor desempenho do IOPS.

tanto a comunidade quanto as edições avançadas têm quatro opções de criação:

  1. “1-clique em” instância única com 1.28TB de capacidade
  2. 4 instâncias com 5 TB de capacidade
  3. 8 instâncias com 10 tb de capacidade
  4. 16 instâncias com 20 TB de capacidade

O número de instâncias refere-se ao número de processamento EC2 instâncias utilizadas.

existem algumas referências na web que falam sobre o próprio OrangeFS e sobre o uso de OrangeFS na nuvem. Você pode ler sobre PVFS ou OrangeFS em seus respectivos sites, mas há um papel bastante extensoda Conferência Internacional IEEE 2012 sobre sistemas e Tecnologia De Armazenamento massivos que vale a pena ler. É de autoria de Walt Ligon, que foi um dos criadores do projeto PVFS.

um segundo item digno de nota é uma apresentação intitulada, Um Projeto de Verão MPI-IO Cloud Cluster Bioinformatices. A apresentação é bastante interessante porque tem algumas partes. A primeira parte é uma apresentação sobre os componentes de armazenamento da Amazon. A segunda parte é sobre o uso de aplicativos de Bioinformática que usam MPI-IO e OrangeFS na nuvem.

resumo

mais e mais cargas de trabalho de computação técnica ou HPC estão se movendo para a nuvem. Muitas dessas cargas de trabalho precisam ou funcionam melhor com armazenamento compartilhado. A criação de armazenamento compartilhado na nuvem está apenas começando a ser abordada. Essas soluções são construídas a partir dos mesmos componentes que as soluções NAS em seu data center: computação, rede, armazenamento e software. A grande diferença é que você pode girar uma instância de computação ou adicionar armazenamento em questão de alguns minutos, em vez de semanas ou talvez meses esperando que o hardware chegue, seja instalado, testado e colocado em produção.

usando a Amazon como exemplo, existem alguns projetos e experimentos iniciais com NAS na nuvem, incluindo algumas soluções comerciais, como a SoftNAS Cloud. É bastante fácil configurar sua própria solução NAS se você deseja usar exatamente os mesmos comandos que usaria se estivesse construindo sua própria solução. Soluções comerciais como a SoftNAS Cloud oferecem a opção de ter todo o trabalho pesado feito por você em troca de pagar pelo software (e você obtém suporte).

além do NAS, Você também pode criar soluções de armazenamento paralelo. Por exemplo, no Amazon AWS, existem duas opções, uma para Lustre e outra para OrangeFS (PVFS). Ambos usam as mesmas instâncias de computação e armazenamento que você usa para NAS, mas você cria várias instâncias que são combinadas para criar um único sistema de arquivos. Se você precisar de mais desempenho, basta adicionar mais instâncias. Se você precisar de mais capacidade, basta adicionar mais instâncias. Como essa é a nuvem, é muito fácil criar uma nova instância e adicioná-la ao armazenamento existente.

foto cortesia de .

Deixe uma resposta

O seu endereço de email não será publicado.