Confira técnicas para vencer o desafio de gerenciar Big
Data
Por John Brandon, da Computerworld/EUA
Biblioteca do Congresso dos Estados Unidos, a Amazon.com
e a Mazda adotaram modelos para lidar com o armazenamento de grande quantidade
de dados.
Se você acha que os sistemas de armazenamento de data
center estão fora de controle, imagine ter 450 milhões de objetos em seu banco
de dados ou ter de adicionar 40 terabytes de informações a cada semana.
Os desafios de gerenciar grandes quantidades de dados
envolvem o armazenamento de arquivos enormes, criando no longo prazo bancos de
dados e, obviamente, tornando as informações acessíveis. "Enquanto o
gerenciamento de dados sempre foi a função-chave da TI , o atual frenesi levou
a atividade a um nível totalmente novo", diz Richard Winter, da WinterCorp
Consulting Services, que analisa tendências em Big Data <http://computerworld.uol.com.br/tecnologia/2011/09/02/big-data-e-um-grande-negocio>
.
Novos produtos são lançados constantemente, como Hadoop,
MapReduce, NoSQL ou dezenas de outras tecnologias, sistemas de arquivos e
arquiteturas, e o segmento não para de crescer, diz Winter.
Algumas empresa já sabem muito bem quais são os desafios
inerentes à gestão de Big Dat <http://computerworld.uol.com.br/tecnologia/2011/08/25/big-data-analise-avancada-e-vital-para-os-negocios>
a. Na Biblioteca do Congresso dos Estados Unidos, na Amazon.com e na Mazda
[fabricante japonesa de automóveis], a tarefa exigiu abordagens inovadoras para
lidar com bilhões de objetos e mídias de armazenamento de escala peta, marcação
de dados para recuperação rápida ou para eliminar erros.
Veja a seguir o modelo que cada uma dessas organizações
adotou para gerenciar os grandes volumes de dados:
1. Biblioteca do Congresso dos Estados Unidos
A Biblioteca do Congresso processa 2,5 petabytes de dados
a cada ano, o que equivale a cerca de 40 terabytes por semana. O líder de
engenharia de sistemas da biblioteca, Thomas Youkel, estima que a carga de
dados irá quadruplicar nos próximos anos, graças à dupla demanda por dados
advinda de historiadores e da necessidade de preservar as informações em todas
as suas formas.
As informações da biblioteca são armazenadas em cerca de
15 mil a 18 mil discos ligados a 600 servidores em dois data centers. Mais de
90% dos dados, ou mais de 3 petabytes, é armazenado em uma SAN (storage area
network) conectada, o restante é armazenado nos discos network-attached
storage.
A Biblioteca do Congresso tem um "modelo interessante"
em que parte das informações armazenadas são metadados - ou dados sobre os
dados que estão armazenados - enquanto o outro é o conteúdo real, diz o
analista da empresa de consultoria StorageIO, Greg Schulz.
Muitas organizações usam metadados, mas o que torna a
biblioteca original é o tamanho de seu armazenamento de dados e o fato de que
tem tags de absolutamente toda a sua coleção, incluindo gravações de áudio,
vídeos, fotos e outras mídias, explica Schulz.
O conteúdo real - que é raramente acessado - está
idealmente mantido off-line e em fita, diz Schulz, talvez com uma miniatura ou
em cópias de baixa resolução no disco.
Hoje, a biblioteca possui cerca de 500 milhões de objetos
por banco de dados, mas Youkel espera que esse número cresça para até 5
bilhões. Para se preparar, a equipe do Youkel começou a repensar o sistema da
biblioteca. "Estamos olhando para novos sistemas de arquivos que podem
lidar com muitos objetos", diz ele.
O analista de armazenamento do instituto de pesquisas
Gartner, Gene Ruth, diz que é fundamental fazer a ampliação corretamente.
Quando um armazenamento de dados cresce para além de 10 petabytes, o tempo e a
despesa com backup e manipulação de dados pode ter um aumento explosivo. Uma
abordagem, segundo ele, é ter infraestrutura em um local principal que controla
a maioria dos dados e outro para instalação secundária, voltado para
armazenamento a longo prazo.
2. Amazon.com
A gigante do e-commerce Amazon.com está, rapidamente, se
tornando um dos maiores detentores de dados no mundo, com cerca de 450 bilhões
de objetos armazenados em sua nuvem para clientes e suas próprias necessidades
de armazenamento. A vice-presidente de serviços de armazenamento na Amazon,
Alyssa Henry, diz que isso se traduz em cerca de 1,5 mil objetos para cada
habitante dos EUA e um para cada estrela na galáxia Via Láctea.
Alguns objetos do banco de dados são bastante massivos -
com até 5 terabytes cada. Alyssa acredita que um único objeto de tamanho pode
ficar tão pesado quanto 500 terabytes a partir de 2016. O segredo para lidar
com Big Data, diz ela, é dividir os objetos em pedaços, em um processo chamado
de "parallelization".
Em seu serviço de armazenamento S3, a Amazon utiliza seu
próprio código personalizado para dividir arquivos de 1 mil MB. Essa é uma
prática comum, mas o que faz abordagem da Amazon única, é que o processo de
divisão de arquivos ocorre em tempo real. "Essa arquitetura de
armazenamento sempre disponível é um contraste com alguns sistemas de
armazenamento que movem os dados em estado 'arquivado' e 'ao vivo', criando um
atraso potencial para recuperação de dados", explica Henry.
Outro problema na manipulação de dados massivos são os
arquivos corrompidos. A maioria das empresas não se preocupa com o arquivo
ocasionalmente corrompido. No entanto, quando se trata de quase 450 bilhões de
objetos, mesmo com baixas taxas de falhas, tornam-se difíceis de gerenciar.
Um software sob demanda da Amazon analisa cada pedaço de
dados para erros de alocações de memória, calcula o checksums, e analisa o quão
rápido um erro pode ser reparado para entregar o rendimento necessário para o
armazenamento em nuvem.
3. Mazda
A Mazda Motor Corp, que possui 900 revendedores e 800
funcionários nos EUA, gerencia cerca de 90 terabytes de dados. O arquiteto de
infraestrutura das operações da Mazda na América do Norte, Barry Blakeley, diz
que as unidades de negócios e os revendedores estão gerando quantidades cada
vez maiores de arquivos de dados analíticos, materiais de marketing, bases de
dados para inteligência de negócios, dados do Microsoft SharePoint e muito
mais. "Temos tudo virtualizados, incluindo o armazenamento", afirma
Blakeley.
A empresa utiliza as ferramentas da Compellent, que agora
faz parte da Dell, para a virtualização de armazenamento Dell PowerVault NX3100
e como seu SAN, com a VMware sistemas para hospedar os servidores virtuais.
O segredo, diz Blakeley, é migrar dados
"obsoletos" rapidamente para fita. Ele informa que 80% dos dados
armazenados pela Mazda tornam-se obsoletos em poucos meses, o que significa que
blocos de dados não são acessados. Para acomodar esses padrões de uso, o
armazenamento virtual foi criado em uma estrutura em camadas. Discos em estado
sólido são conectados por switches Fibre Channel e compõem o primeiro nível,
que lida com 20% das necessidades de dados da empresa.
O resto dos dados são arquivados em discos mais lentos
rodando a 15 rpm sobre Fibre Channel em
um segundo nível e de 7,2 mil rpm discos conectados por Serial-Attached SCSI em
um terceiro nível.
Blakeley diz que a Mazda está colocando os dados cada vez
menos na fita - cerca de 17 terabytes atualmente - uma vez que a virtualização
de armazenamento continua.
Globalmente, a empresa está se movendo para um
"modelo de continuidade de negócios", em oposição a um modelo puro de
recuperação de desastres, explica. Em vez de ter armazenamento de backup
off-site, que estaria disponíveil para recuperar e restaurar dados em um
cenário de recuperação de desastres, "vamos replicar ambos os dados em
tempo real e de backup para um serviço de colocation", aponta.
Nesse cenário, as aplicações Tier 1 serão on-line quase
imediatamente em caso de uma falha do site principal. Outras camadas serão
restauradas a partir de dados de backup que foram replicados para colocation.
Adaptar as técnicas
Essas organizações são prova de que é possível lidar com
Big Data. Schulz, da StorageIO, diz que outras empresas podem replicar alguns
dos seus processos, incluindo a execução checksums nos arquivos, realização do
monitoramento de falhas de discos, usar um sistema de alerta para a equipe de
TI, incorporar metadados e usar a replicação para ter certeza de que os dados
estarão sempre disponíveis. No entanto, a decisão crítica sobre dados massivos
é escolher a tecnologia que atende às necessidades da organização, e não o
sistema que é mais barato ou mais popular no momento, diz ele.
No final, a maior lição pode ser que enquanto os Big
Datas geram muitos desafios <http://computerworld.uol.com.br/tecnologia/2011/09/16/alem-do-bi-e-hora-de-se-preparar-para-o-ci-diz-teradata>
, existem também muitos caminhos para o seu sucesso.
Fonte: prof. Murilo Bastos por e-mail
Data: 17/10/2011