Arquivo

Posts Tagged ‘Cloud Computing’

Processamento de Dados Distribuídos com Hadoop

Um pouco sobre o Hadoop

O Hadoop é uma coleção de projetos criados para prover uma infraestrutura adequada à manipulação de dados distribuídos. Ele é mais conhecido por sua implementação do MapReduce (modelo e ambiente de execução para processamento de dados distribuídos) e pelo seu sistema de arquivos distribuídos (HDFS – Hadoop Distributed File System). Além disso, é um projeto Apache implementado em Java e que tem como principal patrocinador o Yahoo!

É interessante observar que o Hadoop é inspirado nos artigos clássicos do Google sobre MapReduce e GFS (Google File System).

O projeto foi originalmente criado por Doug Cutting, que também é o criador do projeto Apache Lucene, uma biblioteca de busca em texto amplamente usada. O Hadoop se originou no projeto Apache Nutch, um buscador open source que também faz parte do projeto Lucene. Em 2006, estes projetos foram fundidos em um novo sub projeto do Lucene chamado Hadoop (nome do elefante amarelo de pelúcia do filho de Doug). Nesta mesma época, Doug Cutting entrou para o Yahoo! que forneceu recursos e um time para tornar o Hadoop um sistema completo para trabalhar com grandes volumes de dados distribuídos.

Em 2008, o Yahoo! anunciou que o seu index de páginas web era gerado por um cluster de 10.000 máquinas rodando Hadoop.
Em 2009, Doug Cutting deixou o Yahoo para trabalhar na Cloudera, que também usa o Hadoop. Na Cloudera, ele passou a trabalhar com alguns excelentes ex-engenheiros do Google e Facebook.

Hoje empresas como Facebook, Last.fm, Twitter e até mesmo IBM, Google e Microsoft usam o Hadoop. A Microsoft comprou o motor de busca Powerset que já usava o Hadoop. IBM e Google anunciaram uma iniciativa em 2007 para fornecer infraestrutura para uso do Hadoop pelo meio acadêmico.

Referências:
Introdução ao Hadoop Parte II : Uma breve história do Hadoop
Why The Brain Behind Hadoop Left Yahoo
Hadoop: The Definitive Guide (MapReduce for the Cloud)

Pesquisas aplicadas no Brasil sobre Computação em Nuvem

A PUC-Rio tem realizado pesquisas aplicadas de grande relevância internacional na área de Computação em Nuvem. Até mesmo a Amazon tá de olho!!!
Uma interessante entrevista com a Profª Karin Breitman sobre o assunto foi publicada recentemente em “O Globo”:

Entrevista 1 – Entrevista 2

Tutorial simples e prático de MongoDB

O MongoDB (http://www.mongodb.org/) é um banco de dados open source orientado a documentos, escalável, com alta performance e sem esquema.

Uma forma muito simples de começar a testá-lo e usá-lo na prática via Web e sem precisar instalar nada em sua máquina, é através de um tutorial prático que pode ser encontrado no seguinte endereço: http://try.mongodb.org/

Depois disso, há muita documentação disponível em seu site: http://www.mongodb.org/display/DOCS/Home

Bons estudos…

%d blogueiros gostam disto: