Anlise e Caracterizao das Novas Ferramentas para Computao em Nuvem

  • Published on
    05-Jun-2015

  • View
    158

  • Download
    3

DESCRIPTION

Pesquisa e caracterizao das novas ferramentas para Computao em Nuvem WSCAD-IC 2013 - Porto de Galinhas - Brasil

Transcript

  • 1. Anlise e Caracterizao das Novas Ferramentas para Computao Distribuda na Nuvem Otvio M. de Carvalho, Eduardo Roloff, Marco A. Z. Alves, Philippe O. A. Navaux Universidade Federal do Rio Grande do Sul Grupo de Processamento Paralelo e Distribudo {omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br

2. Motivao Grande quantidades de dados esto sendo gerados. Atualmente, j produzimos 2.8 trilhes de GB. [1] A produo de dados est crescendo 60% a cada ano. Grandes volumes de dados tambm esto sendo gerados. A cada 60 segundos, 600 novas postagens em blogs so feitas, e 34.000 tweets so enviados. [2] [1] IBM CMO Study 2011 [2] IDC Key Forecast Assumptions for the Worldwide Big Data Technology and Services Market, 2012-20152 3. Objetivos Buscar as principais iniciativas desenvolvidas para a evoluo do modelo MapReduce Caracterizar as diferentes iniciativas em sub-grupos, para melhor compreender as suas principais distines Compreender quais modificaes vem sendo mais bem-sucedidas, ajudando a determinar quais ferramentas possuem o maior potencial para estudos mais aprofundados 3 4. Abordagens para a Computao Distribuda na Nuvem4 5. Abordagens IniciaisInicialmente, as abordagens eram prximas s dos bancos de dados clssicos. Sendo caracterizadas principalmente pela introduo de grandes volumes dados, nos sistemas de processamento, aguardando o trmino do seu processamento aps um determinado perodo de tempo. 5 6. Abordagens Atuais Atualmente, esto crescendo as abordagens que visam processar dados em fluxos contnuos, aplicando transformaes sobre o conjunto de dados, visando obter resultados da maneira mais rpida possvel. 6 7. Classificao das Abordagens7 8. Processamento Batch8 9. Processamento Interativo9 10. Processamento em Tempo Real10 11. Caracterizao das Novas Ferramentas para Computao Distribuda na Nuvem11 12. NomeAnoTeradata Aster2013Pivotal HDDescrioBatchInterativoTempo RealBanco de dados MPP2013Conjunto de ferramentas de processamento distribudoGoogle Photon2013Sistema para o processamento distribudo de fluxos de dadosAMPLab BDAS2012Conjunto de ferramentas de processamento distribudo em memriaGoogle Spanner2012Banco de dados distribudo com transaes externamente consistentesActian ParAccel2012Banco de dados MPPCloudera Impala2012Sistema para o processamento de consultas interativasStreamBase CEP2012Ferramenta comercial de processamento complexo de eventosApache Giraph2012Ferramenta para o processamento distribudo de grafosApache Drill2012Ferramenta para o processamento de consultas interativasApache Flume2012Ferramenta para o processamento de fluxos contnuos de dadosApache YARN2011Evoluo do Apache HadoopSAP HANA2011Banco de dados em memriaGoogle Megastore2011Banco de dados distribudo que precedeu o Google SpannerApache Storm2011Ferramenta para o processamento de eventos complexosApache Kafka2011Sistema para o processamento de fluxos contnuos de dadosMapR M52011Conjunto de ferramentas de processamento distribudoHortonworks HDP2011Conjunto de ferramentas de processamento distribudoGoogle Pregel2010Sistema distribudo para o processamento de grafosGoogle Percolator2010Sistema distribudo para processamento incrementalGoogle Dremel2010Ferramenta para a anlise interativa de dadosAMPLab Spark2010Sistema de processamento de dados em memriaVoltDB2010Sistema de banco de dados em memriaApache S42010Ferramenta para o processamento de fluxos contnuos de dadosHP Vertica2010Banco de dados MPPApache Hive2009Ferramenta para o processamento de consultas interativasCloudera CDH2009Conjunto de ferramentas de processamento distribudoApache Cassandra2009Sistema de armazenamento de dados distribudoGoogle BigTable2006Sistema de armazenamento de dados distribudoApache Hadoop2005Sistema de processamento de dados distribudoGoogle MapReduce2004Sistema de processamento distribudo que deu origem ao Hadoop 12 13. Ferramentas de Processamento Batch Bancos de Dados MPP Verses derivadas do Apache Hadoop inspiradas pelo Google MapReduce Orientadas ao processamento de grandes volumes de dados13 14. Nome Teradata Aster Pivotal HD AMPLab BDAS Actian ParAccel Apache Giraph Apache YARN MapR M5 Hortonworks HDP Google Pregel Google Percolator AMPLab Spark HP Vertica Cloudera CDH Apache Hadoop Google MapReduceAno 2013 2013 2012 2012 2012 2011 2011 2011 2010 2010 2010 2010 2009 2005 2004Batch Interativo Tempo Real 14 15. Ferramentas de Processamento Interativo Caracterizadas principalmente por Sistemas de Banco de Dados distribudos, que utilizam abstraes do tipo NoSQL ou NewSQL So voltados para o armazenamento e para o processamento de consultas interativas sobre volumes intermedirios de dados Problema: Interseco com a criao de grandes conjuntos de ferramentas, que visam oferecer abordagens para o processamento de diversos tipos de problemas e tamanhos de consultas (Apache YARN e AMPLab BDAS, por exemplo) 15 16. Nome Teradata Aster Pivotal HD AMPLab BDAS Google Spanner Actian ParAccel Cloudera Impala Apache Drill Apache YARN SAP HANA Google Megastore MapR M5 Hortonworks HDP Google Dremel VoltDB HP Vertica Apache Hive Cloudera CDH Apache Cassandra Google BigTableAno 2013 2013 2012 2012 2012 2012 2012 2011 2011 2011 2011 2011 2010 2010 2010 2009 2009 2009 2006Batch Interativo Tempo Real 16 17. Ferramentas de Processamento em Tempo Real Ferramentas de CEP e Stream Processing, focadas em processar dados online em Tempo Real Geram anlises contnuas sobre grandes volumes de eventos, eliminando a necessidade de armazenamento antes da realizao das consultas Utilizao de heursticas e algoritmos de aproximao, aplicando transformaes sobre os dados para obter os resultados Execuo contnua, algoritmos executam at que no sejam mais necessrios 17 18. Nome Pivotal HD Google Photon AMPLab BDAS StreamBase CEP Apache Flume Apache YARN Google Megastore Apache Storm Apache Kafka MapR M5 Hortonworks HDP Apache S4 Cloudera CDHAno 2013 2013 2012 2012 2012 2011 2011 2011 2011 2011 2011 2010 2009Batch Interativo Tempo Real 18 19. Desafios As metodologias para programao desse tipo de sistemas ainda no esto bem definidas: Os sistemas Batch apresentam abordagem imperativa; Os sistemas de Tempo Real se caracterizam predominantemente pela utilizao de linguagens funcionais; J os os Interativos, se caracterizam por abordagens baseadas em SQL. As ferramentas apresentam focos especficos, mas em diversos casos apresentam possibilidades de utilizar a sua estrutura para resolver outros tipos de problemas, ainda que com performance reduzida. O que dificulta a caracterizao desses sistemas de abordagem heterognea. 19 20. Concluses e Trabalhos Futuros O ambiente de aplicaes distribudas para o processamento na nuvem no limita-se ao Hadoop, e est sendo constantemente estendido A proposta de caracterizao, nos trs grandes grupos sugeridos, facilita o processo de seleo das ferramentas e ajuda a determinar quais apresentam potencial para serem utilizadas por aplicaes distribudas na nuvem. Ainda no possvel afirmar se estas implementaes convergiro para grandes sistemas de propsitos gerais, ou se evoluiro para um conjunto ainda mais heterogneo de ferramentas para problemas especficos. Em nossos trabalhos futuros, iremos selecionar um subconjunto dessas ferramentas para analisar mais detalhadamente20 21. Anlise e Caracterizao das Novas Ferramentas para Computao Distribuda na Nuvem Otvio M. de Carvalho, Eduardo Roloff, Marco A. Z. Alves, Philippe O. A. Navaux Universidade Federal do Rio Grande do Sul Grupo de Processamento Paralelo e Distribudo {omcarvalho,eroloff,mazalves,navaux}@inf.ufrgs.br