Ecossistema Hadoop - Apostila

July 11, 2019 | Author: Ely Batista Do Rêgo Junior | Category: Big Data, Mineração de dados, NoSQL, Dados, Tecnologia da informação
Share Embed Donate


Short Description

......

Description

Ecossistema Hadoop

ECOSSISTEMA HADOOP

1

Ecossistema Hadoop O Ecossistema de soluções oferecidas para o Big Data

 As tecnologias que sustentam Big Data podem ser analisadas sob duas óticas: as envolvidas com analytics , tendo Hadoop  e MapReduce  como   como nomes principais, e as tecnologias de infraestrutura, que armazenam e processam os petabytes  de   de dados. not only  only  SQL). Nesse aspecto, destacam-se os bancos de dados NoSQL (No significa not   SQL).

O Hadoop  surgiu  surgiu como uma solução adequada para Big Data por vários motivos:  –  É um projeto open source , fato que permite a sua modificação para fins de  –  customização e o torna suscetível a melhorias constantes graças à sua rede de colaboração.  – Proporciona  –  Proporciona economia, já que não exige o pagamento de licenças e suporta hardware convencional, permitindo a criação de projetos com máquinas consideravelmente mais baratas.  – O  –  O Hadoop  conta,  conta, por padrão, com recursos de tolerância a falhas, como replicação de dados.  – O Hadoop é escalável: havendo necessidade de processamento para suportar maior  – O quantidade de dados, é possível acrescentar computadores sem necessidade de realizar reconfigurações complexas no sistema. Mas, o que é o Hadoop ? É, na pratica, uma combinação de dois projetos separados, que são o Hadoop  MapReduce   (HMR), que é um framework para processamento paralelo e o Hadoop  Distributed   File System (HDFS). O HMR é um spinoff  do MapReduce , software que Google usa para acelerar as pesquisas endereçadas ao seu buscador. O HDFS é um sistema de arquivos distribuídos otimizados para atuar em dados não estruturados e é também baseado na tecnologia do Google, neste caso o Google File System. Nem todo usuário de Hadoop   demanda uma escala massiva de dados ao nível do Facebook  ou  ou Yahoo. No entanto, empresas com razoável volume de informações não ECOSSISTEMA HADOOP

 2

estruturadas, como bancos, varejo, empresas aéreas e outras vão encontrar no Hadoop  uma  uma boa alternativa para o tratamento analítico dos seus dados. O Big Data precisa trabalhar com distribuição de processamento e elasticidade, isto é, suportar aplicações com volumes de dados que crescem substancialmente em pouco tempo. O problema é que os bancos de dados “tradicionais”, especialmente aqueles que exploram o modelo relacional, relacional, como o MySQL, PostgreSQL e o Oracle, não se mostram adequados a estes requisitos, por serem menos flexíveis. Isso acontece porque bancos de dados relacionais normalmente se baseiam em quatro propriedades que tornam a sua adoção segura e eficiente, razão pela quais soluções deste tipo são tão populares: Atomicidade, Consistência, Isolamento e Durabilidade. O problema é que a elasticidade, por exemplo, pode ser inviabilizada pela atomicidade e pela consistência. É nesse ponto que entra em cena o conceito de NoSQL, Not only  only SQL“. denominação de nominação atribuída à expressão em inglês “ Not 

 Via de regra, escalar escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos custoso. Isso é possível porque, além de contar com propriedades mais flexíveis, bancos deste tipo já são otimizados para trabalhar com processamento paralelo, distribuição global (vários data centers), aumento imediato de sua capacidade e outros. Comunicação estratégia estratégia em Big Data

Hoje a Comunicação não é mais tão intangível assim, sendo cada vez mais uma disciplina de alto valor dentro do marketing e da inteligência de negócios. Para dar suporte a essa nova comunicação, buscamos respostas a questões cruciais, que indicam como usar a comunicação, para melhorar a percepção da marca, gerar impacto no comportamento de consumo e agregar valor à inteligência de mercado.

ECOSSISTEMA HADOOP

 3

Daí a importância de se trazer o Big Data para o dia a dia da comunicação, deixar os dados nos dizerem a que vieram. O curioso é que poucos conseguem realmente imaginar como podemos trazer a ciência dos dados para um universo no qual trabalhamos com o intangível, com percepções, reações e julgamentos, tal como é (ou parece ser) o mundo da comunicação e das relações públicas. Esse desafio ainda é enorme, mas é cada vez mais possível desvendarmos padrões e tendências, estatisticamente mensuráveis, que se escondem em publicações, artigos, posts, perfis e menções, ou ainda em cliques, buscas e interações ocultas nas redes. Matila Ghyka, filósofo e diplomata romeno, matemático dado para a poesia, costumava dizer que “quem quer estudar ou exercer a Magia deve cultivar a Matemática”. Desta forma podemos trabalhar com a Comunicação Estratégia dentro da organização, pois hoje podemos dizer que não se faz mais magia na comunicação, aquela que encanta e atrai, no meio dessa barafunda de informação que nos cerca, sem conhecer melhor com quem, por que, como, onde e para que estamos falando. E isso, somente os dados podem nos dizer, ajudando a nortear estratégia, planejamento, criação, performance e, por fim, os resultados que realmente interessam aos negócios. Os especialistas em comunicação trabalham integrados a cientistas de dados e analistas de aquisição de clientes, imprimindo ciência onde antigamente eram necessários inspiração e talento. Esse novo e multidisciplinar time analisa e desenha perfis com base nos dados históricos do cliente e seus públicos. A partir daí, realiza um criterioso trabalho de enriquecimento de dados, detalhando ainda mais esses perfis e buscando, aqueles prospects  que apresentam características semelhantes aos perfis criados.  As empresas que reconhecem a necessidade de atingir um público cada vez mais segmentado, incorporando novas soluções de análise de dados, estão um passo à frente do seu concorrente. Outro ponto importante é a possibilidade de medir o ECOSSISTEMA HADOOP

4

desempenho dessa ação, já que plataformas são criadas especificamente para o processo, podendo assim visualizar a performance da estratégia e medir seus resultados.  A competitividade do mercado exige maior competência e resultados concretos em todas as ações. A comunicação aliada à inteligência digital estabelece novos padrões de raciocínio e trabalho para os gestores das marcas. Marketing e tecnologia andam de mãos dadas.  Visualização dos Dados em Big Data

 A visualização dos dados em Big Data   é uma das ferramentas que mais crescem no Big Data   e existe uma razão bem simples para isso: as máquinas precisam dos humanos e quanto mais bem representados os dados estão visualmente, maior será a compreensão humana. Em suma, dados dispostos de maneira visual permitem que os indivíduos enxerguem padrões e tenham insights mais rapidamente.  A visualização de dados é mais que uma simples linha do tempo que conta uma história. É preciso “cavar” mais para obter resultados significativos, não se trata apenas imprimir um gráfico e deixar à vista até que alguém perceba algo. Entretanto, a

ECOSSISTEMA HADOOP

 5

visualização de dados pode revelar mais facilmente insights que passariam despercebidos pelos analistas. Muitos analistas erram ao considerar a visualização de dados para obter “ insights acidentais” como algo separado da exploração de dados. A exploração de dados é o que leva aos insights e os “insights inesperados” fazem parte do mesmo processo.  As soluções de visualização de dados foram desenvolvidas, inicialmente, como uma ferramenta de negócios para as empresas, em escala corporativa, que poderiam ter recursos para contratar estatísticos e cientistas de dados capazes de analisar os dados capturados.  A imagem é capaz de traduzir para o cérebro, de forma didática, os inputs que ele precisa extrair e processar as informações, agilizando o processo de tomada de decisão. Além do tempo economizado, a visualização de Big Data por imagens atribui mais assertividade às decisões dos gestores. Quando os dados são transformados em imagens gráficas, a identificação de padrões e tendências torna-se mais eficaz, já que o cérebro pode interpretá-los com mais facilidade. Uma vez juntos e em ordem, é como se os dados contassem uma história sobre o fenômeno estudado e, assim, as soluções parecem saltar diante dos olhos dos analistas. Se a tomada de decisões, por meio de dados, tornar-se regra em sua organização, você deve fazer com que as informações estejam disponíveis sem intermediários e de forma útil. Soluções de visualização de dados existem para ser colocada em uso por pessoas que não são especializadas. Essas soluções orientam os gestores por meio de um processo analítico self-service .  As técnicas de visualização vêm evoluindo muito e existe uma relação circular e intensa dessas técnicas com o crescimento das demandas de análises de dados. Com maiores ECOSSISTEMA HADOOP

6

volumes, precisamos de novas formas de visualização de dados, que nos mostrem padrões antes irreconhecíveis, e, por sua vez, essas novas técnicas de visualização incentivam o uso de mais análises, É um círculo virtuoso. Em empresas cada vez mais movidas por dados, usar os dados para guiar decisões é algo obrigatório e a visualização de dados pode ser usada para revelar a “verdade” de alguns pontos para então criar uma história. Descoberta dos Dados (Análise dos Dados)

Estudos recentes comprovam que 85% de toda a informação do mundo está em formato textual (GDS PUBLISHING, 2008) (IBM, 2008). Entretanto, analisar base de dados não estruturadas como textos sempre representou um óbice pela grande dificuldade de sistematizar o significado do que está escrito. Signos gramaticais como acentos e abreviações promovem significados adversos e inserem uma contextualização diferente ao que foi dito (PINHEIRO, 2009). O segredo para que uma empresa ultrapasse a concorrência e conquiste mais consumidores, muitas vezes, se esconde em sua própria base de dados. Informações cadastrais, transações com clientes, preferências dos consumidores  – referentes ou não à sua marca, e ainda outros tipos de interação nas redes sociais são exemplos de alguns dados que, quando organizados e analisados, apontam caminhos para o sucesso de um negócio. Muitos empreendimentos já coletam uma enorme quantidade de informações de diversas fontes, no entanto, para extrair conhecimento desse volume de dados é preciso fazer correlações, identificar padrões e descobrir tendências entre eles.  A partir deste cenário, o desafio atual é fazer com que estes dados de várias procedências se integrem, dialoguem e formem uma única unidade informativa. As empresas que se prepararem adequadamente para este movimento sairão na frente, ECOSSISTEMA HADOOP



pois terão a possibilidade de mapear comportamentos, entender mais o seu público e o mercado e enxergarem novas oportunidades. O volume é apenas o começo dos desafios dessa nova tecnologia, se temos um volume enorme de dados, também obtemos a variedade dos mesmos. Já pensou na quantidade de informações dispersas em redes sociais? Facebook , Twitter  entre outros possuem um vasto e distinto campo de informações sendo ofertadas em público a todo segundo. Podemos observar a variedade de dados em e-mails, redes sociais, fotografias, áudios, telefones e cartões de crédito (McAFFE et al., 2012). Seja qual for a discussão, podemos obter infinitos pontos de vista sobre a mesma. Empresas que conseguem captar a variedade, seja de fontes ou de critérios, agregam mais valor ao negócio (Gartner). O Big Data escalona a variedade de informações das seguintes formas (JEWELL, DAVE et al): 

Dados estruturados: são armazenados em bancos de dados, sequenciados em tabelas;





Dados semiestruturados: acompanham padrões heterogêneos, são mais difíceis de serem identificados, pois podem seguir diversos padrões; Dados não estruturados: são misturas de dados com fontes diversificadas como imagens, áudios e documentos online.

Um em cada três líderes não confiam nos dados que recebem (IBM). Para colher bons frutos do processo do Big Data é necessário obter dados verídicos, de acordo com a realidade. O conceito de velocidade é bem alinhado ao conceito de veracidade pela necessidade constante de análise em tempo real, isso significa dados que condizem com a realidade daquele momento, pois dados passados não podem ser considerados dados verídicos para o momento em que é analisado. A relevância dos dados coletados é tão importante quanto conceito de velocidade. A verificação dos dados coletados para adequação e relevância ao propósito da análise é um ponto chave para se obter dados que agreguem valor ao processo (HURWITZ, NUGENT, HALPER & KAUFMAN, 2016). ECOSSISTEMA HADOOP

8

Quanto maior a riqueza de dados, mais importante é saber realizar as perguntas certas no início de todo processo de análise (BROWN, ERIC, 2014). É necessário estar focado para a orientação do negócio, o valor que a coleta e análise dos dados trarão para o negócio. Não é viável realizar todo o processo de Big Data se não se tem questionamentos que ajudem o negócio de modo realístico. Da mesma forma é importante estar atento aos custos envolvidos nessa operação, o valor agregado de todo esse trabalho desenvolvido, coleta, armazenamento e análise de todos esses da/dos tem de compensar os custos financeiros envolvidos (TAURION, 2013). Tratamento de Grande Volume de Dados: Quando Processar se Torna Difícil?

Como vimos anteriormente, uma série de desafios vem à tona quando o volume de dados excede os tamanhos convencionais, quando esses dados são variados (diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior do que a capacidade de processamento. Os elementos da plataforma de Big Data   administram dados de novas maneiras em comparação às bases relacionais tradicionais. Isso por causa das necessidades de ter escalabilidade e alto desempenho requeridos para administrar tanto dados estruturados quanto não estruturados. Os objetivos dos negócios precisam ser focados em entregar dados de confiança e com qualidade para a organização no tempo certo e no contexto certo. Para garantir essa confiança, é preciso estabelecer regras comuns para qualidade dos dados com ênfase em precisão e plenitude. Precisa de abordagem compreensiva para desenvolver metadados corporativos, mantendo o controle da linhagem e a governança das informações para dar suporte à integração destes dados.

ECOSSISTEMA HADOOP

9

Uma das técnicas que nos ajudam a identificar insigths , aumentar a fidelidade do público, reduzir a rotatividade de clientes, gerar mais rentabilidade e, consequentemente, ficar à frente da concorrência é a Mineração de Dados. O que é mineração de dados?

 A mineração de dados consiste no uso de um conjunto de tecnologias e técnicas que permitem automatizar a busca em grandes volumes de dados por padrões e tendências não detectáveis por análises mais simples. O Data Mining , como é conhecido em inglês, utiliza algoritmos sofisticados para segmentar os dados e avaliar a probabilidade de ocorrência de determinados eventos no futuro. Este tipo de análise dá aos gestores embasamento de altíssimo valor para tomada de decisões estratégicas, permitindo detectar de forma precoce a ocorrência de tendências do mercado e desta forma antecipando suas ações para responder a novos cenários.  As principais propriedades da mineração de dados são: 







Detecção automática de padrões; Predição de eventos; Geração de informação para ações práticas; Foco em grandes conjuntos e bancos de dados.

 A mineração de dados responde a questões que não se poderia responder com técnicas similares mais simples. A seguir você vai conhecer algumas de suas aplicações.  A mineração de dados envolve explorar e analisar grandes quantidades de informações para encontrar padrões. As técnicas vieram dos campos da estatística e da Inteligência ECOSSISTEMA HADOOP

10

 Artificial, com um pouco de gestão de base de dados na mistura. Geralmente, o objetivo da mineração de dados é dividir ou prever. Os projetos de mineração de dados no contexto de Big Data   precisam de três componentes principais. 1. O primeiro é um cenário de aplicação que permita que a demanda por descoberta de conhecimento seja identificada; 2. O segundo é um modelo que realize a análise desejada; 3. O terceiro é uma implementação adequada capaz de gerenciar um grande volume de dados. Quanto mais conhecimento dos dados os gestores tiverem, mais aspectos dos negócios poderão otimizar — se você agir a tempo. Assim como o tempo pode desatualizar os dados, os tomadores de decisão precisam de informações a tempo de usá-las para ganhar vantagens competitivas. A empresa que identificar e agir primeiro com conhecimento será a empresa que sairá vencedora. Isso pode melhorar o relacionamento com o cliente, aprofundar análises competitivas e de mercado e aumentar a rentabilidade. Informações podem apoiar o planejamento e a execução dos negócios. Empresas que aproveitam ao máximo as informações podem usá-las não apenas como um fator de melhoria, mas como seu modelo de negócios. Suas análises e projeções de comportamento do cliente são a base de seus modelos de negócios e as têm impulsionado ao sucesso. Em meio a esse novo cenário, no qual as pessoas passaram de meras telespectadoras e assumiram também a condição de produtores de informação, temos uma sociedade centrada na era do Big Data , em que a quantidade de bytes  produzidos na web , e de maneira mais pontual nas redes sociais, necessitam de filtros cada vez mais dinâmicos para transformar este manancial de dados em informação útil e relevante. Diante desse contexto, o Data Mining   apresenta-se como uma ferramenta que pode alicerçar estes filtros, uma vez que ele configura-se como um instrumento eficiente na ECOSSISTEMA HADOOP

11

busca de padrões de grandes volumes de dados até então desconhecidos. Assim, é necessário compreender também que, como boa parte desses dados estão dispostos de uma forma não estruturada, uma leitura a “olho nu” torna o processo de análise oneroso e muitas vezes inviável face a premência na análise dessas informações.  Ademais, em uma conjuntura na qual a quantidade de dados passou a ser um óbice tanto para as organizações quanto para as empresas, o emprego de técnicas de mineração de dados passa a ser condição fulcral na busca de insights e na produção de conhecimento.  Ao analisar a jornada do consumidor de determinada empresa, por exemplo, a mineração de dados é capaz de dizer, mediante a identificação de padrões, quando um cliente está insatisfeito. Essa análise pode antecipar informações essenciais para gestores e decision makers  que, por sua vez, terão dados suficientes para adotar novas estratégias e, assim, evitar a perda do cliente.  Análises avançadas não exigem Big Data , entretanto, ser capaz de aplicá-las com Big  Data  fornece resultados importantes. Recomendações para Desenvolvimento de Projetos de Big Data

O que você precisa saber?  Antes de falarmos sobre as especificidades do seu próprio projeto, veja algumas questões que a maioria dos profissionais que estão trabalhando com Big Data gostaria de ter ficado sabendo antes de começarem seus projetos. Como a maioria dos projetos de Big Data falha por falta de clareza e pela incapacidade de demonstrar a funcionalidade da iniciativa, você mesmo deve se responsabilizar por isso para trazer foco e comprovação ao seu projeto. Seguem três dicas úteis para garantir que o seu projeto já comece dando certo e continue em operação.

ECOSSISTEMA HADOOP

12

Defina objetivos claros e administre as expectativas



Se a sua organização já precisa de dados para determinados processos de negócios (como detecção de fraudes ou análise de mercado), pense em como Big Data pode melhorar ou valorizar esses processos. Sem um foco claro e um valor perceptível aos usuários de negócios, o projeto estará condenado ao fracasso. Defina as métricas que comprovam o valor do projeto



Métricas claramente definidas e que se ajustem aos objetivos podem evitar uma grande quantidade de problemas. Pergunte a si mesmo como pode medir o impacto do seu projeto no contexto das suas metas. 

Seja estratégico sobre ferramentas e codificação manual

 Adote ferramentas que possam aumentar a produtividade da equipe de desenvolvimento por meio do aproveitamento das habilidades e do conhecimento da qualidade dos seus dados. Como seria o projeto certo?

Se você está pensando em um projeto tático e específico, que pode ser adaptado posteriormente para a empresa como um todo, está correto, e esses quatro componentes são importantes: 

 Valor demonstrável

O projeto certo é aquele em que o valor é compartilhado de maneira igual entre a TI e a unidade de negócio que você está tentando ajudar, isso significa proporcionar um valor claro para um departamento, uma unidade de negócio ou um grupo, de forma que eles possam ver. 

Patrocínio

Os projetos de Big Data precisam de defensores e patrocinadores em altos cargos, que estejam dispostos a defender o trabalho que você está fazendo. ECOSSISTEMA HADOOP

13



Um efeito de jogo de boliche

 A importância estratégica do seu projeto tático é vital. Além de provar, sem sombra de dúvida, que Big Data pode ajudar a unidade de negócio que você está apoiando, é bom se certificar de que o valor possa ser comunicado facilmente para a empresa em geral. 

Habilidades transferíveis

É preciso se certificar de que você pode aprender as habilidades, as capacidades e as lições certas do seu primeiro projeto. Mais enfaticamente, é preciso garantir que tudo isso seja documentado para que você possa transferir conhecimento para o próximo projeto. Lembre-se: se a sua meta é o sucesso, então você já está se preparando para futuros projetos. Desafios para implantarmos um projeto de Big Data. Primeiro, temos os desafios Estruturais, que é composto de: 

Codificação e dataficação . Será necessário o desenvolvimento ou

aprimoramento de metodologia para codificação de informações e de tecnologia para captação de novos dados. Big Data fundamenta-se em grande quantidade e variedade de dados e tudo que puder ser dataficado ajudará no 

aprimoramento dos modelos analíticos. Rede wi-fi. A disponibilidade e qualidade da rede de transmissão de dados



digitais ainda não consegue acompanhar a velocidade da oferta de serviços móveis fundamentais na captação de dados.  Armazenagem. Embora poucos apontem a armazenagem como gargalo da cadeia produtiva do Big Data, destacamos o desafio da constante ampliação do serviço já que não existe nenhuma expectativa de desaceleração na geração de dados.

ECOSSISTEMA HADOOP

14



Compartilhamento. Plataformas para compartilhamento de dados serão cada

vez mais comum. Vemos como desafio o desenvolvimento de linguagens e interface mais acessíveis. 

 Analítica. Nesse ponto da cadeia está o maior gargalo pela escassez dos

chamados cientistas de dados. Tecnicamente, desenvolver modelos analíticos é um desafio porque cada modelo é adequado a um problema em um determinado contexto e porque precisa ser dinâmico para manter-se atualizado. Cada modelo analítico pode ser considerado uma peça única e sua efetividade tem que ser colocada à prova continuamente. Em segundo, temos os desafios Culturais, que é composto de: 

 Apropriação do conceito . Em primeiro lugar, não apenas em importância,

mas também como pré-requisito para todos os demais desafios que seguirão, está a compreensão de Big Data. O desafio é percebê-lo não como uma solução em tecnologia da informação, mas como um ativo que deve ser acionado para encontrar as melhores soluções dentro do planejamento estratégico de uma instituição. 

Compartilhamento de dados.  Sabemos que esses dados diversificados são

captados e controlados por diferentes agentes do ecossistema e que seria de extrema ineficiência captar os mesmos dados todas as vezes que eles fossem necessários. Diante dessas constatações, podemos afirmar que o compartilhamento de dados é fundamental para a utilização efetiva de dados digitais. O grande desafio do compartilhamento é mais que um problema de tecnologia. 

Propriedade de dados. Importância do reconhecimento de que o valor do Big



Data não está em possuir ou controlar os dados, mais no valor que extrai da correlação entre diferentes dados. Colocar o ser humano no comando.   Em concordância com a curva de Gartner de adoção de tecnologia, destacamos como grande desafio a formação de massa crítica para participar do debate sobre a utilização de dados digitais ECOSSISTEMA HADOOP

15

como novo paradigma de conhecimento. O desconhecimento faz com que Big Data seja, na maioria das vezes, exageradamente enaltecido ou injustamente desqualificado. Acreditamos que as duas posturas extremistas cometem o mesmo erro na origem: não colocam o ser humano no comando. A primeira será a responsável pela escalada vertiginosa ao pico das expectativas porque cria a expectativa de que a tecnologia sozinha trará todas as soluções para nossos problemas. A segunda postura comandará a queda livre em direção ao poço da desilusão atribuindo à tecnologia todos os impactos negativos de sua adoção. Colocar o ser humano no comando de qualquer projeto em Big Data é reconhecer que nenhuma tecnologia pode prescindir da inteligência que deve agir não apenas para alcançar os desejados fins, mas também para escolher com responsabilidade os adequados meios. 

Design de redes. A falta de cientistas de dados e de profissionais para tomar

decisões a partir de modelos preditivos tem sido destacada como gargalo por todas as empresas de consultoria no assunto. No entanto, identificamos outro desafio na formação profissional para trabalhar com Big Data: a habilidade de ver e desenhar redes complexas. Big Data é um código digital de relações que são os links de uma rede. Decifrar e utilizar as informações contidas nesses códigos passa necessariamente por entender as redes complexas em que estão os problemas que desejamos resolver. Acreditamos que design de redes complexas será uma competência necessária e valorizada para se trabalhar com Big Data. 

Privacidade. A polêmica questão da privacidade na utilização de dados digitais

precisará evoluir para o campo da ética para ser resolvida. Antes, porém será preciso ficar clara a diferença entre dados e informação. Dado é a representação física de um evento no tempo e espaço que não agrega fundamento para quem o recebe, não podendo ser possível entender o que ele representa ou para que ele exista, porém, no momento que existir uma agregação com outro dado ele passa a ser uma informação. O pressuposto do Big Data é que dados em grande quantidade de um determinado domínio quando transportado para outro, gera

ECOSSISTEMA HADOOP

16

informações (dados agregados) e insights relevantes para a compreensão de fenômenos que não podem ser explicados em uma relação causa-efeito linear.  Afirmar que Big Data é sinônimo de perda de privacidade é desconhecer o assunto ou tratá-lo de maneira antiética. Impedir que a utilização inadequada dos dados digitais seja considerada a prática corrente de projetos Big Data é o 

maior desafio quando se trata de privacidade. Metodologias . Gerar conhecimento sobre ambientes complexos a partir de dados digitais exigirá novos processos. Acreditamos que, independente da prontidão que setores e áreas corporativas tenham para Big Data, as instituições aumentarão seus investimentos em tecnologia da informação nos próximos anos para avançar do estágio de onde se encontram em relação ao Big Data. O primeiro desafio metodológico será o de medir esse grau de prontidão. Ao contrário do que se pensa estar pronto para análise de dados é muito mais que ter dados, hardware, software e cientistas de dados. Outro desafio metodológico será o de definir o problema em um sistema complexo. Em qualquer contexto definir adequadamente o problema é essencial para encontrar a melhor solução que responda às condições humanas (desejo), técnicas (possibilidade) e econômicas (viabilidade).

Em terceiro e último, temos os desafios Estratégicos, que é composto de: 

Fraquezas-ameaças. O principal obstáculo tanto no ambiente externo

quanto no interno é a baixa compreensão do assunto, essa deficiência tem como consequências o desconhecimento da importância de compartilhar dados e o baixo investimento em ferramentas e metodologias específicas



para análise de dados. No ambiente externo isso se manifesta na falta de pressa da sociedade em exigir uma política pública de normatização e investimento em infraestrutura e educação para Big Data. Forças-ameaças. Outras ameaças ao Big Data no Brasil sãoa baixa qualidade e o alto custo da rede móvel de comunicação. Sendo a mobilidade ECOSSISTEMA HADOOP

17 

a principal força motora do Big Data pela diversidade de dados de dinâmica humana que ela propicia, essa ameaça terá forte impacto na expansão da base de dados. Por outro lado, a base de dados existente e qualidade do setor de TI são forças que podem ser usadas para reverter esse quadro. O desafio é o desenvolvimento de projetos em análise de dados de grande visibilidade e relevância para justificar o investimento na melhoria da rede e



a queda no custo, melhorando, assim, a penetração da rede em regiões e segmentos da população em que o acesso ainda é restrito. Fraquezas-oportunidades. Apesar de apresentar muitas ameaças, o Big Data, o Brasil oferece também condições para o desenvolvimento de boas vantagens competitivas. A principal delas diz respeito à rápida adesão da população a novas tecnologias e processos fortemente dependentes dela. Esse fator, somado à forte adesão às redes sociais e à participação online e ao conceito de que inclusão digital é importante para a inclusão social, geram as condições ideais para a geração espontânea de dados de alta qualidade para análise preditiva de comportamento humano e dinâmica social. O



desafio aqui é o desenvolvimento de plataformas para compartilhamento desses dados. Forças-oportunidade . O quadrante onde forças e oportunidades se encontram só são desafios até o momento do seu reconhecimento. A partir daí torna-se natural o caminho de associar esses fatores positivos para ganhar vantagem competitiva em algumas áreas específicas do Big Data .

 As condições de geração espontânea de dados digitais citadas no item anterior, associadas à alta capacidade de armazenagem e segurança dos dados e ao bom desenvolvimento do setor de TI colocam o Brasil em posição privilegiada na parte inicial da cadeia de valor de Big Data : desenvolvimento de métodos de codificação, de dispositivos, sensores e serviços para dataficação de informações importantes. O desafio na parte alta da cadeia de valor é transformar o interesse dos tomadores de decisão e capacidade de articulação para o desenvolvimento de novos modelos de negócio, metodologias e indicadores de sucesso para ambiente Big Data . ECOSSISTEMA HADOOP

18

 Alguns pontos importantes na gestão de projetos de Big Data precisam ser definidos. E isso vai além da simples escolha da abordagem. É necessário entendermos a gestão de riscos, pessoas (especialmente do cientista de dados), patrocínio para o projeto, adequação de valor ao negócio, retorno sobre o investimento (ROI) e, de uma forma muito especial, a gestão do entusiasmo. Operacionalização dos Projetos de Big Data

 À medida que o Big Data torna-se mais e mais importante para as empresas, seu uso de forma inteligente e inovadora será uma ferramenta de vantagem competitiva inestimável. Portanto, adotar Big Data está deixando de ser uma opção para ser compulsório nas empresas. A questão não é mais se vou ou não adotar Big Data, mas quando e qual estratégia adotarei. Antes de qualquer coisa é importante reconhecer que iniciativas de Big Data são diferentes de muitas outras iniciativas de TI. Big Data impacta processos de negócio, fontes de dados (começa-se a utilizar cada vez mais fontes externas à organização), arquitetura de dados e sistemas, infraestrutura e suporte tecnológico (utilização de bancos de dados NoSQL), estrutura organizacional e capacitação. Pode afetar de forma drástica a corporação, inclusive mudando o mindset da tomada de decisões baseada em intuição para fatos. Indiscutivelmente, a complexidade do mundo de negócios atual não permite apenas decisões baseadas em intuição e experiência profissional. Elas continuam valendo, sem dúvida, mas devem ser emparelhadas às análises de fatos muitas vezes desconhecidos pelos executivos. Os dados utilizados em projeto de Big Data são geralmente dados não estruturados, esses são de difícil acesso e recuperação e muitas vezes não dispõem de componentes necessários para identificação de tipo de processamento e interpretação, tornando o ECOSSISTEMA HADOOP

19

seu uso um desafio principalmente em aplicativos empresariais. Esse tipo de dados requer dispositivos de armazenamento e processamento (a operacionalização) que suportem seu formato e garantam melhor eficiência em suas análises.  As organizações que mais têm feito progresso na operacionalização de seus esforços de Big Data são aquelas que possuem governança bem estruturada, abordagem de implementação disciplinada e executivos engajados. No entanto, muitas empresas ainda estão no meio do caminho para verdadeiramente tirarem proveito das análises geradas, citando as restrições orçamentárias e a integração como grandes desafios para a operacionalização, analisa John Brahim, líder da divisão global de Insights & Data da Capgemini. Quatro

pontos

para

tornar

projetos

de

Big

Data

operacionais

 A Capgemini aplica um conjunto de princípios essenciais para tonar os projetos de Big Data operacionais. 1. Garantir o apoio e a liderança dos executivos em iniciativas de Big Data. Nada abaixo do alto escalão será suficiente para promover uma mudança duradoura. 2. Ampliar a arquitetura de informações com a modernização dos sistemas de armazenamento de dados e a integração de novas tecnologias de Big Data. 3. Criar uma estrutura colaborativa de governança de dados que traga agilidade organizacional, incorporando, ao mesmo tempo, segurança e qualidade dos dados. 4. Trabalhar com foco em uma cultura dinâmica, voltada a dados, que envolva tanto os executivos como os funcionários nos estágios iniciais do desenvolvimento, usando e aprimorando as soluções de Big Data.  A plataforma de Big Data é o conjunto de funções que levam à alta performance do processamento de Big Data. Uma plataforma inclui a capacidade de integrar dados, administrá-los e aplicar-lhes um sofisticado processamento computacional.

ECOSSISTEMA HADOOP

 20

O que é o APACHE SPARK

O Spark   permite que aplicações em clusters Hadoop   executem até 100 vezes mais rápido em memória e até 10 vezes mais rápido em disco, desenvolver rapidamente aplicações em Java, Scala ou Python. Além disso, vem com um conjunto integrado de mais de 80 operadores de alto nível e pode ser usado de forma interativa para consultar dados diretamente do console. O framework SPARK para processamento de Big Data construído com foco em velocidade, facilidade de uso e análises sofisticadas. Está sendo desenvolvido desde 2009 pelo AMP Lab  da Universidade de Califórnia em Berkeley e em 2010 seu código foi aberto como projeto da fundação Apache. O Spark  tem muitas vantagens se comparado com as outras tecnologias de Big Data e do paradigma MapReduce , como o Hadoop . Inicialmente, o Spark   oferece um framework unificado e de fácil compreensão para gerenciar e processar Big Data com uma variedade de conjuntos de dados de diversas naturezas (por exemplo, texto, grafos, etc.), bem como de diferentes origens (batch ou streaming de dados em tempo real). Ele fornece  APIs   de alto nível em Java, Scala, Python e R, além de suportar gráficos de execução em geral. Ele também suporta um rico conjunto de ferramentas de altonível, incluindo Spark   SQL para SQL e processamento de dados estruturados, MLlib  para aprendizado de máquina, GraphX  para processamento gráfico e Spark  Streaming para processamento de dados em tempo real.

ECOSSISTEMA HADOOP

 21

Diversas empresas e organizações utilizam Spark   em suas aplicações. Entre elas, podemos destacar:  Amazon , Baidu , eBay Inc. (agregação de logs de transações e análises), Yahoo!, Grupon , NASA JPL ‒ Deep  Space Network e Yahoo! O Spark tem como base ” Resilient Distributed Datasets  (RDD)”, que é uma estrutura abstrata para gerenciamento de dados em memória que fornece uma forma restringida de memória compartilhada em cluster de computadores. O Spark  também fornece uma interface iterativa de programação e, além de permitir a implementação de  jobs MapReduce   em memória, ele foca na possibilidade de implementação de algoritmos que inerentemente fazem inúmeras iterações sobre dados, tais como: algoritmos iterativos de aprendizagem de máquina e grafos, incluindo PageRank , K-means clustering , e regressão logística.  As principais operações paralelas que podem ser aplicadas em RDDs   são: reduce , collect  e foreach . A operação reduce   combina elementos dos conjuntos de dados utilizando uma função de associação. Já a operação collect  envia todos os elementos de um conjunto de dados (RDD) para o programa driver. Por fim, a operação foreach  aplica uma determinada função, informada pelo programador, em cada elemento de um RDD. Diferentemente de outras plataformas, o Spark   não suporta a operação de redução de forma paralela, isto é, os resultados dessa operação são coletados apenas pelo programa driver.  Aplicações Spark   executam como conjuntos de processos independentes em um cluster, coordenados pelo objeto SparkContext   presente no programa principal (também chamado de programa driver). Para ser executado em um cluster, o SparkContext   pode

se conectar a vários gerenciadores (gerenciador próprio ou Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark  adquire executores em nós do cluster, que são processos que realizam cálculos e armazenam dados da aplicação.

ECOSSISTEMA HADOOP

 22

 Aplicações Spark   executam como conjuntos de processos independentes em um cluster, coordenados pelo objeto SparkContext   presente no programa principal (também chamado de programa driver). Para ser executado em um cluster, o SparkContext   pode

se conectar a vários gerenciadores (gerenciador próprio ou Mesos/YARN), que alocam recursos entre os programas. Uma vez conectado, o Spark  adquire executores em nós do cluster, que são processos que realizam cálculos e armazenam dados da aplicação. Em seguida, ele envia o código da aplicação no formato JAR ou Python para estes. Finalmente, o SparkContext  envia tarefas para os executores. Como trabalhar com a tecnologia in-memory

Uma série de desafios vem à tona quando o volume de dados excede os tamanhos convencionais, quando esses dados são variados (diferentes fontes, formatos e estruturas) e são recebidos em uma velocidade maior do que a capacidade de processamento. Quando se deseja realizar processamento de linguagem natural de um texto muito grande a fim de realizar análises estatísticas do texto, o processamento e memória necessários excede a capacidade de computadores pessoais convencionais. Ou seja, os recursos de hardware (como a memória RAM, por exemplo) não comportam o volume dos dados.

ECOSSISTEMA HADOOP

 23

 A velocidade do processamento, armazenamento, leitura e transferência de dados nos barramentos, frequentemente fazem com que apenas extratos (amostras) dos dados sejam analisados o que não permite que todos os detalhes daquele conjunto de dados sejam observados. O que se deseja é estudar as bases de dados por completo, não apenas uma amostra, ou ao menos aumentar as amostras o máximo possível. A necessidade de novas técnicas e ferramentas é reforçada pelo atual interesse em se empregar técnicas de análises que excedam as técnicas tradicionais. Extrair conhecimento a partir de grandes massas de dados é de fato desafiador, pois os dados são heterogêneos em sua representação e formato, além de apresentarem conteúdo multidisciplinar.  As soluções de Big Data também têm como objetivo tratar dados brutos, heterogêneos com e sem estrutura e sem padrão de formatação. Apesar dos bancos de dados convencionais apresentarem bons desempenhos no tratamento de dados estruturados e semiestruturados, as análises no contexto de Big Data requerem um modelo iterativo (de consultas recursivas) para análise de redes sociais e emprego de técnicas de clusterização. O desafio do processamento dos grandes volumes de dados está relacionado com três aspectos: armazenamento dos dados na memória principal, a grande quantidade de iterações sobre os dados e as frequentes falhas (diferente dos bancos de dados convencionais em que as falhas são tratadas como exceções, no contexto de Big Data, as falhas são regras). Nos últimos anos têm surgido alternativas para processamento de Big Data. Entre essas se destacam sistemas chamados “in memory/main memory database  systems”. Tais sistemas priorizam o armazenamento em memória aumentando a performance em várias ordens de magnitude, garantindo também escalabilidade, flexibilidade e segurança a falhas.

ECOSSISTEMA HADOOP

 24

O processamento intensivo e iterativo dos dados excede a capacidade individual de uma máquina convencional. Nesse contexto, clusters (arquiteturas de aglomeração) computacionais possibilitam a distribuição das tarefas e processamento paralelo dos dados. Em alguns cenários, não será possível processar e armazenar todos os dados. Nesse caso, é possível utilizar técnicas de mineração de dados para manipular os dados, sumarizando-os, extraindo conhecimento e fazendo predições sem intervenção humana visto que o volume dos dados, seus tipos e estruturas não permitem tal intervenção.  A tecnologia “ in memory ”, ou os bancos de dados “in memory ”, “ main memory ” ou  “memory resident ” tem apresentado uma solução bastante promissora a esse grande desafio. Sua proposta é a de carregar as informações em disco rígido para a memória do servidor. Assim, como o próprio nome sugere, o acesso às informações é feito diretamente na memória do computador, e não mais no disco, o que diminui drasticamente o tempo de processamento, possibilitando “varrer” terabytes  de dados em segundos. Os bancos de dados “in memory ” possuem vantagens dos bancos de dados tradicionais, mas com o grande diferencial de oferecerem alto desempenho para aplicações que necessitam de acesso frequente aos dados. A tecnologia “ in memory ” também reduz os custos com TI, uma vez que sua utilização não depende de investimentos em hardware e não demanda os já conhecidos altos valores atribuídos à manutenção de banco de dados.  As grandes vantagens do in-memory  computing para o seu negócio:

Dados geram informações, e com elas, é possível tomar decisões mais assertivas para o seu negócio. O mercado é competitivo e quem consegue avaliar um maior volume de dados ‒ bem como realizar análises certeiras mais rapidamente ‒ sai na frente. Isso porque a tomada de decisões estratégicas não deve ser baseada no sentimento do empreendedor, mas em dados reais e precisos. Desta forma é possível otimizar

ECOSSISTEMA HADOOP

 25

processos, produtos e serviços em prol da conquista de novos clientes ou retenção dos atuais.  A agilidade trazida por essa tecnologia torna-se, então, fundamental para realizar a análise de informações em tempo real, o que assegura uma resposta mais rápida ao mercado, garantindo inovação ao seu negócio para o aproveitamento das oportunidades e, assim, um melhor posicionamento da sua empresa para a conquista de novos clientes. Conclusão

Com base no estudo realizado, torna-se evidente que não há como fugir do fenômeno das tecnologias Ecossistemas, pois já é uma realidade muito mais próxima de nós do que possamos imaginar. A sociedade atual se organiza em torno dos meios de comunicação, com a popularização da internet, dos dispositivos móveis com acesso a ela, a evolução da tecnologia como um todo, tudo isso alavancou uma nova era, em que a tecnologia e a informação ditam as regras.  Atualmente, a maioria das pessoas possui algum contato com algo que pode contribuir para gerar essa grande quantidade de dados, de forma direta ou indireta.  As tecnologias para trabalhar com o oceano de dados que cresce em volume de forma monstruosa e flui continuamente nos deixa otimista, porque se mostram comprometidas como o objetivo de resolver essa questão e viabilizar o trabalho com grandes quantidades de dados. O poder de quem detém a expertise de trabalhar com grandes quantidades de dados é imensurável, a aplicação se estende por diversas áreas, não ficando restrito apenas ao um setor. Podemos concluir que as tecnologias de Ecossistema revelam um divisor de águas e seu impacto na sociedade poderá ser comparado com o advento da internet, que hoje se tornou algo indispensável em nossas vidas.

ECOSSISTEMA HADOOP

 26

Em face desse enorme manancial de dados, faz-se necessária a utilização de mecanismos que visem descobrir padrões e informações até então desconhecidas. Nesse ímpeto, o Data Mining apresenta-se como um agente capital na descoberta desses conhecimentos.  A busca de informação valiosa em grandes volumes de dados. Data Mining é o esforço desenvolvido por homens e máquinas. Os homens desenham os bancos de dados, descrevem os problemas e setam os objetivos. As máquinas mineram os dados, em busca de padrões que atendam a esses objetivos. O que é importante nas tecnologias de ecossistemas, é que, a análise digital não neutraliza a importância humana na tomada de decisão e na inovação, ao contrário, a profusão de modelos preditivos e correlações de dados demandarão como nunca a capacidade humana de gerar insights, discernir e decidir. Dados digitais iluminam as pessoas e a rede vital que elas estabelecem entre si, com a natureza e com os objetos que estão à sua volta.  Acreditamos que lidar com esses dados é uma missão que todo ser humano deverá abraçar com cuidado porque eles são o código que nos mostrará como dar equilíbrio ao nosso planeta.

ECOSSISTEMA HADOOP

 27 

BIBLIOGRAFIA

BAZERMAN, M. H.; MOORE, D. Processo decisório. 7. ed. Rio de Janeiro: Elsevier, 2010. BRAHIM, J. Relatório da Capgemini e Informática revela os hábitos de sucesso das equipes responsáveis por Big Data. Disponível em: . Acesso em 05 maio 2017. BROWN, E. Haddop e Big Data. Disponível em: . Acesso em 05 maio 2017. CANARY, V. A tomada de decisão no contexto do Big Data. UFRGS, 2013. COMPUTERWORLD. Hadoop cimenta importância para Big Data. Disponível em: http://www.computerworld.com.pt/2012/06/19/hadoop-cimenta-importancia-parabigdata/. Acesso em: 24 maio 2013. DAVENPORT, T. H. Big Data no trabalho. Rio de Janeiro: Campus/Elsevier, 2014. DUMBILL, E. et al. Big Data Now. 1. ed. Sebastopol: O'Reilly Media,Inc, 2012. FRANÇA, T.; FARIA, F.; RANGEL, F.; FARIAS, C.; Oliveira, J. Big Social Data: Princípios sobre coleta, tratamento e análise de dados sociais. Disponível em: .  Acesso em 05 maio 2017. COLUMBUS, Louis. Roundup of Big Data Forecasts and Market Estimates, 2012. Disponível em: . Acesso em: 05 maio 2017. GDS PUBLISHING. Managing the data explosion. Business management, 2008. ECOSSISTEMA HADOOP

 28

GHYKA, M. The geometry of art and life. New York: Dover Publications, 2014. GOUVEIA, W. MapReduce é o que há. Disponível em: http://amsterdaintelligence.blogspot.com.br/2010/03/mapreduce-e-o-que-ha.html.  Acesso em: 21 maio 2013. HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data para leigos. Rio de Janeiro: Alta Books, 2016. JEWELL, D.; BARROS, R. D.; DIEDERICHS, S. et al. Performance and capacity implications for Big Data. IBM/Redbooks, 2014. LEMOS, A. Cibercultura e mobilidade: a era da conexão. Disponível em: . Acesso em 05 maio 2017. LIMA JUNIOR, W. T. Big Data, jornalismo computacional e data journalism: estrutura, pensamento e prática profissional na web de dados. In: Estudos em Comunicação, v. 12, p. 207-222, [s.l], 2012. NONOHAY, R. G. Tomada de decisão e os sistemas cerebrais. UFRGS, 2012. OHLHORST, Frank. Diversos artigos. Disponíveis em: prophet.com/category/big-data/>. Acesso em 05 maio 2017.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF