Apol Big Data 3
May 17, 2024 | Author: Anonymous | Category: N/A
Short Description
Download Apol Big Data 3...
Description
Questão 1/10 - Big Data
O nível de gerenciamento e governança de um Data Lake pode nos dar pistas para definir seu nível de maturidade. Avalie
as
seguintes
afirmações
sobre
a
maturidade
de
Data
Lakes:
I – Data Swamp é o nível em que os dados de um Data Lake estão tão degradados que não há mais como extrair informações úteis. II – Data pond é o estágio inicial de um Data Lake, funciona de forma muito semelhante a um Data Warehouse mal projetado. Sua construção e manutenção exigem um alto envolvimento de uma equipe técnica. III – Data puddle consiste em uma coleção de Data Marts para propósitos específicos. Não é capaz de colaborar para melhorar o acesso aos dados. IV – Em um Data Lake propriamente dito, os usuários são capazes de realizar buscas e localizar dados diretamente. V – Um Data Ocean é a aplicação de um Data Lake para toda uma organização. Dessa forma é possível utilizar seus dados para tomar decisões estratégicas de negócios. Dentre essas afirmações estão INCORRETAS: Nota: 10.0
A
Todas, exceto IV
B
I, IV e V
C
Apenas III
D
I, II e IV
E
II e III
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: O nível de maturidade descrito pela afirmação II não corresponde ao Data Pon tal afirmação encontra-se INCORRETA. Enquanto que a afirmação III é verdadeira para u Puddle. Portanto a afirmação está INCORRETA. As demais afirmações (I, IV e V) estão CO
Questão 2/10 - Big Data
O Spark Streaming oferece a capacidade de realizar transformações em janelas, o que permite aplicar transformações em um conjunto de RDDs para computar os resultados de um intervalo maior. I – Transformações de janela acumulam RDDs em intervalos de tempo maior e os processa conjuntamente produzindo um resultado acumulado. II – O intervalo de slide é a quantidade de tempo entre cada captura de dados, ou seja, a sua frequência.
III – O intervalo de batch é a quantidade de tempo entre cada aplicação das transformações à janela. Ou seja, é a frequência em que estas são aplicadas e geram resultados. IV – O intervalo de janela, ou comprimento da janela, é a duração da janela. V – O intervalo de batch a frequência em que os dados são capturados do fluxo pelo DStream. Dentre essas afirmações estão INCORRETAS: Nota: 10.0
A
Todas, exceto V
B
II, IV e V
C
Todas
D
I, III e V
E
II e III
Você assinalou essa alternativa (E)
Você acertou!
Justificativa: O intervalo de slide é a quantidade de tempo que define a frequência em que a janela e não a frequência de captura dos dados como alega INCORRETAMENTE a afi de batch é a quantidade de tempo que define a frequência em que os dados são capturado a quantidade de tempo entre cada captura de dados. Diferentemente do que diz ERRO demais afirmações (I, IV e V) estão CORRETAS.
Questão 3/10 - Big Data
Avalie as seguintes afirmações sobre os componentes do Hadoop: Impala e Accumulo: I – Impala é um motor de consultas SQL capaz de realizar consultas de baixa latência em HDFS ou Hive. II – O Impapa foi projetado para consultas analíticas em Haddop utilizando SQL ou ferramentas de business inteligence (BI). III – Accumulo é um sistema de armazenamento distribuído baseado em chave-valor que implementa segurança e nível de célula. IV – Todos os dados armazenados no Accumulo devem possuir os mesmos requisitos de segurança em uma mesma tabela. V – O Accumulo permite realizar operações em pares de chave-valor assim que são inseridos. Dentre essas afirmações estão CORRETAS: Nota: 10.0
A
I, II e III
B
Todas
C
I, II e IV
D
II, III e V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Entre as principais características do Impala destaca-se a possibilidade de latência de dados armazenados em HDFS e HBase. Dessa forma a afirmação I enc principais características do Accumulo é a segurança em nível de célula, onde cada par rótulo de segurança que tem a capacidade de limitar os resultados de uma consulta basea usuário. Portanto a afirmação IV está INCORRETA. As afirmações II, III e V estão CORRET
E
Apenas III
Questão 4/10 - Big Data
O Spark Streaming oferece uma abstração de alto nível conhecida como DStreams (ou Discretized Streams) que representa um fluxo contínuo de dados. Avalie
as
seguintes
afirmações
sobre
os
DStreams:
I – DStreams são representados em Spark como uma sequência de RDD. II – Toda operação aplicada a um DStream é traduzida em operações em seus respectivos RDDs. III – DStreams podem possuir como fontes de dados tanto arquivos e conexões de socket quanto fontes externas como Kafka, Kinesis, Flume e outros. IV – Operações de saída permitem que os dados de um DStream sejam direcionados a sistemas externos como um banco de dados ou um sistema de arquivos. V – DStreams não armazenam estados. Dessa forma não é possível armazenar informações entre o processamento de cada RDD. Dentre essas afirmações estão CORRETAS: Nota: 10.0
A
Todas
B
I, II e V
C
I, IV e V
D
Todas, exceto V
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Diferentemente do que diz INCORRETAMENTE afirmação V, é possível ma DStream. Isso é muito útil para realizar operações que dependem de informações e
afirmações (I, II, III e IV) estão corretas.
E
Apenas IV
Questão 5/10 - Big Data
Uma vez que conhecemos os conceitos que envolvem a arquitetura big data assim como as aplicações que implementam suas características, podemos pensar em como combinar todas essas tecnologias e ideias para o desenvolvimento de um produto visando atender a alguma necessidade existente. Avalie as seguintes afirmações a respeito do desenvolvimento e design de soluções Big Data: I – O desenvolvimento de aplicações Big Data possui grandes desafios em como combinar todas as suas tecnologias e ideias para desenvolver novos produtos. Porém a integração com tecnologias tradicionais é uma questão trivial atualmente. II – Em muitos casos as soluções de Big Data têm como objetivo otimizar processos de negócios, adquirir vantagens competitivas ou otimizar operações. Dessa forma podem representar muitas vantagens para uma empresa. III – O entendimento das necessidades que nossa aplicação busca atender é uma das maneiras mais importantes de se obter as informações necessárias para guiar o desenvolvimento IV – A documentação de requisitos é capaz de evitar desperdícios e garantir que a implementação está alinhada com as necessidades do usuário. V – Working Backwards é uma abordagem de desenvolvimento de produtos que prioriza o entendimento dos requisitos e o feedback do usuário antes mesmo do início do desenvolvimento. Dentre essas afirmações estão CORRETAS: Nota: 10.0
A
II, III e IV
B
I, IV e V
C
I, II e IV
D
Todas, exceto I
Você assinalou essa alternativa (D)
Você acertou! Todas exceto I
Justificativa: Existem desafios no que se trata da complexidade em integrar sistema tradicionais existentes. Ao contrário do que alega a afirmação I que está INCORRETA. Tod e V) estão CORRETAS.
E
Todas
Questão 6/10 - Big Data
GraphX é o componente do Spark para computação de grafos em sistemas distribuídos de larga escala. Ele foi desenvolvido através de um projeto de pesquisa como forma de unificar o processamento de grafos e de sistemas paralelos até se tornar uma parte integral do projeto Spark. Avalie
as
seguintes
afirmações
a
respeito
do
GraphX:
I – A API GraphX implementa abstrações de arestas e vértices baseados em extensões de RDDs II – A computação de grafos é importante em casos onde as relações entre os dados são mais importantes que os dados em si. III – Grafos são uma forma muito eficiente de representar dados de tabelas esparsas. IV – O algoritmo Connected Components é um tipo de algoritmo paralelo de grafos que é capaz de medir a coesão entre os seus dados (componentes). V – O algoritmo PageRank desenvolvido pelo Google é capaz de classificar a importância de sites através da quantidade de referências apontadas para um site. Dentre essas afirmações estão CORRETAS: Nota: 0.0Você não pontuou essa questão
A
Todas, exceto IV
B
I, II e III
C
II, III e IV
D
IV e V
E
Todas
Justificativa: O algoritmo Connected Components busca encontrar todos os componentes d entre si onde cada vértice (ou componente) dentro de um grupo pode ser alcançado a p grupo. Além disso não deve haver nenhum caminho, ou seja, arestas, entre dois grupos INCORRETAMENTE a afirmação IV. Todas as outras afirmações (I, II, III e V) estão CORR
Você assinalou essa alternativa (C)
Questão 7/10 - Big Data
Recomendações se baseiam nas previsões de preenchimento das avaliações desconhecidas. Existem duas principais abordagens para isso: recomendações baseadas em conteúdo (content-based recommendations) e filtragem colaborativa (collaborative filtering). Avalie
as
seguintes
avaliações
sobre
as
duas
principais
abordagens
de
recomendações: I – O sistema de recomendações baseadas em conteúdo possuem como estratégia a recomendação de itens mais parecidos aos que o usuário avaliou. II – Antes de recomendar um novo item, o sistema de recomendações baseadas em conteúdo precisa que algum usuário avalie o novo item. III – O cálculo de similaridade entre os usuários é utilizado por sistemas de filtragem colaborativa para medir a chance de um par de usuários avaliar determinado item de forma parecida. IV – Métodos de filtragem colaborativa pode ser aplicado apenas para medir a semelhança entre usuários. V – É possível utilizar métodos de diferentes abordagens de recomendação de uma forma híbrida para tentar melhorar a qualidade das predições. Dentre essas afirmações estão INCORRETAS: Nota: 10.0
A
Todas, exceto V
B
I e III
C
Nenhuma
D
II e IV
Você assinalou essa alternativa (D)
Você acertou!
Justificativa: Na afirmação II, é incorreto dizer que o sistema de recomendações baseada usuário avalie o novo item, pois este sistema se baseia nas características do item e n afirmação IV diz que os métodos de filtragem colaborativa podem ser aplicados apenas usuários, porém podemos aplicar o mesmo princípio para as avaliações entre itens (ou Portanto tal afirmação está INCORRETA. As demais afirmações (I, III e V) estão corretas.
E
II e V
Questão 8/10 - Big Data
Spark SQL é o módulo do Spark utilizado o processamento de dados estruturados. Diferentemente da API básica de RDDs do Spark, a interface fornecida pelo Spark SQL oferece mais informações sobre a estrutura tanto dos dados quanto da computação a ser realizada. Internamente essa informação extra é utilizada para otimizações adicionais. Sobre os diferentes formatos de dados suportados pelo Spark SQL avalie as seguintes afirmações: I – O formato de dados padrão suportado pelo Spark SQL é o CSV, um formato de arquivos que armazena texto em formato tabular que utiliza vírgulas para separar valores.
II – O ORC é um formato de arquivos que busca otimizar o tempo de processamento e reduzir o tamanho dos arquivos. É um formato de dados utilizado também pelo Hive e é considerado uma forma altamente eficiente de armazenamento. III – O Parquet é um formato de armazenamento baseado em chave-valor amplamente utilizado por diversos sistemas. É um formato otimizado para suportar sistemas de compressão muito eficientes. IV – LibSVM é um formato de dados que implementa Support-Vector Machines e é muito utilizado em modelos de aprendizagem. V – O Spark SQL permite o uso de conectores JDBC e ODBC para atuar como um motor de consultas distribuídas a tabelas de dados externas. Dentre essas afirmações estão CORRETAS: Nota: 10.0
A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A fonte de dados padrão utilizada pelo Spark para todas as operações são sejam configurados de outra forma. Diferentemente do que INCORRETAMENTE diz a afir de armazenamento colunar, não é baseado em chave-valor como diz ERRONEAMENTE a e V estão CORRETAS.
B
I, II e IV
C
Todas, exceto I
D
II, III e IV
E
Todas
Questão 9/10 - Big Data
Para que o valor dos dados contidos em um Data Lake não seja perdido, se faz necessário criar uma solução de Data Lake que inclua as noções de gerenciamento, acessibilidade e governança. Avalie as seguintes afirmações a respeito do gerenciamento de Data Lake: I – Um Data Lake oferece o mesmo nível de complexidade que outras estratégias de armazenamento como Data Mart e Data Warehouse. II – Uma das características que podem ser agregadas aos dados armazenados em uma estratégia de Data Lake utilizando bons esquemas de governança é a transparência no uso dos dados. III – Entre as informações que se podem obter dos dados em um Data Lake podemos destacar os metadados técnicos que fornecem informações sobre a qualidade, perfil, origem, e a sua linhagem. IV – Os metadados técnicos de um Data Lake podem fornecer informações a respeito da forma ou estrutura dos dados tais como tamanho, tipo de dado ou esquema.
V – Os metadados de um Data Lake permitem buscar, localizar e aprender sobre os dados armazenados. Dentre essas afirmações estão CORRETAS: Nota: 10.0
A
II, IV e V
Você assinalou essa alternativa (A)
Você acertou!
Justificativa: A estratégia de armazenamento de dados Data Lake pode oferecer uma r estratégias Data Warehouse e Data Mart não são capazes de oferecer. Dessa forma en INCORRETA. Metadados técnicos são os metadados que fornecem informações a respeit tais como: tamanho, tipo de dado, esquema. Portanto a afirmação III está INCORRETA. estão CORRETAS.
B
Todas, exceto IV
C
I, II e V
D
III, IV e V
E
Todas
Questão 10/10 - Big Data
Os modelos de Cloud Computing podem ser observados como camadas de um modelo de negócios. Dessa forma quando desejamos utilizar um sistema de Big Data em Cloud Computing podemos definir variações de Big Data as a Service (BDaaS). Avalie as seguintes afirmações sobre Big Data as a Service e os principais fornecedores do mercado: I – Em um serviço de Big Data implementado sobre uma pilha de modelos de Cloud Computing, o Hadoop ou qualquer outra tecnologia de processamento e armazenamento distribuído encontram-se na camada PaaS. II – Um sistema de Big Data as a Service deve implementar as instâncias de IaaS, PaaS, SaaS e BDaaS na mesma nuvem. III – O Amazon Elastic MapReduce é um sistema baseado no Hadoop e permite utilizar ferramentas como Spark, Hive, HBase, Flink e Presto, entre muitos outros serviços IV – O Cloud Dataproc além de fornecer serviços Spark e Hadoop, está integrado com outros serviços do Google Cloud Platform, como BigQuery, Cloud Storage, Cloud Bigtable, Stackdriver Logging e Stackdriver Monitoring. V – O Microsoft Azure implementa serviços de armazenamento, CDN, serviço de containers, processamento em lote, computação sem servidor, e um serviço para permitir o uso e gerenciamento de clusters Hadoop e Spark. Dentre essas afirmações estão INCORRETAS: Nota: 0.0Você não pontuou essa questão
A
I, III e V
B
II, III e IV
C
Nenhuma
D
IV e V
E
II
Você assinalou essa alternativa (C)
Justificativa: Temos variações de BDaaS (Big Data as a Service) que podem implementar t de SaaS ou ambas na mesma nuvem. Ou seja, as camadas não precisam necessariame isso a afirmação II encontra-se INCORRETA. As demais afirmações (I, III, IV e V) estão CO
View more...
Comments