Business Intelligence Com Pentaho
April 10, 2017 | Author: Roberta Vieira Miranda | Category: N/A
Short Description
Download Business Intelligence Com Pentaho...
Description
UNIVERSIDADE VEIGA DE ALMEIDA ROBERTA VIEIRA MIRANDA
BUSINESS INTELLIGENCE OPEN SOURCE COM PENTAHO
2
RIO DE JANEIRO – 2010 UNIVERSIDADE VEIGA DE ALMEIDA ROBERTA VIEIRA MIRANDA
BUSINESS INTELLIGENCE OPEN SOURCE COM PENTAHO
Monografia apresentada, como pré-requisito de conclusão do curso de Ciências da Computação, ao Instituto de Ciências e Tecnologia da Universidade Veiga de Almeida. Área de Concentração: Banco de Dados.
Orientadora: Eliane Xavier Cavalcanti
RIO DE JANEIRO – 2010
3
ROBERTA VIEIRA MIRANDA BUSINESS INTELLIGENCE OPEN SOURCE COM PENTAHO MONOGRAFIA
OBJETIVO: ESTE TRABALHO DE CONCLUSÃO DE CURSO VISA APONTAR AS
FUNCIONALIDADES,
VANTAGENS
E
DESVANTAGENS
DA
IMPLEMENTAÇÃO DE FERRAMENTAS DE BUSINESS INTELLIGENCE DE PLATAFORMA OPEN SOURCE COM A IMPLANTAÇÃO DO SOFTWARE PENTAHO. DATA DE APROVAÇÃO: ____/____/____
INSTITUIÇÃO: UNIVERSIDADE VEIGA DE ALMEIDA CURSO: CIÊNCIA DA COMPUTAÇÃO
PROF. CARLOS ALBERTO ALVES LEMOS DOUTOR EM ENGENHARIA (SISTEMAS DE COMPUTAÇÃO) UNIVERSIDADE ESTADUAL DA ZONA OESTE - UEZO
PROF. LUIZ HENRIQUE DE SOUZA AGUIAR COUTINHO DOUTOR EM PLANEJAMENTO E POLÍTICAS PÚBLICAS FURNAS CENTRAIS ELÉTRICAS S. A. ______________________________________________________________________ PROF.PEDRO HENRIQUE GOUVÊA COELHO PHD PELA BIRMINGHAM UNIVERSITY UNIVERSIDADE DO ESTADO DO RIO DE JANEIRO - UERJ
4
Dedico esta Monografia aos meus pais, meus irmãos e meus amigos que tiveram paciência, me deram apoio e acreditaram que este sonho seria possível.
5
"Qualquer tecnologia suficientemente avançada parece ser mágica”. −
AGRADECIMENTO
Arthur C. Clarke.
6
Agradeço à Universidade Veiga de Almeida, ao meu coordenador prof. Luiz Antônio Palmeira Monteiro, por sempre estar disponível a solucionar qualquer dúvida, a minha orientadora prof. Eliane Xavier Cavalcante, pela paciência e dedicação, e ao Mikael de Souza Fernandes da Universidade Luterana do Brasil (ULBRA) e ao Gustavo Zanini Kantorski da Universidade Federal de Santa Maria (UFSM), por autorizar a utilização do projeto Neuro Business Intelligence para o estudo de caso, peça chave para o desenvolvimento desta Monografia.
7
RESUMO
Cada vez mais as empresas necessitam, em tempo real, da informação para basear suas decisões. A noção de informação como um elemento estratégico para toda e qualquer companhia tem tido mais reconhecimento a cada dia. Assim, o valor estratégico da informação tem levado os gerentes mais experientes a implementarem sistemas de BI e incorporá-los aos projetos-chaves das companhias para a otimização de seus negócios e para trazer benefícios aos processos de produção.
PALAVRAS-CHAVE: otimização.
informação,
decisão, estratégico, implementação,
8
ABSTRACT Increasingly, companies need real-time, information to base their decisions. The notion of information as a strategic element for any company has had more recognition every day. Thus, the strategic value of information has led the most experienced managers to implement BI systems and incorporate them into projects for key companies to optimize their business and to bring benefits to production processes.
KEYWORDS: information, decision, strategy, implementation, optimization.
9
SUMÁRIO PÁG 1. INTRODUÇÃO ................................................................................................ 10 2. PROPÓSITO DO BUSINESS INTELLIGENCE ........................................ 11 2.1.
CENÁRIO DE UM BI .............................................................................. 12
3. BI OPEN SOURCE......................................................................................... 14 3.1. VANTAGENS ........................................................................................... 14 4. PENTAHO ....................................................................................................... 15 4.1. PENTAHO OPEN BI SUITE ................................................................. 16 4.2. FUNCIONALIDADES PENTAHO........................................................ 16 4.3. MONDRIAN ............................................................................................. 16 4.4. KETTLE ................................................................................................... 17 4.5. JPIVOT ..................................................................................................... 18 4.6. SCHEMA WORKBENCH ...................................................................... 18 4.7. WEKA ....................................................................................................... 19
4.8. PENTAHO USER CONSOLE (PUC) .................................................... 19 4.9. PENTAHO REPORT DESIGNER (PRD)............................................ 20 4.10. PENTAHO DESIGN STUDIO (PDS).................................................. 20 5. ESTUDO DE CASO ....................................................................................... 20 5.1. TECNOLOGIA OLAP ........................................................................... 21 5.2. A FERRAMENTA .................................................................................. 22 5.2.1. Modelagem Multidimensional ......................................... 22 5.2.2. A Ferramenta Neuro ........................................................ 25 6. CONCLUSÃO ............................................................................................... 30
REFERÊNCIAS ................................................................................................. 32
10
1. INTRODUÇÃO A presente Monografia pretende apresentar um apanhado de informações que permite visualizar as principais características, vantagens e desvantagens das soluções de Business Intelligence e a implantação de ferramentas Open Source, tomando como exemplo o Estudo de Caso no sistema Neuro Business Intelligence. Escolhemos por esse tema, pois é fato que já faz algum tempo que BI (Business Intelligence) vem ganhando força no mercado e, mais do que nunca, as empresas voltam sua atenção não apenas para as informações operacionais, mas também para a questão estratégica, permitindo tomadas de decisões com maior precisão e menor risco possível. O grande desafio de todo indivíduo que gerencia qualquer processo é a análise dos fatos relacionados a seu dever. Esta análise deve ser feita de modo que, com as ferramentas e dados disponíveis, o gerente possa detectar tendências e tomar decisões eficientes e no tempo correto. Com essa necessidade surgiu então o conceito de Business Intelligence. Com o surgimento dos bancos de dados relacionais, dos PC's e das interfaces gráficas como o Windows, aliados ao aumento da complexidade dos negócios, começaram a surgir os primeiros produtos realmente direcionados aos analistas de negócios, que possibilitavam rapidez e uma maior flexibilidade de análise. Os sistemas de BI atuais têm como características: •
Extrair e integrar dados de múltiplas fontes
•
Fazer uso da experiência
•
Analisar dados contextualizados
•
Trabalhar com hipóteses
•
Procurar relações de causa e efeito
•
Transformar os registros obtidos em informação útil para o
conhecimento empresarial Hoje as ferramentas de BI são a "chave-mestra" em qualquer companhia. Se há dez anos as empresas apostavam em aquisições para alavancar seu crescimento, hoje nota-se uma tendência para o crescimento organizacional com base no negócio, algo que só é possível com essas ferramentas. As empresas procuram cada vez mais
11
responder às necessidades dos clientes sem serem intrusivas. Com isso, gerou-se uma cadeia de valores muito forte que impulsionou os negócios. Neste caso, mais uma vez o mercado ditou as regras. Tornou-se essencial a existência de um sistema confiável, simples e acessível para a análise das informações. A quantidade de conhecimento precisou ser ajustada inversamente à quantidade das informação para análises, e neste contexto o BI tem se dado muito bem. Hoje em dia é muito difícil para uma empresa conseguir sobreviver sem alguma ferramenta de BI. Elas necessitam mais do que nunca de um sistema de suporte à decisão eficaz e relevante, que tenha condições de gerir uma unidade de negócio de forma continuada para quase todos os níveis ou áreas da empresa. Por isso, para alguns setores como telecomunicações, bancos, seguros, cartões de crédito ou outro tipo de negócio que envolva um volume muito grande de informação, o uso destas soluções em BI torna-se cada vez mais essencial para sua sobrevivência no mercado.
2. PROPÓSITO DO BUSINESS INTELLIGENCE O BI foi feito para gestores que buscam um
melhor entendimento destes
cenários, tanto internos como externos, e para isto se propõe a coletar dados dos mais diversos ambientes e áreas da empresa, preparando demonstrativos de desempenho, traçando comparativos e elaborando projeções. As tecnologias mais utilizadas em BI são: •
Data Warehouses
•
Ferramentas de ETL
•
Data Marts
•
Data Mining
•
Geradores de relatórios e consultas
•
Ferramentas OLAP / EIS / DSS
12
2.1.
CENÁRIO DE UM BI
Figura 1: Cenário de um BI Quando falamos de aplicações para negócio, lidamos com dois tipos distintos: Aplicações que Sustentam o Negócio e Aplicações que Analisam o Negócio Aplicações que sustentam o negócio são compostas por Sistemas OLTP (On-line Transaction Processing, ou Processamento de Transações em Tempo-Real) que trazem retorno de investimento baseado no melhor desempenho do negócio. Sua principal característica é o controle e o registro de transações. Aplicações que analisam o negócio, são as aplicações de apoio à tomada de decisão mais conhecidas como ferramentas OLAP (On-Line Analytical Processing ou Processamento Analítico em Tempo-Real). Nessas, o retorno do investimento são baseados no melhor conhecimento do negócio. Elas utilizam como fonte de dados os mesmos sistemas de Controle, mas têm como preocupação principal a identificação de tendências. A diferença principal entre estas duas aplicações, é que enquanto as que Sustentam o Negócio atualizam os dados durante o dia em tempo real, as que Analisam
13
o Negócio são atualizados geralmente em processos batch noturnos, através dos mecanismos de ETL. O grande problema de uma corporação que conta primordialmente com sistemas OLTP, é que possui muito dado e pouca informação. Sistemas de BI devem ser capazes não apenas de transformar dados em informação, mas utilizar estas informações e mostrar seu impacto nos negócios da empresa. Existe uma máxima que diz que "A falta de informação leva os executivos a tomarem decisões erradas, e o excesso também.". Todo BI requer um DW (Data Warehouse) ou Data Mart (Repositório de Dados). Estes por sua vez possuem rotinas de ETL (Extração, Transformação e Carga dos Dados), que trazem as informações de Ambientes Externos fazendo: Tratamentos, Agregações e Sumarizações. Esta fase é crucial e se alguma coisa der errada aqui, todo o restante do projeto pode ficar comprometido. Sem deixar de lembrar a fase anterior, da Modelagem de Dados, também deve ser construída com muita atenção pelo profissional responsável e precisa ter uma visão clara do negócio. A fase de construção de um ETL geralmente costuma ser subestimada pela maioria dos projetistas e sua construção pode variar de sete meses a um ano. Um bom projeto de BI deve ser feito modularmente, com a construção de pequenos Data Marts, cujos resultados passam a ser vistos rapidamente. Uma abordagem mais corporativa que vise a construção de um grande DataWarehouse, já mostrou não ser uma boa opção, por que o projeto torna-se demasiadamente longo (mais de um ano) e caro (algumas centenas de milhares de reais). Contudo, um projeto com abordagem departamental deve ser construído com cuidado para que haja total integração com os Data Marts existentes, e o DW não necessite ser retrabalhado no futuro.
14
Figura 2: Arquitetura de um Data Warehouse
3. BI OPEN SOURCE No universo de Business Intelligence, temos várias ferramentas Open Source disponíveis no mercado e, a cada ano, surgem novas soluções. Neste trabalho de conclusão de curso será destacado o Pentaho, uma ferramenta de apoio à tomada de decisão de plataforma open source. 3.1.
VANTAGENS NA UTILIZAÇÃO DE FERRAMENTAS OPEN SOURCE A maior vantagem das ferramentas Open Source é o baixo custo: não há gasto
com licenças (que varia de centenas a milhares de dólares em ferramentas proprietárias). Ela reduz drasticamente o custo para uma plataforma de Business Intelligence de nível empresarial, comparado com os tradicionais e proprietários sistemas de BI. Entretanto, tal como acontece com ferramentas proprietárias, ainda são necessários investimentos em implantação, treinamento e suporte para o máximo aproveitamento. Além do menor custo, as ferramentas open source apresentam outras qualidades importantes,
tais
como
qualidade,
segurança,
independência
de
fornecedor,
possibilidade de adequação a necessidades específicas, estabilidade e suporte técnico.
15
4. PENTAHO A tecnologia Pentaho foi desenhada do zero como uma plataforma de BI moderna e totalmente integrada, baseada em standards abertos. Isto significa que pode ser integrada facilmente com qualquer infraestrutura de TI de origem, ou embebida numa aplicação desenvolvida à medida. Para utilizadores empresariais, o acesso a toda a informação de BI e a possibilidade de criar novos relatórios, vistas de análise e dashboards encontra-se numa interface web racionalizada, e estão ao alcance de dois cliques. Ela
fornece suporte técnico
compreensivo, manutenção
de software,
funcionalidades melhoradas e mais, através de uma subscrição anual. Possui várias suites que formam uma plataforma completa de BI, que foi desenvolvida, distribuída e implantada como Open Source apresenta grande flexibilidade e independência entre as diversas plataformas, possui alta confiabilidade e segurança a um custo mínimo de implantação e manutenção. Possui ferramentas de ETL como o Kettle, análises OLAP como o Mondrian ou de Data Mining como o Weka, e são reunidos num único produto que permite soluções que acompanham todo o ciclo de implementação de um SAD, (Sistema de Apoio à Decisão) e que a tornam uma das soluções Open-Source mais populares do mundo. A solução Pentaho define-se a si mesma como uma plataforma de BI orientada para a solução e centrada em processos. Ou seja, não só apresenta os resultados de uma forma única e dando uma visão geral do estado da empresa, como implementa os próprios processos (workflow) para a resolução de problemas detectados e apresentados. 4.1.
PENTAHO OPEN BI SUITE A Pentaho Inc. integrou e promoveu o desenvolvimento de ferramentas open
source que fornecem os recursos para criação de Soluções de BI. O conjunto é conhecido por Pentaho Open BI Suite (ou Suite Pentaho), incluem as suites Reporting, Analysis, Data Integration, Dashboards e Data Mining.
16
Devido à sua estrutura em componentes, a Suite pode ser utilizada para atender demandas que vão além do escopo das Soluções de BI mais tradicionais. Estão disponíveis componentes para a implementação de processos comandados por workflow automatizado, portais web customizáveis com suporte à portlets e single sign-on, entre outros. A plataforma executa todas as suas Soluções de BI, como serviços, e por isso é possível até mesmo prover acesso a esses recursos para sistemas externos, via web services, por meio de um mecanismo baseado em SOAP/WSDL/UDDI incluso.
Figura 3: Componentes do Pentaho Open BI Suite As suites são responsáveis pela execução da Solução de BI, provendo controle de processos, visualização, segurança e auditoria. Têm a função de controlar o repositório e a execução de soluções, os acessos a banco de dados, agendamentos, permissões, serviços de e-mail e mais algumas atividades fundamentais de background, grande parte da sua funcionalidade pode ser configurada através do PAC (Pentaho Administration Console ). 4.2.
FUNCIONALIDADES PENTAHO Uma das grandes dificuldades para alguém que começa a trabalhar com o
Pentaho é entender o relacionamento entre os diversos aplicativos das suites. Todos os softwares da Suite Pentaho são programas Java e rodam em qualquer plataforma que tenha uma JVM padrão, e estas ferramentas dão produtividade na criação da solução e das estruturas usadas pela plataforma. 4.3.
MONDRIAN É responsável pelo servidor OLAP (Online Analytic Processing) onde podemos
construir os cubos que permitiram segmentar a informação por eixos de análise,
17
permitindo a análise da informação com base em várias perspectivas. Assim será possível a compreensão dessa informação de uma forma intuitiva, uma vez que a solução permite decompor os valores nas diferentes perspectivas de análise. Desta forma pode-se cruzar a informação com várias dimensões de um modo muito simples, utilizando drag-and-drop, drilling into, drilling across, encadeamento de dimensões, entre outros, bem como encontrar a causa de um problema que lhe sobressaiu num simples relatório. É escrita em linguagem Java, e implementa a linguagem MDX, XML for Analysis e especificações JOLAP, e lê a partir de instruções SQL e outras fontes de dados, agregando os dados em uma memória cache.
Figura 4: Interface - Mondrian 4.4.
KETTLE Faz parte da suite do Data Integration, e utiliza as técnicas de ETL (Extract-
Transform-Load), para a obtenção dos dados que virão das várias fontes de dados, e que obrigatoriamente teremos de cruzá-las em algum momento dentro do ciclo de ETL. O Kettle é capaz de ler e escrever em vários formatos de SGBD, como Oracle, PostgreSQL, SQLServer, MySql, entre outros, e importar arquivos texto (CSV ou fixo), planilhas Excel e bases de dados ODBC (apenas em Windows). Ele é um ambiente gráfico no qual conexões com fontes de dados são estabelecidas e seqüências de passos executam a extração de dados, sua modificação e a carga desses em um destino. O Kettle pode integrar dados entre empresas e sistemas, substituindo a criação de camadas de programas para integração por operações visuais.
18
Figura 5: Kettle
4.5.
JPIVOT Jpivot é uma biblioteca customizada JSP que desenha uma tabela e um gráfico
OLAP. Os usuários podem executar navegações típicas OLAP como drill down e sliceand-dice. Utiliza o Mondrian e XMLA como engines OLAP.
4.6.
SCHEMA WORKBENCH O Schema Workbench cria os cubos no formato XML que serão processados e
exibidos pelo Portal. Ele tem uma interface visual para navegar entre as definições do cubo, permitindo criar, além de métricas, dimensões e hierarquias, muitas das estruturas que agregam valor na exploração de um cubo OLAP, como métricas derivadas, cubos virtuais (combinações de tabelas fato) e atributos de dimensões. 4.7.
WEKA O Weka é um ambiente gráfico para Data Mining. Permite ao usuário criar e
testar hipóteses contra as bases de dados. Existem grandes potencialidades na utilização
19
de Data Mining para apoiar o processo de tomada de decisão.
Figura 6: Weka
4.8.
PENTAHO USER CONSOLE (PUC) Interface para o usuário final, é a partir do PUC que os usuários terão acesso às
análises e relatórios criados, poderão ainda - de acordo com as permissões definidas criar relatórios Ad-Hoc utilizando o WAQR, criar novas visões analíticas utilizando o JPivot, executar relatórios criados previamente com o PRD (ou outro gerador de relatórios suportado), visualizar dashboards, agendar a execução de relatórios e compartilhar qualquer um desses artefatos com outros usuários. 4.9.
PENTAHO REPORT DESIGNER (PRD) Gerador de relatórios "pixel perfect" da suite, facilita a criação de relatórios
"ricos" com uma aparência mais profissional e personalizada, adicionalmente permite a publicação desses relatórios no PUC, permite inclusive que filtros simples sejam publicados diretamente sem a criação de xactions no PDS.
20
4.10. PENTAHO DESIGN STUDIO (PDS) Plugin para a plataforma Eclipse que funciona como uma interface gráfica para a criação de xactions que são arquivos XML interpretados pelo BI Server, são como instruções "passo-a-passo" que dirigem a execução das atividades pelo BI Sever, permitem, por exemplo, a definição de filtros avançados para relatórios e o envio de emails com os relatórios executados.
5. ESTUDO DE CASO Os sistemas para informatização dos procedimentos transacionais de Hospitais Universitários normalmente não possuem ferramentas de análise. Neste enfoque, foi desenvolvido um sistema de informações hospitalares para o Hospital Universitário de Santa Maria. Este sistema, disponibilizado na web, permite aos gestores do hospital analisarem as informações sobre a abrangência de atuação do hospital na região central do estado do Rio Grande do Sul , além da comprovação da efetividade dos procedimentos de baixa, média e alta complexidade realizados pelo hospital. O sistema foi desenvolvido através de tecnologias OLAP (On-Line Analytical Processing), cujo objetivo é transformar dados em informações capazes de dar suporte a decisões gerenciais de forma flexível e em tempo hábil. Desta forma, OLAP precisa oferecer informações existentes, oportunas, precisas e inteligíveis [Thomsen 2002]. O presente Estudo de Caso tem por objetivo apresentar uma ferramenta OLAP Web, para análise de informações da área da saúde, aplicadas ao Hospital Universitário de Santa Maria, com a utilização de ferramenta open source Pentaho. A seguir são apresentadas as tecnologias utilizadas para o desenvolvimento da ferramenta, a arquitetura e a ferramenta desenvolvida. 5.1.
TECNOLOGIA OLAP OLAP é uma categoria de software específica para realizar processamento
analítico dos dados de data warehouse, de maneira que este processamento deve ocorrer com alto desempenho, consistência e interatividade e auxiliar a tomada de decisão em uma organização através da interpretação desses dados em várias visões multidimensionais [Cood, Codd e Salley 1993].
21
As ferramentas OLAP são geralmente de uma das três arquiteturas: ROLAP – Relational OLAP, MOLAP – Multidimensional OLAP e HOLAP – Hybrid OLAP. ROLAP realiza o processamento do data warehouse em uma estrutura física do modelo relacional
e
modelada
dimensionalmente.
A
arquitetura
MOLAP
utiliza
o
armazenamento físico multidimensional. E a arquitetura HOLAP integra as características de ROLAP e MOLAP, onde os dados atômicos são armazenados em um modelo relacional e os agregados e dimensões são guardados em uma matriz ndimensional. Independente da arquitetura utilizada, as ferramentas OLAP manipulam os dados do data warehouse através de um estrutura multidimensional denominada cubo. Os cubos representam o data warehouse e são organizados de maneira a realizar consultas rápidas e dinâmicas voltadas ao apoio à decisão. Os cubos são definidos através de dimensões e medidas. As dimensões fornecem as informações descritivas, enquanto que as medidas disponibilizam informações quantitativas que se deseja consultar [Kimball 1996]. A manipulação das estruturas multidimensionais pode ser realizada através de operações OLAP. As operações OLAP são o drill-up ou roll-up, na qual os dados são agrupados em um nível com maior granularidade, o drill-down, no qual existe o detalhamento dos dados para um nível com menor granularidade, o slice & dice que seleciona uma parte do cubo, o Pivoting que realiza a inversão / rotação dos eixos do cubo para visualização de uma consulta, o Rank que ordena as consultas de acordo com os valores das medidas e o Drill-across que realiza o detalhamento dos dados por meio de múltiplos níveis de dimensões diferentes. O Mondrian e o JPivot são exemplos de ferramentas OLAP open source e que possuem interface para a web. O Mondrian é um servidor OLAP desenvolvido na linguagem J ava sendo parte de um conjunto de tecnologias open sources pertencentes ao projeto Pentaho Business Intelligence [Pentaho 2007]. Para um melhor entendimento do funcionamento do servidor Mondrian é possível dividí-lo em 4 camadas [Mondrian 2007]: a camada de apresentação (presentation layer), a camada dimensional (dimensional layer), camada estrela (star layer) e a camada de armazenamento (storage layer). A tecnologia JPivot é responsável pela camada de apresentação, projetada para trabalhar com vários servidores OLAP, especialmente com o Mondrian. O JPivot é uma ferramenta que através de suas tag librarys permite apresentação e interação com os dados analisados [JPivot 2007], isto é, visualização e manipulação de tabelas, resultado
22
de consultas OLAP. A segunda camada, dimensional, é a camada que recebe, analisa e envia consultas MDX (Multidimensional Expressions). A camada estrela é responsável pela ligação da consulta MDX recebida pela camada anterior e a execução da mesma sobre a base de dados mapeada. E por última, a camada de armazenamento que executa as consultas solicitadas pela camada estrela sobre a base de dados relacional, logo caracterizando o Mondrian como um servidor ROLAP. 5.2.
A FERRAMENTA A ferramenta Neuro Business Intelligence foi desenvolvida para atender as
necessidades do hospital universitário. Serão apresentados nos tópicos seguintes a modelagem dos cubos e o mapeamento realizado entre o modelo relacional e o modelo dimensional. Serão mostradas também a ferramenta desenvolvida e as tecnologias utilizadas. 5.2.1. Modelagem Multidimensional O modelo de armazenamento multidimensional implica em dois tipos de tabelas: tabelas de dimensões e tabelas de fatos. Uma tabela de dimensões consiste em tuplas de atributos da dimensão. Uma tabela de fatos pode ser imaginada como se possuísse tuplas, uma para cada fato registrado. Esse fato contém alguma variável ou variáveis observadas ou mensuradas e identifica as mesmas como ponteiros para tabelas de dimensões. As tabelas de fatos contêm os dados e as dimensões identificam cada tupla nesses dados [Navathe 2000]. O data warehouse foi criado em um modelo ROLAP em uma base MySQL Server. Para modelagem dos cubos foi utilizada uma ferramenta multidimensional denominada Cube Designer (Figura 7), que faz parte do projeto do servidor Mondrian, Pentaho Business Intelligence [Pentaho 2007]. A ferramenta de modelagem multidimensional realiza uma conexão via JDBC (Java Database Connectivity) com diversas bases de dados pré-configuradas, entre elas MySQL. A ferramenta apresenta uma lista de tabelas do banco, onde é possível selecionar e manipular as tabelas e seus atributos. Após define-se, dentre as tabelas selecionadas, a tabelas de fatos. Entretanto, na definição de dimensões, propriedades e medidas a ferramenta apresenta limitações nos recursos de configurações, onde não é possível utilizar-se toda potencialidade da modelagem. O resultado da modelagem é armazenado em um arquivo em XML (eXtensible Markup Language) que é manipulado pelo servidor Mondrian.
23
Figura 7: Ferramenta Cube Designer – modelagem de dimensões. De acordo com [Brito 2004], a lógica do Mondrian é implementada através de Schemas, que definem o modelo multidimensional lógico e o mapeamento deste modelo em um modelo físico e relacional. O primeiro modelo, lógico, é formado de elementos definidos pelo Schema, sendo estes: cubo (cube), dimensão (dimension), hierarquias (hierarchy), níveis (level) e membros (members). Por conseguinte, o modelo físico é a base de dados relacional que é mapeada pelo modelo lógico através do Schema. Logo, para uma mais completa definição do Mondrian Schema é necessária uma manipulação no arquivo XML por meio de um editor de texto qualquer. Na modelagem da ferramenta para a instituição de saúde focou-se na análise de dois aspectos: um deles referencia os exames realizados pelos pacientes, enquanto o outro corresponde ao consumo de materiais farmacêuticos. A modelagem dimensional é apresentada na Figura 8.
24
Figura 8: Modelagem Dimensional A primeira modelagem refere-se aos procedimentos de exames cuja tabela de fatos é a bi_fat_exames (Figura 8), com as respectivas medidas de número de pacientes e de número de exames realizados, possuindo como aspectos para análise as seguintes dimensões: Pacientes: dimensão que caracteriza basicamente duas propriedades dos pacientes do hospital, sexo e domicílio (identificando a cidade e estado do paciente). A propriedade domicílio é o resultado da tag do Schema denominada joinTable, referenciando as tabelas pacientes e domiciliados (Figura 9); Exames: dimensão que representa o código e a descrição dos exames; Tempo: dimensão que permite uma robusta análise dos fatos através das propriedades dia, mês, ano, semana, bimestre e semestre. A Figura 9 mostra um fragmento do arquivo XML onde pode ser visualizado o mapeamento da dimensão Pacientes com a tabela de bi_ dim_ pacientes modelada na Figura 8 e o join realizado com a tabela bi_ dim_ domiciliados que representa a modelagem snow-flake da dimensão pacientes. É possível verificar também os quatro
25
níveis que a dimensão pacientes possui, estado, cidade, sexo e nome. Além disso, podese verificar a tabela de fatos, bi_ fat_ exames, que faz parte do cubo exames.
Figura 9: Mapeamento de Esquemas XML e a Tabela de Dimensões. A outra modelagem corresponde à movimentação de materiais farmacêuticos pelos setores do hospital, denominados de unidades. A modelagem representa os valores financeiros e as devidas quantidades através de agregações e somas da tabela de fatos bi_fat_medicamentos (Figura 8). Para análise de tais medidas, além das dimensões citadas anteriormente (pacientes e tempo), novas dimensões foram modeladas: Unidades: dimensão que representa os setores que consomem os materiais da instituição, por meio das propriedades nome e código; Produtos: dimensão que caracteriza o código e a descrição dos diversos materiais referenciados na tabela de fatos. É importante salientar que, embora existam vários cubos modelados, as dimensões são compartilhadas entre os diversos cubos, evitando re-trabalho na modelagem. Assim, por exemplo, a dimensão tempo é a mesma que é utilizada em todos os cubos modelados. 5.2.2. A Ferramenta Neuro Por meio da utilização das tecnologias Mondrian e JPivot, e ainda com o Web container Apache Tomcat, foi possível o desenvolvimento de uma nova ferramenta denominada Neuro. A ferramenta Neuro compreende um aplicativo Java baseado no servidor OLAP Mondrian com características novas agregadas para o Hospital Universitário de Santa Maria (HUSM). A Figura 10 apresenta a arquitetura definida para a ferramenta.
26
Figura 10: Arquitetura da Ferramenta. O servidor OLAP Mondrian é a camada principal da aplicação Neuro BI, pois processa e retorna as consultas (MDX) geradas pela devida aplicação. Entretanto, para que haja esse processamento é necessária uma prévia configuração na estrutura do servidor OLAP, primordialmente, após a geração do Schema, deve-se adicioná-lo ao diretório da aplicação, podendo conter ainda outros Schemas, no container Web e configurá-lo (no arquivo datassources.xml). Na Figura 10 é mostrada a interface principal da ferramenta. No menu, à esquerda, podem ser visualizados os esquemas modelados. Na parte central são mostradas informações sobre o período dos dados gerados e os cubos disponíveis para consulta. Na Figura 11 é possível visualizar o cubo de exames e o cubo de produtos farmacêuticos. Novos cubos e consultas podem ser modelados e adicionados à interface e disponibilizados para consulta. Na versão atual da ferramenta o período de referência para geração dos cubos é o mesmo, não sendo possível à geração de períodos diferentes para cubos diferentes.
27
Figura 11: Interface Inicial da Ferramenta. Depois de configurado o Mondrian Schema, é possível gerar as consultas que estarão contidas em arquivos no formato JSP (Java Server Pages) em um diretório específico (diretório queries), sendo que cada arquivo possui uma única consulta. Um arquivo possui, além da convencional tag Java (core) na qual é especificada o título para a consulta, a tag denominada mondrianQuery referente ao JPivot. Nesta tag é necessário especificar os parâmetros JDBC para conexão, o Schema a ser manipulado e, em seu corpo, a consulta MDX para acesso aos dados, conforme a Figura 12. Logo, existe uma multiplicidade de arquivos do formato JSP onde cada um identifica uma única consulta MDX, sendo que o nome de cada arquivo corresponderá ao parâmetro na execução de cada consulta. As consultas MDX mostradas na Figura 12 compreendem uma parte da geração e exibição da consulta. Outras funcionalidades (através de botões), como cabeçalho e rodapé estarão presentes em um outro arquivo do formato JSP presente no diretório root (raiz) da aplicação. Desta forma a manutenção da devida aplicação refletirá em todas as consultas que fazem uso.
28
Figura 12: Arquivo JSP com parâmetro de conexão e exemplo de consulta MDX. A Figura 13 mostra o retorno, em um Browser Web, da consulta MDX mostrada na Figura 12. Na interface é possível visualizar ao topo, alguns links da ferramenta Neuro. Logo abaixo, o título da consulta, especificado no arquivo JSP da consulta (através da tag denominada core). Acima da tabela de dados gerada, os botões que correspondem às operações OLAP permitidas pelo servidor Mondrian. E no centro, a tabela com o resultado da consulta MDX gerada, listando inicialmente as dimensões e medidas como colunas e os respectivos membros como linhas. É mostrada uma operação drill member sobre a hierarquia (hierarchy) pacientes da dimensão (dimension) de mesmo nome. E finalmente, abaixo da tabela, é possível retornar ao devido esquema (Schema) em que a consulta pertence, por meio de um link, e o rodapé da ferramenta.
29
Figura 13: Interface de Retorno de uma Consulta.
30
6. CONCLUSÃO Conclui-se que o mercado de Inteligência Competitiva conta hoje com uma variedade muito grande de produtos e fornecedores. As características de cada solução vão depender da necessidade de cada empresa. Por isso é muito importante saber avaliar cada uma delas e o que se propõe. Através da análise da quantidade de informações que passam por uma empresa diariamente, é possível identificar a sua importância e, acima disso, da análise de modo a verificar o que é util. Baseado neste cenário, é possível entender o porque da contínua existência de ferramentas de Business Intelligence (BI) na lista de prioridades nas empresas. A necessidade de eficiência e agilidade no processo de decisão exige delas a utilização de soluções que gerem informações consistentes e ao mesmo tempo sejam flexíveis de modo a se enquadrarem nas suas necessidades e limitações. Dessa forma, se faz necessário efetuar uma análise dessas empresas e das ferramentas do mercado de modo a verificar quais delas são compatíveis. Existe uma grande quantidade de ferramentas de BI no mercado hoje com uma ampla variedade de funcionalidades e valores. Além disso, têm ocorrido um grande crescimento das soluções livres com suas constantes melhorias e amadurecimento. No entanto, como não existe um padrão estrutural e funcional seguido por todas, o processo de comparação entre essas ferramentas é dificultado, aumentando o tempo de análise das ferramentas para escolha por parte das empresas. Nesse contexto, é inserido o risco decorrente da ferramenta não corresponder na realidade aquilo que teoricamente está explicitado nos manuais. No Estudo de Caso realizado no Hospital Universitário de Santa Maria, foram detectadas várias situações relativas à realização de exames pelos pacientes e o consumo de materiais farmacêuticos de pacientes internados. As ferramentas de consultas OLAP limitam-se, embora nem todas, a soluções privadas que prejudicam o processo de integração. A ferramenta desenvolvida neste trabalho utiliza tecnologias open source e realiza a integração dessas tecnologias. A ferramenta utiliza uma interface mais amigável com a qual os usuários possam trabalhar e realiza a integração entre tecnologias existentes como o Mondrian e o JPivot. Como trabalhos futuros destacam-se a necessidade dos usuários poderem configurar e salvar as consultas para que não seja necessária, a cada execução de consulta, a configuração e
31
formatação das informações geradas. Além dessas configurações, deve-se trabalhar melhor algumas modificações para que o próprio gestor utilize a ferramenta ao invés de delegar essa geração de consultas para usuários especializados.
REFERÊNCIAS
32
BARBIERI, CARLOS. BI - Business Intelligence - Modelagem & Tecnologia. Axcel Books, 2001. BOAR, BERNARD. Tecnologia da Informação - A Arte do Planejamento Estratégico, São Paulo, Berkeley, 2002. BRITO, MAIQUEL DE. Proposta de um Data Warehouse de informações acadêmicas. Instituto de Ciências Exatas e Tecnológicas, Centro Universitário Feevale, Novo Hamburgo, 2004. CARVALHO, R.B. Tecnologia da Informação aplicada à gestão do conhecimento. Belo Horizonte: Editora Arte, 2003. COOD, E.F., COOD S.B., SALLEY, C.T. Providing OLAP (OnLine Analuytical Processing) to user-analysts: IT Mandate, White Paper, Arbor Software Corporation, 1993. DAVENPORT, T.H.;PRUSSAK, L. Conhecimento Empresarial, como as empresas gerencial seu capital intelectual. 5 edição. Rio de Janeiro: Ed.Campos, 1988 DRUKER, PETER. Peter Drucker na Prática. Editora Campus, 2004 DRUKER, PETER. Administrando em Tempos de Mudança, Editora Thomson Learning, 1995 FIGUEIREDO, SAULO . Gestão do Conhecimento - Estratégia Competitivas para a Criação e Mobilização do Conhecimento na Empresa. QualityMark Ed., 2005 HAN, J., KAMBER, M. Data Mining: Concepts and Techniques. Morgan Kaufmann Publishers, 2001. JPivot. A JSP based OLAP, http://jpivot.sourceforge.net, December, 2007. KIMBALL, R. (1996). The Data Warehouse Tollkit. John Wiley. Mondrian. Mondrian OLAP Server, http:/ /mondrian.sourceforge.net, December, 2007. NAVATHE, S. E ELMASRI, R. Fundamentals of Database Systems, Addison Wesley, 3th edition, 2000 Pentaho. Open Source Business Intelligence, http:/ / www.pentaho.org, December, 2007.
33
THOMSEN, E. OLAP Solutions: Building Multidimensional Information Systems, 2nd ed., John Wiley & Sons, New York, NY, 2002. SERRA, LAÉRCIO. A Essência do Business Intelligence. São Paulo, Berkeley, 2002. Fonte: http://www.pentaho.com Obtido em: 19/03/2010. Fonte: http://imasters.uol.com.br/artigo/5415/bi/por_que_business_intelligence/ Quintafeira, 08 de fevereiro de 2007 às 07h35 Obtido em: 19/03/2010 Fonte: http://imasters.uol.com.br/artigo/16080/bi/bi_open_source_conhecendo_o_pentaho/ Segunda-feira, 08 de março de 2010 às 10h00 Obtido em: 19/03/2010 Fonte: http://imasters.uol.com.br/artigo/12007/bi/ampliando_a_visao_do_bi_dentro_das_empr esas/ Terça-feira, 17 de março de 2009 às 10h00 Obtido em: 19/03/2010 Fonte: http://imasters.uol.com.br/artigo/12470/bi/ampliando_a_visao_do_bi_dentro_das_empr esas_parte_2/ Quarta-feira, 22 de abril de 2009 às 10h00 Obtido em: 19/03/2010. Fonte: http://imasters.uol.com.br/artigo/6989/bi/o_bi_na_medida_certa/ Quarta-feira, 03 de outubro de 2007 às 09h00 Obtido em: 19/03/2010. Fonte: http://imasters.uol.com.br/artigo/6988/bi/o_bi_e_a_analise_do_ambiente/ Quinta-feira, 20 de setembro de 2007 às 09h52 Obtido em: 20/03/2010 Fonte: http://imasters.uol.com.br/artigo/6172/bi/garantindo_o_sucesso_do_bi/ Segundafeira, 14 de maio de 2007 às 09h25 Obtido em: 20/03/2010.
34
Fonte: http://imasters.uol.com.br/artigo/5354/bi/cresce_o_mercado_para_profissionais_de_bi/ Terça-feira, 30 de janeiro de 2007 às 15h35 Obtido em: 20/03/2010 Fonte: http://www.cni.org.br/links/links-at-gestaoconhecimento.htm Obtida em: 21/03/2010 Fonte:http://computerworld.uol.com.br/slide-shows/os-melhores-softwares-abertosaplicacoes-corporativas/paginador/pagina_7 Obtida em: 21/03/2010 Fonte: http://www.palpitedigital.com/pentaho-open-source-business-intelligence/ Obtida em: 21/03/2010 Fonte:http://www.4linux.com.br/eventos/2009/inteligencia-negocios-open-sourcecomo-criar-uma-solucao-bi-suite-pentaho.html 04/09/2009 11:53 Obtida em: 21/03/2010 Fonte: http://disciplinas.dcc.ufba.br/svn/MATB10/2009.2/Projeto%20Final/Equipes %20SIGDB/artigo-erbd/sbc-template.pdf?revision=217&pathrev=219 Obtida em: 22/03/2010 Fonte: http://projetos.inf.ufsc.br/arquivos_projetos/.../artigo_tcc_felipe.doc Obtido em: 22/03/2010 Fonte:http://wiki.softwarelivre.org/PentahoBrasil/WebChanges Obtido em: 22/03/2010 Fonte: http://jararaca.ufsm.br/websites/kantorski/download/art/cisti2008.pdf Obtido em: 22/03/2010 Fonte: http://www.ulbra.br/santamaria/eventos/jornada/2007/arquivos/Sis1191850962.pdf Obtido em: 22/03/2010 Fonte: http://www.usp.br/siicusp/Resumos/16Siicusp/5675.pdf Obtido em: 22/03/2010. Fonte: http://tconline.feevale.br/tc/files/0001_1946.doc Obtido em: 22/03/2010. Fonte:
35
http://www.linuxmagazine.com.br/images/uploads/pdf_aberto/LM_53_24_25_02_corp_ spago.pdf Obtido em: 22/03/2010. Fonte: http://www.cin.ufpe.br/~tg/2008-2/tmb.pdf Obtido em: 22/03/2010
View more...
Comments