Mineração de Dados: Conceitos e Aplicações
Short Description
Monografia sobre Mineração de Dados para o curso de Sistemas de Informação-UEG...
Description
UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO
BRUNO ALISSON ELISEU DE ALMEIDA
Mineração de Dados: Conceitos e Aplicações
Anápolis Novembro, 2011
UNIVERSIDADE ESTADUAL DE GOIÁS UNIDADE UNIVERSITÁRIA DE CIÊNCIAS EXATAS E TECNOLÓGICAS BACHARELADO EM SISTEMAS DE INFORMAÇÃO
BRUNO ALISSON ELISEU DE ALMEIDA
Mineração de Dados: Conceitos e Aplicações
Trabalho de Conclusão de Curso apresentado ao Departamento de Sistemas de Informação da Unidade Universitária de Ciências Exatas e Tecnológicas da Universidade Estadual de Goiás, como requisito parcial para obtenção do grau de Bacharel em Sistemas de Informação. Orientador: Prof. Esp. Ronaldo de Castro Del Fiaco
Anápolis Novembro, 2011
FICHA CATALOGRÁFICA ALMEIDA, Bruno Alisson Eliseu de. Mineração de Dados: Conceitos e Aplicações. Anápolis, 2011. (UEG / UnUCET, Bacharelado em Sistemas de Informação, 2011). Monografia.Universidade Estadual de Goiás, Unidade Universitária de Ciências Exatas e Tecnológicas. Departamento de Sistemas de Informação. 1. Mineração de Dados 2. Data Mining
REFERÊNCIA BIBLIOGRÁFICA ALMEIDA, Bruno Alisson Eliseu de. Mineração de Dados: Conceitos e Aplicações. Anápolis, 2011. 59 p. Monografia – Curso de Sistemas de Informação, UnUCET, Universidade Estadual de Goiás.
CESSÃO DE DIREITOS NOME DO AUTOR: Bruno Alisson Eliseu de Almeida TÍTULO DO TRABALHO: Mineração de Dados: Conceitos e Aplicações GRAU/ANO: Graduação /2011. É concedida à Universidade Estadual de Goiás permissão para reproduzir cópias deste trabalho, emprestar ou vender tais cópias para propósitos acadêmicos e científicos. O autor reserva outros direitos de publicação e nenhuma parte deste trabalho pode ser reproduzida sem a autorização por escrito do autor.
Bruno Alisson Eliseu de Almeida Rua T-65 N 360 Alta Vista Residencial Apto. 1403 Setor Bela Vista CEP 74823-370 – Goiânia – GO – Brasil
Dedico esse trabalho à minha mãe e meus irmãos que sempre me apoiaram e seguraram uma barra para que eu pudesse chegar até aqui. Dedico também esse trabalho em memória do meu pai que não me deixou desistir.
AGRADECIMENTOS Ao meu orientador Prof. Ronaldo, pelo constante apoio, incentivo, dedicação e amizade essenciais para o desenvolvimento deste trabalho e para o meu desenvolvimento como pesquisador. Aos meus colegas de turma pelo incentivo. Aos meus pais e irmãos por nunca me deixarem desistir e sem os quais não teria chegado até aqui. A todos, os meus sinceros agradecimentos.
LISTA DE ILUSTRAÇÕES Figura 1 - Pirâmide Mineração de Dados ................................................................................... 4 Figura 2 - Áreas Envolvidas na Mineração de Dados ................................................................ 6 Figura 3 - Mineração de Dados .................................................................................................. 6 Figura 4 - Árvore de Decisão ..................................................................................................... 9 Figura 5 - Redes Neurais Artificiais ......................................................................................... 10 Figura 6 - Clusterização ............................................................................................................ 11 Figura 7 - Fases KDD ............................................................................................................... 13 Figura 8 - Matriz Curricular do Curso de Sistemas de Informação.......................................... 19 Figura 9 – WEKA – Tela Inicial .............................................................................................. 28 Figura 10 – WEKA – Tela Explorer......................................................................................... 28 Figura 11 - WEKA - Arquivo ARFF Aberto ............................................................................ 29 Figura 12 - WEKA – Tela de Classificação ............................................................................. 30 Figura 13 - WEKA - Escolha do Algorítmo ............................................................................. 31 Figura 14 - WEKA - Execução do Algorítmo .......................................................................... 32 Figura 15 - Resultado WEKA .................................................................................................. 33 Figura 16 - Estrutura Árvore Weka .......................................................................................... 34 Figura 17 - Árvore WEKA ....................................................................................................... 35 Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações ............................................ 46
LISTA DE TABELAS Tabela 1 - tb_weka ................................................................................................................... 21 Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso44
LISTA DE ABREVIATURAS E SIGLAS Siglas
Descrição
UEG
Universidade Estadual de Goiás
UnUCET
Unidade Universitária de Ciências Exatas e Tecnológicas
DM
Data Mining
KDD
Knowledge Discovery in Databases
SGBD
Sistema Gerenciador de Bancos de Dados
SQL
Structure Query Language
ODBC
Open Data Base Connectivity
OLAP
On-Line Analytical Processing
FAPESP
Fundação de Amparo à Pesquiso do Estado de São Paulo
USP
Universidade de São Paulo
ICMC
Instituto de Ciências Matemáticas e de Computação
MIRVIsIM
Sigla em inglês para “Mineração, indexação, recuperação e visualização de dados em sistemas de arquivamento de imagens médicas”
SI
Sistemas de Informação
JVM
Java Virtual Machine
RESUMO A quantidade e de dados gerados no mundo atualmente é muito grande, até mesmo dentro das empresas esses dados chegam a formar grandes bases de dados. A velocidade com que a informação circula, principalmente na Internet, também é muito grande. Apenas armazenar esses dados e utilizá-los em buscas simples não representa uma vantagem para as empresas. A Mineração de Dados surge então como solução para esse problema, possibilitando que sejam encontrados padrões nos dados que possibilitem que sejam tomadas novas ações que favoreçam a empresa. O trabalho descrito nesse projeto visa produzir material teórico necessário para que sejam compreendidos os conceitos de Mineração de Dados, suas técnicas e as vantagens que pode trazer para a organização.
Palavras-chave: Mineração de Dados, KDD, dados, informação, conhecimento.
ABSTRACT
The amount of data generated and the world today is very large, even within companies that data come to form large databases. The quickness with which information circulates, especially on the Internet, is also very large. Only store data and use them in simple searches do not represent an advantage for companies. Data Mining then arises as a solution to this problem, allowing them to be found in the data standards that enable new actions are taken to promote the company. The work described in this project aims at producing theoretical material needed to be understood that the concepts of Data Mining, its techniques and the advantages it can bring to the organization.
Keywords: Data Mining, KDD, data, information, knowledge.
SUMÁRIO INTRODUÇÃO .......................................................................................................................... 1 CAPÍTULO 1 – REFERENCIAL TEÓRICO ............................................................................ 4 1.1 Mineração de Dados ......................................................................................................... 4 1.1.1 Histórico .................................................................................................................... 4 1.1.2 Definição ................................................................................................................... 5 1.1.3 Tarefas Desempenhadas ............................................................................................ 7 1.1.4 Técnicas ..................................................................................................................... 8 1.2 KDD ............................................................................................................................... 12 1.2.1 Definição ................................................................................................................. 12 1.2.2 Fases do KDD.......................................................................................................... 13 1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS .................................................. 15 1.3.1 Wal-Mart ................................................................................................................. 15 1.3.2 Vestibular PUC-RJ .................................................................................................. 15 1.3.3 Bank of America ...................................................................................................... 16 1.3.4 A.C. Milan ............................................................................................................... 16 1.3.5 FAPESP ................................................................................................................... 16 CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADÊMICO ............................................. 18 2.1 O Curso de Sistemas de Informação............................................................................... 18 2.2 Base de Dados ................................................................................................................ 20 2.3 Proposta .......................................................................................................................... 20 2.4 Etapas ............................................................................................................................. 21 2.4.1 Seleção dos Dados ................................................................................................... 21 2.4.2 Limpeza ................................................................................................................... 21 2.4.3. Transformação ........................................................................................................ 21 2.4.4 Mineração de Dados ................................................................................................ 24 2.4.4.1 O formato de arquivo ARFF ..................................................................... 24 2.4.4.2 Escolha do Algorítmo ................................................................................ 27 2.4.4.3 Utilizando o WEKA .................................................................................. 27 2.4.5 Interpretação ............................................................................................................ 33 CONCLUSÃO / RECOMENDAÇÕES ................................................................................... 38 REFERÊNCIAS ....................................................................................................................... 40 APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO DE CURSO .............................................................................................................................. 44 APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO DE TECNOLOGIA DA INFORMAÇÃO E III SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2011 ......................................................... 46
1
INTRODUÇÃO
Atualmente, o volume de dados gerados em qualquer ambiente, seja ele corporativo, governamental, científico ou até mesmo na própria Internet é incrivelmente grande. A tendência é que esse volume de dados continue a crescer, principalmente pelo crescimento da utilização de dispositivos móveis e da automação cada vez maior das atividades das empresas. As organizações vêm constantemente buscando formas de agregar valor aos seus negócios e alcançar diferenciais com relação aos seus concorrentes em um mercado que se mostra cada vez mais competitivo. Nesse contexto, tanto os dados gerados internamente pela organização quanto os dados oriundos de fontes externas podem ajudar a promover essa vantagem competitiva que a organização busca. Nesse cenário, a Mineração de Dados pode representar um importante papel para a organização. A Mineração de Dados busca encontrar padrões ou tendências dentro de uma coleção de dados. Assim sendo, a Mineração de Dados pode identificar nos dados da organização padrões que dificilmente seriam observados de outra maneira. A Mineração de Dados pode encontrar padrões e tendências na base de dados da organização ajudando a identificar padrões no comportamento dos clientes, tendências de mercado, comportamento fraudulento e etc., informações essas que permitem às organizações a tomada de decisões estratégicas que podem representar uma vantagem competitiva para a instituição. A Mineração de Dados encontra padrões em bases de dados por meio da aplicação de algorítmos, a escolha do algorítmo depende do tipo dos dados que irão ser analisados e do resultado que se espera. Os dados também precisam ser trabalhados antes da aplicação dos algorítmos. As diferentes técnicas que podem ser aplicadas na Mineração de Dados serão descritas no decorrer deste trabalho. Mas a Mineração de Dados não pode ser tratada como um processo completo e isolado, na realidade, trata-se de uma etapa de um processo maior, o KDD (Knowledge Discovery In Databases, em português, Descoberta de Conhecimento em Bancos de Dados),
2 onde são executadas etapas antes e depois da Mineração de Dados para que possa ser extraída informação de interesse da organização. A Mineração de Dados corresponde à principal etapa do KDD, onde o algorítmo escolhido é aplicado na base de dados, mas existem etapas que devem ser executadas antes que o algorítmo possa ser aplicado e essas etapas fazem parte do KDD. Os dados onde a mineração de dados será aplicada precisam ser tratados para que o algorítmo possa ser aplicado. Mesmo não sendo o alvo de estudo deste trabalho, a ligação existente entre Mineração de Dados e KDD não permite que seja tratado de um ser mencionar o outro. Assim, as etapas que compreendem o KDD também serão tratados durante o projeto mas sem que haja um aprofundamento muito grande. Para a demonstração da Mineração de Dados será utilizado o WEKA (Waikato Environment Knowledge Analysis, em português, Ambiente Waikato de Análise de Conhecimento), software que começou a ser desenvolvido em 1993 usando Java, na Universidade de Waikato na Nova Zelândia. O WEKA consiste em uma coleção de algorítmos da área de Inteligência Artificial dedicada ao aprendizado de máquinas. A justificativa em cima da qual esse trabalho se baseia é o fato de que toda organização deseja agregar cada vez mais valor ao seu negócio e assim adquirir uma vantagem sobre a concorrência, e que toda organização, independente do porte, possui uma quantidade de dados razoável armazenados que podem ser explorados e transformados em informação valiosa para a empresa. O principal objetivo do trabalho é fornecer uma material teórico sobre Mineração de Dados, expondo das técnicas utilizadas, as formas como os dados podem ser transformados e os tipos de resultados que podem ser obtidos. Para que o trabalho não fique apenas na parte teórica e a aplicação da Mineração de Dados possa ser melhor observado, será realizado um estudo de caso para que possam ser demonstrados todos os passos que compreendem a Mineração de Dados e que são necessários para transformar dados em informação. Entre os passos que serão demonstrados no estudo de caso serão feitos passos do KDD, uma vez que a Mineração de Dados só compreende a aplicação dos algorítmos e não os
3 passos que precedem a execução dos algorítmos, etapas que são feitas no KDD e que são de extrema importância e que influenciam diretamente nos resultados da Mineração de Dados. Em nenhum momento deste trabalho será dito que uma técnica é melhor ou mais eficiente que outra, visto que o objetivo não é avaliar as técnicas e sim expos quais as técnicas disponíveis e quais resultados podem ser obtidos com cada uma delas.
4
CAPÍTULO 1 – REFERENCIAL TEÓRICO
Neste capítulo será exposto a Mineração de Dados, as técnicas de Mineração de Dados, o KDD e as técnicas de KDD. As vantagens que a utilização da Mineração de Dados pode proporcionar às organizações também serão apresentadas nesse capítulo. O objetivo deste é fornecer uma base de conhecimento sobre o assunto que será abordado durante todo o projeto, para que o objeto do estudo e os resultados da pesquisa possam ser comprendidos.
1.1 Mineração de Dados Figura 1 - Pirâmide Mineração de Dados
Fonte: HALFEN, 2010
1.1.1 Histórico
O termo Mineração de Dados não é novo, começou a ser utilizado por volta de 1960, onde seu objetivo principal era a coleção de dados em computadores, feitos em fitas e discos fornecidos pela IBM e CDC. Esses dados eram armazenados para que posteriormente fosse possível fazer a restrospectiva e a distribuição estática dos dados.
5 Na década de 1980, com a aprimoramento das tecnologias de acesso dinâmico aos dados, como os SGBD’s (Sistema Gerenciador de Bancos de Dados), SQL (Structure Query Language, em português, Linguagem de Consulta Estruturada), ODBC (Open Data Base Connectivity, em português, Conectividade de Banco de Dados Livre) e bancos de dados relacionais, fornecidos principalmente por Oracle, Sybase, Infomix, IBM e Microsoft, a Mineração de Dados passou a ter como principal característica a retrospectiva e a distribuição dinâmica dos dados a nível de registro. Com o surgimento do data warehousing e do suporte à decisão, OLAP (On-Line Analytical Processing, ou em português, Processamento Analítico Online) e bancos de dados multidimensionais na década de 1990, tendo como principais fornecedores Pilot, Comshare, Arbor, Cognos e Microstrategy, possibilitaram uma nova evolução para a Mineração de Dados que passou a permitir a retrospectiva e a distribuição dinâmica dos dados em múltiplos níveis. Atualmente a Mineração de Dados é utilizada comercialmente na tentativa de prever resultados futuros através da análise dos dados, dispondo de algorítmos avançados, computadores multiprocessados e banco de dados massivos, a Mineração de Dados tem como principal objetivo a prospectiva e a distribuição de informação ativa. Os principais fornecedores são Pilot, Lockheed, IBM e SGI.
1.1.2 Definição
Mineração de Dados é o termo usado para generalizar um conjunto de técnicas utilizadas para analisar e extrair informações de bases de dados, encontrando padrões nos dados que possam ser úteis para a organização. Praticamente não existe nenhuma área de conhecimento em que as técnicas de Mineração de Dados não possam ser aplicadas. A Mineração de Dados traz consigo uma série de idéias e técnicas para uma grande variedade de campos. A diferença entre as áreas de conhecimento está nos termos utilizados, mas todas usam diferentes técnicas para chegar ao mesmo resultado, a informação.
6 Figura 2 - Áreas Envolvidas na Mineração de Dados
Fonte: (VIANA)
Figura 3 - Mineração de Dados
Fonte: O autor, adaptada de (MARTIN).
O aumento das transações comerciais por meio eletrônico, em especial as feitas pela Internet, possibilitou às empresas armazenarem em suas bases de dados registros contendo preciosos dados sobre seus clientes. Os produtos adquiridos, e até mesmo os que foram apenas consultados, aliados aos dados exigidos no momento do cadastro formam o perfil do cliente.
7 O conhecimento do perfil do cliente possibilita oferecer um serviço mais personalizado. Os diversos sites de compra online se utilizam de técnicas de Mineração de Dados, por exemplo, no momento do cadastro o cliente determina suas áreas de interesse, a partir desse instante os emails enviados a esse cliente passam a conter apenas ofertas voltadas para suas áreas de interesse. Outro exemplo acontece durante a própria navegação no site, ao buscar um produto são mostradas sugestões de produtos que também foram adquiridos por compradores anteriores juntamente com o produto buscado. Mesmo dispondo de ferramentas para automatizar o processo de Mineração de Dados, a participação de um profissional é indispensável uma vez que algumas das tarefas devem ser feitas manualmente, como a seleção dos dados ou a criação das regras, podendo influenciar nos resultados obtidos.
1.1.3 Tarefas Desempenhadas
De acordo com a necessidade a Mineração de Dados pode realizar diferentes tarefas sobre os dados com a finalidade de melhor organizá-los.
Associação: Consiste em determinar quais fatos ou objetos tendem a
ocorrer num mesmo evento ou nume mesma transação. Exemplo: quais produtos costumam ser adquiridos numa mesma compra, sistomas parecidos entre pacientes.
Classificação: Consiste em construir um modelo que possa ser
aplicado a dados não classificados visando categorizar os objetos em classes. Exemplo: classificar pedidos de crédito; tratamento de pacientes.
Predição/Previsão: A predição é usada para definir um provável
valor para uma ou mais variáveis. A previsão é utilizada quando se tem séries temporais (dados organizados cronologicamente). Exemplo: estimar o tempo de vida de um paciente; estimar a renda total de uma família; demanda de consumidores para um novo produto.
Agrupamentos ou Clusterização: É um processo de partição, que
visa dividir uma população em subgrupos mais homogêneos entre si,
8 tornando a visualização por parte do usuário mais simples e compreensível. É diferente da tarefa de classificação, pois não existem classes predefinidas, os objetos são agrupados de acordo com a similaridade. Exemplo: agrupar clientes por região; agrupar clientes com comportamento de compra similar.
1.1.4 Técnicas
Não existe uma técnica que resolva todos os problemas de Mineração de Dados. Existem diferentes técnicas para diferentes propósitos, a escolha da técnica a ser empregada está relacionada com o tipo de dado no que será aplicada.
Árvores de Decisão Um problema complexo é dividido em problemas mais simples de serem resolvidos. É um modelo preditivo, visualizado em forma de árvore. Cada ramo da árvore é visto como um problema mais simples enquanto cada nó é visto como um subconjunto dos dados que resolvem esse problema.
9 Figura 4 - Árvore de Decisão
Fonte: O autor, adaptada de (CARACIOLO, 2009). No exemplo acima, é mostrada uma árvore de decisão propícia a uma ação de marketing, baseando-se na idade, na renda e no estado civil do cliente é determinado se ele compraria ou não o produto. A partir de uma árvore de decisão é possível derivar regras que podem aplicadas aos dados. No caso do exemplo da Figura 4, é possível derivar a seguinte regra: caso o cliente tenha idade entre 18 e 35 anos ele não compra o produto, por outro lado, se ele tiver idade entre 36 e 55 anos e for solteiro ele comprará o produto.
Regras de Indução A técnica de regras de indução é altamente automatizada e, possivelmente, é a melhor técnica de Mineração de Dados para expor todas as possibilidades de padrões existentes em um banco de dados (BERSON et. al., 1999). A regra de indução consiste em uma expressão condicional do tipo: se então
10 Após a formação das regras, constrói-se uma tabela com o percentual de precisão (frequência com que a regra está correta) e cobertura (com que frequência pode ser usada). Quanto maior o percentual, melhor a regra.
Redes Neurais Artificiais As redes neurais artificiais são técnicas que procuram reproduzir de maneira simplificada as conexões do sitema biológico neural. Estruturalmente, consistem em um conjunto de elementos interconectados, chamados neurônios, organizados em camadas que aprendem pela modificação de suas conexões. Tipicamente, tem-se uma camada de entrada ligada a uma ou mais camadas intermediárias que são ligadas a uma camada de saída (BERRY e LINOFF, 1997). A partir de um conjunto de treinamento, procura-se aprender padrões gerais que possam ser aplicados à classificação ou predição de dados. A função de cada neurônio é avaliar valores de entrada, calcular o total para valores de entrada combinados, comparar com um total limiar e determinar o valor de saída.
Figura 5 - Redes Neurais Artificiais
Fonte: (CARVALHO)
11 Uma rede neural é formada por uma ou mais camadas de entrada, n camadas intermediárias(dependendo da complexidade do problema e ser resolvido) e apenas uma camada de saída. A função básica de cada neurônio é avaliar os dados de entrada e calcular um valor para saída. As operações realizadas por cada neurônio são bastante simples, mas a conexão entre os neurônios é capaz de criar procedimentos complexos.
Análise de Regressão Busca explicar uma ou várias variáveis de interesse em função de outras. Depois de ser construído o modelo (que é uma equação matemática), ele pode ser usado para realizar predições ou calcular probabilidades. Possui quatro passos: seleção das variáveis, diagnóstico para verificar se o modelo é adequado, aplicação de medidas remediadoras para quando as condições do modelo não são satisfeitas e validação do modelo.
Clusterização Também chamada de segmentação dos dados ou análise de agrupamentos, consistem em agrupar dados em subconjuntos, esses subconjuntos são chamados clusters. Os objetos dentro de um mesmo cluster são mais semelhantes entre si do que qualquer objeto dentro de outro cluster. O algorítmo de clusterização identifica as relações entre os dados e gera uma série de clusters baseando-se nelas.
Figura 6 - Clusterização
Fonte: Microsoft
12
1.2 KDD Falar sobre Mineração de Dados sem mencionar o KDD é impossível, uma vez que estão intimamente ligados, a Mineração de Dados não é um processo isolado e é a principal fase do KDD. A diferença entre os dois é bem sensível, sendo tratados em alguns trabalhos como se fossem o mesmo processo, quando na verdade o KDD é um processo de transformação dos dados em informação e a Mineração de Dados consiste em encontrar padrões dentro de uma base de dados.
1.2.1 Definição
Segundo FAYYAD et. al., KDD é “o processo não trivial, de extração de informações implícitas, previamente desconhecidas e potencialmente úteis, a partir dos dados armazenados em um banco de dados”. Resumindo, KDD é o processo de extração de informações de bases de dados que possam ser úteis aos usuários e que são mais difíceis de obter sem que os dados armazenados sejam trabalhados. O KDD compreende todo o ciclo que o dado percorre até virar conhecimento ou informação. O processo é interativo e iterativo. Interativo porque o usuário pode intervir e controlar o curso das atividades, iterativo por ser uma sequência finita de operações onde o resultado de cada uma é dependente do resultado das que a precedem.
13 Figura 7 - Fases KDD
Fonte: O autor, adaptada de (FAYYAD et al. (1996)).
1.2.2 Fases do KDD
Seleção Esta é a primeira fase do processo. É escolho do conjunto de dados, pertencentes a um domínio, que farão partes da análise. A escolha dos dados fica a cargo de um especialista do domínio. A complexidade do processo se dá pelo fato de os dados poderem vir de fontes diferentes e em formatos diferentes. Possui impacto significante sobre a qualidade dos resultados do processo, uma vez que toda a análise será feita sobre os dados selecionados nesse passo.
Pré-Processamento e Limpeza Nesta fase são realizadas tarefas que eliminem dados redundantes e inconsistentes, recuperem dados incompletos e avaliem possíveis dados discrepantes ao domínio (outliners). O auxílio do especialista do domínio é fundamental. São também utilizados métodos de redução ou transformação para diminuir o número de variáveis envolvidas no processo, visando melhorar o desempenho do algorítmo de análise.
Dados Ausentes (Missing Values): Um problema comum nessa fase
é a ausência de valores para determinadas variáveis, ou seja, registros com dados incompletos, seja por falha na seleção dos dados ou revisão. O tratamento destes casos se faz necessário para que os resultados da
14 Mineração sejam confiáveis. Existem três alternativas de solução: imputação, fazer a previsão dos dados ausentes e completá-los individualmente; substituir o valor faltante pela média aritmética da variável; excluir o registro.
Dados Discrepantes (Outliners): São dados que possuem valores
extremos, atípicos ou com características muito distintas dos demais registros. Normalmente são descartados da amostra, porém só deve ocorrer quando o dado representar erro de observação de medida ou problema similar. O dado deve ser analisado cuidadosamente antes da exclusão, pois embora seja atípico, pode representar um valor verdadeiro, apontando um comportamento não usual, uma tendência ou ação fraudulenta.
Dados Derivados: Variáveis de uma população podem apresentar
relacionamentos entre si. Se houver a necessidade de dados que não estejam disponíveis, é possivel obtê-los da transformação ou combinação de outros.
Transformação Os dados necessitam ser armazenados e formatados adequadamente para que os algorítmos possam ser aplicados. É como encontrar computadores rodando diferentes SO’s (Sistemas Operacionas) e diferentes SGBD’s. Estes dados devem ser agrupados em um único repositório.
Mineração de Dados Explicações detalhadas deste item se encontram no item 3.1 deste capítulo, uma vez que este é o assunto principal deste trabalho.
Interpretação/Avaliação Esta fase deve ser feita em conjunto com um ou mais especialistas no assunto. O conhecimento adquirido através da Mineração de Dados deve ser interpretado e avaliado para que o resultado final seja obtido.
15 Caso o resultado não seja satisfatório, o processo pode retornar a qualquer uma das fases anteriores, o mais comum é modificar o conjunto de dados inicial ou trocar o algorítmo de Mineração de Dados.
1.3 APLICABILIDADE DA MINERAÇÃO DE DADOS
Neste capítulo serão apresentados alguns exemplos reais da aplicação das técnicas de Mineração de Dados em diferentes organizações e em diferentes áreas de conhecimento para explicitando como a Mineração de Dados pode favorecer os negócios da empresa.
1.3.1 Wal-Mart Este é um dos mais famosos exemplos de Mineração de Dados. A rede americana de hipermercados Wal-Mart identificou que a venda de fraldas e cervejas aumentava nas noites de sexta-feira e traçou um perfil dos clientes que possuiam esse comportamento. Homens entre 25 e 30 anos, casados, que estavam voltando do trabalho na sexta-feira passavam no supermercado para comprar fraldas e acabavam comprando cerveja também. A ação tomada pela empresa foi relocar os produtos de modo que fraldas e cervejas passassem a ficar mais próximas e o resultado disso foi um aumento de 30% nas vendas.
1.3.2 Vestibular PUC-RJ
A PUC-RJ utilizou a Mineração de Dados para analisar os dados de seu vestibular e encontrou a seguinte regra: se o candidato for do sexo feminino, trabalha e conseguiu boas notas no vestibular ele não efetuava a matrícula A justificativa encontrada para esse padrão de comportamento dos candidatos é que se uma mulher em idade de vestibular trabalha é por necessidade e nesse caso provavelmente fez inscrição em universidades públicas também. Se a candidata obteve boas
16 notas é também provável que tenho sido aprovada na instituição pública para a qual se inscreveu e portanto não efetuará sua matrícula na PUC-RJ. Com algumas excessões, como: candidatas que residiam próximo à unidade, pessoas mais velhas, de alto poder executivo, que voltaram a estudar por outro motivo que não seja obter uma profissão, etc., essa regra é obedecida pela maioria dos candidatos.
1.3.3 Bank of America
O Bank of America utilizou técnicas de Mineração de Dados para selecionar entre seus clientes aqueles que apresentavam o menor risco de inadimplência em empréstimos. A partir dos resultados encontrados enviou cartas oferencendo limites de crédito aos seus clientes que possuiam filhos com idade entre 18 e 21 anos e que precisariam de dinheiro para comprar uma casa, o primeiro carro ou financiar a faculdade dos filhos. Como resultado dessa ação o banco teve um lucro de U$ 30 milhões em 3 anos.
1.3.4 A.C. Milan
O clube de futebol italiano, Milan, iniciou em 2002 um projeto piloto que utilizava software para prever lesões em jogadores, uma vez que os jogadores representa o maior investimento do clube poder evitar tais lesões ou reduzir a gravidade delas e, consequentemente, tempo de recuperação dos atletas economizaria milhões de dólares aos cofres do clube. Através de um software desenvolvido pela Computer Associates, foram coletados dados nos treinamentos da equipe durante um período de tempo, permitindo que fossem feitas previsões médicas acumuladas de cada jogador possibilitando um melhor monitoramento do risco de lesões dos atletas.
1.3.5 FAPESP
17 Um projeto de pesquisa apoiado pela FAPESP gerou o protótipo de uma ferramenta de diagnósticos por imagem. O MIRVIsIM foi desenvolvido por um grupo coordenado pela professora Agma Juci Machado Traina, do ICMC da USP, em São Carlos. É comum o médico se lembrar de ter visto uma imagem parecida mas não se lembrar do diagnóstico do caso e analisar casos anteriores levaria muito tempo. A função do software é compara a imagem a ser analisada pelo radiologista com um banco de dados de outras já laudadas. Cor, posição e formato dos elementos retratados são utilizados como elementos a serem comparados. O especialista então recebe uma série de sugestões de diagnósticos levantados através da comparação das imagens.
18
CAPÍTULO 2 – RELAÇÃO ENTRE A MÉDIA FINAL OBTIDAS NAS DISCIPLINAS DO CURSO DE SI DA UEG E O DESEMPENHO ACADÊMICO Neste capítulo será apresentado um exemplo da utilização da Mineração de Dados para obtenção de informação a partir de uma base de dados, descrevendos os passos utilizados e o resultado final.
2.1 O Curso de Sistemas de Informação O curso de Bacharelado em Sistemas de Informação começou a ser ofertado na UnUCET em fevereiro de 2002, em substituição ao curso de Tecnologia em Processamento de Dados, uma vez que o curso de Tecnologia em Processamento de Dados, criado em 1985, necessitava de algumas alterações e atualizações e o Ministério da Educação já havia feito orientações para que os cursos de natureza técnica fossem substituídos por outros da área de Computação e Informática. O objetivo do curso é formar profissionais para o desenvolvimento, implantação e gestão de sistemas de informação visando atender as demandas das organizações e da sociedade, utilizando as modernas técnicas da Tecnologia da Informação. A matriz curricular original do curso, de 2002, foi alterada em 2009, mas para este estudo ainda será utilizada a matriz curricular de 2002, visto que os dados utilizados compreendem o período de 2002 a 2007 e a nova matriz curricular só começou a entrar em vigar em 2009 e somente na 1ª série do curso.
19 Figura 8 - Matriz Curricular do Curso de Sistemas de Informação
Da acordo com a matriz curricular de 2002 e que será utilizada neste estudo, o curso possui um tempo de integralização mínima de 4 e máximo de 7 anos, com um total de 3.280 horas/aula, divididas no período noturno e com aulas aos sábados pela manhã nos 3 primeiros anos. A forma de ingresso é anual e são oferecidas um total de 40 vagas. Além das horas/aula que são cumpridas na universidade, o aluno também deve cumprir um total de 150 horas de atividades complementares, que podem incluir palestras, seminários, cursos, etc., como atividades para complementar e expandir os temas abordados em sala de aula e 360 horas de estágio supervisionado como forma de observar e aprender como é o dia a dia do profissional e como o conteúdo aprendido em sala pode ser aplicado na realidade.
20 A média necessária para que o aluno seja considerado aprovado em qualquer disciplina é 7 e o aluno também precisa ter o mínimo de 75% de presença na disciplina. A média final de cada disciplina é obtida da média aritmérica das notas obtidas nos 4 bimestres que compõem o ano letivo. Média = (nota 1º bimestre + nota 2º bimestre + nota 3º bimestre + nota 4º bimestre) / 4 Caso a média obtida pelo aluno na disciplina seja maior ou igual a 7, ele está aprovado na disciplina. Se o aluno obtiver média inferior a 3 na disciplina ele está reprovado. Caso a nota seja inferior a 7 e maior ou igual a 3, o aluno faz mais uma prova para obtenção de uma nova média. Média final = (média obtida + nota prova final) / 2 Caso a média obtida na prova final seja superior a 5 o alunos está aprovado, caso contrário o aluno está reprovado na disciplina. Em todos os casos o aluno precisa, obrigatoriamente, ter frequentado um mínimo de 75% das horas/aula ministradas, caso contrário estará reprovado independentemente da média que obtiver na disciplina.
2.2 Base de Dados A base de dados a ser utilizada é corresponde ao dados dos alunos do curso de Sistemas de Informação da UEG dos anos de 2002 a 2011.
2.3 Proposta
As propostas deste estudo de caso são estabelecer uma relação entre a média final obtidas nas disciplinas que compõem a grade curricular do curso e o desempenho acadêmico do aluno no decorrer do curso. A proposta pretende descobrir se as notas obtidas pelos alunos em certas disciplinas influencia no desempenho do aluno no decorrer do curso, ou seja, se esses alunos conseguiram concluir o curso no tempo mínimo exigido (4 anos).
21
2.4 Etapas
2.4.1 Seleção dos Dados
Primeiro foi feita a seleção dos dados que serão trabalhados na Mineração de Dados. Neste momento foi escolhida a base de dados de alunos do curso de SI dos anos de 2002 a 2007. A escolha da base de dados foi aleatória, já o período foi escolhido levando-se em conta as turmas que a primeira turma que ingressou (2002) e a última turma que se formou na universidade (2007), considerando-se que o curso possui 4 anos de duração mínima. A base de dados se encontra no formato ACCDB do Microsoft Access 2007.
2.4.2 Limpeza
Nesta etapa foi feita a limpeza da base de dados, retirando registros que estejam com dados ausentes.
2.4.3. Transformação
A base de dados precisa ser trabalhada antes que o algorítmo de mineração de dados possa ser aplicado. Neste momento, foram retirados dados que não são interessentes para a mineração de dados, como, endereço, cidade, estado, telefone, etc., e deixando apenas os dados que seriam relevantes ao estudo: notas das disciplinas, se o aluno completou o curso “pleno” (4 anos, sem reprovação em nenhuma disciplina). Os dados da base de dados também precisaram ser formatados para que não houvesse inconsistência nos dados. A base de dados em que será aplicada o algorítmo de Mineração de Dados ficou com a seguinte estrutura:
22 Tabela 1 - tb_weka Campo
Tipo
Descrição
D1
Numércico
Média final da disciplina de “Álgebra”
D2
Numérico
Média final da disciplina de “Análise de Sistemas”
D3
Numérico
Média final da disciplina de “Arquitetura de Computadores”
D4
Numérico
Média final da disciplina de “Banco de Dados”
D5
Numérico
Média final da disciplina de “Cálculo Diferencial e Integral”
D6
Numérico
Média final da disciplina de “Conceitos de Inteligência Artificial”
D7
Numérico
Média
final
“Contabilidade
da e
disciplina Economia
de para
Computação” D8
Numérico
Média final da disciplina de “Direito e Ética em Informática”
D9
Numérico
Média final da disciplina de “Eletricidade e Lógica Digital”
D10
Numérico
Média
final
da
disciplina
de
“Empreendedorismo em Informática” D11
Numérico
Média final da disciplina de “Engenharia de Software”
D12
Numérico
Média final da disciplina de “Inglês Instrumental”
D13
Numérico
Média final da disciplina de “Introdução à Computação”
23 D14
Numérico
Média final da disciplina de “Linguagem e Técnicas de Programação”
D15
Numérico
Média final da disciplina de “Metodologia da Pesquisa Científica”
D16
Numérico
Média final da disciplina de “Novas Aplicações Em Sistemas de Informação”
D17
Numérico
Média
final
da
disciplina
de
“O
Profissional da Informática e a Sociedade” D18
Numérico
Média final da disciplina de “Organização, Sistemas e Métodos”
D19
Numérico
Média final da disciplina de “Planejamento e Gestão de Sistemas de Informação”
D20
Numérico
Média final da disciplina de “Princípios de Sistemas de Informação e Teoria da Computação”
D21
Numérico
Média
final
da
disciplina
de
“Probabilidade e Estatística” D22
Numérico
Média final da disciplina de “Programação I”
D23
Numérico
Média final da disciplina de “Programação II”
D24
Numérico
Média final da disciplina de “Projeto de Graduação I”
D25
Numérico
Média final da disciplina de “Projeto de Graduação II”
D26
Numérico
Média final da disciplina de “Redes de Computadores”
Pleno
Texto, “S/N”
Indica se o aluno concluiu a universidade
24 no tempo mínimo(4 anos, sem reprovação) Fonte: O autor
2.4.4 Mineração de Dados
Como descrito anteriormente, para a demonstração do algorítmo de Mineração de Dados será utilizado o WEKA, mas o WEKA não é capaz de aplicar o algorítmo diretamente sobre uma base de dados do Microsoft Access, como é o caso da base que estamos utilizando. Portanto a tabela “tb_weka” precisa ser exportada para um arquivo no formato ARFF para que assim possa ser feita a leitura através do WEKA e o algorítmo seja aplicado.
2.4.4.1 O formato de arquivo ARFF O formato de arquivo ARFF (Attribute-Relation File Format), desenvolvido pela Machine Learning Project no Departamento de Ciência da Computação da Universidade de Waikato (mesma desenvolvedora do WEKA) para uso no WEKA, é um arquivo de texto ASCII que descreve uma lista de instâncias compartilhando um conjunto de atributos. Por padrão, todo arquivo ARFF é dividido em 2 partes distintas, o cabeçalho e os dados:
Cabeçalho: o cabeçalho do arquivo ARFF contém o nome da relação e a declaração dos atributos. o
O nome da relação é definido na primeira linha do arquivo através da declaração “@relation”
o
A declaração de atributos deve ser individualmente para cada atributo através da declaração “@attribute” e define o nome e tipo do atributo.
Os tipos de dados suportados pelo WEKA são 4, numérico, nominal, string e data:
Numérico: os atributos podem ser numéros reais ou inteiros
25
Nominal:
são
definidos
através
de
uma
especificação nominal dos valores que o atributo pode assumir. Exemplo: {YES,NO}, {Y,N}, {A,B}
String: são atributos que contém texto.
Data: são atributos que representam uma data, utilizado o padrão ISO-8601 de formato de data e hora combinadas em uma string “yyyy-MMdd'T'HH:mm:ss”
Os dados do arquivo são definidos através da declaração “@data”, onde cada instância é representada em uma única linha e os atributos são separados por vírgula. Os valores que estiverem ausentes serão representados por um único ponto de interrogação (?).
Todos os valores de atributos que possuirem espaços devem estar entre aspas duplas (“) e para colocar comentários no arquivos utiliza-se a caracter percentagem (%) no início da linha. Assim sendo, o arquivo ARFF gerado ficou da seguinte forma: - Declaração da relação: “@relation alunos” - Declaração dos atributos: @attribute D1 real @attribute D2 real @attribute D3 real @attribute D4 real @attribute D5 real @attribute D6 real @attribute D7 real @attribute D8 real @attribute D9 real
26 @attribute D10 real @attribute D11 real @attribute D12 real @attribute D13 real @attribute D14 real @attribute D15 real @attribute D16 real @attribute D17 real @attribute D18 real @attribute D19 real @attribute D20 real @attribute D21 real @attribute D22 real @attribute D23 real @attribute D24 real @attribute D25 real @attribute D26 real @attribute Pleno {S,N}” - Dados “@data” 6.6,6.7,5.3,6.1,7.25,7.3,7.4,7.1,7,7.5,5.1,7,7.7,7.7,7.2,8.1,7.2,7.9,7.5,9,7,8.15,7.2,7 .2,8.1,7.7,S ...” Este é o exemplo de uma das várias linhas que a declaração “@data” contém.
27
2.4.4.2 Escolha do Algorítmo Para a análise do arquivo ARFF foi escolhido o método de classificação e o algorítmo J48, em decorrência do escopo do trabalho e dos valores que compõem o arquivo ARFF. O método de classificação foi escolhido por atender as propostas feitas no início deste capítulo, ou seja, com o método de classificação pode-se prever se as notas em determinadas disciplinas influenciam podem dizer se o aluno concluirá o curso pleno ou não. O algorítmo J48 foi escolhido devido ao tipo dos dados que serão analisados. Segue abaixo uma explicação do funcionamento do algorítmo O algorítmo J48 constroi uma árvore de decisão. A forma de construção da árvore usa a abordagem “top-down”, em que o atibuto mais generalizado é considerado a raiz da árvore. A seguir, o próximo nó da árvore será o segundo atributo mais generalizado, e assim por diante até que seja encontrado o nó folha, que representa o atributo alvo.
2.4.4.3 Utilizando o WEKA A
última
versão
do
WEKA
pode
ser
obtida
em
http://www.cs.waikato.ac.nz/ml/weka/, lembrando que por ter sido desenvolvido em Java, o WEKA precisa da JVM (Java Virtual Machine) instalada no computador onde será instalado. Atualmente o WEKA utiliza a JVM 1.6 e para evitar problemas durante a execução do programa, sugiro que seja escolhido o download do instalador que já venha com a JVM.
28 Figura 9 – WEKA – Tela Inicial
Fonte: O autor
Escolha a opção “Explorer”, e será apresentada a seguinte tela:
Figura 10 – WEKA – Tela Explorer
29 Fonte: O autor
Selecione a opção “Open file...” e navegue até a pasta onde se encontra o arquivo ARFF que deseja analisar. Após o arquivo ARFF ser aberto, algumas informações do arquivo já poderão ser observadas, como a quantidade de instâncias, o número de atributos, e informações sobre os próprios atributos individualmente como tipo de dado e os valores que esses atributos assumem.
Figura 11 - WEKA - Arquivo ARFF Aberto
Fonte: O autor
A seguir clique na guia “Classify” e escolha o algorítmo que será aplicado, neste caso o algorítmo escolhido foi o J48 que se encontra na guia “trees”.
30 Figura 12 - WEKA – Tela de Classificação
Fonte: O autor
31 Figura 13 - WEKA - Escolha do Algorítmo
Fonte: O autor
O passo seguinte é escolher a opção “Use training set” em “Test options”, escolher qual o atributo será o nó folha da árvore e clicar em “Start” para que o WEKA começa a análise do arquivo ARFF e crie a árvore.
32 Figura 14 - WEKA - Execução do Algorítmo
Fonte: O autor
33
2.4.5 Interpretação
Figura 15 - Resultado WEKA
Após a execução do algorítmo J48 no WEKA foi possível obter as seguintes informações que são importantes para a proposta que foi feita no início do capítulo:
Número total de instâncias: 133;
Número
de
instâncias
classificadas
corretamente:
98
ou,
incorretamente:
35
ou,
aproximadamente, 74%;
Número
de
instâncias
aproximadamente, 26%;
classificadas
34
O fator de precisão para classe pleno (“S”) foi de 0,775 ou 77,5%; e o fator de precisão para a classe não-pleno (“N”) foi re 0,679 ou 67,9%
A Matriz de Confusão (Confusion Matrix): o Apresentou 94 instâncias classificadas corretamente, sendo 62 classificadas como “S” (aluno pleno) e 36 como “N” (aluno com reprovação em alguma disciplina); o Apresentou 35 instâncias classificadas incorretamente, sendo 17 falsos positivos para “S” e 18 falsos positivos para “N”, ou seja, 17 instâncias foram classificadas com “S” quando deveriam ser “N” e 18 instâncias foram classificadas com “N” quando deveriam ser “S”;
Figura 16 - Estrutura Árvore Weka
35
Figura 17 - Árvore WEKA
A árvore gerada após a execução do algorítmo possui 11 folhas, tamanho 21 e teve como raiz a disciplina D2 (Análise de Sistemas). Ao fazer a análise da árvore gerada, pudemos que os alunos que tiveram nota menor ou igual a 5,09 não concluíram o curso plenos, onde 25 alunos foram classificados corretamente como “N” e 1 foi classificado incorretamente. Em D7 (Contabilidade e Economia para Computação), os alunos que obtiveram nota menor ou igual a 6,7 e obtiveram nota menor ou igual a 8,35 na disciplina D8 (Direito e Ética em Informática) não concluíram o curso plenos (11 alunos), enquanto os que obtiveram nota menor ou igual a 6,7 em D7 e nota maior que 8,35 em D8 concluiram o curso pleno, onde 3 alunos foram classificados corretamente como “S” e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3 (Arquitetura de Computadores) e maior que 8,85 em D9 (Eletricidade e Lógica Digital) não concluíram o curso plenos (6 alunos); enquanto que os alunos que obtiveram nota maior ou igual a 8,85 em D9 e maior ou igual a 7,8 em D4 (Banco de Dados) concluíram o curso plenos (4 alunos) e os que tiveram nota menor que 7,8 em D4 não concluíram o curso plenos (2 alunos). Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e menor ou igual a 7,7 em D16 (Novas Aplicações em Sistemas de Informação) não concluíram o curso pleno (4 alunos), enquanto os
36 que tiveram nota maior que 7,7 em D16 concluíram o curso pleno, onde 5 alunos foram classificados corretamente como “S” e 1 foi classificado incorretamente. Os alunos que obtiveram nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8 concluíram o curso plenos (50 alunos), os que tiveram nota menor ou igual a 8,4 em D8 e menor ou igual a que 9,23 em D3 também concluíram o curso plenos, onde 20 foram classificados como “S” e 2 foram classificados incorretamente; enquanto os que obtiveram nota maior que 9,23 em D3 não concluíram o curso plenos. Resumindo, de acordo com a execução do algorítmo, para que o alunos conclua o curso pleno ele deve atender umas das seguintes regras:
Nota maior que 5,09 em D2, menor ou igual a 6,7 em D7 e maior que 8,35 em D8;
Nota maior que 5,09 em D2, maior que 6,7 em D7, menor ou igual a 5,6 em D3, menor ou igual a 8,85 em D9 e menor ou igual a 7,8 em D4;
Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, menor ou igual a 7,13 em D4 e maior que 7,7 em D16, neste caso houve 1 falso positivo;
Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4 e maior que 8,4 em D8;
Nota maior que 5,09 em D2, maior que 6,7 em D7, maior que 5,6 em D3, maior que 7,13 em D4, menor ou igual a 8,4 em D8 e menor ou igual a 9,23 em D3, neste caso houveram 2 falsos positivos.
Houveram também 1 falsos negativos em:
Nota menor ou igual a 5,09 em D2 apresentou 1 falso negativo;
Com a aplicação da Mineração de Dados foi possível identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso
37 pleno, neste caso se ele obtiver uma nota menor ou igual a 5,09 e mesmo assim ainda apresenta um falso negativo.
38
CONCLUSÃO / RECOMENDAÇÕES O volume de dados gerados dentro das organizações atualmente é muito grande e a tendência é que continue a crescer, tendo em vista a automação cada vez maior das tarefas dentro das empresas. Esses dados podem representar uma vantagem competitiva para a empresa, desde que eles sejam analisados de forma correta e transformados em informação valiosa para a empresa. A mineração de dados é uma ferramenta que a empresa pode utilizar para adquirir informações que podem ser de grande utilidade na tomada de decisões táticas e estratégicas possibilitando uma vantagem sobre seus concorrentes e agregar valor sobre seus negócios. As técnicas da Mineração de Dados podem ser aplicadas a diferentes tipos de dados, resultando em diferentes resultados, portanto cabe ao responsável escolher qual técnicas se aplica melhor aos dados que ele possui e quais os resultados esperados para que assim a técnicas que melhor resolva essas questões possa ser aplicada e os resultados sejam satisfatórios. A aplicação do KDD é imprescindível para o sucesso da Mineração de Dados, uma vez que a Mineração de Dados é uma etapa do KDD e altamente dependente das etapas que a precedem e que são fundamentais e influenciam diretamente o resultado da Mineração de Dados. Durante a aplicação das técnicas de Mineração de Dados na base utilizada no estudo, foi possível perceber como a Mineração de Dados, através de cada uma de suas etapas, vai transformando uma coleção de dados em informação útil. Com a aplicação da Mineração de Dados foi possível identificar que as notas obtidas nas disciplinas D2, D3, D4, D7, D8, D9 e D16 podem determinar se aluno concluirá o curso pleno ou não, enquanto as notas obtidas nas outras disciplinas não influem. Nenhuma das disciplinas influencia diretamente se o alunos concluirá o curso pleno ou não, apenas a nota da disciplina D2 influencia diretamente mas para dizer que o aluno não concluirá o curso pleno. Um grande problema encontrado durante o desenvolvimento do trabalho foi na utilização do software WEKA no momento da aplicação do algorítmo no arquivo ARFF que
39 havia sido gerado, fazendo com que o resultado da execução do algorítmo não correspondesse ao resultado esperado, foram necessários inúmeros testes e alterações nos tipos dados e na quantidade de atributos para que o problema fosse resolvido. Como sugestão para os próximos trabalhos sobre esse tema, é recomendado um estudo mais aprofundado sobre o software WEKA e uma abrangência maior dos diferentes algorítmos de mineração de dados e seus diferentes resultados.
40
REFERÊNCIAS
AMO, Sandra de. Técnicas de Mineração de Dados. Universidade Federal de Uberlândia, Faculdade
de
Computação,
2004.
Disponível
em:
http://www.deamo.prof.ufu.br/arquivos/JAI-cap5.pdf. Acesso em: 25 mar. 2011.
Attribute-Relation
File
Format
(ARFF).
2008.
Disponível
em:
http://www.cs.waikato.ac.nz/ml/weka/arff.html. Acesso em: 20 set. 2011.
BOZZA, Daniel; KONO, Frank; TAVARES, Claudio. Descoberta de Conhecimento Aplicado a Dados Eleitorais. Revista Gestão e Conhecimento / Faculdade de Ciências Sociais Aplicadas do Paraná e Faculdade de Ciência e Tecnologia do Paraná. Curitiba: Faculdades
Facet,
2007.
94
págs.
Disponível
em:
http://gc.facet.br/artigos/resumo.php?artigo=34. Acesso em: 20 set. 2011.
CARACIOLO, Marcel Pinheiro. [Artigo] Introdução a árvores de decisão para a classificação
e
Mineração
de
Dados.
2009.
Disponível
em:
http://aimotion.blogspot.com/2009/04/artigo-introducao-arvores-de-decisao.html. Acesso em: 4 jul. 2011.
CARVALHO, André Ponce de Leon F. de. Redes Neurais Artificiais. Disponível em: http://www.icmc.usp.br/~andre/research/neural/. Acesso em: 16 mai. 2011.
CHIU, Susan; TAVELLA, Domingo. Data Mining and Marketing Intelligence for Optimal Marketing Returns. Elsevier; 2008. 295 p.
41 CÔRTES, Sérgio da Costa; LIFSCHITZ, Sérgio; PORCARO, Rosa Maria. Mineração de Dados – Funcionalidades, Técnicas e Abordagens. PUC-Rio, 2002. Disponível em: http://www.dbd.puc-rio.br/depto_informatica/02_10_cortes.pdf. Acesso em: 30 mar. 2011.
CPBR10
–
Software
Livre.
Oficina:
Data
Mining
WEKA.
Disponível
em:
http://www.youtube.com/watch?v=sDD8nsZ1fQo. Acesso em: 29 dez. 2010.
HALFEN,
Idel.
Mineração
de
Dados.
2010.
Disponível
em:
http://halfen-
mktsport.blogspot.com/2010/11/mineracao-de-dados.html. Acesso em: 19 mai. 2011.
MARTIN,
James
R.
What
is
Data
Mining?.
Disponível
em:
http://maaw.info/DataMining.htm. Acesso em: 20 mai. 2011.
MICROSOFT.
Algoritmo
Microsoft
Clustering.
Disponível
em:
http://technet.microsoft.com/pt-br/library/ms174879%28SQL.100%29.aspx. Acesso em: 15 mai. 2011.
NETO, Ary Fagundes Bressane; SILVA, Flávio Soares Corrêa da. Oficina Data Mining com WEKA.
2010.
Disponível
em:
http://www.slideshare.net/campuspartybrasil/campus-
party2010. Acesso em: 29 dez. 2010.
O que é Mineração de Dados?. GSI – Grupo de Sistemas Inteligentes – Mineração de Dados, DIN – Departamento de Informática, UEM – Universidade Estadual de Maringá, Maringá, 1998. Disponível em: http://www.din.uem.br/ia/mineracao/introducao/index.html. Acesso em: 15 mai. 2011.
REYNOL, Fábio. Mineração de dados para diagnósticos médicos. 2010. Disponível em: http://agencia.fapesp.br/11928. Acesso em: 12 jul. 2011.
42
SBARAI, Rafael. A Mineração de Dados em Redes Sociais. 2010. Disponível em: http://derepente.com.br/2010/01/18/a-mineracao-de-dados-em-redes-sociais/. Acesso em: 18 mar. 2011.
PRASS, Fernando Sarturi. KDD: Processo de Descoberta em Banco de Dados. Grupo de Interesse em Engenharia de Software, Florianópolis, 2004.
SILVA, Marcelino Pereira dos Santos. Mineração de Dados – Conceitos, Aplicações e Experimentos
com
WEKA.
Disponível
em:
http://bibliotecadigital.sbc.org.br/download.php?paper=35. Acesso em: 30 dez. 2010.
SOLIEMAN, Osama K. Data Mining in Sports: A Research Overview. MIS Masters Project.
2006.
Disponível
em:
http://www.google.com/url?sa=t&source=web&cd=2&ved=0CCMQFjAB&url=http%3A%2 F%2Fai.arizona.edu%2Fmis480%2Fsyllabus%2F6_OsamaDM_in_Sports.pdf&rct=j&q=minera%C3%A7%C3%A3o%20de%20dados%20nba&ei=zqoc TvDICcmtgQe32rDfCQ&usg=AFQjCNFZ_uG9HZxlMWoHhNWReVShd9zgZQ&sig2=Lwl 4fWhwGZqrmlX_m_wKHQ&cad=rja. Acesso em: 12 jul. 2011.
VIANA, Reinaldo. Mineração de Dados: Introdução e Aplicações. Disponível em: http://www.sqlmagazine.com.br/Resumo_SQL10.asp. Acesso em: 20 mai. 2011.
WIKIPEDIA.
Extração
de
Conhecimento.
Disponível
em:
http://pt.wikipedia.org/wiki/Extra%C3%A7%C3%A3o_de_conhecimento. Acesso em: 31 jan. 2011.
43 WIKIPEDIA.
Mineração
de
Dados.
Disponível
em:
http://pt.wikipedia.org/wiki/Minera%C3%A7%C3%A3o_de_dados. Acesso em: 30 dez. 2010.
ZANUSSO,
Maria
Bernadete.
Data
Mining.
DCT,
UFMS.
Disponível
http://www.dct.ufms.br/~mzanusso/Data_Mining.htm. Acesso em: 18 mar. 2011.
em:
44
APÊNDICE I – CRONOGRAMA DE ATIVIDADES DO TRABALHO DE CONCLUSÃO DE CURSO Tabela 2 - Cronograma de atividades proposto no projeto do Trabalho de Conclusão de Curso 2010
Atividades Início das atividades relacionadas ao Projeto Tomada de decisões: Escolha do tema Pesquisa Bibliográfica Elaboração do problema da pesquisa Levantamento de recursos disponíveis para elaboração do pré-projeto Elaboração dos tópicos principais do pré-projeto Revisão dos tópicos principais do pré-projeto Confecção do pré-projeto Entrega do pré-projeto ao Orientador Elaboração dos tópicos principais da Monografia Possíveis correções do préprojeto Entrega do pré-projeto ao Coordenador de PGII Confecção da redação da Monografia Entrega da Monografia parcial ao Orientador Possíveis correções na Monografia parcial Entrega da Monografia parcial ao Coordenador de PGII Apresentação da Monografia parcial à Comissão de Avaliação Continuação da elaboração da Monografia Entrega da Monografia final ao Orientador Possíveis correções na Monografia Confecção Pôster Entrega do Pôster Exposição Pôster Entrega do trabalho final ao
Jan Fev Mar Abr
Mai
Jun
1ª
1ª
1ª
2ª
1ª
2ª
1ª
2ª
1ª
2ª
2ª
2ª
Jul 1ª
2ª
Ago 1ª
2ª
Set 1ª
2ª
Out
Nov
1ª
1ª
2ª
X X X X X X X X X X X X X X X X X X X X
X X X X X X X X X X X X X X X X X X X
2ª
Dez 1ª
2ª
45 Coordenador de PGII Data de apresentação à Comissão de Avaliação Entrega das correções ao Coordenador de PGII Entrega da versão final
X X X
46
APÊNDICE II - PÔSTER APRESENTADO NO III SIMPÓSIO DE TECNOLOGIA DA INFORMAÇÃO E III SEMANA DE INICIAÇÃO CIENTÍFICA DO CURSO DE SISTEMAS DE INFORMAÇÃO UNUCET-UEG/2011 Figura 18 - Pôster Mineração de Dados: Conceitos e Aplicações
View more...
Comments