41150131 Mineracao de Dados

April 25, 2019 | Author: Jessé Oliveira | Category: Data Mining, Data Warehouse, Data, Computing, Tecnologia
Share Embed Donate


Short Description

Download 41150131 Mineracao de Dados...

Description

Mineração Mineração de dados Descoberta de conhecimento em banco de dados

Introdução • teve início nos anos 80, quando os prossionais

das empresas e organizações começaram a se preocupar com os grandes volumes de dados estocados e inutilizados dentro da empresa. • Atualmente, Data Mining consiste sobretudo na extração e na análise dos dados após a extração, extração, buscando-se por exemplo levantar as necessidades reais e hipotéticas de cada cliente para realizar campanhas de marketing.

Introdução Refere-se a extração ou mineração de • Refere-se conhecimento de grandes quantidades de dados.

Introdução • Assim, uma empresa de cartões de crédito,

por exemplo, tem uma mina de ouro de informações: ela sabe os hábitos de compra de cada um dos seus milhões de clientes. consumir, qual o seu padrão • O que costuma consumir, de gastos, grau de endividamento, etc. • Para a empresa essas informações são extremamente úteis no estabelecimento do limite de crédito para cada cliente.

Mineração de dados • é o processo de explorar grandes quantidades

de dados à procura de padrões consistentes, como regras de associação ou sequências , sistemáticos entre variáveis, detectando assim novos subconjuntos de dados.

Mineração de dados • A mineração de dados é formada por um conjunto de

ferramentas e técnicas que através do uso de algoritmos de aprendizagem ou classificação baseados em redes neurais e estatística, são capazes de explorar um conjunto de dados, extraindo ou a udando a evidenciar adrões nestes dados e auxiliando na descoberta de conhecimento.

Em busca de padrões • O ser humano sempre aprendeu observando

padrões, formulando hipóteses e testando-as para descobrir regras. • A novidade da era do computador é o volume enorme de dados que não pode mais ser examinado à procura de padrões em um prazo de tempo razoável. • A solução é instrumentalizar o próprio computador para detectar relações que sejam novas e úteis.

Várias Áreas • Mineração de Dados é uma área de pesquisa

multidisciplinar, incluindo: 1. 2. 3. 4. 5. 6. 7. 8. 9. 10.

tecnologia de bancos de dados, inteligência articial, aprendizado de máquina, redes neurais, estatística, reconhecimento de padrões, sistemas baseados em conhecimento, recuperação da informação, computação de alto desempenho e visualização de dados.

Gestão Empresarial • Os seguintes pontos são algumas das razões por

que o Data Mining vem se tornando necessário para uma boa gestão empresarial: 1. os volumes de dados são muito im ortantes ara um tratamento utilizando somente técnicas clássicas de análise 2. o usuário final não é necessariamente um estatístico 3. a intensificação do tráfego de dados (navegação na Internet, catálogos online, etc) aumenta a possibilidade de acesso aos dados.

O que é mineração de dados? • trata-se de extrair ou minerar conhecimento

de grandes volumes de dados. • Mineração de Dados é uma etapa dentro da “ Dados (KDD)”. • Na verdade, KDD é um processo mais amplo consistindo das seguintes etapas:

Etapas KDD

Etapas KDD •

Limpeza dos dados: etapa onde são eliminados ruídos e dados

inconsistentes. •

Integração dos dados: etapa onde diferentes fontes de dados podem ser

combinadas produzindo um único repositório de dados. • Seleção: etapa onde são selecionados os atributos que interessam ao usuário. formato apropriado para aplicação de algoritmos de mineração (por exemplo, através de operações de agregação). • Mineração: etapa essencial do processo consistindo na aplicação de técnicas inteligentes a fim de se extrair os padrões de interesse. • Avaliação ou Pós-processamento: etapa onde são identicados os padrões interessantes de acordo com algum critério do usuário. • Visualização dos Resultados:

Data Warehouse • Um data warehouse (ou armazém de dados, ou depósito de dados) é um sistema utilizado para armazenar informações









relativas às atividades de uma organização em bancos de dados. O desenho da base de dados favorece os relatórios, a análise de randes volumes de dados e a obten ão de informa ões estratégicas que podem facilitar a tomada de decisão. Por definição, os dados em um data warehouse não são voláteis, ou seja, eles não mudam. Os dados estão disponíveis somente para leitura e não podem ser alterados. São chamadas séries históricas que possibilitam uma melhor análise de eventos passados, oferecendo suporte às tomadas de decisões presentes e a previsão de eventos futuros. Dados são des-normalizados.

Data Warehouse • Consiste num repositório de informações

coletadas de vários outros bancos de dados, armazenados sobre um único esquema e num . • Um exemplo de estrutura de armazenamento é o cubo, que são base de dados multidimensional onde cada dimensão corresponde a um atributo.

DataWarehouse - Cubo cidades

Foram vendidos m compu a ores no primeiro trimestre em Foz do Iguaçu trimestres

itens

Possibilidades • Possibilitam obter, de modo imediato,

respostas para as perguntas mais exóticas e, com isso, tomar decisões com base em fatos, misteriosas. Vejamos alguns exemplos:

Exemplos • Uma das maiores redes de varejo dos Estados Unidos

descobriu, em seu gigantesco armazém de dados, que a venda de fraldas descartáveis estava associada à de cerveja. Em geral, os compradores eram homens, que saíam à noite para comprar fraldas e aproveitavam . foram postos lado a lado. Resultado: a venda de fraldas e cervejas disparou. • Outra rede varejista descobriu que a venda de colírios aumentava na véspera dos feriados. (Por quê? Mistério...) Passou a preparar seus estoques e promoções do produto com base nesse cenário.

Exemplos • O banco Itaú, pioneiro no uso de data warehouse

no Brasil, costumava enviar mais de 1 milhão de malas diretas, para todos os correntistas. • No máximo 2% deles respondiam às promoções. , movimentação financeira de seus clientes nos últimos 18 meses. • A análise desses dados permite que cartas sejam enviadas apenas a quem tem maior chance de responder. A taxa de retorno subiu para 30%. A conta do correio foi reduzida a um quinto.

Exemplos Outra empresa de telefonia detectou, ao implantar seu armazém de dados, que quatro grandes clientes empresariais eram responsáveis por mais da metade das chamadas de manutenção. Um deles estava prestes a abandonar os serviços. A telefônica fez reparos imediatos, convenceu o cliente a ficar e manteve uma receita anual de 150 milhões de dólares. • O governo de Massachusetts, nos Estados Unidos, compilava informações financeiras imprimindo telas e mais telas de terminais dos computadores de grande porte. Era preciso seis pessoas s para reunir os relat rios necessários ao orçamento anual. Com o armazém de dados, informações atualizadas estão disponíveis on-line para 1 300 usuários. Só em papel, economizam-se 250 000 dólares por ano. • O Serpro, órgão responsável pelo processamento dos dados do governo federal, já investiu 2 milhões no seu projeto de data warehouse, desenvolvido com a Oracle. Só consolidou 5% de suas informações, mas já é possível fazer em cinco minutos cruzamentos de dados que antes demandavam quinze dias de trabalho. •

Tarefas e técnicas de mineração • É importante distinguir o que é uma tarefa e o que é

uma técnica de mineração. • A tarefa consiste na especificação do que estamos querendo buscar nos dados, que tipo de regularidades , ou que tipo de padrões poderiam nos surpreender (por exemplo, um gasto exagerado de um cliente de cartão de crédito, fora dos padrões usuais de seus gastos). • A técnica de mineração consiste na especificação de métodos que nos garantam como descobrir os padrões que nos interessam.

Análise de Regras de Associação • é um padrão da forma X -> Y , onde X e Y são conjuntos de valores (artigos comprados por um cliente, sintomas

apresentados por um paciente, etc). • O padrão: Clientes que compram pão também compram leite representa uma regra de associação que re ete um pa r o e comportamento os c entes o supermercado. • Descobrir regras de associação entre produtos comprados por clientes numa mesma compra pode ser útil para melhorar a organização das prateleiras, facilitar (ou dificultar) as compras do usuário ou induzilo a comprar mais.

Análise de Padrões Sequenciais • Um padrão sequencial é uma expressão da forma < B1, . . . , Bn >, onde cada Bi é um conjunto de items. A ordem em que estão alinhados estes conjuntos reflete

a ordem cronológica em que aconteceram os fatos representados por estes conjuntos. • Assim, por exemplo, a sequência < {carro}, {pneu, radio-mp3} >

• representa o padrão Clientes que compram carro,

tempos depois compram pneu e radio-mp3 de carro. • Descobrir tais padrões sequenciais em dados temporais pode ser útil em campanhas de marketing, por exemplo.

Classificação e Predição • Classificação é o processo de encontrar um

conjunto de modelos (funções) que descrevem e distinguem classes ou conceitos, com o propósito de utilizar o modelo ara redizer a classe de objetos que ainda não foram classicados. • O modelo construído baseia-se na análise prévia de um conjunto de dados de amostragem ou dados de treinamento, contendo objetos corretamente classificados.

Classificação e Predição • Por exemplo, suponha que o gerente do supermercado

está interessado em descobrir que tipo de características de seus clientes os classificam em bom comprador ou mau comprador. • , interessado em predizer alguns valores ausentes em seus dados, em vez de descobrir classes de objetos.

Classificação e predição

vendas

? Bom cliente

Mau cliente

meses

Análise de Clusters (Agrupamentos). • Diferentemente da classificação e predição

onde os dados de treinamento estão devidamente classificados e as etiquetas das , trabalha sobre dados onde as etiquetas das classes não estão conhecidas. A tarefa consiste em identificar agrupamentos de objetos, agrupamentos estes que identificam uma classe.

Análise de Clusters (Agrupamentos). • Por exemplo, poderíamos aplicar análise de

clusters sobre o banco de dados de um supermercado a fim de identicar grupos , , aglutinados em determinados pontos da cidade costumam vir ao supermercado aos domingos, enquanto clientes aglutinados em outros pontos da cidade costumam fazer suas compras às segundas-feira.

Análise de Clusters • Quantidade de gastos vs. Acessos online

Análise de Outliers (Exceções) • Um banco de dados pode conter dados que não

apresentam o comportamento geral da maioria. • Estes dados são denominados outliers(exceções). Muitos métodos de mineração descartam estes outliers como sendo ruído indesejado. , , fraudes, estes eventos raros podem ser mais interessantes do que eventos que ocorrem regularmente. • Por exemplo, podemos detectar o uso fraudulento de cartões de crédito ao descobrir que certos clientes efetuaram compras de valor extremamente alto, fora de seu padrão habitual de gastos.

Exceções

Como avaliar os padrões interessantes? • Existem diversas medidas objetivas para avaliar o grau

de interesse que um padrão pode apresentar ao usuário. • Por exemplo, uma medida objetiva para avaliar o , representando a porcentagem de transações de um banco de dados de transações onde a regra se verifica. • Em termos estatísticos, o suporte de uma regra X -> Y é a probabilidade P(X U Y ), onde X U Y indica que a transação contém os dois conjuntos de items X e Y .

Como avaliar os padrões interessantes? • Uma outra medida objetiva para regras de associação é a

confiança, que mede o grau de certeza de uma associação. • Em termos estatísticos, trata-se simplesmente da probabilidade condicional P(Y | X), isto é, a porcentagem de transações contendo os items de X que também contém os . • Em geral, cada medida objetiva está associada a um limite mínimo de aceitação, que pode ser controlado pelo

usuário. • Por exemplo, o usuário pode decidir que regras cuja confiança é inferior a 0.5 devem ser descartadas como nãointeressantes, pois podem simplesmente representar uma minoria ou exceção ou envolver ruídos.

Técnicas para Regras de Associação e Sequências • Suponha que você seja gerente de um supermercado e

esteja interessado em conhecer os hábitos de compra de seus clientes, por exemplo, quais os produtos que os clientes costumam comprar ao mesmo tempo, a cada vez que vêm ao supermercado. • on ecer a resposta a esta quest o po e ser t : voc poderá planejar melhor os catálogos do supermercado, os folhetos de promoções de produtos, as campanhas de publicidade, além de organizar melhor a localização dos produtos nas prateleiras do supermercado colocando próximos os items frequentemente comprados juntos a fim de encorajar os clientes a comprar tais produtos conjuntamente.

Técnicas para Regras de Associação e Sequências • Para isto, você dispõe de uma mina de dados,

que é o banco de dados de transações efetuadas pelos clientes. , neste banco todos os itens comprados. • Para facilitar a representação dos artigos na tabela, vamos associar números a cada artigo do supermercado, como ilustrado:

Técnicas para Regras de Associação e Sequências

Técnicas para Regras de Associação e Sequências • Cada conjunto de itens comprados pelo cliente numa

única transação é chamado de Itemset. • Suponha que você, como gerente, decide que um itemset que aparece em pelo menos 50% de todas as compras registradas será considerado frequente. • Por exemplo, se o banco de dados de que você dispõe é o ilustrado na Figura 5.3, então o itemset {1,3} é considerado frequente, pois aparece em mais de 60% das transações. • Definimos suporte de um itemset como sendo a porcentagem de transações onde este itemset aparece. A tabela da Figura 5.4 contabiliza

Técnicas para Regras de Associação e Sequências transação

itemset 

Técnicas para Regras de Associação e Sequências • os suportes de diversos itemsets com relação

ao banco de dados de transações da Figura 5.3.

Técnicas para Regras de Associação e Sequências • Repare que o que identica uma transação é o

identicador da transação TID e não o identicador do cliente. ser considerado frequente seja 50%, então os seguintes itemsets da tabela da Figura 5.4 serão considerados frequentes: {1,3}, {2,9}.

CONCLUSÃO • Colocar pão e açucar próximos!! • E leite e iogurte.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF