Apostila Estatistica Eng

April 18, 2018 | Author: rjrcardoso | Category: Statistics, Probability Distribution, Information, Quality (Business), Data
Share Embed Donate


Short Description

Download Apostila Estatistica Eng...

Description

Estatística Básica para Engenharia

Silvio Alves de Souza

1

ÍNDICE Introdução ...................................................................................................................4 Software R ..................................................................................................................5 Software SPSS............................................................................................................6 Conceitos Básicos de Estatística ................................................................................7 População................................................................................................................9 Amostra .................................................................................................................10 Arredondamento de números ................................................................................10 Proporção ..............................................................................................................14 Porcentagem .........................................................................................................15 Exercícios ..............................................................................................................16 Fases do Método Estatístico .....................................................................................20 Definição do Problema ..........................................................................................20 Planejamento.........................................................................................................20 Coleta dos Dados ..................................................................................................21 Apuração dos Dados .............................................................................................23 Apresentação dos Dados.......................................................................................23 Análise e Interpretação dos Dados........................................................................24 Questionários ............................................................................................................25 Ordem das Questões.............................................................................................26 Tipo de Abordagem ...............................................................................................26 Clareza nas Perguntas ..........................................................................................26 Não Sugerir Respostas..........................................................................................27 A Necessidade do Pré-Teste.................................................................................27 A Prática de Pesquisas por Amostragem ..............................................................27 Amostragem................. .............................................................................................28 Amostragem Aleatória Simples..............................................................................29 Amostragem Estratificada......................................................................................31 Amostragem Sistemática.......................................................................................34 Exercícios ..............................................................................................................35 Distribuição de Freqüência........................................................................................41 Dados Brutos .........................................................................................................41 Rol .........................................................................................................................41 Tabela de freqüência .............................................................................................42 Distribuição em Classes42 Distribuição de de Freqüências Freqüências de de Dados Dados Tabulados AgrupadosNão-Agrupados em Classes.........................43 Manual para Normalização de Publicações Técnico – cientificas..........................49 Exercícios ..............................................................................................................50 Medidas de Tendência Central. ................................................................................56 Dados brutos .........................................................................................................56 Dados em tabela de distribuição de freqüência.....................................................60 Exercícios ..............................................................................................................67 Separatrizes ..............................................................................................................69 2

Dados brutos ou em tabela de distribuição simples...............................................69 Dados agrupados em classes................................................................................71 Exercícios: .............................................................................................................73 Medidas de Variabilidade..........................................................................................76 Desvio padrão........................................................................................................77 Coeficiente de variação: ........................................................................................79 Exercícios ..............................................................................................................82 Representação Gráfica .............................................................................................89 Exercícios ............................................................................................................100 Probabilidade ..........................................................................................................101 Técnicas de contagem.........................................................................................101 Cálculo de Probabilidade.....................................................................................105 Exercícios: ...........................................................................................................118 Distribuições de probabilidade ................................................................................126 Variável Aleatória.................................................................................................126 Distribuições discretas de probabilidade..............................................................133 Distribuições contínuas de probabilidade ............................................................140 Teste de Hipótese ...................................................................................................152 Distribuição Amostral ..............................................................................................166 Correlação...............................................................................................................170 Regressão Linear....................................................................................................177 Regressão Múltipla..................................................................................................184 Bibliografia ..............................................................................................................188 Anexo 1 ...................................................................................................................189 Anexo 2 ...................................................................................................................191

3

Introdução Esta apostila é uma tentativa de compor todo o conteúdo da disciplina Estatística do CEFET – MG. Esta disciplina é ministrada nos vários cursos de Engenharia e Bacharelados. Seu conteúdo é de acordo com o plano de ensino dos cursos citados acima. Na verdade é um material complementar para os alunos. Ele não os isenta da necessidade de consultar outras bibliografias. A disciplina de Estatística é abordada com o auxílio de vários softwares para tratamento de dados, entre eles o R e o SPSS. Em anexo estão todas as tabelas utilizadas no decorrer do curso. Os exemplos e exercícios foram montados com o objetivo de contextualizar o conteúdo dentro dos vários cursos. Não buscamos priorizar nenhum desses cursos para que o aluno possa perceber a utilização da Estatística em cada área do conhecimento. A construção do conhecimento foi elaborada de acordo com os passos de uma pesquisa, salvo casos em que o conteúdo requer outros elementos essenciais para seu entendimento.

4

Software R O software R é um software livre utilizado para análise de dados, cálculo e construão de gráficos. Sua construção foi feita utilizando vários colaboradores. Para sua utilização é necessário conhecimento de sua linguagem própria, ou seja, seus comandos. Algumas tarefas podem facilmente serem realizadas apenas utilizando seus comandos e outras são necessárias a construção de algoritmos. O Rdecorrer tem um help que os ajudautilizá-lo na execução das tarefas. No do curso iremos para análise de vários dados e para a construção de alguns gráficos específicos. Os comandos necessários bem como a utilização do software serão apresentados no decorrer das aulas. A utilização deste software é uma tentativa de demonstrar como utilizar a tecnologia computacional na análise de dados. Comandos básicos 1) Criar vetor: para construir um vetor basta digitar a letra c e, entre parênteses separados por vírgula, digitar os valores do vetor. Para visualisar o vetor basta digitar seu nome na linha de comando. Exemplo: Criar um vetor de nome x com os valores 2, 3, 6 e 13. Solução: x1 (significa que o diamante é mais resistente do que o alumínio).



Dados intervalares: Trata-se de dados numéricos os quais podemos estabelecer desigualdades e formar diferenças. Exemplo: Temperaturas.



Dados de razão: trata-se de dados numéricos que podemos estabelecer desigualdades, diferenças, formar multiplicação e divisão. Exemplos: peso, altura, dinheiro, volume, diâmetro, etc.

8

Objetivo do Estudo da Estatística A utilização da Estatística é cada vez mais acentuada em qualquer atividade profissional da vida moderna. Nos seus mais diversificados ramos de atuação, as pessoas estão freqüentemente expostas à Estatística, utilizando-a com maior ou menor intensidade. Isto se deve às múltiplas aplicações que o método estatístico proporciona àqueles que dele necessitam. População Conjunto da totalidade dos indivíduos sobre o qual de faz uma inferência. Em linguagem mais formal, a população é o conjunto constituído por todos os indivíduos que apresentem pelo menos uma característica comum, cujo comportamento interessa analisar (inferir). Essas características da população são comumente chamadas de parâmetros, os quais são valores fixos e ordinariamente desconhecidos. Exemplo: Suponha que estamos interessados em realizar um estudo sobre a qualidade das peças produzidas por uma empresa em determinado dia. Neste caso existe uma observação para cada peça fabricada naquele dia. Podemos limitar a população a cada turno de trabalho da empresa, como por exemplo o 2º turno. Observação: É importante ficar bem claro que uma população é estudada em termos das características a serem estudadas. Assim, por exemplo, o diâmetro de uma peça constituem uma população. Poderia haver uma população correspondente ao comprimento dessas mesmas peças.

9

Amostra Um subconjunto, uma parte selecionada da totalidade de observações abrangidas pela população, através da qual se faz um juízo ou inferência sobre as características da população. Exemplo: Avaliação da qualidade das peças produzidas por uma determinada empresa. Seleciona-se, dentre as peças produzidas em determinado dia, uma porcentagem destas peças. Avalia-se as peças selecionadas. A partir da amostra estabelecemos o que é conveniente para a população, ou seja, fazemos uma inferência sobre a população. Arredondamento de números Arredondamento por falta Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for igual ou menor que quatro, não deverá ser alterado o dígito anterior.

Número a arredondar Arredondamento para Número arredondado 12,489

Inteiros

12

20,733

Décimos

20,7

35,992

Centésimos

35,99

Arredondamento por excesso Quando o primeiro dígito, aquele situado mais à esquerda entre os que irão ser eliminados, for maior ou igual a cinco seguido por dígitos maiores que zero, o dígito anterior será acrescido de uma unidade.

10

Número a arredondar Arredondamento para Número arredondado 15,504

Inteiros

16

16,561

Décimos

16,6

17,578

Centésimos

17,58

Arredondamento centrais Quando o primeiro dígito, aquele situado mais à esquerda dos que serão eliminados for um cinco ou um cinco seguido somente de zeros, o último dígito anterior, se for par, não se altera, e se for ímpar será aumentado uma unidade.

Número a arredondar Arredondamento para Número arredondado 15,500

Inteiros

16

16,500

Inteiros

16

17,750

Décimos

17,8

17,705

Centésimos

17,70

Arredondamento de Soma Quando se trata de soma, deve-se arredondar primeiro o total, e posteriormente as parcelas. Há aqui dois casos a considerar: a) Se a soma das parcelas da série arredondada for superior ao total, deve-se retornar à série srcinal, arredondando-se, por falta, tantas parcelas quantas forem as unidades excedentes. Serão escolhidas as parcelas anteriormente arredondadas por excesso e cujas frações desprezadas representem o menor erro relativo.

11

Erro relativo Dados dois números diferentes de zero x e y com x > y , o erro relativo entre eles será calculado pela expressão ER =

x−y x

O arredondamento do erro é feito de modo a poder identificar a ordem das parcelas. Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para inteiro, da soma total de uma série. Série srcinal Erro relativo Série arredondada Série corrigida 5,51

0,082

6

6

7,50

0,062

8

8

14,63

0,025

15

15

20,10 24,73

0,011

20 25

20 24 *

27,52

0,017

28

27 *

102

100

Total : 99,99

Observações: 1. (*) série corrigida 2. O arredondamento do erro foi milesimal para poder identificar as duas menores parcelas. Veja o cálculo dos erros relativos

ER = ER = ER =

6 − 5,51 6 8 − 7,50 8

= 0,082 = 0,062

15 − 14,63 15

= 0,025

12

ER = ER =

25 − 24,73 25 28 − 27,52 28

= 0,011 = 0,017

b) Se a soma das parcelas da série arredondada for inferior ao total, deve-se retornar à série srcinal, arredondando-se, por excesso, tantas parcelas quantas forem as unidades em falta. Serão escolhidas as parcelas anteriormente arredondadas por falta e cujas frações desprezadas representem o menor erro relativo. Exemplo: O quadro abaixo apresenta um modelo de arredondamento, para centésimo, da soma total de uma série. Série srcinal Erro relativo Série arredondada Série corrigida 2,514

0,0016

2,51

2,51

12,502

0,0002

12,50

12,50

4,64

4,64

4,6355 11,1028

0,0002

11,10

11,10

35,733

0,0001

35,73

35,74 *

7,524

0,0005

7,52

7,52

74,00

74,01

Total : 74,0113 Observação: (*) série corrigida

13

Proporção Um certo número de pessoas foi classificado em quatro categorias. Essas categorias são, naturalmente, mutuamente exclusivas e exaustivas. Em outras palavras: uma pessoa só poderá estar incluída em uma única categoria, e todas elas deverão estar classificadas. Em termos simbólicos, pode-se escrever: N1 = número de pessoas incluídas na

categoria 1.

N2 = número de pessoas incluídas na

categoria 2.

N 3 = número de pessoas incluídas na

categoria 3.

N 4 = número de pessoas incluídas na

categoria 4.

N = N1 + N 2 + N 3 + N 4 = número total de

pessoas consideradas.

Neste caso, a proporção de pessoas pertencentes à primeira categoria é determinada mediante o cálculo do seguinte quociente N1 N

A proporção de pessoas pertencentes à segunda categoria é determinada mediante o cálculo do seguinte quociente N2 N

Sucessivamente temos N3 N

e

N4 N

o cálculo da proporção das pessoas pertencentes à terceira e quarta categoria. Observe que

14

N1 N 2 N 3 N 4 N + + + = =1. N N N N N

Exemplo: A tabela a seguir apresenta o número de sócios praticantes e nãopraticantes de futebol em um clube hipotético.

Tabela 1: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Proporção Futebol de salão Futebol de campo Não-Praticantes Total

580 430 4810

0,100 0,074 0,826

5820

1,000

Fonte: Referência bibliográfica 1 Porcentagem As porcentagens são obtidas a partir do cálculo das proporções, simplesmente multiplicando-se o quociente obtido por 100. Para representá-las usamos o símbolo %. Voltando ao exemplo anterior temos: Tabela 2: Número de sócios praticantes e não-praticantes de futebol em um clube hipotético Sócios Praticante (exclusivamente) de: Clube 1 Porcentagem (%) Futebol de salão Futebol de campo Não-Praticantes Total

580 430 4810

10 7,4 82,6

5820

100

Fonte: Referência bibliográfica 1

15

Exercícios 1) Considere as situações a seguir e identifique a população e a amostra em cada caso. a. Para a análise de desempenho dos alunos da 8.ª série de uma determinada escola municipal foram escolhidas as notas de português de 35 alunos. b. Uma amostra de sangue foi retirada de um paciente com suspeita de alto colesterol. c. Uma maternidade entrevista 20 mães de recém nascidos dos 218 partos, no mês de janeiro, para avaliar a satisfação na prestação de serviço. d. A fim de avaliar a intenção de voto dos eleitores para deputado estadual, um candidato entrevista 2.120 eleitores em Minas Gerais. 2) Use os critérios de arredondamento para arredondar cada valor a seguir para décimos. a) 21,24 d) 0,75 g) 3,521 b) 1,088 e) 5,819 h) 9,275 c) 125,5555 f) 0,3333 i) 235,25 3) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar

Arredondamento para

25,458

Centésimo

123,99

Décimo

205,7056

Milésimo

17,561

Inteiro

Número arredondado

16

4) Aplique os critérios de arredondamento para completar o quadro abaixo: Número a arredondar

Arredondamento para

1,23

Décimo

5,488

Centésimo

0,126

Centésimo

35,4 13,99

Inteiro Décimo

25,7056

Milésimo

7,561

Inteiro

690,1555

Centésimo

0,115588

Milésimo

Número arredondado

5) A tabela abaixo representa a produção, em unidades, da fábrica X de determinada peça no segundo semestre de 2005.

Mês Julho

Produção 35.500

Agosto

34.750

Setembro

36.800

Outubro

35.150

Novembro

32.300

Dezembro

31.250

Calcule: (Use arredondamento para centésimos)

a) a proporção de peças produzidas no mês de outubro. b) a proporção de peças produzidas até setembro. c) a porcentagem de peças produzidas em dezembro.

17

6) Uma escola ia contratar um grupo de 8 professores para dar um curso sobre computadores em 48 horas, pagando um total de R$ 9 216,00. No entanto, como medida de economia, ela resolveu contratar somente 6 professores e dar o curso em 36 horas. Quanto a escola economizará? 7) João comprou uma mercadoria em uma loja de utilidades. Quando foi pagar a conta, o vendedor informou-lhe que devido a uma promoção relâmpago, ele teria 8 % de desconto na compra à vista pagando, pelo produto, R$ 276,00. João optou por não pagar à vista. Quanto ele pagará pela mercadoria se compra-la a prazo? 8) Para as situações descritas a seguir, identifique a população e a amostra correspondente. Discuta a validade do processo de inferência estatística, ou seja, se as amostras foram coletadas corretamente, para cada um dos casos. Não esqueça de apontar o erro de cada caso. a) Uma amostra de sangue foi retirada de um paciente com suspeita de anemia. b) Para verificar a audiência de um programa de TV, 563 indivíduos foram entrevistados por telefone com relação ao canal em que estavam sintonizados. c) A fim de avaliar a intenção de voto para presidente dos brasileiros, 122 pessoas foram entrevistadas em Brasília. 9) Para encher um reservatório em 15 dias, são necessárias 3 torneiras. Em quanto tempo 5 torneiras, idênticas às anteriores, encherão o mesmo reservatório? 10) Um navio dispõe de reservas suficientes para alimentar 14 homens durante 45 dias, mas recebe 4 sobreviventes de um naufrágio. Durante quantos dias durarão as reservas de alimento?

18

11) Calcule: a) 15 % de R$ 2 800,00 ? b) 42 % de R$ 18 300,00 ? 12) Resolva os problemas abaixo: a) Numa classe foram reprovados 15 % dos alunos, isto é, 9 alunos. Quantos alunos haviam nesta classe? b) Em uma cidade haviam 5600 eleitores do candidato A e 7800 eleitores do candidato B. 1) Qual a proporção dos eleitores do candidato A? 2) Qual a proporção dos eleitores do candidato B? 13) Em um colégio existem 1 200 alunos, dos quais 720 são meninos. Determine: a) Qual a proporção do número de meninos? b) Qual a proporção do número de meninas? 14) Num livro de 200 páginas, há 30 linhas em cada página. Se houvesse 25 linhas, quantas páginas teria o livro?

19

Fases do Método Estatístico Quando se pretende empreender um estudo estatístico completo existem diversas fases do trabalho que devem ser desenvolvidas para se chegar aos resultados finais do estudo. Definição do Problema A primeira fase do trabalho estatístico consiste em uma definição ou formulação correta do problema a ser estudado. O problema deve ser preciso, bem determinado e específico. Além de considerar detidamente o problema objeto do estudo, o analista deverá examinar outros levantamentos realizados no mesmo campo e análogos, uma vez que parte da informação de que necessita pode, muitas vezes, ser encontrada nesses últimos. Saber exatamente aquilo que se pretende pesquisar é o mesmo que definir corretamente o problema. Planejamento Consiste em se determinar o procedimento necessário para resolver o problema e, em especial, como levantar informações sobre o assunto objeto do estudo. Mais especialmente, na fase do planejamento a preocupação maior reside na escolha das perguntas. É nessa fase que será escolhido o tipo de levantamento a ser utilizado. Sob esse aspecto, pode haver dois tipos de levantamento: a) b)

Levantamento censitário, quando a contagem abranger todo o universo. Levantamento por amostragem, quando a contagem for parcial.

Nesta fase temos outros elementos importantes que devem ser tratados.

20

a) b) c) d) e)

cronograma das atividades, através do qual são fixados os prazos para as varias fases; Os custos envolvidos; O exame das informações disponíveis; O delineamento da amostra; A forma como serão escolhidos os dados, etc.

Obs: Os livros mais específicos sobre pesquisa de mercado poderão ser consultados. Coleta dos Dados O terceiro passo é essencialmente operacional. A coleta de dados se refere à obtenção, reunião e registro sistemático de dados, com um objetivo determinado. Espécies de dados: I) II)

Dados Primários: quando são publicados ou comunicados pela própria pessoa ou organização que os haja recolhido. Dados Secundários: Quando são publicados ou comunicados por outra organização.

Um conjunto de dados é, pois, primário ou secundário em relação a alguém. É mais seguro trabalhar com fontes primárias, pois: a) b) c)

Uma fonte primária oferece, em geral, informações mais detalhadas do que uma secundária. É mais provável que as definições de termos e de unidades figurem somente nas fontes primárias. O uso da fonte secundária traz o risco adicional de erros de transcrição. 21

d)

Uma fonte primária poderá vir acompanhada de cópias dos impressos utilizados para coletar as informações, juntamente com o procedimento adotado na pesquisa, a metodologia seguida e o tipo de tamanho da amostra.

Essas informações proporcionam ao usuário uma idéia do grau de garantia que os dados oferecem. A coleta de dados pode ser realizada de duas maneiras: direta ou indiretamente. Coleta Direta A coleta é direta quando é obtida diretamente da fonte. Ex.: Uma empresa pesquisa seus consumidores. Há três tipos de coleta direta: a)

Coleta direta contínua: quando estes são obtidos ininterruptamente, automaticamente e na vigência de um determinado período. Ex.: Registros de nascimento, de casamento, de óbito, etc.

b)

Coleta direta periódica: quando é realizada em períodos curtos, determinados, de tempo em tempo. Ex: Recenseamento demográfico. O censo industrial.

c)

Coleta direta ocasional: Quando os dados forem colhidos esporadicamente, atendendo a uma conjuntura qualquer ou a uma emergência. Ex.: Casos fatais em surto epidêmico.

22

Coleta Indireta A coleta dos dados é indireta quando é inferida a partir dos elementos conseguidos pela coleta direta, ou através do conhecimento de outros fenômenos que, de algum modo, estejam relacionados com o fenômeno em questão. É feita, portando, por deduções e conjunturas, podendo ser realizada: a) b) c) d)

Por analogia: quando o conhecimento de um fenômeno é induzido a partir de outro que com ele guarda relações de casualidade. Por proporcionalização: Quando o conhecimento de um fato se induz das condições quantitativas de uma parte dele. Por indícios: quando são escolhidos fenômenos sintomáticos para discutir um aspecto geral da vida social. Por avaliação: quando através de informações fidedignas ou estimativas cadastrais, se presume o estado quantitativo de um fenômeno.

Apuração dos Dados Consiste em resumir os dados, através de sua contagem e agrupamento. Ela pode ser manual, mecânica, eletromecânica ou eletrônica. Através da apuração tem-se a oportunidade de condensar os dados, de modo a obter um conjunto compacto de números, o qual possibilita distinguir melhor o comportamento do fenômeno na sua totalidade. Entretanto, a contrapartida da melhor apreciação dos dados em seu conjunto é a perda correspondentes de detalhes, uma vez que se trata de um processo de sintetização. Apresentação dos Dados Há duas formas de apresentação, que não se excluem mutuamente. a)

Apresentação Tabular: É uma apresentação numérica dos dados. Consiste em dispor os dados em linhas e colunas distribuídas de modo ordenado. 23

b)

Apresentação Gráfica: Constitui uma Apresentação Geométrica. Embora a apresentação tabular seja de extrema importância, no sentido de facilitar a análise numérica dos dados, não permite ao analista obter uma visão tão rápida, fácil e clara do fenômeno e sua variação como a conseguida através de um gráfico.

Análise e Interpretação dos Dados É a última fase e a mais importante e também a mais delicada. O interesse maior, nesta etapa, reside em tirar conclusões que auxiliem o pesquisador a resolver seu problema. A análise está ligada essencialmente ao cálculo de medidas, cuja finalidade principal é descrever o fenômeno. Obs: As fases do método Estatístico foram tiradas da referência bibliográfica 1.

24

Questionários Questionários são o meio mais comum de coleta de informações. Dois tipos de questões são usualmente empregados na redação de questionários:  Questões de múltipla escolha 

Questões de resposta aberta

As alternativas em uma questão de múltipla escolha devem ser claras, mutuamente excludentes e, quando pedirem opiniões, fornecer opções dos dois lados do assunto. Idealmente, as opções devem cobrir todas as respostas prováveis. Se, entretanto, muitas alternativas são apresentadas, elas podem não ser suficientemente claras e confundir o respondente no momento de sua decisão. A grande desvantagem de questões de múltipla escolha é que tendem a sugerir uma resposta, já que limita as respostas possíveis, impedindo o respondente de dizer exatamente o que pensa. Este tipo de limitação não ocorre nas questões de resposta aberta, em que o entrevistado usa suas próprias palavras para responder à pergunta. Uma pergunta deste tipo produz uma grande gama de respostas que devem ser classificadas em grupos homogêneos antes que se possa fazer uma análise estatística. Esta classificação é uma tarefa difícil quando o número de respostas a serem analisadas é muito grande. Por isso, questões de respostas abertas são mais freqüentemente empregadas em estudos pilotos ou nos estágios exploratórios, quando se procura determinar quais tipos de respostas aparecerão. Essas informações são então usadas na construção do questionário a ser utilizado na obtenção dos dados de um grupo maior. Às vezes é inevitável misturar os dois tipos de pergunta, quando, por exemplo, colocamos a opção “outros” e pedimos especificação. Se os dados forem analisados por computador, deve-se pensar na etapa da codificação ao redigir as perguntas.

25

Ordem das Questões Um questionário consistente em uma bateria de questões arranjadas em certa ordem. As primeiras questões são para estabelecer contato com o respondente e devem ser bem simples. Quando vários tópicos estão envolvidos, deve-se completar um tópico antes de passar a outro. A ordem das questões freqüentemente afeta as respostas dadas pelo respondente, já que as perguntas chamam a atenção do entrevistado para um conjunto de pensamentos e sentimentos, em cujo contexto as outras perguntas serão respondidas. Em pesquisa de mercado, por exemplo, questões que mencionam um produto específico tendem a viciar as perguntas que se seguem; conseqüentemente, estas questões identificando produtos ou firmas devem ser colocadas no final, sempre que possível. Tipo de Abordagem Muitas pessoas tendem a racionalizar ou exagerar suas respostas quando são questionadas diretamente sobre seus motivos, realizações ou outros assuntos que envolvam seu prestígio ou auto-estima. Para se evitar a introdução de tendenciosidade nessas respostas, usa-se freqüentemente uma abordagem indireta na elaboração de questões que envolvem prestígio. Por exemplo, ao invés de perguntas: “Você terminou o curso secundário?”, pode-se perguntar: “Em que ano você estava quando deixou de estudar?”. Na segunda pergunta tenta-se evitar constrangimento aos respondentes que não terminaram o curso secundário. Clareza nas Perguntas Uma pergunta deve ter aproximadamente o mesmo sentido para todos os entrevistados; caso contrário, os dados obtidos não terão grande utilidade. Termos com sentido dúbio devem ser evitados. As perguntas devem ser simples. Nem todos os entrevistados entenderão questões com enunciado complexo, srcinando, assim, resultados ruins.

26

Não Sugerir Respostas Na formulação das perguntas deve-se evitar um tipo de redação como esta: “Você concorda em que esta bebida, sendo a melhor, deva custar mais caro?” Esta pergunta sugere tão obviamente uma resposta que é praticamente inútil. Algumas vezes, entretanto, é difícil perceber que a redação de uma pergunta possa sugerir determinada resposta. A Necessidade do Pré-Teste Assim que um questionário tenha sido redigido, deve ser testado em um estudo piloto. Esta fase é fundamental para detectar dificuldades não observadas, como o lay out do questionário, ordem e redação das perguntas, necessidade de instruções mais claras para os entrevistadores, etc. Naturalmente, a correção dessas imprecisões melhorará a qualidade do levantamento. A Prática de Pesquisas por Amostragem O leitor deve convencer-se de que é fundamental conhecer as características específicas da área onde pretende participar de pesquisas por amostragem. O significado especial de algumas palavras, os melhores locais e horários para se fazer coleta de dados, o tipo de entrevistador são, entre outros, fatores importantes para o bom andamento do levantamento. Só lendo literatura na área específica é que se pode, entretanto, conhecer estes detalhes.

27

Amostragem Conceitos Fundamentais Assim que decidimos obter informações através de um levantamento amostral, temos imediatamente dois problemas:  

definir cuidadosamente a população de interesse e selecionar a característica que iremos pesquisar.

A população-alvo é a população sobre a qual vamos fazer inferências baseadas na amostra. Caracterizada a população-alvo, o próximo passo é escolher as características que iremos medir. Aqui o erro freqüente é querer incluir muitas características. A qualidade da mensuração cai com o aumento do número de perguntas. Devemos, portanto, fixar-nos apenas em perguntas que contribuam para a quantificação adequada da característica populacional de real interesse para o estudo. Para que possamos fazer inferências válidas sobre a população a partir de uma amostra, é preciso que esta seja representativa. Uma das formas de se conseguir representatividade é fazer com que o processo de escolha da amostra seja, de alguma forma, aleatório. Além disso, a aleatoriedade permite o cálculo de estimativas dos erros envolvidos no processo de inferência.

28

Amostragem Aleatória Simples Neste caso a amostra é escolhida elemento a elemento. A população é numerada de 1 a N. Escolhem-se, em seguida, na tábua de números aleatórios, n números compreendidos entre 1 e N. Esse processo é equivalente a um sorteio no qual se colocam todos os números misturados dentro de uma urna. Os elementos correspondentes aos números escolhidos formarão a amostra. Exemplo: A tabela a seguir refere-se aos diâmetros de 30 eixos produzidos por uma industria automobilística (dados hipotéticos) 26

32

26

19

20

22

30

31

17

20

16

17

28

15

26

19

14

16

16

26

27

31

13

26

18

29

18

16

21

24

Extrair, sem reposição, uma amostra aleatória de tamanho n = 5. Solução: Primeiramente deveremos numerar a população.

Eixo

01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17

Diâmetro 26 32 26 19 20 22 30 31 17 20 16 17 28 15 26 19 14 Eixo

18 19 20 21 22 23 24 25 26 27 28 29 30

Diâmetro 16 16 26 27 31 13 26 18 29 18 16 21 24 Escolhemos uma coluna na TNA. Procuramos os 5 primeiros números não superiores a 30, lendo os dos últimos algarismos ou os dois primeiros.

29

Obtemos: 2.ª coluna Leitura na TNA (2 últimos)

18

15

22

24

03

Diâmetro

16

26

31

26

26

30

Amostragem Estratificada Quando os elementos da população estão divididos em grupos não superpostos, é mais fácil e mais eficiente escolher, independentemente, uma amostra aleatória simples dentro de cada um destes grupos, os quais são chamados estratos. Esta forma de amostragem é uma das mais utilizadas, já que a maioria das populações tem estratos bem definidos: os homens e as mulheres; os alunos das escolas X, Y, Z; os estados brasileiros; ect. O mais comum é utilizar-se a Amostragem Estratificada Proporcional, que consiste em selecionar os elementos da amostra entre os vários estratos, em número proporcional ao tamanho de cada um dos estratos. Em outras palavras, sejam: N o número de elementos da população L o número de estratos N i o número de elementos do estrato i n o tamanho da amostra a ser selecionada ni

tamanho de amostra no estrato i

Note que N = N1 + N2 + ... + NL Calcula-se a fração de amostragem dada por: f=

n N

Obs: A fração de amostragem calcula o tamanho de amostra por unidade da população. O número de elementos a serem sorteados em cada estrato será: n 1 = N1 .f n 2 = N 2 .f

31

M

n L = N L .f

Exemplo:

Na execução de uma rede elétrica, uma firma especializada utiliza eletrodutos de dois tipos: E e F. em uma análise do custo do material foram considerados 30 faturas, representadas abaixo pelo preço de 10m de eletroduto.

Eletroduto (estrato) E Fatura

01

02

03

04

05

06

Preço (R$)

710

710

715

715

755

760

Eletroduto (estrato) F Fatura

Preço

Fatura

Preço

Fatura

Preço

Fatura

Preço

01

(R$) 750

07

(R$) 760

13

(R$) 770

19

(R$) 790

02

750

08

765

14

770

20

795

03

750

09

765

15

770

21

795

04

750

10

765

16

785

22

800

05

755

11

765

17

785

23

810

06

760

12

765

18

790

24

820

Extrair, sem reposição, uma amostra estratificada proporcional de tamanho n

= 8.

Solução:

f=

8 = 0,27 30

32

De cada estrato serão sorteadas respectivamente nE e nF unidades: nE

= (0,27) . 6 = 1,62 ≅ 2

nF = (0,27) . 24 = 6,48 ≅6

Para encontrar a amostra referente ao eletroduto E utilizamos TNA (8.ª coluna – primeiro algarismo) e para encontrar a amostra referente ao eletroduto F utilizamos TNA (4.ª coluna – últimos algarismos). Assim obtemos: Estrato Leitura TNA Fatura (R$)

E na 3

1

F 20

03

18

17

24

12

715 710 795 750 790 785 820 765

Entre as vantagens da amostragem estratificada destacam-se: a) os dados são geralmente mais homogêneos dentro de cada estrato do que na população como um todo; b) o custo da coleta e análise dos dados é freqüentemente menor nesse tipo de amostragem do que na aleatória simples, devido a conveniências administrativas; c) podem-se obter estimativas separadas dos parâmetros populacionais para cada estrato sem selecionar outra amostra e, portanto, sem custo adicional.

33

Amostragem Sistemática Uma amostragem sistemática de tamanho n é constituída dos elementos de ordem K, K+r, K+2r, ... , onde K é um inteiro escolhido aleatoriamente entre 1 e n . E r é o inteiro mais próximo da fração r≈

N n

Por exemplo, se a população tem 100 elementos e vamos escolher uma amostra de tamanho 6, K é um inteiro escolhido aleatoriamente entre 1 e 6, e r = 100/6 = 16,6 = 17. Pela TNA (8ª coluna – primeiro algarísmo) K = 3. Assim a amostra será composta pelos elementos de posição: 3, 20, 37, 54, 71, 88 Se o tamanho da população é desconhecido, não podemos determinar exatamente o valor de r. Escolheremos intuitivamente um valor razoável para r. Às vezes a amostragem sistemática é preferida à amostragem aleatória simples, porque é mais fácil de executar, estando portando menos sujeita a erros, e proporciona mais informações com menor custo. Exemplo: escolha a técnica adequada para extrair uma amostra de 50 compradores de uma loja. Solução: A amostragem aleatória simples não pode ser empregada neste caso, pois o entrevistador não pode determinar quais compradores serão incluídos na amostra, uma vez que não se conhece o tamanho N da população, até que todos os compradores tenham ido à loja. Assim, ele pode usar a amostragem sistemática (digamos 1 em cada 20 compradores) até obter a amostra do tamanho desejado.

34

Exercícios 1) Com relação a amostragem aleatória simples é CORRETO afirmar que: a) ( ) Utilizamos a tabela de números aleatórios para encontrar o valor do k. b) ( ) É utilizada quando conhecemos parte da população c) ( ) Pode ser utilizada quando não conhecemos a população d) ( ) É um método aleatório em que não há possibilidade do pesquisador interferir na escolha da amostra; e) ( ) Nenhuma das alternativas acima. 2) Com relação a amostragem sistemática é CORRETO afirmar que: a) ( ) Permite encontrar amostras de população cujo número total de elementos é desconhecido; b) ( ) A amostra é encontrada utilizando uma progressão geométrica cujo primeiro termo é o primeiro elemento da população ; c) ( ) A amostra é encontrada utilizando uma progressão aritmética cujo primeiro termo é o primeiro elemento da população ; d) ( ) A amostra é encontrada utilizando uma progressão aritmética cuja razão é encontrada na tabela de números aleatórios; e) ( ) Nenhuma das alternativas acima. 3) Com relação a amostragem estratificada é CORRETO afirmar que: a) ( ) Permite encontrar amostras de estratos que não possuem nenhuma característica em comum; b) ( ) Os estratos devem ser disjuntos; c) ( ) A amostra é sempre dividida em partes iguais para cada estrato; d) ( ) Utilizamos uma amostragem aleatória simples considerando todos os estratos juntos; e) ( ) Nenhuma das alternativas acima.

35

4) O gerente de um determinado banco com o intuito de fazer uma pesquisa junto a seus clientes utiliza o seguinte processo: Pega o primeiro cliente que compareceu à agência naquele dia e o entrevista. O segundo a ser entrevistado é o 6.º cliente. O terceiro a ser entrevistado é o 11.º cliente e assim sucessivamente até que a agência feche. É CORRETO afirmar que: a) b) c) d) e)

( ( ( ( (

) O gerente utilizou uma amostragem estratificada proporcional; ) O gerente utilizou uma amostragem aleatória simples; ) O gerente utilizou uma amostragem sistemática; ) O gerente não utilizou nenhum método de amostragem; ) Nenhuma das alternativas acima.

5) Considere o seguinte problema: Deve-se extrair uma amostra estratificada proporcional de tamanho 60 de uma população de tamanho 4.000, que consiste de três estratos de tamanhos N1=2.000, N2=1.200 e N3= 800. É CORRETO afirmar que: a) b) c) d) e)

( ( ( ( (

) Do primeiro estrato deverá ser extraída 18 amostras; ) Do segundo estrato deverá ser extraída 30 amostras; ) Do terceiro estrato deverá ser extraída 12 amostras; ) Deverá extrair 20 amostras de cada estrato; ) Nenhuma das alternativas acima.

6) A única opção que traz dois métodos de amostragem em que é preciso conhecer todos os elementos da população é: a) ( ) Aleatória simples e por conglomerado; b) ( ) Por conglomerado e sistemática; c) ( ) Aleatória simples e sistemática; d) ( ) Estratificada e por conglomerado; e) ( ) Nenhuma das alternativas acima. 7) Os dados abaixo se referem a taxa de hemoglobina no sangue (em gramas/cm 3) de 12 professores de uma determinada escola. 36

Professor

1

2

3

4

5

6

7

8

9

10

11

12

Taxa de 11,1 12,2 15,2 11,3 14,4 12,7 13,5 15,8 11,7 16,3 14,1 12,5 hemoglobina Extrair uma amostra sistemática de 3 taxas de hemoglobina. (Usar 7.ª coluna da TNA, último algarismo). 8) Os dados abaixo referem-se ao salário (em salários mínimos) de 20 funcionários administrativos em uma indústria. 10.1 3.3

7.3 10.7

8.5 1.5

5 8.2

4.2 10

3.1 4.7

2.2 3.5

9 6.5

9.4 8.9

6.1 6.1

a) Extraia uma amostra de 6 elementos usando a amostra aleatória simples. (Usar 2.ª coluna na TNA, dois últimos algarismos);

TNA 18 15 03 16 01 19 Salário 6.5 10 8.5 4.7 10.1 8.9 b) Extraia uma amostra de 5 elementos usando a amostra sistemática. (Usar 2.ª coluna na TNA, último algarismo). 9) Uma pesquisa com usuários de transporte coletivo na cidade de São Paulo indagou sobre os diferentes tipos usados nas suas locomoções diárias. Dentre ônibus, metrô e trem, o número de diferentes meios de transporte utilizado foi o seguinte: 2, 3, 2, 1, 2, 1, 2, 1, 2, 3, 1, 1, 1, 2, 2, 3, 1, 1, 1, 1, 2, 1, 1, 2, 2, 1, 2, 1, 2 e 3. a) Extraia uma amostra de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 37

10) A idade dos 20 ingressantes num certo ano no curso de pós-graduação em jornalismo de uma universidade foi o seguinte: 22, 22, 22, 22, 23, 23, 24, 24, 24, 24, 25, 25, 26, 26, 26, 26, 27, 28, 35 e 40. a) Extraia uma amostra, com reposição, de 8 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra, sem reposição, de 8 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, último algrarismo); 11) Um novo medicamento para cicatrização está sendo testado e um experimento é feito para estudar o tempo (em dias) de completo fechamento em cortes provenientes de cirurgia. As 30 cobaias tiveram os seguintes tempos: 15, 17, 16, 15, 17, 14, 17, 16, 16, 17, 15, 18, 14, 17, 15, 14, 15, 16, 17, 18, 18, 17, 15, 16, 14, 18, 18, 16, 15 e 14. a) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra, sem reposição, de 10 elementos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 12) Um exame vestibular para uma faculdade tem 80 questões, sendo 40 de português e 40 de matemática. Para os 20 melhores classificados, apresentamos o número de acertos em cada disciplina, em ordem decrescente de pontos: Aluno

1

2

3

4

5

6

7

8

9

10

Português Matemática

35 31

35 29

34 27

32 28

31 28

30 26

26 30

26 28

24 25

23 23

Aluno

11

12

13

14

15

16

17

18

19

20

Português

23

12

11

20

17

12

14

20

8

10

Matemática

21

32

31

20

21

25

20

13

23

20 38

a) Extraia uma amostra de 5 alunos usando a amostra aleatória simples. (Usar 3.ª coluna na TNA, dois últimos algarismos); b) Extraia uma amostra de 5 alunos usando a amostra sistemática. (Usar 3.ª coluna na TNA, dois últimos algarismos); 13) Em uma escola da rede municipal, estão matriculados 370 alunos no curso da manhã. Eles estão distribuídos na seguinte maneira: Salas

5.ª A 5.ª B 5.ª C 6.ª A 6.ª B 6.ª C 6.ª D 7.ª A 7.ª B 8.ª A 8.ª B 8.ª C

Alunos 30

25

30

30

30

25

25

35

40

35

35

30

a) Extraia uma amostra de 74 alunos usando a amostra estratificada. (Usar 3.ª coluna na TNA, dois últimos algarismos) 14) O Departamento de Ensino de uma Escola Particular, de um bairro de classe média, deseja realizar uma pesquisa para saber se seria conveniente criar o 2.º grau em seu quadro de turmas. Isso porque ela ministra apenas da 1.ª série à 8.ª série do ensino básico e fundamental. Para isso ela contrata uma firma de consultoria para realizar esta pesquisa. Suponhamos que você faça parte dessa firma e seja indicado(a) para formular um questionário a fim de coletar dados que irão ajudar na solução deste problema. Então você deverá criar um questionário com esse objetivo. Bom trabalho.!!! 15) Os dados a seguir referem-se ao consumo de energia elétrica, em mil MWh. Os dados são da CEMIG,FURNAS, ELETROBRÁS. Setor Refinaria de petróleo Química

2007 2006 2005 2004 2003 2002 2001 2000 1999 1998 1997 301

286

262

248

246

253

238

259

242

236

251

3471 3465 3189 3089 2929 2770 2591 2747 2033

Residencial 7301 7118 7047 6965 6963 6785 6899 Extrair uma amostra estratificada proporcional de tamanho 9, sem repetição. 39

Usar: Refinaria: 2ª coluna, Química: 4ª coluna e Residência: 7ª coluna. Ambos utilizar primeiros lgarísmos. 16) Os dados a seguir referem-se ao número de acidentes de tráfego durante 50 horas de pico em certa rodovia. 1 0

0 4

3 3

2 1

3 3

5 1

3 5

0 3

2 4

7 4

2

1

3

1

2

2

1

0

2

0

0

1

1

2

4

5

3

4

3

4

3

3

5

2

1

6

1

2

4

6

17) Os dados a seguir referem-se ao número de alarmes falsos (acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança.

3 4

6 7

2 4

4 6

5 5

8 5

2 5

5 4

6 3

3 7

4

4

6

3

9

5

7

4

4

6

18) Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre taxas de octanagem de combustível para motor, de várias misturas de gasolina. 40 destes resultados são apresentados a seguir: 88,5 89,9 93,4 90,1

94,7 98,8 96,1 89,3

84,3 88,3 89,6 91,1

90,1 90,4 90,4 92,2

89 91,2 91,6 83,4

89,8 90,6 90,7 91

91,6 92,2 88,6 88,2

90,3 87,7 88,3 88,5

90 91,1 94,2 93,3

91,5 86,7 85,3 87,4

Extrair uma amostra sistemática de tamanho n = 6. Utilize a tabela de números aleatórios: 1ª coluna, primeiro algarismo. OBS.: A numeração deverá ser feita por linha.

40

Distribuição de Freqüência Dados Brutos Após a coleta de dados é comum encontrá-los desordenados, ou seja, fora de alguma ordem. Por essa razão, costuma-se chamá-los de dados brutos. Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 45 51 50 49

45 51 50 49 49

49 46 52 50 51

47 44 44 46 50

52 48 48 46 49

Rol Quando tomamos os dados brutos e colocamos seus elementos em uma determinada ordem, crescente ou decrescente, obtemos um conjunto organizado denominado Rol. 43 46 48 49 51

44 46 49 50 51

44 46 49 50 51

45 47 49 50 52

45 48 49 50 52

41

Tabela de freqüência As tabelas de freqüências são representações nas quais os valores se apresentam em correspondência com suas repetições. Uma das vantagens da tabela de freqüência é proporcionar uma rápida visualização dos dados. Também é possível calcular medidas com um menor número de cálculos. A seguir apresentamos as tabelas de freqüências simples (não agrupadas em classes). Distribuição de Freqüências de Dados Tabulados Não-Agrupados em Classes É uma tabela onde cada valor da variável aparece individualmente com sua respectiva freqüência, repetição. Esse tipo de apresentação é utilizado para representar uma variável discreta ou descontinua. Exemplo: A tabela abaixo representa Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:

42

Tabela 3: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:

Temperatura

Freqüência fj

43

1

44 45 46 47 48 49 50 51 52

2 2 3 1 2 5 4 3 2 25

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Distribuição de Freqüências de Dados Agrupados em Classes Muitas vezes, mesmo com o risco de se sacrificar algum detalhe manifestado na ordenação de valores individuais, há vantagem em resumir os dados srcinais em uma distribuição, onde os valores observados não mais aparecerão individualmente, mas agrupados em classes. Para variáveis contínuas sempre usamos agrupar. Para variáveis discretas e número de valores representativos dessa variável muito grande também agrupamos. Elementos de uma Distribuição de Freqüências 1) Freqüência Simples Absoluta: fj É o número de observações correspondentes a essa classe ou a esse valor. A freqüência simples absoluta, ou simplesmente freqüência, é simbolizada por f j . 43

2) Amplitude Total: At É a diferença entre o maior e o menor valor observado da variável em estudo. 3) Número de Classes É cada um dos grupos de valores em que se subdivide a amplitude total do conjunto de valores observados da variável. Uma classe pode ser identificada por seus extremos ou pela ordem em que ela se encontra na tabela (valor do índice j) O número de classes pode ser calculado usando a fórmula de Sturges: k = 1 + 3,3 log10 N Onde k = número de classes N = número total de observações O arredondamento de k é feito para o inteiro imediatamente superior. 4) Limites de classes Os limites de classe são seus valores extremos. a) Limite Inferior: É o valor mínimo de uma classe. b) Limite Superior: É o valor máximo de uma classe. Este pode não pertencer à classe atual. 5) Amplitude do Intervalo de classe Amplitude do intervalo de classe ou simplesmente intervalo de classe é o comprimento da classe, sendo geralmente definida como a diferença entre seus limites superior e inferior. 44

6) Ponto médio de classe O ponto médio ou valor médio é o valor que a representa, para efeito de cálculos de certas medidas. Na distribuição de freqüências com valores agrupados em classes, considera-se que os resultados incluídos em cada classe distribuem-se uniformemente por seu intervalo. Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 46 48 49 51

44 46 49 50 51

44 46 49 50 51

45 47 49 50 52

45 48 49 50 52

Amplitude total = 52 – 43 = 9 Número de classes: k = 1 + 3,3 x log 25 k = 1 + 3,3 x 1,3979 k = 5,61 k≅6 Amplitude do intervalo de classe: Ac = At / k = 9 / 6 = 1,5 Obs: Devemos inicialmente testar se o limite superior da última classe é maior ou igual ao valor máximo. Para isto utilizamos a fórmula Limite superior da última classe = mínimo + k. Ac Caso o limite superior não seja maior ou igual ao valor máximo então devemos, como alternativa, fazer um arredondamento por excesso na amplitude de classe. Limite superior da última classe = 43 + 6. 1,5 = 52 45

Tabela 4: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura

fj

43,0 |--- 44,5

3

44,5 |--- 46,0

2

46,0 |--- 47,5

4

47,5 |--- 49,0

2

49,0 |--- 50,5

9

50,5 |---| 52,0

5

Total

25

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Tipos de freqüência 







Frequência simples ( fj): é a freqüência de cada valor individual ou de cada classe; Frequênca acumulada simples ( Fj): é a soma de todas as frequências simples anteriores; Frequência relativa simples (frj): é o valor de cada freqüência simples dividido pela soma das freqüências; Frequênca acumulada relativa (Frj): é a soma de todas as frequências relativas simples anteriores;

46

Exemplo: Considere a tabela a seguir Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto Frequência Frequência Frequência temperatura

fj

acumulada simples Fj

relativa Simples frj

relativa Acumulada Frj

43,0 |--- 44,5

3

3

0,12

0,12

44,5 |--- 46,0

2

5

0,08

0,20

46,0 |--- 47,5

4

9

0,16

0,36

47,5 |--- 49,0

2

11

0,08

0,44

49,0 |--- 50,5

9

20

0,36

0,80

50,5 |---| 52,0

5

25

0,20

1,00

Total

25

1,00

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Observação: A soma total da freqüência relativa simples deve ser igual a 1.

47

ROTEIRO PARA A ELABORAÇÃO DE UMA TABELA DE FREQÜÊNCIAS COM DADOS AGRUPADOS EM CLASSES

Para a construção de uma tabela de freqüências, é conveniente adotar-se um roteiro que, embora baseado em critérios relativamente arbitrários, facilita e torna operacional o trabalho de quem irá montar a tabela. O roteiro proposto consta dos seguintes passos: a) Lista de dados brutos que pode ou não ser transformada em rol; b) Encontrar a amplitude total do conjunto de valores observados: At =

Maior valor do conjunto

-

Menor valor do conjunto

c) Calcular o número de classes (k) usando a fórmula de Sturges: d) Determinar a amplitude do intervalo de classe. Muitas vezes convém arredondar o número correspondente à amplitude do intervalo de classe a que se chegou para um número mais adequado, que facilite os cálculos. e) Determinar os limites das classes, escolhendo-se preferencialmente, números inteiros. f) Construir a tabela de freqüências.

48

Manual para Normalização de Publicações Técnico – cientificas Ed. UFMG Tabelas de distribuição de freqüência 1) As tabelas devem ser dotadas de um título claro e conciso localizado acima delas. São numeradas seqüencialmente em todo o trabalho, com algarismos arábicos (1, 2, 3, ...), segundo normas do IBGE. 2) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das colunas podem ser datilografados verticalmente, se necessário, para economizar espaço. 3) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os símbolos, conforme convenção internacional: quando, pela natureza do fenômeno, o dado não existir Z quando o dado for rigorosamente zero ... quando não se dispuser do cálculo -

4) Na construção de tabelas usam-se os seguintes traços: a) traço duplo horizontal, limitando o quadro; b) traço simples vertical, separando a coluna indicadora das demais e estas entre si; no corpo da tabela pode ser eliminado desde que o número de colunas seja pequeno e não haja prejuízo na leitura dos dados; 5) a tabela não deve ser fechada lateralmente, tampouco se colocam traços horizontais separando os dados numéricos.

49

Exercícios Para os exercícios 1 a 5 construa uma tabela de distribuição de freqüência simples. 1) As cifras abaixo representam os ganhos de 15 vendedores: 425

440

610

518

324

482 509

624 561

390 482

468 480

457 520

2) Dão-se a seguir os pesos, em libras, de 20 candidatos a empregos no corpo de bombeiros de uma cidade: 225

182

194

210

205

172

181

198

164

176

180

193

178

193

208

186

183

170

186

188

3) Os seguintes números de unidades de um produto foram completados em determinados dia por 20 operários de uma fábrica de artigos de artesanato: 61

58

59

72

47

55

40

73

66

60

71

69

63

58

51

42

67

80

62

53

4) Uma auditoria em 60 faturas de venda revelou os seguintes números de erros na fixação de preços: 0

0

2

1

4

1

0

1

3

2

2

0

1

1

1

4

0

3

1

5

1

1

0

2

0

0

1

1

4

3

0

1

0

2

1

4

3

1

0

0

5

1

2

0

3

0

2

1

1

3

1

4

3

0

2

0

1

1

0

1

50

5) Dão-se, a seguir, os números de alarmes falsos(acionados acidentalmente ou por mau funcionamento do equipamento) recebidos em 30 dias por um serviço de monitoramento da segurança: 3

6

2

4

5

8

2

5

6

3

4

7

4

6

5

5

5

4

3

7

4

4

6

3

9

5

7

4

4

6

As questões de 6 a 11 são referentes à tabela a seguir. Ela se refere a notas de alunos, em uma prova de 30 pontos, de uma determinada escola.

Notas

11

21

fj

I-----

6

I-----

2

I-----

2

I-----

10

I----I-----

6 4 Total

30

6) O valor do limite superior da 4.ª classe é de: a) b) c)

( ) 17; ( ) 18; ( ) 19;

d) e)

( ) 20; ( ) Nenhuma das alternativas acima.

7) O valor do limite inferior da 3.ª classe é de: a) ( ) 13; b) ( ) 14; 51

c) ( ) 15; d) ( ) 16; e) ( ) Nenhuma das alternativas acima. 8) O valor da freqüência acumulada simples da 5.ª classe é de: a) b) c) d) e)

( ( ( ( (

) 8; ) 10; ) 20; ) 26; ) Nenhuma das alternativas acima.

9) O valor da freqüência relativa acumulada 4.ª classe é de: a) b) c) d) e)

( ( ( ( (

) 0,2000; ) 0,2667; ) 0,3333; ) 0,6667; ) Nenhuma das alternativas acima.

10) Porcentagem dos alunos que tiraram abaixo de 50% da nota da prova é de: a) ( ) 20%; b) ( ) 27%; c) ( ) 34%; d) ( ) 67%; e) ( ) Nenhuma das alternativas acima. 11) A nota em que 66% dos alunos estão acima dela é de: a) b) c) d) e)

( ( ( ( (

) 15; ) 16; ) 17; ) 18; ) Nenhuma das alternativas acima. 52

As questões de 12 a 15 são referentes à tabela a seguir. Ela se refere a pacientes internados no hospital X, localidade Y, no ano Z.

Grupo etários (em anos)

fj

20 |---

1

|---

3

|---

5

|---

6

|---

4

70 |---

1

Total

20

12) O valor do limite superior da 4.ª classe é de: 13) O valor do limite inferior da 3.ª classe é de: 14) O valor da freqüência acumulada simples da 5.ª classe é de: 15) O valor da freqüência relativa simples da 4.ª classe é de: 16) Os dados se referem aos pesos dos alunos de uma determinada escola: 60.5

60

70

47.4

60

57

52

47

55

50

55

58

54

66

58.5

63

73

95

39

54.5

72.8 80.9

47 57.8

58 68.5

85.2 54.5

49.2 48

52 49

56 58

84 60

75 55

50 71

55

58

63.5

52.5

51.6

59

87

73

49

86

Após construir uma tabela de distribuição de freqüência agrupada em classes, a freqüência simples da terceira classe é de: 53

17) Os dados abaixo se referem aos pesos dos alunos de uma determinada escola: 60.5

60

70

47.4

60

57

52

47

55

50

55

58

54

66

58.5

63

73

95

44

54.5

72.8

47

58

85.2

49.2

52

56

84

75

50

80.9

57.8

68.5

54.5

48

49

58

60

55

71

55

58

63.5

52.5

51.6

59

87

73

49

86

Siga os passos para a construção de uma tabela de distribuição de freqüência com dados agrupados: a) Determine a amplitude total b) Determine a amplitude de classe c) Construa a tabela usando 7 classes d) Inclua na tabela as freqüências relativas simples e) Inclua na tabela as freqüências acumuladas (abaixo de) simples f) Inclua na tabela as freqüências acumuladas (abaixo de) relativas

18) Com relação à tabela de distribuição de freqüência agrupada acima responda: a) Quantos alunos pesam até 69 kg? b) Quantos alunos pesam mais de 76 kg? c) Qual a porcentagem de alunos que pesam menos de 62 kg?

54

19) Uma importante característica de qualidade da água é a concentração de material sólido suspenso. Em seguida, são apresentadas 60 medidas de sólidos suspensos de um certo lago. Os dados são do livro Estatística Aplicada e Probabilidade para Engenheiros. 42,4 81,3 42,8 61,4 57,1 52

54,3 45,3 68,7 42,6 48,5 56,1

56,3 52,1 69,9 61,4 72,5 59,3

65,7 59,9 42,4 64 77,3 59,6

54 80,1 67,3 77,4 89,8 67,2

43,3 55,8 66,9 73,1 46,1 51,1

29,8 56,9 59,6 64,2 39,3 66,1

73,1 49,7 67,3 54,7 50,7 70,7

57,4 57 59 77,3 53,1 73,8

58,7 62,2 65,8 72,6 76,4 31,6

Com o objetivo de construir uma tabela de distribuição de frequência agrupada em classes calcule: a) Valor mínimo e máximo; b) Amplitude total; c) Número de classes; d) Amplitude de classes; e) Construa a tabela apresentando as frequência simples e relativa simples. Considere log 60 = 1,7782

55

Medidas de Tendência Central. As medidas de tendência central têm por objetivo localizar o centro dos dados. Estas medidas são: média, mediana e moda. Em muitos casos estas medidas são diferentes, mas elas também podem ser iguais. Nesta apostila adotamos, didaticamente, dois casos para o cálculo destas medidas: quando os dados são brutos ou estão em tabela de distribuição simples e quando os dados estão em tabela de distribuição agrupada em classes. Dados brutos 1) Média Aritmética Simples

A média aritmética simples, amostral, de um conjunto de n observações x1 , x 2 ,L , x n

é definida por n

∑ xi

x =

i =1

n

A média aritmética simples, populacional, de um conjunto de x1 , x2 ,L , x N

observações

é definida por N

∑ xi

µ =

i =1

N

56

Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos. 206

188

205

187

194

193

207

185

189

213

Qual a média aritmética? Solução: A média será n

∑x x = x= x=

i

i =1

n 206 + 188 + 205 + 187 + 194 + 193 + 207 + 185 + 189 + 213 10 1.967 10

x = 196,7

2) Mediana: Md Para evitar a possibilidade de sermos enganados por valores muito pequenos ou muito grandes, ocasionalmente descrevemos o “meio” ou “centro”de um conjunto de dados com outras medidas estatísticas que não a média. Uma dessas medidas, a MEDIANA de n valores, exige que os ordenemos, e se define como: O valor do elemento do meio se n é ímpar, ou a média aritmética dos dois valores do meio se n é par.

Assim dizemos que a mediana é o valor do

n +1 2

elemento.

57

Exemplo: Os dados a seguir representam as temperaturas (em ºF) em que ocorrem uma deflexão, devido à carga, em uma amostra de 10 tubos plásticos idênticos. 206

188

205

187

194

193

207

185

189

213

194

205

206

207

213

Qual a mediana? Solução: Ordenando os elementos temos: 185

187

188

189

193

Como temos 10 elementos, número par, a mediana será a média aritmética dos dois elementos centrais. Logo a mediana é Md =

193 + 194 2

= 193,5 .

Exemplo 2: Em algumas áreas, as pessoas autuadas por certas infrações leves de tráfego podem freqüentar um curso de direção defensiva em lugar de pagar uma multa. Se 11 desses cursos foram freqüentados por 40 32 37 30 24 40 38 35 40 28 32 Cidadãos. Qual a mediana? Solução: Ordenando os elementos temos: 24 28 30 32 32 35 37 38 40 40 40 Como temos 11 elementos, número ímpar, a mediana será o valor do elemento central. A posição central é o 6º elemento, Posição =

11 + 1 2

=6

. Logo a mediana será

35.

58

3) Moda: Mo É o valor que ocorre com maior freqüência e mais de uma vez. Exemplo: Vinte reuniões de um clube de dança tiveram as seguintes freqüências de seus membros 26 25 28 23 25 24 24 21 23 26 28 26 24 32 25 27 24 23 24 22 Qual a moda? Solução: A moda vale 24, pois ocorre 5 vezes. Observação: A moda é raramente utilizada em inferência estatística pelo fato de nem sempre existir (o que ocorre quando não há dois valores iguais) ou de, eventualmente, não ser única. Exemplo: Os dados a seguir referem-se a quantidade de pessoas que assistiram a 6 sessões de um filme no cinema: 121 133 121 133 114 141 Qual o número modal de pessoas que assistiram ao filme? Solução: Temos que os números 121 e 133 repetem, ambos, duas vezes. Portanto a moda não é única. Logo as modas são 121 e 133.

59

Dados em tabela de distribuição de freqüência Considere: o ponto médio da classe i , fi a freqüência da classe i, xi

k a quantidade de classe. 1) Média aritmética A média aritmética é definida por:

k

∑ x i . fi

x =

i =1 k

∑ fi

i =1

OBS.: Caso tenhamos uma tabela de distribuição agrupada em classes, o valor de xi será o ponto médio da classe.  O arredondamento será sempre uma casa decimal a mais que os dados. 

60

Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela: Número de defeitos por peça Freqüência Número de defeitos (x i)

fj

0 1

5 10

2 3

18 12

4

5 50

Fonte: Referência bibliográfica [1] Calcule número médio de defeitos. Solução: Preenchemos a tabela com os valores necessários Número de defeitos (x i)

Freqüência fi

Xi f i

0 1

5 10

0 10

2 3 4

18 12 5

36 36 20

50

102

A média será

k

∑x . f i

x =

i =1

=

k

∑f

i

102 50

= 2,0

i

i =1

61

Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura

fj

43,0 |--- 44,5 44,5 |--- 46,0

3 2

46,0 |--- 47,5

4

47,5 |--- 49,0

2

49,0 |--- 50,5

9

50,5 |---| 52,0

5

Total

25

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Calcule a temperatura média. Solução: Preenchemos a tabela com os valores necessários temperatura

fj

xj

xjfj

43,0 |--- 44,5

3 43,75 131,25

44,5 |--- 46,0

2 45,25

46,0 |--- 47,5

4 46,75 187,00

47,5 |--- 49,0

2 48,25

49,0 |--- 50,5

9 49,75 447,75

50,5 |---| 52,0

5 51,25 256,25

Total

25

90,50 96,50

1.209,25

A temperatura média será k

∑x . f i

x =

i =1

=

k

∑f

i

1.209,25 25

= 48,37

i

i =1

62

2) Mediana Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso dos dados estarem na forma bruta. Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela: Número de defeitos por peça

Número de defeitos (x i)

Freqüência fi

0

5

1 2 3

10 18 12

4

5 50

Fonte: Referência bibliográfica [1] Qual o número mediano de defeito? Solução: Como temos 50 elementos, o valor mediano deverá ser a média dos dois elementos centrais. Neste caso os dois elementos centrais são os elementos de posição 25º e 26º,

2+2 2

= 2 . Assim o número mediano de defeito é 2.

Para uma distribuição de freqüência agrupada em classes, a mediana é tal que metade da área total dos retângulos do histograma da distribuição está à sua esquerda, e a outra metade está à sua direita. De modo geral podemos calcular a mediana por: n   −∑ f   ⋅h

2 Md = ~ x = L+ 

F

63

onde L: é o limite inferior da classe em que a mediana deve estar. F: é a freqüência da classe mediana h: o intervalo de classe n: é o número de elementos ou tamanho da amostra ∑ f : soma das frequência anteriore s à classe da mediana Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Calcule a temperatura média. Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura

fi

43,0 |--- 44,5 44,5 |--- 46,0

3 2

46,0 |--- 47,5

4

47,5 |--- 49,0

2

49,0 |--- 50,5

9

50,5 |---| 52,0

5

Total

25

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Qual o valor da temperatura mediana? Solução: Como temos 25 elementos, o valor mediano deverá estar no 25 2

= 12,5º elemento.

Assim 3 + 2 + 4 + 2 = 11 e 3 + 2 + 4 + 2 + 9 = 20. A mediana estará na 5.ª classe. Usando a fórmula temos: L = 49,0, F = 9, h = 1,5 e

∑ f = 11 . Logo 64

n   −∑ f  2   ⋅h Md = L + F

Md = 49,0 +

(12,5 − 11) 9

⋅ 1,5

Md = 49,25

Portanto a mediana é 49,25. 3) Moda Se tivermos uma tabela de distribuição de freqüência simples, então podemos proceder como no caso dos dados brutos. Exemplo: A tabela abaixo representa o número de defeitos por peça. Tabela: Número de defeitos por peça Freqüência Número de defeitos (x i) fi 0 1 2

5 10 18

3 4

12 5 50

Fonte: Referência bibliográfica [1] Qual o número de defeito modal? Solução: 0 número de defeito que mais ocorre é 2, pois ocorre 18 vezes. Logo o número de defeito modal é Mo = 2.

65

Quando temos uma tabela de distribuição de freqüência agrupada em classes, o cálculo da moda é feito utilizando a fórmula de Czuber. 1.º passo: Identificamos a classe modal ( aquela que possui maior frequência) 2.º passo: Aplica-se a fórmula

Mo = L +

∆1 ⋅h ∆1 + ∆ 2

onde L: É o limite inferior da classe modal. ∆1 : Diferença entre a freqüência da classe modal e a classe imediatamente anterior. ∆2 : Diferença entre a freqüência da classe modal e a classe imediatamente

posterior. h: Amplitude da classe modal Exemplo: A tabela abaixo representa as temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto. Tabela 5: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto temperatura

fi

43,0 |--- 44,5

3

44,5 |--- 46,0

2

46,0 |--- 47,5

4

47,5 |--- 49,0

2

49,0 |--- 50,5 50,5 |---| 52,0

9 5

Total

25

Fonte: Estatística Aplicada e Probabilidade para Engenheiros [2] Calcule a temperatura modal 66

Solução: 1.º passo: A classe modal é a 5.ª, pois ela possui a maior freqüência. 2.º passo: Temos L = 49,0 , ∆ 1 = 9 − 2 = 7 , ∆ 2 = 9 − 5 = 4

e h = 1,5

Mo = 49,0 +

7 7+4

⋅ 1,5

Mo = 49,95

Logo a temperatura modal é Mo = 49,95. Obs: Podemos também calcular o valor aproximado da moda utilizando a fórmula de Pearson: Mo = 3 Md − 2 x

Exercícios I) Considere a tabela Tabela: Quantidade de óxido de enxofre (em toneladas) emitidas por uma indústria em 70 dias Tempo 6,2 |--9,4 |--12,6 |--15,8 |--19,0 |--22,2 |--25,4 |--28,6 |---

f 4 8 9 14 14 11 8 2 70 Fonte: referência bibliográfica [2] 9,4 12,6 15,8 19,0 22,2 25,4 28,6 31,8

Calcule: 1) Média aritmética 2) Mediana 3) Moda 4) Compare as medidas calculadas.

67

II) Considere a tabela Tabela: Tempo de percurso, para o trabalho, de 100 empregados de um grande escritório localizado no centro da cidade Tempo 11,4 25,65 39,90 54,15 68,40 82,65 96,90 111,15

|--|--|--|--|--|--|--|---

25,65 39,90 54,15 68,40 82,65 96,90 111,15 125,40

f 20 36 29 5 1 4 3 2 100

Fonte: Calcule: 1) Média aritmética 2) Mediana 3) Moda 4) Compare as mediadas calculadas.

68

Separatrizes As separatrizes são medidas de posição, ou seja, são medidas que dividem o conjunto de dados em partes iguais. As medidas de posição estudadas nesta apostila são: quartil, decil e percentil. A seguir destacamos os métodos de cálculo destas medidas.

Dados brutos ou em tabela de distribuição simples Para o cálculo das medidas separatrizes é necessário, primeiramente, ordenar os dados. Quartis Os quartis dividem um conjuto de dados em quatro partes uguais. Assim: Q1 = 1º quartil Q2 = 2º quartil Q3 = 3º quartil

O cálculo dos quartis é feito utilizando a fórmula: i (N + 1) 4 i Valor: Q i = X ()j + (()X j +1() − X j ), onde j é a parte inteira do resultado de 4 PQ i .

Posição: PQ i =

Exemplo: Os dados a seguir referem-se a pressão sanguínea sistólica de 20 pacientes de um hospital. 165 124

135 162

151 173

153 204

155 159

182 130

152 177

158 162

146 162

149 165

151 173

152 177

146 141

149 156

Calcule: 1) 2º quartil Solução: Ordenando os dados. 124 156

130 158

135 159

141 162

153 182

155 204

2 (20 + 1) = 10,5 4 i Valor: Q i = X ()j + (()X j +1() − X j ) = 155 + 0 ,5(156 − 155) = 155,5 4

Posição: PQ i =

69

2) 3º quartil Posição: PQ i = Valor: Q i = X () j

3 (20 + 1) = 15,75 4 i + (( X) j +1)( − X j ) = 162 + 0,75(165 − 162) = 164,2 4

Decis Os decis D = dividem 1º decilum conjuto de dados em dez partes uguais. Assim: 1

D2 = 2º decil M

D9 = 9º decil

O cálculo dos decis é semelhante ao cálculo dos quartis. Calcula-se a posição utilizando: PDi =

i (N + 1) 10

Calcula-se o valor de cada decil utilizando a fórmula: D i = X () j +

i ((X) j +()1 − X j ) , onde j é a parte inteira do resultado de PD i . 10

Percentis Os percentis dividem um conjuto de dados em cem partes uguais. Assim: P1 = 1º percentil P2 = 2º percentil M

P99 = 99º percentil

O cálculo dos percentis é semelhante ao cálculo dos quartis. Calcula-se a posição utilizando: PPi =

i (N + 1) 100

Calcula-se o valor de cada percentil utilizando a fórmula: Pi = X () j +

i ( (X) j +()1 − X j ) , onde j é a parte inteira do resultado de PPi . 100

Exercícios I) Os dados a seguir referem-se a pressão sanguínea sistólica de 20 pacientes de um hospital. 124 156

130 158

135 159

141 162

146 162

149 165

151 173

152 177

153 182

155 204

Calcule: 1) 3º decil; 70

2) 9º decil; 3) 75º percentil; 4) 95º percentil. II) Exemplo 1: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto:

43 46 48 49 51

44 46 49 50 51

44 46 49 50 51

45 47 49 50 52

45 48 49 50 52

Calcule: 1) 3º decil; 2) 7º decil; 3) 85º percentil;

Dados agrupados em classes Quartis Os quartis dividem um conjuto de dados em quatro partes uguais. Assim: Q1 = 1º quartil Q2 = 2º quartil Q3 = 3º quartil

O cálculo dos quartis é feito utilizando a fórmula:

Qi = LQi

 n⋅i  − ∑ f ⋅h  4   + FQi

Onde: LQ : é o limite inferior da classe em que o quartil deve estar. i

FQi

: é a freqüência da classe do quartil

h: o intervalo de classe n: é o número de elementos ou tamanho da amostra

∑ f : soma das frequência anteriore s à classe do quartil Decis Os decis dividem um conjuto de dados em dez partes uguais. Assim: 71

D1 = 1º decil D2 = 2º decil M

D9 = 9º decil

O cálculo dos decis é feito utilizando a fórmula:

Di = LDi

 n⋅i  −∑ f ⋅h  +  10  FDi

Onde: LD : é o limite inferior da classe em que o decil deve estar. i

FDi

: é a freqüência da classe do decil

h: o intervalo de classe n: é o número de elementos ou tamanho da amostra

∑ f : soma das frequência anterior es à classe do decil Percentis Os percentis dividem um conjuto de dados em cem partes uguais. Assim: P = 1º percentil 1

P2 = 2º percentil M

P99 = 99º percentil

O cálculo dos percentis é feito utilizando a fórmula:  n⋅i  −∑ f ⋅h  100   Pi = LP + i

FPi

Onde: L P : é o limite inferior da classe em que o percentil deve estar. i

FPi

: é a freqüência da classe do percentil h: o intervalo de classe n: é o número de elementos ou tamanho da amostra

∑ f : soma das frequência anterior es à classe do percentil

72

Exercícios: 1) Considere a tabela Tabela: Quantidade de óxido de enxofre (em toneladas) emitidas por uma indústria em 70 dias Tempo f 6,2 |--- 9,4 4 9,4 |--- 12,6 8 12,6 15,8 19,0 22,2 25,4 28,6

|--|--|--|--|--|---

15,8 19,0 22,2 25,4 28,6 31,8

914 14 11 8 2 70 Fonte: Referência bibliográfica [2] Calcule: a) 3º quartil b) 6º decil c) 90º percentil 2) Considere a tabela Tabela: Tempo de percurso, para o trabalho, de 100 empregados de um grande escritório localizado no centro da cidade Tempo 11,4 25,65 39,90 54,15 68,40 82,65 96,90 111,15

|--|--|--|--|--|--|--|---

25,65 39,90 54,15 68,40 82,65 96,90 111,15 125,40

f 20 36 29 5 1 4 3 2 100

Fonte: Calcule: a) 2º quartil b) 4º decil c) 95º percentil

73

3) Em uma fábrica ou um escritório, o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou f alha é chamado tempo parado. A tabela a seguir é uma amostra da duração desses tempos parados de certa máquina. Tabela: o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou falha Tempo parado Frequência (minutos) f 0 ---- 9 9 ---- 18 18 ---- 27 27 ---- 36 36 ---- 45 45 ---- 54 Total

2 15 17 12 3 1 50

Calcule: a) Tempo 70º percentil. b) Tempo 3º quartil. 4) gráfico, ramo e Ele f olhas, a seguirpelo representa número de clientes que almoçaram emOum restaurante. foi gerado softwareoSPSS. Gráfico 1: Número de clientes que almoçaram em um restaurante Frequency 1,00 3,00 1,00 4,00 4,00 5,00 10,00 9,00 12,00 15,00 16,00 15,00 11,00 7,00 2,00 1,00 1,00 1,00 1,00

Stem & Leaf

4. 1 4 . 233 4. 5 4 . 6677 4 . 8899 5 . 00111 5 . 2222233333 5 . 444555555 5 . 666666777777 5 . 888888899999999 6 . 0000000011111111 6 . 222222233333333 6 . 44444445555 6 . 6666777 6 . 89 7. 1 7. 3 7. 4 7. 6 74

Stem width: Each leaf:

10 1 case(s)

Baseando no gráfico responda: a) Qual o 6º decil? Use, para calcular a posição do decil, PD = i

i 10

(n + 1) .

75

Medidas de Variabilidade São medidas estatísticas utilizadas para avaliar o grau de variabilidade, ou dispersão, dos valores em torno da média. Considere os dois conjuntos de dados a seguir: Conjunto 1 Conjunto 2

20 30

20 15

20 15

20 20

20 20

20 20

20 20

Gráfico: comparaçã o entre a média e conjunto de dados 2

Ambos os conjuntos têm média 20. O desvio-padrão ou a variância são mediadas que expressão o grau de dispersão dos em torno da média. Quanto maior a dispersão maior o desvio-padrão. A seguir apresentamos as fórmulas utilizadas para o cálculo do devio-padrão, S.

A variância é dada como o quuadrado do desvio-padrão, S2 .

Em situações práticas é usado o cálculo do desvio-padrão devido ao fato de que ele tem a mesma unidade de medida que os dados.

76

Desvio padrão Símbolo: S Dados não agrupados Amostral   1  n 2 S= ∑ xi − n − 1 i =1   

Populacional

n   ∑ xi     i =1  n

2

      

σ=

2   N    ∑ xi   N 1  ∑ xi2 −  i=1N   N  i =1    

Cálculo do desvio padrão de dados em tabela de distribuição de freqüência Sejam :   

o ponto médio da classe i , fi a freqüência da classe i, k a quantidade de classe. xi

Amostral 2   k    ∑ xi . f i   k 1  S= ∑ xi2 . f i −  i=1 n   n − 1  i =1    

Populacional

σ =

2  k     ∑ xi .fi      1  k 2   xi .fi −  i =1 ∑ n i =1 n       

77

Exemplo: 1) Voltando aos dois conjuntos iniciais Conjunto 1

20

20

20

20

20

20

20

Conjunto 2

30

15

15

20

20

20

20

Temos que o desvio-padrão do conjunto 1 é 0 (zero); Já o desvio-padrão do conjunto 2 é 5 (cinco); 2) Em uma fábrica ou um escritório, o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou falha é chamado tempo parado. A tabela a seguir é uma amostra da duração desses tempos parados de certa máquina. Tabela: o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou falha Tempo parado Frequência (minutos) f 0 |---- 9

2

9 |---- 18

15

18 |---- 27

17

27 |---- 36

12

36 |---- 45

3

45 |---- 54

1

Total

50

Calcule o desvio-padrão do tempo parado.

78

Solução: Para o cálculo do desvio-padrão é necessário alguns resultados. Podemos obtê-los completando a tabela, veja a seguir: Tempo parado Frequência Tempo (minutos) f Médio: xi

xi fi

0 |---- 9

2

4,5

9 |---- 18

15

13,5

202,5 2733,75

18 |---- 27

17

22,5

382,5 8606,25

27 |---- 36

12

31,5

36 |---- 45

3

40,5

121,5 4920,75

45 |---- 54

1

49,5

49,5

Total

50

9

2

xi fi

378

40,5

11907 2450,25

1143 30658,5

O desvio-padrão será: 2   k    ∑ xi . f i   k 1  S= ∑ xi2 . f i −  i=1 n   n − 1  i =1

 S=

S=



 (1143)2  30658,5 −  50 − 1  50  1

1 49

[30658,5 − 26.128,98]

S = 92,4392 S = 9,6

Coeficiente de variação: Quando calculamos a variância ou o desvio-padrão de um conjunto de dados obtemos valores absolutos. No entanto, muitas das vezes, é fundamental comparar o valor do desvio-padrão em termos da média. Esta medida relativa é denominada coeficiente de variação. Assim, o coeficiente de variação é uma medida relativa entre a média e o desvio-padrão.

79

CV =

s x

Podemos expressar o valor do coeficiente de variação em porcentagem multiplicando por 100 o resultado. Exemplo: considere a tabela a segir Tabela: Notas obtidas por 500 alunos em um teste de geografia. Notas

fj

xi

xi.f

xi2. f

770

13.475

10 |--- 25

44 17,5

25 |--- 40

70 32,5 2.275

73.937,5

40 |--- 55

92 47,5 4.370

207.575

55 |--- 70

147 62,5 9.187,5 574.218,75

70 |--- 85

115 77,5 8.912,5 690.718,75

85 |--- 100

32 92,5 2.960

Total

500

s=

 (28.475)2 1.833.725 − 500 − 1  500

273.800

28.475 1.833.725

Temos que

s= s=

1

1 499 1 499

   

(1.833.725 − 1.621.651,25) (212.073,75)

s = 424,9975 s = 20,6

Logo o desvio-padrão é de 19,2. A média é 57,0. O coeficiente de variação é dado por:

CV =

s x

=

19,2 57,0

= 0,3368 = 33,68 %

80

Neste caso o desvio-padrão corresponde a 33,68 % da média. Em um conjunto de dados, seja ele amostral ou populacional, o ideal seria encontrar desvio-padrão igual a zero. No entanto isso é difícil. Então quanto mais próximo de zero estiver o coeficiente de variação melhor. Uma pergunta interessante seria a seguinte: se dois conjuntos de dados tem o mesmo desvio-padrão então eles seriam igualmente bons? A resposta é não. Para ilustrar a finalidade do coeficiente de variação considere os conjuntos: Conjunto 1: 10

11

12

13

14

15

16

501

502

503

504

505

506

Conjunto 2: 500

Para estes dois conjuntos temos o mesmo desvio-padrão de 2,16. No entanto o coeficiente de variação do conjunto 1 é 0,166 e do conjunto 2 é 0,004. Assim vemos que o desvio-padrão do conjunto 1 representa 16,6% da média enquanto que no conjunto 2 representa 0,4%. Logo concluímos que o conjunto 2 é melhor que o conjunto 1. Podemos perceber que variar 2,16 em 503 (média do conjunto 2) é melhor que variar 2,16 em 13 (média do conjunto 1) .

81

Exercícios 1) A tabela abaixo se refere ao peso, em kg, de 50 alunos de uma determinada escola. Peso = xi fi 45

8

55 65

22 8

75

6

85

5

95

1

Total

50

a) Calcule a média dos dados agrupados b) Calcule a variância. 2) A média aritmética é a razão entre: a) b) c) d)

( ( ( (

) O número de valores e o somatório; ) O somatório dos valores e o número; ) Os valores extremos; ) Os dois valores centrais.

3) Numa distribuição de valores todos iguais, o desvio-padrão é: a) b) c) d)

( ) negativo; ( ) positivo; ( ) a unidade; ( ) zero.

4) A média de um conjunto de valores iguais a uma constante é:

82

a) b) c) d)

( ) zero; ( ) o valor da constante; ( ) a unidade; ( ) a quantidade de valores que temos

5) O desvio-padrão de um conjunto de dados é 4. A variância será: a) b) c) d)

( ( ( (

) 3; ) 4; ) 16; ) 81.

6) Uma empresa possui dois serventes recebendo salários de R$ 250,00 cada um, quatro escriturários recebendo R$ 600,00 cada um, um chefe de escritório com salário de R$ 1.000,00 e três técnicos. A média de salários da empresa é de R$ 1.050,00. Quanto cada técnico recebe? 7) A média do conjunto de valores 46,1

57,5

21,6

16,8

4,2

é igual a? 8) O desvio-padrão do conjunto de valores 46

57

21

16

4

É igual a? 9) Os 20 dados abaixo se referem aos índices pluviométricos em determinado Estado: 144

152

159

160

160

151

157

146

154

145

141

150

142

146

142

141

141

150

143

158

Determine: 83

a) O índice médio. b) O índice mediano. 10) Os dados abaixo se referem a pesos (em gramas) de 50 ratos usados em um estudo de deficiência de vitaminas. 136 119

125 92

135 115

137 115

126 127

129 95

124 100

118 113

120 95

126 113

146

103

101

118

121

129

110

126

106

148

137

87

126

119

125

132

108

118

119

117

120

110

82

105

102

104

133

104

132

146

a) Construa uma tabela de distribuição de freqüência agrupada em classes. b) Qual o peso modal? c) Qual o desvio-padrão? d) Um rato é considerado magro se seu peso é menor que x − 2s e gordo se seu peso é maior que x + 2s . Quais os pesos máximo e mínimo para que um rato seja considerado magro ou gordo? e) Baseado na letra e, um rato cujo peso é de 135 gramas é considerado magro ou gordo? Justifique sua resposta. 11) Dê um exemplo numérico, com no máximo 4 amostras, em que a média e a mediana sejam iguais e o desvio-padrão seja nulo. 12) Dê um exemplo numérico, com no máximo 4 amostras, em que a média é menor que a mediana. 13) Um artigo de jornal fez menção a determinada pesquisa citando que o conjunto amostral acusa Σx = 5, Σx2 = 7 e s = 0,5. Por erro esqueceram de citar o tamanho da amostra utilizado. Considerando as informações anteriores o que podemos dizer sobre os possíveis tamanho da amostra?

84

14) Uma lista de números acusa Σx =202, Σx2 = 3.452 e n = 15. Qual o desviopadrão? 15) Em quatro paradas no box, o mecânico dos pneus dianteiros trocou o pneu dianteiro direito dos carros de corrida em 10,8 12,0 10,5 10,7 segundos. Calcule: a) o tempo médio de troca de pneus b) o desvio-padrão. 16) A tabela a seguir apresenta o tempo que 80 estudantes dedicam a atividade de lazer durante uma semana escolar típica

Horas

fj

10 |--- 15 15 |--- 20

9 28

20 |--- 25

27

25 |--- 30

12

30 |--- 35

4

Total

80

Calcule: a) o tempo médio b) o tempo mediano c) Qual a porcentagem dos alunos que dedicam mais de 25 horas de lazer ? 17) Uma lista de números acusa Σx =40 e Σx2 = 156. Quantos valores figuram na lista, se seu desvio-padrão é 2,0?

85

18) Um inspetor de controle de qualidade examinou 15 engradados de telhas de cerâmica, contendo cada um 144 telhas. Os números de telhas trincadas nessas caixas foram 2

5

3

4

2

0

1

5

7

3

0

2

2

4

3

Calcule: a) o número médio de telhas trincadas e b) o desvio-padrão. 19) A tabela de distribuição a seguir apresenta o número de peças defeituosas em uma produção de determinado produto N.º de defeitos 0

N.º de peças 5

1

10

2 3

18 12

4

5

Total

40

Calcule: a) a média b) a mediana c) a moda

86

20) A tabela a seguir apresenta os salários pagos a 100 operários de uma empresa

N.º de salários mínimos

fj

0 |--- 2

40

2 |--- 4

30

4 |--- 6

10

6 |--- 8

15

8 |--- 10

5

Total

100

Calcule: a) o salário médio b) o salário mediano c) Qual a porcentagem dos empregados que ganham acima de 4 salários? d) O dono da empresa afirmou, em entrevista, que seus funcionários ganham, em média, R$ 1440,00. Considerando o salário mínimo no valor de R$ 330,00, a afirmação do dono da empresa é verdadeira? 21) Os dados a seguir referem-se ao consumo de eletricidade (mil MWh) pelo setor ferroviário entre os anos de 1978 e 2007. Os dados são do IBGE. 6 11

5 8

5 10

4 11

3 12

6 14

14 17

8 19

9 21

Calcule a variância e o coeficiente de variação.

22) uma fábrica ou um escritório,em o tempo, durante otempo qual umaEm máquina não está funcionando virtudeno dehorário quebrade ou trabalho, falha é chamado parado. A tabela a seguir é uma amostra da duração desses tempos parados de certa máquina.

87

Tabela: o tempo, no horário de trabalho, durante o qual uma máquina não está funcionando em virtude de quebra ou falha Tempo parado Frequência (minutos) f 0 |---- 9 9 |---- 18

2 15

18 |---- 36 27 27 36 |---- 45 45 |---- 54 Total

17 12 3 1 50

Calcule: a) Desvio-padrão.

88

Representação Gráfica

1) Classificação dos gráficos segundo o objetivo Os gráficos são usados para apresentar visualmente um conjunto de dados, proporcionando maior facilidade e rapidez de compreensão dos mesmos, ou, então, para apresentar conclusões ou resultados de uma análise. Há, portanto, dois tipos de gráficos, conforme o objetivo ou uso a que se destinam: gráficos de informação e gráficos de análise. a) Gráficos de Informação São gráficos destinados principalmente ao público em geral, objetivando proporcionar uma visualização rápida e clara da intensidade das modalidades e dos valores relativos ao fenômeno observado. São gráficos tipicamente expositivos, devendo, por conseguinte, ser o mais completo possível, dispensando comentários explicativos adicionais. b) Gráficos de Análise Os gráficos de análise prestam-se melhor ao trabalho estatístico, fornecendo elementos úteis à fase de análise dos dados, sem deixar de ser também informativos. Quando se usam gráficos para apresentar os resultados de uma análise, esses freqüentemente vêm acompanhados de uma tabela. Inclui-se, muitas vezes, um texto dissertativo, chamando a atenção do leitor para os pontos principais revelados pelo gráfico ou pela tabela.

89

2) Histograma O histograma é um gráfico de barras verticais. Cada barra é proporcional à freqüência (simples ou relativa) da classe que ele representa. Assim, a soma dos valores correspondentes às áreas dos retângulos será sempre igual à freqüência total. Para a construção do histograma utiliza-se dois eixos coordenados. No eixo horizontal são anotados os valores individuais da variável em estudo, ou os limites das classes. No eixo vertical temos as freqüências. Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 45 51 50 49

45 51 50 49 49

49 46 52 50 51

47 44 44 46 50

52 48 48 46 49

Solução: No R temos: a) Crie um arquivo, y, com os dados; b) Use o comando: hist(y,freq=F,ylab="Frequência",xlab="Temperatura",main="Temperatura efluentes",ylim = c(0, 0.2)) O resultado é o gráfico a seguir

de

90

Gráfico: temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto

Exemplo: Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre taxas de octanagem de combustível para motor, de várias misturas de gasolina. 20 destes resultados são apresentados a seguir: 88,5 89,9

94,7 98,8

84,3 88,3

90,1 90,4

89 91,2

89,8 90,6

91,6 92,2

90,3 87,7

90 91,1

91,5 86,7

Construa o histograma. Solução: No R temos: a) Crie um arquivo, y, com os dados; b) Use o comando: hist(y,freq=T,ylab="Frequência",xlab="Taxas",main="Taxa de octanagem",ylim = c(0, 10)) O resultado é o gráfico a seguir

91

Gráfico: taxas de octanagem de combustível para motor, de várias misturas de gasolina

No R temos a opção de escolher, através do comando nclass= argumento, o número de rtângulos no histograma. Pode ocorrer que o número escolhido não seja viável. Neste caso o R faz uma aproximação viável do número de retângulos. 3) Box-plot É um gráfico em forma de caixa. Nele encontramos valores numéricos do tipo: o ponto de mínimo, 1º quartil, mediana, 3º quartil e o ponto de máximo. Dependendo da natureza dos dados estes valores podem ser iguais ou diferentes. Para que possamos construir o box-plot é necessário que se conheça os dados na forma bruta ou rol. Na construção dos gráficos foi utilizado o software R. Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 92

43 45 51 50 49

45 51 50 49 49

49 46 52 50 51

47 44 44 46 50

52 48 48 46 49

Consrua o box-plot. Solução: Utilizando o R temos: a) construa o vetor y com os dados; b) utilize o comando: boxplot(y,ylab="Frequência",xlab="Temperatura", ylim=c(42,52) O resultado é o gráfico Gráfico: temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto

Exemplo: Um artigo em Technometrics (Vol. 19, 1977, pg. 425) apresenta dados sobre taxas de octanagem de combustível para motor, de várias misturas de gasolina. 20 destes resultados são apresentados a seguir: 88,5

94,7

84,3

90,1

89

89,8

91,6

90,3

90

91,5 93

89,9

98,8

88,3

90,4

91,2

90,6

92,2

87,7

91,1

86,7

Construa o box-plot. Solução: Utilizando o R temos: a) construa o vetor y com os dados; b) utilize o comando: boxplot(t,ylab="Frequência",xlab="Taxa",ylim=c(80,100)) O resultado é o gráfico Gráfico: Taxas de octanagem de combustível para motor, de várias misturas de gasolina

4) Ramo-e-folhas

É uma forma de visualização dos dados srcinais o qual nos permite ver a distribuição dos dados sem a perda de informações. Permite visualizar a ordenação dos dados. Para a construção de um gráfico ramo-e-folhas tomamos como ramo os algarismos mais a esquerda e as folhas os algarismos mais a direita. Por exemplo, no número 352, o ramo é 35 e a folha é o 2.

94

Exemplo: Os dados a seguir representam a temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto: 43 45 51

45 51 50

49 46 52

47 44 44

52 48 48

50 49

49 49

50 51

46 50

46 49

Construa o gráfiico ramo-e-folhas. Solução: Utilizando o R temos: a) construa o vetor y com os dados; b) utilize o comando: stem(y) O resultado é o gráfico Gráfico: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto The decimal point is at the | 42 | 0 44 | 0000 46 | 0000 48 | 0000000 50 | 0000000 52 | 00 Podemos utilizar o comando, scale=argumento, para melhorar a visualização dos dados. Veja o mesmo exemplo anterior utilizando o comndo stem(y, scale=2).

95

Gráfico: Temperatura de efluentes em dias consecutivos na descarga de uma estação de tratamento de esgoto The decimal point is at the | 43 | 0 44 | 00 45 | 00 46 | 000 47 | 0 48 | 00 49 | 00000 50 | 0000 51 | 000 52 | 00 Exemplo: Os valores a seguir são referentes a salários, em reais, pagos em determinada empresa. A fonte é o livro Estatística Aplicada á Gestão Empresarial. 381 389 389 418 429 430 472 486 568 1209 669 682 699 728 821 821 856 822 904 866 Construa o gráfico ramo e folhas. Solução: Utilizando o R temos: a) construa o vetor y com os dados; b) utilize o comando: stem(y,scale=2) O resultado é o gráfico

96

Gráfico: Salários, em reais, pagos em determinada empresa The decimal point is 2 digit(s) to the right of the | 3 | 899 4 | 23379 5|7 6 | 78 7 | 03 8 | 22267 9|0 10 | 11 | 12 | 1 c) Considere o conjunto de dados a seguir. Eles são referentes ao número de telhas estragadas em 21 lotes de um milheiro cada. 100 110 121 124 145 135 122 100 146 151 162 121 123 134 122 118 145 151 100 144 125 Construa o gráfiico ramo-e-folhas. Solução: Utilizando o R temos: a) construa o vetor y com os dados; b) utilize o comando: stem(y,scale=2) O resultado é o gráfico

97

Gráfico: número de telhas estragadas em 21 lotes de um milheiro cada The decimal point is 1 digit(s) to the right of the | 10 | 000 11 | 08 12 | 1122345 13 | 45 14 | 4556 15 | 11 16 | 2

98

Tabelas - Normalização de Publicações Técnico – cientificas - Ed. UFMG

6) As tabelas devem ser dotadas de um título claro e conciso localizado acima delas. São numeradas seqüencialmente em todo o trabalho, com algarismos arábicos (1, 2, 3, ...), segundo normas do IBGE. 7) No cabeçalho de cada coluna indica-se o seu conteúdo. Os títulos das colunaspodem ser datilografados verticalmente, se necessário, para economizar espaço. 8) Não se deve deixar nenhuma “casa” vazia no corpo da tabela, usando-se os símbolos, conforme convenção internacional: quando, pela natureza do fenômeno, o dado não existir Z quando o dado for rigorosamente zero ... quando não se dispuser do cálculo -

9) Na construção de tabelas usam-se os seguintes traços: a) traço duplo horizontal, limitando o quadro; b) traço simples vertical, separando a coluna indicadora das demais e estas entre si; no corpo da tabela pode ser eliminado desde que o número de colunas seja pequeno e não haja prejuízo na leitura dos dados; 10) a tabela não deve ser fechada lateralmente, tampouco se colocam traços horizontais separando os dados numéricos.

99

Exercícios 1) Observe o histograma abaixo.

Número de defeitos em instrumentos óticos a i c n ê u q e r F

400 350 300 250 200 150 100 50 0

340 290 160

120 40

30

012345

Número de defeitos

Complete a tabela de distribuição abaixo. Número de defeitos

fi

0 1

120

2 3 4 5 Total

100

Probabilidade Técnicas de contagem Fatorial

O fatorial de um número inteiro positivo n é representado por n ! (Lê-se: n fatorial). O fatorial do número n é obtido pela multiplicação de n por todos os inteiros inferiores até o número 1. n ! = n ⋅ (n −)(1 ⋅ n)− 2 ⋅K⋅ 1

Exemplos: 1) 4 ! = 4 . 3 . 2 .1 = 24 2) 6 ! = 6 . 5 . 4 . 3 . 2 .1 = 720 Por definição: 0! = 1 1! = 1

Observação: 6 ! = 6 .5 .4! = 6 .5 !

Exemplo:

Qual o valor de Solução:

12 ! ? 10 ! ⋅ 3 !

12 ! = 12 .11 .10 ! = 12 .11 = 22 10 ! ⋅ 3 ! 10 ! . 3 . 2 .1 6

Exercício: Muitas calculadoras ou computadores não podem calcular diretamente valores de 70 ! ou superiores. Para n muito grande, n ! pode ser aproximado por n ! = 10 k ,

101

onde o valor de k é dado por k = (n + 0 ,5 )log n + 0 ,39908993 − 0 ,43429448 n . Calcule 50 ! utilizando a tecla fatorial da calculadora e utilizando a aproximação. Princípio Fundamental da Contagem Se um primeiro acontecimento pode ocorrer de m1 maneiras distintas, um segundo pode ocorrer de m 2 maneira distintas e, sucessivamente, um n − ésimo acontecimento pode ocorrer de m n maneiras distintas, sendo todos eventos independentes, então o número de maneiras distintas em que os n acontecimentos ocorrem conjuntamente é m 1 . m 2 .K . m n . Exemplos: 1) Quantas placas para identificação de veículos podem ser confeccionadascom 3 letras e 3 algarismos? ( Considere 26 letras, supondo que não há nenhuma restrição) 2) Existem 5 ruas ligando os supermercados X e Y e 3 ruas ligando os supermercados Y e W. Quantos trajetos diferentes podem ser utilizados para irmos de X a W, passando por Y? Arranjo Simples Corresponde ao estudo da quantidade de maneiras em que se pode agrupar os objetos de uma amostra em que a ordem dos objetos seja relevante. O número de arranjos simples (sem repetição) de r elementos escolhidos dentre n elementos é An , r =

n! (n − r )!

102

Exemplos: 1) No estoque de uma determinada empresa existem 8 caixas diferentes, das quais devem ser escolhidas e empilhadas 4. De quantas maneiras podemos empilhar estas 4 caixas? Solução: A ordem com que empilhamos as caixas é relevante, logo temos um problema de arranjo. Assim A8 , 4 =

8!

(8 − 4 )!

= 1.680

2) Um almoxarifado necessita organizar uma estante, destinada a armazenar suprimentos diversos. Sabendo que existem 3 itens diferentes da área industrial (departamento de produção), 6 itens diferentes da área de transporte e 3 itens diferentes do departamento de recursos humanos. Calcule: a) de quantas maneiras os itens poderiam ser organizados? b) se os itens da produção precisassem necessariamente ficar juntos, quantas maneiras de organizar todos os itens possíveis? Solução: a) Temos 12 itens diferentes. Ao organizá-los a ordem é relevante. Assim A12 , 12 =

12 !

(12 − 12 )!

= 479.001.600

b) Temos 3 itens diferentes da área industrial. Os outros 9 não precisam ficar juntos. Podemos então considerar os 3 itens da produção como um único bloco. Assim teremos A10 , 10 . A3

, 3

=

10 !

(10 − )10( )!



3!

= 10 ! . 3 !

3 − 3!

Combinação Simples Corresponde ao estudo da quantidade de maneiras em que se pode agrupar os objetos de uma amostra em que a ordem dos objetos seja irrelevante.

103

O número de combinações simples (sem repetição) de r elementos escolhidos dentre n elementos é Cn , r =

n! (n − r )! . r !

Exemplos: 1) Uma empresa de pesquisa mercadológica deseja selecionar uma comissão formada por 4 consumidores de uma amostra previamente selecionada de 8 pessoas. Calcule: a) de quantas maneiras possíveis as 4 pessoas poderão ser selecionadas? b) se a comissão fosse composta por um presidente, um vice-presidente, um relator e um secretário, escolhidos nessa ordem, de quantas maneiras possíveis poderemos formar a comissão? Solução: a) C8 , 4 = b) A8 , 4 =

8!

(8 − 4 )! . 4 ! 8!

(8 − 4 )!

= 70

= 1.680

2) Em um departamento industrial existem 8 engenheiros eletricistas e 7 técnicos em eletrônica. Sabendo que uma comissão deverá ser formada, calcule de quantas maneiras a comissão poderá ser elaborada, supondo que: a) 5 pessoas devem ser escolhidas. b) 3 engenheiros e 2 técnicos devem ser escolhidos. Solução: a) C15 , 5 =

15 ! = 3.003 (15 − 5 )! . 5 !

b) C 8 , 3 ⋅ C7

, 2

=

8!

(8 −) 3 ! .( 3 ! )



7! 7 − 2 ! . 2!

= 1.176

104

Cálculo de Probabilidade Definições: Experimento Aleatório: é qualquer processo que permite ao pesquisador fazer observações cujos resultados não podem ser previstos com certeza. Exemplos: E1 : Retirar uma carta de um baralho com 52 cartas e observar seu naipe. E 2 :Jogar uma moeda 10 vezes e observar o número de caras obtidas. E3 : Em uma linha de produção, fabricam-se peças em série e conta-se o

número de peças defeituosas produzidas em um período de 24 horas. E4 : Uma lâmpada é fabricada. Em seguida é testada e verifica-se o tempo

de vida. E5 : Retira-se uma bola de uma urna que contém bolas pretas, vermelhas e

amarelas e observa sua cor. Espaço Amostral: Para cada experimento E, define-se espaço amostral S o conjunto de todos os possíveis resultados desse experimento. Exemplos: Considerando os experimentos aleatórios anteriores, o espaço amostral para cada um deles pode ser descrito como: S 1 : {ouro, copa, paus, espada} S 2 : {0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10} S 3 : {0, 1, 2, 3, ..., N}, onde N é o máximo de peças produzidas em 24 horas. S 4 : {t | t ≥ 0} S 5 : {preta, vermelha, amarela}

O espaço amostral pode ser: 1. Finito: formado por um número limitado de resultados possíveis. 105

2. Infinito enumerável: formado por um número infinito de resultados, os quais podem ser listados ou enumerados. Exemplo: número de mensagens que são transmitidas corretamente por dia em uma rede de computadores. 3. Infinito: formado por intervalo de números reais. Evento: É qualquer subconjunto do espaço amostral. A é um evento ↔ A ⊆ S Em particular S é o evento certo e φ é o evento impossível. Exemplo: Considere o experimento E = jogar uma moeda três vezes e observar os resultados. Então S = {(c , c ,)c( , c ,)(c , k ,)( k , c ,)(c , c ,)(k , c ,)(c , k , k)( , k ,)c , k , k , k , c , k , k , k } Seja o evento: A = ocorrer pelo menos duas caras. Então A = {(c , c ,)(c , c ),(c , k ),( k , c), c , c , k , c } Eventos Mutuamente Exclusivos: Dois eventos A e B são denominados mutuamente exclusivos, se eles não puderem ocorrer simultaneamente, isto é A∩ B =φ .

Exemplo:  Considere o experimento E = jogar um dado e observar o número da parte de cima. Então S = {1, 2 , 3 ,4 , 5 , 6} Sejam os eventos: A = ocorrer um número par, e B = ocorrer um número ímpar. Então A = {2 , 4 ,6 } , B = {1, 3 , 5} e A ∩ B = φ .

Definição clássica de probabilidade 106

Dado um experimento aleatório E, S o espaço amostral e A um evento. A probabilidade do evento A, P ( A) , é uma função definida em S que associa a cada evento um número real calculada pela relação: n( A ) P ( A ) = n (S )

Onde: n( A) : é o número de vezes em que o evento A pode ocorrer n(S ) : é o número de vezes em que o espaço amostral S pode ocorrer

Obs: Ao expressar a probabilidade devemos fazê-la utilizando as frações ordinárias ou com 4 casas decimais. Exemplos: 1. Considere um baralho com 52 cartas. Qual a probabilidade de se retirar uma carta de ouro? Solução: Em um baralho temos 13 cartas de ouro. Logo considerando o evento A = retirar uma carta de ouro temos P( A) =

13 1 = 52 4

2. Num lote de 12 peças, 4 são defeituosas; duas peças são retiradas aleatoriamente. Qual a probabilidade de ambas serem defeituosas? Solução: Evento A = ambas peças são defeituosas.

4 4! Número de maneiras do evento A ocorrer =   = =6 .  2  (4 − 2 )! .2!  12  Número de maneiras do espaço S ocorrer =  2  = (12 −122!)! .2! = 66 .   Logo P( A) =

6 1 = . 66 11

3. A MasterCard International efetuou um estudo de fraude em cartões de crédito. Os resultados estão apresentados na tabela a seguir.

107

Tabela: Tipos de fraude em cartões de crédito Tipo de fraude

Número de ocorrência

Cartão roubado Cartão falsificado Pedido por correio/ telefone Outros

243 85 52 46

Selecionando aleatoriamente um caso de fraude, qual a probabilidade de: a) a fraude resultar de um cartão roubado? b) A fraude não ser de cartão falsificado? Solução: a) Considere o evento A = cartão roubado. Logo P ( A) =

243 = 0 ,5704 . 426

b) Considere o evento B = cartão não falsificado. Então P (B ) =

341

= 0 ,8005

426

Propriedades da probabilidade Para cada evento A é associado um número real P (A) com as seguintes propriedades: 1) 0 ≤ P (A ) ≤ 1 2) P (S ) = 1 3) Se A e B forem eventos mutuamente exclusivos então P (A ∪ B ) = P (A ) + P (B )

Eventos complementares: Dois eventos A e B são complementares quando A U B = S. Neste caso vale a propriedade P( A) + (P) B = 1 . Neste caso simbolizamos

B

=

A

c

Exemplo: O evento A = chuva e o evento B = não chuva são complementares. 108

Evento Composto: É qualquer evento que combina dois ou mais eventos simples. Exemplo: No lançamento de um dado considere o evento A = {2,5}. Regra da Adição: Se A e B são dois eventos quaisquer, então: P( A ∪ )B( =) P ( A) ( + P B) − P A ∩ B

Observações: 

P( A ∪ B ) denota a probabilidade do evento A, ou do evento B, ou de

ambos. 

P( A ∩ B ) denota a probabilidade do evento A e do evento B

simultaneamente em um mesmo experimento. Exemplos: 1) As preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos, estão apresentados na tabela a seguir: Tabela: Preferência de homens e mulheres por filmes Sexo / Filme Comédia Romance Policial Homens

136

92

248

Mulheres

102

195

62

Sorteando-se ao acaso uma dessas locações de vídeo, pergunta-se a probabilidade de: a) Uma mulher ter alugado um filme ou o filme é do gênero policial; b) Um homem ter alugado um filme ou o filme é do gênero romance. Solução: a) Considere os eventos A = mulher aluga o filme e B = Filme é do gênero policial P( A ∪ B ) =()P( A) ( + P B) − P A ∩ B

109

P( A ∪ B ) =

359 310 62 607 + − = = 0 ,7269 835 835 835 835

b) Considere os eventos A = homem aluga o filme e B = Filme é do gênero romance P( A ∪ B ) =()P( A) ( + P B) − P A ∩ B P( A ∪ B ) =

476 287 92 671 + − = = 0 ,8036 835 835 835 835

2) Uma loja de material de construção possui 2 caixas de conexões. Na primeira, das 30 conexões 11 são defeituosas. Na segunda, das 12 conexões 4 são defeituosas. Uma conexão é retirada aleatoriamente. Qual a probabilidade de a conexão ser defeituosa ou ter sido retirada da segunda caixa? Solução: a) Considere os eventos A = conexão defeituosa. B = conexão retirada da segunda caixa. P( A ∪ B ) =( )P( A) ( + P B) − P A ∩ B P( A ∪ B ) =

15 12 4 23 + − = = 0 ,5476 42 42 42 42

Obs: Este exemplo pode ser melhor visualizado utilizando a árvore de probabilidade. Ou seja:

110

Regra da Multiplicação: Se A e B são dois eventos quaisquer, então: 

P( A ∩ B ) =( )P (A) . P B se A e B são independentes ou



P( A ∩ B ) ( =) P( A ). P B | A se A e B são dependentes

Notação: P(B | A) representa a probabilidade de ocorrência do evento B dado que o evento A ocorreu. É chamado de probabilidade condicional. Dois eventos A e B são independentes se a ocorrência de um deles não afeta a probabilidade de ocorrência do outro. Caso contrário eles são dependentes. Exemplos: 1) Uma determinada companhia produz um lote de 50 filtros de combustíveis, dos quais 6 são defeituosos. Escolhem-se aleatoriamente e testam-se dois filtros do lote. Determine a probabilidade de ambos serem bons, se os filtros são selecionados: a) com reposição; b) sem reposição. Solução: Considere os eventos A = filtro bom. 111

B = filtro bom. a) Como processo de escolha é com reposição, então a escolha do primeiro filtro não afeta a escolha do segundo filtro. Logo são independentes. Assim P( A ∩ B) =( P ) (A) . P B P( A ∩ B ) =

44 44 1936 ⋅ = = 0 ,7744 50 50 2500

b) Como processo de escolha é sem reposição, então a escolha do primeiro filtro afeta a escolha do segundo filtro. Logo são dependentes. Assim P( A ∩ B ) =( )P( A ). P B | A P( A ∩ B ) =

44 43 1892 ⋅ = = 0 ,7722 50 49 2450

2) Uma loja de material de construção possui 2 caixas de conexões. Na primeira, das 30 conexões 11 são defeituosas. Na segunda, das 12 conexões 4 são defeituosas. Uma conexão é retirada aleatoriamente de cada caixa. Calcule a probabilidade de: a) Apenas uma ser defeituosa. b) Ambas serem defeituosas. c) Ambas não serem defeituosas. Solução: a) Podemos ter os seguintes casos: DB ou BD. Assim Caso 1: A = defeituosa na primeira B = boa na segunda. P( A ∩ B) =( P ) (A) . P B P( A ∩ B ) =

11 8 88 ⋅ = = 0 ,2444 30 12 360

Caso 2: A = defeituosa na segunda B = boa na primeira. P( A ∩ B) =( P ) (A) . P B

112

P( A ∩ B ) =

4 19 76 ⋅ = = 0 ,2111 12 30 360

Portanto a probabilidade de apenas uma ser defeituosa é de P(apenas uma defeituosa ) = 0 ,2444 + 0 ,2111 = 0 ,4555

b) 12,22%. c) 42,22%.

113

Teorema da probabilidade total Considere

o

espaço

amostral

particionado

em

k

eventos,

A1 , A2 , K , Ak , satisfazendo às seguintes condições:

a) Ai ∩ A j = φ para todo i ≠ j . b) A1 ∪ A2 ∪

K∪

Ak = S .

c) P( Ai ) ≥ 0 para i = 1,

2, K , k .

Seja um evento F qualquer, referente ao espaço amostral S . Então: k

P(F) = ∑( P )( Ai )P F | Ai i = 1

Demonstração: Considere F um evento qualquer em S. Então F = (F ∩) (A1 ∪) F ∩( A2 )∪ K ∪ F ∩ Ak

Usando a regra do produto teremos P)(F( = P ) F ( ∩ A1 ) + P F( ∩ A)2 + K + P F ∩ Ak

Usando a regra do produto teremos o teorema da probabilidade total P( F ) =( )P( A1 )P F(| A )(1 +) P A2 P (F)|(A2 )+ K + P Ak P F | Ak k

P(F) = ∑( P )( Ai )P F | Ai i = 1

Cqd. Exemplo: Uma determinada peça é manufaturada por três fábricas, denominadas X, Y e Z. Sabe-se que X produz o dobro de peças que Y, e Y e Z produzem o mesmo número de peças. Sabe-se também que 2% das peças produzidas por X e Y são defeituosas, enquanto que 4% das produzidas por Z são defeituosas. Todas as peças são colocadas em um depósito, e depois uma peça é extraída aleatoriamente. Qual a probabilidade de que a peça escolhida seja defeituosa?

114

Solução:Considere os seguintes eventos F = a peça é defeituosa A1 = a peça provém da fábrica X. A2 = a peça provém da fábrica Y. A3 = a peça provém da fábrica Z.

Empregando o teorema da probabilidade total temos P(F) =( P) (A1 P) F |(A1) ( + P) A2 (P) (F | A)2 + P A3 P F | A3 Sabe-se que: P( A1 ) =

1 2

P( A2 ) =

1 4

P( A3 ) =

1 4

P(F) |( A) 1 = P F | A2 = 0 ,02 P(F | A3 ) = 0 ,04

Logo P(F ) =

1 1 1 ⋅ 0 ,02 + ⋅ 0 ,02 + ⋅ 0 ,04 = 0 ,0250 2 4 4

Assim, a probabilidade da peça ser defeituosa é de 0,0250 ou 2,50%.

115

Teorema de Bayes (Thomas Bayes 1702 - 1761) Considere

o

espaço

amostral

particionado

em

k

eventos,

A1 , A2 , K , Ak , satisfazendo às seguintes condições:

a) Ai ∩ A j = φ para todo i ≠ j . b) A1 ∪ A2 ∪

K∪

Ak = S .

c) P( Ai ) ≥ 0 para i = 1, 2 , K , k . Seja um evento F qualquer, referente ao espaço amostral S . Então: P( Ai | F ) =

P( A)i ( P F)| Ai P( F )

Exemplo: 1) (voltando ao exemplo anterior) Uma determinada peça é manufaturada por três fábricas, denominadas X, Y e Z. Sabe-se que X produz o dobro de peças que Y, e Y e Z produzem o mesmo número de peças. Sabe-se também que 2% das peças produzidas por X e Y são defeituosas, enquanto que 4% das produzidas por Z são defeituosas. Todas as peças são colocadas em um depósito, e depois uma peça é extraída aleatoriamente. Qual a probabilidade de que a peça escolhida seja produzida pela fábrica Y dado que ela era defeituosa? Solução:Considere os seguintes eventos F = a peça é defeituosa A1 = a peça provém da fábrica X. A2 = a peça provém da fábrica Y. A3 = a peça provém da fábrica Z.

Sabe-se que: P(F ) = 0 ,0250 (pelo exemplo anterior) P( A2 ) =

1 4

P(F) |( A) 1 = P F | A2 = 0 ,02

Logo 116

P( A2 | F ) =

P ( A)2 ( P F)| A2 P (F )

1 ⋅ 0 ,02 4 P ( A2 | F ) = 0 ,0250 0 ,005 P( A | F ) = 0 ,0250 2

P( A2 | F ) = 0 ,2000

2) Uma rede local de computadores é composta por um servidor e cinco clientes (A, B, C, D e E). Registros anteriores indicam que dos pedidos de determinado tipo de processamento, realizados através de uma consulta, cerca de 10% vêm do cliente A, 15% do B, 15% do C, 40% do D e 20% do E. Se o pedido não for feito de forma adequada, o processamento apresentará erro. Usualmente, ocorrem os seguintes percentuais de pedidos inadequados: 1% do cliente A, 2% do cliente B, 0,5% do cliente C, 2% do cliente D e 8% do cliente E. a) Qual é a probabilidade de o sistema apresentar erro? b) Qual é a probabilidade de que o processo tenha sido pedido pelo cliente E, sabendo-se que apresentou erro? 3) Um novo método analítico de detectar poluentes em água é testado. Esse novo método de análise química é importante porque, se adotado, poderia ser usado para detectar três diferentes contaminantes: poluentes orgânicos, solventes voláteis e compostos clorados, em vez de ter de usar um único teste para cada poluente. As pessoas que elaboraram o teste afirmam que ele pode detectar altos níveis de poluentes orgânicos com 99,7% de acurácia, solventes voláteis com 99,95% de acurácia e composto clorados com 89,7% de acurácia. Se um poluente não estiver presente, o teste não sinaliza.

117

Amostras são preparadas para calibração do teste e 60% delas são contaminadas com poluentes orgânicos, 27% com solventes voláteis e 13% com traços de compostos clorados. Uma amostra teste é selecionada aleatoriamente. a) Qual a probabilidade de o teste sinalizar? b) Se o teste sinalizar, qual é a probabilidade de os compostos clorados estarem presentes? Exercícios: 1) As preferências de homens e mulheres por cada gênero de filme alugado em uma locadora de vídeos, estão apresentados na tabela a seguir: Sexo / Filme Comédia Romance Policial Homens Mulheres

136 102

92 195

248 62

Sorteando-se ao acaso uma dessas locações de vídeo, pergunta-se a probabilidade de: c) Uma mulher ter alugado um filme e o filme ser de comédia; d) Um homem ter alugado um filme e o filme ser de romance. 2) Uma determinada companhia produz um lote de 50 filtros de combustíveis, dos quais 6 são defeituosos. Escolhem-se aleatoriamente e testam-se dois filtros do lote. Determine a probabilidade de ambos serem bons, se os filtros são selecionados: c) com reposição; d) sem reposição. 3) Joga-se dois dados equilibrados e soma-se os dois resultados. Qual a probabilidade de se obter o total 5 ?

118

4) Se 226 dentre 300 assinantes de um jornal, selecionado aleatoriamente, afirmaram que lêem a seção cômica diariamente. Qual a probabilidade de um assinante escolhido aleatoriamente não ler a seção cômica? 5) Diga se cada afirmação é verdadeira ou se ela é falsa. a. Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. b. Se dois eventos não podem ocorrer ao mesmo tempo eles são chamados de mutuamente excludentes. c. A regra da adição é usada para encontrar a probabilidade de dois eventos ocorrerem simultaneamente. d. A amostra é um subconjunto da população. Em todo experimento a amostra pode ser igual à população. e. Dado x um evento, então 0 < P (x ) < 1 .

6) Dois dados são lançados simultaneamente. Qual a probabilidade de o primeiro resultado ser maior do que o segundo? 7) Um grupo de 100 alunos de dois cursos de uma faculdade foram escolhidos para responderem a uma pesquisa. A tabela a seguir apresenta a composição destes alunos: Matemática

Pedagogia

Homens

31

10

Mulheres

23

36

Selecionando aleatoriamente um aluno: a) qual a probabilidade dele ser homem ou ser do curso de Pedagogia? b) qual a probabilidade dela ser mulher dado que é do curso de Matemática? 8) Uma livraria acaba de receber 40 novos livros, entre eles 12 romances históricos. Se quatro desses livros são escolhidos aleatoriamente, e sem reposição, qual a 119

probabilidade de nenhum deles ser romance histórico? (Expressar o resultado em fração) 9) A tabela a seguir apresenta o número de pacientes internados no hospital X, por Alas. Sexo e Número Alas Masculino Feminino Total A

415

220

635

B

250

375

595

C

105

220

325

Total

740

815

1555

A probabilidade de um paciente selecionado aleatoriamente ser do sexo feminino ou estar internado na ala A é de:

10) Complete com V se a afirmação for verdadeira e com F se for falsa. a. ( ) Espaço amostral é o conjunto de todos os resultados possíveis de um experimento. b. ( ) Se dois eventos podem ocorrer ao mesmo tempo eles são chamados de mutuamente excludentes. c. ( ) A regra da multiplicação é usada para encontrar a probabilidade de dois eventos ocorrerem simultaneamente. d. ( ) A amostra é um subconjunto da população. Em todo experimento a amostra nunca será igual à população. e. ( ) Dado x um evento, então 0 < P (x ) ≤ 1.

120

11) Dois dados são lançados simultaneamente. Qual a probabilidade de o primeiro resultado ser menor do que o segundo? 12) Um grupo de 100 alunos de dois cursos de uma faculdade foram escolhidos para responderem a uma pesquisa. A tabela a seguir apresenta a composição destes alunos: Matemática

Pedagogia

Homens

31

10

Mulheres

23

36

Selecionando aleatoriamente um aluno(a): a) qual a probabilidade dele ser homem e ser do curso de Pedagogia? b) qual a probabilidade dela ser mulher ou ser do curso de Matemática?

13) Uma livraria acaba de receber 40 novos livros, entre eles 12 romances históricos. Se um desses livros é escolhido aleatoriamente, e sem reposição, qual a probabilidade dele ser romance histórico? (Expressar o resultado em fração) 14) Quais dos valores abaixo não podem ser probabilidade? 0;

0,0001;

-0,2 ;

3/2 ;

2/3 ;

2

;

0,2

15) Quanto é P(A), se A é o evento “Fevereiro tem 30 dias este ano”? 16) Quanto é P(A), se A é o evento “Novembro tem 30 dias este ano”? 17) Qual a probabilidade do resultado “cara” ao jogar uma moeda?

121

18) A MasterCard International efetuou um estudo de fraude em cartões de crédito. Os resultados estão na tabela a seguir Tipo de fraude

Número

Cartão roubado

243

Cartão falsificado

85

Pedido por correio/ telefone Outros

52 46

Selecionado aleatoriamente um caso de fraude, qual a probabilidade de a fraude resultar de um cartão falsificado? 19) Um casal planeja ter 2 filhos. a) Relacione os diferentes resultados, de acordo com o sexo de cada criança. b) Determine a probabilidade de o casal ter 2 meninas c) Determine a probabilidade de exatamente uma criança de cada sexo.

20) Em um teste com 3 questões do tipo verdadeiro/falso, um estudante que não está preparado deve responder cada uma aleatoriamente. a) Relacione os diferentes resultados possíveis. b) Qual é a probabilidade de responder corretamente todas as três questões? c) Qual a probabilidade de “palpitar” incorretamente todas as três questões? d) Qual a probabilidade de acertar duas questões? 21) Diga se os dois eventos são mutuamente excludentes: a. Escolha de um espectador de televisão do sexo masculino; b. Escolha de alguém que raramente utiliza o controle remoto. 22) Diga se os dois eventos são mutuamente excludentes: c. Girar uma roleta e obter um número 7; d. Girar uma roleta e obter um número par. 23) De um conjunto de cinco empresas, deseja-se selecionar, aleatoriamente, uma empresa, mas com probabilidade proporcional ao número de funcionários. O número de funcionários da Empresa A é 20; de B é 15; de C é 7; de D é 5 e de E é 3. 122

a) Qual a probabilidade de cada uma das empresas ser selecionada? b) Qual é a probabilidade de a Empresa A não ser Selecionada? 24) Se P( A) = 0,4 e P( B) = 0,5 , o que se pode dizer quanto a P( A ∪ B) se A e B são eventos mutuamente exclusivos? 25) Num lote de 12 peças, 4 são defeituosas; três peças são retiradas aleatoriamente. Calcule: a. A probabilidade de ambas serem defeituosas. b. A probabilidade de ambas não serem defeituosas. c. A probabilidade de ao menos uma ser defeituosa. 26) Um lote é formado por 10 peças boas, 4 com defeitos leves e 2 com defeitos graves. Uma peça é escolhida aleatoriamente. Calcule a probabilidade de: a. Ela não tenha defeitos graves. b. Ela não tenha defeito. c. Ela ou seja boa ou tenha defeitos graves. 27) Três máquinas, A, B e C produzem respectivamente 40%, 50% e 10% do total de peças de uma fábrica. As porcentagens de peças defeituosas nass respectivas máquinas são 3%, 5% e 2%. Uma peça é selecionada aleatoriamente e verifica-se que é defeituosa. Qual a probabilidade de que a peça tenha vindo da máquina B? 28) A probabilidade de o aluno X resolver um problema é de 3/5 e a do aluno Y resolver o mesmo problema é de 4/7. Qual a probabilidade de que o problema seja resolvido? 29) Um grupo de 15 elementos apresenta a seguinte composição: Homem

Mulher

Menores

5

3

Adultos

5

2

Um elemento é escolhido ao acaso. Pergunta-se: a. Qual a probabilidade de ser homem? b. Qual a probabilidade de ser adulto? c. Qual a probabilidade de ser mulher e menor? 123

d. Sabendo-se que o elemento escolhido é adulto, qual a probabilidade de ser homem? e. Dado que a escolhida é mulher, qual a probabilidade de ser menor/ 30) Suponha que um fabricante de sorvete recebe 20% de todo o leite que utiliza de uma fazenda F1 , 30% de uma outra fazenda F2 e 50% de F3 . Um órgão de fiscalização inspecionou as fazendas de surpresa, e observou que 20% do leite produzido por F2 estava adulterado por adição de água, enquanto que para F2 e F3 , essa proporção era de 5% e 2%, respectivamente. Na indústria de sorvetes os

galões de leite são armazenados em um refrigerador sem identificação das fazendas. Para um galão escolhido ao acaso, dado que ele foi adulterado, calcule: a) a probabilidade de que o leite tenha sido produzida pela fazenda F1 b) a probabilidade de que o leite tenha sido produzida pela fazenda F2 c) a probabilidade de que o leite tenha sido produzida pela fazenda F3 31) Uma companhia que fura poços artesianos trabalha numa região escolhendo aleatoriamente o ponto de furo. Não encontrando água nessa tentativa, sorteia outro local e, caso também não tenha sucesso, faz uma terceira e última tentativa. Admita probabilidade de 0,7 de encontrar água em qualquer ponto dessa região. Calcule a probabilidade de: a) encontrar água na segunda tentativa. b) encontrar água em até duas tentativas encontrar água. 32) Pastilhas utilizadas na fabricação de semicondutores podem estar contaminadas. A tabela a seguir apresenta um histórico de pastilhas produzidas por uma indústria. Localização na ferramenta de recolhimento Contaminação

Centro

Borda

Total

Baixa

514

68

582

Alta

112

246

358

Total

626

314 124

Selecionando-se aleatoriamente uma pastilha qual a probabilidade dela ter alta contaminação ou a pastilha esteja no centro de uma ferramenta de recolhimento?

125

Distribuições de probabilidade Variável Aleatória Definição: Sejam E um experimento e S o espaço amostral associado ao experimento. Uma função X, que associe a cada elemento s ∈ S um número real X (s ) é denominada variável aleatória. Veja a ilustração

Exemplo: E: Lançamento de duas moedas; X: Número de caras obtidas nas duas moedas; S = {(c , c ), (c , k ), (k , c ), (k , k )}, onde c= cara e k= coroa;

A variável aleatória X pode assumir os valores 0, 1 e 2. Outros exemplos de variáveis aleatórias: 2. X: número de acidentes com aviões de uma determinada companhia; 3. X: número de mulheres entre 10 empregados recém-admitidos; 4. 5.

X: número de peças produzidas por uma empresa em determinado dia; X: altura de um adulto do sexo masculino selecionado aleatoriamente.

126

Definições: Uma variável aleatória discreta admite um número finito de valores ou um número infinito enumerável de valores. Exemplo: a. O número de espectadores que vêem um filme. b. Número de peças produzidas em um dia. Uma variável aleatória contínua admite um número infinito de valores, e esses valores podem ser associados a mensurações em uma escala contínua. Exemplo: a) A voltagem em uma pilha. b) Quantidade de leite em um copo. Distribuição de Probabilidade Dada uma variável aleatória discreta, podemos identificar: 1) Quais os possíveis resultados podem ocorrer; 2) Qual a probabilidade de cada resultado ocorrer. Por exemplo: No lançamento de duas moedas não viciadas, o número de caras possíveis e suas probabilidades é dada por:

127

Tabela: Distribuição de probabilidade do nº de caras no lançamento de duas moedas Nº de caras x

Probabilidade

0

1/4

1

2/4

2

1/4 1

Total Assim, definimos:

A Distribuição de probabilidade de uma variável aleatória X é a descrição do conjunto de probabilidades associadas aos possíveis resultados de X. Podemos também chamá-la de função de probabilidade. Simbolicamente temos: p( xi ) = P( X = xi ) com i = 1,

2, ...

No caso do exemplo anterior temos: 1 4 2 p( 1 ) = P( X = 1 ) = 4 1 p( 2 ) = P( X = 2 ) = 4 p( 0 ) = P( X = 0 ) =

O gráfico da distribuição de probabilidade é dada por:

128

Gráfico: Distribuição de probabilidade do número de caras no lançamento de duas moedas

A função de probabilidade deve satisfazer às seguintes propriedades: 1)

p( xi ) ≥ 0 ;

2)

∑ p( x ) = 1 . i

i

Função de distribuição acumulada Podemos também representar uma distribuição de probabilidade por sua função de distribuição acumulada definida por: F ( x) = P( X ≤ x), ∀x ∈ ℜ

onde ℜ é o conjunto dos números naturais. Obs.: A distribuição acumulada descreve a probabilidade de ocorrer um valor até x. Exemplo: No lançamento de duas moedas não viciadas, a distribuição acumulada do número de caras possíveis é dada por:  1 4  3 F (x ) =  4 1  

se x ≤ 0 se x ≤ 1 se x ≤ 2

129

Tabela: Distribuição de probabilidade acumulada do nº de caras no lançamento de duas moedas Valores possíveis Distribuição acumulada x 0

1/4

1

3/4

2

4/4

Na tabela acima temos: F (0) = P ( X ≤ 0) = P ( X = 0 ) =

1 4

F (1) = P ( X ≤ 1) = P ( X =) 0 ( + P) X = 1 =

3 4

F ( 2) = P ( X ≤ 2) = P ( X =) 0 ( + P) X( = 1 )+ P X = 2 =

4 4

O gráfico da distribuição acumulada da variável X = número de caras em dois lançamentos é: Gráfico: Distribuição acumulada de probabilidade do número de caras no lançamento de duas moedas

Valor esperado A média ou valor esperado de uma variável aleatória X é dado por: k

µ = E( X ) =

∑ x .p( x ) i

i

i =1

130

Variância A variância de uma variável aleatória X é dada por: Var( X ) = E ( X 2 ) − µ 2 =

∑x

2

i

p( xi ) − µ 2

Exemplo: No lançamento de duas moedas não viciadas, a média e a variância são dadas por: Valores possíveis x

Probabilidade p(x)

xi ⋅ p( xi )

xi2 ⋅ p(xi )

0

1/4

0

0

1

2/4

2/4

2/4

2

1/4

2/4

1

1

1

1,5

Total Assim k

µ=

∑ x . p( x i

i

)=1

i =1

Var( X ) = E( X 2 ) − µ 2 = 1,5 − 1 = 0 ,5

Exercícios 1) Num lote de 12 peças, 4 são defeituosas. Duas peças são retiradas aleatoriamente sem reposição. Resolva: a) Encontre a distribuição de probabilidade associada a variável aleatória X = número de peças defeituosas. b) Faça o gráfico do resultado obtido na letra a. c) Encontre a distribuição acumulada de X. d) Faça o gráfico do resultado obtido na letra c e) Encontre a média de peças defeituosas, ou seja, a média de X. f) Encontre a variância do número de peças defeituosas, ou seja, a variância de X. 2) Considere o lançamento de um dado honesto. Encontre a distribuição de probabilidade associada ao resultado da face deste dado. 131

3) Suponha P(x ) =

x (onde x assume valores 0, 1, 2, 3). P(x ) Define uma 5

distribuição de probabilidade? 4) Suponha P(x ) =

x (onde x assume valores 0, 1, 2). P(x ) Define uma distribuição 3

de probabilidade? 5) Suponha P(x ) =

3

[4(3 − x)! x!]

(onde x assume valores 0, 1, 2, 3). P(x ) Define uma

distribuição de probabilidade? 6) O peso de um livro escolhido aleatoriamente é uma variável aleatória discreta ou contínua? 7) O custo de uma peça escolhida aleatoriamente é uma variável aleatória discreta ou contínua? 8) Suponha que a variável aleatória discreta x possa tomar os valores 1, 2, 3, ..., n e que esses valores sejam igualmente prováveis. Mostre que µ = 2

σ =

(n + 1) 2

e

(n 2 − 1) 12

Pricipais propriedades: Considere c constante e X e Y variáveis aleatórias. Média

Variância

E(c) = c

V(c) = 0

E(X+c) = E(X) + c

V(X + c) = V(X)

E(cX) = c E(X)

V(cX) = c2 V(X)

E(X+Y) = E(X) + E(Y)

DP(cX) = |c| DP(X)

E(X-Y) = E(X) - E(Y)

132

Distribuições discretas de probabilidade Para motivar suponha a seguinte situação: Num lote de 12 peças, 4 são defeituosas. Três peças são retiradas aleatoriamente. Calcule: a) Qual a probabilidade de apenas uma ser defeituosa, considerando retiradas com reposição? b) Qual a probabilidade de a primeira peça defeituosa ser a 3ª peça, considerando retiradas com reposição? c) Qual a probabilidade de apenas uma ser defeituosa, considerando retiradas sem reposição? Cada uma destas perguntas tem uma solução diferente. Passaremos agora a explicar os métodos necessários para a solução das mesmas. I) Distribuição Binomial Premissas assumidas pelo modelo binomial: a) n provas (ou experimentos) independentes e do mesmo tipo são realizadas; b) cada prova admite apenas dois resultados: sucesso e falha; c) a probabilidade de sucesso em cada prova é P{ sucesso } = p constante em todo o experimento. Neste caso consideramos amostragem aleatória com reposição. A probabilidade da variável X assumir certo valor x, pertencente ao conjunto {0, 1, 2, ...} é dada por n P ( X = x) =  . p x .(1 − p ) n − x  x

Onde E( X ) = n. p e Var( X ) = n. p.( 1 − p ) . Exercícios: 1) Num lote de 12 peças, 4 são defeituosas; duas peças são retiradas aleatoriamente e com reposição. Calcule: a) Qual a probabilidade de ambas serem defeituosas? b) Qual a probabilidade de apenas uma ser defeituosa? 133

Solução: a) Usando probabilidade (regra da multiplicação) temos P ( A) =

4 4 1 ⋅ = 12 12 9

.

Resolvendo usando a distribuição binomial temos: Seja A: uma peça ser defeituosa. Então P( A) = p =

4

. Assim a probabilidade de

12

retirar duas peças defeituosas é: 2

2

 2  4  4 2−2  2   4  8 0 16 1 =  .(1 − ) =  .  .( ) = 12 144 9  2   12   2   12  12

P ( X = 2) =  .

b) Exercício 2) Cada amostra de ar tem 10% de chance de conter um determinado poluente orgânico. Considere que as amostras sejam independentes com relação à presença do poluente. Determine: a) a probabilidade de que nas próximas 18 amostras exatamente 2 contenham o poluente. b) a probabilidade de que no mínimo quatro amostras contenham o poluente. c) a probabilidade de que 3 ≤ X < 7 . Solução: 18 

a) P( X = 2) =  .(0,1)2 .(1 − 0,1)18− 2 = 0,2835 2

3

18 

b) P( X ≥ 4) = 1 − P( X )< 4 = 1 − ∑ ()  . 0,1 x .(1 − 0,1)18− x = 0,098 x x =0

6

18 

x =3

x





c) P(3 ≤ X < 7) = ∑  .(0,1)x .(1 − 0,1)18− x = 0,265

3) Dados históricos mostram que 5% dos itens provindos de um fornecedor apresentam algum tipo de defeito. Considerando um lote de 20 itens, calcule a probabilidade de (com reposição): a) haver algum item com defeito; b) haver exatamente dois itens defeituosos; c) haver mais de dois itens defeituosos; d) qual é o número esperado de itens defeituosos? 134

e) e de itens bons? 4) Se 7% das lâmpadas de certa marca são defeituosas, achar a probabilidade de que, numa amostra de 100 lâmpadas, escolhidas ao acaso e com reposição, tenhamos três defeituosas. 5) Seja X uma variável aleatória binomial com n = 10 e p = 0,5 . Determine as seguintes probabilidades: a) P( X = 5) b) P( X ≤ 2 ) c) P(2 ≤ X < 5) 6) As linhas telefônicas em um sistema de reservas de uma companhia aérea estão ocupadas 40% do tempo. Suponha que os eventos em que as linhas estejam ocupadas em sucessivas chamadas sejam independentes. Considere que 10 chamadas aconteçam. a) qual a probabilidade de que para exatamente três chamadas as linhas estejam ocupadas? b) qual é a probabilidade de que para no mínimo uma chamada as linhas estejam ocupadas? c) qual é o número esperado de chamadas em que as linhas estejam ocupadas? II) Distribuição geométrica Se um caso satisfaz todas as condições de um experimento binomial, exceto pelo fato de o número de provas não ser fixo, então aplicamos a distribuição geométrica. A distribuição geométrica se aplica quando estamos interessados na probabilidade de o primeiro sucesso ocorrer em determinada prova. Para que o sucesso ocorra, por exemplo na x − ésima prova, deve-se ser precedido por x − 1 fracassos, cuja probabilidade é (1 − p ) x − 1 .

135

A distribuição é chamada geométrica porque seus valores sucessivos constituem uma progressão geométrica. Considere um experimento E e uma variável aleatória X com probabilidade de sucesso p. Se X tem distribuição geométrica, então a probabilidade de X obter sucesso na x-ésima prova é dada por P ( X =) x (= p) 1 − p

x −1

,

x = 1, 2, 3, L

onde E(X ) =

1

p

Var ( X ) =

(1 − p ) p2

Exercícios; 1) Num lote de 12 peças, 4 são defeituosas. Seleciona-se aleatoriamente 5 peças, com reposição. Qual a probabilidade de a primeira peça defeituosa ser a 3ª peça escolhida? Solução: A probabilidade de uma peça ser defeituosa é p(defeito ) =

4 = 0 ,3333 12

Escolhida 5 peças, a probabilidade da primeira peça defeitosa ser a 3ª é P ( X )= 3 = (0,3333)⋅ 1 − 0,3333

2

= 0,1481

2) A probabilidade de uma pastilha conter uma partícula grande de contaminação é de 0,01. Se for considerado que as pastilhas sejam independentes, qual será a probabilidade de que exatamente 125 pastilhas necessitem ser analisadas antes que uma partícula grande seja detectada? Solução: Seja x: o número de amostras analisadas até que uma partícula grande seja detectada. Então X é uma variável aleatória geométrica com p = 0,01 . A probabilidade então é: P ( X = 125 ) ( )= 0( ,)99

124

0,01 = 0,0029

136

3) A probabilidade de uma criança contrair uma doença contagiosa, à qual está exposta é 0,70. Qual é a probabilidade de a sétima criança exposta à doença ser a primeira a contraí-la?  4  8     P( X = 2) =  2  2 − 2  = 1 11  4 + 8   2  

IV) Distribuição de Poisson Suponha que queremos avaliar o número de ocorrência de um evento por unidade de tempo, de comprimento, de área, de volume, etc. Exemplo: a) número de consultas em uma base de dados por minuto; b) número de erros de tipografia em um formulário; Se tivermos: a) Independência entre as ocorrências do evento e b) Os eventos ocorrerem de forma aleatória,

Então a probabilidade da variável aleatória X assumir um determinado valor é dada por P( X = x) =

e − λ .λ x x!

com x = 0, 1, ...

Onde E( X ) = Var( X ) = λ . Exercícios: 1) Suponha que as consultas num banco de dados ocorrem de forma independente e aleatória, com uma taxa média de três consultas por minuto. Qual a probabilidade de que no próximo minuto ocorram: a) nenhuma consulta? 137

b) uma consulta? c) duas consultas? d) menos do que três consultas? Solução: Seja λ = taxa média = 3 consultas/min. a) Queremos a probabilidade de não ter consulta no próximo minuto, ou seja, x = 0. Assim P ( X = 0) =

e −3 .30 0!

=

0,0498 ⋅ 1 1

= 0,0498

Portanto a probabilidade de, no próximo minuto, ter nenhuma consulta é 0,0498. b) Queremos a probabilidade de ter 1 consulta no próximo minuto, ou seja, x = 1. Assim P ( X = 1) =

e −3 .31 1!

=

0,0498 ⋅ 3 1

= 0,1494

Portanto a probabilidade de, no próximo minuto, ter uma consulta é 0,1494. c) Queremos a probabilidade de ter 2 consultas no próximo minuto, ou seja, x = 2. Assim P ( X = 2) =

e −3 .3 2 2!

=

0,0498 ⋅ 9 2

= 0,2241

Portanto a probabilidade de, no próximo minuto, ter duas consultas é 0,2241. d) Queremos P( X =) 0 ( + P) X( = 1 )+ P X = 2 = 0,0498 + 0,1494 + 0,2241 = 0,4233 2) Suponha que as consultas num banco de dados ocorrem de forma independente e aleatória, com uma taxa média de três consultas por minuto. Qual a probabilidade de que nos próximos dois minutos ocorram mais do que 5 consultas? 3) Suponha que X tenha uma distribuição de Poisson, com uma média de 4. Determine: a) P( X = 4 ) b) P( X ≤ 2 ) 138

4) O número de falhas na superfície de painéis de plástico usados no interior de automóveis tem uma distribuição de poisson, com uma média de 0,05 falha por pé quadrado de painel de plástico. Considere que o interior de um automóvel contém 10 pés quadrados de painel plástico. (Obs.: um pé equivale a 30,48 cm) a) qual a probabilidade de não haver falha na superfície do interior do automóvel? b) Se 10 carros forem vendidos para uma companhia de aluguel de carros, qual será a probabilidade de no máximo um carro ter qualquer falha na superfície? 5) Tráfego de carros é tradicionalmente modelado como uma distribuição de Poisson. Um engenheiro de tráfego monitora o fluxo de carros em um cruzamento que tem uma média de 6 carros por minuto. Calcule: (Para estabelecer o tempo de um sinal, as seguintes probabilidades são usadas) a) Qual a probabilidade de três ou mais carros passarem pelo cruzamento em 30 segundos? b) Calcule o número mínimo de carros que passam pelo cruzamento, em 30 segundos, x , de modo que P( X ≤ x ) ≥ 0,90 .

139

Distribuições contínuas de probabilidade Uma variável aleatória X é dita contínua quando ela assume qualquer valor real dentro de um intervalo. Exemplos: 1) 2) 3) 4)

Altura de uma pessoa; Tempo de viagem; Tempo de uma reação química; Volume de leite em um copo; etc

Definição Seja f ( x ) a função densidade de probabilidade da variável contínua X. Então f ( x ) deve satisfazer às seguintes propriedades: 1) f ( x ) ≥ 0, ∀x real +∞

∫ f ( x)dx = 1

−∞

b 2) 3) Se A = [a, b] , então P(a ≤ X ≤ b) = ∫ f ( x)dx . a

A função de densidade de probabilidade fornece uma descrição simples das probabilidades associadas a uma variável aleatória. Exemplos: 1) Considere a função f (x ) = x 2 + 1, de densidade de probabilidade.

0 ≤ x α se  1 

f ( x) =  β − α

 0,

,

para x ∈ [α , β ] para x ∉ [α , β ]

Neste caso E( X ) =

α +β 2

e Var ( X ) =

(β − α ) 12

2

.

Exemplos:

1) Um profissional de computação observou que seu sistema gasta entre 20 e 24 segundos para realizar determinada tarefa, segundo uma distribuição uniforme em [20, 24]. Sua curva de densidade é dada por Gráfico: Curva de densidade da probabilidade de um sistema

142

Exercício: 1) Um profissional de computação observou que seu sistema gasta entre 20 e 24 segundos para realizar determinada tarefa. Considere a probabilidade uniforme em [20, 24]. Resolva: a) Encontre, graficamente, a função densidade de probabilidade. b) P ( X > 23) . c) d)

E( X ) Var ( X ) .

2) Seja a variável aleatória contínua X a corrente em um fio delgado de cobre, medida em miliampères. Suponha que a faixa de X seja [0, 20 mA] e considere que a função densidade de probabilidade de X seja f ( x ) =

1 20

.

a) Qual é a probabilidade de que uma medida da corrente seja menor que 10 mA? b) Determine x de modo que P( X < x ) = 0,95 . c) Determine E ( X ) e Var ( X ) . d) Calcule a função de distribuição de probabilidade acumulada.

3) A função de densidade para o peso de pacotes entregues pelo correio é

f (x ) =

70 69

2

para 1 < x < 70 libras. Calcule: a) verifique que f é função de densidade de probabilidade; b) a probabilidade de ser entregue um pacote com peso entre 60 e 70 libras? c) Se o custo para despachar for R$ 5,00 por libra, qual será o custo médio para despachar um pacote? d) a variância do peso?

143

II)

Distribuição Exponencial

Uma distribuição exponencial é utilizada quando queremos modelar a variável aleatória contínua que representa: a) Tempo até a próxima consulta a uma base de dados; b) Tempo entre pedidos a um servidor; c) Distância entre defeitos de uma fita.

Sejam as variáveis aleatórias: Xt

= número de ocorrências no intervalo de tempo [0, t]; e

T = tempo entre as ocorrências. Sendo λ a taxa média de ocorrências por unidade de tempo, então, considerando

independência entre as ocorrências,

tem distribuição exponencial dada por:

T

f (t ) = λ.e −λ .t

Onde E (T ) =

1

λ

1

e Var (T ) = λ2

A curva de densidade da variável T com distribuição exponencial é dada por

b

A probabilidade P (a ≤ T ≤ b ) = ∫ λ .e − λ .t . a

144

Exercícios: 1) Seja a variável aleatória T definida como o tempo de resposta na consulta a um banco de dados, em minutos. Suponha que essa variável tenha a seguinte função densidade de probabilidade: 2e −2t ,

f ( x) = 

 0,

para t ≥ 0 para t < 0

Calcule: a) A probabilidade de a resposta demorar mais do que 3 minutos? b) Calcule P ( 2 ≤ T ≤ 3) . Solução: ∞

− 2.t − 2.t a) P(T ≥ 3 ) = ∫ 2.e dt = −e

∞ 3 =

−e − 2.∞ + e − 2.3 =0 + 0 ,0025 = 0 ,0025 .

3

3

b)

P(2 ≤ T ≤ 3 ) = ∫ 2.e − 2.t dt = −e − 2.t 32 = −e − 2.3 + e − 2.2 =0 ,0025 + 0 ,0183 2

= 0 ,0208

2) O tempo de vida (em horas) de um transistor é uma variável aleatória T com distribuição exponencial. O tempo médio de vida do transistor é de 500 horas. a) Faça a curva de densidade. b) Calcule a probabilidade de o transistor durar mais do que 500 horas. c) Calcule a probabilidade de o transistor durar entre 300 e 1000 horas.

145

3) A função densidade de probabilidade do tempo em que clientes chegam a um terminal (em minutos depois de 8h) é −

f (x ) =

e

x 10

10

para x > 0. Determine a probabilidade de: a) o primeiro cliente chegar até 9h. b) o primeiro cliente chegar entre 8h15min e 8h30min. c) dois ou mais clientes chegarem antes das 8h40min, entre os cinco que chegam ao terminal. Considere que as chegadas dos clientes sejam independentes. d) determine a função de distribuição acumulada. 4) Seja a variável aleatória X o diâmetro de um orifício perfurado em uma placa com componentes metálicos. O diâmetro-alvo é 12,5 milímetros. A maioria dos distúrbios aleatórios no processo resulta em diâmetros maiores. Dados históricos mostram que a distribuição de X pode ser modelada por uma função de densidadde de probabilidade f (x ) = 20e − 20( x −12,5)

para x ≥ 12,5 . Determine: a) Se uma peça com diâmetro maior que 12,60 mm for descartada, qual será a proporção de peças descartadas? b) Qual o diâmetro médio? c) Qual a variância? Sugestão: Utilize integração por parte ∫ u dv = uv − ∫ v du

146

III)

Distribuição Normal

Uma variável aleatória X tem distribuição normal se seu histograma tem a forma de um sino. 200

100

Std. Dev = 994,59 Mean = 2516,6 N = 1488,00

0 0, 0

50 10 1 2 2 3 3 4 4 5 5 6 0, 00 500 000 500 000 500 000 500 000 500 000 0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0 ,0

Vendas de auto peças

Definição Dados os parâmetros da normal é dada por:

e µ

0

reais, a função densidade de probabilidade

σ >

f ( x) =

1

σ . 2π

1 x−µ

.e

− ( 2

σ

)

2

Onde E ( X ) = µ e Var ( X ) = σ . Podemos perceber que o cálculo de probabilidade usando a distribuição normal é muito difícil devido ao tipo de função. Uma forma de contornarmos este problema é utilizar a distribuição normal padronizada. A distribuição normal padronizada tem este nome pois sua média é 0 e a variância é um. Com isso os cálculos ficam muito mais práticos pois podemos utilizar as tabelas de probabilidade normal padronizada. Uma conseqüência importante do fato de uma distribuição Normal ser completamente caracterizada por sua média e desvio-padrão é que a área sob a curva entre um ponto qualquer e a média é função somente do número de desviospadrões que o ponto está distante da média. 147

Como existem uma infinidade de distribuições normais (uma para cada média e desvio-padrão), transformamos a unidade estudada seja ela qual for (peso, espessura, tempo, etc.) na unidade Z, que indica o número de desvios-padrão a contar da média. Para padronizar um conjunto de dados que tem distribuição normal é só aplicar a fórmula z = X −µ σ

Utilização da tabela da normal padronizada A tabela nos dá a área sobre o gráfico, ou seja, a probabilidade. Exemplo 1: A resistência à tração do papel usado em sacolas de super-mercado é uma característica de qualidade importante. Sabe-se que essa resistência segue um modelo Normal com média 40 psi e desvio padrão 2 psi. Se a especificação estabelece que a resistência deve ser maior que 35 psi, qual a probabilidade que uma sacola produzida com este material satisfaça a especificação? P{X} ≥ 35 ={1}− P X ≤ 35 35 − 40   P{X} ≤ 35 = P Z ≤ { }  = P Z ≤ −2 ,5 2  

Pela tabela da normal padronizada temos probabilidade de 0,0062. Logo a resposta é 1-0,0062 = 99,38%.

148

Exercícios 1) Utilizando a tabela da distribuição normal padronizada calcule: a) P( z < 0 ,42 ) b) P ( z < 0 ,75 ) c) P( z < −0 ,30 ) d) P( z > 0 ,56 ) e) P (0 ,25 < z < 0 ,72 ) f) P (− 0 ,25 < z < 0 ,20 ) g) o valor de z tal que P (− z < Z < z ) = 0 ,90 . Propriedades da distribuição normal 1) a curva é simétrica em torno da média; f (x) = 0 2) xlim →∞

3) a área total sob a curva é igual a 1;

área=1

área=0,5 área=0,5

Comparação entre média e variância

149

f(x)

A

B C

x

a) da distribuição A para B muda a tendência central, mas a variabilidade é constante; b) da distribuição A para C muda a variabilidade, mas a tendência central é constante; c) da distribuição B para C muda a tendência central e a variabilidade.

Exercícios 1) Suponha que a absorção de água(%) em certo tipo de piso cerâmico tenha distribuição normal com média 2,5 e desvio-padrão 0,6. Selecionando, aleatoriamente, uma unidade desse piso, qual é a probabilidade de ele acusar absorção de água entre 2% e 3,5%? 150

2) Uma fábrica de chocolates comercializa barras que pesam em média 200g. Os pesos são normalmente distribuídos. Sabe-se que o desvio padrão é igual a 40g. Calcule a probabilidade de uma barra de chocolate, escolhida aleatoriamente, pesar a) entre 200 e 250g; b) mais de 230g; c) menos que 150g. 3) Suponha que uma variável aleatória X tenha distribuição normal com média 5 e desvio-padrão 4. Calcule: P(2 ≤ X < 8 )

151

Teste de Hipótese Teste de Hipótese Em Estatística, uma hipótese é uma afirmação sobre uma propriedade de uma população. Podemos estar interessados em saber informações sobre a média, a proporção ou a variância. Componentes de um teste de hipótese 1)

Hipótese nula - H0 : é uma afirmação sobre o valor de um parâmetro

populacional. Deve conter o sinal de igualdade e deve escrever-se como = , ≤ , ≥ . 2)

Hipótese alternativa - H1 : é a afirmação que deve ser verdadeira se a hipótese

nula for falsa. Não deve conter o sinal de igualdade. Exemplos: a) Testar a afirmação de que a média populacional é 75. Solução: Neste caso temos H 0 : µ = 75 e H1 : µ ≠ 75 . b) Testar a afirmação de que a média é no máximo 2,50. Solução: Neste caso temos H 0 : µ ≤ 2,50 e H1 : µ > 2,50 . 3)

Erro tipo I: Consiste em rejeitar a hipótese nula quando ela é verdadeira.

H0

Rejeita H 0 Não rejeita H 0

4)

verdadeira Erro tipo I Acerto

H0

falsa Acerto

Erro tipo II

Nível de significância - α : A probabilidade do erro tipo I ocorrer. 152

5) 6)

Erro tipo II: Consiste em não rejeitar a hipótese nula quando ela é falsa. A probabilidade de ocorrer o erro tipo II é β .

7) Estatística de teste: É uma estatística amostral baseado nos dados amostrais. 8) Região crítica: É o conjunto de todos os valores da estatística de teste que levam à rejeição da hipótese nula. 9) Valor Crítico: É o valor, ou valores, que separa(m) a região crítica dos valores da estatística de teste que não levam à rejeição da hipótese nula. Conclusões no teste de hipótese Em um teste de hipótese concluímos por: •

rejeitar a hipótese nula ou



não rejeitar a hipótese nula.

Tipos de teste



Bilateral (sinal de H1 : ≠ ): a região crítica está situada nas duas regiões. α Neste caso cada área tem valor . 2

153



Unilateral esquerdo (sinal de H1 : ): a região crítica está situada na parte direita. P (Erro tipo I ) = α .

154

Teste de uma afirmação sobre uma média: grandes amostras Considere uma amostra razoavelmente grande ( n ≥ 30 ) para valer o teorema central do limite, ou que os dados provenham de uma distribuição aproximadamente normal. Para testarmos alguma informação com respeito à média populacional utilizamos a estatística de teste dada por:

Estatística de teste: z =

x − µx σ n

Caso σ seja desconhecido podemos substituí-lo por s . Os valores críticos são encontrados na Tabela A – 2. Exemplo: O tempo médio entre falhas de um rádio da Telektronic Companhy para aviões de pequeno porte é 420 horas. Após terem sido modificados 35 aparelhos de rádio, em uma tentativa de melhorar sua confiabilidade, os testes acusaram um tempo médio de 385 horas para esta amostra, com desvio-padrão de 24 horas. Ao nível de significância de 0,05, teste a afirmação de que o tempo médio, após as modificações, é menor que 420 horas . Solução:  H : µ ≥ 420

a) As hipóteses são:  0  H1 : µ < 420

b) O teste é unilateral esquerdo, pois o sinal de H1 é 165

b) O teste é unilateral direito, pois o sinal de H1 é>; c) O nível de significância é α = 0,01 ;

157

d) O valor do grau de liberdade é de 7-1 = 6. Logo o valor crítico é tα = 3,143 ; Logo temos:

e) Os dados amostrais são: x = 252,7 e s = 27,6 ; Como n = 7 ( n < 30 ), a estatística de teste é dada por:

t=

x − µx s n

=

252,7 − 165 = 8,407 27,6 7

f) Conclusão: Como a estatística de teste está na dentro da região crítica, então rejeitamos H 0 . Exercícios 1) Admitindo que a pressão sanguínea arterial em homens siga o modelo Normal, 7 pacientes foram sorteados e tiveram sua pressão medida obtendo os seguintes resultados: 82 - 84 - 78 - 85 - 69 - 80 - 75 Utilizando um nível de significância de 0,02 , teste a afirmação de a média da pressão sanguínea é de 82.

158

2) O inspetor de qualidade da JF Construções mediu 25 barras de aço e obteve as seguintes medidas em metros: 4,51

5,38

4,84

5,33

4,74

4,99

5,15

5,52

5,82

5,45

4,68

4,74

5,53

5,40

4,72

4,97

5,24

4,94

4,75

5,50

4,81

5,25

4,86

4,93

4,95

Pode-se afirmar, com com nível de significância de 5%, que tais barras foram sacadas de um lote cujo comprimento médio é de 5,00 metros? Teste de uma afirmação sobre variância ou desvio-padrão Ao testar uma hipótese sobre o desvio-padrão σ ou a variância σ 2 de uma população, admitimos que os valores da população sejam distribuídos normalmente. Para testar uma informação sobre desvio-padrão σ ou a variância σ 2 a estatística de teste é dada por:

Estatística de teste: χ 2 =

(n − 1) ⋅ s 2 σ2

,

onde n = tamanho da amostra s2

σ

2

= variância amostral = variância populacional

Os valores críticos são encontrados na Tabela A – 4. O número de Graus de liberdade = n – 1.

159

Exemplo: O tempo para transmitir 10 MB em determinada rede de computadores varia segundo um modelo normal, com média 7,4 segundos e variância 1,3 segundos. Depois de algumas mudanças na rede, acredita-se numa redução no tempo de transmissão de dados, Além de uma possível mudança na variabilidade. Foram realizados 10 ensaios independentes com um arquivo de 10 MB e foram coletados os tempos de transmissão, em segundos: 6,8

7,1

5,9

7,5

6,3

6,9

7,2

7,3

6,6

6,3

Resolva: a) Existe evidência suficiente de que as mudanças na rede de computadores alteraram a variabilidade no tempo de transmissão de dados? Ao nível de 0,05. b) Existe evidência suficiente de que as mudanças na rede de computadores alteraram o tempo médio de transmissão de dados? Ao nível de 0,05 Solução da letra a:  H : σ 2 = 1,3 a) As hipóteses são:  0 2

 H : σ ≠ 1,3 1

b) O teste é bilateral direito, pois o sinal de H1 é ≠ ; c) O nível de significância é α = 0,05 ; 160

d) O valor do grau de liberdade é de 10-1 = 9. Logo os valores críticos são χ 2 = 2,700

e χ 2 = 19,023 ; Logo temos:

e) Os dados amostrais indicam: s = 0,261 ; f) a estatística de teste é dada por:

χ 2 = (10 − 1) ⋅ 0,261 = 1,807 1,3

g) Conclusão: Como a estatística de teste está na dentro da região crítica, então rejeitamos H 0 . Exercícios 1) A cofap alega que a variância da vida média de seus amortecedores é de nove meses. A Chevrolet ensaia 18 peças e encontra variância de um ano para a vida média das referidas peças. A 5% de significância, isso lhe permite refutar a alegação da Cofap? 2) Um laboratório fez oito determinações da quantidade de impurezas em porções de certo composto. Os valores eram (em mg): 12,4 – 12,6 – 12,0 – 12,0 – 12,1 – 12,3 – 12,5 – 12,7 161

Teste a hipótese de que o desvio-padrão é 1, ao nível se significância de 0,05. 3) Uma máquina de enchimento automático é usada para encher garrafas com detergente líquido. Uma amostra aleatória de 20 garrafas resulta em uma variância amostral de volume de enchimento de 0,0153 (onça fluida)2. Se a variância do volume de enchimento exceder 0,01 (onça fluida)2, existirá uma proporção inaceitável de garrafas cujo enchimento não foi completo e cujo enchimento foi em demasia. Há evidência nos dados da amostra que sugira que o fabricante tenha um problema com garrafas cheias com falta e excesso de detergente? Use nível de significância de 5%.

TESTE DE HIPÓTESE P ARA PROPORÇÃO O teste para proporção é aplicado em situações nas quais queremos verificar se a proporção de algum atributo na população pode ser igual a certo valor p0 . SUPOSIÇÕES: 1) São verificadas as condições para um experimento binomial. Isto é, temos um número fixo de provas independentes com probabilidade constante, e cada prova comporta dois resultados, que designamos “sucesso” e “falha”. 2) As condições np ≥ 5 e nq ≥ 5 são ambas verificadas, de modo que a distribuição binomial das proporções amostrais pode ser aproximada por uma distribuição normal com µ = np e σ = npq .

162

______________________________________________________________ NOTAÇÃO: n : número de provas; p : proporção populacional (usada na hipótese nula); pˆ = x : proporção amostral; n

q = 1− p

______________________________________________________________ ESTATÍSTICA DE TESTE: z=

pˆ − p pq n

Os valores críticos são obtidos na tabela A – 2 (distribuição normal padronizada). Exemplos: 1) Uma empresa retira periodicamente amostras aleatórias de 500 peças de sua linha de produção para análise da qualidade. As peças da amostra são classificadas como defeituosas ou não, sendo que a política da empresa exige que o processo produtivo seja revisto se houver evidência de mais de 1,5% de peças defeituosas. Na última amostra, foram encontradas nove peças defeituosas. Usando nível de significância de 1%, o processo precisa ser revisto? Solução:  H : p ≤ 0,015

h) As hipóteses são:  0  H 1 : p > 0,015

i) O teste é unilateral direito, pois o sinal de H1 é > . j) O nível de significância é α = 0,01 ; k) O valor crítico é zα = 2,33 ; Logo temos: 163

l) Os dados amostrais são: pˆ =

9 500

= 0,018

m) Critérios para a aproximação normal: n ⋅ p = 500 ⋅ 0,015 = 7,5 e n ⋅ q = 500 ⋅ (1 − 0,015) = 500 ⋅ 0,985 = 492,5

n) Estatística de teste é dada por: z=

pˆ − p pq n

=

0,018 − 0,015 0,015 ⋅ 0,985

=

0,003 0,005436

= 0,552

500

o) Conclusão: Como a estatística de teste está fora da região crítica, então não rejeitamos H 0 . 2) Em um estudo da eficácia do air-bag em automóveis, constatou-se que, em 821 colisões de carros de tamanho médio equipados com air-bag, 46 colisões resultaram em hospitalização do motorista. Ao nível de significância de 0,01, teste a afirmação de que a taxa de hospitalização nos casos de air-bag é inferior à taxa de 7,8% para colisões de carros de tamanho médio equipados com cintos automáticos de segurança. 3) O controle estatístico de certo processo de fabricação de determinada lâmpada estabeleceu que pelo menos 94% delas têm que estar sem defeito. 164

Para verificar a validade desta afirmação, foi coletada uma amostra de 150 lâmpadas das quais 138 estavam sem defeito. Com 1% de significância, há evidência de que o processo está de acordo com o esperado?

165

Distribuição Amostral

Um estimador é uma estatística amostral (como a média amostral x ) utilizada para obter uma aproximação de um parâmetro populacional. Exemplos: 1) x (média amostral) é um estimador de µ (média populacional) 2) s 2 (variância amostral) é um estimador de σ 2 (variância populacional) Propriedade do estimador: 1) Tendenciosidade: Um estimador é dito não tendencioso se a esperança dele for igual ao valor populacional. Por exemplo: E (x ) = µ E s2 = σ 2

Uma estatística é um valor específico, ou um intervalo de valores, usado para aproximar um parâmetro populacional Uma estimativa pontual é um valor único usado para aproximar um parâmetro populacional. Exemplo: considere uma população formada pelos elementos 1

1

2

3

Suponha uma amostra de tamanho 2 1

3

A média amostral é 2. A média populacional é 1,75. Uma estimativa intervalar, ou intervalo de confiança, é uma amplitude de valores que tem probabilidade de conter o verdadeiro valor do parâmetro populacional. O grau de confiança é a probabilidade 1 − α de o intervalo de confiança conter o verdadeiro valor do parâmetro populacional. Um valor crítico é o número na fronteira que separa os valores das estatísticas amostrais prováveis de ocorrerem, dos valores que têm pouca chance de ocorrer. 166

Quando utilizamos dados amostrais para estimar um parâmetro populacional podemos cometer erros. A margem de erro, denotada por E, é a diferença máxima provável (com probabilidade 1 − α ) entre o valor amostral e o verdadeiro valor populacional. A margem de erro E é chamada também de erro máximo da estimativa. Veja o cálculo dos erros: Parâmetro

Cálculo erro

do Intervalo de confiança

Média (Grandes amostras)

E = zα ⋅ σ n 2

Média (Pequenas amostras)

E = tα ⋅

Proporção

2

E = zα ⋅ 2

s

de

x−E < µ < x+E

 zα ⋅ σ  2  n= 2  E   

x−E < µ < x+E

 tα ⋅ s  n= 2   E   

pˆ − E < p < pˆ + E

   zα 2  pˆ qˆ n= ou

n pˆ qˆ n

Tamanho amostra

2

2

E2

2

   zα  0,25  2 n= E2

Variância

(n )− 1 s 2 2

χR

( )

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF