71171772 Libro de Estadistica

February 11, 2017 | Author: cesargabriel_94 | Category: N/A
Share Embed Donate


Short Description

Download 71171772 Libro de Estadistica...

Description

Probabilidades 1

Capítulo 1. Probabilidades 1.1 Modelos matemáticos La aplicación de las matemáticas para describir el universo es una práctica que ha dado muy buenos resultados durante siglos. Las matemáticas conforman un lenguaje completamente lógico que puede aplicarse a la descripción de la naturaleza porque los sucesos y los objetos de la naturaleza tienen propiedades que ofrecen un paralelo suficiente a las matemáticas. Aunque la descripción de la naturaleza en términos matemáticos nunca es completamente exacta, hay suficiente concordancia entre las formas de la naturaleza y las de la expresión matemática para que la descripción sea aceptable. La aproximación es a menudo tan grande que una vez que se ha aplicado la descripción matemática, se puede proseguir con esa lógica matemática para hacer deducciones que también se apliquen a la naturaleza. 1.1.1 Definiciones:

Se denomina experimento a la reproducción controlada de un fenómeno cualquiera que ocurre en la naturaleza. Un modelo matemático se emplea para describir un fenómeno que ocurre en la naturaleza, y puede ser: determinístico o no determinístico. Un modelo es determinístico cuando las condiciones bajo las cuales se verifica el experimento determinan su resultado. Por ejemplo: si se deja caer un cuerpo en el vacío, desde una altura h, hasta el piso, la velocidad que alcanza es:

v = 2 gh Este modelo determina la velocidad con que el cuerpo cae al piso todas las veces que se repita el experimento, si se repiten las mismas condiciones del experimento. Un modelo es no determinístico o probabilístico cuando las condiciones bajo las cuales se verifica el experimento no determinan su resultado. Según el fenómeno que se estudie, es posible determinar un modelo. Por ejemplo: si se quiere saber cuántos autos llegan a una gasolinera entre las 7 y las 8 a.m.; con base en datos históricos se puede diseñar un modelo que dé un resultado aproximado con cierto grado de confiabilidad. La forma de diseñar este modelo se verá en el capítulo 4. Se sabrá, por ejemplo, qué tan probable es que no llegue ningún vehículo, que lleguen menos de 5 vehículos, que lleguen entre 6 y 10 vehículos, o que lleguen entre 11 y 15 vehículos, etc. A diferencia del experimento anterior, no es posible mantener las mismas condiciones del experimento, pues no están al alcance del que investiga. 1.1.2 Características de un fenómeno probabilístico:

• Sin cambiar las condiciones bajo las cuales se verifica el experimento, se pueden obtener distintos resultados. • Se puede describir el conjunto de todos los resultados posibles. • Inicialmente los resultados parecen ocurrir en forma caprichosa; pero cuando el experimento se repite muchas veces, aparece un modelo definido de regularidad que hace posible la construcción de un modelo matemático preciso, con el cual se puede analizar el fenómeno.

2

Probabilidades

1.2 Permutaciones y combinaciones Para calcular ciertas probabilidades es necesario calcular permutaciones y combinaciones. Para un mejor entendimiento de estas definiciones se emplean ejemplos sencillos, muchos de los cuales tienen relación con los juegos de azar, aunque puedan resultar poco útiles para efectos prácticos. Una permutación es un arreglo, en un determinado orden, de un conjunto de elementos. Por ejemplo, con las letras del abecedario se pueden formar las siguientes permutaciones de dos letras: ab, ba, ac, ca, bc, cb,..., xy, yx, yz, zy. Una combinación es un arreglo, sin que importe el orden, de un conjunto de elementos. Por ejemplo, con las letras del abecedario se pueden formar las siguientes combinaciones de tres letras: abc, abd, abe,..., bcd, bce, bcf,..., cde,..., xyz. 1.2.1 Teoremas relativos a permutaciones y combinaciones

TEOREMA 1: El número de permutaciones de r elementos que se pueden formar a partir de un conjunto de N elementos diferentes, es:

P( N , r ) =

N! ( N − r )!

Se demuestra este teorema de la siguiente manera: para escoger el primer elemento hay N posibilidades, para escoger el siguiente hay (N – 1) posibilidades, luego (N – 2) posibilidades, y así sucesivamente. Se deduce que, para escoger el r-ésimo elemento hay N – (r – 1) posibilidades. El número de formas en que se pueden permutar estas posibilidades es: N (N – 1) (N – 2)...N – (r – 1), que es igual al cociente dado por el teorema. Ejemplo 1:

¿Cuántos números de tres dígitos pueden formarse con los dígitos impares? N = 5 (los dígitos impares son: 1, 3, 5, 7, 9) r=3 P( N , r ) =

5! = 60 (5 − 3)!

Pueden formarse 60 números diferentes con los dígitos impares. Ejemplo 2:

Se va a realizar una prueba de atletismo con 6 participantes. ¿De cuántas formas se pueden entregar las medallas para los tres primeros puestos? N=6 r=3 P( N , r ) =

6! = 120 (6 − 3)!

Las medallas para los tres primeros puestos se pueden entregar de 120 formas diferentes. COROLARIO 1: El número de permutaciones de N elementos que se pueden formar a partir de un conjunto de N elementos diferentes, es:

P( N , N ) = N! Ejemplo:

¿Cuántos números de cinco dígitos pueden formarse con los dígitos impares? N = 5 (los dígitos impares son: 1, 3, 5, 7, 9)

Probabilidades 3

P ( N , N ) = 5! = 120 Pueden formarse 120 números diferentes empleando los cinco dígitos impares. COROLARIO 2: Dado un grupo de N elementos, conformado por k grupos diferentes, de tal forma que n1 elementos iguales conforman el primer grupo, n2 elementos iguales conforman el segundo grupo, ..., nk elementos iguales conforman el k-ésimo grupo, donde n1 + n2 + ... + nk = N ; el número de permutaciones que pueden formarse, tomando los N elementos a la vez, es: P ( N ; n1 , n 2 , ..., n k ) =

N! n1! n 2 !..., n k !

Este corolario puede comprobarse siguiendo el siguiente razonamiento: si los elementos del primer grupo fuesen diferentes, el número total de permutaciones que pueden formarse quedaría multiplicado por n1!; y si los elementos del segundo grupo también fuesen diferentes, el total anterior quedaría multiplicado por n2!; y si, al igual que los grupos anteriores, los elementos del k-ésimo grupo también fuesen diferentes, el total también quedaría multiplicado por nk!; resultando finalmente que el número total de permutaciones con N elementos diferentes es N!, como era de esperarse. Ejemplo:

¿Cuántos números pueden formarse con los siguientes dígitos: 1, 1, 1, 1, 2, 2, 3, 4, 5, 5, 5, tomando todos a la vez? P(11; 4, 2, 1, 1, 3) = 11!/ 4! 2! 1! 1! 3! = 138 600 Pueden formarse 138 600 números diferentes. TEOREMA 2: El número de permutaciones de r elementos que se pueden formar a partir de un conjunto de N elementos diferentes, si se admite repetición de los elementos, es:

PR ( N , r ) = N r La demostración es similar a la del teorema 1, con la diferencia de que, para escoger cada uno de los r términos, hay siempre N posibilidades, resultando N × N × ... × N, (r veces), es decir, N r permutaciones. Ejemplo:

¿Cuántos números de tres cifras pueden formarse con los dígitos impares, si se admite repetición de cualquiera de los dígitos? PR (5, 3) = 53 = 125 números TEOREMA 3: El número de combinaciones de r elementos que se pueden formar a partir de un conjunto de N elementos diferentes, es: C(N , r) =

N! r!( N − r )!

Se demuestra este teorema considerando que C(N, r) multiplicado por el número de permutaciones que se pueden formar con los r elementos, r!, debe ser igual a P(N, r), es decir, N! / (N – r)! Ejemplo:

Un profesor quiere escoger 8 alumnos de un conjunto de 15. ¿De cuántas formas puede hacerlo? Resulta evidente que no importa el orden en que se escogen los 8 alumnos

4

Probabilidades

C (15, 8) =

15! = 6 435 8!(15 − 8)!

El profesor puede escoger 8 alumnos de 6 435 formas. TEOREMA 4: El número de combinaciones de r elementos que se pueden formar a partir de un conjunto de N elementos diferentes, si se admite repetición de los elementos, es:

CR (N , r) =

( N + r − 1)! r!( N − 1)!

Se demuestra por inducción matemática: Para un conjunto de N elementos, sea r = 2. Se podrán formar las siguientes combinaciones: (1,1), (1,2), (1,3), (1,4), …, (1,N) ⇒ N (2,2), (2,3), (2,4), …, (2,N) ⇒ N – 1 (3,3), (3,4), …, (3,N) ⇒ N – 2

N +(N – 1)+(N – 2) + … + 1 =

… (N,N) ⇒ 1 Para r = 3 se podrán formar las siguientes combinaciones: Cuando el primer dígito es 1: (1,1,1), (1,1,2), (1,1,3), (1,1,4), …, (1,1,N) (1,2,2), (1,2,3), (1,2,4), …, (1,2,N)  N + 1    2 

(1,3,3), (1,3,4), …, (1,3,N) … (1,N,N) Cuando el primer dígito es 2: (2,2,2), (2,2,3), (2,2,4), …, (2,2,N) (2,3,3), (2,3,4), …, (2,3,N)

N   2

(2,4,4), …, (2,4,N) … (2,N,N) Cuando el primer dígito sea 3, resultará:

 N − 1    2 

Y así, cuando el primer dígito sea N, resultará:

 2   = 1  2

Considerando la siguiente propiedad: N  k

  N − 1  N − 2   =   +   + … +   k −1   k −1 

 k − 1    k − 1

El número de combinaciones para r = 3 será:  N + 1  N   N − 1   +   +   + … + 1 =  2  2  2 

 N + 2    3 

N ( N + 1)  N + 1  =  2  2 

Probabilidades 5  N + 3   4 

Por inducción, el número de combinaciones, para r = 4 será: 

 N + r − 1 ( N + r − 1)!  = r r! ( N − 1)!  

Y así, para r, el número de combinaciones será:  Ejemplo:

Un club está conformado por ingenieros, administradores, médicos, contadores y economistas. Considerando estas profesiones, ¿de cuántas formas se puede formar un comité de tres profesionales? N=5 r=3 C R (5, 3) =

7! = 35 3! (7 − 3)!

Problemas resueltos

1) Se extrae una “mano” de 5 cartas de una baraja completa. a) ¿Cuántas “manos” distintas se pueden obtener? 52! C (52, 5) = = 2 598 960 47!5! b) ¿En cuántas de estas “manos” habrán tres ases? Se tiene que calcular el número de formas en que se pueden escoger 3 ases de un total de 4 y luego 2 cartas cualesquiera (sin considerar el as que queda) de las 48 restantes. 4! 48! C (4, 3) ×C (48, 2) = × = 4 512 3!1! 46! 2! 2) ¿De cuántas maneras se pueden sentar 6 personas en una banca, de tal manera que dos de ellas, Elena y Graciela, nunca estén juntas? Para conseguir esto, conviene suponer que Elena y Graciela conforman un solo elemento, para calcular así el número de formas en que se pueden permutar 5 elementos, multiplicado por 2, pues Elena y Graciela pueden permutarse. Este resultado se resta del número de formas en que se pueden permutar 6 elementos. P (6, 6) − 2 P (5, 5) = 720 − 240 = 480 3) ¿De cuántas maneras se puede elegir un comité de 4 personas de un grupo de 10 personas, de tal manera que esté el único abogado del grupo? Primero se calculará el número de formas en que se puede escoger el único abogado y luego el número de formas en que se puede escoger las 3 personas restantes, de las 9 que quedan. C (1, 1) ×C (9, 3) = 84 4) En un aula de 30 alumnos hay 20 deportistas, de los cuales 8 practican deportes individuales y 12 deportes colectivos. a) ¿Cuántos grupos de 5 alumnos se pueden formar? Como no importa si los 5 alumnos son o no deportistas, el número de grupos de 5 alumnos que se pueden formar es: C(30, 5) = 142 506 Se pueden formar 142 506 grupos de 5 alumnos.

6

Probabilidades

b) ¿En cuántos grupos todos son deportistas? Ahora hay que calcular el número de formas en que se pueden escoger 5 deportistas de un total de 20. C(20, 5) = 15 504 Se pueden formar 15 504 grupos donde todos son deportistas. c) ¿En cuántos grupos hay 3 que practican deportes colectivos? Como hay 12 alumnos que practican deportes colectivos y el resto no, hay que calcular el número de formas en que se puede escoger 3 de esos 12 alumnos, y luego 2 de los restantes 18. C(12, 3) × C(18, 2) = 33 660 Se pueden formar 33 660 grupos donde haya tres alumnos que practican deportes colectivos. d) ¿En cuántos de los grupos donde todos son deportistas hay 3 que practican deportes colectivos? Considerando sólo los grupos donde todos los alumnos son deportistas, hay 12 alumnos que practican deportes colectivos y el resto, 8, deportes individuales; se calcula entonces el número de formas en que se puede escoger 3 de esos 12 alumnos y luego 2 de los 8 restantes. C(12, 3) × C(8, 2) = 6 160 De los grupos donde todos son deportistas, hay 6 160 grupos donde 3 practican deportes colectivos e) ¿En cuántos grupos hay al menos un alumno que no practica deportes individuales? Resulta más práctico calcular el número de grupos donde no haya ningún alumno que no practique deportes individuales (todos practican deportes individuales) y restarlo del total de grupos que se pueden formar. C(30, 5) – C(8, 5) = 142 450 Se pueden formar 142 450 grupos donde al menos un alumno no practica deportes individuales 5) Las letras a, b, b, c, d, d, d se distribuyen al azar. a) ¿Cuántos arreglos distintos pueden hacerse? Considerando los 4 subgrupos que hay: P(7; 1, 2, 1, 3) = 420 Se pueden hacer 420 arreglos distintos. b) ¿En cuántos de estos arreglos las 3 letras “d” quedan juntas? Si las 3 letras “d” quedan juntas, pueden considerarse como un solo elemento: P(5; 1, 2, 1, 1) = 60 En 60 arreglos las 3 letras “d” quedan juntas. 6) ¿Cuántos números de tres cifras pueden formarse con los dígitos 1, 2, si se admite repetición? N=2 r=3 N r = 23 = 8 Se pueden formar 8 números.

Probabilidades 7

1.3 Experimentos y eventos Como ya se ha definido, un experimento es la reproducción controlada de un fenómeno. En Estadística sólo se consideran experimentos que se pueden representar mediante modelos probabilísticos. A los resultados de los experimentos se les denomina eventos, los cuales pueden ser simples o compuestos. Los eventos compuestos pueden contener dos o más eventos simples.

1.4 Espacio muestra. Es la representación de todos los eventos posibles de un experimento. Esta representación puede ser gráfica o analítica, como se ve en los siguientes ejemplos.

1.5 Variable aleatoria. Es una función definida sobre un espacio muestra S, donde a cada evento del espacio muestra le corresponde un número real: X(ei) = xi Una variable aleatoria puede ser: ƒ Discreta: si el número de eventos posibles es finito o numerablemente infinito. ƒ Continua: si el número de eventos posibles es infinito (no numerable).

Dado un espacio muestra, se pueden definir varias variables aleatorias, como se verá en los siguientes ejemplos. Problemas resueltos

1) Un experimento consiste en lanzar 2 monedas. La moneda puede mostrar cara (C) o sello (S). El espacio muestra, que consta de 4 eventos simples, será: S = {CC, CS, SC, SS} Gráficamente, este espacio muestra se puede representar de dos formas (figura 1.1):

Cara Cara

Sello

Segundo lanzamiento Sello

Sello

Cara Cara Sello

Primer lanzamiento

Segundo lanzamiento

Cara

Sello

Primer lanzamiento

Figura 1.1. Representaciones de espacio muestra del lanzamiento de dos monedas

Un evento compuesto puede ser, por ejemplo, el resultado “una cara y un sello”: E = {CS, SC} Para el espacio muestra S se podrían definir las siguientes variables aleatorias: X = Número de caras

8

Probabilidades

Y = Número de sellos Z = Número de caras – Número de sellos W = 2(Número de caras) + (Número de sellos)2 … etc. En todos estos casos la variable aleatoria es discreta. 2) Un experimento consiste en lanzar 2 dados (o lanzar un dado dos veces). El espacio muestra será en este caso: S = {(1, 1),(1, 2),...,(1, 6), ...,(6, 6)}. En la figura 1.2 se representa gráficamente este espacio muestra. Segundo lanzamiento

6 5

4 3 2

1

1

2

3

4

5

6

Primer lanzamiento

Figura 1.2. Representación de un espacio muestra

Cada intersección de la figura 1.2 representa un evento simple. Hay, por lo tanto, 36 eventos simples, es decir, 36 posibles resultados. Para este espacio muestra, la variable aleatoria se podría definir de las siguientes formas: X = suma de lo que muestran los dos dados. Y = (Número que muestra el dado 1) – (Número que muestra el dado 2). … etc. En todos estos casos la variable aleatoria es discreta. 3) Un experimento consiste en pesar el contenido de café de una bolsa extraída al final de un proceso de llenado automático. El espacio muestra será: S = {0,...,700}, suponiendo que las bolsas nunca pueden llegar a pesar más de 700 gr. Gráficamente, este espacio muestra se representa en la figura 1.3.

Probabilidades 9

700

Peso (gr)

Figura 1.3. Representación del espacio muestra de una variable aleatoria continua.

En este caso la variable aleatoria es continua.

1.6 Probabilidad Se distinguen tres tipos de probabilidad: a priori, experimental y subjetiva. 1.6.1. Probabilidad a priori:

Si observamos algunos espacios muestra nos daremos cuenta de que, en la mayoría de los casos, todos los eventos simples tienen la misma posibilidad de ocurrencia. Si cuantificamos estas posibilidades, llamándoles probabilidades, de tal forma que la suma de éstas sea la unidad, se puede entonces definir la probabilidad de que ocurra un evento simple de la siguiente manera: P(ei) = Número no negativo asociado al evento ei del espacio muestra S, de tal manera que: ∑ P(ei) = 1 y S = e1 ∪ e2 ∪ ... ∪ eN Entonces, si, por ejemplo: A = e1 ∪ e2 ∪ ... ∪ ek se deduce que: P(A) = P(e1) + P(e2) + ... + P(ek) P ( A) =

1 1 1 k + + ... + = N N N N

De esta forma, se puede decir que la probabilidad de que ocurra un evento cualquiera es posible calcularla empleando la siguiente fórmula: P=

k n° de eventos éxito = N n° de eventos total

Problemas resueltos:

1) Se lanza un dado. ¿Cuál es la probabilidad de obtener 5? P = 1/6 2) Se lanzan dos dados. ¿Cuál es la probabilidad de obtener suma 5? P = 4/36 = 1/9 ¿...de obtener suma menor que 5? P = (1 + 2 + 3)/36 = 6/36 = 1/6 3) Se lanzan dos monedas. ¿Cuál es la probabilidad de obtener dos caras? Eventos posibles: {CC, CS, SC, SS}

Eventos éxito: {CC}

P = 1/4 ¿Cuál es la probabilidad de obtener sólo una cara? P = (1 + 1)/4 = 2/4 = 1/2 4) En un lote de 100 pernos hay 4 defectuosos. Si un comprador escoge 20 pernos aleatoriamente, ¿cuál es la probabilidad de que se lleve 2 pernos defectuosos?

10 Probabilidades

El comprador se lleva 2 pernos defectuosos, de un total de 4, y 18 pernos no defectuosos, de un total de 96. Entonces: P=

C (4, 2) C (96,18) = 0,1531 C (100, 20)

Ahora, el lector debe estar en condiciones de contestar la siguiente pregunta: ¿cuál es la probabilidad de que el comprador se lleve al menos dos pernos defectuosos? 5) De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la probabilidad de obtener: a) dos espadas, dos corazones y un diamante? Hay que determinar el número de formas en que se pueden escoger 2 espadas de un total de 13, y luego 2 corazones de un total de 13 y luego un diamante de un total de 13. P=

C (13, 2) C (13, 2) C (13, 1) = 0,0304 C (52, 5)

b) un póker? (cuatro cartas con la misma numeración o letra) P=

C (13,1) C (48, 1) = 2,4 ×10 − 4 C (52, 5)

1.6.2. Probabilidad experimental

En algunas ocasiones, los posibles resultados de un experimento no tienen la misma probabilidad de ocurrencia, lo cual dificulta la predicción de estas probabilidades. Si un experimento de esta naturaleza se repitiera muchas veces, podríamos ver la frecuencia con que ocurrirían los posibles resultados. Mientras más veces se repita el experimento, las frecuencias relativas se aproximarán cada vez más a las verdaderas probabilidades de ocurrencia de cada uno de dichos resultados. Entonces: P=

frecuencia con que ocurre un resultado f = n° de veces que se repite el exp erimento N

En la práctica, la mayoría de las probabilidades sólo pueden determinarse por la vía experimental. Si, por ejemplo, se quiere saber cuál es la probabilidad de que un foco funcione por lo menos las horas que especifica el fabricante, se tendrá que tomar una muestra grande de focos (N) y ver cuántos de éstos cumplen con dicha especificación (f). Cuanto más grande sea N, el cociente f / N se aproximará más a la probabilidad requerida. Como se ve, la única forma de calcular una probabilidad de este tipo es mediante la experimentación. En muchas situaciones no hace falta experimentar pues se cuenta con datos históricos suficientes. Por ejemplo, ¿cómo calcularía un pastelero la probabilidad de que la demanda de sus pasteles de manzana en un día sea de 10 a 15 unidades? Necesitaría datos de la demanda de N días, para determinar en cuántas ocasiones (f) la demanda fue de 10 a 15 unidades. La probabilidad será f / N. Una probabilidad que ha sido calculada "a priori" puede verificarse, con cierta aproximación, repitiendo el experimento. Por ejemplo, si queremos comprobar que la probabilidad de obtener dos caras y un sello, al lanzar tres monedas, es igual a 0,375; tenemos que lanzar las tres monedas una gran cantidad de veces. A continuación se muestra la frecuencia con que se obtuvo dicho resultado, luego de N lanzamientos. Número de lanzamientos (N) Frecuencia observada (f) Probabilidad (f /N)

10 5 0,5

20 9 0,45

100 34 0,35

200 76 0,385

500 162 0,352

1 000 367 0,365

10 000 3 738 0,3724

Probabilidades11

Se puede concluir entonces que, conforme N crece, la frecuencia relativa o probabilidad experimental tiende al verdadero valor de la probabilidad. Esta tendencia se visualiza mucho más en el gráfico de la figura 1.4, donde la línea horizontal representa la probabilidad real: 0,375. f/N 0,50 0,45 0,40 0,35 0,30

N 10

100

1000

10000

Figura 1.4. Tendencia de una probabilidad experimental 1.6.3 Probabilidad subjetiva

En muchas ocasiones se necesita determinar la probabilidad de que ocurra un fenómeno que es imposible repetir, o cuya repetición no tiene significado. Por ejemplo, si se va a construir un puente en cierto lugar, ¿cómo determinar la probabilidad de que, a 10 m. de profundidad el terreno no sea arenoso sino de arcilloso? En este caso, la probabilidad de que ocurra dicho suceso no puede ser más que una medida subjetiva del grado de confianza que tenga un especialista para predecirlo. Si él opina que dicha probabilidad es de 0,25; estará expresando un grado de credibilidad de su juicio; pues el terreno será arcilloso o no, pero no será arcilloso en el 25% de las observaciones que se haga. La precisión de una probabilidad subjetiva depende de la habilidad o conocimiento que tenga una persona para juzgar una determinada situación. La probabilidad subjetiva también puede aplicarse a fenómenos repetitivos. Por ejemplo, un inspector que está revisando unos lotes de artículos producidos en una jornada, puede hacer caso omiso a su experiencia previa, y decidir revisar más artículos, porque tiene el presentimiento de que este día hay más artículos defectuosos de lo habitual. Ahora que se entiende claramente el concepto de probabilidad, se ve que es correcto afirmar que una probabilidad se puede interpretar como una proporción, como una fracción o como un porcentaje. Por ejemplo, si, en un supermercado, la probabilidad de elegir aleatoriamente a un cliente con un consumo mayor de $20, es 0,16; se puede afirmar que el 16% de los clientes gasta más de $20, o que la proporción de clientes que gasta más de $20 es 0,16.

1.7 Teoremas de probabilidad. En este apartado se verán una serie de teoremas que son útiles, y en algunos casos indispensables para calcular ciertas probabilidades. 1.7.1 Suma de probabilidades:

Sean A y B dos eventos definidos en el espacio muestra S. La probabilidad de que ocurra el evento A o el evento B, o ambos, es: P ( A ∪ B ) = P ( A) + P ( B ) − P( A ∩ B) donde:

12 Probabilidades

P(A) representa la probabilidad de ocurra A, P(B) representa la probabilidad de ocurra B, P(A ∪ B) representa la probabilidad de ocurra A o B, o ambos, y P(A ∩ B) representa la probabilidad de ocurran A y B conjuntamente. Cuando dos o más eventos están definidos de tal manera que la ocurrencia de uno imposibilita la ocurrencia de los demás, se dice que son mutuamente excluyentes, y la probabilidad de que ocurran conjuntamente es entonces igual a cero. Se puede deducir que, para dos eventos mutuamente excluyentes, por ejemplo Q y R: Q = {e1,e2,e3} ; R = {e4,e5} ; Es evidente que: P(Q) = P(e1) + P(e2) + P(e3) P(R) = P(e4) + P(e5) y por lo tanto: P(Q ∪ R) = P(e1) + P(e2) + P(e3)+ P(e4) + P(e5) = P(Q) + P(R) Si dos eventos A y B no son mutuamente excluyentes, como se muestra en el diagrama de Venn de la figura 1.5, se puede deducir que: S A

B A∩B

B ∩ A’

Figura 1.5. Eventos A y B no excluyentes

P(A ∪ B) = P(A) + P(B ∩ A') P(B) = P(A ∩ B) + P(B ∩ A') Sustituyendo P(B ∩ A') de la segunda ecuación en la primera, resulta: P(A ∪ B) = P(A) + P(B) – P(A ∩ B) con lo que queda demostrado el teorema. Ejemplo:

Se lanzan dos dados. ¿Cuál es la probabilidad de que se obtenga una suma igual a 10 ó una diferencia igual a 1? Sean los eventos: A: suma igual a 10 B: diferencia igual a 1 Dado que A y B son mutuamente excluyentes (es fácil darse cuenta), se puede emplear la siguiente fórmula: P(A ∪ B) = P(A) + P(B) = 3/36 + 10/36 = 13/36

Probabilidades13

En el gráfico de la figura 1.6 se aprecia que los dos eventos compuestos: el evento A, representado por círculos, y el evento B, representado por aspas, son mutuamente excluyentes. Segundo lanzamiento 6 5 4 3 2 1 1

2

3

4

5

6

Primer lanzamiento

Figura 1.6. Eventos A y B mutuamente excluyentes

¿Y cuál será la probabilidad de obtener una suma igual a 8 ó una diferencia igual a 2? Sean los eventos: C: suma igual a 8 D: diferencia igual a 2 En el gráfico de la figura 1.7 se aprecian estos dos eventos compuestos: el C, representado por círculos, y el D, por aspas. Se puede apreciar que hay dos eventos simples que pertenecen a ambos eventos C y D; se concluye entonces que los eventos C y D no son excluyentes. Segundo lanzamiento 6 5 4 3 2 1 1

2

3

4

5

6

Primer lanzamiento

Figura 1.7. Eventos C y D no mutuamente excluyentes

Dado que C y D no son mutuamente excluyentes: P(C ∪ D) = P(C) + P(D) – P(C ∩ D) = 5/36 + 8/36 – 2/36 = 11/36

14 Probabilidades

El teorema de la suma se puede generalizar de la siguiente manera: la probabilidad de que ocurra el evento E1, o el evento E2, ..., o el evento EN, es:

P( E1 ∪ E 2 ∪ ... E N ) = P ( E1 ) + P( E 2 ) + ... + P( E N ) − ∑ P( E i ∩ E j ) + ∑ P ( E i ∩ E j ∩ E k ) − ... ... ± P ( E1 ∩ E 2 ∩ ... E N ) Ejemplo:

Suponga que, en la ciudad de Piura, el 25 % de la población adulta lee el diario El Tiempo, el 40% lee el diario Correo, el 10% lee el diario República y el 25% restante lee otros diarios. Además, se sabe que el 10% lee El Tiempo y Correo, el 5% lee El Tiempo y República, el 5% lee El Tiempo y otros, el 8% lee Correo y otros, y el 3% lee El Tiempo, Correo y otros. Si se selecciona aleatoriamente un poblador, ¿cuál es la probabilidad de que lea Correo, El Tiempo u otros? Aunque el diagrama de Venn de la figura 8 es suficiente para visualizar y determinar esta probabilidad, a continuación se hace el cálculo aplicando el teorema generalizado de la suma: P(Correo ∪ El T. ∪ otros) = P(Correo) + P(El T.) + P(otros) – P(Correo ∩ El T.) – P(Correo ∩ otros) – P(El T. ∩ otros) + P(Correo ∩ El T. ∩ otros) = 0,40 + 0,25 + 0,25 – 0,10 – 0,08 – 0,05 + 0,03 = 0,70 Dicha probabilidad se puede corroborar elaborando un diagrama de Venn, como el de la figura 1.8, e incluso se pueden calcular otras probabilidades con suma facilidad.

Figura 1.8. Diagrama de Venn del problema de los diarios. 1.7.2 Probabilidad condicional y regla de la multiplicación:

Sean dos eventos A y B:

P( A \ B) =

P( A ∩ B) P( B)

donde P(A \ B) representa la probabilidad de que ocurra el evento A, dado que ha ocurrido el evento B, y se le denomina probabilidad condicional. Ejemplo:

Se lanzaron dos dados y se sabe que la suma resultó igual a 8. ¿Cuál es la probabilidad de que la diferencia sea igual a 2? Sean los eventos: A: diferencia igual a 2 B: suma igual a 8 Si la suma es 8, entonces el espacio muestra queda restringido a: SB = {(2,6),(3,5),(4,4),(5,3),(6,2)}

Probabilidades15

por lo tanto, si de los 5 eventos posibles, se tendría éxito en 2 de ellos, (3, 5) y (5, 3): P ( A \ B) = 2 / 5 Como se ve en la figura 1.7, el numerador "2" representa el número de veces en que pueden ocurrir A y B conjuntamente, y el denominador "5" representa el número de veces en que puede ocurrir B. Entonces se puede deducir: P( A \ B) =

N ( A ∩ B) N ( A ∩ B) / N P( A ∩ B) = = N ( B) N ( B) / N P( B)

Aplicando esta fórmula al problema, se tiene el mismo resultado: P( A \ B) =

2 / 36 2 = 5 / 36 5

De la definición de probabilidad condicional se puede deducir que: P(A ∩ B) = P(B) × P(A \ B) P(A ∩ B) = P(A) × P(B \ A) Estas expresiones resultan muy útiles para determinar una probabilidad conjunta, que usualmente es más difícil de determinar que la probabilidad condicional. Ejemplo:

Una caja contiene 4 canicas blancas y 6 negras. Si se extraen dos aleatoriamente, ¿cuál es la probabilidad de que: a) las dos sean blancas? Sean los eventos: 1B: canica blanca en la primera extracción 2B: canica blanca en la segunda extracción P(1B ∩ 2B) = P(1B) × P(2B\1B) = (4/10) × (3/9) = 2/15 b) la primera sea blanca y la segunda negra? Sea el evento 2N: canica negra en la segunda extracción P(1B y 2N) = P(1B) × P(2N\1B) = (4/10) × (6/9) = 4/15 c) una sea blanca y la otra negra? Sea el evento 1N: canica negra en la primera extracción Hay dos formas excluyentes de obtener una canica blanca y una negra: P = P(1B) × P(2N\1B) + P(1N) × P(2B\1N) = 4/15 + 4/15 = 8/15 Sean los eventos E1, E2,..., EN ; se puede generalizar la regla de la multiplicación:

P ( E1 ∩ E 2 ∩ ... E N ) = P ( E1 ) × P ( E 2 \ E1 ) × P ( E3 \ E1 ∩ E 2 ) × ...× P( E N \ E1 ∩ E 2 ∩ ... E N −1 ) En el primer miembro se expresa la probabilidad de que ocurran conjuntamente los eventos E1, E2,..., EN. Si la probabilidad de que ocurran estos N eventos, en cualquier orden, es siempre la misma; entonces esa probabilidad se puede obtener multiplicando P( E1 ∩ E 2 ∩ ... E N ) por el número de formas en que se pueden permutar los N eventos.

16 Probabilidades

Ejemplo 1:

En un lote de 100 pernos hay 4 defectuosos. Si un comprador escoge 20 pernos aleatoriamente, ¿cuál es la probabilidad de que se lleve 2 pernos defectuosos? (Esta probabilidad a priori ya fue calculada en el ejemplo 4 del apartado 1.6.1). Si el comprador se lleva 2 pernos defectuosos, de un total de 4; se llevará también 18 pernos no defectuosos, de un total de 96. 3   96 95 94 79  20!  4 = 0,1531 P = × × × × × ... ×  × 81  2!18!  100 99   98 97 96 Ejemplo 2:

De una baraja completa de 52 cartas, se extrae una "mano" de 5 cartas. ¿Cuál es la probabilidad de obtener: (Estas probabilidades ya fueron calculadas en el ejemplo 5 del apartado 1.6.1). a) dos espadas, dos corazones y un diamante? 5!  13 12   13 12   13  P = × × × × × = 0,0304  52 51   50 49   48  2! 2!1! b) un póker? 1   48  5!  52 3 2 = 0,00024 P = × × × × × 52 51 50 49    48  4!1! 1.7.3 Eventos independientes

Se dice que dos eventos A y B son independientes, si la ocurrencia (o no ocurrencia) de uno de ellos no influye en la ocurrencia (o no ocurrencia) del otro. Es decir: P(A \ B) = P(A) y P(B \ A) = P(B) Si se cumple una de estas dos ecuaciones, también se verifica la otra. Por ejemplo, si: P(A \ B) = P(A) Entonces: P ( A) =

P ( A ∩ B ) P ( A) × P ( B \ A) = P( B) P(B)

Por lo tanto: P(B \ A) = P(B), tal como se quería demostrar. Finalmente se concluye que, para que dos eventos sean mutuamente independientes, es condición necesaria y suficiente que: P(A ∩ B) = P(A) P(B) Inversamente, si dos eventos A y B son mutuamente independientes, entonces es válida la ecuación anterior. Generalizando, la probabilidad de que ocurran conjuntamente N eventos independientes es: P(E1 ∩ E2 ∩ ... ∩ EN) = P(E1) P(E2)...P(EN) Problemas resueltos:

1) Una fábrica elabora los productos A, B, C y D mediante cuatro procesos que son independientes entre sí. Usualmente son defectuosos el 3%, 5%, 5% y 4% de los productos A, B, C y D respectivamente. Si se extrae aleatoriamente un producto de cada tipo, ¿cuál es la probabilidad de que:

Probabilidades17

a) los cuatro sean defectuosos? P = 0,03 × 0,05 × 0,05 × 0,04 = 3 ×10 −6 b) A y B sean defectuosos, y C y D no lo sean? P = 0,03 × 0,05 × 0,95 × 0,96 = 1,368 ×10 −3 2) De una ciudad donde fuman el 30% de los ciudadanos mayores de edad, se toma una muestra de 6 de ellos. ¿Cuál es la probabilidad de que 3 de ellos fumen? Se calcula la probabilidad de que los tres primeros fumen y los tres últimos no fumen, y se multiplica por el número de formas en que se pueden ordenar tres fumadores y tres no fumadores. P = 0,3 × 0,3 × 0,3 × 0,7 × 0,7 × 0,7 ×

6! = 0,1852 3!3!

3) Un sistema consta de seis relés que están conectados en serie y en paralelo, tal como se muestra en la siguiente figura 1.9. 2 A

4

5

1

B

3

6

Figura 1.9. Relés conectados en serie y paralelo

La probabilidad de que cada relé esté cerrado es 0,90. Si los relés funcionan independientemente, ¿cuál es la probabilidad de que pase la corriente de A a B? Sea Ci el evento: cerrado el i-ésimo relé. Para que pase la corriente de A a B debe pasar por el relé 1, luego por el relé 2 ó por el relé 3, y luego por los relés 4 y 5 ó por el relé 6. Por lo tanto: P = P[C1 ∩ (C2 ∪ C3) ∩ [(C4 ∩ C5) ∪ C6 ] ] La probabilidad de que la corriente pase por 2 ó 3 (o por ambos) se puede calcular fácilmente como: 1 – P(no pase por 2 ni 3). De la misma forma se puede calcular la probabilidad de que pase por 4 y 5, o por 6, como se muestra a continuación: P = (0,90)[1 – (0,10)(0,10)][1 – (1 – 0,90×0,90)(0,10)] = 0,874 4) Una persona lanza dos dados indefinidamente hasta obtener una suma igual a 2. ¿Cuál es la probabilidad de que sea necesario realizar un quinto lanzamiento? Para que sea necesario realizar el quinto lanzamiento, en los 4 primeros no debe haber salido suma igual a 2. Por lo tanto: P = (35/36)4 = 0,893 1.7.4 Teorema de suma y multiplicación: particiones

Sean los eventos E1, E2, E3 ... ,EN una partición del espacio muestra S, es decir, todos mutuamente excluyentes, de tal forma que la unión de todos conformen el espacio muestral S. Sea además un evento E, perteneciente a S, como se muestra (sombreado) en la figura 1.10. Entonces podemos decir: P(E) = P(E ∩ S) = P [E ∩ (E1 ∪ E2 ∪ ... ∪ EN)] P(E) = P(E ∩ E1) ∪ P(E ∩ E2) ∪ ... ∪ P(E ∩ EN) P(E) = P(E1)P(E \ E1) + P(E2)P(E \ E2) + ... + P(EN)P(E \ EN) P(E) = ∑ P(Ei)P(E \ Ei)

18 Probabilidades

Figura 1.10. Particiones de S.

Ejemplo 1:

Una empresa produce un componente mecánico. De la experiencia adquirida se ha determinado que el 10% de la producción es defectuosa. La producción es sometida a un control de calidad que acepta con una precisión del 95% los componentes que realmente son buenos, y rechaza con una precisión del 85% los componentes que realmente son defectuosos. Determine la probabilidad de que un componente sea aceptado. Sean: P(B) = 0,90 = probabilidad de que un componente sea bueno P(D) = 0,10 = probabilidad de que un componente sea defectuoso P(A) = probabilidad de que un componente sea aceptado P(R) = probabilidad de que un componente sea aceptado P(A \ B) = 0,95 ; P(R \ B) = 0,05 P(A \ D) = 0,15 ; P(R \ D) = 0,85 En la figura 1.11 se representa un diagrama de árbol donde se ve que un componente puede ser aceptado de dos formas (mutuamente excluyentes): siendo bueno o siendo defectuoso. Aceptado 0,95 Bueno 0,05

0,9

Rechazado

Aceptado

0,1

0,15 Defectuoso 0,85

Rechazado

Figura 1.11. Diagrama de árbol del problema de los componentes mecánicos

En la figura 1.12 se representa el mismo problema mediante un diagrama de Venn. En este caso la probabilidades son representadas como porcentajes. El área sombreada representa el porcentaje de componentes mecánicos que han sido aceptados en el control de calidad, ya sean componentes buenos o defectuosos. Si el 95% de los componentes buenos son aceptados, se deduce que el porcentaje de componentes aceptados y buenos será el 95% del 90%. Si el 15% de los componentes defectuosos son aceptados, se deduce que el porcentaje de componentes aceptados

Probabilidades19

y defectuosos será el 15% del 10%. El porcentaje de componentes aceptados será entonces la suma de 95×90/100 + 15×10/100, es decir 87%. 85%

Defectuosos 10%

15%

Aceptados

Buenos 90%

95% 5% Rechazados

Figura 1.12. Diagrama de Venn del problema de los componentes mecánicos

Aplicando el teorema de suma y multiplicación se llega a la misma respuesta: P(A) = P(B)P(A \ B) + P(D)P(A \ D) P(A) = (0,90)(0,95) + (0,10)(0,15) = 0,87 Es decir, el 87% de los componentes mecánicos son aceptados por el control de calidad. Otra forma de visualizar este problema, expresando las probabilidades como porcentajes, se muestra en la siguiente tabla, donde se resaltan los datos del problema. Aceptado Rechazado Total Bueno 0,95 × 90 = 85,5 0,05 × 90 = 4,5 90 Defectuoso 0,15 × 10 = 1,5 0,85 × 10 = 8,5 10 Total 85,5 + 1,5 = 87 4,5 + 8,5 = 13 100

La probabilidad de que el componente sea aceptado o de que sea rechazado puede calcularse sumando las columnas correspondientes. Ejemplo 2:

Un método muy empleado por investigadores estadísticos para obtener información es el de efectuar encuestas personales. A menudo resulta importante investigar sobre temas muy personales, que pondrían en aprietos al sujeto encuestado, ocasionando que dé respuestas falsas o que no conteste, deformando así los resultados de la encuesta. Para aminorar este problema, Warner ideó la "Técnica de la respuesta aleatoria", que permite que el encuestado escoja al azar una de dos preguntas: la pregunta personal, motivo de la encuesta, o una pregunta de control. Así, sólo él sabrá qué pregunta contestó en realidad, y se mantiene su privacidad. Por ejemplo, supóngase que se desea estimar el porcentaje de alumnos secundarios de una ciudad que no resuelven por su cuenta las tareas para la casa. Se hacen 1000 encuestas con las siguientes instrucciones: Antes de contestar lance una moneda: si sale cara conteste la pregunta A, y si sale sello conteste la pregunta B. Sólo conteste SÍ o NO. A: ¿resuelve usted las tareas para la casa por su cuenta? B: ¿nació su padre en enero, febrero, marzo, abril o mayo? Supóngase que, una vez efectuadas las encuestas, hay 455 respuestas afirmativas y 545 negativas. ¿Qué porcentaje de alumnos no resuelve por su cuenta las tareas para la casa? Esto equivale a calcular la probabilidad de que un alumno no resuelva por su cuenta las tareas para la casa. Sean:

P(NO) = probabilidad de contestar NO a cualquiera de las dos preguntas. P(A) = probabilidad de que al alumno conteste la pregunta A (que obtenga cara). P(B) = probabilidad de que al alumno conteste la pregunta B (que obtenga sello).

20 Probabilidades

Considerando que se puede contestar NO de dos formas diferentes (a las dos preguntas), mutuamente excluyentes, se plantea: P(NO) = P(A)P(NO \ A) + P(B)P(NO \ B) 0,545 = (0,5)P(NO \ A) + (0,5)(7/12) P(NO \ A) = 0,5067 En la figura 1.13 se traza un diagrama de árbol que nos permite visualizar con suma facilidad el planteamiento anterior. SI ? A ?

0,5

NO

SI

0,5

5/12 B 7/12

NO

Figura 1.13. Diagrama de árbol del problema de las encuestas

Se concluye que, aproximadamente, el 50,67 % de los alumnos secundarios de la ciudad no resuelve por su cuenta las tareas para la casa. De la misma forma que con el problema anterior, se puede plantear la siguiente tabla: SI NO A 455 – 208,33 = 246,67 545 – 291,67 = 253,33 B 5/12 × 500 = 208,33 7/12 × 500 = 291,67 Total 455 545

Total 500 500 1000

Como se ve, los datos de la primera fila pueden obtenerse restando los de la segunda fila del total. Se deduce entonces que la probabilidad de contestar NO, dado que se trata de la pregunta A es: 253,33/500 = 0,5067. Esto equivale a decir que 50.67 % de los alumnos secundarios de la ciudad no resuelve por su cuenta las tareas para la casa Ejemplo 3:

Supóngase que el 35% de los alumnos de una universidad que estudian una carrera de ciencias provienen de los estratos socioeconómicos A y B, y que el 55% de los que no estudian una carrera de ciencias también provienen de los estratos socioeconómicos A y B. Si el 40% de los alumnos estudian una carrera de Ciencias, ¿qué porcentaje de alumnos provienen de los estratos socioeconómicos A y B? Sean:

P(A y B) = probabilidad de un alumno provenga de los estratos A y B. P(C) = probabilidad de que un alumno estudie Ciencias. P(N) = probabilidad de que un alumno no estudie Ciencias.

P ( A y B) = P (C ) × P ( A y B \ C ) + P ( N ) × P( A y B \ N ) = 0,40 × 0,35 + 0,60 × 0,55 = 0,47 Por lo tanto, el 47% de los alumnos provienen de los estratos socioeconómicos A y B. El lector estará ahora en condiciones de completar la siguiente tabla para calcular la probabilidad o porcentaje requerido:

Probabilidades21

AyB No A y B Total

C

N

Total

40

60

100

Aunque no haga falta para contestar la pregunta del problema, se podría completar también la segunda fila de la tabla. Como ya se ha calculado previamente, el porcentaje de alumnos que provienen de los estratos A y B debe resultar 47%. 1.7.5 Teorema de Bayes

Dada la misma partición conformada por los eventos E1, E2, ... ,EN; y el evento E, comentados en el teorema de suma y multiplicación, se puede deducir fácilmente: P( E k \ E ) =

P( E k ∩ E ) P( E ) P( E k \ E ) =

P( E k ) P( E \ E k ) ΣP ( E i ) P ( E \ E i )

Se trata de una probabilidad condicional, que incluye las reglas de suma y multiplicación de probabilidades. Tiene mucha importancia pues ha servido para desarrollar la inferencia o estimación bayesiana, que, mediante el empleo de datos experimentales llega a estimar probabilidades subjetivas con buena precisión. Ejemplo 1:

Suponga que el concesionario de la cafetería de la UDEP está tratando de reducir el número de clientes no pagan sus cuentas al final del año. Él está dispuesto a cancelarles el crédito a los clientes que se demoren más de una semana en los pagos que deben realizar a fin de cada mes. El concesionario ha visto en sus archivos que, de todos los clientes que finalmente no pagaron sus cuentas al final del año, el 95% se habían demorado más de una semana en sus pagos mensuales. Además, sabe que el 4% de los clientes que tienen crédito no pagan su cuenta, y que, de los que sí pagan su cuenta a fin de año, el 35% se ha demorado alguna vez más de una semana. Determine la probabilidad de que un cliente que se ha demorado alguna vez más de una semana en sus pagos mensuales, no pague su cuenta al final del año. Los datos de este problema se pueden interpretar de la siguiente forma: P(No pague) = 0,04; P(Sí pague) = 0,96 P(Haya demorado \ No pagó) = 0,95 ; P(No haya demorado \ No pagó) = 0,05 P(Haya demorado \ Sí pagó) = 0,35 ; P(No haya demorado \ Sí pagó) = 0,65 La probabilidad de que un cliente no pague, dado que se demoró será: P ( No pague / Demoró) =

P ( No pague ∩ Demore) = P ( Demore)

=

P ( No pague) P( Demore \ No pagó) P ( Sí pague) P( Demore \ Sí pagó) + P( No pague) P ( Demore \ No pagó)

=

0,04 × 0,95 0,038 = = 0,1016 0,96 × 0,35 + 0,04 × 0,95 0,374

La probabilidad de que un cliente que se ha demorado alguna vez más de una semana en sus pagos mensuales no pague su cuenta al final del año es 0,1016. O sea que el 10,16% de los morosos no pagan al final su cuenta.

22 Probabilidades

Nuevamente, se puede plantear este problema mediante una tabla, como la que se completa a continuación: Demore No demore Total Pague 0,35 × 96 = 33,6 0,65 × 96 = 62,4 96 No pague 0,95 × 4 = 3,8 4 0,05 × 4 = 0,2 Total 33,6 + 3,8 = 37,4 62,4 + 0,2 = 62,6 100

Por lo tanto, la probabilidad de que un cliente que se ha demorado alguna vez más de una semana en sus pagos no pague su cuenta al final del año es: 3,8/37,4 = 0,1016. Ejemplo 2:

Con los datos del ejemplo 1 del apartado 1.7.4, determine la probabilidad de que un componente que ha sido aceptado sea bueno. P ( B / A) =

P ( B ) P ( A / B ) 0,90 × 0,95 0,855 = = = 0,9827 P ( A) 0,87 0,87

Antes del control de calidad se tenía una certeza del 90% de producir un componente no defectuoso. Después del control de calidad, se tiene una certeza del 98,27% de escoger un componente no defectuoso. Este mismo resultado se puede obtener a partir de la tabla que se elaboró en el problema 1 del apartado 1.7.4. Verifique el lector este resultado. Ejemplo 3:

Una persona tiene dos dados: uno normal que marca 1,2,3,4,5,6 en sus caras y otro anormal que marca 2,2,4,4,6,6 en sus caras. Si se escoge un dado al azar, se lanza dos veces y en las dos ocasiones se obtiene un número par, ¿cuál es la probabilidad de que el dado escogido sea el anormal? P( Anormal / par , par ) =

P( Anormal ) P( par , par / Anormal ) 0,5 × 1 = = 0,8 P( par , par ) 0,5 × 0,25 + 0,5 × 1

donde: P(par, par) = P(Anormal) P(par, par / Anormal) + P(Normal) P(par, par / Normal) Como era de esperarse, en vista del resultado de los dos lanzamientos, es más probable que el dado escogido haya sido el dado anormal: 0,8 > 0,5.

Probabilidades23

Problemas propuestos. 1. Carmen y Mario lanzan 3 y 4 monedas, respectivamente. ¿Cuál es la probabilidad de que Mario obtenga exactamente el doble de sellos que Carmen? 2. Un comerciante quiere comprar un lote de 25 piñas, y decide comprarlo solamente si al seleccionar 3 aleatoriamente, ninguna está malograda. Supóngase que realmente hay 4 piñas malogradas (el comerciante no lo sabe), ¿cuál es la probabilidad de que no compre el lote? Respuesta: 0,4217 3. José, Bruno y Mónica lanzan sucesivamente una moneda. Si el primero en obtener cara gana el juego: a) ¿Cuáles son las respectivas probabilidades de ganar el juego si cada uno lanza sólo una vez? Respuesta: P(gane José) = 1/2 P(gane Bruno) = 1/4 P(gane Mónica) = 1/8 b) ¿Cuáles son sus respectivas probabilidades de triunfo si, en caso sea necesario, el juego continúa hasta un máximo de dos lanzamientos para cada uno? Respuesta: P(gane José) = 9/16 P(gane Bruno) = 9/32 P(gane Mónica) = 9/64 4. Supóngase que, en Piura, la probabilidad de que un día sea nublado es 1/18 en verano y 5/54 en cualquier otra estación. ¿Qué porcentaje de días del año se espera que sean nublados? 5. Se extraen aleatoriamente k boletos premiados de una urna que contiene n boletos enumerados 1, 2, ..., n. Determine la probabilidad de que: a) El número premiado más alto sea el r. b) El número premiado más alto sea el r y el más bajo sea el s. AYUDA: Primero resuelva ambos apartados para n = 10; k = 5; r = 8; s = 2. 6. Suponga que hay tres semáforos entre la casa de Quique y la UDEP. Al llegar a cada uno de ellos, éstos pueden estar en rojo (R) o verde (V). Considérese que el ámbar dura un tiempo despreciable. Quique ha verificado que, en el primer semáforo, el rojo dura tanto como el verde; pero en el segundo, el rojo dura el doble que el verde; y en el tercero, el verde dura el doble que el rojo. ¿Cuál es la probabilidad de que en el siguiente viaje a la UDEP: a) Tenga que parar por exactamente una luz roja? Respuesta: 7/18 b) Tenga que parar al menos por una luz roja? Respuesta: 8/9 7. Cuatro canicas A, B, C, D, se pueden colocar en cinco vasijas numeradas del 1 al 5. Por ejemplo, A1,B2,C3,D1 significa que A está en la vasija 1, B en la vasija 2, C en la 3 y D en la 1. ¿De cuántas formas se pueden colocar las 4 canicas en las 5 vasijas, si en cada una caben hasta: a) 4 canicas? Respuesta: 625 b) 3 canicas? Respuesta: 620 8. Se eligen 5 cartas de una baraja completa de 52. La baraja está conformada por cuatro “palos” (corazones, espadas, tréboles y cocos) y por trece denominaciones (1, 2, ..., 13). ¿Cuál es la probabilidad de que: a) Todas las cartas sean del mismo palo? b) Haya dos “1” y tres “13”? c) Haya dos cartas de una denominación y tres de otra?

24 Probabilidades

d) Todas las cartas sean de distintas denominaciones? 9. En el curso de Estadística hay 5 alumnos del IV ciclo, 34 del V, 21 del VI, 5 del VII y 2 del VIII. Si se eligiera un comité de 5 personas, ¿cuál es la probabilidad de que: a) todos los ciclos estén representados en el comité? Respuesta: 0,00369 b) sólo el VI ciclo tenga miembros en el comité? Respuesta: 0,0021 10. Una familia tiene 5 hijos. Suponiendo que la probabilidad de que un hijo sea varón o mujer es la misma, determine la probabilidad de que: a) Los 5 sean del mismo sexo. Respuesta: 1/16 b) Cuatro sean varones. Respuesta: 0,15625 11. Se extraen tres cartas de una baraja. Determine la probabilidad de que: a) Las tres sean de distinta figura. Respuesta: 0,3976 b) Al menos dos números sean iguales. Respuesta: 0,171764 12. Una urna contiene canicas numeradas 1, 2, ..., n. Si se escogen dos canicas al azar, ¿cuál es la probabilidad de que los dos números sean consecutivos? Nota: Puede resolver este problema de dos formas: dividiendo eventos éxito entre eventos totales o aplicando algún teorema. 13. Se lanzan tres monedas, y, si se obtienen 2 caras y un sello, se extraen dos canicas, aleatoriamente, de una urna que contiene canicas numeradas del 1 al 100. Si las tres monedas muestran el mismo resultado (tres caras o tres sellos), se extraen dos canicas, de otra urna que contiene canicas numeradas del 1 al 50. ¿Cuál es la probabilidad de que se extraigan dos canicas que muestren dos números consecutivos? Respuesta: 7/400 14. Una persona elige 10 números de una lista de números del 1 al 80. Luego, de una urna donde hay 80 canicas enumeradas del 1 al 80, se extraen 20 canicas. ¿Cuál es la probabilidad de que en la segunda extracción no se extraiga ninguno de los 10 números elegidos al principio? 15. Una caja contiene nueve etiquetas numeradas consecutivamente del 1 al 9. Si se extraen dos de estas etiquetas al azar, ¿cuál es la probabilidad de que sumen 8? 16. Dos amigos compraron pasajes para viajar en un pequeño ómnibus. El ómnibus consta de 48 asientos, en filas de 4, con 24 asientos al lado izquierdo y 24 al lado derecho. Si los asientos fueron asignados aleatoriamente, determine la probabilidad de que los dos amigos, a) Se sienten en el mismo lado. Respuesta: 0,48936 b) Se sienten en la misma fila. Respuesta: 0,06383 c) Se sienten juntos (uno al lado del otro o uno detrás del otro). Respuesta: 0,06028 17. Hay 8 amigos solteros y la probabilidad de que cualquiera de ellos se case en los próximos 15 años es 1/4. ¿Cuál es la probabilidad de que por lo menos uno se case? Respuesta: 0,8999 18. ¿De cuántos modos puede dividirse una tarea de 10 ejercicios, en dos tareas de 5 ejercicios cada una? Respuesta: de 252 formas

Probabilidades25

19. Una persona compra un boleto de la LOTTO todas las semanas. Siempre apuesta a los mismos 6 números, seleccionados entre los enteros del 1 al 36. Para ganar, los seis números seleccionados deben coincidir con los que se escogen al azar en una urna. Determine: a) b) c) d)

El tamaño del espacio muestra. La probabilidad de que gane en una semana particular. La probabilidad de que gane en cada una de las próximas tres semanas. La probabilidad de que gane por lo menos una vez durante las próximas 52 semanas.

20. La empresa CRAG S.A. es demandada por supuesta violación de patente sobre el proceso de manufactura de un producto. El asesor de la empresa, que es un ingeniero industrial que sabe de métodos cuantitativos para la toma de decisiones, ha hecho el diagnóstico de este problema empleando un árbol de decisiones. Dentro de su análisis estima que la probabilidad de ganar un juicio es X, y que la probabilidad de perder es 1 – X. Si CRAG S.A. gana el juicio, los demandantes pueden apelar o no, con probabilidades 0,90 y 0,10 respectivamente. Si pierde el juicio, estima que CRAG S.A. puede apelar o no, con probabilidades de 0,20 y 0,80 respectivamente. Además, estima que quien gana el juicio tiene 0,75 de probabilidad de ganar la apelación correspondiente. a) Si la probabilidad de ganar el juicio (X) es 0,40, ¿Cuál es la probabilidad de ganar el litigio? Respuesta: 0,34 b) Si la probabilidad de ganar el litigio fuese 0,10, ¿Cuál sería entonces la probabilidad de ganar el juicio (X)? Respuesta: 0,069 c) ¿Cuál es la máxima probabilidad de ganar el litigio? Respuesta: 0,775 21. Un estudiante de Ingeniería ha estimado que en 4 horas puede estudiar un tema para el examen del día siguiente. Comienza a estudiar a las 8 p.m. con el riesgo de que haya un "apagón" en cualquier momento. ¿Cuál es la probabilidad de que, como consecuencia de un "apagón", lo que le falte estudiar sea menos de la quinta parte de lo que haya estudiado? Asuma que el apagón puede ocurrir en cualquier instante debido a problemas con el generador. Respuesta: 1/6 22. Los compradores de grandes volúmenes de mercancías utilizan el muestreo de aceptación para calificar las mercancías que compran. Los lotes de mercancías son rechazados o aceptados con base en los resultados obtenidos al inspeccionar una muestra del lote. Suponga que un inspector de una planta procesadora de alimentos ha aceptado el 97% de los lotes que son de calidad “buena”, y ha rechazado, incorrectamente, 3% de lotes que eran de calidad “buena”. Además se sabe que el inspector acepta el 95% de todos los lotes y que sólo el 3% de los lotes son de “calidad mala”. Encuentre la probabilidad de que: a) un lote sea de calidad “buena” y que además sea aceptado. Respuesta: 0,9409 b) un lote sea de calidad “mala” y que sea aceptado. Respuesta: 0,0091 c) un lote de calidad “mala”sea aceptado. Respuesta: 0,3033 23. Una persona lanza un dado cuyas seis caras muestran: un "1", dos "2" y tres "3". Si obtiene "1" en el primer lanzamiento, gana el juego. Si no obtiene "1" puede seguir lanzando el dado y gana si repite el resultado del primer lanzamiento. Si obtiene "1" antes de repetir el resultado del primer lanzamiento, pierde el juego. ¿Cuál es la probabilidad de ganar? Nota: Puede ser útil la siguiente fórmula: 1 + x + x2 + x3 + ... = 1/(1 – x), si 0 < x < 1. Respuesta: 0,76388. 24. Una caja contiene 9 etiquetas numeradas consecutivamente del 1 al 9. Si se extraen dos de estas etiquetas al azar, ¿cuál es la probabilidad de que sean consecutivas o sumen ocho? Respuesta: 11/36

26 Probabilidades

25. En un conocido juego con dados (timba) el jugador participante lanza dos dados. Si obtiene suma siete, gana. Si no, debe seguir lanzando hasta obtener el mismo resultado del primer lanzamiento, antes de que salga siete. Si sale siete antes de conseguir el mismo resultado del primer lanzamiento, pierde. a) Si el jugador obtiene suma cuatro en el primer lanzamiento. ¿Qué probabilidad tiene de ganar? Respuesta: 1/3 b) ¿Cuál es la probabilidad de que el jugador obtenga suma tres en el primer lanzamiento, y luego pierda el juego? Respuesta: 1/24 26. Una urna contiene cuatro canicas enumeradas del 1 al 4. Si se extraen sucesivamente las canicas, una por una, ¿cuál es la probabilidad de que por lo menos uno de los números extraídos coincida con el orden de extracción de la canica? (Por ejemplo, que la tercera canica tenga el número 3) Respuesta: 15/24 27. En un examen de Estadística sólo hay que contestar verdadero (V) o falso (F), para cada una de las cinco preguntas a) ¿De cuántas formas se puede contestar el examen? b) Si contestase al azar, ¿cuál sería la probabilidad de contestar todas bien? c) Si un alumno estima que la probabilidad de que conteste bien cada pregunta es 2/3, ¿cuál será la probabilidad de que conteste bien al menos cuatro preguntas? 28. Diga si se trata de una probabilidad a priori, experimental o subjetiva: a) Probabilidad de que haya empate entre los dos candidatos a la presidencia de un comité. Respuesta: Subjetiva. b) Probabilidad de que una lata de conservas de pescado contenga algún objeto extraño. Respuesta: Experimental. c) Probabilidad de que dentro de tres años ocurra el fenómeno de El Niño. Respuesta: Subjetiva d) Probabilidad de que encontremos un semáforo en rojo. Respuesta: A priori. 29. En una urna hay siete esferas, que tienen marcadas las siguientes letras: C, A, L, C, U, L, O. Si se extraen, una por una, las siete esferas, y se van colocando de izquierda a derecha, ¿cuál es la probabilidad de que se forme la palabra CALCULO? Respuesta: 7,94 × 10–4 30. Un vendedor estima que la probabilidad de venderle a un cliente en su primera visita es 0,4, pero que aumenta a 0,55 en la segunda visita, si en la primera no efectuó la venta. Calcule la probabilidad de que: a) El vendedor venda a un cliente b) El cliente no compre 31. En una urna se colocan n esferas blancas numeradas 1, 2, ..., n; y n esferas rojas numeradas 1, 2, ..., n. Si se extraen luego dos esferas aleatoriamente, ¿cuál es la probabilidad de que: a) Sean blancas y consecutivas? b) Sean blancas o consecutivas? c) Sean consecutivas de distinto color? 32. En una urna hay seis canicas blancas y seis negras. Se escogen nueve de éstas aleatoriamente y se colocan en tres filas. Determine la probabilidad de que: a) en cada fila haya sólo un color. b) en cada fila hayan dos canicas blancas.

Probabilidades27

33. Una tabla para jugar está conformada por 15 casilleros. En 11 de éstos se encuentran las letras de la palabra ESTADISTICA y los 4 restantes están en blanco. Un jugador debe escoger, desconociendo lo que hay en cada casillero, casillero por casillero, hasta que conforme la palabra ESTADISTICA, sin importar el orden. Por cada casillero en blanco que se escoja, al jugador se le quita $20 de los $60 que le dan inicialmente. ¿Cuál es la probabilidad de que el jugador: a) Gane $60 Respuesta: 1/1365 b) Gane $40 Respuesta: 11/1365 c) Gane $20 Respuesta: 66/1365 d) No gane Respuesta: 286/1365 e) Pierda $20 Respuesta: 1001/1365 34. ¿De cuántas formas puede un sindicato elegir entre sus 30 miembros a: un presidente, un vicepresidente, un secretario y tres vocales? Respuesta: de 71 253 000 formas 35. Se lanza una moneda cuya probabilidad de que el resultado sea cara es 2/3. Si aparece cara, se extrae una canica de una urna que contiene dos rojas y tres verdes. Si el resultado es sello, se extrae una canica de otra urna que contiene dos rojas y dos verdes. ¿Cuál es la probabilidad de extraer una canica roja? 36. De una baraja completa de 52 cartas se extrae una mano de 5 cartas al azar. ¿Cuál es la probabilidad de obtener una escalera? (5 números consecutivos). 37. Suponga que en una región se ha determinado que en un año lluvioso llueve aproximadamente el 50% de los días del año y en un año no lluvioso llueve aproximadamente el 25% de los días del año. Un agricultor quiere tomar las previsiones del caso y, transcurrida la primera semana del año, se percata de que ha llovido 2 días. ¿Cuál es la probabilidad de que se trate de un año no lluvioso? Supóngase que el 40% de los años son considerados lluviosos. Respuesta: 0,7402 38. Se lanzan cinco monedas. Determine la probabilidad de que: a) El número de caras exceda al número de sellos en 2 ó más. b) Los 5 resultados sean iguales. 39. Suponga que se escribe aleatoriamente un número de 4 dígitos (se permiten dígitos repetidos). ¿Cuál es la probabilidad de que no haya ningún dígito repetido? 40. En una urna hay 15 canicas blancas y seis negras. Se extrae una canica y luego otra hasta que ésta sea negra. Determine la probabilidad de que haya que realizar una cuarta extracción, si: a) Las canicas se extraen sin sustitución. b) Las canicas se extraen con sustitución. 41. Se sabe que el veredicto dado por un jurado es un 90% confiable cuando el sospechoso es culpable y un 98% confiable cuando es inocente. En otras palabras, declara inocente al 10% de los culpables y declara culpable al 2% de los inocentes. El sospechoso se selecciona entre un grupo de personas, de las cuales sólo el 5% ha cometido un delito alguna vez. Si el jurado lo declara culpable, ¿cuál es la probabilidad de que esa persona sea inocente? Respuesta: 0,2969 42. Una urna contiene 3 canicas blancas y 5 negras. Si se extraen canicas al azar, una por una, hasta que no quede ninguna, ¿cuál es la probabilidad de que las dos últimas canicas sean negras?

28 Probabilidades

Respuesta: 0,357 43. Doce estudiantes se disponen a sentarse en una sola fila, al azar. Si dos de ellos son hermanos, ¿Cuál es la probabilidad de que no se sienten juntos? Respuesta: 5/6 44. Una asociación consiste en 14 miembros. Seis de los miembros son varones y los otros ocho miembros son mujeres. Ellos desean seleccionar un comité de tres hombres y tres mujeres. ¿De cuántas maneras puede seleccionarse este comité si : a) b) c) d) e)

no hay restricciones? dos de los hombres se rehúsan a estar juntos en el comité si el otro está? uno de los hombres y una de las mujeres rehúsan estar juntos en el comité si el otro está? Ana sólo participará en el comité si Juana también participa? el comité debe tener un presidente y un secretario y estos dos oficiales deben ser del mismo sexo?

45. ¿De cuántas maneras se puede formar un equipo de fulbito que debe estar compuesto por cuatro jugadores novatos y dos veteranos, a partir de un grupo de diez novatos y cinco veteranos, si todos ellos pueden jugar en cualquier posición? 46. Un jugador lanza un dado y gana un juego si obtiene 5 ó 6. Si lanza varias veces seguidas hasta que gane dos veces. a) ¿Cuál es la probabilidad de que necesite hacer un mínimo de 5 intentos? b) ¿Cuál es la probabilidad de que gane al menos dos veces en más de 4 intentos? 47. Una compañía procesadora de alimentos está considerando implantar una nueva línea de almuerzos instantáneos. Las estimaciones actuales indican una probabilidad de gran éxito de 0,1, una probabilidad de éxito moderado de 0,4 y una probabilidad de no tener éxito de 0,5. La compañía hace una prueba a nivel regional, antes de implantarla a nivel nacional y obtiene resultados significativos, aunque no concluyentes. La confiabilidad de tal prueba está dada por las probabilidades condicionales de la siguiente tabla: Dado que un producto fue Muy aceptado Medianamente aceptado No aceptado

La prueba indicó Gran éxito Éxito moderado 0,6 0,4 0,2 0,6 0,1 0,3

Sin éxito 0 0,2 0,6

Construya una diagrama de árbol y calcule las probabilidades condicionales: a) P(muy aceptado \ prueba indica gran éxito) b) P(muy aceptado \ prueba indica éxito moderado) c) P(muy aceptado \ prueba indica sin éxito) d) P(medianamente aceptado \ prueba indica gran éxito); etc. 48. En una prueba de aptitud conformada por 25 preguntas, 4 son de cultura general. Si a cada alumno se le asignan 20 preguntas al azar, ¿Cuál es la probabilidad de que: a) no se le asigne ninguna pregunta de cultura general? Respuesta: 3,95 × 10–4 b) le asignen al menos 2 preguntas de cultura general? Respuesta: 0,98379 49. Tres amigos comienzan un juego de dados llamado “dudo”. Cada uno debe lanzar 5 dados sin que los demás vean su resultado (se cubre los dados con el vaso o “cacho”). Si a uno de ellos le toca el siguiente resultado: 5, 1, 5, 5, 3; ¿cuál es la probabilidad de que: a) En total haya 3 cincos? b) En total haya un mínimo de 4 cincos?

Probabilidades29

50. Se tiene una baraja de 52 cartas. Si se seleccionan 5 cartas al azar, ¿cuál es la probabilidad de obtener el 2 de espadas, el 2 de corazones y las otras tres cartas de diamantes? Respuesta: 1,1 × 10-4 51. Un grupo de amigos están jugando "millonario" y uno de ellos desea obtener suma "4" al arrojar los dados. Un dado tiene las opciones: 0, 0, 1, 2, 3, 4 y el otro dado: 0, 0, 1, 2, 2, 4. ¿Cuál es la probabilidad de obtener la suma deseada? Respuesta: 7/37 52. Un jugador tiene un dado normal. ¿Cuál es la probabilidad de que: a) necesite hacer 8 ó más lanzamientos para obtener un seis? Respuesta: 0,2790 b) en 8 lanzamientos sólo obtenga un seis? Respuesta: 0,3721 c) recién obtenga un seis en el octavo lanzamiento? Respuesta: 0,0465 53. Una persona tiene dos dados, uno de los cuales es normal y el otro tiene dos "2",dos "4" y dos "6". Si se lanzan los dos dados, ¿cuál es la probabilidad de que: a) ambos resultados sean pares? b) un resultado sea par y el otro impar? c) ambos resultados sean iguales? 54. En la UDEP aproximadamente el 52% del alumnado estudia Ingeniería, el 21% Administración de Empresas, el 18% estudia Información y el 9% restante estudia Educación. En Ingeniería, el 82% son varones, en Administración el 48%, en Información el 15% y en Educación el 5%. Si se escoge una persona al azar y resulta que es varón. a) ¿Cuál es la probabilidad de que no estudie Ingeniería? b) ¿Cuál es la probabilidad de que estudie Administración o Información? 55. En la ciudad de Piura se publican los diarios A, B y C. Una encuesta indica que el 36% lee A, el 26% lee B y el 27% lee C; 11% leen A y B, 10% leen A y C, 6% leen B y C y 3% leen A, B y C. Se escoge a una persona adulta al azar. Calcule la probabilidad de que: a) lea al menos un diario. b) lea sólo un diario. c) lea al menos A y C, si se sabe que lee al menos uno de los diarios. 56. Un pequeño club formado por diez parejas de casados va a elegir a dos representantes al azar. ¿Cuál es la probabilidad de que: a) no sea elegido un matrimonio.? b) sean de sexo opuesto? c) sean mujeres? 57. De 30 objetos elegimos 5 al azar, con sustitución. a) ¿Cuál es la probabilidad de que ningún objeto sea elegido más de una vez? Respuesta: 0,70373 b) ¿Cuál es la probabilidad de que sólo un objeto se repita una vez? Respuesta: 0,27066 58. Un jugador tiene un dado normal. a) ¿Cuál es la probabilidad de que necesite hacer 10 ó más lanzamientos para obtener un seis? Respuesta: 0,1938 b) ¿Cuál es la probabilidad de que recién obtenga un seis en el décimo lanzamiento? Respuesta: 0,0323 c) ¿Cuál es la probabilidad de que en 10 lanzamientos sólo obtenga un seis?

30 Probabilidades

Respuesta: 0,323 59. En un examen formado por 25 preguntas pueden omitirse 5 de ellas. a) ¿Cuántas selecciones de 20 preguntas pueden hacerse? Respuesta: 53 130 b) ¿En cuántas de éstas estarán las 6 preguntas más fáciles? Respuesta: 11 628 60. En un grupo de 20 problemas hay dos muy fáciles y uno muy difícil. Si a un estudiante se le deja un trabajo de 6 problemas, ¿Cuál es la probabilidad de que le toque el problema más difícil y uno de los dos más fáciles? 61. Se lanzan tres dados. Si dos de los resultados son impares, ¿cuál es la probabilidad de que la suma total sea menor que siete? Respuesta: 4/27 62. Suponga que usted y dos amigos participan en un juego. Cada uno lanza cinco dados y sólo pueden ver su propio juego. Si usted tiene dos "1", ¿cuál es la probabilidad de que al menos hayan cuatro "1" en total? Respuesta: 0,5155 63. Un alumno de Estadística quiere medir la capacidad de un meteorólogo. Los datos recolectados en el pasado indican lo siguiente: - La probabilidad de que el meteorólogo prediga sol en días asoleados es 0.80 - La probabilidad de que el meteorólogo prediga sol en días nublados es 0.40 - La probabilidad de un día asoleado es 0.90 Determine la probabilidad de que: a) Haya sol, si el meteorólogo lo pronosticó. Respuesta: 0,9474 b) El meteorólogo pronostique que habrá sol. Respuesta: 0,76 64. Una caja contiene esferas numeradas 1, 2, ..., n. Se escogen tres al azar. ¿Cuál es la probabilidad de que los tres números sean consecutivos? Respuesta: 6/n(n + 1) 65. Miguel lanza tres dados y sólo dice que no salió ningún 2 y ningún 6. ¿Cuál es la probabilidad de que: a) la suma de los tres dados sea par? b) la suma de los tres dados sea mayor que 12? 66. Si a, b, c, c, d, d, e, f se distribuyen al azar. ¿Cuál es la probabilidad de que las dos letras "c" queden separadas? Respuesta: 0,75 67. Se van a seleccionar cinco soldados de un grupo de doce voluntarios para una misión peligrosa. a) ¿De cuántos modos se podrán seleccionar? Respuesta: 792 b) ¿Cuántas veces podrán ser incluidos los dos más valientes? Respuesta: 120 c) ¿Cuántas veces será incluido sólo uno de los dos más valientes? Respuesta: 420 68. Se tiene una baraja de 52 cartas. a) ¿Cuántas "manos" de 5 cartas se pueden seleccionar?

Probabilidades31

Repuesta: 2 598 960 b) ¿En cuántas de estas "manos" se tendrán tres números iguales? Respuesta: 58 656 69. De un grupo de ocho hermanos se eligen tres al azar. Luis tiene 18 años, Jorge 17 años, Miguel 15 años, Raúl 12 años, Mario 10 años, Ana 9 años, Lucía 6 años y David 5 años. Determine la probabilidad de que: a) Luis sea elegido. Respuesta: 3/8 b) Ana y Lucía sean elegidas Respuesta: 3/28 c) la suma de las edades de los tres elegidos sea menor que 28. Respuesta: 1/7 d) el menor de los tres sea Raúl. Respuesta: 3/56 e) el mayor de los tres sea Raúl. Respuesta: 3/28 f) el mayor de los tres sea Raúl, dado que este sí fue elegido. Respuesta: 2/7 g) el mayor de los tres sea Raúl, si David no fue elegido. Respuesta: 3/35 h) el mayor de los tres sea Raúl y David no sea elegido. Respuesta: 3/56 70. Se va a elegir por sorteo un comité de seis personas a partir de un grupo de diez hombres; tres de los cuales son profesionales. ¿Cuál es la probabilidad de que: a) por lo menos haya dos profesionales en el comité? Respuesta: 2/3 b) no haya ningún profesional en el comité? Respuesta: 1/30 71. Las probabilidades que tienen tres alumnos de aprobar Estadística son: 0,20; 0,40; 0,50. Determine la probabilidad de que: a) Solamente apruebe uno. Respuesta: 0,46 b) Solamente apruebe el segundo. Respuesta: 0,16 c) Si aprueban al menos dos, esté incluido el primero. Respuesta: 0,4666 72. Supóngase que de un grupo de 20 objetos se eligen 5, reponiendo cada uno de los que se va eligiendo antes de extraer el siguiente. ¿Cuál es la probabilidad de que: a) sólo uno de los objetos se repita una vez? b) ningún objeto salga repetido? c) sólo dos objetos salgan elegidos? 73. Un club está conformado por 5 abogados, 10 ingenieros y 3 médicos. a). De cuántas maneras se puede elegir un comité conformado por 2 abogados, 2 ingenieros y 2 médicos. b). En cuántos de estos comités estarán la ingeniera Peralta y el doctor Zapata. 74. En una caja hay 10 canicas enumeradas del 1 al 10. a) ¿De cuántas formas se pueden pintar, 3 de color rojo, 2 de color azul y 5 de color verde? b) ¿En cuántas de éstas formas, las 3 canicas que se pinten de color rojo serán consecutivas? c) ¿En cuántas de éstas formas, las 3 canicas rojas son consecutivas y las dos azules también?

32 Probabilidades

75. Aproximadamente 2/5 de las personas en el Perú pertenecen al grupo sanguíneo A. ¿Cuál es la probabilidad de que, en una muestra aleatoria de cinco personas, al menos tres pertenezcan al grupo A? 76. En una escuela el 25% de los alumnos son hombres. El 25% de los hombres y el 20% de las mujeres tuvieron muy buen rendimiento el año anterior. Si se escoge un alumno al azar. ¿Cuál es la probabilidad de que haya tenido muy bien rendimiento el año anterior? 77. Un fabricante de computadoras ha indicado que la demanda mensual es de uno a siete equipos. Si se supone que cualquier nivel de demanda (dentro del rango de 1 a 7) es igualmente probable, determine las siguientes probabilidades: a) b) c) d)

Que se vendan dos computadoras en un mes determinado. Que se vendan menos de cuatro computadoras en un mes determinado. Que se vendan no más de cinco computadoras en un mes determinado. Que se vendan por lo menos tres computadoras en un mes determinado.

78. Un inversionista cuenta con la opción de invertir en dos de cuatro tipos de acción. El inversionista ignora que, de estos cuatro tipos, sólo dos aumentarán sustancialmente de valor dentro de los próximos cinco años. Si el inversionista elige los dos tipos de acción al azar, determine el espacio muestra correspondiente. Determine además qué eventos simples conforman los siguientes eventos compuestos: a) Por lo menos uno de los tipos de acción redituable fue escogido. b) Por lo menos uno de los tipos de acción redituable no fue escogido. 79. Se le pide a una ama de casa su opinión sobre cuatro marcas de conservas de atún (A, B, C y D), indicando el orden de su preferencia, marcando con el 1 la que más prefiere, con el 2 la que le sigue, etc. Suponga que la señora en realidad no tiene ninguna preferencia por ninguna marca, y decide dar los números del 1 al 4 al azar. ¿Cuál es la probabilidad de que: a) la marca A quede como la 1? Respuesta: 1/4 b) C quede en primer lugar y D en segundo? Respuesta: 1/12 c) A quede en alguno de los dos primeros lugares? Respuesta: 1/2 80. Una compañía produce un foco ahorrador en tres líneas de producción. Estos focos se envían en grandes lotes y, debido a que la inspección de la calidad es destructiva, la mayoría de los compradores muestrean un número pequeño de focos de cada lote. En general las tres líneas de producción trabajan al mismo ritmo y, el porcentaje de defectuosos, que es el mismo para las tres, es de sólo 2%. Durante el mes de septiembre, la línea 1 sufrió un desperfecto y estuvo produciendo con un porcentaje de 5% de defectuosos, lo cual se supo mucho después. Un cliente recibió un lote producido en septiembre, del cual probó 3 focos, y resultó uno defectuoso. ¿Cuál es la probabilidad de que este lote haya venido de las líneas de producción 2 ó 3? 81. Suponga que en la UDEP el 44% de los alumnos estudian Ingeniería y el 12% de éstos son mujeres. Además, el 60% de los otros programas son mujeres. Si se selecciona un alumno al azar y resulta que es hombre. ¿Cuál es la probabilidad de que no estudie Ingeniería? Respuesta: 0,3665 82. Se va a elegir por sorteo el Comité de Deportes de la Facultad de Ingeniería entre los 30 alumnos que se han presentado a una reunión convocada por la Directora de Estudios. De estos 30 alumnos, 20 son hombres y 10 mujeres. Si el comité debe estar formado por 6 alumnos ¿Cuál es la probabilidad de que: a) en el comité haya el doble número de hombres que de mujeres? b) en el comité no haya hombres?

Probabilidades33

83. Una fábrica de balones de básquet impone los siguientes controles de calidad: un balón se rechaza si rebota demasiado o muy poco, o si tiene un defecto en su cuero. El 12% de los balones que se producen, rebotan demasiado o muy poco, y el 50 % de éstos tienen defecto en el cuero. El 10% de los balones producidos tienen defectos de cuero. ¿Qué porcentaje de balones: a) serán rechazados por defecto en el rebote? Respuesta: 12% b) serán rechazados por defecto en el cuero? Respuesta: 10% c) serán rechazados por ambos tipos de defecto? Respuesta: 6% d) serán rechazados? Respuesta: 16% 84. Una fábrica de harina de pescado clasifica su producción según la calidad: A, B y C. En promedio, el 20% es de calidad A, el 30% de calidad B y el 50% de calidad C. Supóngase que procesa dos tipos de pescado: 60% de la producción de harina proviene del pescado P1 y 40% del pescado P2, con la característica de que no los mezcla durante el proceso. Supóngase además que el 40% de la harina de calidad A proviene del pescado P1 y el 40% de la harina de calidad B proviene del pescado P2. Determine la probabilidad de que: a) Un saco de harina de calidad C provenga del pescado P1. b) Un saco de harina proveniente del pescado P1 sea de calidad C. 85. Un empleado de una fábrica inspecciona siempre 10 unidades extraídas aleatoriamente de la producción del día. Supóngase que un día se produjeron 50 unidades, 5 de las cuales eran defectuosas. Si el gerente de producción llegase al puesto del empleado justo cuando le falta inspeccionar 2 unidades, ¿cuál es la probabilidad de que: a) las 2 unidades sean defectuosas? Respuesta: 0,008163 b) las 2 unidades sean defectuosas, si no había salido ninguna defectuosa antes? Respuesta: 0,0116 86. Tres cajas iguales contienen dados de la siguiente manera: la primera contiene un dado normal y dos anormales, la segunda contiene dos dados normales y uno anormal, y la tercera contiene tres dados anormales. Un dado normal marca 1, 2, 3, 4, 5 y 6 en sus caras, mientras que un dado anormal marca 2, 2, 4, 4, 6, 6 en sus caras. a) Se extrae un dado de una de las cajas, en forma aleatoria y se lanza dos veces. ¿Cuál es la probabilidad de que los dos dados muestren resultado par? b) Se extrae un dado de una de las cajas, en forma aleatoria y se lanza dos veces, obteniéndose par en los dos lanzamientos. ¿Cuál es la probabilidad de que el dado elegido sea el anormal? 87. Se estima que el 35% de los autos estacionados en Piura no tienen alarma contra robos. Además, la probabilidad de que uno de estos autos sea robado es 0,10; en cambio esta probabilidad es 0,005 en los autos con alarma. Si se han robado un auto, ¿cuál es la probabilidad de que no tenga alarma? 88. Se dispone de una urna con 6 canicas blancas y cuatro canicas negras. Se lanza un dado y, a continuación, se extraen de la urna tantas canicas como lo indica el resultado del dado. Suponiendo que obtuvieron exactamente 3 canicas blancas, ¿cuál es la probabilidad de que el resultado del dado haya sido 5? 89. Una hamburguesería ofrece a sus clientes cinco tipos de ingredientes: lechuga, tomate, papitas, salsa de tomate y mayonesa. ¿Cuántos tipos de hamburguesas se pueden preparar? Considere que es posible un tipo de hamburguesa sin ingredientes, o con uno o más ingredientes.

34

Introducción a la Estadística

Capítulo 2. Introducción a la Estadística 2.1 Definición de Estadística Aunque estemos acostumbrados a que la palabra Estadística se emplee para designar descripciones numéricas o conjuntos de datos, es conveniente definirla como una ciencia que ha llegado a emplearse en casi todas las ciencias. Se dice con razón que la Estadística es el lenguaje universal de las ciencias. Se emplea, por ejemplo, en: Producción, Calidad, Finanzas, Marketing, Logística, Economía, Psicología, Sociología, Educación, Medicina, Informática, Biología, Química, etc. La Estadística es la ciencia que recopila, clasifica, presenta, describe e interpreta conjuntos de datos. Generalmente se ocupa de estudiar fenómenos aleatorios.

2.2 Definición de algunos términos básicos 2.2.1 Universo o población:

Es el conjunto de datos o elementos cuyas propiedades se van a analizar. Cuando se quiere realizar una investigación estadística, debe definirse cuidadosamente el universo. Si se quiere investigar, por ejemplo, qué proporción de la población de Piura fuma cigarrillos, debe definirse claramente el universo, diciendo quiénes lo conforman. No sería correcto decir que lo conforman los adultos, pues este término no está claramente definido. Podría definirse correctamente el universo diciendo, por ejemplo, que lo conforman aquellos que tienen 18 años cumplidos. En este ejemplo el universo está conformado por personas, o mejor dicho, por un atributo de dichas personas; pero el universo podría estar conformado por atributos o mediciones de personas, objetos o animales. 2.2.2 Muestra

Es un conjunto de datos seleccionados de un universo, de tal forma que refleje las características de éste. Se dice entonces que la muestra es representativa del universo. A pesar de que sólo se debe llamar muestra a un conjunto de datos representativos del universo, se suele clasificar las muestras en: probabilísticas y no probabilísticas. Las primeras suelen ser representativas de la población; las segundas no. Se dice que una muestra es probabilística cuando cada elemento del universo tiene una probabilidad conocida de ser seleccionado en la muestra. La muestra es no probabilística cuando sus elementos se eligen con base en el juicio o criterio del investigador. Esto puede dar lugar a una “muestra” que no sea representativa del universo del cual fue extraída. Generalmente, cuando se hace una investigación, se extraen muestras probabilísticas, por razones evidentes. Una muestra probabilística puede ser: muestra aleatoria simple, muestra estratificada o muestra por conglomerados. Se denomina muestra aleatoria simple a aquélla que es seleccionada de tal forma que cada elemento del universo tiene la misma probabilidad de ser seleccionado. Un buen método para conseguir esto consiste en enumerar previamente todos los elementos que conforman el universo, y, empleando números aleatorios, seleccionar la muestra del tamaño deseado. Si el universo es de gran tamaño, puede resultar muy engorroso este último método, pues se necesitaría mucho tiempo y/o dinero. Conviene en este caso dividir el universo en estratos, y tratar a ca-

Introducción a la Estadística 35

da uno de éstos como un universo. Se denomina muestra estratificada a aquélla que se obtiene dividiendo el universo en estratos, para luego seleccionar “submuestras” de cada uno de éstos. Se denomina muestra por conglomerados a aquélla que se obtiene estratificando el universo, para luego tomar todos los elementos de algunos estratos, seleccionados aleatoriamente. Como conclusión, es conveniente tener en cuenta que el tipo de muestra que se debe emplear depende de lo que se va a investigar, y para seleccionar ésta adecuadamente, en caso que el universo sea grande y complicado, conviene estudiar con más detalle la Teoría del Muestreo.

2.3 Estadística descriptiva e inferencial La estadística se divide en dos partes: descriptiva e inferencial La estadística descriptiva se encarga de recopilar, clasificar, presentar y describir un conjunto de datos. Como generalmente se estudian poblaciones muy grandes, este conjunto de datos suele ser una muestra. La estadística inferencial se encarga de interpretar los datos estudiados por las técnicas descriptivas. De los datos obtenidos de las muestras, saca conclusiones que da como válidas para todo el universo. Es de esperarse que al sacar estas conclusiones siempre exista una pequeña probabilidad de error, pues la inferencia es inductiva. Existe, pues, cierta incertidumbre al sacar dichas conclusiones; pero tal incertidumbre puede ser cuantificada.

2.4 Importancia de la Estadística A continuación se presentan cuatro razones (Guilford y Fruchter) por las cuales es recomendable alcanzar cierto dominio de la Estadística: 1. Para poder leer literatura profesional. Para nadie es un secreto que un buen profesional siempre debe estar leyendo sobre su especialidad, y difícilmente podrá leer gran cosa sin encontrarse con símbolos, conceptos e ideas estadísticas. Quienes esquivan estas partes seguramente no podrán opinar ni sacar conclusiones propias, y tendrán que depender de lo que opinen los demás. 2. Para dominar técnicas que se necesitan en otras materias. Generalmente es imposible hacer un buen análisis de los resultados sin emplear un mínimo de técnicas estadísticas. 3. Porque es parte esencial de la formación profesional. En casi todas las profesiones. 4. Porque es parte fundamental en la Investigación. “El progreso de cualquier profesión y de la competencia de sus miembros depende de la permanente actitud de investigación y de los esfuerzos de investigación de esos miembros”. La estadística es fundamental en la investigación por las siguientes razones: ƒ

Permite describir con mayor exactitud cualquier fenómeno.

ƒ

Obliga a ser claros y exactos en los procedimientos y en el pensar. Sin el empleo de la Estadística se puede ser vago sin equivocarse; pero lo ideal es ser claro y exacto sin equivocarse.

ƒ

Permite resumir resultados significativamente. Esto mediante distintos tipos de tablas y gráficos.

ƒ

Permite deducir conclusiones generales.

Introducción a la Estadística

36

Además, se puede saber qué tan confiables son esas conclusiones generales sacadas en un estudio, y hasta dónde se pueden ampliar nuestras generalizaciones. ƒ

Permite hacer predicciones. Si se conocen las condiciones en que se encuentra algo o alguien, podemos predecir qué sucederá a futuro. Por ejemplo, si la producción en un proceso de manufactura se ve afectada por diversos factores, y se tiene registrados valores que cuantifiquen estos factores, se puede determinar una ecuación predictiva que relacione la producción con dichos factores.

ƒ

Permite analizar algunos factores causales en sucesos complejos. Se pueden determinar, por ejemplo, los factores causales por los que un producto tiene aceptación en el mercado, y analizar cuánto influye cada uno.

Estadística Descriptiva 37

Capítulo 3. Estadística Descriptiva 3.1 Introducción Si se tuviera que informar respecto a datos obtenidos en una investigación, no serviría de mucho que éstos se presenten en un simple listado, o que sólo se exprese alguna medida descriptiva (por ejemplo, la media o promedio) de dichos datos. En el primer caso la información resultará excesiva y en el segundo puede ser pobre. Lo más práctico sería presentar los datos de una forma condensada, ya sea mediante el uso de tablas o de gráficos. En este capítulo se van a presentar las medidas descriptivas más empleadas en análisis de datos, y las distintas formas de representar dichos datos en tablas y gráficos.

3.2 Medidas descriptivas A continuación se definen las medidas descriptivas más usadas en las investigaciones estadísticas, que nos permiten localizar con cierta precisión un conjunto de datos. Estas medidas pueden ser: de tendencia central, de variabilidad, de posición y de forma. Las medidas de tendencia central, como la media aritmética, la mediana y el modo, tratan de ubicar la parte central de un conjunto de datos. 3.2.1 Media aritmética

Dado un conjunto de n datos de una muestra, se define la media aritmética:

x=

1 n

n

∑x

i

i =1

Dado un conjunto de los N datos de una población, se define la media aritmética:

µ=

1 N

N

∑ xi i =1

Dada una muestra conformada por un conjunto de k valores; si cada uno de éstos se repite con una frecuencia fi, o si cada uno tiene un peso o ponderado wi, entonces las medias aritméticas serán, respectivamente: k

x=

∑ f i xi i =1 k

∑ fi

k

∑w

xi

i

x=

i =1

i =1 k

∑w

i

i =1

A esta última se le denomina media aritmética ponderada. Si en lugar de contar sólo con datos muestrales se tuviera todos los datos poblacionales, para calcular la media aritmética se emplearían estas dos mismas fórmulas.

38

Estadística Descriptiva

Si se tienen k muestras de tamaños N1, N2, ... , Nk, con medias aritméticas x1 , x 2 , ... , x k , respectivamente; entonces la media aritmética del conjunto será: k

x=

∑N

i

xi

i =1 k

∑N

i

i =1

Ejemplo 1:

Una entidad financiera ofrece los siguientes intereses anuales, según los montos que depositen los ahorristas a plazo fijo: 6% para depósitos A (de 1000 dólares); 8% para depósitos B (de 2000 dólares) y 10% para depósitos C (de 5000 dólares). ¿Cuál es el interés anual promedio que está pagando el banco si hay 15 depósitos A, 10 depósitos B y 5 depósitos C? x=

15 × 6 + 10 × 8 + 5 × 10 = 7,33 % 30

Ejemplo 2:

Se han registrado los pesos de las bolsas de arroz empacadas por una empresa durante 7 horas, resultando un promedio de 0,992 Kg. Si cada hora se embolsan 30 unidades, ¿cuál será el peso promedio si en la octava hora se registra un peso promedio de 1,025 Kg? En este caso se debe hallar la media de dos medias aritméticas, donde los pesos o ponderaciones pueden ser 7 y 1, ó 210 y 30. x=

7 × 0,992 + 1×1,025 = 0,996 Kg. 8

3.2.2 La mediana

Dado un conjunto de n datos, la mediana es aquél que ocupa la posición central, cuando los datos se ordenan en orden creciente (o decreciente). Si el número de datos es par, la mediana será la media aritmética de los dos datos que ocupen la posición central. Si algunos datos se repiten con una determinada frecuencia, el cálculo de la mediana se complica; pero no vale la pena ahondar en esto, pues se puede recurrir a una herramienta tan accesible como Excel para hacer este cálculo. 3.2.3 La moda

Dado un conjunto de datos, la moda (Mo) es el valor que se repite con mayor frecuencia. Cuando dos o más datos son los que tienen la mayor frecuencia, se dice que el conjunto de datos es bimodal o multimodal, respectivamente. Las medidas de variabilidad, como la amplitud, la desviación media, la varianza y la desviación estándar, indican qué tan dispersos se encuentran los datos.

En muchas situaciones es importante conocer la variabilidad de los datos. Por ejemplo, entre dos procesos de elaboración de planchas de acero del mismo espesor, es más eficiente aquél cuyas medidas de espesor tienen una menor variabilidad. Igualmente, entre dos negocios con similar promedio de ganancias, quien tiene aversión al riesgo preferirá aquél que tenga menor variabilidad, pues así puede evitar una posible ganancia muy baja o una pérdida.

Estadística Descriptiva 39 3.2.4 La amplitud

Dado un conjunto de datos, la amplitud es la diferencia entre el mayor y el menor. Es una medida que puede ser muy útil, dada la facilidad con que se calcula; pero en ciertas ocasiones puede dar una idea equivocada de la variabilidad de los datos; por ejemplo, cuando uno de los datos difiere significativamente de los demás. 3.2.5 La desviación media

Dado un conjunto de datos, la desviación media es la media aritmética de los valores absolutos de lo que se desvía cada valor respecto a la media aritmética. Es una medida poco usada debido a la dificultad al hacer cálculos con la función valor absoluto. D.M . =

1 n

n

∑x

i

−x

i =1

3.2.6 La varianza

Dado un conjunto de n datos, se define la varianza: 1 s = n 2

2

n

∑ ( xi − x ) i =1

Dado un conjunto de k datos; si cada uno se repite con una frecuencia fi, la varianza será: 1 s = n 2

k

∑ f i ( xi − x )

2

i =1

Algunos autores emplean n – 1 en lugar de n en las dos últimas fórmulas. Más adelante se verá que es recomendable emplear n – 1 cuando la muestra extraída es pequeña. Para n grande esto no ocasiona una diferencia numérica apreciable. Si se cuenta con el total de datos (N) de una población, la varianza es: 1 σ = N 2

N

∑ (xi − µ )

2

i =1

1 ó σ = N 2

k

∑ f i ( xi − µ )

2

i =1

3.2.7 La desviación estándar

Es la raíz cuadrada positiva de la varianza. Es la medida de variabilidad que más se emplea, debido a que se expresa en las mismas unidades que los datos y la media aritmética. 3.2.8 El coeficiente de variación

Se define como el cociente entre la desviación estándar y la media aritmética de un conjunto de datos. Según se trate de una muestra o población, el coeficiente de variación será: V=

σ µ

v=

s x

Esta medida se suele usar para comparar el grado de dispersión de dos o más conjuntos de datos; incluso si se trata de medidas diferentes. Suele ser de gran utilidad cuando se desea comparar las dispersiones de dos conjuntos de datos cuyas medias difieren significativamente. Ejemplo:

Medio año después de haber sembrado 50 semillas, se miden las alturas de las plantas, obteniéndose una media de 43,6 cm. y una desviación estándar de 5,1 cm. Al cumplir un año, se vuelven a medir las alturas de las plantas, encontrándose una media de 128,7 cm. y una desviación estándar de 6,6 cm. Compare las dispersiones de las plantas en ambos momentos.

40

Estadística Descriptiva

Al medio año: V1 = 5,1/43,6 = 0,117 Al año: V2 = 6,6/128,7 = 0,051 Si se comparasen las desviaciones estándar, se afirmaría que la dispersión aumentó; pero comparando las dispersiones respecto a las alturas (representadas por las medias aritméticas), se puede afirmar que la dispersión relativa ha disminuido. Las medidas de posición, como los cuartiles y los percentiles, localizan los datos respecto a los demás. 3.2.9 Los cuartiles

Dado un conjunto de datos ordenados en forma ascendente, los cuartiles lo dividen en cuatro partes iguales. El primer cuartil, Q1, es un valor tal que, a lo sumo, la cuarta parte de los datos es menor que Q1, y, a lo sumo, las tres cuartas partes son mayores. El segundo cuartil, Q2, coincide con la mediana. El tercer cuartil, Q3, es un valor tal que, a lo sumo, las tres cuartas partes de los datos son menores que Q3, y, a lo sumo, la cuarta parte es mayor. Ejemplo 1:

12, 13, 15, 18, 19, 20, 21, 25, 26, 28, 30, 34 Q1=17,25

Q2=20,5

Q3=26,5

Ejemplo 2:

10, 12, 15, 16, 17, 19, 23, 26, 27, 28 Q1=15,25

Q2=18

Q3=25,25

Para el cálculo de los cuartiles se recomienda recurrir a una herramienta tan accesible y de tan fácil uso como Excel. Obsérvese, en el ejemplo 1, que Q1 no es la media de 15 y 18. 3.2.10 Los percentiles

Dado un conjunto de datos ordenados en forma ascendente, los percentiles lo dividen en cien partes iguales. El k-ésimo percentil, Pk, es un valor tal que, a lo sumo, el k por ciento de los datos son menores que Pk. Para determinar los percentiles se sigue el mismo procedimiento que para los cuartiles. Las medidas de forma, como el coeficiente de asimetría y la curtosis, expresan la forma como se distribuye un conjunto de datos. 3.2.11 Coeficiente de asimetría

Mide si un conjunto de datos están más dispersos por encima de la media aritmética o por debajo de ella. Si hay más datos por encima de la media, el coeficiente de asimetría es positivo; si hay más datos por debajo de la media, el coeficiente de asimetría es negativo; y si los datos están igualmente dispersos por encima y por debajo de la media, el coeficiente de asimetría es cero. El coeficiente de asimetría puede calcularse mediante la siguiente fórmula (de Excel), aunque lo más práctico es calcularlo en Excel.

Estadística Descriptiva 41

n sk = (n − 1)(n − 2)



 xi − x     s 

3

Existen otras fórmulas para medir la asimetría, como el coeficiente de Asimetría de Pearson: sk =

x − Mo s

3.2.12 Curtosis

Mide el grado en que los datos están agrupados alrededor de la media aritmética. Si la mayor parte de los datos están cerca de la media, la curtosis es positiva, y se dice que los datos tienen una distribución leptocúrtica; en caso contrario, si la mayor parte de los datos están lejos de la media, la curtosis es negativa, y se dice que los datos tienen una distribución platocúrtica. Si los datos se distribuyen normalmente (capítulo 8), la curtosis es cero, y se dice que la distribución es mesocúrtica. Es importante aclarar que la curtosis no es una medida de la variabilidad de los datos; que un conjunto de datos tenga una distribución leptocúrtica no indica que tenga menor desviación estándar. Para medir la curtosis se puede emplear la siguiente fórmula (de Excel), aunque lo más práctico es calcularla en Excel. k=

n(n + 1) (n − 1)(n − 2)(n − 3)



4

3(n − 1) 2  xi − x   −   s  (n − 2)(n − 3)

3.3 Exactitud y precisión La mayoría de la gente usa estos dos términos indistintamente, y por lo tanto, incorrectamente. Exactitud es la proximidad de un resultado o de un conjunto de resultados de un experimento con el resultado verdadero o real. Precisión es la cercanía entre los resultados de un experimento. Así, se pueden tener resultados precisos pero no exactos, o exactos y precisos; aunque es difícil tener resultados exactos e imprecisos. Los científicos experimentales hacen una distinción entre dos tipos de errores: aleatorios y sistemáticos. Los errores aleatorios provocan que los resultados se dispersen alrededor del valor promedio, es decir, afectan la precisión o reproducibilidad de un experimento. La varianza o desviación estándar miden qué tan grande o pequeño será el error aleatorio. Los errores sistemáticos provocan que los resultados se desvíen en el mismo sentido, es decir, afectan la exactitud de los resultados. La diferencia entre la media de los resultados y el valor verdadero es una medida del error sistemático. En 1936, A. Benedetti-Pichler ilustró estos conceptos, como se muestra en la figura 3.1.

Exacto y preciso

Preciso e inexacto

Impreciso e inexacto Valor verdadero

Figura 3.1 Exactitud y precisión

42

Estadística Descriptiva

3.4 Medidas descriptivas en Excel Resulta sumamente fácil calcular las medidas descriptivas de un conjunto de datos con Excel. Sólo basta ingresar los datos en una hoja de cálculo, ubicarse en la celda donde se desea expresar la medida, y hacer click en el icono . Excel abre un cuadro de diálogo con todas las funciones disponibles, por categorías, como se muestra en la figura 3.1.

Figura 3.1. Cuadro de diálogo de funciones de Excel

Una vez seleccionada una función, Excel indica, en el mismo cuadro de diálogo, qué resultado va a devolver, y qué datos necesita, explicando en qué consiste cada uno de éstos. Las medidas descriptivas estudiadas en este capítulo que están en el listado de funciones de Excel se muestran en la tabla 3.1. Tabla 3.1. Funciones de Excel para el cálculo de algunas medidas descriptivas Medida descriptiva

Función de Excel

Media aritmética

PROMEDIO

Mediana

MEDIANA

Moda

MODA

Varianza (muestra) Varianza (población)

VAR VARP

Desviación estándar (muestra) DESVEST Desviación estándar (población) DESVESTP Cuartil

CUARTIL

Percentil

PERCENTIL

Coeficiente de asimetría

COEFICIENTE.ASIMETRÍA

Curtosis

CURTOSIS

Cabe aclarar que las funciones VARP y DESVESTP emplean n en el denominador, a diferencia de las funciones VAR y DESVEST que emplean n – 1. Excel tiene también, en el menú de Herramientas, la opción Análisis de datos (si no aparece, puede activarse en la opción Complementos, escogiendo la opción Herramientas para Análisis). Esta opción Análisis de Datos abre un cuadro de diálogo con un listado de herramientas estadísticas. Una de estas herramientas es: Estadística Descriptiva, que abre el cuadro de diálogo que se muestra en la figura 3.2.

Estadística Descriptiva 43

Figura 3.2. Cuadro de diálogo de Estadística descriptiva de Excel para el ingreso de datos

Ejemplo:

Se ingresan los siguientes 20 datos en Excel, en una fila o columna; por ejemplo, desde la celda A1 hasta la celda A20. 73 69 65 87 86 61 65 77 80 72 75 85 63 75 73 78 74 81 73 81.

En el rango de entrada del cuadro de diálogo saldrá: A1:A20. Ejecutando la opción Resumen de estadísticas, Excel muestra el resultado que se muestra en la tabla 2. Tabla 3.2. Medidas descriptivas del Análisis de datos de Excel

Fila1 Media

74,65

Error típico

1,67846264

Mediana

74,5

Moda

73

Desviación estándar

7,50631313

Varianza de la muestra

56,3447368

Curtosis

-0,64638537

Coeficiente de asimetría

-0,13330001

Rango

26

Mínimo

61

Máximo

87

Suma

1493

Cuenta

20

44

Estadística Descriptiva

3.5 Representaciones de datos 3.5.1 Distribución de frecuencias: diagrama de barras

Al repetirse sucesivamente un experimento, los resultados obtenidos constituyen los valores que toma la variable aleatoria definida, X. Cada uno de estos resultados se representa con xi (minúscula). La cantidad de veces que se repite cada resultado se denomina frecuencia, f. Al conjunto de parejas de valores {xi, fi} se le denomina distribución de frecuencias, y se representa en una tabla de distribución de frecuencias como la que se muestra en la tabla 3.3. Tabla 3.3. Tabla de distribución de frecuencias

X f

x1 f1

x2 f2

... ...

xn fn

Esta distribución de frecuencias suele representarse mediante diagramas de barras, que representa cada una de las frecuencias en barras proporcionales. Ejemplo:

Los siguientes datos expresan las cantidades de piezas que produjeron 20 trabajadores durante una semana en un taller de manufactura: 73 79 75 77 76 76 75 77 74 72 75 75 73 75 73 78 74 76 73 80

La distribución de frecuencias correspondiente a estos datos se expresa en la tabla 3.4, que da una idea más clara de cómo están distribuidos los datos que conforman la muestra. Tabla 3.4 Distribución de frecuencias de la piezas producidas por los 20 trabajadores

X f

72 1

73 4

74 2

75 5

76 3

77 2

78 1

79 1

80 1

Para este ejemplo, el diagrama de barras de la figura 3.3 nos da una visión mucho más clara de cómo están distribuidos estos datos. Como se ve, la mayoría de los trabajadores (14 de 20) elaboraron entre 73 y 76 piezas.

f 6 5 4 3 2 1 0 72

73

74

75

76

77

78

79

80

Figura 3.3 Diagrama de barras del número de piezas producidas por los 20 trabajadores

Estadística Descriptiva 45

Si en una distribución de frecuencias se suman sucesivamente las frecuencias, de tal forma que éstas se van acumulando: f1 , f1 + f2 , f1 + f2 + f3 , etc., se obtiene una distribución de frecuencias acumuladas. Para el ejemplo anterior, esta distribución se representa en la tabla 3.5. Tabla 3.5 Distribución de frecuencias acumuladas del número de piezas producidas por los 20 trabajadores

X facum

72 1

73 4

74 7

75 12

76 15

77 17

78 18

79 19

80 20

3.5.2 Representaciones tallo-hoja

Las representaciones tallo-hoja (stem-and-leaf) muestran en la columna que está a la izquierda de la barra, la(s) cifra(s) de la izquierda de cada dato (tallos), y a la derecha de la barra, las cifras de las unidades (hojas). Así, cada hoja, junto con su tallo, conforma un dato. Si todos o casi todos los datos de una muestra tienen la misma cifra de las decenas, como en el ejemplo anterior, la representación tallo-hoja no es útil. Ejemplo:

Se ha medido el tiempo que tarda vehículo que transporta productos terminados desde una fábrica a uno de sus almacenes, durante 30 días, obteniéndose los siguientes resultados, en minutos: 41 47 41

33 47 56 41 31 35 40 56 44

56 58 30 36 40 38 42 39 58

42 55 34 40 46 40 53 59 37

La representación tallo-hoja para el ejemplo del apartado anterior se muestra en la figura 3.4. 3 3 0 4 1 5 6 8 9 7 4 1 7 2 7 1 0 0 6 0 1 0 4 2 5 6 6 8 5 6 8 3 9 Figura 3.4 Representación tallo-hoja de la piezas producidas por los 20 trabajadores

En este ejemplo, esta representación puede resultar útil para formarse una idea de la distribución de los datos, decena por decena. Como se ve, los datos no necesitan ser representados en un orden definido. 3.5.3 Diagrama de caja-bigote

Representa un conjunto de datos mediante una caja formada con los siguientes valores: mínimo, máximo, primer cuartil, segundo cuartil y tercer cuartil. De esta forma se visualiza fácilmente cómo están distribuidos un conjunto de datos. Ejemplo:

El administrador de una gasolinera ha anotado el número de vehículos que llegan a su local cada dos minutos, de 7 a 11 a.m. y de 3 a 7 p.m., con el propósito de comparar la afluencia de vehículos por la mañana y por la tarde. A continuación se muestran los datos obtenidos en ambos horarios. Trace dos diagramas de caja y bigote. Ingresando los datos a Excel, se calculan fácilmente los datos que se necesita para construir los diagramas de caja – bigote, es decir: Para el horario de la mañana: Min = 2; Max = 17; Q1 = 7; Q2 = 8,5; Q3 = 11 Para el horario de la tarde: Min = 1; Max = 15; Q1 = 6; Q2 = 7; Q3 = 10

46

Estadística Descriptiva Tabla 3.4. Número de vehículos que llegan a una gasolinera cada dos minutos 9 7 9 10 12 10 5 10 11 13

7 11 8 12 5 14 9 15 11 6

7 15 4 12 8 8 11 11 6 9

Horario de la mañana 7 6 7 6 10 6 6 6 11 9 2 9 6 6 8 7 7 9 11 5 11 7 11 12 8 10 12 6 13 7 10 9 5 6 8 8 9 10 8 5 11 7 9 14 6 10 8 11 3 8 10 9 7 9 7 8 7 8 13 7

11 4 10 10 12 11 4 9 13 2

15 9 10 10 8 6 8 8 10 5

8 17 4 7 10 6 12 8 6 12

9 6 8 7 7 8 11 11 12 6

4 5 8 8 7 11 6 8 10 9

9 9 11 5 5 7 4 9 4 9

Horario de la tarde 11 6 8 5 4 1 12 8 14 6 4 9 3 6 10 11 5 4 13 10 11 11 11 2 4 7 5 8 9 12 3 6 4 10 6 15 6 11 6 7 9 4 11 6 3 6 5 11 8 4 8 6 4 10 8 5 7 10 11 11

4 8 5 8 14 5 13 10 8 6

7 6 6 10 8 4 7 11 10 6

8 7 6 7 4 13 6 6 6 10

En la figura 3.5 se presentan los dos diagramas de caja – bigote, juntos y con la misma escala, para poder hacer una comparación de ambos grupos de datos.

18

18

16

16

14

14

12

12

10

10

8

8

6

6

4

4

2

2

0

0

Figura 3.5. Diagramas de caja – bigote del número de vehículos que llegan a una gasolinera en dos minutos.

Aunque bastaría hallar las medias aritméticas de los dos turnos para darse cuenta que por la tarde hay una pequeña disminución en el número de vehículos que llegan a la gasolinera, los diagramas de caja-bigote nos dan más información. Se puede afirmar, por ejemplo, que por la mañana, en la cuarta parte (25%) de los intervalos de dos minutos llegaron entre 2 y 7 vehículos; sin embargo, por la tarde, en la mitad de los intervalos de dos minutos llegaron entre 1 y 7 vehículos.

3.6 Distribuciones de frecuencias agrupadas 3.6.1 Agrupación de datos.

Si se tiene un conjunto de datos que corresponden a una variable aleatoria continua, o a una variable aleatoria discreta en cuya tabla de distribución de frecuencias hay demasiadas frecuencias, es conveniente agrupar los datos en intervalos, pues el diagrama de barras correspondiente tendría demasiadas barras y no mostraría con claridad de qué forma se distribuyen dichos datos. Agrupar un conjunto de datos en intervalos, y representarlo gráficamente, suele ser más un arte que una técnica. Existen fórmulas matemáticas que se emplean para determinar el número de intervalos que conviene tener, y a partir de este resultado se determinan los tamaños de estos intervalos, obteniéndose en la mayoría de los casos valores numéricos poco prácticos y/o inmanejables. Para agrupar en forma adecuada un conjunto de datos, se propone seguir los siguientes pasos: 1) Determinar la amplitud, A.

Estadística Descriptiva 47

2) Determinar el número de agrupaciones o clases, m, y la longitud de cada clase, k, de tal forma que el producto mk sea mayor o igual que A. Es recomendable que el número de clases esté comprendido entre 6 y 15, para una mejor interpretación, y que la longitud de las clases sea impar, si se quiere trabajar con las marcas de clase (se definen más adelante). 3) Determinar uno por uno los límites de cada clase, procurando que, los límites inferiores o los superiores, sean múltiplos de 5, 10, 100, 1 000, etc., para facilitar su visualización. 4) Contar el número de elementos de cada clase. Es muy importante establecer la precisión de las cifras con las que se va a trabajar. Por ejemplo, si los datos representan diámetros de ciertas piezas cilíndricas, en mm.: 125,5; 127,3; 124,0; etc; los límites se expresarán también con una cifra decimal. Antes de seguir adelante, conviene definir: 1) Frecuencia de clase: Es el número de elementos que hay en cada clase. 2) Límites de clase: Son los valores extremos de cada clase. 3) Fronteras de clase: Son valores que no están presentes en los datos. Se localizan en los puntos medios entre el límite superior de una clase, y el inferior de la clase siguiente. Incluyen por lo tanto una aproximación superior a la que consideró al agrupar los datos (dos decimales para el ejemplo de los diámetros). 4) Longitud de clase: Es la extensión o tamaño de las clases. Se obtiene calculando la diferencia entre las fronteras de una clase, o la diferencia entre dos límites superiores (o inferiores) consecutivos. 5) Marca de clase: Es el punto medio de cada clase. Se obtiene calculando la semisuma de los límites superior e inferior de cada clase. Vale la pena aclarar que, dado un conjunto de datos, éstos se pueden agrupar de varias maneras, sin que se pueda decir en muchos casos que sólo una es la manera correcta. Se podría decir, sin embargo, que la mejor agrupación es aquella que se elabora de una forma rápida y que permite mostrar de una manera clara cómo se distribuyen los datos, ya sea de forma tabular o gráfica. Ejemplo:

Suponga que los siguientes datos representan el número de piezas que produjeron 100 trabajadores durante la última semana: 23 14 19 27 12 15 17 16 26 21

20 17 19 26 24 24 18 20 14 27

16 11 19 28 21 28 23 19 15 18

18 37 20 26 22 19 21 11 16 22

30 21 12 15 20 24 25 23 27 17

22 16 23 29 15 22 19 17 18 20

26 10 24 19 18 17 20 23 21 14

A continuación se siguen los pasos recomendados: 1) A = 37 – 8 = 29

15 20 17 18 16 19 22 13 24 21

13 22 18 20 23 8 21 17 33 22

18 25 16 17 24 18 21 26 20 19

48

Estadística Descriptiva

2) Podría ser: k = 5 y m = 6, de tal forma que: mk = 30 > 29. 3) Así, los límites de clase serían: 1a. clase: 2a. clase: 3a. clase: ... ... 6a. clase:

de 8 a 12 de 13 a 17 de 18 a 22 de 33 a 37

También podrían agruparse de esta forma: 1a. clase: de 5 a 9 2a. clase: de 10 a 14 3a. clase: de 15 a 19 ... ... 6a. clase: de 30 a 34 7a. clase: de 35 a 39 que resulta mucho más cómodo para trabajar. Tomando esta última agrupación, se tendrá finalmente: Límites de clase 5 – 9 10 – 14 15 – 19 20 – 24 25 – 29 30 – 34 35 – 39

Fronteras de clase 4,5 – 9,5 9,5 – 14,5 14,5 – 19,5 19,5 – 24,5 24,5 – 29,5 29,5 – 34,5 34,5 – 39,5

Marca de clase 7 12 17 22 27 32 37

Frecuencia 1 10 37 36 13 2 1

Frecuencia acumulada 1 11 48 84 97 99 100

En esta tabla se puede apreciar la ventaja de que la longitud de clase sea impar, ya que así las marcas de clase resultan con la misma aproximación decimal que los datos y límites de clase. Las fronteras de clase, en cambio, tienen una cifra decimal más. 3.6.2 Histograma, polígono de frecuencias y ojiva.

Aunque la tabla de distribución de frecuencias agrupadas nos da una idea de cómo están distribuidos los datos, una representación gráfica nos permitirá mejorar esta idea. El histograma es una gráfica que expresa la frecuencia con que sucede cada clase. La forma que tenga el histograma permitirá formarse una idea no sólo de cómo están distribuidos los datos, sino, en muchos casos, descubrir por qué causa(s) los datos están distribuidos de esa forma. En el eje de abcisas se identifica la variable X, ya sea mediante las fronteras de clase, las marcas de clase, o mediante los límites inferiores o superiores de clase. En el eje de ordenadas se expresan las frecuencias de clase. Cada clase formará un rectángulo de altura igual a su frecuencia y base igual a la longitud de clase. El polígono de frecuencias se puede trazar fácilmente sobre el mismo histograma, uniendo los puntos medios de la parte superior de cada rectángulo, partiendo y finalizando en dos clases ficticias de frecuencia cero y de la misma longitud de clase. Las figuras 3.6 y 3.7 muestran el histograma y el polígono de frecuencias correspondientes al ejemplo anterior. Considerando que las alturas de los rectángulos del histograma vienen dadas por las frecuencias de cada clase, y que la base de estos rectángulos es k, la longitud de clase; se puede deducir el área que hay bajo el histograma:

Estadística Descriptiva 49

A = f1 k + f2 k + ... + fN k = (∑ fi) k = Nk f

4,5 2

9,5 7

14,5 12

19,5 17

24,5 22

29,5 27

34,5 32

x

39,5 37

42

Figura 3.6. Histograma y polígono de frecuencias

Observando la figura 3.6 se deduce que el área que hay bajo el polígono de frecuencias es también igual a Nk. Más adelante (capítulo 6) se verá la importancia que tiene esta área. Se le denomina ojiva a la representación gráfica de la distribución de frecuencias acumuladas, expresando las fronteras de clase en el eje de abcisas y las frecuencias acumuladas en el eje de ordenadas. Para el ejemplo anterior se tiene la ojiva de la figura 3.7. facum 100 90 80 70 60 50 40 30 20 10 4,5

9,5

14,5

19,5

24,5

29,5

34,5

Figura 3.7. Ojiva: frecuencias acumuladas

39,5

x

50

Estadística Descriptiva

3.6.3 Cálculo de algunas medidas descriptivas.

Cuando se cuenta con una distribución de frecuencias agrupadas, y no con el conjunto de datos, puede hacerse el cálculo de la media aritmética, la varianza y la desviación estándar, considerando que los valores de X son las marcas de clase. Los resultados que se consiguen de esta forma son muy aproximados a los verdaderos.

3.7 Tablas y gráficas para la representación de datos en Excel 3.7.1 Tabla y gráfico de distribución de frecuencias no agrupadas

Dado un conjunto de datos, conformado por valores discretos, se puede elaborar una tabla de distribución de frecuencias con la ayuda de Excel. Como ya se dijo antes, Excel muestra un cuadro de diálogo con todas sus funciones al hacer click en el icono de función (fx). La función FRECUENCIA calcula las frecuencias (fi) con que se repiten los valores (xi) de un conjunto de datos y las devuelve en una matriz vertical de números. Seleccionando un número de celdas verticales donde se desea que aparezcan las frecuencias y escogiendo luego la función FRECUENCIA, aparece un cuadro de diálogo donde Excel pide: • Datos: aquí se ingresa el rango de celdas donde están los datos. • Grupos: aquí se ingresa el rango de celdas donde están los valores xi.

Generalmente no se conocen todos los valores xi del conjunto de datos; pero como tales valores son discretos, es posible determinarlos hallando previamente el menor y el mayor de todos los datos, empleando las funciones MIN y MAX, respectivamente. Para que la fórmula ingresada sea matricial, una vez seleccionadas las celdas donde irán los resultados, se digita control–shift–enter al final de la fórmula. El número de elementos de la matriz devuelta puede superar en una unidad el número de elementos de Grupos. El elemento adicional de la matriz devuelta corresponde a la suma de todos los valores superiores al mayor xi. Para construir el diagrama de barras correspondiente basta con recurrir al asistente de gráficos de Excel. Si se tiene problemas para construir este diagrama, conviene ingresar primero los datos de frecuencias y luego, en el cuadro de diálogo de Datos de origen, añadir el rango de los xi en Rótulos del eje de categorías (X). 3.7.2 Tabla de distribución de frecuencias agrupadas e histogramas en Excel

Dado un conjunto de datos que convenga agrupar en intervalos, se puede recurrir a Excel para que haga la agrupación de acuerdo a su criterio (de Excel), o definir los límites superiores de clase que se consideren apropiados (ver apartado 3.6.1). Esta opción se encuentra en Herramientas/Análisis de datos/Histograma. Excel abre un cuadro de diálogo que pide: Para los datos de entrada: • Rango de entrada: aquí se ingresa el rango de celdas donde están los datos. • Rango de clases: aquí se ingresa el rango de celdas donde están los límites superiores de clase, que el usuario ha ingresado previamente en Excel. Si no se ingresa nada en Rango de clases, es Excel quien escoge los límites superiores de clase. Estos límites pueden servir de guía para que el usuario escoja unos límites más apropiados.

Para los datos de salida, se puede escoger entre las siguientes tres opciones de salida: • Rango de salida: aquí se ingresa la celda desde donde se va a construir la tabla de distribución de frecuencias agrupadas y el histograma, si se desea hacerlo en la misma hoja de cálculo. • En una hoja nueva: aquí se puede ingresar el nombre de la hoja de cálculo donde se desea construir la tabla de distribución de frecuencias agrupadas y el histograma. Si se deja en blanco, Excel le asignará un nombre, por ejemplo, Hoja4.

Estadística Descriptiva 51

• En un libro nuevo: se elige esta opción si se desea construir la tabla de distribución de frecuencias agrupadas y el histograma en un nuevo archivo. Excel le asigna un nombre a este archivo, por ejemplo, Libro2. Posteriormente, si lo desea, el usuario puede cambiarle el nombre a este archivo.

Finalmente se selecciona la opción Crear gráfico, y Porcentaje acumulado, si se desea graficar la ojiva. La opción Pareto, que no es recomendable, ordena el histograma en orden descendente de frecuencias. Ejemplo:

Elabore un histograma a partir del siguiente conjunto de 100 datos: 397,00 387,22 402,44 412,76 411,98 417,33 378,16 397,66 410,95 389,13

393,10 383,10 381,53 390,22 392,26 378,82 394,32 395,96 401,35 396,35

396,73 396,30 413,43 399,15 398,14 394,87 419,72 408,66 423,76 393,45

416,61 383,88 405,39 409,02 419,19 399,15 394,76 406,75 396,19 407,58

385,56 391,53 384,78 396,37 399,68 400,28 396,77 421,95 382,58 392,64

374,22 414,48 387,20 393,46 407,58 404,67 408,75 405,96 386,28 388,84

406,94 403,23 390,60 397,59 401,32 405,58 401,39 390,89 418,85 404,87

400,72 408,30 408,62 393,63 390,77 411,11 387,99 384,41 407,11 406,38

422,06 414,44 413,04 401,13 400,02 404,54 399,74 389,45 382,25 408,28

404,44 406,18 402,13 389,73 412,38 396,89 391,60 391,79 395,71 395,47

En este ejemplo se van a trazar dos histogramas: en el primero se dejará que Excel decida el número de clases, y, en el segundo, el usuario elegirá el número de clases, siguiendo las sugerencias vistas en el apartado 3.5.1. En la figura 3.8 se muestra el cuadro de diálogo que muestra Excel al entrar al menú: Herramientas/Análisis de datos/Histograma. Nótese que ya se ha ingresado el rango de entrada y se ha seleccionado una hoja nueva como opción de salida, con el nombre Histograma1.

Figura 3.8. Cuadro de diálogo de Histograma1

Además, se ha dejado en blanco el rango de clases; de esta manera Excel elegirá los límites superiores de clase. En la figura 3.9 se muestra el resultado de esta operación, con unos límites superiores de clase inadecuados, y un número de clases muy pequeño (m = 4). .

Estadística Descriptiva

Clase Frecuencia 374.22 1 390.73 20 407.25 54 y mayor... 25

Histograma 60 50

Frecuencia

52

40 30

Frecuencia

20 10 0 374.22

390.73

407.25

y mayor...

Clase

Figura 3.9. Histograma1

Para conseguir que dichos parámetros sean adecuados, habría que averiguar antes el menor y el mayor de los datos, que en este caso son 374,22 y 423,76. Así, se ve conveniente que los límites superiores de clase sean, por ejemplo: 380, 390, 400, 410, 420, 430. Precisamente estos datos se ingresan en unas celdas de Excel, las cuales se seleccionan como Rango de clases, tal como se muestra en la figura 3.10.

Figura 3.10. Cuadro de diálogo de Histograma2

En la figura 3.11 se muestra el resultado de esta operación. Los límites superiores son mucho más claros (múltiplos de 10) y el número de clases (m = 6) es el adecuado para el conjunto de 100 datos. Además se ha mejorado la presentación del histograma, como se puede apreciar claramente, empleando algunas opciones que da Excel con el clic derecho. Vale la pena aclarar que los valores en el eje X del histograma que construye Excel corresponden al límite superior de cada barra, y que el límite inferior de la primera clase comienza en 370.

Estadística Descriptiva 53

Frecuencia 3 16 34 30 14 3 0

Histograma 40 35 30

Frecuencia

Clase 380 390 400 410 420 430 y mayor...

25 20 15 10 5 0 380

390

400

410

Clase

Figura 3.11. Histograma2

420

430

y mayor...

54

Estadística Descriptiva

Problemas propuestos. 1. El promedio de sueldos de los empleados de una fábrica es una cierta cantidad. ¿Qué contestaría usted, como Jefe de Personal, ante una queja de que nadie debería ganar por debajo del promedio, sea cual fuere éste? Respuesta: La única forma de satisfacerlos es haciendo que todos ganen igual, lo cual no es posible. 2. Hasta el semestre pasado un alumno de la UDEP había aprobado 108 de 141 créditos matriculados, con un índice acumulado de 10,43. Si este semestre se ha matriculado en 21 créditos, ¿Hasta cuánto puede subir su índice acumulado como máximo? Respuesta: Hasta 11,67 3. ¿Puede la desviación media tener un valor cero? ¿Puede ser negativa? 4. ¿Qué puede decirse de una distribución en la que s = 0? 5. Una asociación de ahorro y préstamo tiene las siguientes hipotecas con sus respectivas tasas de interés: $40 000 al 10%; $25 000 al 9%; $20 000 al 8%; $10 000 al 7% y $5 000 al 6%. ¿Cuál es la tasa de interés promedio que se paga? 6. En las cuatro aulas donde se rindió una prueba de Estadística hubieron 14, 27, 27 y 36 alumnos. Las medias (o promedios) en estas aulas fueron 14,4; 12,1; 9,9 y 10,2 respectivamente. ¿Cuál es la media general? 7. Un grupo de amigos que salieron juntos del colegio, egresaron de la UDEP el último semestre. Cuatro de Ingeniería con un índice promedio de 14,95; seis de Administración de Empresas con un índice promedio de 14,12 y tres de Información con un índice promedio de 15,10. ¿Cuál es el índice promedio del grupo? ¿Cuál es la desviación estándar? 8. Dada la siguiente distribución de salarios, en dólares, en una empresa extranjera: 80 70 61 85 100 98 88 81

a) b) c) d) e) f)

52 90 96 75 85 76 64 91

92 69 88 81 95 100 81 59

75 83 63 73 88 58 70 72

82 94 78 97 98 108 105 97

96 67 83 109 78 89 64 77

80 63 99 87 98 84 64 97

Construya una tabla de distribución de frecuencia, utilizando intervalos de $10, desde $50. Dibuje el histograma y el polígono de frecuencia. Determine la media y la desviación estándar. Comente brevemente cómo es la distribución de salarios en esta empresa. Construya una tabla de frecuencias acumulativas. Encuentre el salario sobre el cual está el 25% de los empleados.

9. El diámetro de 180 tornillos varía entre 0,829 a 1,286 cm. Sugiera un agrupamiento indicando sus límites, fronteras y marcas de clase. 10. Considere la siguiente muestra: resistencia de 50 lotes de algodón (Kg. necesarios para romper una madeja) 7,4 10,1 10,5 9,0 9,7

10,0 9,0 11,0 8,6 10,1

9,0 10,5 9,1 9,6 10,2

9,9 8,3 9,9 8,8 9,6

9,7 9,1 10,1 9,7 10,0

8,9 9,6 9,4 10,3 7,6

10,8 8,1 10,6 8,5 9,6

9,4 9,8 9,8 10,6 8,1

8,7 8,1 9,3 9,2 10,1

7,9 9,8 8,2 11,5 9,3

a) Haga una tabla de distribución de frecuencias de la muestra no agrupada y represéntela gráficamente.

Estadística Descriptiva 55

b) Agrupe la muestra de tal forma que las marcas de clase sean 75, 80, 85, etc. y represente gráficamente la distribución de frecuencias resultante. c) Calcule la media y la desviación estándar de los datos no agrupados. d) Calcule la media y la desviación estándar de los datos agrupados y compare estos resultados con el apartado anterior. 11. El grosor de 400 arandelas varía entre 0,421 y 0,563 centímetros. Determine las fronteras y marcas de clase para el primero y último intervalos de clase. 12. En una muestra de 125 valores de la resistencia a la ruptura bajo cargas de tensión (en lb/pulg2) de cilindros de concreto, el mínimo es 408 y el máximo es 465. Determine los límites, fronteras y marcas de clase que mejor le parezca. 13. Los precios de venta de 60 casas en una comunidad varían de $58050 a $184900. Determine unos límites de clase considerando 7 clases en las cuales se podría agrupar estos precios. 14. En la oficina de un periódico, el tiempo empleado en colocar los tipos de la página frontal fue registrado durante 50 días. A continuación se muestran los datos: 20,8 25,3 23,7 21,3 19,7

22,8 20,7 20,3 21,5 24,2

21,9 22,5 23,6 23,1 23,8

22,0 21,2 19,0 19,9 20,7

20,7 23,8 25,1 24,2 23,8

20,9 23,3 25,0 24,1 24,3

25,0 20,9 19,5 19,8 21,1

22,2 22,9 24,1 23,9 20,9

22,8 23,5 24,2 22,8 21,6

20,1 19,5 21,8 23,9 22,7

a) Agrupe estos datos expresándolos en una tabla de distribución de frecuencias, empleando longitudes de clase de 0,8 minutos. b) Construya el histograma y el polígono de frecuencia correspondientes. c) Calcule la media aritmética y la varianza, a partir de la tabla elaborada, considerando que los valores de X están dados por las marcas de clase. 15. En un taller donde se confecciona calzado a mano, se anotó cada día el número de unidades que confeccionaron 10 trabajadores elegidos aleatoriamente, como se muestra en la siguiente tabla. a) Construya un diagrama de barras con los 100 datos de la tabla y comente el resultado. b) Trace un diagrama de caja bigote para cada semana y comente los resultados.

Lun 7 4 4 2 3 6 6 3 4 6

Mar 5 5 5 6 1 7 6 6 6 4

Semana 1 Miér Juev 5 5 3 6 5 6 7 6 5 2 8 5 6 7 3 4 4 4 4 4

Vier 5 5 6 4 6 3 5 6 6 5

Lun 10 9 9 10 8 5 9 7 9 7

Mar 7 8 10 6 8 9 5 7 7 10

Semana 2 Miér Juev 9 7 10 8 5 12 9 7 9 5 9 10 8 5 7 9 9 8 6 10

Vier 8 9 4 6 9 9 7 8 7 7

16. Una muestra de 60 barras de manjar blanco producidas por una empresa da los siguientes pesos (en gramos): 499,6 497,2 502,2 500,0

498,3 499,3 497,9 499,6

500,3 499,5 500,7 502,9

501,7 500,2 501,2 497,7

501,6 499,5 502,5 499,0

502,3 499,6 499,9 496,6

497,2 499,5 499,3 501,9

499,7 501,7 500,9 498,3

501,4 499,9 499,5 499,2

a) Construya una tabla de distribución de frecuencia. b) Dibuje el histograma y el polígono de frecuencia.

498,6 499,8 501,0 501,0

499,1 499,3 498,1 500,6

497,8 502,6 498,9 501,1

497,6 501,1 498,0 500,8

498,7 503,1 499,5 498,2

499,0 499,1 500,0 498,5

56

Estadística Descriptiva

c) Interprete el histograma. 17. Se ha anotado la velocidad a la que pasaron por el kilómetro 25 de la carretera Piura–Paita, de una muestra de 60 autos, durante este verano. En la siguiente tabla se muestran los datos. 76 83 66 72 99 94 75 66 73 68

95 92 92 89 83 92 86 75 90 69

78 105 86 81 75 97 106 54 105 94

87 75 87 65 76 75 71 67 69 69

60 52 83 73 78 68 66 80 70 74

94 87 75 87 65 76 75 71 67 69

a) Trace un histograma e interprételo. b) Trace un diagrama caja–bigote e interprételo. (Q1 = 69; Q2 = 75,5; Q3 = 87). c) ¿Cree usted que valga la pena hacer una tabla de distribución de frecuencias no acumuladas? ¿Por qué? 18. Los datos de la siguiente tabla son los cobros de electricidad durante un mes, de una muestra de 50 casas de Piura. 96 157 141 95 108

171 185 149 163 119

202 90 206 150 183

178 116 175 154 151

147 172 123 130 114

102 111 128 143 135

153 148 144 187 191

197 213 168 166 137

127 130 109 139 129

82 165 167 149 158

a) Trace un diagrama tallo hoja. b) Trace un histograma. c) Comente cómo son los pagos mensuales de electricidad en Piura. 19. Un alumno de Estadística de la UDEP quiere averiguar cómo se distribuyen los pagos que hacen los alumnos universitarios por una habitación individual en las casas de una urbanización cercana a la UDEP. Después de unos días tomando datos, casa por casa, ha averiguado que en 15 casas pagan S/.200, en 21 casas pagan S/.210, en 29 casas pagan S/.220, en 41 casas pagan S/.230, en 21 casas pagan S/.240, en 15 casas pagan S/.250, en 11 casas pagan S/.260 y en 8 casas pagan S/.270. (Nota: suponga que sólo existen estos 8 tipos de pagos) a) Halle la pensión promedio y la desviación estándar de los pagos por habitación en esa muestra de casas. b) Represente gráficamente los pagos por habitación de esa muestra y haga un comentario respecto a dichos pagos 20. ¿Qué medida descriptiva utilizaría para medir la eficiencia de una máquina que debe cortar planchas de una pulgada de espesor? ¿Por qué? 21. Se toma una muestra de 60 alumnos de la Facultad de Ingeniería de la Universidad de Piura, a quienes se les pregunta el número de horas que estudia en una semana, fuera de las horas de clase, obteniéndose las siguientes respuestas: 20 17 23 22 20 28 4 17 22 28 16 24 27 21 30 29 17 30 19 17 15 17 15 10 13 21 26 13 14 17 15 10 25 4 19 29 10 14 20 23 21 10 22 16 26 14 5 17 27 18 19 21 12 8 24 11 18 23 21 24

a) Trace un histograma y comente cómo ve la distribución del número de horas que estudian los alumnos de UDEP semanalmente. b) Trace un diagrama de caja y coméntelo. Los cuartiles 1, 2 y 3 son: 14,75; 19 y 23 respectivamente.

Estadística Descriptiva 57

22. Los precios de venta de 160 casas en una comunidad varían de $28050 a $124900. Determine unos límites de clase adecuados. 23. Se han tomado muestras de 64 sacos de un alimento balanceado para ganado que han enviado dos proveedores, para medir el porcentaje de proteína. En la siguiente tabla se muestran los valores obtenidos. Trace un histograma y comente el resultado 73,8 81,9 72,2 66,5 73,7 72,9 81,6 76,7

69,9 66,3 68,2 72,7 73,5 82,9 68,6 72,9

76,0 74,1 67,6 73,4 77,4 78,5 77,2 77,7

80,1 79,4 71,1 75,5 74,7 84,5 78,6 73,5

79,8 70,7 71,9 73,5 74,3 72,4 82,7 78,0

59,3 59,5 64,4 64,0 64,8 67,1 64,0 62,5

67,4 63,7 69,9 64,9 64,4 61,5 70,9 64,0

65,3 64,6 62,3 68,1 66,0 60,3 60,5 64,2

58 Función de Probabilidad

Capítulo 4. Función de probabilidad 4.1 Definición de función de probabilidad. Una función de probabilidad (f. de p.) de una variable aleatoria discreta X, se define como el conjunto de parejas ordenadas {xi, f(xi)}, donde xi representa un valor que puede tomar X, y f(xi) es la probabilidad de que X asuma dicho valor, de tal forma que ∑ f(xi) = 1. Se le suele llamar distribución de probabilidad a dicho conjunto de parejas, y función de probabilidad a la función f(x), la cual asigna las probabilidades a los valores que puede tomar X. Ejemplo 1:

Un experimento consiste en lanzar un dado, cargado de manera que la probabilidad de ocurrencia de cada cara es proporcional al número de puntos que tiene. Si se define X como el resultado de un lanzamiento, se deduce que: f(x) =

x 21

de manera que: x

1

2

3

4

5

6

f(x)

1 21

2 21

3 21

4 21

5 21

6 21

Ejemplo 2:

Se lanzan dos monedas. Si se define X como el número de caras que se obtiene en un lanzamiento, no hay forma de expresar f(x) como en el ejemplo anterior; la función de probabilidad se expresa simplemente con la tabla: x

0

1

2

f(x)

1 4

1 2

1 4

La f. de p. se suele representar gráficamente con diagramas de barras, tal como la distribución de frecuencias no agrupadas. Ejemplo 3:

Se quiere determinar la distribución de probabilidad del número de pacientes que llegan a una clínica dental en un intervalo de una hora. En primer lugar, se debe tomar datos del número de pacientes que llegan a la clínica dental, en varios intervalos de una hora, durante varios días. Supóngase que se obtienen los siguientes resultados: 1 3 0 2

1 3 1 1

2 2 1 2

3 1 0 2

0 4 2 2

1 1 2 3

1 3 3 3

2 3 7 0

1 4 1 1

3 1 1 3

1 3 0 3

3 3 1 3

3 2 2 1

4 4 0 0

4 4 1 1

3 1 1 1

En segundo lugar, se construye una tabla de distribución de frecuencias: x f

0 9

1 2 3 24 17 21

4 7

5 1

6 0

7 1

2 3 2 1

2 0 2 1

4 0 2 5

3 3 3 1

Función de Probabilidad 59

Finalmente, se estiman las probabilidades “experimentales” f(x), dividiendo cada frecuencia entre la suma de frecuencias, que es 80, resultando: x f(x)

0 1 2 3 4 5 0,1125 0,3000 0,2125 0,2625 0,0875 0,0125

6 0

7 0,0125

Lógicamente, estas probabilidades experimentales serán más certeras mientras mayor sea el número de veces que se repite el experimento, es decir, mientras más datos se tomen del número de pacientes que llegan a la clínica en un intervalo de una hora.

4.2 La función de distribución (acumulativa). La función de distribución, F(x), acumula en forma sucesiva las probabilidades f(x) de la siguiente forma: si los posibles valores que puede tomar X, ordenados en forma ascendente, son: x1, x2, x3, ... , xn; entonces: F(x1) = f(x1) F(x2) = f(x1) + f(x2) F(x3) = f(x1) + f(x2) + f(x3) ... F(xn) = f(x1) + f(x2) + f(x3) + ... + f(xn) = 1

El conjunto de parejas de valores {x ,F(x)} se expresa en una tabla, tal como la f.de p., y gráficamente en forma escalonada, tal como la distribución de frecuencias acumulativas no agrupadas.

4.3 El valor esperado de una variable aleatoria discreta. Se ha visto que la media aritmética de un conjunto de n datos se calcula mediante la expresión: x=

1 n

n

∑f i =1

i

xi =

n

 fi 

∑  n  x

i

i =1

Cuando n tiende a ser un valor muy grande, fi / n puede sustituirse por la probabilidad f(x), ya que representa una probabilidad experimental, tal como se vio en el primer capítulo. Así, dicha media aritmética representa la media de la población o el valor esperado de la variable aleatoria X. Por lo tanto, dada una variable aleatoria con f.de p. {x, f(x)}, la media aritmética teórica o valor esperado de X es: µ = E ( x) =

n

∑ f (x )x i

i

i =1

Si un experimento se repite indefinidamente y se anotan los resultados que se van obteniendo; es decir, los valores que va tomando la variable aleatoria X, la media aritmética de éstos tenderá a µ. Ejemplo 1:

Se lanza un dado normal. ¿Cuál es el valor esperado? Conocida la función de probabilidad, se calcula: µ = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 3,5

Se entiende que, si un dado se lanza varias veces, la media de los resultados que se van obteniendo se aproxima cada vez más a 3,5. Ejemplo 2:

En un juego de azar, el jugador participante debe escoger aleatoriamente 3 esferas de una urna que contiene 9 esferas numeradas del 1 al 9. Si los tres números son consecutivos, el jugador ganará $2. Si sólo 2 números son consecutivos, ganará $4. Si no obtiene números consecutivos perderá $6. ¿Cuál es la ganancia o pérdida esperada?

60 Función de Probabilidad

P(3 consec) = 7/C(9,3) = 1/12 2C (6,1) + 6C (5,1) P(2 consec) = = 1/2 C (9,3) P(no consec) = 1 – 1/12 – 1/2 = 5/12

La f.de p. correspondiente será: x f(x)

2 1/12

4 1/2

–6 5/12

Y el valor esperado será µ = 2(1/12) + 4(1/2) + (–6)(5/12) = – 0,333, que representa la ganancia esperada. No sería correcto concluir que un jugador espera perder $0,33 si participa en este juego una vez, pues él ganará $2 o $4, o perderá $6; pero si juega muchas veces, en promedio perderá $0,33 por juego. Ejemplo 3:

¿Cuántos pacientes se espera que lleguen a la clínica dental (ejemplo 3 del apartado 4.1) en un intervalo de una hora? El valor esperado será: µ = 0(0,1125) + 1(0,3000) + … + 7(0,0125) = 2,013 pacientes. Se ve claramente que, aunque el número de pacientes que llegue a la clínica dental en un intervalo de una hora, puede ser 0, 1, 2, … etc., es correcto afirmar que el número esperado de pacientes que llegan es 2,013, interpretándose este valor como un promedio. Por lo tanto, no tiene sentido redondear dicho valor, argumentando que se trata de una variable aleatoria discreta.

4.4 Varianza y desviación estándar de una variable aleatoria discreta A partir de la definición de varianza muestral, se deduce fácilmente la varianza de una variable aleatoria, con f.de p. conocida: 1 s = n 2

k

∑ f i (xi − x )

2

=

i =1

k

 fi 

∑  n (x

i

− x)

i =1

Cuando n tiende a ser un valor muy grande, fi / n puede sustituirse por la probabilidad f(x), ya que representa una probabilidad experimental, y la media muestral ( x ) puede sustituirse por la media poblacional (µ). Así, esta varianza representa la varianza de la población o la varianza de la variable aleatoria X. σ2 =

n

∑ f ( x )( x i

i

− µ) 2

i =1

También se deduce fácilmente que: σ2 =

n

∑ f ( x )( x ) i

i

2

− µ2

i =1

La desviación estándar es la raíz cuadrada positiva de la varianza. Ejemplo:

Determine la desviación estándar del número de pacientes que llegan a la cínica dental del problema anterior.

σ 2 = 0,1125(0)2 + 0,3000(1)2 + 0,2125(2)2 + … + 0,0125(7)2 – (2,013)2 = 3,825 σ = 1,956

Función de Probabilidad 61

Generalmente el valor numérico de la desviación estándar de una variable aleatoria, por sí solo, no da información de qué tan dispersos están los valores que tome dicha variable aleatoria, salvo que ésta tenga una distribución normal, como se verá en el capítulo 8. Sin embargo, puede ser útil para compararlo con el valor numérico de la desviación estándar de otra muestra.

4.5 Teoremas sobre el valor esperado y la varianza. Definida una variable aleatoria X, se deducen el valor esperado y la varianza de una función h(X): E [h( X )] = µ h ( x ) =

σ 2 h( X ) =

∑ f ( x ) h( x ) i

i

∑ f ( x )[h( x ) − E[h( x )] ]

2

i

i

i

Se deducen además seis teoremas, que se presentan a continuación con sus respectivas demostraciones: T1. E(kX) = kE(X)

E(kX) = Σ f(xi)(kxi) = k Σf(xi)(xi) = kE(X). T2. E(X+k) = E(X)+k

E(X+k) = Σ f(xi)(xi + k) = Σ f(xi)(xi) + k Σ f(xi) = E(X) + k T3. E(k) = k

E(k) = Σ f(xi)k = k Σ f(xi) = k T4. E(X – µ) = 0

E(X – µ) = Σ f(xi)(xi – µ) = Σ f(xi)(xi) – µ Σ f(xi) = µ – µ = 0 T5. σ 2kX = k2 σ 2X

σ 2kX = Σ f(xi)(kxi – µkX)2 = k2 Σ f(xi)(xi – µ x)2 = k2σ 2X T6. σ 2X+a = σ2X

σ 2X+a = Σ f(xi)[(xi + a) – µ X+a]2 = Σ f(xi)(xi – µX)2 = σ 2X A partir de la varianza σ 2 h(X) se deduce fácilmente que la varianza de X es el valor esperado del cuadrado de la desviación de la media µ, es decir:

σ 2 x = E(X − µ)2 NOTA: Estos teoremas también son válidos para la media aritmética de una muestra, x ,y para la varianza de una muestra, s. Ejemplos:

1) Dada la siguiente función de probabilidad: x f(x)

1 0,1

2 0,2

3 0,3

4 0,4

62 Función de Probabilidad

Si Y = 2X + 5, determine el valor esperado y la varianza de Y. E(X) = 1(0,1) + 2(0,2) + 3(0,3) + 4(0,4) = 3 E(Y) = 2E(X) + 5 = 2(3) + 5 = 11 σ2X = 12 (0,1) + 22 (0,2) + 32 (0,3) + 42 (0,4) – 32 = 1 σ2Y = 22 (1) = 4

2) La calificación promedio en una prueba de Estadística fue 9,24, con una desviación estándar igual a 1,25. El profesor desea ajustar todas las calificaciones por igual, de manera que el promedio resulte 11 y la desviación estándar 2,50. ¿Qué debe hacer para conseguirlo? Sean las variables: X, las calificaciones iniciales. Y, las calificaciones corregidas.

Evidentemente:

Y = kX + a sY = ksX

Entonces: 11 = 9,24k + a 2,5 = 1,25k Resolviendo: k = 2 ; a = – 6,52 El profesor debe multiplicar cada calificación por 2, y luego restarle 6,52.

4.6 La desigualdad de Tchebycheff. Sea una variable aleatoria X, cuya f.de p. {xi, f(xi)} está definida. Denomínense x'i a todos los valores que se desvían de la media, µ, por lo menos k veces la desviación estándar; es decir, a todos los valores xi que cumplen la siguiente condición: |xi – µ | ≥ kσ ... para todo k > 1, Se sabe que: Σ f(xi)(xi – µ)2 = σ 2 Entonces, se cumplirá que: Σ f(x'i)(x'i – µ)2 ≤ σ 2 Y por lo tanto: Σ f(x'i) k2σ2 ≤ σ 2

1

∑ f (x' ) ≤ k i

2

Esta desigualdad se conoce como el teorema de Tchebycheff y se interpreta de la siguiente forma: "La probabilidad de que un valor de X, escogido aleatoriamente, se desvíe de la media por lo menos k veces la desviación estándar, no es mayor que 1/k2". El teorema de Tchebycheff puede aplicarse también a una muestra, con una distribución cualquiera. En este caso se le daría la siguiente interpretación: "La fracción de elementos que se desvían de la media por lo menos k veces la desviación estándar, no es mayor que 1/k2". Ejemplo:

Una máquina que se utiliza para llenar cajas de cereales descarga en promedio 12 onzas por caja. El fabricante quiere que la descarga real, en onzas, quede a una onza del promedio al menos el 75% de las veces. ¿Cuál es la mayor desviación estándar que se puede admitir si deben cumplirse los objetivos del fabricante? Sea: X = descarga real (onzas)

µ = 12 onzas P(|X – 12| ≤ 1) ≥ 0,75 ; P(|X – 12| ≥ 1) ≤ 0,25

Función de Probabilidad 63

Según Tchebycheff: P(|xi – µ | ≥ kσ) ≤ 1/k2 Entonces: 1/k2 = 0,25 y kσ = 1 Por lo tanto: σ = 0,5 La mayor desviación estándar que se puede admitir es 0,5 onzas.

4.7 La función bivariante de probabilidad. En algunas ocasiones surge la necesidad de analizar simultáneamente dos características de algún fenómeno aleatorio, y conviene definir por lo tanto dos variables aleatorias. 4.7.1 Definición de función bivariante de probabilidad.

Si X e Y son dos variables aleatorias discretas, se define la función bivariante de probabilidad: f(x, y) = P(X = xi ; Y = yj) ;

para: i = 1, 2,..., m. j = 1, 2,..., n.

donde f(x, y) representa la probabilidad de que X e Y asuman los valores xi e yj, respectivamente, de manera que: Σi Σj f(x, y) = 1. La distribución bivariante de probabilidad se representa de la siguiente manera: x/y

y1

y2

...

yn

f(x)

x1 x2 ... xm f(y)

P(x1, y1) P(x2, y1) ... P(xm, y1) f(y1)

P(x1, y2) P(x2, y2) ... P(xm, y2) f(y2)

... ... ... ... ...

P(x1, yn) P(x2, yn) ... P(xm, yn) f(yn)

f(x1) f(x2) ... f(xm)

1

A f(x) y f(y) se les denomina funciones de probabilidad marginales. Ejemplo: Se tiene un lote de 20 artículos de la producción diaria de una fábrica, de los cuales 14 han sido clasificados de calidad A, 4 de calidad B y 2 de calidad C. Se seleccionan aleatoriamente 2 artículos de este lote. Sea X el número de artículos de calidad A e Y el número de artículos de calidad B. Determine la distribución de probabilidad bivariante de X e Y. La siguiente tabla se construye calculando previamente las probabilidades de que ocurran las 9 combinaciones posibles: X/Y 0 1 2 Total

0 1/190 28/190 91/190 120/190

1 8/190 56/190 0 64/190

2 6/190 0 0 6/190

Total 15/190 84/190 91/190 1

Nótese que en las columnas que dan los totales están expresadas las funciones de probabilidad marginales: f(x) y f(y), que se muestran a continuación: x f(x)

0 15/190

1 84/190

2 91/190

y f(y)

0 120/190

1 64/190

2 6/190

64 Función de Probabilidad

Se deduce, por lo visto en el capítulo de probabilidades, que las variables X e Y de una función bivariante de probabilidad son independientes si se cumple que: f(xi, yj) = f(xi) f(yj). En la función bivariante del ejemplo anterior: f(0, 0) = 1/190 ≠ f(0) f(0) = 180/3610 f(0, 1) = 28/190 ≠ f(0) f(1) = 1008/3610

.....................

............................. ≠ f(2) f(2) = 546/36100

f(2, 2) = 0

Verificándose, como era de esperarse, que X e Y son dependientes. 4.7.2 El valor esperado de funciones de dos variables.

A continuación se ven algunos teoremas relativos a los valores esperados de algunas funciones de dos variables aleatorias X e Y, como: X + Y, X – Y, XY. Teorema 7: E(X ± Y) = E(X) ± E(Y)

Demostración: E(X ± Y) = Σi Σj f(xi, yj)(xi ± yj)

= Σi Σj f(xi, yj)xi ± Σi Σj f(xi, yj)yj = Σi xiΣj f(xi, yj) ± Σj yj Σi f(xi, yj) = Σi xi f(xi) ± Σj yj f(yj) = E(X) ± E(Y) En el ejemplo anterior, ¿cuál es el valor esperado de la suma de artículos útiles y recuperables? E(X + Y) = E(X) + E(Y) = 266/190 + 76/190 = 1,8

Este teorema puede generalizarse para varias variables: E(X1 + X2 + X3 + ...+ Xn) = E(X1) + E(X2) + E(X3) +...+ E(Xn)

La demostración se puede hacer por inducción matemática, considerando que ya se ha hecho la demostración para n = 2. El valor esperado del producto de dos variables aleatorias X e Y es: E(XY) = Σi Σ j f(xi, yj)(xi yj) Para el ejemplo anterior: E ( XY ) = 0 + 0 + 0 + 0 +

56 56 (1) (1) + 0 + 0 + 0 + 0 = 190 190

Teorema 8: Si X e Y son independientes, con función bivariante de probabilidad f(x, y), entonces: E(XY) = E(X)E(Y).

Demostración: E(XY) = Σi Σj f(xi, yj)(xi yj) = Σi Σ j f(xi) f(yj)xi yj = Σi f(xi)xi Σj f(yj)yj = E(X)E(Y) 4.7.3 Varianza y covarianza de dos variables aleatorias.

Se define la covarianza de dos variables aleatorias X e Y:

σXY = E(X – µ X)E(Y –µ Y) = Σi Σj f(xi, yj)(xi – µ X)(yj – µY)

Función de Probabilidad 65

Para el ejemplo anterior, la covarianza será: σ XY =

1  266  76  8  266  76  6  266  76   0 −  2 − + 0 − 1 − + 0 −  0 − 190  190  190  190  190  190  190  190  190  +

28  266  76  56  266  76  1 −  0 − + 1 − 1 −  +0 190  190  190  190  190  190 

+

76  266  91  2 −  0 −  + 0 + 0 = −0,2653 190  190  190 

Si la varianza de una variable X es: σ 2X = E(X – µ X)2, se puede definir la varianza de la suma o diferencia de dos variables aleatorias:

σ 2 X±Y = E[(X ± Y) – µ X±Y)]2 Entonces:

σ 2 X±Y = E[(X ± Y) – (µ X ± µY)]2 = E[(X – µX) ± (Y – µ Y)]2 = E[(X – µX)2 ± 2(X – µX)(Y – µY) + (Y – µY)2] = E(X – µX)2 ± 2E(X – µX)(Y – µY) + E(Y – µY)2

σ 2 X ±Y = σ 2 X ± 2σ XY + σ 2 Y Teorema 9: σ XY = E ( XY ) − E ( X )E (Y )

Demostración:

σ XY = E[(X – µX)(Y – µY)] = E(XY – µXY – µ YX + µXµY ) = E(XY) – µX E(Y) – µYE(X) + µXµY = E(XY) – E(X)E(Y) Aplicando este último teorema resulta más fácil el cálculo de la covarianza. Para el ejemplo anterior, la covarianza es: σ XY =

56  266  76  −  = −0,2653  190  190  190 

tal como se había calculado. Se deduce de los dos teoremas anteriores que si X e Y son dos variables aleatorias independientes, su covarianza es cero. Se deduce también que si X e Y son dos variables aleatorias independientes, entonces:

σ2X±Y = σ2X + σ 2Y

4.8 Distribuciones de probabilidad en Excel Existe una herramienta de Excel que puede ayudar a interpretar correctamente la función de probabilidad. Esta herramienta genera un conjunto de números aleatorios que sigue una función de probabilidad determinada. Ejemplo:

La demanda semanal de cierto artículo es una variable aleatoria, cuya función de probabilidad es la siguiente:

66 Función de Probabilidad

x f(x)

0 0,10

1 0,20

2 0,30

3 0,20

4 0,15

5 0,05

Simule la demanda de este artículo durante 400 semanas consecutivas y verifique si la demanda promedio coincide con el valor esperado de la demanda semanal, es decir, µ. Ingresando a Herramientas/Análisis de datos/Generación de números aleatorios, Excel muestra un cuadro de diálogo que pide: • Número de variables: aquí se ingresa el número de columnas donde se generarán los números. • Cantidad de números aleatorios: aquí se ingresa la cantidad de números que se generarán en cada columna. • Distribución: aquí se escoge la distribución discreta • Rango de entrada de valores y probabilidades: aquí se ingresa el rango de celdas donde están las parejas de valores {xi, f(xi)} (en dos columnas).

En la figura 4.1 se muestra este cuadro de diálogo con los valores ya ingresados.

Figura 4.1. Cuadro de diálogo de Generación de números aleatorios.

A continuación se muestran los números aleatorios generados por Excel, que simulan las demandas semanales durante 400 semanas consecutivas. El promedio de estos valores es 2,278, que es bastante aproximado al valor de µ = 2,25. 2 4 3 4 1 2 1 3 2 1

2 1 3 3 0 4 5 1 1 2

3 5 1 1 1 2 1 0 0 2

2 0 2 3 0 1 2 4 3 4

4 5 2 5 1 3 4 3 4 3

3 2 4 2 4 3 1 3 2 3

1 3 3 4 3 4 1 3 1 3

1 0 1 4 1 2 4 1 2 4

1 3 3 4 3 1 1 1 1 1

2 2 3 2 2 0 1 1 5 0

3 2 5 3 2 1 2 2 2 4

1 3 1 3 2 2 1 2 3 4

1 1 0 2 4 1 1 1 2 1

2 1 2 0 3 1 2 4 1 3

2 4 2 1 3 4 3 0 2 0

2 1 0 3 1 2 1 3 0 2

4 3 2 4 3 3 0 1 2 0

3 2 3 2 4 2 3 3 2 4

4 0 3 2 3 1 4 3 2 1

2 2 4 2 2 4 3 4 1 2

Función de Probabilidad 67

3 2 1 2 1 3 5 0 0 2

1 2 3 0 0 1 2 3 1 2

0 3 2 4 3 3 2 1 2 3

2 1 4 4 3 4 4 2 4 1

4 0 3 4 3 2 3 3 4 3

1 0 3 1 4 4 0 3 5 2

2 4 4 0 3 5 4 2 2 4

3 4 5 2 4 4 4 5 2 3

0 2 4 0 2 2 3 1 0 2

1 2 2 3 2 4 2 0 2 1

0 1 2 2 3 5 5 2 2 3

1 3 2 4 2 3 1 2 3 3

0 0 4 3 2 5 2 1 4 2

4 4 5 3 4 3 4 2 2 4

2 1 0 0 1 1 2 2 4 1

5 4 3 0 4 1 2 4 1 2

4 3 3 5 1 1 1 2 0 3

4 1 3 3 1 2 2 2 2 0

2 1 1 0 1 4 4 2 2 4

0 0 3 2 3 1 0 3 5 2

A manera de ejercicio, el lector podría ingresar estos 400 datos a Excel, construir la tabla de distribución de frecuencias (con la función FRECUENCIA) y luego, dividiendo entre 400 cada una de las frecuencias, determinar la distribución de probabilidad, que debería corresponder, aproximadamente, con la distribución de probabilidad dada al inicio del problema.

68 Función de Probabilidad

Problemas propuestos. 1. Una persona que está participando en un juego, lanza un dado. Si sale un número par, el juego termina y gana $10. Si no sale par, debe lanzar el dado nuevamente. Si sale un resultado mayor que el del primer lanzamiento, gana $5; de lo contrario, pierde $20. ¿Cuánto espera ganar o perder? Interprete este resultado. 2. Una persona que participa en un juego lanza un dado. Si obtiene 5 ó 6 en el primer lanzamiento gana $10. Si no, vuelve a lanzar el dado, y si repite el resultado del primer lanzamiento, gana $8. Si no repite este resultado, pero obtiene un número mayor, gana $4; pero si obtiene un número menor, lanza el dado por tercera vez. Si esta vez repite el resultado del primer lanzamiento, se retira sin ganar ni perder; pero si no se repite dicho resultado, pierde $20. ¿Le parece que el juego es justo? Explique. 3. En una urna hay seis dados blancos y cuatro dados negros. Una persona debe escoger un dado al azar y lanzarlo. Si el dado escogido es blanco o negro, pierde o gana tantos dólares como puntos muestre la cara superior, respectivamente. ¿Cuánto espera ganar o perder? Respuesta: µ = – 0,7 4. La calificación promedio en una prueba de Estadística fue 42,5. El profesor desea ajustar las calificaciones de manera que el promedio sea 50. ¿Qué debe hacer? 5. Un dado está cargado de forma tal que la probabilidad de que quede hacia arriba cualquiera de sus lados es proporcional al número de puntos que tiene dicho lado. a) Sea X el número de puntos que quedan hacia arriba después de arrojar el dado ¿Cuál es el valor esperado de X? Respuesta: 4,33 b) Si a usted le proponen el siguiente juego con este dado cargado: gana $1 000 si el resultado de lanzamiento es par, y pierde $1 000 si es impar. ¿Aceptaría jugar? Explique su respuesta y fundaméntela. Respuesta: Aceptaría, pues esperaría ganar $142,81 por juego, después de muchos juegos. 6. La demanda semanal de cierto artículo es una variable aleatoria cuya función de probabilidad es la siguiente: x f(x)

0 0,10

1 0,20

2 0,30

3 0,20

4 0,15

5 0,05

Un fabricante puede producir estos artículos a un costo unitario de $300, fijando su precio de venta en $800 cada uno; pero, por cada artículo que no venda en la semana, debe pagar $50 por almacenaje. Si el fabricante dice producir tres artículos semanales, ¿cuál es su utilidad semanal esperada? 7. Se tiene el siguiente juego de azar: El jugador participante debe hacer un máximo de 2 lanzamientos de tres monedas. Si obtiene tres caras o tres sellos en cualquiera de estos lanzamientos, gana $10. Si no ocurre esto, y repite el resultado del primer lanzamiento, gana $5. Si no ocurre ninguna de estas dos cosas, pierde $20. Determine la ganancia o pérdida esperada, interpretando este resultado. 8. Se lanzan dos dados cuyas caras muestran: (0,0,1,2,3,4) y (0,0,1,2,2,3). a) Construya una función de probabilidad para la suma obtenida y construya su gráfico. b) Grafique la función de distribución. c) Determine el valor esperado y la desviación estándar. 9. Suponga que usted tiene dos dados como los del problema 8. Si al lanzarlos obtiene una suma menor que tres, pierde $100; si obtiene suma 3 no gana ni pierde; y si obtiene una suma mayor que 3 gana $100. ¿Cuál es la ganancia esperada?

Función de Probabilidad 69

10. La calificación promedio en una prueba de Matemáticas fue 65,2 con una desviación estándar de 10. El profesor desea ajustar todas las calificaciones de manera que el promedio sea 70 y la desviación estándar de 8. ¿Qué debe hacer? 11. Una moneda se lanza al aire 4 veces. Represéntense los resultados cara y sello por "0" y "1" respectivamente. Sea X la suma de los resultados de los 2 primeros lanzamientos e Y la suma de los resultados de los 4 lanzamientos. a) Represente el espacio muestra. b) Construya la tabla de la función bivariante de probabilidad. c) Determine: E(XY), E(X + Y), E(X – Y), σXY. Respuesta: 2,5; 3; –1; 0,5. 12.

Un grupo de alumnos de la UDEP está conformado por 6 alumnos de Ingeniería, de los cuales 3 son hombres y 3 son mujeres; y 4 de Administración de Empresas, de los cuales 2 son hombres y 2 son mujeres. Se va a seleccionar aleatoriamente un comité de 2 personas para que organicen la fiesta de fin de semestre. Sea X el número de mujeres seleccionados e Y el número de estudiantes de Ingeniería seleccionados. a) Elabore la tabla de la función bivariante de probabilidad. b) Si en el comité hay sólo una mujer, ¿cuál es la probabilidad de que las dos personas sean de Ingeniería? Respuesta: 9/25. c) Si en el comité no hay nadie de Ingeniería, ¿cuál es la probabilidad de que las dos personas sean mujeres? Respuesta: 1/6.

13.

Dos jugadores A y B tienen 18 y 24 cartas, respectivamente, rojas y negras. A extrae una carta de B, y B extrae una de A, simultáneamente. Se considera que un jugador tiene éxito cuando extrae una carta roja. La probabilidad de que B tenga éxito es 1/4, la probabilidad de que ambos fracasen simultáneamente es 1/3 y la probabilidad de que B tenga éxito y A fracase es 1/9. ¿Cuántas cartas rojas tiene cada jugador? Respuesta: A tiene 10 y B tiene 6.

14.

Una máquina que llena bolsas de café descarga en promedio 200 g. por bolsa. El gerente de producción, que sabe que lo adecuado en el proceso de llenado es la menor variabilidad posible, quiere que el peso de las bolsas no se aleje más de 2 g. del promedio en más del 90% de las bolsas. ¿Cuál es la máxima desviación estándar que debe tener este proceso para que se cumpla el objetivo del gerente de producción?

15.

En un juego de azar, la probabilidad de ganar es de 9/20. Un jugador participa en 20 juegos consecutivos, apostando un dólar en cada juego. a) ¿Cuál es la ganancia o pérdida esperada? b) ¿Cuál es la probabilidad de que su ganancia sea, por lo menos, tres dólares?

16.

A un constructor le aseguran que las bolsas de cemento que está comprando tienen un peso promedio de 50 Kg. con una desviación estándar de 0,11 Kg. ¿Qué porcentaje de bolsas espera que pesen menos de 49 Kg?

17.

Los registros de ventas diarias de una empresa fabricante de computadoras muestran que se venderán 0, 1 ó 2 sistemas centrales de cómputo con las siguientes probabilidades: Número de ventas 0 1 2 Probabilidad 0,7 0,2 0,1

a) Determine la distribución de probabilidad del número de ventas en un período de 2 días, suponiendo que las ventas son independientes de un día a otro. Respuesta: Número de ventas 0 1 2 3 4 Probabilidad 0,49 0,28 0,18 0,04 0,01

70 Función de Probabilidad

b) Calcule la probabilidad de que al menos se formalice una venta en un período de 2 días. Respuesta: 0,51 18.

Se tiene el siguiente juego de azar: el jugador participante debe hacer un máximo de dos lanzamientos de tres monedas. Si obtiene tres caras o tres sellos en cualquiera de estos lanzamientos, gana S/.10 000. Si no ocurre esto, y repite el resultado del primer lanzamiento, gana S/.5 000. Si no ocurre ninguna de estas dos cosas, pierde S/.20 000. Determine la ganancia o pérdida esperada e interprete este resultado.

19.

Si un alumno contesta las 144 preguntas de un examen verdadero/falso lanzando una moneda (cara = verdadero; sello = falso). a) ¿Cuál es la probabilidad de contestar correctamente más de 48 y menos de 96 preguntas? b) Determine la misma probabilidad empleando la desigualdad de Tchebychev.

20.

Considere el experimento de lanzar dos dados al aire. Sea X la variable aleatoria que representa el valor absoluto de la diferencia de los valores observados. Encuentre la función de probabilidad de X. Respuesta: x 0 1 2 3 4 5 P(x) 6/36 10/36 8/36 6/36 4/36 2/36

21.

Un aparato electrónico tiene cuatro transistores, de los cuales se sabe que dos están defectuosos. Los transistores se prueban siempre, uno a la vez, hasta identificar los dos defectuosos. Sea n1 el número de pruebas hasta encontrar el primer transistor defectuoso y n el número de pruebas adicionales hasta encontrar el segundo. Encuentre la función conjunta de probabilidad de n1 y n2. (Escriba esta función en forma de tabla expresando las probabilidades con fracciones).

22.

Se tiene el siguiente juego de azar: el jugador participante debe lanzar una moneda sucesivamente. Si la diferencia entre el número de caras y de sellos (o viceversa) llega a ser igual a 3 al tercer lanzamiento, gana $20. Si esto ocurre al quinto lanzamiento, gana $10. Si ocurre al séptimo lanzamiento, gana $5. Si necesita más de 7 lanzamientos para conseguir dicha diferencia, pierde $10. ¿Cuál es la ganancia esperada?

Distribuciones discretas de probabilidad 71

Capítulo 5. Distribuciones discretas de probabilidad 5.1 La distribución uniforme discreta Si una variable aleatoria discreta X puede tomar cualesquiera de n valores distintos: x1, x2, …, xn, igualmente probables, se dice que tiene una distribución uniforme discreta. Por lo tanto la probabilidad de que X tome un valor xi será: f ( xi ) =

1 n

El valor esperado y la varianza de una variable uniforme discreta se calculan de la siguiente manera: µ=

n

∑ i =1

xi ⋅

1 2 ; σ = n

n

∑ (x i =1

− µ) ⋅ 2

i

1 n

Un caso especial de distribución uniforme discreta se tiene cuando X = 1, 2, 3, …, n. En este caso el valor esperado y la varianza resultan: µ=

n

∑ i =1

1 1 xi ⋅ = n n

n

∑x

i

=

i =1

1 n (n + 1) n + 1 ⋅ = n 2 2 µ=

σ2 =

n

n

1 1 ∑ ( x i − µ )2 ⋅ = ∑ ( x i − µ )2 = n

i =1

n

i =1

1 n

n

∑ i =1

n +1 2

xi2 +

1 n

n

∑ i =1

µ2 −

1 n

n

∑x µ = i

i =1

2 2 ( n + 1)(2n + 1)  n + 1  (n + 1)(2n + 1) (n + 1) n 2 −1 = − = = −

6

   2 

6

σ2 =

4

12

n 2 −1 12

5.2 La distribución binomial 5.2.1 Probabilidad binomial

A continuación se muestran dos ejemplos donde se calcula la probabilidad de que, de una muestra de n elementos, una cantidad x cumpla con cierta característica, conociendo cuál es la proporción de la población que cumple con dicha característica. Esta proporción puede interpretarse como la probabilidad de que un elemento de la población tenga la mencionada característica. Ejemplo 1

El 30% de todos los vehículos que llegan por una calle a cierta intersección giran hacia la izquierda. Si en un determinado momento se encuentran en dicha intersección 8 autos detenidos por la luz roja del semáforo ¿cuál es la probabilidad de que giren hacia la izquierda exactamente tres?

72

Distribuciones discretas de probabilidad

Aplicando el teorema generalizado de la multiplicación, para eventos independientes, y multiplicando por el número de formas en que se pueden ordenar los 8 autos, que conforman un subgrupo de 3 autos que giran hacia la izquierda y otro subgrupo de 5 autos que no giran hacia la izquierda: P = (0,3)(0,3)(0,3)(0,7)(0,7)(0,7)(0,7)(0,7)

8! 3!5!

8! (0,3)3(0,7)5 = 0,2541 3!5! Ejemplo 2 P=

La probabilidad de que un operario haga menos de 10 piezas en una jornada de trabajo es 0,20. Determine la probabilidad de que durante la próxima semana (de 6 días laborables), en 3 días haga menos de 10 piezas por jornada. P = (0,2)(0,2)(0,2)(0,8)(0,8)(0,8)

6! 3!3!

6! (0,2)3 (0,8)3 = 0,0819 3!3! Se puede notar que en ambos problemas se calcula la probabilidad de que, de una muestra de n elementos, x tengan cierta característica, y los restantes (n – x) no la tengan; siendo constante la probabilidad (p) de que un elemento cualquiera tenga dicha característica, así como la probabilidad de que no tenga la mencionada característica (q = 1 – p). P=

Nótese que, aunque se extraen varios elementos de la población, todos juntos o uno por uno, la probabilidad de que sea extraído un elemento cualquiera (p) se mantiene constante. En situaciones como ésta, la probabilidad de que, de una muestra de n elementos, x tengan dicha característica, es:

P( x) =

n! p x qn−x x!(n − x)!

A esta probabilidad, P(x), se le denomina probabilidad binomial. Usualmente a n se le denomina número de pruebas binomiales, a p probabilidad de éxito, y a q probabilidad de fracaso, en cada prueba binomial. 5.2.2 La función binomial de probabilidad.

La función binomial de probabilidad, o distribución binomial, está formada por el conjunto de parejas ordenadas {xi, P(xi)}, donde X puede tomar los valores 0, 1, 2, 3, ... , n; y P(x) es la probabilidad binomial ya definida. Se dice entonces que la variable X (número de elementos de la muestra que tienen cierta característica) tiene una distribución binomial. Es necesario probar que ∑ P(x) es igual a 1. Para esto veamos el siguiente desarrollo binomial (binomio de Newton):

 n

 n

 n 

 n

 pn – 1 q1 +   pn q0 (p + q)n =   p0 qn +   p1 qn + ... +   0 1  n − 1  n Los términos de esta sumatoria coinciden con las probabilidades binomiales P(0), P(1), ..., P(n). Dado que (p + q)n es siempre igual a 1, queda demostrado que ∑ P(x) = 1. De esta propiedad deriva el nombre de "probabilidad binomial". La distribución binomial se representa gráficamente mediante diagramas de barras. A estos diagramas trazados con barras de ancho unitario se les suele llamar histogramas binomiales. A continuación (figura 5.1) se muestran algunos ejemplos de histogramas binomiales.

Distribuciones discretas de probabilidad 73

n = 10; p = 0,9

0,6

0,6

0,4

0,4

P(x)

P(x)

n = 6; p = 0,2

0,2 0

0,2 0

0

1

2

3

4

5

6

0

1

2

x

4

5

6

7

8

9 10

x

n = 12; p = 0.5

n = 12; p = 0,3

0,3

0,3

0,2

0,2

P(x)

P(x)

3

0,1 0

0,1 0

0 1 2 3 4 5 6 7 8 9 10 11 12

0 1 2 3 4 5 6 7 8 9 10 11 12

x

x

Figura 5.1 Histogramas binomiales

Estos histogramas binomiales son muy útiles para visualizar qué tan probables son los posibles resultados de un muestreo. Por ejemplo, si en una población, conformada por familias de Piura, el 50% consumen leche en polvo; la probabilidad de que, de una muestra de 12 familias, 8 consuman leche en polvo (resulta aproximadamente 0,12) está representada por el rectángulo que corresponde a x = 8 en el tercer gráfico. Si el porcentaje de familias de Piura que consumen leche en polvo fuese 30%, la probabilidad de que, de una muestra de 12 familias, 8 consuman leche en polvo, está representada por el rectángulo que corresponde a x = 8 en el cuarto gráfico. Como se ve, esta última probabilidad es casi nula (aproximadamente 0,008). Se podría afirmar, inclusive, que es prácticamente improbable que, dado que el 30% de las familias consumen leche en polvo, en una muestra de 12 familias, 8 ó más consuman leche en polvo. 5.2.3 El valor esperado y la varianza

El valor esperado de una variable X es Σxi f(xi). En el caso de la función binomial de probabilidad, donde X puede tomar los valores 0, 1, 2, 3, ... , n; se tendrá:

µ = ΣxP(x)  n  x

µ = Σ x   p x q n − x

 n n! donde   =  x  x!(n − x)!

 n  x

µ = p Σ x   p x −1 q n − x Pero:  n  n δ Σ   p x q n − x = Σ x   p x −1 q n − x δp  x   x

Entonces:

74

Distribuciones discretas de probabilidad

δ



 n

δ



µ=p  Σ   p x q n − x  = p  ( p + q ) n   x  δp  δp   µ = pn (p + q)n – 1 = pn µ = np Si p representa la proporción de la población que tiene cierta característica, np representará , lógicamente, cuántos elementos de la muestra se espera que tengan dicha característica. La varianza de X, con función binomial de probabilidad, será:

 n σ 2 = Σx2P(x) – µ2 = Σ x2   p x q n − x – µ2  x Pero:  n  n δ2 Σ   p x q n − x = Σ x(x – 1)   p x − 2 q n − x = 2 δp  x  x  n  n = Σ x2   p x − 2 q n − x – Σ x   p x − 2 q n − x =  x  x  1   n =  2  Σ x2   p x q n − x –  x p 

 1   n   Σ x   p x q n − x = 2 p   x  

 1   n =  2  Σ x2   p x q n − x –  x p 

 1     p 2  np =  

Pero también: δ2 (p + q)n = n(n – 1)( p + q)n – 2 = n(n – 1) = n2 – n 2 δp

Entonces:  1  2  n x n− x    p 2  Σ x  x  p q –    

 1  2    p 2  np = n – n  

 n Σ x2   p x q n − x = n2 p2 – np2 + np  x

Por lo tanto:

σ 2 = n2 p2 – np2 + np – n2 p2 σ 2 = np – np2 = np(1 – p) σ 2 = npq 5.2.4 Cálculo de probabilidades binomiales acumulativas.

El cálculo de probabilidades binomiales puede simplificarse considerablemente mediante el empleo de tablas, como las del apéndice (pág. 253), que nos proporcionan directamente probabilidades acumulativas. Esta tabla permite calcular probabilidades acumulativas para distribuciones binomiales con p = 0,05; 0,10; 0,15; 0,20; 0,25; ... 0,50; y para n = 1, 2, 3, ..., 19, 20. Para estos dos parámetros, n y p, se puede calcular:

Distribuciones discretas de probabilidad 75

n

n

∑  x  p

x

qn−x

... donde k puede ser: 1, 2, 3,..., ó n.

x=k

Por ejemplo, para n = 8 se tiene: n 8

k 1 2 3 4 5 6 7 8

0,05 0,3366 0,0572 0,0058 0,0004 0,0000 0,0000 0,0000 0,0000

0,10 0,5695 0,1869 0,0381 0,0050 0,0004 0,0000 0,0000 0,0000

0,15 0,7275 0,3428 0,1052 0,0214 0,0029 0,0002 0,0000 0,0000

0,20 0,8322 0,4967 0,2031 0,0563 0,0104 0,0012 0,0001 0,0000

p 0,25 0,8999 0,6329 0,3215 0,1138 0,0273 0,0042 0,0004 0,0000

0,30 0,9424 0,7447 0,4482 0,1941 0,0580 0,0113 0,0013 0,0001

0,35 0,9681 0,8309 0,5722 0,2936 0,1061 0,0253 0,0036 0,0002

0,40 0,9832 0,8936 0,6846 0,4059 0,1737 0,0498 0,0085 0,0007

0,45 0,9916 0,9368 0,7799 0,5230 0,2604 0,0885 0,0181 0,0017

0,50 0,9961 0,9648 0,8555 0,6367 0,3633 0,1445 0,0352 0,0039

Ejemplo 1:

Para el primer ejemplo de este capítulo (n = 8; p = 0,3), determine la probabilidad de que por lo menos 3 vehículos giren hacia la izquierda. P(X ≥ 3) = P(3) + P(4) + ... + P(8) =

8

8

∑  x  0,3

0,7 8 − x

x

x =3

En la tabla encontraremos, para n = 8, p = 0,30 y k = 3 P(X ≥ 3) = 0,4482 Ejemplo 2:

¿Y cuál será la probabilidad de que giren hacia la izquierda menos de 5 vehículos? 4

P(X < 5) = P(0) + P(1) + ... + P(4) =

8

∑  x  0,3

x

0,7 8 − x = 1 – [P(5) + P(6) + ... + P(8)] =

x=0

8

=1–

8

∑  x  0,3

x

0,7 8 − x

x =5

Viendo en la tabla, para p = 0,30 y k = 5 P(X < 5) = 1 – 0,0580 = 0,9420 Ejemplo 3:

Supongamos que el 60% de los vehículos siguen de frente. ¿Cuál es la probabilidad de que, del grupo de 8, al menos 5 sigan de frente? 8

P = P(5) + P(6) + P(7) + P(8) =

8

∑  x  0,6

x

0,4 8 − x

x=5

Considerando aquella propiedad del desarrollo binomial, por ejemplo, de (p + q)n, que los términos equidistantes resultan iguales si se intercambian los exponentes de p y q, se tiene: 8 x   0,6 0,4 8 − x = x=5 x 8



Por lo tanto:

3

8

∑  x  0,4 x=0

x

0,6 8 − x

76

Distribuciones discretas de probabilidad

8

P=1–

8

∑  x  0,4

x

0,6 8 − x

x=4

P = 1 – 0,4059 = 0,5941 5.2.5 La proporción muestral como estimación de la proporción poblacional.

Si X, que representa cuántos elementos de una muestra de tamaño n tienen cierta característica, es una variable binomial, siendo p la proporción de la muestra que tiene dicha característica; la variable X/n, que representa la proporción de la muestra que tiene tal característica, también es binomial con media igual a p y desviación estándar igual a pq / n . Según el teorema de Tchebycheff, la probabilidad de que X/n se desvíe de la media p una distancia mayor o igual a kσ, no puede ser mayor que 1/k2. Es decir: P≤

1 k2

Si a la distancia kσ se le llama d: d = kσ = k

pq / n

Se puede deducir que:

1 pq / n = 2 d k2 Por lo tanto: P≤

pq d 2n

Cuando n tiende a infinito, esta probabilidad tiende a cero, lo que indica que X/n será prácticamente igual a p. 5.2.6 La distribución binomial en Excel

La función DISTR.BINOM de Excel permite calcular una probabilidad binomial específica o probabilidades acumulativas, para cualesquiera valores de n y p. Aprovechando las bondades de Excel, es posible calcular todas las probabilidades P(x) que conforman una función binomial de probabilidad y trazar el histograma binomial correspondiente.

5.3 La distribución binomial negativa La probabilidad de que, de una muestra de n elementos, una cantidad x cumpla con cierta característica, conociendo qué proporción de la población tiene dicha característica (p), es la probabilidad binomial P(x). Como se ha visto en los ejemplos de probabilidad binomial del apartado 5.2.1, la extracción de n elementos puede interpretarse como una extracción sucesiva de elementos, uno por uno, hasta completar n. Recuérdese que a p se le denomina probabilidad de éxito, o también, la probabilidad de que un elemento de la población tenga cierta característica; y a q probabilidad de fracaso, o también, la probabilidad de que un elemento de la población no tenga dicha característica. En algunas situaciones puede resultar interesante calcular la probabilidad de que en la n-ésima extracción ocurra el k-ésimo éxito. Para que esto ocurra, es necesario que en las n – 1 extracciones anteriores hayan ocurrido k – 1 éxitos, y que en la siguiente extracción (la n-ésima) ocurra otro éxito (el k-ésimo). Esta probabilidad será entonces:

Distribuciones discretas de probabilidad 77

 n − 1 k −1 n − k  p q ⋅ p P =   k − 1

Lo que resulta:  n − 1 k n − k  p q P(n; k , p ) =   k − 1

para n = k, k + 1, k + 2, …

Por lo tanto, el número de la extracción en la cual ocurre el k-ésimo éxito es una variable aleatoria que tiene una distribución binomial negativa con parámetros k y p. El nombre distribución binomial negativa se debe a que los valores de P(n; k, p), para n = k, k + 1 q 1, k + 2, …, son los términos sucesivos del desarrollo binomial de  −   p p

−k

.

A la distribución binomial negativa se le conoce también como distribución de Pascal. Ejemplo 1:

Una máquina que produce cierto tipo de piezas mecánicas no está bien ajustada, por lo que el porcentaje de piezas defectuosas es 4,2%. a) ¿Cuál es la probabilidad de que produzca la décima pieza buena cuando ya se han producido dos piezas defectuosas? p = 1 – 0,042 = 0,958 n = 12 k = 10  n − 1 k n − k 11  p q P(n; k, p) = P(12; 2, 0,042) =  =   (0,958)10 (0,042) 2 = 0,06317 k − 1   9 b) ¿Cuál es la probabilidad de que produzca la décima pieza buena cuando se han producido más de dos piezas defectuosas? Esta probabilidad es igual a uno menos la probabilidad de que se produzca la décima pieza buena cuando ya se han producido menos de dos piezas defectuosas:  9 1 – P =   (0,958)10 (0,042) 0 +  9

11 10    (0,958)10 (0,042)1 +   (0,958)10 (0,042) 2 = 0,01225 9 9

P = 0,98775 Ejemplo 2:

El 30% de los niños expuestos a cierta enfermedad contagiosa, la contraen. ¿Cuál es la probabilidad de que el octavo niño expuesto a esa enfermedad, sea el tercero en contraerla?  7 P(8; 3, 0,3) =   (0,3) 3 (0,7) 5 = 0,0953  2

5.4 La distribución de Poisson. 5.4.1 La función de probabilidad de Poisson

e−µ µ x , enx! tonces la variable aleatoria discreta X tiene una función de probabilidad de Poisson, con parámetro µ. Sea X una variable aleatoria que puede tomar los valores: 0, 1, 2, 3, ... . Si P ( x) =

78

Distribuciones discretas de probabilidad

La probabilidad de Poisson, P(x), expresa, por ejemplo, la probabilidad de que, en un determinado intervalo de tiempo, ocurran exactamente x eventos, siendo µ la frecuencia media de ocurrencia, es decir, el valor esperado de X. Muchas variables aleatorias siguen distribuciones de Poisson. Por ejemplo, el número de vehículos que llegan a una gasolinera, o el número de clientes que llegan a un banco en un determinado intervalo de tiempo, o el número de defectos que hay en un lote de unidades producidas. Se demuestra a continuación que {x, P(x)} es una función de probabilidad: ∞



P( x) =

x =0

e−µ µ x  µ µ µ  = e − µ 1 + + + + ...  = e − µ e µ = 1 x!  1! 2! 3!  x =0 ∞



Ejemplo 1:

En un taller donde cada operario trabaja con su respectiva máquina, hay un promedio de 3 máquinas en reparación. Si el taller cuenta con 4 máquinas de repuesto, ¿cuál es la probabilidad de que haya dos operarios desocupados? Se asume que el número de máquinas que hay en reparación tiene una distribución de Poisson. Habrá dos operarios desocupados cuando haya 6 máquinas en reparación. La probabilidad de que haya 6 máquinas en reparación es: P ( 6) =

e − µ µ x e −3 × 3 6 = = 0,0504 6! x!

La probabilidad de que haya dos operarios desocupados es por lo tanto 0,0504. Ejemplo 2:

Supóngase que número de clientes que llega a un banco sigue una distribución de Poisson, con una media de 36 clientes por hora. ¿Cómo será la distribución de probabilidad del número de clientes que llega cada 5 minutos? El promedio de clientes que llega cada 5 minutos será: µ =

36 × 5 = 3 clientes 60

Aplicando la fórmula, para x = 0, 1, 2, ... se obtiene: x 0 1 2 3 4 5 6 7 8 9 10 > 10 P(x) 0,0498 0,1494 0,2240 0,2240 0,1680 0,1008 0,0504 0,0216 0,0081 0,0027 0,0008 0,0003

Como se puede apreciar, ya resulta poco probable que en 5 minutos lleguen más de 6 clientes. 5.4.2 El valor esperado y la varianza.

Se demuestra que el valor esperado de una variable aleatoria con distribución de Poisson, es igual al parámetro µ. E ( x) =





x⋅

x =0

e−µ µ x ∞ e−µ µ x = x! x =1 ( x − 1)!



Haciendo el siguiente cambio de variable: s = x – 1 E ( x) =



∑ s =0

x⋅

∞ e − µ µ s +1 e−µ µ s =µ =µ s! s! s =0



Una característica de una variable con distribución de Poisson es que la varianza resulta igual al valor esperado. Esto se demuestra a continuación:

σ 2 = E(x 2 ) − µ 2

Distribuciones discretas de probabilidad 79

E(x 2 ) =





x2 ⋅

x =0

e−µ µ x ∞ e−µ µ x = x⋅ x! ( x − 1)! x =1



Haciendo el cambio de variable: x = s – 1 E(x 2 ) =





( s + 1) ⋅

s =0

∞ ∞ e − µ µ s +1 e−µ µ s e−µ µ s = µ s⋅ +µ = µ2 + µ ! ! s! s s s =0 s =0





Por lo tanto:

σ 2 =µ2 +µ −µ2 =µ En la figura 6.1 se muestran distribuciones de Poisson para distintos valores de µ. Para evitar superposiciones de barras, se han trazado gráficos continuos en vez de los clásicos gráficos de barras. 0.40 µ=1

0.35 0.30 µ=2

0.25 P(x)

µ=3 µ=4

0.20

µ=5 µ=7

0.15

µ=9

0.10 0.05 0.00 0

1

2

3

4

5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 Figura 6.1 Distribuciones de Poisson

5.4.3 Cálculo de probabilidades acumulativas de Poisson

Para calcular probabilidades acumulativas de Poisson se puede recurrir a algunas tablas, como la del apéndice (pág. 258), que ha sido elaborada para distintos valores de µ , que van desde 0,1 hasta 10, con incrementos de 0,1; y desde 11 hasta 20, con incrementos de 1. Ejemplo:

El número de órdenes de trabajo que llegan a una oficina es una variable con una distribución de Poisson. Si en promedio llegan 5 órdenes por hora, ¿cuál es la probabilidad de que en la próxima hora lleguen menos de 5 órdenes? Siendo µ = 5 P = P(0) + P(1) + ... + P(4) = =

e −5 5 x 0,4405 x! x =0 4



La probabilidad de que en la próxima hora lleguen menos de 5 órdenes es 0,4405.

80

Distribuciones discretas de probabilidad

5.4.4 Aproximación de la distribución binomial a la distribución de Poisson.

En el apartado 5.2.2 se vio que la probabilidad binomial es: P ( x) =

n (n − 1) (n − 2) ... (n − x + 1) x n − x n! p q p x qn− x = x! x!(n − x)!

Sustituyendo: p =

µ n x

P( x) =

n ( n − 1) ( n − 2) ... ( n − x + 1)  µ   µ    1 −  x! n  n

n− x

Dividiendo cada uno de los x factores del numerador entre n, resulta:  µx P ( x) =   x!

  1   2   µ n  µ − x  (1) 1 −  1 −  ... 1 −  1 −    n  n  n  n 

Cuando n tiende a infinito y p tiende a cero, de tal forma que np se mantiene constante, la probabilidad binomial P(x) tiende a:  µx  P ( x) =   e − µ  x!  Y esta es precisamente la probabilidad de Poisson definida en el apartado 5.4.1: P( x) =

e−µ µ x x!

Ejemplo:

En una fábrica, el 0,5% de la producción es defectuosa. ¿Cuál es la probabilidad de que haya menos de 5 defectuosos: a) en un lote de 2000 artículos? n = 2000; p = 0,005 µ = np = 10 P = P(0) + P(1) + ... P(4) = 0,0293 b) en un lote de 1000 artículos? n = 1000 ; p = 0,005 µ = np = 5 P = P(0) + P(1) + ... P(4) = 0,4405 5.4.5 La distribución de Poisson en Excel

La función POISSON de Excel permite calcular una probabilidad de Poisson específica o probabilidades acumulativas, para cualquier valor de µ. Aprovechando las bondades de Excel, es posible calcular todas las probabilidades P(x) que conforman una función de probabilidad de Poisson.

Distribuciones discretas de probabilidad 81

5.5 La distribución hipergeométrica. 5.5.1 La probabilidad hipergeométrica

A continuación se muestra un ejemplo donde se calcula la probabilidad de que, de una muestra de n elementos, una cantidad x cumpla con cierta característica, conociendo cuántos elementos de la población cumplen con dicha característica. A diferencia de la probabilidad binomial, que considera poblaciones muy grandes; en este caso se consideran poblaciones pequeñas, de tal manera que al seleccionar uno a uno los elementos de la muestra, la probabilidad de seleccionar cada elemento no es constante. Ejemplo:

Un fabricante de motores debe enviar un lote de 30 unidades de un modelo a un distribuidor. Por un problema con el material de un proveedor, en el lote hay 5 motores defectuosos. Si el proveedor selecciona aleatoriamente 6 motores para inspeccionarlos, ¿cuál es la probabilidad de que escoja dos motores defectuosos? Se va a calcular la probabilidad de que, de 25 motores buenos y 5 defectuosos, seleccione 3 buenos y 3 defectuosos. La probabilidad que el primer motor seleccionado sea bueno es: 25/30. La probabilidad que el segundo motor seleccionado sea bueno es: 24/29. La probabilidad que el tercer motor seleccionado sea bueno es: 23/28. La probabilidad que el cuarto motor seleccionado sea defectuoso es: 5/27. La probabilidad que el quinto motor seleccionado sea bueno es: 4/26. La probabilidad que el sexto motor seleccionado sea bueno es: 3/25. Entonces, aplicando el teorema generalizado de la multiplicación, la probabilidad de seleccionar 3 motores buenos y 3 defectuosos es:  25 24 23 5 4 3  6! P = ⋅ ⋅ ⋅ ⋅ ⋅  = 0,03874  30 29 28 27 26 25  3!3! Pero, si la muestra fuese más grande, resultaría mucho más práctico calcular esta probabilidad de la siguiente manera: P=

C (25, 3) × C (5, 3) = 0,03874 C (30, 6)

Es decir:  25   5      3 3 P =     30    6 Se puede notar que, de una población de N elementos donde k tienen la característica y N – k no la tienen, se ha calculado la probabilidad de que se extraiga una muestra de n elementos, de tal manera que x tengan dicha característica, y los restantes (n – x) no la tengan. A dicha probabilidad se le denomina probabilidad hipergeométrica: k  N − k      n   n − x   P ( x , n, N , k ) = N   n

82

Distribuciones discretas de probabilidad

5.5.2 La distribución hipergeométrica

Sea una variable aleatoria discreta X, que puede tomar los valores 0, 1, …, n. Se dice que X sigue una distribución hipergeométrica si P(x) es igual a:

k N − k      n  n − x  P ( x , n, N , k ) = N   n 5.5.2 La media y la varianza

La media y la varianza de la distribución hipergeométrica son: µ=

nk ; N

σ2 =

nk ( N − k )( N − n) N 2 ( N − 1)

Distribuciones discretas de probabilidad 83

Problemas propuestos. 1. Luego de una serie de experimentos se determinó que la probabilidad de que una tachuela caiga en cierta posición es de 0,45. ¿Cuál es la probabilidad de que, en un nuevo experimento se lance la tachuela 18 veces y caiga en dicha posición 5 veces o menos? 2. La probabilidad de un lanzamiento exitoso es igual a 0,8. Si se hacen lanzamientos sucesivamente, ¿Cuál es la probabilidad de que en el décimo lanzamiento ocurra el quinto éxito, luego en el decimoquinto lanzamiento ocurra el octavo éxito, y, finalmente, en el vigésimo lanzamiento ocurra el décimo éxito? 3. Un profesor de Estadística tiene una moneda deformada. Después de experimentar con ella, ha llegado a la conclusión de que si la lanza muchas veces, obtendrá el triple número de caras que de sellos. Si se lanza dicha moneda 20 veces, ¿cuál es la probabilidad de obtener más de 15 caras? 4. En general, el 40% de los estudiantes que ingresan a una universidad terminan satisfactoriamente la carrera. En un grupo de 18 recién ingresados escogidos aleatoriamente, ¿cuál es la probabilidad de que al menos el 75% termine la carrera satisfactoriamente? Respuesta: 0,0013 5. Supóngase que en cierta población el 55% son mujeres. Si una familia tiene 5 hijos. ¿Cuál es la probabilidad de que no todos sean del mismo sexo? Respuesta: 0,9312. 6. En un examen de Estadística conformado por 10 preguntas, sólo se debe contestar verdadero (V) o falso (F) en las 5 primeras, y escoger una de cinco respuestas en cada una de las 5 restantes. Si un alumno decide contestar todas las preguntas, al azar: a) ¿Cuál es el número esperado de respuestas correctas? Interprete este valor. Respuesta: Si el alumno repite este experimento muchas veces, en promedio tiende a contestar 3,5 preguntas correctamente. b) Si todas las preguntas tienen el mismo puntaje, y no hay descuentos por preguntas mal contestadas, ¿cuál es la probabilidad de aprobar? Respuesta: 0,08229 7. Una persona participa en un juego donde la probabilidad de ganar es 0,40. ¿Cuántas veces debe jugar si quiere que la probabilidad de ganar al menos 3 veces sea mayor que 0,80? Respuesta: Debe jugar más de 10 veces. 8. Un experimento consiste en realizar pruebas binomiales hasta que ocurran exactamente k éxitos. Si la probabilidad de éxito en cada prueba binomial es p, ¿cuál es la probabilidad de concluir dicho experimento con x fracasos? 9. En una empresa que vende artefactos domésticos se sabe que la oportunidad de vender es mayor mientras más contactos realicen con los clientes potenciales. Si la probabilidad de que una persona compre una lustradora después de la visita es constante e igual a 0,20, y si las visitas son independientes unas de otras, ¿cuántos clientes potenciales debe visitar un vendedor, para que la probabilidad de vender por lo menos una lustradora sea al menos 0,8? 10. En un juego de azar, la probabilidad de ganar es de 9/20. Un jugador participa en 20 juegos consecutivos, apostando un dólar en cada juego. a) ¿Cuál es la ganancia o pérdida esperada? Respuesta: Espera perder 2 dólares. b) ¿Cuál es la probabilidad de que su ganancia sea, por lo menos, tres dólares? Respuesta: 0,1308. 11. El número de clientes que llega a un banco es una variable aleatoria de Poisson. Si en promedio llegan 120 clientes por hora ¿Cuál es la probabilidad de que:

84

Distribuciones discretas de probabilidad

a) en un minuto lleguen por lo menos 4 clientes? b) en 5 minutos lleguen menos de 10 clientes? 12. El jefe del centro de cómputo de un banco afirma que la probabilidad de que las digitadoras pulsen la tecla de un carácter incorrectamente, es igual a 0,001. Bajo este supuesto, ¿cuál es la probabilidad de que, de 10 000 teclas pulsadas, se cometan más de 15 errores? 13. Se ha estimado que el 2% de los alumnos de la UDEP provienen de Morropón. ¿Cuál es la probabilidad de que, en una muestra de 400 alumnos, 15 sean de Morropón? 14. El número de errores que comete cierta secretaria al escribir una página, tiene una distribución de Poisson, con un promedio de 2 errores. Si escribe un trabajo de 75 páginas, ¿en cuántas páginas espera encontrar: a) un error? Respuesta: en 20,3 b) dos errores? Respuesta: en 20,3 c) tres errores? Respuesta: en 13,533 d) más de tres errores? Respuesta: en 10,717 15. En cierto distrito escolar donde hay 2 000 maestros, la proporción media de maestros ausentes por día escolar es de 0,5%. Determine la probabilidad de que un cierto día todos los maestros estén en su trabajo. 16. En general, el 1% de ciertas piezas son defectuosas. Si se compran 200, ¿cuál es la probabilidad de que haya menos de 8 defectuosas? Respuesta: 0,998903 17. El jefe de seguridad de una planta industrial dio a conocer el número de accidentes semanales ocurridos en los últimos años, mediante la siguiente tabla: N° de accidentes Frecuencia

0 0

1 3

2 9

3 18

4 27

5 31

6 34

7 27

8 21

9 14

10 8

11 5

12 2

13 1

a) ¿Se ajusta a una distribución de Poisson la distribución de frecuencias de accidentes semanales en dicha planta? b) ¿Qué probabilidad hay de cuatro a más accidentes semanales? Respuesta: Aproximadamente 0,8488 (con µ = 6) 18. Se encuentran en promedio 9,4 ralladuras por cada 10 m2 de planchas de acero que se producen en una fábrica. ¿Cuál es la probabilidad de que una plancha de 1 m2 no tenga ralladuras? 19. El inspector de productos terminados de una fábrica debe hacer una rápida inspección de una muestra de 8 unidades, extraída de un lote de 20 unidades. Si en el lote hay 3 unidades defectuosas a) ¿Cuál es la probabilidad de que no extraiga ninguna unidad defectuosa? b) ¿Cuántas unidades defectuosas espera extraer el inspector? 20. Un alumno contesta las 20 preguntas de un examen verdadero/falso lanzando una moneda (cara = verdadero; sello = falso). Cada pregunta bien contestada vale +1; mal contestada -0,5. a) ¿Cuál es la probabilidad de aprobar el examen? b) ¿Cuál es la nota esperada? c) Otro alumno que rinde este mismo examen ha estudiado lo suficiente como para afirmar que la probabilidad de acertar cualquier respuesta es 0,8. ¿Cuál es la probabilidad de que apruebe el examen, si también contesta las 20 preguntas? ¿Cuál es su nota esperada? 21. Una experta tiradora falla en el 5% de los tiros al blanco. ¿Cuál es la probabilidad de que falle por segunda vez en el tiro número 15?

Distribuciones discretas de probabilidad 85

22. El número promedio de descomposturas por mes de una PC es 1,8. Determine la probabilidad de que esta PC funcione durante un mes: a) sin descomposturas Respuesta: 0,1653 b) con al menos 3 descomposturas. Respuesta: 0,2694 23. Se selecciona una caja con 20 CDs producidos mediante un nuevo proceso. Si en esta caja se espera encontrar 2 CDs defectuosos, ¿cuál es la probabilidad de que haya más de dos CDs defectuosos? 24. La central telefónica de una empresa recibe un promedio de dos llamadas por minuto. Si la telefonista se distrae durante un minuto, ¿cuál es la probabilidad de que no haya respondido al menos una llamada? 25. Supóngase que el 90% de los cables que se producen en una fábrica soportan una tensión mayor que 200 Kg. ¿Cuál es la probabilidad de que, de una muestra de 6 cables: a) todos soporten una tensión mayor que 200 Kg? Respuesta: 0,5314 b) recién el quinto cable muestreado no soporte una tensión mayor que 200 Kg? Respuesta: 0,0656 26. El director de un centro de cómputo se pregunta si el número de solicitudes para acceso a una computadora sigue aproximadamente una distribución de Poisson. Para verificarlo, cuenta con los datos de la siguiente tabla: Nº de solicitudes de acceso por hora Frecuencia

0 1 2 3 4 55 61 50 32 18

5 9

6 5

7 2

8 1

9 y más 0

a) Verifique si la media y la varianza son similares. b) Determine las frecuencias que se esperaría tener si realmente el número de solicitudes para acceso a una computadora sigue una distribución de Poisson, y compárelas con las frecuencias reales 27. Suponga que el número de clientes que salen de un consultorio médico tiene una distribución de Poisson, con una media de 4,6 clientes por hora. Determine la probabilidad de que salgan más de 3 pacientes del consultorio en el lapso de media hora.

86

Distribuciones continuas de probabilidad

Capítulo 6. Distribuciones continuas de probabilidad 6.1 La función densidad de probabilidad. 6.1.1 Introducción

Dado un conjunto de datos que definen una variable aleatoria continua, se puede conformar una distribución de frecuencias agrupadas, cuyo histograma y polígono de frecuencias nos dan una idea clara de cómo se distribuye dicha variable aleatoria. Si el número de clases es pequeño, el polígono de frecuencias se verá claramente discontinuo como se ve en la figura 6.1; pero si el número de clases es muy grande, el polígono se parecerá más a una curva continua. f

f

x

x

Figura 6.1 Polígono de frecuencias cuando la longitud de clase decrece

El área bajo el polígono de frecuencias es Nk (N = nº de datos; k = longitud de clase). Dividiendo cada frecuencia fi entre Nk, se consigue que dicha área sea igual a 1, como se ve en la figura 6.2. f Nk

A=1 x Figura 6.2 Polígono de frecuencias con área igual a 1.

El área entre dos valores cualesquiera de X, por ejemplo a y b, representará la probabilidad de que la variable aleatoria X tome un valor que esté comprendido entre a y b. La función f(x), cuya gráfica es la curva límite que se obtiene a partir del polígono de frecuencias cuando la longitud de las clases tiende a cero, es decir, cuando el número de clases tiende a infinito, es la función densidad de probabilidad para la variable aleatoria continua X. 6.1.2 La función densidad de probabilidad.

Se define la función densidad de probabilidad como aquella función f(x), tal que:

Distribuciones continuas de probabilidad 87

1) f(x) ≥ 0,

para: – ∞ < x < ∞

+∞

2)

∫ f ( x) dx =1

−∞

b

3) P(a ≤ x ≤ b) =

∫ f ( x) dx a

donde a y b son dos valores cualesquiera, como se ve en la figura 6.3. f(x)

a

b

x

Figura 6.3 Probabilidad de que X tome un valor comprendido entre a y b.

Se deduce, a partir del gráfico, que la probabilidad de que X tome exactamente un valor xi es cero. Esto no significa que es imposible que X tome ese valor; sino que es muy poco probable. Por ejemplo, la probabilidad de que un alumno escogido al azar en un colegio, pese exactamente 65,3492 Kg., es prácticamente nula. Para las distintas variables aleatorias continuas que se puedan analizar en los distintos campos de la ciencia, se tendrán distribuciones cuyos polígonos de frecuencia serán muy parecidos a ciertas funciones densidad de probabilidad. El análisis de estas variables se simplifica enormemente empleando las funciones densidad de probabilidad que resulten más apropiadas. A partir de este capítulo se estudiarán algunas de éstas, como la función normal, uniforme, t de Student, Ji-cuadrada y F. 6.1.3 La media y la varianza.

A partir de las definiciones de valor esperado y varianza de una variable aleatoria discreta, y considerando la definición de la función densidad de probabilidad, se deduce que, para una variable aleatoria continua, el valor esperado y la varianza serán: +∞

µ =

∫ x ⋅ f ( x) dx

−∞

+∞

σ 2 = ∫ ( x − µ ) 2 f ( x) dx −∞

6.2 La distribución normal 6.2.1 La función densidad normal de probabilidad

En investigaciones realizadas sobre una gran cantidad de variables aleatorias continuas, se ha visto que éstas tienen una distribución bastante simétrica en forma de campana, como se ve en la figura 6.4. Se puede afirmar inclusive que la gran mayoría de medidas que se puedan tomar en cualquier proceso productivo tienen esta distribución simétrica en forma de campana, si el proceso está bajo control.

88

Distribuciones continuas de probabilidad

f(x)

x Figura 6.4 Histograma simétrico en forma de campana

Variables aleatorias como ésta, pueden analizarse tomando como modelo una función denominada función densidad normal de probabilidad. La función densidad normal de probabilidad es la siguiente: 1  x− µ   σ 

2

−  1 f ( x) = e 2 2π σ

Su representación gráfica, conocida como curva normal o "campana de Gauss", se muestra en la figura 6.5. f(x)

µ

x

Figura 6.5. Curva normal o campana de Gauss

La curva normal es simétrica y asintótica al eje x. Además, puede comprobarse, integrando la función f(x), que el área bajo la curva normal es igual a uno. Los parámetros µ y σ representan la media y la desviación estándar, respectivamente, de la variable aleatoria X, y determinan la posición y la forma (variabilidad) de la función f(x). En la figura 6.6 se puede apreciar cómo cambia la posición de la curva normal al variar la media. Se ve que: µ 1 < µ 2 < µ 3 ; y que las tres desviaciones estándar son iguales. f(x)

µ

1

µ

2

µ

3

Figura 6.6. Curvas normales con distinta media.

x

Distribuciones continuas de probabilidad 89

En la figura 6.7 se ve, en cambio, cómo cambia la forma de la curva al cambiar la desviación estándar. Evidentemente, si aumenta desviación estándar, la curva normal se hace más ancha, y por lo tanto más baja. Recuérdese que el área bajo cualquier curva normal es siempre igual a uno. Se puede apreciar que: σ 1 < σ 2 < σ 3 , y que las tres medias son iguales. f(x)

σ1 σ2 σ3 µ

x

Figura 6.7. Curvas normales con distinta desviación estándar 6.2.2 La forma estandarizada.

La ventaja de tomar la función densidad normal de probabilidad como modelo de muchas distribuciones está en la facilidad de calcular probabilidades. Si, por ejemplo, los pesos de las bolsas de detergente que llena una máquina automática tienen una distribución normal, con un promedio de 30 onzas y una desviación estándar de 0,3 onzas, se podría determinar, por ejemplo, qué porcentaje pesa menos de 29,5 onzas, es decir, cuál es la probabilidad de que una bolsa pese menos de 29,5 onzas. Considerando la diversidad de variables cuya distribución es normal, se hace necesario emplear una función densidad normal que sea independiente de los valores y unidades que puedan tomar dichas variables. Para esto, se define la variable estandarizada, Z, de la siguiente forma: z=

x− µ σ

Esta variable estandarizada mide el número de desviaciones estándares que un valor de X se desvía de la media µ. Del ejemplo anterior, si una bolsa de detergente pesa 30,45 onzas, se puede afirmar que se desvía de la media 0,45 onzas, o sea, z = (30,45 – 30)/0,30 = 1,5 desviaciones estándar. Para esta variable estandarizada, se define la función densidad normal estandarizada, cuya representación gráfica, conocida como curva normal estandarizada, se aprecia en la figura 6.8. φ (z)

φ( z ) =

1 2π

e

1 − z2 2

z

Figura 6.8. Curva normal estandarizada.

90

Distribuciones continuas de probabilidad

El área bajo la curva normal estandarizada es también igual a uno; la media es cero y la desviación estándar uno. Esto último puede verificarse fácilmente aplicando los teoremas 4, 5 y 6 del apartado 4.5. El empleo de esta forma estandarizada ha permitido construir una única tabla para calcular probabilidades, en vez de hacerlo para cada una de las infinitas funciones densidad normal de probabilidad que existen. En la figura 6.9 se muestran tres curvas normales con medias 50, 100 y 150, y desviaciones estándar 10, 20 y 10, respectivamente. Para cada curva se ha señalado un valor de X que se desvía de su respectiva media 1,5 desviaciones estándar (z = 1,5). A la derecha se muestra la curva normal estandarizada que representa a las tres curvas normales, con el valor de z correspondiente. φ (z)

f(x)

50

100

65

130

150

165

z

1,5

x

Figura 6.9. Representación de tres curvas normales mediante la curva normal estandarizada. 6.2.3 Áreas bajo la curva normal.

La probabilidad de que X esté comprendido entre dos valores x1 y x2 es igual al área que hay entre dichos valores, bajo la curva normal, y es igual al área comprendida entre sus correspondientes valores z1 y z2, bajo la curva normal estandarizada. Así, por ejemplo, en la figura 6.9, el área que hay a la derecha de 65, 130 y 165, bajo cada una de las tres curvas normales, es la misma, y corresponde al área que hay hacia la derecha de z = 1,5 bajo la curva normal estandarizada. Para calcular áreas bajo esta última curva se puede recurrir a la tabla del apéndice (pág. 264), que permite hallar el área que hay desde cualquier valor no negativo de Z hasta infinito. Cualquier otra área puede deducirse a partir de dicha tabla, que aquí se presenta en forma resumida: z 0,0 0,1 0,2 ... 0,9 ... 4,8 4,9

0,00

0,01

0,02

0,03

0,04

0,05

0,06

0,07

0,08

0,09

0,500000 0,460172 0,420740

0,496011 0,456205 0,416834

0,492022 0,452242 0,412936

0,488033 0,448283 0,409046

0,484047 0,444330 0,405165

0,480061 0,440382 0,401294

0,476078 0,436441 0,397432

0,472097 0,432505 0,393580

0,468119 0,428576 0,389739

0,464144 0,424655 0,385908

...

...

...

...

...

...

...

...

...

...

0,184060

0,181411

0,178786

0,176186

0,173609

0,171056

0,168528

0,166023

0,163543

0,161087

...

...

...

...

...

...

...

...

...

...

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

0,000001 0,000000

Por ejemplo, el área que hay desde z = 0,24 hacia la derecha es 0,405165; el área que hay desde z = 0,90 hacia la izquierda es 1 – 0,184060 = 0,815939. 6.2.4 Ordenadas de la curva normal.

Empleando una tabla similar a la anterior, que se muestra en el apéndice (pág. 265), se pueden determinar las ordenadas de la curva normal estandarizada, para ciertos valores de la variable Z. Esto resulta de mucha utilidad para trazar curvas normales, como se verá más adelante.

Distribuciones continuas de probabilidad 91 6.2.5 Propiedades de la curva normal.

La curva normal es simétrica y asintótica al eje de abscisas (X o Z). Presenta: • un máximo para x = µ , (z = 0) • puntos de inflexión para: x = µ – σ , (z = –1) x = µ + σ , (z = +1) Usando la tabla normal del apéndice (página 264), se puede determinar que: µ+σ



1



f ( x)dx = φ( z )dz = 0,6826

µ−σ

−1

µ + 2σ

2

µ − 2σ

−2

µ + 3σ

3

∫ f ( x)dx = ∫ φ( z)dz = 0,9544





f ( x)dx = φ( z )dz = 0,9974

µ −3 σ

−3

Estas áreas nos dan una buena idea de cómo es una distribución normal. La primera integral nos indica que el 68,26% de los datos de una población normal se alejan de la media una cantidad menor que una desviación estándar. La segunda integral nos indica que el 95,44% de los datos de una población normal se alejan de la media una cantidad menor que dos desviaciones estándar. La tercera integral nos indica que el 99,74% de los datos de una población normal se alejan de la media una cantidad menor que tres desviaciones estándar. En la figura 6.10 se muestran estas áreas características.

f(x)

µ−3σ

µ−2σ

µ−σ

0,6826

µ+σ

µ+2σ

µ+3σ

x

0,9544 0,9974

Figura 6.10. Áreas características bajo la curva normal

De esto último se puede afirmar que, con muy buena aproximación, casi el 100% de los datos de una distribución normal están comprendidos entre µ – 3σ y µ + 3σ. Ejemplos

1) La cantidad de arroz que una máquina vierte en sacos de 50 Kg. se considera como una variable aleatoria con una distribución normal cuya media es 51,5 Kg., y su desviación estándar 700 g. ¿Qué porcentaje de sacos estima que pesan menos de 50 Kg?

92

Distribuciones continuas de probabilidad

µ = 51,5 kg. σ = 0,70 kg. z=

50 − 51,5 = − 2,14 0,70

A = 0,0162

48.5 49 49.5 50 50.5 51 51.5 52 52.5 53 53.5 54 54.5

Respuesta: se estima que el 1,62% de los sacos de arroz pesan menos de 50 Kg. 2) La demanda mensual de cierto producto tiene una distribución normal con una media de 200 unidades y una desviación estándar de 40 unidades. ¿Qué tan grande debe ser el inventario disponible a principio de un mes para que la probabilidad de que la existencia se agote no sea mayor de 0,05?

µ = 200 unidades 0

σ = 40 unidades

100

200

xd

300

400

Para que la existencia xd se agote, la demanda debe ser mayor o igual que xd, y la probabilidad de que esto ocurra debe ser menor de 0,05. z 0,05 = 1,645 =

x d − 200 ; 40

xd = 265,8

Respuesta: debe tener un inventario de 266 unidades a principio de mes. 6.2.6 Aproximación a la distribución binomial.

A continuación se muestra cómo determinadas distribuciones binomiales se aproximan a una distribución normal, a tal punto que puede ser sustituida por ésta en situaciones en que el manejo de la distribución binomial se torna complicado para el cálculo de probabilidades acumulativas. En la figura 6.11 se muestra el histograma binomial para una distribución con n = 10 y p = 0,5; véase que hay simetría gracias a que p es igual a q. Nótese que se parece mucho a una curva normal. f(x) 0.3 0.25 0.2 0.15 0.1 0.05 0

x 0

1

2

3

4

5

6

7

8

9

10

Figura 6.11. Histograma binomial para n = 10 ; p = 0,5

Distribuciones continuas de probabilidad 93

Para una distribución binomial con n = 10 y p = 0,1 el histograma binomial resulta bastante asimétrico, como se ve en la figura 6.12. f(x) 0.5 0.4 0.3 0.2 0.1 0

x 0

1

2

3

4

5

6

7

8

9

10

Figura 6.12. Histograma binomial para n = 10; p = 0,1.

En esta última distribución binomial, con n = 10 y p = 0,1, el histograma binomial resulta menos simétrico que el anterior porque p y q difieren mucho; sin embargo, para n = 60 y p = 0,1 el histograma binomial es casi simétrico a pesar de la diferencia entre p y q, como se muestra en la figura 6.13. f(x) 0.2 0.15 0.1 0.05 0

x 0

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16

Figura 6.13. Histograma binomial para n = 60; p = 0,1

Se ha podido apreciar que mientras más cercanos estén los valores de p y q a 0,5, y mientras más grande sea n, más simétrico resulta el histograma binomial y más se parece a una curva normal. Por experiencia, se ha determinado que si se cumplen las siguientes condiciones: np > 5 ; nq > 5 la aproximación de la distribución binomial a la distribución normal es buena. Cuando se emplee la distribución normal para calcular probabilidades binomiales, será necesario aplicar un factor de corrección. Si se desea calcular, por ejemplo, la probabilidad (binomial) de que X esté comprendido entre x1 y x2 (incluidos), como se muestra en el histograma binomial de la figura 6.14, se tendrá que sumar las áreas de cada uno de los rectángulos sombreados. En dicha figura se aprecia que el área total sombreada se aproxima mucho al área bajo la curva normal comprendida entre (x1 – 0,5) y (x2 + 0,5). Como se ve, se emplea un factor de corrección de + 0,5 cuando se quiere calcular un área desde cierto valor de X hacia la izquierda, o de – 0,5 cuando se quiere calcular un área desde cierto valor de X hacia la derecha.

94

Distribuciones continuas de probabilidad

y

x1 x1 - 0,5

x

x2 x2 + 0,5

Figura 6.14. Aplicación del factor de corrección

La curva normal que se está ajustando tiene la misma media y desviación estándar que la distribución binomial; es decir:

µ = np σ = npq

La variable estandarizada para dicha distribución normal será, entonces:

z=

x ± 0,5 − np npq

Ejemplo:

Un distribuidor compra pernos a un fabricante que afirma que tiene un máximo de 5% de defectuosos. Ante la duda, decide probar si esto es cierto y toma una muestra aleatoria de 120 pernos. ¿Cuál es la probabilidad de que encuentre al menos 10 defectuosos?

µ = 120(0,05) = 6 pernos

σ = 120 × 0,05 × 0,95 = 2,387 pernos. z=

10 − 0,5 − 6 = 1,47 2,387

A = 0,0708

Respuesta: La probabilidad de que encuentre al menos 10 pernos defectuosos en una muestra de 120 pernos es 0,0708. 6.2.7 Ajuste de la curva normal.

Si se sospecha que una variable aleatoria tiene una distribución aproximadamente normal, se puede conseguir una buena cantidad de datos de dicha variable y construir un histograma; y, sobre éste, trazar la curva normal que más se le ajuste.

Distribuciones continuas de probabilidad 95

Para trazar esta curva normal se estima que la media y la desviación estándar del conjunto de datos corresponden a µ y σ, respectivamente. Luego, para las marcas de clase del histograma se determinan las frecuencias normales siguiendo los siguientes pasos: 1) Determinar los zi para cada marca de clase xi, haciendo: zi =

xi − µ

σ

2) Determinar los φ(zi) empleando la tabla del apéndice (página 265). 3) Determinar los f(xi), haciendo: f(xi) = φ(zi) /σ 4) Determinar finalmente las frecuencias normales f 'i, a partir de: f 'i = f(xi)(nk) donde n es la suma de frecuencias y k la longitud de clase del histograma. Una vez trazada la curva normal sobre el histograma, se puede determinar, por simple inspección, si la variable aleatoria tiene una distribución aproximadamente normal. Más adelante se verá un método analítico (prueba de bondad de ajuste con la distribución Ji-cuadrada) que determinará si este ajuste es aceptable o no. Ejemplo:

En un análisis de los diámetros de los pistones fabricados en un taller, se tomó una muestra de 140 pistones, cuya distribución de frecuencias se muestra en la siguiente tabla. Trace la curva normal que más se ajuste a dicha distribución. Límites 7,20 – 7,24 7,25 - 7,29 7,30 - 7,34 7,35 - 7,39 7,40 - 7,44 7,45 - 7,49 7,50 - 7,54 7,55 - 7,59 7,60 - 7,64 7,65 - 7,69

Frecuencia 3 7 12 16 19 24 22 19 12 6

La media y la desviación estándar de dicha muestra son: x = 7,466; s = 0,1101. Se estima que estos dos valores se aproximan a µ y σ, respectivamente. Siguiendo los pasos establecidos previamente, se construye la siguiente tabla. Por comodidad, los valores de z se han redondeado a dos cifras decimales, evitando así el tener que interpolar en la tabla de ordenadas de φ(z). x 7,22 7,27 7,32 7,37 7,42 7,47 7,52 7,57 7,62 7,67 7,72

z -2,24 -1,78 -1,33 -0,88 -0,42 0,03 0,49 0,94 1,39 1,85 2,30

φ (z) 0,0325 0,0818 0,1647 0,2709 0,3653 0,3988 0,3538 0,2565 0,1518 0,0721 0,0283

f (x) 0,2947 0,7430 1,4958 2,4593 3,3164 3,6206 3,2125 2,3287 1,3786 0,6543 0,2572

f' 2,06 5,20 10,47 17,22 23,22 25,34 22,49 16,30 9,65 4,58 1,80

Para el cálculo de las f ' se ha considerado que n = 140 y k = 0,05, siendo n el tamaño de la muestra y k la longitud de clase.

96

Distribuciones continuas de probabilidad

En la siguiente figura se traza la curva normal que más se ajusta al histograma que representa la distribución de los diámetros de los pistones. 30

25

20

15

10

5

0 7.22

7.27

7.32

7.37

7.42

7.47

7.52

7.57

7.62

7.67

7.72

Se puede concluir que los diámetros de los pistones tienen una distribución aproximadamente normal.

6.3 La distribución uniforme continua Una variable aleatoria continua, X, tiene una distribución uniforme continua si su función densidad de probabilidad es:

 1 para a < x < b  f ( x) =  b − a  0 en los demás casos donde: a y b son constantes y a < b. En la figura 6.15 se muestra esta función densidad de probabilidad, donde resulta evidente que b 1 dx = 1 el área total bajo dicha función es igual a uno, es decir, b−a a



f(x)

1/(b-a)

a

b

Figura 6.15. Distribución uniforme continua

x

Distribuciones continuas de probabilidad 97

A partir de las fórmulas del apartado 6.1.3, se obtienen, por integración, la media y la varianza de esta variable aleatoria continua con distribución uniforme: µ=

a+b 2

σ2 =

(b − a) 2 12

Ejemplo 1:

La cantidad de café que despacha diariamente una máquina ubicada en la sala de espera del aeropuerto de Piura está distribuida uniformemente entre 6 y 10 litros. a) Determine la probabilidad de que hoy día se despache un máximo de 9,2 litros. 9,2 − 6 = 0,8 10 − 6 b) ¿Cuántos litros se espera que despache un día? P ( X ≤ 9,2) =

µ=

10 + 6 = 8 litros 2

Ejemplo 2:

Ricardo y Eduardo se ponen de acuerdo para encontrarse en la puerta Nº 1 del estadio entre la 1:00 y la 2:00 p.m. Si cada uno no esperará al otro más de 10 minutos y Ricardo llega a la 1:20 p.m., ¿cuál es la probabilidad de que se encuentren? Como Ricardo estará en la puerta del estadio entre la 1:20 y la 1:30, Eduardo debe llegar entre la 1:10 y la 1:30 p.m. La probabilidad de que se encuentren será entonces: P=

20 1 = = 0,333 60 3

98

Distribuciones continuas de probabilidad

Problemas propuestos. 1. Una máquina está programada para llenar recipientes con 20 onzas de líquido. Sin embargo, se sabe que la variabilidad inherente a cualquier tipo de máquina es la causa de que las cantidades de contenido sean distintas de recipiente a recipiente. La distribución de dichos contenidos es normal con una desviación estándar de 0,02 onzas. ¿Cuál debe ser la cantidad media de llenado para que sólo el 4% de los recipientes reciban menos de 20 onzas? Respuesta: 20,035 onzas. 2. Un estudiante de Estadística ha comprobado que los pesos y las estaturas de los alumnos de la UDEP siguen distribuciones aproximadamente normales con media y desviación estándar de 72 Kg, 4,6 Kg. y 1,74m; 0,08 m. respectivamente. Determine la probabilidad de que un grupo de 10 alumnos escogidos aleatoriamente, la mayoría esté por encima de 70 Kg. y 1,70 m. 3. Suponga que los índices acumulados de los alumnos de la Facultad de Ingeniería están distribuidos normalmente alrededor de 12,50. Si el 75% de estos índices están comprendidos entre 9,5 y 15,5, ¿Qué porcentaje de alumnos tendrá índice aprobado? (índice ≥ 11). 4. La demanda mensual de cierto producto A tiene distribución normal con una media de 200 unidades y desviación estándar igual a 40 unidades. La demanda de otro producto B también tiene una distribución normal con media de 500 unidades y desviación estándar igual a 80 unidades. Un comerciante que vende estos productos tiene en su almacén 280 unidades de A y 650 de B al comienzo de un mes. ¿Cuál es la probabilidad de que en el mes se vendan todas las unidades de ambos productos? 5. Una fábrica produce pistones cuyos diámetros no tienen la precisión deseada. Se ha encontrado que los pistones tienen un diámetro que oscila alrededor de 5 cm. con una desviación estándar de 0,001 cm. El control de calidad ha determinado que si el diámetro del pistón es menor que 4,998 se desecha, y si es mayor que 5,002 se puede reprocesar. ¿Qué porcentaje de pistones se aceptan inmediatamente? 6. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4008 pulgadas y desviación estándar 0,0020 pulgadas. Los límites de especificación están dados como 0,4000 ± 0,0010 pulgadas. ¿Cuál es el porcentaje de unidades defectuosas? Respuesta: 64,43% 7. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4002 pulgadas. Los límites de especificación están dados como 0,4000 ± 0,0010 pulgadas. ¿Cuál es la máxima desviación estándar aceptable que permitirá no más de un defectuoso de cada mil producidos? Respuesta: 0,000097 pulgadas. 8. Las estaturas de 200 empleados se distribuyen así: Estaturas en pulgadas 57,5 - 60,5 60,5 - 63,5 63,5 - 66,5 66,5 - 69,5 69,5 - 72,5 72,5 - 75,5 75,5 - 78,5 TOTAL

Frecuencia observada 9 20 45 55 43 17 11 200

Determine la curva normal que más se ajuste a esta distribución. 9. Una máquina troqueladora produce tapas de latas cuyos diámetros están normalmente distribuidos, con una desviación estándar de 0,01 pulgadas. ¿En qué diámetro "nominal" promedio debe ajustarse la máquina de tal manera que no más del 5% de las tapas producidas tengan diámetros que excedan las 3 pulgadas?

Distribuciones continuas de probabilidad 99

Respuesta: 2,98355 pulgadas. 10. La puntuación media de un examen fue 72 y la desviación media 8. De un total de 90 alumnos, a los 18 mejores se les quiere dar la calificación A. ¿Cuál es el puntaje mínimo que un alumno debe tener para recibir un A? Suponga que los puntajes obtenidos se distribuyen normalmente. Respuesta: 78,72. 11. Suponga que la lluvia anual que cae en el Departamento de Piura es una variable distribuida normalmente con un promedio de 75,4 mm. y desviación estándar 4,2 mm. a) ¿Cuál es la probabilidad de que se tenga un año con más de 85 mm? Respuesta: 0,011 b) ¿Se podrá admitir un pronóstico de más de 100 mm. para el próximo año? Explique. Respuesta: Se puede admitir, pero es muy poco probable. 12. Una academia pre-universitaria de mucho prestigio cuenta con tres aulas A, B y C con capacidades para 50, 70 y 80 alumnos, para Ingeniería. Como se han presentado 500 alumnos, se les ha hecho rendir un examen de ingreso. Los puntajes obtenidos por los 500 alumnos se distribuyen normalmente con media 151 y desviación estándar 85. Si se desea seleccionar a los mejores en las aulas A, B y C sucesivamente, ¿qué puntajes se deben establecer como mínimos para ingresar a cada aula? Respuesta: 260 para A, 211 para B y 172 para C. 13. Suponga que los promedios de prácticas de los alumnos de Estadística están distribuidos normalmente alrededor de 12. Si el 95% de estos promedios están comprendidos entre 09 y 15. ¿Qué porcentaje de alumnos estarán aprobados? (Nota aprobatoria mínima: 10,5) Respuesta: 83,65% 14. Los postulantes a una Escuela Militar tienen estaturas que se distribuyen normalmente alrededor de 1,72m., con una desviación estándar de 0,04m. Las calificaciones que obtuvieron se encuentran distribuidas también normalmente alrededor de 220 puntos, con una desviación estándar de 65. Si se desea que ingresen 200 postulantes de un total de 880, con una estatura mínima de 1,70m., ¿cuál debe ser la calificación mínima para ingresar? Respuesta: 249. 15. Suponga que se ha medido el nivel intelectual en la escala para preescolar y primaria WPPSI de Wechsler en Piura (la máxima puntuación posible es 50), y se llegó a afirmar que tal medida sigue una distribución muy aproximada a la distribución normal con media 24 y desviación estándar 6,5. a) ¿Qué porcentaje de la población piurana tiene un nivel intelectual mayor a 40? b) ¿Cuál es la probabilidad de que un alumno de primaria de Piura escogido al azar tenga un nivel intelectual comprendido entre 10 y 20? 16. La cantidad real de café instantáneo que coloca una máquina llenadora en bolsas se puede considerar como una variable aleatoria distribuida normalmente con desviación estándar 0,04 onzas. Un requerimiento importante es que sólo el 2% de las bolsas contengan menos de 6 onzas de café. ¿Cuál debe ser el contenido medio de las bolsas? 17. Los diámetros de unas piezas mecánicas están distribuidos normalmente con media 0,4001 pulgadas. Los límites de especificación están dados como 0,4000 ± 0,06 pulgadas. ¿Cuál es la máxima desviación estándar aceptable que permitirá no más de un defectuoso de cada diez producidos? Respuesta: 0,000289 pulgadas. 18. Una empresa que tiene una flota de autos de alquiler ha averiguado que la duración de las zapatas del freno tiene una distribución normal, con una media de 88 000 Km. y una desviación estándar de 7 200 Km. ¿Cuál es la probabilidad de que, de 8 zapatas, al menos 5 duren más de 100 000 Km?

100

Distribuciones continuas de probabilidad

19. En una fábrica de cables eléctricos, un tipo de cable tiene las siguientes especificaciones: diámetro nominal: 8,50 mm.; diámetro mínimo: 8,28 mm.; diámetro máximo: 8,72 mm. Se selecciona una muestra de 800 cables, obteniéndose un diámetro promedio de 8,58 mm. y una desviación estándar de 0,10 mm. a) ¿Cuántos cables se espera que no cumplan con las especificaciones? b) Si ajustando la maquinaria se consigue cambiar el diámetro promedio, manteniendo constante la desviación estándar, ¿cuál es el mínimo porcentaje de cables defectuosos que se puede conseguir? c) ¿Qué se debe hacer para reducir a cero el porcentaje de cables defectuosos? 20. Considerando que existen 10 dígitos, halle la probabilidad de que, de 100 000 elecciones aleatorias, el dígito 6 salga al menos 9 971 veces. 21. Una persona que viaja diariamente a su trabajo en ómnibus hace un trasbordo. Tanto en la parada frente a su casa como en la parada donde hace el trasbordo, el tiempo de espera está distribuido uniformemente entre 0 y 10 minutos. ¿Cuál es la probabilidad de que, de los 20 viajes que hace en un mes, en menos de 5 viajes la espera total no supere los 15 minutos? Ayuda: para calcular la probabilidad de que en un viaje el tiempo de espera no supere los 15 minutos, trace cada tiempo de trasbordo en cada eje del sistema de coordenadas cartesianas. 22. Un fabricante de insecticidas asegura que el 85% de los zancudos que son rociados por su producto, mueren ¿Cuál es la probabilidad de que en una sala con 200 zancudos se aniquilen al menos 150 zancudos con este insecticida? 23. Supóngase que el 65% de los gerentes en el Perú tienen un grado de maestría. Si se toma una muestra de 100 gerentes, ¿cuál es la probabilidad de que haya menos de 50 que tengan grado de maestría?

Distribuciones de proporciones 101

Capítulo 7. Distribuciones de proporciones 7.1 La distribución multinomial. Ejemplo:

El 30% de todos los vehículos que llegan por una calle a cierta intersección, giran hacia la izquierda, el 20% giran a la derecha y el 50% restante siguen derecho. Si en un determinado momento se encuentran en dicha intersección 8 autos detenidos por la luz roja del semáforo ¿cuál es la probabilidad de que 3 giren hacia la izquierda, 2 giren a la derecha y 3 sigan de frente? Aplicando el teorema generalizado de la multiplicación, y considerando independencia entre lo que hagan los conductores: 8! 3! 2!3! Se puede generalizar esta fórmula de probabilidad para los casos en que, de una muestra de n elementos, x1 tengan cierta característica, x2 tengan otra característica,..., y xk tengan otra característica; siendo p1 , p2 ,..., pk , las probabilidades de que un elemento tenga cada una de las características mencionadas, de tal forma que ∑xi sea igual a n, y ∑ pi sea igual a 1. Entonces: P = (0,3) 3 (0,2) 2 (0,5) 3

P=

n! ( p1 ) x1 ( p 2 ) x2 ... ( p k ) xk x1! x 2 !... x k

es denominada probabilidad multinomial, por parecerse mucho a la probabilidad binomial, con la diferencia de que presenta k posibilidades para cada elemento de la muestra, en lugar de dos. A la distribución conjunta de x1, x2, ..., xk, se le conoce como distribución multinomial. Considerada en forma independiente, cada variable Xi es binomial con parámetros pi y n; por lo tanto tiene un valor esperado igual a npi y una varianza igual a npi(1 – pi).

7.2 La distribución de una proporción. Si la variable binomial X, que representa el número de elementos de una muestra de tamaño n que poseen cierta característica, se divide entre n, resulta otra variable aleatoria, X/n, que representa la proporción de elementos de la muestra, que tienen dicha característica. A la proporción de elementos de la población que poseen tal característica se le denomina p. Se ha visto que la variable estandarizada: z=

x ± 0,5 − np npq

se distribuye normalmente cuando np y nq > 5. Si se divide cada término de la fracción entre n, resulta lo siguiente: x 1 1 ± − p p1 ± −p n n n 2 2 z= = pq pq n n

102

Distribuciones de proporciones

donde a la proporción X/n se le ha denominado p1. Esta última expresión nos dice que la proporción p1 se distribuye normalmente alrededor de p, con desviación estándar igual a pq / n . En la figura 7.1 se muestra esta distribución normal.

p1

p

Figura 7.1. Distribución de p1 alrededor de p.

Es importante resaltar que esta nueva variable p1 es discreta, aunque no tome valores enteros. Como se puede deducir, la desviación estándar disminuye al aumentar el tamaño de la muestra, lo cual se expresa en la figura 7.2, donde σ 1 < σ 2 < σ 3.

σ1 σ2 σ3 p

p1

Figura 7.2. Disminución de la variabilidad al aumentar el tamaño de la muestra

Se deduce fácilmente que al aumentar el tamaño de la muestra, es decir, al disminuir la variabilidad de p1, los valores de p1 que se puedan obtener estarán más cerca de p, lo cual equivale a afirmar que se reduce el error de estimación, conocido como error muestral, e. e = p1 – p Ejemplo:

En la fabricación de cierto tipo de pernos se ha determinado que, en promedio, el 15% de la producción no es de calidad óptima. Ante esta situación, el jefe de mantenimiento decidió hacer algunos cambios en el proceso de producción, con el propósito de bajar considerablemente dicho porcentaje. Suponiendo que los cambios que se hizo no hubieran bajado el porcentaje de productos que no son de calidad óptima, ¿cuál es la probabilidad de que en una muestra de 200 pernos se encuentre que el porcentaje que no son de calidad óptima sea del 10% o menos?

Distribuciones de proporciones 103

En primer lugar, se verifica si la distribución de p1 es aproximadamente normal: np = 200(0,15) = 30 > 5 nq = 200(0,85) = 170 > 5

σ=

z=

p1 es aproximadamente normal

0,15 × 0,85 = 0,0252 200 0,10 −

1 − 0,15 2 × 200 = − 2,08 0,0252

P = 0,0188

Como se puede ver, es muy poco probable que en una muestra de 200 pernos se encuentre que el porcentaje que no son de calidad óptima sea del 10% o menos; por lo tanto se puede concluir que es muy probable que el verdadero porcentaje de pernos que no son de calidad óptima ya no sea 15% sino menor.

7.3 Determinación del tamaño de una muestra en poblaciones infinitas 7.3.1 Determinación del tamaño de una muestra para estimar una proporción de una población infinita

Generalmente se desea determinar proporciones (o porcentajes, que es lo mismo) poblacionales que resultan de interés para las fábricas, empresas, o para la sociedad; pero esto no es posible porque las poblaciones de interés suelen ser muy grandes. Por ejemplo, se desea saber: • • • • •

El porcentaje de productos defectuosos que elaboran en una fábrica. El porcentaje de clientes que no están satisfechos con el servicio que dan en un banco. El porcentaje de ciudadanos que aprueban la gestión del presidente de un país. El porcentaje de familias que consumen un determinado jabón. El porcentaje de familias que ven un determinado programa de TV.

Como no es posible determinar con precisión tales porcentajes (o proporciones), porque se necesitaría invertir mucho dinero y/o tiempo para encuestar a toda la población, se recurre a la estimación de dicha proporción poblacional, extrayendo una muestra de la población y calculando la proporción muestral correspondiente. Por ejemplo, para estimar el porcentaje de familias de Piura que compran un determinado jabón, bastará con extraer una muestra de 400 familias y encuestarlas. Si hay 75 familias que lo compran, la proporción muestral será:

x 75 p1 = = = 0,1875 = 18,75% n 400 Pero este es el porcentaje de familias de la muestra que compran ese jabón, que puede ser una buena estimación del porcentaje de familias de Piura que compran dicho jabón. Se dice que p1 es un estimador puntual de p. Lógicamente, mientras más grande sea la muestra, p1 será mejor estimación de p. ¿Pero qué tan grande debe ser la muestra? La respuesta lógica será: lo más grande que sea posible. ¿Y hasta cuánto será posible? Esto dependerá del presupuesto y tiempo disponibles. Generalmente, para definir el tamaño de una muestra el interesado se fija los siguientes parámetros, limitados por el dinero y tiempo disponibles. Confiabilidad

Cuando se quiere hacer una estimación de una proporción poblacional, el interesado quiere tener cierta probabilidad de acertar, es decir, cierta confiabilidad. Por ejemplo, puede querer estar 95% seguro de acertar el verdadero valor de la proporción poblacional. Tal estimación se hace

104

Distribuciones de proporciones

dando un rango, dentro del cual debería estar la proporción poblacional. Para tener dicha confiabilidad necesitará elegir un determinado tamaño de muestra. Si quisiera una confiabilidad mayor, necesitará, lógicamente, una muestra más grande. Error muestral

A la diferencia entre la proporción muestral hallada y la verdadera proporción poblacional (desconocida) se le llama error muestral. e = p1 – p Cuando se quiere estimar una proporción poblacional, el interesado quiere aproximarse lo más que pueda a dicha proporción. Lógicamente, mientras más grande sea la muestra, más se acercará a la proporción poblacional, y por lo tanto menor será el error muestral. Si la población es bastante grande (N → ∞), la muestra será lo suficientemente grande y entonces: np y nq > 5; por lo tanto p1 se distribuiría normalmente alrededor de p, como se ha visto anteriormente. Para efectos prácticos, se suele considerar infinita una población conformada por 100 000 elementos ó más. Ejemplo:

En la figura 7.3 se representa la distribución de una proporción muestral p1 cuando se quiere estimar una proporción poblacional p con una confiabilidad del 95% de que el error muestral no supere el 5%.

95%

p

p - 0,05

p + 0,05

p1

Figura 7.3. Estimación de p con 95% confiabilidad de un error muestral máximo del 5%

Como se ve en la figura 7.3, el máximo error muestral que se desea cometer es 5%. Entonces, en general, para p1 = p + emax la variable estandarizada será:

z=

p1 − p pq n

=

emax pq n

No se ha considerado el factor de corrección ± 1/2n pues resulta despreciable para muestras grandes, como las que se emplean cuando se requiere al menos una confiabilidad del 95% y un error muestral máximo de 5%. De esta última expresión se puede despejar n, es decir, el tamaño de la muestra:

Distribuciones de proporciones 105

z 2 pq n= 2 emax Donde:



z: queda determinado por la confiabilidad que se desee. Con la ayuda de la tabla que proporciona áreas bajo la curva normal, se puede determinar el valor de la variable estandarizada z que corresponde a una determinada confiabilidad. Por ejemplo, para una confiabilidad del 95%, el área de la cola derecha a partir de (p + emax) es 0,025; a esta área le corresponde un valor de z = 1,96



pq: será 0,25 en el peor de los casos. (el máximo valor que puede tener pq es 0,25).



emax : es el máximo error muestral que se está dispuesto a cometer.

Si se define el tamaño de una muestra y la confiabilidad, el error muestral se obtiene fácilmente, despejando emax:

emax = z

pq n

Ejemplo 1:

¿Cuál será el tamaño de muestra necesario para estimar el porcentaje de familias de Piura que compran un determinado jabón, si se quiere tener una confiabilidad del 95% de que el error muestral no supere el 5%?

n=

z 2 pq 1,96 2 × 0,25 = = 384,16 2 emax (0,05) 2

Será necesario entonces entrevistar a 385 familias. (Nótese que con n = 384 el error muestral superaría el 5%). O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de Piura compraran cierto jabón, y, si con una muestra de 385 familias se determina, por ejemplo, p1 = 0,1875 = 18,75%, entonces el error muestral sería: e = 0,1875 – 0,20 = – 0,0125 = – 1,25% El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de familias de Piura que consume dicho jabón es:

p = 18,75% ± 5% Como resultado de dicha encuesta se afirma entonces que, con una confiabilidad del 95%, el porcentaje de familias de Piura que consume dicho jabón está comprendido entre 13,75% y 23,75%. Como se ve, la encuesta ha acertado con el resultado; pero, ¿qué tan probable era no acertar? Precisamente había una probabilidad del 5% de no acertar. Ejemplo 2:

Supóngase que se desea estrechar el rango de la estimación, es decir, disminuir el máximo error muestral posible. Para esto será necesario aumentar el tamaño de la muestra: Sean: confiabilidad = 95% y emax = 2%

n=

z 2 pq 1,96 2 × 0,25 = = 2401 2 e max (0,02) 2

O sea que si el verdadero valor de p fuese 0,20; es decir, si realmente el 20% de las familias de Piura compran cierto jabón, y, si con una muestra de 2401 familias se determina, por ejemplo, p1 = 0,1924 = 19,24%, entonces el error muestral hubiese sido: e = 0,1924 – 0,20 = – 0,0076 = – 0,76%

106

Distribuciones de proporciones

El resultado de esta encuesta se hubiese expresado de la siguiente manera: El porcentaje de familias de Piura que consume dicho jabón es:

p = 19,24% ± 2% Como resultado de dicha encuesta se afirma entonces, con una confiabilidad del 95%, que el porcentaje de familias de Piura que consume dicho jabón está comprendido entre 17,24% y 21,24%. 7.3.2 Determinación del tamaño de una muestra estratificada para estimar proporciones de los estratos de una población infinita.

Si se quiere estimar una proporción poblacional para cada uno de los estratos en que se ha dividido una población, se tendrá que fijar la confiabilidad y el máximo error muestral que se desea tener en cada uno de estos estratos. Prácticamente, es como si se considerase cada estrato como una población. Para decidir el tamaño de cada uno de los estratos de la muestra se pueden seguir dos métodos: Método 1: Estratos de la muestra proporcionales a los estratos de la población. Ejemplo:

¿Cuál debe ser el tamaño de una muestra y cómo debe estar constituida, para estimar el porcentaje de familias de los estratos socioeconómicos AB, C y D de Piura que compran un determinado jabón (J), si se quiere tener una confiabilidad del 95% de que el error muestral no supere el 5% en ningún caso? Supóngase que en Piura los estratos socioeconómicos tienen la siguiente distribución: Estrato socioeconómico Porcentaje

AB 11,3

C 33,7

D 55

Si la muestra fuese de tamaño n = 385 familias, como se obtuvo en el ejemplo anterior, debería estar conformada de la siguiente manera: Estrato socioeconómico ni

AB C D 43,51 129,75 211,75

Por lo tanto, redondeando: nAB = 44 ; nC = 130 ; nD = 212 Pero si se considerasen estas muestras, cuando se expresen los resultados de la encuesta para cada estrato, se tendrá que considerar el error muestral máximo que se comete con cada estrato, y éste se tendrá que calcular a partir de la misma fórmula que se ha deducido antes:

emax = z

pq n

Para cada estrato, los errores muestrales serán:

eAB max = 1,96

0,25 = 0,1477 = 14,77 % 44

eC max = 1,96

0,25 = 0,0860 = 8,60 % 130

eD max = 1,96

0,25 = 0,0673 = 6,73 % 212

Distribuciones de proporciones 107

Como se ve, aunque los errores muestrales para la estimación en los estratos C y D no son tan grandes, para el estrato más pequeño (el AB), el error muestral es demasiado grande: 14,77%. Si se quisiera mantener las proporciones de los estratos, de tal manera que el error muestral del estrato más pequeño, es decir, el máximo de los errores muestrales, no supere el 5%, la muestra del estrato AB tendría que ser:

nAB =

1,96 2 × 0,25 0,05 2

= 385 familias.

De esta manera, el error muestral máximo del estrato más pequeño (AB) será:

eAB max = 5%. Si esta muestra representa el 11,3%, la muestra total tendrá que ser de tamaño:

n = 385 × 100 / 11,3 =3 407,08 ⇒ 3 407 familias. El error muestral máximo de la muestra completa será:

emax = 1,96

0,25 = 0,0168 = 1,68 % 3407

El tamaño de la muestra del estrato C se puede calcular a partir del tamaño de la muestra total:

nC = 3 407 × 33,7 / 100 = 1 148,16 ⇒ 1 148 familias. El error muestral máximo del estrato C será:

eC max = 1,96

0,25 = 0,0290 = 2,89 % 1148

El tamaño de la muestra del estrato D será:

nD = 3 407 × 55 / 100 = 1 873,85

⇒ 1 874 familias.

El error muestral máximo del estrato D será:

eD max = 1,96

0,25 = 0,0226 = 2,26 % 1874

En la siguiente tabla se presentan las muestras y sus respectivos errores muestrales máximos: Estrato socio-económico Tamaño de la submuestra Error muestral máximo AB 385 5% C 1 148 2,89% D 1 874 2,26% Total 3 407 1,68%

De esta forma, si, por ejemplo, las encuestas realizadas mostrasen los siguientes resultados: Estrato socio-económico Familias consumen jabón J % que consumen jabón J AB 34 8,83% C 210 18,29% D 412 21,99%

Se deduce fácilmente, para toda la muestra, el porcentaje de familias que consumen jabón J:

p1 =

34 + 210 + 412 = 0,1925 = 19,25% 3407

También se podría calcular este porcentaje como una media ponderada:

108

Distribuciones de proporciones

p1 =

8,83 × 11,3 + 18,29 × 33,7 + 21,99 × 55 = 19,25% 100

Finalmente, ¿qué porcentaje de familias de Piura, de los distintos estratos, se estima que compran el jabón J?

PAB = 8,83% ± 5% PC = 18,29% ± 2,89% PD = 21,99% ± 2,26% El porcentaje estimado de familias de Piura que consumen jabón J será:

P = 19,25% ± 1,68% Método 2: Estratos de la muestra no proporcionales a los estratos de la población.

El método 1 tiene un inconveniente que salta a la vista: el número de encuestas que hay que hacer es muy grande. ¿Cómo se podría evitar esto, sin llegar a tener algún error muestral máximo muy elevado? Una solución posible es considerar el mismo error muestral máximo para cada estrato; así se tendría el mismo tamaño de muestra para cada estrato. Ejemplo:

Si se decide tener una confiabilidad del 95% de que el error muestral máximo de cada estrato sea el 5%, se tendría:

nAB = nC = nD =

1,96 2 × 0,25 0,05 2 1,96 2 × 0,25 0,05 2 1,96 2 × 0,25 0,05 2

= 385 familias.

= 385 familias.

= 385 familias.

Una vez realizadas las encuestas y obtenidos los porcentajes de familias que compran jabón J, se tendrá que calcular el porcentaje de familias de todo Piura que consumen ese jabón. Supóngase que en las encuestas se obtuvieron los siguientes resultados: Estrato socio-económico Familias consumen jabón J % que consumen jabón J AB 31 8,05% C 74 19,22% D 93 24,16%

Se deduce, para toda la muestra, que el porcentaje de familias que consumen jabón J es:

p1 =

8,05 × 11,3 + 19,22 × 33,7 + 24,16 × 55 = 20,67% 100

¿Qué porcentaje de familias de Piura, de los distintos estratos, se estima que compran el jabón J?

PAB = 8,05% ± 5% PC = 19,22% ± 5% PD = 24,16% ± 5%

Distribuciones de proporciones 109

El porcentaje estimado de familias de Piura que consumen jabón J será:

P = 19,25% ± ¿? % ¿Cuál será el error muestral máximo para la muestra total? Como la muestra total es de tamaño: 385 × 3 = 1155, entonces:

emax = 1,96

0,25 = 0,0288 = 2,88 % 1155

7.4 Determinación del tamaño de una muestra en poblaciones finitas Cuando se trata de estimar una proporción de una población finita, se recomienda emplear la siguiente fórmula que demuestra Hásek (1960) para determinar el tamaño de la muestra: n=

z 2 pqN 2 e max ( N − 1) + z 2 pq

Donde: •

N: es el tamaño de la población.



z: queda determinado por la confiabilidad que se desee. Con la ayuda de la tabla que proporciona áreas bajo la curva normal, se puede determinar el valor de la variable estandarizada z que corresponde a una determinada confiabilidad. Por ejemplo, para una confiabilidad del 95%, el área de la cola derecha a partir de (p + emax) es 0,025; a esta área le corresponde un valor de z = 1,96.



pq: será 0,25 en el peor de los casos. (el máximo valor que puede tener pq es 0,25).



emax : es el máximo error muestral que se está dispuesto a cometer.

Se suele considerar finita una población cuando su tamaño es N < 100 000. Si se define el tamaño de una muestra y la confiabilidad, el error muestral se obtiene fácilmente, despejando emax: N −n N −1

pq n

emax = z

7.5 La distribución de la diferencia de dos proporciones. Sean dos universos independientes donde px y py representan proporciones de elementos con cierta característica en cada uno. De ambos universos se extraen dos muestras de tamaño Nx y Ny, donde x e y indican la cantidad de elementos de cada muestra que tienen tal característica, de modo que: p1 =

x y ; p2 = nx ny

Si ambas proporciones p1 y p2 se distribuyen normalmente alrededor de px y py respectivamente; entonces la diferencia (p1 – p2) también se distribuye normalmente alrededor de la diferencia (px – py). Si p1 y p2 son independientes, la desviación estándar de (p1 – p2) será, tal como se vio al final del capítulo 4:

σ (2p1 − p2 ) = σ 2p1 + σ 2p2

σ (2p

1 − p2 )

=

px qx p y q y + nx ny

110

Distribuciones de proporciones

La variable estandarizada correspondiente será: z=

( p1 − p 2 ) − ( p x − p y ) ± f .c. px qx p y q y + nx ny

donde el factor de corrección (f.c.) es: f .c. =

nx + n y 1 1 + = 2 nx 2n y 2 nx n y

Las aplicaciones de la diferencia de dos proporciones se ven en el capítulo 9 (Contrastes de hipótesis).

Distribuciones de proporciones 111

Problemas propuestos. 1. Las compañías auditoras generalmente seleccionan una muestra aleatoria de los clientes de un banco y verifican los balances contables reportados por el banco. Si una compañía de este tipo se encuentra interesada en estimar la proporción de cuentas para las cuales existe una discrepancia entre el cliente y el banco, ¿cuántas cuentas deberán seleccionarse de manera tal que con una confiabilidad del 99%, la proporción de la muestra se encuentre a menos de 0,02 de la proporción real? 2. Un fabricante de insecticidas asegura que el 85% de los zancudos que son rociados por su producto, mueren ¿Cuál es la probabilidad de que en una sala con 200 zancudos se aniquilen al menos el 75% con este insecticida? Respuesta: 0,999975 3. Un estudiante de Estadística quiere estimar la proporción de familias de la Urbanización Miraflores que ve un determinado programa de televisión. Debido al elevado número de familias, resultaría muy laborioso tomar los datos de todas éstas. El alumno desea tomar una muestra y estimar dicha proporción con una probabilidad de 0,98 no exceder un error de ± 10% ¿Qué tamaño de muestra debe tomar? 4. Un dado tiene tres caras rojas, dos blancas y una azul. Si este dado se lanza nueve veces, ¿cuál es la probabilidad de que cada uno de los colores aparezca tres veces? 5. Un comerciante quiere comprar un lote muy grande de tornillos. Para decidir si compra el lote extrae en primer lugar 150 tornillos. Si encuentra más de 5% defectuosos, no compra el lote; en caso contrario, escoge 150 tornillos más. Si encuentra más de 3% defectuosos, no compra el lote; en caso contrario, compra el lote. Si realmente el porcentaje de tornillos defectuosos es del 3%, ¿cuál es la probabilidad de que el comerciante no compre el lote de tornillos? 6. Suponga que un grupo de estudiantes de Estadística encuestó a pobladores de cuatro ciudades del norte del Perú (Tumbes, Piura, Chiclayo y Trujillo) para saber si están de acuerdo con unas declaraciones del Ministro de Economía. Suponga que las poblaciones de dichas ciudades son: 100 000, 300 000, 400 000 y 700 000 habitantes, respectivamente. Para ahorrar tiempo y dinero, decidieron considerar una confiabilidad del 90% y encuestar a 200 pobladores de cada ciudad, obteniendo que 46, 42, 54 y 56 pobladores de las respectivas ciudades sí estaban de acuerdo con dichas declaraciones. a) ¿Qué % de cada ciudad están de acuerdo con dichas declaraciones? b) ¿Qué % de las cuatro ciudades están de acuerdo con dichas declaraciones? 7. Una empresa encuestadora afirma que hay “empate técnico” entre dos candidatos de electorales. ¿Qué datos le pediría usted a dicha empresa para verificar tal afirmación? 8. Un estudiante de Estadística diseñó una encuesta para averiguar, entre otras cosas, qué porcentaje de la población universitaria del Perú estudia más de 20 horas semanales. Él quiso estar 90% seguro de estimar correctamente dicho porcentaje, y decidió encuestar a 450 alumnos, encontrando que 300 estudiaban más de 20 horas semanales. Suponiendo que la población universitaria en el Perú es de 200 000 alumnos, ¿cuántos alumnos diría usted que estudian más de 20 horas semanales en el Perú? 9. Supóngase que el 65% de los gerentes en el Perú tienen un grado de maestría. Si se toma una muestra de 100 gerentes, ¿cuál es la probabilidad de que haya menos de 50 que tengan grado de maestría? 10. Suponga que el gerente de CRASA quiere averiguar qué porcentaje de cada uno de los estratos socioeconómicos A, B y C de la ciudad (de 10 millones de habitantes) han comprado alguna vez en su cadena de supermercados. Antes de hacer una encuesta averigua que los porcentajes de dichos estratos en la ciudad son: 5%, 15% y 30%. ¿Qué muestra recomendaría (detallada) si desea que el error muestral no supere el 2% en ningún caso, si:

112

Distribuciones de proporciones

a) se considera la muestra con las mismas proporciones de los estratos de la población? b) se considera la muestra de tal forma que las proporciones de los estratos sean iguales? Suponga que el gerente de CRASA decide encuestar a 3000 personas de los estratos A, B y C (1000 personas de cada estrato), y obtiene los siguientes resultados: - En la muestra A, el 23,5% han comprado alguna vez CRASA. - En la muestra B, el 19,2% han comprado alguna vez CRASA. - En la muestra C, el 13,1% han comprado alguna vez CRASA. c) ¿Qué porcentajes de cada estrato de la ciudad han comprado alguna vez CRASA? d) ¿Qué porcentaje de la ciudad ha comprado alguna vez CRASA? 11. Se desea averiguar qué porcentaje de la población de Piura y Castilla consume gas para la cocina. Para esto, se están discutiendo dos posibilidades: • A: tener una confiabilidad del 97% de que el error muestral no supere el 5%. • B: tener una confiabilidad del 97% de que el error muestral no supere el 2%. Evidentemente la segunda posibilidad implica una muestra mucho más grande, por lo cual se opta por una solución intermedia (C): un tamaño de muestra que sea el promedio de los tamaños que implicarían las dos posibilidades mencionadas, pero con un error muestral máximo del 3%. a) ¿Qué confiabilidad tendría este muestreo? b) Trace las curvas que representan cómo se distribuye la proporción muestral para los tres muestreos descritos (A, B y C). c) ¿Cuál es la probabilidad de que se estime el porcentaje de la población de Piura y Castilla que consume gas para la cocina con un error muestral menor del 1%? 12. Un ingeniero industrial cree que el 30% de todos los accidentes industriales en su planta se deben a que los empleados no cumplen con las disposiciones de seguridad. a) Si eso es cierto, ¿cuál es la probabilidad de que, entre 80 accidentes que ocurrieron el año pasado, menos de 20 se deban a ese motivo? b) Si realmente el 40% de todos los accidentes industriales en su planta se deben a que los empleados no cumplen con las disposiciones de seguridad, ¿cuál es la probabilidad de que, entre los 80 accidentes que ocurrieron el año pasado, menos de 20 se deban a ese motivo? 13. Una muestra de 400 amas de casa de Piura que realizan sus compras semanales en el mercado revela que 360 incluyen leche en sus compras. ¿Con qué confiabilidad se podrá afirmar que el porcentaje de amas de casa de Piura que incluyen leche en sus compras semanales en el mercado está entre 88% y 92%? Asuma que dicho porcentaje es 90%. Respuesta: 81,65% 14. Una encuestadora ha publicado los siguientes resultados de su última encuesta realizada a una muestra de 600 votantes de Lima: Candidato A: 38,2 % Candidato B: 34,8 % Suponiendo que se consideró una confiabilidad del 95%, ¿se puede afirmar que hay empate técnico, como afirma el comentarista de un diario? 15. Si p > 0,1; determine si la probabilidad P(p1 < 0.1) es mayor o menor cuando se toma una muestra n1 o cuando se toma una muestra n2, siendo n1 > n2.

Distribución de las medias muestrales 113

Capítulo 8: Distribución de las medias muestrales 8.1 Introducción En este capítulo se estudia la distribución que sigue la media de una muestra extraída de una población y la distribución que sigue la diferencia de las medias de dos muestras extraídas de la misma población, o de poblaciones diferentes. Una media puede ser, por ejemplo, el promedio de las edades de los suscriptores a una revista económica, en el Perú, o el diámetro promedio de los pistones que se elaboran en una fábrica, o el peso promedio de las bolsas de sal que se empacan automáticamente en una fábrica, o el promedio mensual de las ventas de un supermercado, etc. En todos los casos, para estimar la media poblacional, se extrae una muestra y se calcula la media aritmética de dicha muestra.

8.2 Distribución de la media muestral Teorema del límite central Si se extraen varias muestras de tamaño n de cualquier población con media µ y desviación estándar σ, las medias de estas muestras (medias muestrales) tendrán una distribución aproximadamente normal con media µ y desviación estándar σ / n , si n es grande. Si la población tiene distribución normal, la media muestral tendrá también distribución normal aunque n sea pequeño. Puede ilustrarse este teorema mediante el siguiente ejemplo: se seleccionan aleatoriamente, de una empresa, 100 muestras de 50 vendedores cada una. Considerando que cada vendedor ha efectuado un determinado número de ventas durante el último mes, se calcula la media del número de ventas en cada una de las muestras. Las 100 medias calculadas se agrupan en clases y se traza el histograma que las representa. Este histograma se aproxima mucho a una curva normal. Si se supiera el verdadero valor de la media y la desviación estándar del número de ventas efectuadas por los vendedores de esa empresa en el Perú (parámetros poblacionales), se estaría verificando también que la media de las medias de las 100 muestras casi coincide con la media poblacional y la desviación estándar de las medias, dividida entre n casi coincide con la desviación estándar poblacional. La variable estandarizada correspondiente es: z=

x− µ σ/ n

Si no se conociera la desviación estándar de la población (σ ) y la muestra fuese grande, se podría estimar ésta calculando la desviación estándar de la muestra (s). Ya que la desviación estándar de la media muestral es σ / n , se deduce fácilmente que la precisión de la media muestral para estimar la media de la población aumenta conforme aumenta el tamaño de la muestra, como se aprecia en la figura 8.1.

114

Distribución de las medias muestrales

n1 n2 n3

µ

x

Figura 8.1. Distribuciones de la media muestral para n1 > n2 > n3

Viendo cómo se estrecha la distribución normal alrededor de la verdadera media de la población conforme aumenta el tamaño de la muestra, se deduce que para hacer una buena estimación de la media poblacional es necesario considerar muestras muy grandes, que tiendan a infinito. La figura 8.2 muestra cómo varía la desviación estándar de la media muestral conforme aumenta el tamaño de la muestra. σx

σ x Figura 2. Variación de la desviación estándar de la media muestral 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0

10

20

30

40

50

60

70

80

90

Figura 8.2. Variación de la desviación estándar de las medias muestrales

Como se ve en la figura 8.2, la desviación estándar de la media muestral disminuye rápidamente al aumentar n, el tamaño de la muestra, hasta n = 30; pero a partir de n = 50 la disminución se hace cada vez más lenta. A partir de este tamaño de muestra se puede considerar que es lo suficientemente grande para hacer una buena estimación de la media de la población a partir de la media de una muestra.

8.3. Distribución de la diferencia de las medias muestrales Teorema Si se extraen dos muestras independientes de tamaños nx y ny, de dos poblaciones cualesquiera

n

Distribución de las medias muestrales 115

con medias µx y µy, y desviaciones estándar σx y σy, respectivamente, la diferencia de las medias muestrales, x − y , se distribuye normalmente alrededor de la diferencia de las medias de las poblaciones, con una desviación estándar σ x − y , siempre que las muestras sean lo suficientemente grandes (no menores que 50).

σ x−y =

σ x2 nx

+

σ y2 ny

Si las poblaciones de procedencia son normales, es decir, si X e Y se distribuyen normalmente, entonces la distribución de x − y será normal aunque las muestras sean pequeñas. La variable estandarizada correspondiente será entonces:

z=

( x − y ) − ( µx − µ y ) 2

2 σx σ y + nx ny

Si se desconocen las desviaciones estándar σx y σy , y las muestras extraídas son grandes, éstas pueden estimarse calculando las desviaciones estándar de las muestras, sx y sy.

8.4. La distribución t de Student: aplicaciones a las medias poblacionales Se ha dicho que si la desviación estándar de una población es desconocida, como suele ocurrir casi siempre, es posible estimarla calculando la desviación estándar de una muestra grande (no menor de 50); pero, ¿qué hacer si no se puede extraer una muestra grande? Para muestras pequeñas, la desviación estándar calculada suele ser muy distinta de la desviación estándar de la población, y se cometerá un error considerable si se emplea la distribución normal con desviación estándar s en vez de σ. Ante esta situación, se puede emplear la distribución t de Student en vez de la distribución normal. 8.4.1 La distribución t de Student

Es una distribución muy parecida a la distribución normal, que depende de un parámetro nl, llamado número de grados de libertad. La función densidad de probabilidad de la variable t de Student es la siguiente:

 t2 f (t ) = k 1 +  nl

 − n2+1   

Esta función es simétrica con media igual a cero (igual que la normal estandarizada). Su desviación estándar es nl /( nl − 2) . En el apéndice se presenta una tabla (pág. 266) que proporciona valores de t (no negativos) para determinadas áreas de cola derecha, para nl = 1, 2, … , 50, 60, 120, ∞. Conforme aumenta nl, la curva de Student se parece más a la curva normal. Compárese, por ejemplo, el valor de t que le corresponde a un área bajo la curva de Student igual a 0,05, para nl = ∞, con el valor de z que le corresponde a la misma área bajo la curva normal. 8.4.2 Distribución t de la media muestral

Si se extraen varias muestras de tamaño n (menor que 50), de una población normal con media µ y desviación estándar σ desconocida, entonces la siguiente variable: t=

x−µ s / n −1

tiene una distribución de Student con nl = n – 1 grados de libertad.

116

Distribución de las medias muestrales

Se ha definido la desviación estándar s con denominador n; pero, cuando se extraen muestras pequeñas, el mejor estimador de la desviación estándar de la población emplea n – 1 como denominador. Se distinguen entonces: n

sn =



n

( xi − x ) 2

i =1

n

; s n −1 =

∑ (x

i

− x)2

i =1

n −1

En conclusión, cuando n es pequeño conviene usar sn-1 para estimar σ, y cuando n es grande ambas expresiones dan prácticamente el mismo valor. Se puede deducir fácilmente que: sn =

n −1 n

s n −1

Si se sustituye este valor de sn en lugar de s, en la expresión de t, el denominador resultará: sn −1 / n que es como lo presentan algunos autores. El concepto de grados de libertad se puede explicar de la siguiente manera: al calcular la desviación estándar de una muestra de tamaño n, se suman los cuadrados de n desviaciones respecto a la media muestral. Como la suma de estas desviaciones es igual a cero, se tendrá libertad para asignar valores a cualesquiera n – 1 desviaciones. La restante ya queda determinada y no se le puede dar cualquier valor. 8.4.3 Distribución t de la diferencia de las medias muestrales.

Cuando se quiere inferir respecto a la diferencia de las medias de dos poblaciones normales cuyas desviaciones estándar son desconocidas, a partir de la diferencia de las medias de dos muestras pequeñas, no se pueden utilizar las desviaciones estándar de las muestras como estimaciones de las desviaciones estándar de dichas poblaciones. En situaciones como ésta, la siguiente variable: t=

( x − y) − (µ x − µ y )  nx sx 2 + nx s y 2   n x + n y −2 

 1   + 1    nx n y   

tiene una distribución t de Student con nx + ny – 2 grados de libertad, siempre que las desviaciones estándar de las dos poblaciones sean iguales. Si las desviaciones estándar de las poblaciones fuesen diferentes, no se podría emplear la distribución t de Student. En 9.7 se explica cómo probar si las desviaciones estándar de dos poblaciones son iguales.

Distribución de las medias muestrales 117

Problemas propuestos 1. La duración media de una resistencia es de 1 000 horas, con una desviación estándar de 100 horas. Se utilizan 3 resistencias de manera consecutiva en el mismo aparato, es decir, apenas se quema una resistencia, se coloca la siguiente. a) ¿Cuál es la probabilidad de que el aparato funcione al menos 3 600 horas? Respuesta: 0,00027 b) Y si tuviera 20 resistencias, ¿cuál sería la probabilidad de que el aparato funcione más de 19 500 horas? Respuesta: 0,846136 2. Para controlar un proceso de llenado automático de bebidas gaseosas, se toman muestras de 10 botellas cada hora, durante 20 horas. A continuación se muestra el volumen promedio (en ml.) de cada muestra: 499,82 499,23 500,15 500,77 500,72 501,04 498,69 499,86 500,66 499,35 499,59 498,99 498,89 499,41 499,54 498,73 499,66 499,76 500,08 499,78

¿Cuál es la probabilidad de que una botella contenga más de 501,5 ml? 3. Una panificadora envía diariamente una remesa de panes a sus tiendas. Cada día se pesa una muestra de 35 panes en cada una de las tiendas. El administrador ha visto que el 80% de los promedios (pesos) obtenidos en dichas muestras están comprendidos entre 24,7 y 25,3 g., con un promedio de 25g. ¿En qué rango estará comprendido el 99% de los pesos de los panes de esta panificadora? Asuma que los pesos de los panes se distribuyen normalmente. Respuesta: Entre 21,43 g. y 28,57g. 4. Suponga que el peso promedio de los pobladores de una ciudad es de 75 Kg., con una desviación estándar de 8,75 Kg. La población de pesos está normalmente distribuida. Si la capacidad máxima de un ascensor con capacidad para 16 personas es de 1 250 Kg., ¿cuál es la probabilidad de que el ascensor nunca exceda su capacidad máxima? 5. El recorrido promedio de viaje (ida y vuelta a casa) de todos los trabajadores de una fábrica es de 50,5 Km. con una desviación estándar de 3,6 Km. La población de recorridos está normalmente distribuida. ¿Cuál es la probabilidad de que una muestra de 25 trabajadores revele una distancia promedio que se encuentre a un máximo de 1 Km. de la media poblacional? 6. El dueño de una empresa de taxis sabe que la duración de las zapatas de los frenos con los que cuenta varía normalmente con una media de 80 000 Km. y una desviación estándar de 7 200 Km. a) ¿En qué rango se espera que esté la duración media de 8 zapatas, con una confiabilidad del 99%? b) ¿Cuál es la probabilidad de que la duración media de las 8 zapatas sea inferior a 83 200 Km?

118 Contrastes de hipótesis

Capítulo 9: Contrastes de hipótesis 9.1. Introducción Una hipótesis es una aseveración que se hace sobre una población. Generalmente, tal aseveración se refiere al valor numérico de algún parámetro poblacional, como la media o la proporción. Por ejemplo, una hipótesis puede establecer que la tensión de ruptura promedio de un material para soldadura es de 250 lb., o que el ensamble de una computadora promedia al menos 40 minutos, o que la proporción de piezas defectuosas en un proceso de manufactura es de menos de 0,05, o que el porcentaje de clientes exclusivos de un banco es menor del 5%. Una prueba o contraste de hipótesis es una prueba de la validez de la aseveración, y se lleva a cabo mediante un análisis de datos extraídos de una muestra.

9.2. Hipótesis nula e hipótesis alternativa Muchas veces se quiere investigar si un parámetro poblacional tiene una determinada característica o no; por ejemplo, que menos del 25% de los consumidores de detergente usan detergente Real, es decir, que la proporción de consumidores de detergente Real es menor que 0,25. Como no se conoce con exactitud cuál es esa verdadera proporción, se establece como hipótesis que es igual a 0,25, y se contrasta esta hipótesis contra la hipótesis de que dicha proporción es menor que 0,25. Para hacer este contraste se extrae una muestra de consumidores de detergente y se calcula qué proporción de la muestra usa detergente Real. Lógicamente, si esa proporción es mayor que 0,25, se aceptará la hipótesis inicial; pero, ¿cuándo se podrá afirmar que es menor? Si la proporción encontrada en la muestra es ligeramente menor que 0,25, se podría aceptar la hipótesis inicial, pues esa pequeña diferencia puede ser consecuencia del azar, y, efectivamente la verdadera proporción puede no ser menor que 0,25. Para estar seguro de no cometer un grave error, rechazando “injustamente” la hipótesis inicial, se podría tomar la decisión de rechazarla sólo si la proporción de la muestra resulta mucho menor que 0,25, es decir, si se tiene un resultado inusual o poco probable. Pero, ¿a partir de qué valor de la proporción que se encuentre en la muestra se podrá afirmar que es mucho menor que 0,25? En el ejemplo, a la aseveración concreta de que la proporción de consumidores de detergente Real es 0,25 (o más), se denomina hipótesis nula (H0). Se denomina hipótesis alternativa (H1), a la hipótesis que motivó la investigación, es decir, a la aseveración de que la proporción de consumidores de detergente Real es menor que 0,25. Para este ejemplo, estas hipótesis se expresan matemáticamente de la siguiente forma: H0: p ≥ 0,25 H1: p < 0,25

9.3. Regiones de aceptación y de rechazo Definidas la hipótesis nula y la alternativa, el investigador debe precisar qué resultados del muestreo harán que se acepte la hipótesis nula, y qué resultados harán que se rechace la hipótesis nula a favor de la hipótesis alternativa. Se denomina región de aceptación al conjunto de los posibles resultados del muestreo que llevarían a aceptar H0. Se denomina región de rechazo al conjunto de los posibles resultados del muestreo que llevarían a rechazar H0, y por lo tanto a aceptar H1.

Contrastes de hipótesis 119

Para definir estas regiones se suele usar el siguiente criterio: para rechazar la hipótesis nula se tiene que dar un resultado muy poco usual en el muestreo. Por ejemplo, si la muestra está compuesta por 40 consumidores de detergente (n = 40) y si es cierto que el 25% de la población consume detergente Real (p = 0,25), se espera encontrar 10 consumidores de detergente Real (µ = np = 10). Si se encuentran 8 ó más consumidores de detergente Real, se puede aceptar H0; pero, ¿a partir de qué valor ya conviene rechazar H0? ¿7?, ¿6? Siguiendo el criterio de rechazar H0 cuando se obtiene un resultado muy poco usual, es decir, muy poco probable, se puede considerar que encontrar menos de 7 consumidores de detergente Real es muy poco probable (p1 = 6/40 = 0,15 parece considerablemente menor que 0,25). Concretamente: 6

P(X < 7) =

40!

∑ (40 − x)! x! 0,25

x

0,75 40− x = 0,096 (calculada con Excel)

x =0

Así, el investigador puede tomar la siguiente decisión: extraer una muestra de 40 consumidores de detergente. Si hay 6 ó menos consumidores de detergente Real, rechaza H0; en caso contrario, acepta H0. En la figura 9.1 se representan estas regiones de aceptación y rechazo con las probabilidades binomiales (barras verticales) correspondientes a, 0, 1, …, etc. 0.16 0.14 0.12 0.10 0.08 0.06

α

0.04 0.02 0.00 0

1

2

3

4

5

6

7

Región de rechazo

8

9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Región de aceptación

Figura 9.1. Regiones de aceptación y rechazo

9.4. Error tipo I y error tipo II Una vez que el investigador ha definido las regiones de aceptación y de rechazo para la hipótesis nula, se puede llevar a cabo la prueba; pero se pueden cometer dos tipos de error: 1) Rechazar la hipótesis nula cuando es verdadera. A esto se le conoce como error tipo I, y a la probabilidad de cometerlo se le designa α. Para el ejemplo de la proporción, este error se cometería si se rechaza la aseveración de que la proporción de consumidores de detergente Real es igual a 0,25 (ó más), es decir, si se acepta que dicha proporción es menor que 0,25, cuando realmente es 0,25. La probabilidad de cometer este error es α = P(X < 7) = 0.096 (ver figura 9.1). 2) Aceptar la hipótesis nula cuando es falsa. A esto se le conoce como error tipo II, y a la probabilidad de cometerlo se le designa β. Para el ejemplo de la proporción, este error se cometería si se acepta la aseveración de que la proporción de consumidores de detergente Real es igual a 0,25, es decir, si se rechaza que dicha proporción es menor que 0,25, cuando realmente es menor que 0,25.

120 Contrastes de hipótesis

Supóngase que la verdadera proporción de consumidores de detergente Real (desconocida) es 0,12. Se cometerá el error tipo II cuando se acepte que p = 0,25, y esto ocurrirá cuando 7 ó más consumidores de detergente de la muestra consuman detergente Real. La probabilidad de cometer este error es:

β = P(X ≥ 7) =

40

40!

∑ (40 − x)! x! 0,12

x

0,88 40 − x = 0,198 (calculada con Excel)

x =7

En la figura 9.2 se representa la probabilidad de cometer el error tipo II (β ) cuando la verdadera proporción de consumidores de detergente Real (desconocida) es 0,12. Como se ve, para la verdadera proporción p = 0,12 se tiene otra distribución binomial con media igual a np = 40(0,12) = 4,8. 0.20

Histograma binomial con p = 0,12

0.18 0.16 0.14

β

0.12 0.10 0.08

Histograma binomial con p = 0,25

α

0.06 0.04 0.02 0.00 0

1

2

3

4

5

Región de rechazo

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

Región de aceptación

Figura 9.2. Probabilidad de cometer los errores tipo I y tipo II.

Se deduce que mientras más difiera la verdadera proporción de la proporción establecida como hipótesis nula, menor es la probabilidad de cometer el error tipo II. En una investigación, lo usual es que se defina el tamaño de la muestra y el máximo valor que se desea de α (0,10; 0,05; 0,025 ó 0,01), y luego se determinen las regiones de aceptación y rechazo.

9.5. Contrastes de hipótesis sobre proporciones Ejemplo 1:

En el ejemplo que se ha venido analizando sobre la proporción de consumidores de detergente Real, se cumple la condición de que np y nq > 5, por lo tanto la proporción de la muestra (p1 = x/n) tiene una distribución aproximadamente normal con media p y desviación estándar pq / n . Supóngase que se toma una muestra de 40 consumidores de detergente (n = 40) y se define α = 0,05. Si se encuentra que 6 consumen detergente Real, ¿se podrá afirmar que el porcentaje de consumidores de detergente Real es menor del 25%? H0: p ≥ 0,25 H1: p < 0,25 Es posible determinar las regiones de aceptación y rechazo en términos de x (número de consumidores de detergente que usan detergente Real), o en términos de p1 (proporción de consumido-

Las hipótesis son:

Contrastes de hipótesis

121

res que usan detergente Real). Para esta segunda opción, se denomina p1* al valor que limita las regiones de aceptación y rechazo. La variable estandarizada que le corresponde a p1* debe tener un área igual a 0,05 en la cola izquierda de la curva normal; este valor es z* = –1,645. Por lo tanto: –1,645 =

p1 * − 0,25 + 1 / 80 0,25 × 0,75 / 40

Resolviendo, resulta: p1* = 0,1249 En la figura 9.3 se representa la distribución normal de p1 y las regiones de aceptación y rechazo delimitadas por p1*. 0.16 0.14 0.12 0.10 0.08 0.06 0.04

α = 0,05

0.02 0.00 0.00

0.05

0.10

Región de rechazo

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.55

0.60

0.65

0.70

Región de aceptación

p 1*= 0,1249

Figura 9.3. Regiones de aceptación y rechazo para el contraste de hipótesis (de cola izquierda) de una proporción

La proporción encontrada en la muestra es p1 = 6/40 = 0,15, que está en la región de aceptación; por lo tanto, se acepta la hipótesis nula, y se rechaza la hipótesis alternativa. En otras palabras, no se podrá afirmar que el porcentaje de consumidores de detergente Real es menor del 25%. A partir de p1* se puede determinar con precisión las regiones de aceptación y rechazo: p1 * = 0,1249 =

x* 40

x* = 4,996 Por lo tanto: Región de rechazo: x = 0, 1, 2, …, 4 Región de aceptación: x = 5, 6, 7, …, 40 Dividiendo cada valor x entre 40, se determinan las regiones de aceptación y rechazo de la variable p1: Región de rechazo: p1 = 0; 0,025; 0,050, …; 0,100 Región de aceptación: p1 = 0,125; 0,150; …; 1.

122 Contrastes de hipótesis

El verdadero valor de α se puede determinar calculando la probabilidad de que p1 esté en la región de rechazo, usando la aproximación normal: 0,1 + z=

1 − 0,25 2( 40)

0,25 × 0,75 40

= − 2,008 ≈ − 2,01

α = 0,0222 ¿Cuál sería la probabilidad de aceptar la hipótesis nula si el verdadero valor de p fuese 0,20? En este caso, la hipótesis nula (H0: p ≥ 0,25) sería falsa, por lo tanto, dicha probabilidad, es decir, la probabilidad de que p1 esté en la región de aceptación, es β: 0,125 − z=

1 − 0,20 2(40)

0,20 × 0,80 40

= − 1,38

β = 1 – 0,0838 = 0,9162 En la figura 9.4 se muestran las áreas que representan a α y β, incluyendo las áreas que se añaden en cada caso. 0.18 0.16 0.14 0.12 0.1 0.08 0.06

β

0.04 0.02

α 0 0.00

0.05

0.10

Región de rechazo

0.15

0,125

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.55

0.60

0.65

0.70

Región de aceptación

Figura 9.4. Representación gráfica de α y β del ejemplo 1.

Ejemplo 2:

Supóngase que un grupo de profesionales de la educación ha venido aplicando un método especial para mejorar el nivel educativo de los alumnos del departamento de Piura. Se quiere investigar si el porcentaje de alumnos con promedio mayor de 15 es superior en Piura que en el resto del país. Para esto, se toman dos muestras: la primera, de 200 alumnos del resto del país, donde se encuentran 38 alumnos con promedio mayor de 15; la segunda, de 100 alumnos de Piura, donde se encuentran 23 alumnos con promedio mayor de 15. ¿Se podrá afirmar que dicho porcentaje es mayor en Piura, con α = 0,05?

Contrastes de hipótesis 123

Nótese que no se sabe cuáles son esas proporciones en las dos poblaciones consideradas en esta investigación; pero se sabe que si en ambos casos np y nq > 5, la diferencia de las proporciones se distribuye normalmente alrededor de la diferencia de las proporciones de las poblaciones, con una desviación estándar que se puede estimar gracias a que las muestras tomadas son grandes. Sean px y py las proporciones de alumnos con promedio mayor de 15 en Piura y el resto del país, respectivamente. Sean además: Para el resto del país: Ny = 200 Para Piura: Nx = 100 p2 = 38/200 = 0,19 p1 = 23/100 = 0,23 Conviene asumir, como hipótesis nula, que las proporciones px y py son iguales. La hipótesis que motiva la investigación es que px > py. Por lo tanto, las hipótesis son: H0: px – py = 0 H1: px – py > 0 En primer lugar se deben definir las regiones de aceptación y rechazo, considerando que esta última estará en la cola derecha. El límite entre ambas regiones (p1 – p2)* se determina de la siguiente manera: 1,645 =

donde: px = py ≅

( p1 − p 2 ) * − 0 − 0,0075 0,2033 × 0,7967 0,2033 × 0,7967 + 100 200

x+ y 23 + 38 100 + 200 = = 0,2033 ; qx = qy = 1 – px ; f.c. = = 0,0075 N x + N y 100 + 200 2(100)(200) (p1 – p2)* = 0,089

La diferencia (p1 – p2) encontrada en las muestras es: 0,23 – 0,19 = 0,04 < 0,089. Por lo tanto se acepta la hipótesis nula (ver figura 9.5), es decir, no se puede afirmar que el porcentaje de alumnos con promedio mayor de 15 es mayor en Piura que en el resto del país.

-0.20

-0.15

-0.10

-0.05

Región de aceptación

0.00

0.05

0.10

0.15 Región de rechazo

(p 1 - p 2)*= 0,089

Figura 9.5. Regiones de aceptación y rechazo para el contraste de hipótesis de cola derecha de una diferencia de dos proporciones (ejemplo 2).

0.20

124 Contrastes de hipótesis

9.6. Contrastes de hipótesis sobre medias muestrales Ejemplo 3:

El encargado de un taller ha estimado que el promedio del número de piezas producidas semanalmente por cada uno de los trabajadores es de 55. Se quiere saber si una modificación en el proceso productivo que se ha aplicado recientemente ha aumentado el nivel de producción. Para esto se toma una muestra de 60 trabajadores y se obtiene un promedio de 58 piezas producidas en una semana y una desviación estándar igual a 9. ¿Indica este resultado que el promedio de piezas producidas semanalmente por cada trabajador ha aumentado, es decir, es superior a 55? Considere α = 0,05. Teniendo en cuenta el motivo de la investigación, se plantean las siguientes hipótesis: H0 : µ = 55 H1 : µ > 55 Para definir las regiones de aceptación y rechazo se determina el valor x * que las limita: 1,645 =

x *− 55 9 / 60

⇒ x * = 56,91

En la figura 9.6 se muestran las regiones de aceptación y rechazo para este problema. El promedio encontrado en la muestra está en la región de rechazo (58 > 56,91); por lo tanto se rechaza la hipótesis nula, es decir, se acepta la afirmación de que el promedio de piezas producidas semanalmente por cada trabajador es mayor de 55, como consecuencia de la modificación efectuada en el proceso. 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 50

51

52

53

54

55

56

57

Región de aceptación

58

59

Región de rechazo x

* =56,91

Figura 9.6. Regiones de aceptación y rechazo para el contraste de hipótesis de cola derecha de una media muestral (ejemplo 3)

Ejemplo 4:

Respecto al problema anterior, ¿se hubiese llegado a la misma conclusión si la muestra extraída hubiese sido mucho más pequeña y se hubiese obtenido el mismo promedio de 58 y la misma desviación estándar igual a 9, con una muestra de 26 trabajadores? Se asume que el número de piezas producidas semanalmente por cada trabajador sigue una distribución normal. Como la muestra es pequeña y no se conoce la desviación estándar de la población, ésta no se

Contrastes de hipótesis 125

puede estimar. Se recurre entonces a la distribución t de Student para determinar el valor x * que limita las regiones de aceptación y de rechazo. Se plantean las mismas hipótesis del ejemplo anterior: H0 : µ = 55 H1 : µ > 55 Además: n = 26 nl = n – 1 = 25 (grados de libertad) t* = 1,7081 =

x * − 55 9 / 26 − 1

⇒ x * = 58,075

El promedio encontrado en la muestra está en la región de aceptación (58 < 58,075); por lo tanto se acepta la hipótesis nula, es decir, se rechaza la afirmación de que el promedio de piezas producidas semanalmente por cada trabajador es mayor de 55, como consecuencia de la modificación efectuada. Ejemplo 5:

Supóngase que, aunque no se conoce el promedio de las puntuaciones que obtienen los alumnos del cuarto año de secundaria de los departamentos de Piura y Lambayeque en una prueba de aptitud académica, se cree que es el mismo. Sin embargo, algunos profesores sospechan que estos promedios son diferentes. Se investiga si son diferentes, y para esto se toma una muestra de 80 alumnos de Lambayeque, encontrándose un promedio de 57 puntos y 10 puntos de desviación estándar. En Piura se extrae una muestra de 70 alumnos, encontrándose un promedio de 54 puntos y 9 puntos de desviación estándar. Con base en estos resultados, ¿se podrá afirmar que los promedios son diferentes? Sean:

µ x : la media de las puntuaciones en Lambayeque. µ y : la media de las puntuaciones en Piura. n x : el tamaño de la muestra de Lambayeque. ny : el tamaño de la muestra de Piura. x : la media de las puntuaciones obtenidas en la muestra de Lambayeque. y : la media de las puntuaciones obtenidas en la muestra de Piura. Se plantean las siguientes hipótesis: H0 : µ x – µ y = 0 H1 : µ x – µ y ≠ 0 A diferencia de los contrastes de hipótesis vistos hasta ahora, en este caso se rechazará la hipótesis nula cuando la diferencia de los promedios sea significativa, sin importar cuál es mayor. Se tendrán entonces dos regiones de rechazo: una en cada cola de la distribución normal, como se muestra en la figura 9.7. En primer lugar, se determinan los valores ( x − y )* que limitan las regiones de aceptación y de rechazo. Téngase en cuenta que el área de cada cola debe ser 0,025.

± 1,96 =

(x − y) * − 0 10 2 9 2 + 80 70

Se ha asumido que las varianzas de las muestras son iguales a las varianzas poblacionales, debido a que las muestras son suficientemente grandes (nx > 50; ny > 50).

126 Contrastes de hipótesis

α/2 = 0,025

-7

-6

-5

-4

α/2 = 0,025

-3

-2

Región de rechazo

(x−

-1

0

1

2

3

Región de aceptación

4

5

6

7

Región de rechazo

(x−

y )*2 =-3,041

y )*2 = 3,041

Figura 9.7. Regiones de aceptación y rechazo para el contraste de hipótesis de dos colas de una diferencia de medias (ejemplo 5)

Resolviendo: ( x − y )* = ± 3,041 La diferencia x − y encontrada en las muestras es 3; valor que cae en la región de aceptación. Por lo tanto se acepta que los promedios en ambos departamentos es el mismo. La diferencia encontrada no es “significativa”. Ejemplo 6:

Supóngase que, en el ejemplo 5, las muestras que se extraen de Lambayeque y Piura son pequeñas, de tamaños 17 y 12, respectivamente, y que las medias y desviaciones estándar encontradas son las mismas. Con base en estos resultados, ¿se podrá afirmar que los promedios son diferentes? En primer lugar, se asume que las puntuaciones obtenidas en Lambayeque y Piura se distribuyen normalmente, y que las desviaciones estándar de dichas puntuaciones en ambas poblaciones son iguales. (Más adelante se podrá aplicar la Prueba F para corroborar si son iguales). Se plantean nuevamente las siguientes hipótesis: H0 : µ x – µ y = 0 H1 : µ x – µ y ≠ 0 Las regiones de aceptación y rechazo son las mismas que las del ejemplo 5 (figura 9.7); pero con otros límites. Se determinan los valores ( x − y )* que limitan las regiones de aceptación y rechazo: t* = ± 2,0518 =

( x − y) * − 0  17 × 10 2 + 12 × 9 2   17 + 12 − 2 

 1 1   +    17 12  

Contrastes de hipótesis 127

Como se ve, el número de grados de libertad es: 17 + 12 – 2 = 27 ( x − y )* = ± 7,696 La diferencia x − y encontrada en las muestras es 3, que cae en la región de aceptación. Por lo tanto se acepta que los promedios en ambos departamentos es el mismo. La diferencia encontrada no es “significativa”.

9.7 La distribución F: comparación de varianzas. Se incluye en este capítulo la distribución F, empleada para comparar varianzas, por lo importante que es verificar si las varianzas de dos universos son iguales. La función densidad de probabilidad de la variable F es:

f ( F ) = kF

(n1 / 2 )−1

n1F  1 + n   2 

− ( n1 + n2 ) / 2

donde n1 y n2 representan grados de libertad, y k es una constante que depende de n1 y n2. En la figura 9.8 se representa esta función: f(F)

F

Figura 9.8. Distribución F

Como hay dos tipos de grados de libertad, resultaría muy trabajoso tabular áreas bajo la función F tan detalladamente como se hace con las funciones χ2 y t. En el apéndice se muestra una tabla que da los valores de F*, a partir de los cuales el área bajo la función F es 5% ó 1%, para distintas combinaciones de n1 y n2. A estos valores se les suele denominar Fn1, n2; p (págs. 268-269). Teorema: Si se extraen dos muestras de tamaños N1 y N2 del mismo universo, con varianzas s12 y s22, el cociente s12 / s22 tiene una distribución F con: n1 = N1 – 1 n2 = N2 – 1, grados de libertad. Como la distribución F es asimétrica, y las tablas (pág.268; 269) sólo proporcionan áreas en la cola derecha, se suelen plantear las siguientes hipótesis para hacer la comparación de varianzas: H0 : σ 12 = σ 22 H1 : σ 12 > σ 22 Así entonces, al extraer las dos muestras, conviene denominarle s12 a la mayor de las varianzas. Cabe esperarse que el valor F* a partir del cual se rechaza la hipótesis nula, sea menor conforme aumenten los tamaños de las muestras. Así, cuando N1 y N2 tienden a infinito, F* tiende a 1; pues cuando las muestras representen casi la totalidad de sus universos, sólo se debe admitir que las varianzas de dichos universos son iguales si lo son también las varianzas de las muestras.

128 Contrastes de hipótesis

Ejemplo:

Una máquina está programada para llenar recipientes con 20 onzas de líquido. El jefe de producción está pensando aumentar la velocidad de llenado; pero teme que la variabilidad aumente significativamente. Para asegurarse, toma una muestra de 16 recipientes llenados a velocidad normal, encontrando una desviación estándar de 0,020 onzas. Luego toma una muestra de 25 recipientes llenados a la nueva velocidad, encontrando una desviación estándar de 0,028 onzas. ¿Se podrá afirmar que con la nueva velocidad de llenado la varianza aumenta? Considere un nivel de significación del 5%. Se investiga: H0: σ 12 = σ 22 H1: σ 1 > σ 2

Sean:

f(F)

2 2

s1 = 0.028; N1 = 25 s2 = 0.020; N2 = 16

Para:

n1 = 25 – 1 = 24 n2 = 16 – 1 = 15

Resulta: F* = 2,29

F* = 2,29 Región de aceptación

F

Región de rechazo

s12

(0,028) 2 Según las muestras: F = 2 = = 1,96 < 2.29. s 2 (0,020) 2

Se acepta H0 y se concluye que la varianza no ha aumentado.

9.8 Contrastes de hipótesis en Excel 9.8.1 Prueba t para medias de dos muestras suponiendo varianzas iguales.

Ejemplo: En un programa de capacitación industrial algunos aprendices son instruidos con el método A, que consiste en instrucciones mecanizadas, y otros son capacitados con el método B, que entraña también la atención personal de un instructor. Se seleccionaron aleatoriamente aprendices instruidos con los dos métodos, encontrándose las siguientes calificaciones (la calificación máxima es 100): Método A Método B

68 72

75 77

69 79

71 78

73 70

66 68

68 77

71 77

71 72

68 66

¿Se puede afirmar que el método B es mejor? Considere α = 0,05. Se trata de una prueba de hipótesis de diferencia de medias, a partir de muestras pequeñas. Como el propósito es investigar si el método B es mejor, se plantea: H0 : µ B – µ A = 0 H1 : µ B – µ A > 0 Ingresando al menú Herramientas/Análisis de datos/Prueba t para dos muestras suponiendo varianzas iguales se abre el cuadro de diálogo que se muestra en la figura 9.9, que en este caso ya tiene ingresados los datos del problema:

Contrastes de hipótesis 129

Figura 9.9. Cuadro de diálogo de Excel de la prueba t para la diferencia de medias suponiendo varianzas iguales.

Cabe aclarar que los datos del método B fueron ingresados en el rango B1:K1 y los datos del método A fueron ingresados en el rango B2:K2; con lo cual Excel asignó la Variable 1 a las calificaciones del método B y Variable 2 a las calificaciones del método A. Aceptando los datos ingresados en el cuadro de diálogo, se obtiene el siguiente resultado: Media Varianza Observaciones Varianza agrupada Diferencia hipotética de las medias Grados de libertad Estadístico t P(T σCh2 Recuérdese que esta prueba es siempre de una sola cola (derecha), debido a que las tablas F sólo están tabuladas para calcular áreas en la cola derecha de la función F. Ingresando al menú Herramientas/Análisis de datos/Prueba F para varianzas de dos muestras, se abre el cuadro de diálogo que se muestra en la figura 9.12, que ya tiene ingresados los datos del problema. En este caso los datos de la Variable 1 corresponden a Piura y los datos de la Variable 2 a Chiclayo.

Contrastes de hipótesis 133

Figura 9.12. Cuadro de diálogo de la prueba de comparación de varianzas

Aceptando los datos ingresados en el cuadro de diálogo, se obtiene el siguiente resultado. Media Varianza Observaciones Grados de libertad F P(F 30, la curva χ2 se aproxima mucho a una curva normal, y, como sugiere E. Mode, resulta muy buena aproximación emplear la siguiente expresión: z = 2 χ 2 − 2n − 1 y usar la tabla de áreas bajo la curva normal.

10.3 Pruebas de bondad de ajuste. Una prueba de bondad de ajuste es una prueba de hipótesis donde se investiga si una variable aleatoria tiene una distribución dada. Las hipótesis nula y alternativa que se plantean son las siguientes: H0: X tiene una distribución ... (se especifica cuál). H1: X no tiene dicha distribución. Para llevar a cabo esta prueba, se toma una muestra y se elabora una tabla de distribución de frecuencias. Estas frecuencias observadas (fi) se comparan con las frecuencias esperadas o teóricas (fi) que se obtienen a partir de la distribución teórica especificada en la hipótesis nula. Si la muestra, de tamaño n, tiene m frecuencias, se puede demostrar que la siguiente suma: m

( fi − f 'i ) 2

i =1

f 'i



tiene aproximadamente una distribución χ2, con m – 1 grados de libertad, siempre que ninguna frecuencia esperada sea menor de 5. Esto se puede comprobar de la siguiente manera: se toma una muestra de tamaño n y se calcula χ21, luego otra muestra de tamaño n y se calcula χ22, y así sucesivamente hasta tener la suficiente cantidad de valores para construir un histograma. Así, se podrá ver que el polígono de frecuencias correspondiente se parece mucho a la curva χ2 con m – 1 grados de libertad. Se puede apreciar que aquella sumatoria, que se denomina χ2, da una medida de la discrepancia que hay entre las frecuencias observadas y las frecuencias esperadas; por lo que valores grandes de χ2 nos harán rechazar la hipótesis nula. Dependiendo del valor de α, se puede determinar el valor de χ2 que limita las regiones de aceptación y rechazo, lo que permitirá decidir finalmente si se acepta o rechaza la hipótesis nula. Para que la prueba χ2 sea confiable, es recomendable que ninguna frecuencia esperada resulte menor que 5. Esto se consigue agrupando clases vecinas o aumentando el tamaño de la muestra. Es recomendable también que m sea un valor comprendido entre 5 y 20. El número de grados de libertad refleja el hecho de que, en una muestra de tamaño n, tabulada con m frecuencias, existe libertad para asignar valores a m – 1 de ellas; una vez fijadas éstas, la restante queda determinada por la ecuación:

La distribución ji-cuadrada 141

m

∑f

i

=n

i =1

Cabe señalar que, por cada medida descriptiva muestral que se emplee para estimar algún parámetro de la población, ya sea µ o σ , se pierde un grado de libertad. 10.3.1 Distribución multinomial.

A continuación se muestra un caso de prueba de bondad de ajuste de una determinada distribución multinomial. Aunque es recomendable que el número de frecuencias sea mayor que 5 y menor que 15, la prueba es confiable si todas las frecuencias teóricas resultan mucho mayores de 5, como se dijo antes. Ejemplo:

Luego de una investigación se determinó que, aproximadamente el 50% de todos los vehículos que llegan por la avenida Loreto hacia la avenida Sánchez Cerro, hacia el norte, giran hacia la izquierda; el 20% giran a la derecha y el 30% restante siguen hacia el frente. Para verificar esto, un estudiante de Estadística fue a dicha intersección y observó que, de 80 autos, 47 giraron hacia la izquierda, 15 hacia la derecha y 18 siguieron de frente. ¿Son aceptables los porcentajes establecidos, considerando un nivel de significancia del 5%? H0: la cantidad de vehículos que giran en las tres direcciones establecidas siguen una distribución multinomial con probabilidades 0,50; 0,20 y 0,30. H1: no siguen dicha distribución. Según las probabilidades establecidas, y considerando que cada frecuencia esperada es: f ’i = npi, se puede construir la siguiente tabla: Izquierda 0,50 47 40

p f f'

Derecha 0,20 15 16

Frente 0,30 18 24

Entonces:

χ2 =

(47 − 40) 2 (15 − 16) 2 (18 − 24) 2 + + = 2,7875 40 16 24

Para: α = 0,05; n = 2; el valor crítico de χ2 es: χ2* = 5,991 0.6 0.5 0.4 0.3 0.2 0.1 α = 0,05 0 0

1

2

3

4

5

6

7

8

9 10 11 12 13 14 15 16 17 18 19 20 21

Región de aceptación Región de rechazo χ2*=5,991

142

La distribución ji-cuadrada

El valor de χ2 = 2,7875 se encuentra en la región de aceptación, es decir, se acepta H0. Se concluye por lo tanto que la cantidad de vehículos que giran en las tres direcciones establecidas: izquierda, derecha, de frente, siguen una distribución multinomial con probabilidades 0,50; 0,20 y 0,30. Esto equivale a afirmar que los vehículos que siguen tales direcciones están en proporción: 0,50; 0,20 y 0,30; o que el 50%, 20% y 30% siguen dichas direcciones. 10.3.2 Distribución de Poisson.

A continuación se muestra una prueba de bondad de ajuste donde se investiga si una variable aleatoria sigue una distribución aproximadamente de Poisson. Para poder realizar esta prueba se debe estimar el parámetro µ a partir de los datos de la muestra, "perdiéndose" de esta manera un grado de libertad. Ejemplo:

La siguiente tabla muestra la cantidad de fallas diarias que presenta un sistema automático, durante 120 días consecutivos. Fallas diarias Frecuencia

0 31

1 46

2 19

3 14

4 8

5 2

>5 0

¿Se puede afirmar que la cantidad de fallas diarias de este sistema sigue aproximadamente una distribución de Poisson? Emplee α = 0,05. H0: la cantidad de fallas diarias sigue una distribución de Poisson. H1: no siguen dicha distribución. En primer lugar se estima la media de la población:

µ≈x =

31(0) + 46(1) + 19(2) + 14(3) + 8(4) + 3(5) + 0 = 1,4 120

Se puede determinar la varianza de la muestra a partir de la tabla de distribución de frecuencias. Este valor resulta: σ 2 = 1,59, que es aproximadamente el valor de la media, como era de esperarse en una distribución de Poisson. Las frecuencias esperadas, para cada x, se calculan entonces de la siguiente manera: f ' = nP(x) f ' = n⋅

e −µ µ x x!

En la siguiente tabla se presentan los valores de estas frecuencias esperadas o teóricas, junto con las frecuencias observadas. Fallas diarias Frecuencia observada Frecuencia esperada

0 31 29,59

1 46 41,42

2 19 29,00

3 14 13,54

4 8 4,74

5 2 1,32

>5 0 0,39

En este caso, para calcular χ2 conviene agrupar las tres últimas frecuencias, consiguiendo así que todas las frecuencias teóricas sean mayores que 5. χ2 =

(31 − 29,59) 2 (46 − 41,42) 2 (19 − 29) 2 (14 − 13,54) 2 (10 − 6,45) 2 + + + + = 6,02 29,59 41,42 29 13,54 6,45

Considerando que se ha tenido que estimar el parámetro µ de la distribución de Poisson, el número de grados de libertad es: nl = (m – 1) – 1. Entonces: nl = 5 – 1 – 1 = 3

La distribución ji-cuadrada 143

El χ*2 será entonces (tabla del apéndice): 7,815.

α = 0,05

0

1

2

3

4

5

6

7

8

9

10 11 12 13 14 15 16 17 18 19 20

Región de aceptación

Región de rechazo 2

χ *=7,815

Por lo tanto, el χ2 = 6,02 encontrado nos hace aceptar la hipótesis nula; se concluye que la cantidad de fallas diarias sí tiene una distribución de Poisson. 10.3.3 Distribución normal.

En la prueba de bondad de ajuste de una distribución normal es necesario estimar dos parámetros, σ y µ ; por lo que se "pierden" dos grados de libertad. El siguiente ejemplo ilustra cómo se efectúa una prueba de este tipo. Ejemplo:

En un análisis de los diámetros de los pistones de bolas fabricados en un taller, se tomó una muestra de 140 pistones, cuya distribución de frecuencias se muestra en la siguiente tabla. Límites (cm) 7,20 – 7,24 7,25 - 7,29 7,30 - 7,34 7,35 - 7,39 7,40 - 7,44 7,45 - 7,49 7,50 - 7,54 7,55 - 7,59 7,60 - 7,64 7,65 - 7,69

Frecuencia 3 7 12 16 19 24 22 19 12 6

Determine si dichos diámetros se distribuyen normalmente. H0: los diámetros de los pistones siguen una distribución normal. H1: no siguen dicha distribución. En el capítulo 6 (pág. 94) se determinó la curva normal que más se aproxima a estos datos, calculándose las frecuencias esperadas para cada clase. En la siguiente tabla se muestran las frecuencias observadas y las frecuencias esperadas. Nótese que se ha añadido una frecuencia más. f f'

3 2,06

7 5,20

12 10,47

16 17,22

19 23,22

24 25,34

22 22,49

19 16,30

12 9,65

6 4,58

0 1,80

Es necesario agrupar las dos primeras clases y las dos últimas, para conseguir que: f ' > 5. Así entonces:

144

La distribución ji-cuadrada

f f'

10 7,26

12 10,47

16 17,22

19 23,22

24 25,34

22 22,49

19 16,30

12 9,65

6 6,38

Por lo tanto:

χ2 =

(10 − 7,26) 2 (12 − 10,47) 2 (16 − 17,22) 2 (19 − 23,22) 2 (24 − 25,34) 2 ( 22 − 22,49) 2 + + + + + + 7,26 10,47 17,22 23,22 25,34 22,49

+

(19 − 16,30) 2 (12 − 9,65) 2 (6 − 6,38) 2 + + = 5,464 16,30 9,65 6,38

El número de grados de libertad es: n = 9 – 1 – 2 = 6. Entonces, para α = 0.05: χ*2 = 12,59 > 5,464. Por lo tanto se acepta la hipótesis nula; es decir, que los diámetros de los pistones sí se distribuyen normalmente.

10.4 Pruebas de independencia: tablas de contingencia. En este tipo de pruebas se investiga si existe alguna relación entre dos variables cualitativas, cada una de las cuales se clasifica en atributos. Ejemplo

Se quiere investigar si existe alguna relación entre el desempeño en el trabajo de los empleados de una empresa y la formación académica de dichos empleados. La primera variable se clasifica en excelente, bueno y regular; y la segunda en primaria, secundaria y superior. Esta clasificación se puede expresar con mucha claridad en una tabla de contingencia, como se ve a continuación. Desempeño Muy bueno Bueno Regular Total

Primaria

Formación Secundaria

Superior

10%

40%

50%

Total 40% 30% 30%

Los registros de esta empresa muestran que, en promedio, el 10%, 40% y 50% de todos los empleados de esta fábrica tienen formación primaria, secundaria y superior, respectivamente. Además, el 40%, 30% y 30% tienen rendimiento muy bueno, bueno y regular, respectivamente. Para realizar la investigación se toma una muestra de 150 empleados, cumpliendo con los porcentajes antes mencionados, obteniéndose el resultado que muestra la siguiente tabla. Desempeño Muy bueno Bueno Regular Total

Primaria 8 3 4 15

Formación Secundaria 25 19 16 60

Superior 27 23 25 75

Total 60 45 45 150

Para determinar si hay alguna relación entre las dos variables se asume que ambas son independientes, y, bajo esta hipótesis (hipótesis nula), se determinan las frecuencias esperadas. La hipótesis alternativa expresa que dichas variables no son independientes. H0: la formación académica y el desempeño laboral son independientes. H1: no son independientes.

La distribución ji-cuadrada 145

La probabilidad de que un empleado elegido al azar tenga formación académica X y desempeño Y, es: P(X ∩Y) = P(X) P(Y \ X) Pero, como se está asumiendo que X e Y son independientes: P(X ∩ Y) = P(X) P(Y) Las frecuencias esperadas para cada uno de los casilleros de la tabla se determinan multiplicando el tamaño de la muestra por cada una de las probabilidades: f '(X ∩Y) = n P(X ∩Y) Así, por ejemplo: P (desempeño muy bueno y formación primaria) = 0,40 × 0,10 = 0,04 f '(desempeño muy bueno y formación primaria) = 150 × 0,04 = 6 P (desempeño bueno y formación primaria) = 0,30 × 0,10 = 0,03 f '(desempeño bueno y formación primaria) = 150 × 0,03 = 4,5 En la siguiente tabla se muestran todas las frecuencias esperadas. Desempeño Excelente Bueno Regular Total

Primaria 6 4,5 4,5 15

Formación Secundaria 24 18 18 60

Superior 30 22,5 22,5 75

Total 60 45 45 150

Así como en las pruebas de bondad de ajuste, la suma:



( f i − f 'i ) 2 f 'i

también tiene una distribución χ2 con nl grados de libertad. Si la tabla de contingencia tiene p filas y q columnas, el número de grados de libertad es: nl = (p – 1)( q – 1) ya que será necesario conocer, como mínimo, (p – 1)( q – 1) frecuencias para que el resto queden determinadas. Entonces:

χ2 =

(8 − 6) 2 (25 − 24) 2 (27 − 30) 2 (3 − 4,5) 2 (19 − 18) 2 (25 − 22,5) 2 + + + + + ... + = 2,1306 22,5 6 24 30 4,5 18

El número de grados de libertad es, en este caso: n = (3 – 1)(3 – 1) = 4. Como χ2 mide la discrepancia entre las frecuencias observadas y las frecuencias esperadas, valores muy grandes de χ2 nos harán rechazar la hipótesis nula. El valor de χ*2, por encima del cual se rechazará la hipótesis nula, considerando un nivel de significancia del 5%, será igual a 9,488 (tabla del apéndice). El valor de χ2 = 2,1306 < 9,488 ; por lo tanto se acepta H0, concluyéndose que en esta empresa sí hay independencia entre la formación académica y el desempeño en el trabajo.

146

La distribución ji-cuadrada

Un caso especial de las pruebas de independencia es el que emplea tablas de contingencia de 2×2. En estos casos el número de grados de libertad es igual a 1, y se suele emplear e factor de corrección de Yates, para corregir el error de aproximación que se comete al ajustar la distribución χ2 a la distribución que sigue la suma ∑ (fi – f 'i)2 / f 'i. Si una tabla de 2 × 2 tiene las siguientes frecuencias observadas: Y1 Y2 Total

X1 a c a+c

X2 b d b+d

Total a+b c+d n

entonces, el valor de χ 2 se puede calcular con la siguiente fórmula alternativa:

χ = 2

n ( ad − bc − n / 2) 2 (a + b) (a + c) (c + d ) (b + d )

En estas pruebas de independencia, cuanto mayor es el tamaño de la muestra, más confiables son los resultados. Cuando el número de grados de libertad es mayor que 1, se considera que una muestra es lo suficientemente grande si f 'i > 5,. Si nl es igual a 1 (tablas de 2×2), entonces se requiere que f 'i > 10.

10.5 Pruebas de hipótesis respecto a la varianza. Teorema:

Sea s2 la varianza de una muestra de tamaño n, extraída de una población con distribución normal con varianza σ 2. Entonces: n s2

tiene una distribución χ2 con n – 1 grados de libertad.

σ2

Recuérdese que en la fórmula de la varianza de una muestra, s2, se emplea n en el denominador; pero cuando la muestra extraída es pequeña conviene usar n – 1 en vez de n. Sea sn-12 la varianza así definida. Entonces: (n − 1) s n −1 2

σ

2

también tiene una distribución x2 con n – 1 grados de libertad.

Aunque no se demostrará este teorema, se puede comprobar de la siguiente manera: se toma una muestra de tamaño n y se calcula ns12/σ2, luego otra muestra de tamaño n y se calcula ns22/σ2, y así sucesivamente hasta tener la suficiente cantidad de valores para construir un histograma. Se podrá comprobar que el polígono de frecuencias correspondiente se parece mucho a la curva χ2 con m – 1 grados de libertad. Ejemplo:

Supóngase que los pesos de las bolsas de leche que se producen en una fábrica tienen una distribución aproximadamente normal con una varianza igual a 0,025 l. El jefe de producción decide hacer algunos ajustes en la máquina llenadora. Una vez efectuado esto, se sospecha que la variabilidad de los pesos ha aumentado considerablemente, pues en una muestra de 60 bolsas se encontró una varianza de 0,032 l. ¿Indica este resultado que la variabilidad realmente ha aumentado? Considere α = 0.05 H0: σ 2 = 0,025 H1: σ 2 > 0,025

χ2 =

n s2

σ

2

=

60 × 0,032 = 76,8 0,025

La distribución ji-cuadrada 147

n = 60 – 1 = 59 Como n > 30, se emplea la distribución normal como aproximación a la distribución χ2. Valores muy grandes de χ2, por encima de χ2*, nos harán rechazar H0 en favor de H1. z * = 1,645 = 2 χ 2 − 2n − 1 = 2 χ * 2 − 2(59) − 1

χ*2 = 77,646 < 76,8 ; entonces se acepta H0. Se concluye que la variabilidad no ha aumentado. La varianza obtenida en la muestra no es lo suficientemente grande como para aceptar que la variabilidad ha aumentado.

10.6 La distribución ji-cuadrada en Excel Excel cuenta con algunas funciones que pueden ser útiles en las distintas pruebas de hipótesis con la distribución ji-cuadrada. A continuación se explica lo que realiza cada una de esas funciones: • DISTR.CHI: calcula la probabilidad de exceder un valor determinado de ji-cuadrado. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresan dos datos: el valor de ji-cuadrado y el número de grados de libertad. • PRUEBA.CHI: calcula la probabilidad de exceder el valor de ji-cuadrado que mide la discrepancia entre m frecuencias observadas y sus correspondientes teóricas en una prueba de bondad de ajuste. Esta función presenta el inconveniente que considera m – 1 grados de libertad, independientemente del número de parámetros que se hayan estimado para calcular las frecuencias teóricas. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde están las frecuencias observadas y las teóricas. • PRUEBA.CHI.INV: calcula el valor de ji-cuadrado para una determinada probabilidad de excederlo. Excel presenta un cuadro de diálogo donde se ingresan dos datos: la probabilidad y el número de grados de libertad.

148

La distribución ji-cuadrada

Problemas propuestos. 1. Se está probando un programa informático generador de números aleatorios. Las instrucciones del programa originan 100 dígitos entre 0 y 9 con las siguientes frecuencias: Entero Frecuencia

0 11

1 8

2 7

3 7

4 10

5 10

6 8

7 11

8 14

9 14

¿Existe evidencia suficiente para pensar que los dígitos no están siendo generados en forma aleatoria? Sea α = 0,10. 2. Suponga que la Secretaría Académica de la UDEP afirma que, aproximadamente, el 40% de los alumnos estudian Ingeniería, el 20% Administración de Empresas, otro 20% Educación, el 15% Información y el 5% Derecho. Además, el 70% del alumnado proviene del departamento de Piura, el 20% de Lambayeque, el 5% de La Libertad, y el 5% restante de otros departamentos y países. a) Se toma una muestra aleatoria de 80 alumnos, y se encuentra que 35 estudian Ingeniería, 18 Administración, 12 Educación, 12 Información y 3 Derecho. ¿Es consistente este resultado con lo que afirma la Secretaría Académica? Respuesta: El resultado sí es consistente. b) Se desea investigar si el lugar de procedencia influye en la elección de la carrera, para lo cual se toma una muestra de 200 alumnos. ¿Cómo debe estar constituida la muestra? 3. Suponga que la calidad de un producto ha dado una desviación estándar igual a 8,1. Una muestra de 30 unidades de dicho producto da una desviación estándar de 9,5 ¿Existe una evidencia de que la variabilidad ha aumentado? Sea α = 0,10. 4. En los primeros niveles de la Facultad de Ciencias de una Universidad, cada semestre, aproximadamente el 38% de los alumnos de los cursos de matemáticas son repitentes. Además, el 32% de los alumnos de estos cursos suelen salir aprobados. El Director de Estudios quiere investigar si la fracción de alumnos de matemáticas que aprueban es siempre la misma, ya sea que fueran repitentes o no. Para esto toma una muestra aleatoria de 50 alumnos, encontrando que 9 de los repitentes están aprobados. a) ¿Cómo debe estar compuesta la muestra de 50 alumnos? Respuesta: Repiten 19, no repiten 31, aprueban 16, no aprueban 34. b) ¿Cuál será el resultado de la investigación? Considere α = 0.10. Respuesta: La fracción de aprobados es independiente de la condición (repitentes o no) 5. Los alumnos que ingresaron a la Facultad de Ingeniería este semestre han sido clasificados en 4 grupos, según su nivel socio-económico, tal como se indica: A 12

B 20

C 31

D 33

a) Investigue si los alumnos que ingresan a la Facultad de Ingeniería pertenecen indistintamente a los distintos niveles. Respuesta: No pertenecen indistintamente a los distintos niveles. b) Investigue si en la Facultad de Ingeniería la mayoría pertenece a los niveles medios (B y C). Respuesta: La mayoría no pertenece a los niveles medios. 6. El director de un colegio quiere investigar si existe mayor tendencia, por parte de los alumnos de Ingeniería, a escoger la carrera de Ingeniería Industrial. Para esto toma una muestra de 13 alumnos que encontró conversando en el tercer piso del edificio de Ingeniería y realiza una prueba χ2. Discuta el método empleado. 7. La desviación estándar de los diámetros de ciertas piezas de precisión que se producen en una fábrica es 0,0865. El jefe de control de calidad sospecha que la calidad ha bajado y que por lo tanto tiene una desviación estándar mayor. Para estar seguro de su afirmación, extrae aleatoriamente una muestra de 25 piezas y calcula la desviación estándar. ¿En que rango tendría que estar este valor para que se confirmen sus sospechas? Sea α = 0,10.

La distribución ji-cuadrada 149

8. Un profesor de una Universidad ha diseñado un test mediante el cual determinará la carrera que debe seguir un alumno promocional de secundaria, según sus aptitudes y preferencias. Según las estadísticas de los últimos años, el 39% de los alumnos que están por salir del colegio desea estudiar Ingeniería, el 15% Medicina, el 7% Derecho, el 30% Administración de Empresas, Economía o Contabilidad, y el resto otras carreras o nada. Se toma el test a un grupo de 50 alumnos promocionales en Piura, obteniendo el siguiente resultado. Ing. 25

Med. 9

Derecho 3

A.E.C. 10

Otros 3

¿Qué conclusión daría usted? Sea α = 0,10. 9. Los pagos mensuales de 204 estudiantes que trabajan parte de su tiempo se distribuyen así: Pagos ($) 78 - 82 83 - 87 88 - 92 93 - 97 98 - 102 103 - 107 108 - 112 113 - 117 118 - 122 123 - 127 128 - 132

Nº estudiantes 6 12 16 22 30 35 32 20 15 10 6

Investigue la hipótesis de que la frecuencia observada se aproxima a una distribución normal. Considere α = 0.05 10. De los 210 alumnos que ingresaron a la Facultad de Ingeniería este año, 77 desean seguir Ing. Industrial, 60 desean Ing. Civil y 73 desean Ing. Mecánica Eléctrica. a) ¿Es consistente este resultado con la hipótesis de que el 40% de los alumnos seguirán Ing. Industrial, el 25% Ing. Civil y el 35% Ing. Mecánica eléctrica? Respuesta: Sí es consistente, hasta para α = 0.10. b) ¿Y será consistente con la hipótesis de que los alumnos se distribuirán uniformemente en los tres programas? Respuesta: Sí es consistente, hasta para α = 0,10. 11. Las estaturas de 200 empleados se distribuyen así: Estaturas (en metros) 1,51 – 1,55 1,56 – 1,60 1,61 – 1,65 1,66 – 1,70 1,71 – 1,75 1,76 – 1,80 1,81 – 1,85

Frecuencia observada 9 20 45 55 43 17 11

Investigue la hipótesis de que tales estaturas se distribuyen normalmente. Considere α = 0,05. 12. Durante este año, en una fábrica que elabora artículos metálicos se han registrado 50 accidentes laborales, lo cual ha provocado retrasos en la producción. El jefe de seguridad tiene interés en saber en qué días de la semana ocurren los accidentes. A partir de los siguientes datos, ¿se puede afirmar que los accidentes son igualmente probables en los cinco días de la semana? Día de la semana Número de accidentes

Lunes 12

Martes 7

Miércoles 8

Jueves 10

Viernes 13

150

Estimación puntual y de intervalo

Capítulo 11. Estimación puntual y de intervalo 11.1 Introducción Con mucha frecuencia se realizan experimentos o se toman datos con el propósito de estimar algunos valores o parámetros que no son conocidos con mucha exactitud. Por ejemplo: en una fábrica de aceite se emplea una máquina que llena automáticamente las botellas con un volumen “fijo”. En la práctica, resulta que ese volumen no es “tan fijo”, y el fabricante necesita estimar periódicamente cuál es el volumen de llenado promedio. Evidentemente no le conviene que las botellas estén demasiado llenas, pues resultarían costosas; ni que les falte mucho aceite, pues puede ser demandado por los consumidores. Además, es importante para el fabricante determinar la variabilidad del llenado de botellas. Para ello tendrá que estimar la varianza, para luego poder realizar los ajustes necesarios, y reducir al máximo dicha varianza. En cada caso, ya sea para estimar el volumen de llenado promedio o la varianza del llenado, se pueden hacer dos tipos de estimaciones: puntual y de intervalo.

11.2 Estimación puntual. Se hace una estimación puntual de un parámetro, cuando se elige un valor único para dicho parámetro. Por ejemplo, se puede estimar el volumen de llenado promedio de las botellas en una fábrica de aceite, tomando una muestra y calculando la media aritmética. A este resultado se le denomina estimado puntual. Supóngase que una variable aleatoria X tiene una distribución que está determinada, salvo por un parámetro θ. Si se toma una muestra x1, x2, ..., xn, y se escoge una función θˆ ( x1 , x 2 , ..., x n ) para estimar el parámetro desconocido, a la variable aleatoria θˆ se le denomina estimador puntual, y el valor que toma es el estimado puntual de θ . Pueden existir muchos estimadores para un parámetro θ. En el caso de la media poblacional µ, podrían considerarse como estimadores: la media muestral, la mediana muestral, el valor más frecuente o moda. La variable aleatoria θˆ es un estimador no sesgado del parámetro θ si su valor esperado es igual a θ. Si los valores estimados tienden a ser muy grandes o muy pequeños, entonces θˆ es un estimador sesgado. A la diferencia θ – E( θˆ ) se le denomina sesgo. La variable aleatoria θˆ es un estimador eficiente del parámetro θ si la varianza de θˆ no es mayor que la varianza de cualquier otro estimador de θ. La media muestral x es un estimador no sesgado de la media del universo: E(x) = µ La proporción p1 es un estimador no sesgado de la proporción p: E(p1) = p La varianza muestral sn-1 es un estimador no sesgado de σ : E(sn-1) = σ Se puede demostrar que s es un estimador sesgado de σ , pues E(s) resulta diferente a σ.

Estimación puntual y de intervalo 151

11.3 Estimación por intervalos. Un parámetro se puede estimar dando un intervalo dentro del cual resulte probable incluir a dicho parámetro. Esta probabilidad, que mide el grado de confianza de la estimación, depende del tamaño que se le dé al intervalo. Los estimadores de intervalo siempre serán funciones de la muestra. Se podría afirmar, por ejemplo, que el promedio de llenado de las botellas en una fábrica de aceite está comprendido entre 749,2 y 751,7 ml., con una probabilidad de 0,90. Este es un intervalo de confianza del 90%. Entonces hay una probabilidad de 0,10 de que el verdadero promedio de llenado no esté en dicho intervalo. A continuación se verá la metodología que se debe seguir para determinar intervalos de confianza de parámetros poblacionales. Será fácil para el lector verificar que estos intervalos coinciden con la región de aceptación de las pruebas de hipótesis de dos colas. 11.3.1 Intervalo de confianza para la media poblacional.

Para determinar un intervalo de confianza del 100(1 – α) % para una media poblacional, se extrae primeramente una muestra, se calcula la media muestral y, si no se conoce la varianza del universo, la varianza muestral. Como se vio en el capítulo 8 (pág.113), la media muestral se distribuye normalmente si la población es normal o, si la población no es normal y la muestra es lo suficientemente grande (n ≥ 50). Si se conoce la varianza de la población o se estima con una muestra suficientemente grande, entonces los límites de confianza del intervalo se determinan a partir de la siguiente expresión: ± z *=

x−µ σ/ n

Los límites de confianza se obtienen despejando µ para cada signo del primer miembro de esta ecuación. En la figura 11.1 se representa el intervalo de confianza del 100(1 – α) %.

1-α

α/ 2

α/ 2

–z*

+z*

z

Figura 11.1. Intervalo de confianza de la media poblacional cuando se conoce σ

Ejemplo:

Determine un intervalo de confianza del 90 % del peso de las bolsas de harina que se llenan en una máquina automática, si una muestra de 60 bolsas dio una media de 0,996 Kg. y una desviación estándar de 0,03 Kg. Para α/2 = 5% ⇒ z = ±1,645 Por lo tanto: ± 1,645 * = Despejando:

0,996 − µ 0,03 / 60

µ = 0,996 ± 0,0064

152

Estimación puntual y de intervalo

Por lo tanto se puede afirmar que la media poblacional se encuentra en el siguiente intervalo, con un 90% de confianza: 0,9896 < µ < 1,0024 Si una población es normal y se desconoce la varianza de dicha población, entonces los límites de confianza del intervalo se determinan a partir de la siguiente expresión: x−µ

± t *=

s / n −1

Los límites de confianza se obtienen despejando µ para cada signo del primer miembro de esta ecuación. Ejemplo:

Determine un intervalo de confianza del 95 % del peso de las bolsas de harina que se llenan en una máquina automática, si una muestra de 40 bolsas dio una media de 0,996 Kg. y una desviación estándar de 0,022 Kg. Para α /2 = 2,5%; n – 1 = 39 grados de libertad ⇒ t* = ±2,0227 Por lo tanto: ± 2,0227 =

0,996 − µ 0,022 / 39

Despejando:

µ = 0,996 ± 0,0071 Por lo tanto se puede afirmar que la media poblacional se encuentra en el siguiente intervalo, con un 95% de confianza: 0,9889 < µ < 1,0031 11.3.2 Intervalo de confianza para la diferencia de medias.

Para determinar un intervalo de confianza del 100(1 – α) % para la diferencia de las medias de dos poblaciones, se sigue el mismo procedimiento del apartado anterior, empleando las distribuciones normal y t de Student correspondientes, según sea el caso.

± z *=

(x − y) − ( µx − µ y ) 2

± t *=

2

σy σx + nx ny

(x − y) − ( µx − µ y )  nx sx 2 + nx s y 2   n x + n y −2 

 1   + 1    nx n y   

En cada caso se llegará a determinar dos valores para la diferencia (µ x – µ y ), que son precisamente los límites del intervalo de confianza. 11.3.3 Intervalo de confianza para la proporción p.

Dada una variable aleatoria binomial X, la proporción X/n, denominada p1, se distribuye normalmente alrededor de p, con una desviación estándar igual a pq / n , cuando np y nq > 5. La variable normal estandarizada que corresponde a p1 es la siguiente: ± z *=

p1 ±

1 −p 2n pq n

Estimación puntual y de intervalo 153

Se determinan los límites del intervalo de confianza del 100(1 – α) % para p, empleando la ecuación anterior, donde z toma los valores +z* y -z*. El signo que tome el factor de corrección dependerá de lo siguiente: si los límites están incluidos en el intervalo (a ≤ p ≤ b), el factor de corrección será positivo para +z* y negativo para -z*, como se muestra en la figura 11.2a. Si los límites no están incluidos en el intervalo (a < p < b), el signo será negativo para +z* y positivo para –z*, como se muestra en la figura 11.2b.

1-α

1-α

- f.c.

z

+ f.c. - z*

+z*

+ f.c.

+z*

- z*

Figura 11.2a. Intervalo a ≤ p ≤ b

z

- f.c.

Figura 11.2b. Intervalo a < p < b

Es importante considerar que la distribución de una proporción, que es binomial, será aproximadamente normal sólo cuando np y nq > 5. Si no se cumplen estas condiciones, debe emplearse la distribución binomial para determinar los intervalos de confianza. Ejemplo:

Una compañía de teléfonos quiere averiguar qué porcentaje de sus clientes de Piura estaría dispuesto a suscribirse a Internet por cable. Selecciona aleatoriamente a 300 clientes y encuentra que 36 de éstos sí se suscribirían. Haga una estimación de intervalo con un 95% de confianza de la proporción de clientes que se suscribirían a Internet por cable. Para α /2 = 2,5% ⇒ z = ±1,96 Además: p1 = 36/300 = 0,12 Se va a determinar un intervalo de confianza del tipo: a ≤ p ≤ b. Por lo tanto se plantean las siguientes ecuaciones: 0,12 + + 1,96 =

1 −p 2(300)

p (1 − p) 300

0,12 − ;

− 1,96 =

1 −p 2(300)

p(1 − p) 300

De la primera ecuación resulta: p2 – 0,2529p + 0,014616 = 0

⇒ p = 0,08938

De la segunda ecuación resulta: p2 – 0,246317p + 0,013826 = 0⇒ p = 0,15979

Por lo tanto, el intervalo de confianza del 95% es: 0,08938 ≤ p ≤ 0,15979

154

Estimación puntual y de intervalo

Si se quisiera determinar un intervalo de confianza del tipo: a < p < b, se plantearían las siguientes ecuaciones: 0,12 − + 1,96 =

1 −p 2(300)

p(1 − p ) 300

0,12 + ;

− 1,96 =

1 −p 2(300)

p (1 − p) 300

De la primera ecuación resulta: p2 – 0,246317p + 0,013826 = 0 ⇒ p = 0,08652

De la segunda ecuación resulta: p2 – 0,2529p + 0,014616 = 0

⇒ p = 0,16352

Por lo tanto, el intervalo de confianza del 95% es: 0,08652 < p < 0,16352 11.3.4 Intervalo de confianza para la diferencia de proporciones.

Dada dos variables aleatorias binomiales X e Y, la proporción X/nx, denominada p1, se distribuye normalmente alrededor de px, con una desviación estándar igual a p x q x / n x , cuando nx px y ny py son mayores que 5; y la proporción Y/ny, denominada p2, se distribuye normalmente alrededor de py, con una desviación estándar igual a p y q y / n y , cuando nx px y ny py son mayores que 5. Asimismo, la diferencia X – Y se distribuye normalmente alrededor de px – py, con una desviación estándar igual a px qx py q y . + nx ny Para determinar un intervalo de confianza del 100(1 – α) % para la diferencia de las proporciones de dos poblaciones, se sigue el mismo procedimiento de los apartados anteriores, empleando la aproximación normal :

( p1 − p2 ) − ( px − p y ) ± ± z* =

nx + n y 2 nx n y

.

px qx p y q y + nx ny

Para poder despejar px – py de las dos ecuaciones que se planteen (una para cada signo), es necesario hacer las siguientes estimaciones de punto en el denominador: px =

x ; nx

py =

y ny

11.3.5 Intervalo de confianza para la varianza.

Recuérdese que si se extrae una muestra de tamaño n de un universo normal con varianza σ 2, ns2/σ 2 tiene una distribución ji-cuadrada con n – 1 grados de libertad. Recuérdese también que es equivalente emplear (n − 1) s n2−1 / σ 2 o ns2/σ 2. Así, para determinar un intervalo de confianza del 100(1 – α) % (figura 11.3) para la varianza de una población normal, se usan las siguientes ecuaciones:

χ α2 / 2 =

ns 2

σ 12

χ 12− α / 2 =

ns 2

σ 22

Estimación puntual y de intervalo 155

De esta forma se determina el intervalo: σ1 2 < σ 2 < σ2 2

α/2

1-α

α/2 χ2

χ21-α /2

χ2α /2 Figura 11.3. Intervalo de confianza para la varianza

Ejemplo:

El dueño de una hamburguesería ha visto que conocer la variabilidad del número de hamburguesas que vende diariamente es muy importante para una buena administración de su negocio. Determine un intervalo de confianza del 90% de la varianza del número de hamburguesas que vende diariamente, si a partir de los registros de las ventas del último mes (30 días) se ha calculado una desviación estándar de 7,25 unidades. Para: α /2 = 5% ; n – 1 = 29 grados de libertad.

χ α2 / 2 = χ 02,05 = 42,5569 =

30(7,25) 2

χ 12−α / 2 = χ 02,95 = 17,7084 =

σ

2 1

30(7,25) 2

σ

2 2





σ 12 = 37,0533 σ 22 = 89,0467

Por lo tanto, el intervalo de confianza del 90% de la varianza es: 37,0533 < σ 2 < 89,0467 El intervalo de confianza del 90% de la desviación estándar es: 6,0871 < σ < 9,4365

11.4 Intervalo de confianza para la media en Excel Excel cuenta con la función INTERVALO.CONFIANZA dentro de las funciones que se despliegan al ejecutar el icono fx o al entrar al menú Insetar/Función. Al ejecutar esta función INTERVALO.CONFIANZA, Excel presenta el cuadro de diálogo de la figura 11.4. Al ingresar los datos, el resultado que muestra Excel es el rango que hay entre la media y los intervalos de confianza que se quieren determinar. Nótese que entre los datos que se ingresan al cuadro de diálogo de la figura 11.4 está la desviación estándar de la población y no está la media de la muestra. A continuación se resuelve el ejemplo de la sección 11.3.1, cuyo texto se repite por comodidad.

156

Estimación puntual y de intervalo

Ejemplo:

Determine un intervalo de confianza del 90 % del peso de las bolsas de harina que se llenan en una máquina automática, si una muestra de 60 bolsas dio una media de 0,996 Kg. y una desviación estándar de 0,03 Kg.

Figura 11.4. Cuadro de diálogo para determinar el intervalo de confianza de la media

El resultado que muestra Excel es : 0,00637049 ≅ 0,0064 Por lo tanto el intervalo de confianza es: 0,996 ± 0,0064; que es el mismo resultado que se obtuvo en la sección 11.3.1.

Estimación puntual y de intervalo 157

Problemas propuestos. 1. Se hizo una encuesta antes de las elecciones municipales en la ciudad de Piura a una muestra de 100 votantes. De éstos, el 40% declaró que votarían por Gerardo Guzmán para Alcalde. Calcule el intervalo de confianza de 90% para la proporción de la ciudad que votaría por Guzmán. Respuesta: 0,318 ≤ p ≤ 0,486 2. Haga una estimación de intervalo del porcentaje de alumnos de la Facultad de Ingeniería que tienen índice académico acumulado mayor que 14, con una confiabilidad del 95%, utilizando una muestra de 45 alumnos. En dicha muestra se encontró que 27 tienen índice académico acumulado mayor que 14. 3. Determine el intervalo de confianza del 95% de la cantidad promedio de dólares que tienen los cambistas del Jirón Arequipa de Piura, si se ha tomado una muestra de 10 cambistas y los resultados son los siguientes, en dólares: 5 255; 1 452; 2 236; 400; 860; 1 290; 3 030; 1 620, 750; 3 600. 4. Una muestra de 60 barras de manjar blanco producidas por una empresa da los siguientes pesos (en gramos): 499,6 497,2 502,2 500,0

498,3 499,3 497,9 499,6

500,3 499,5 500,7 502,9

501,7 500,2 501,2 497,7

501,6 499,5 502,5 499,0

502,3 499,6 499,9 496,6

497,2 499,5 499,3 501,9

499,7 501,7 500,9 498,3

501,4 499,9 499,5 499,2

498,6 499,8 501,0 501,0

499,1 499,3 498,1 500,6

497,8 502,6 498,9 501,1

497,6 501,1 498,0 500,8

498,7 503,1 499,5 498,2

499,0 499,1 500,0 498,5

Determine un intervalo de confianza del 98% de: a) el peso promedio de las barras de manjar blanco que produce la empresa. b) la desviación estándar del peso de las barras de manjar blanco que produce la empresa. 5. Un fabricante de fármacos está preocupado por el tiempo promedio que tarda en hacer efecto una pastilla para el dolor de cabeza “tensional”. Si en una muestra de 20 pacientes se obtuvieron los siguientes tiempos (en minutos): 34,85 34,93 36,10 33,50 34,22 29,10 35,11 33,11 38,22 35,23 36,63 34,68 33,46 31,97 37,96 33,72 40,03 30,05 35,51 31,51

Determine un intervalo de confianza del 95% de: a) el tiempo promedio que tarda dicha pastilla en hacer efecto. b) la desviación estándar del tiempo que tarda dicha pastilla en hacer efecto. 6. El jefe de un taller mecánico toma una muestra de 35 unidades producidas durante una semana, y mide una desviación estándar de 0,07 cm. del diámetro de dichas unidades. Determine un intervalo de confianza del 90% de la varianza de los diámetros de las unidades producidas en el taller. Respuesta: 13,3232 < σ 2 < 49,5174 7. El gerente de una empresa que se dedica a la venta de automóviles ha tomado una muestra de 300 clientes de distintas empresas, encontrando que 112 compraron su auto hace 10 años o más. Calcule el intervalo de confianza del 95% para la proporción de personas que compraron su auto hace 10 años o más. Considere los dos tipos de intervalo. 8. En una muestra de alumnos universitarios de Lima se encontró que, de 300 mujeres y de 350 hombres entrevistados, 223 y 187 respectivamente, veían alguna telenovela. Determine el intervalo de confianza del 95% de la diferencia entre las proporciones de universitarios mujeres y hombres que ven alguna telenovela. 9. En una muestra de 400 alumnos universitarios de Piura se encontró que 312 ven algún programa político los domingos en la televisión. Determine el intervalo de confianza del 95% de la proporción de alumnos universitarios de Piura que ven algún programa político los domingos.

158

Diseño de experimentos y análisis de varianza

Capítulo 12. Diseño de experimentos y análisis de varianza 12.1 Introducción. Para comparar las medias aritméticas de dos poblaciones, se toma una muestra de cada población y, mediante una prueba de hipótesis, se hace la comparación de medias, usando la distribución normal o la distribución t de Student. En este capítulo se ve una nueva herramienta estadística, llamada análisis de varianza, que permite hacer una comparación de dos o más de dos medias poblacionales, a partir de muestras tomadas de dichas poblaciones. A continuación se dan algunos ejemplos de comparaciones de medias poblaciones: • La acción limpiadora de tres posibles fórmulas mejoradas de una marca de detergente. • Las eficiencias de tres métodos de enseñanza de programación. • La pérdida de peso de ciertas piezas mecánicas debido a la fricción, usando tres tipos de lubricante. • Las alturas de cierto tipo de planta después de tres meses de sembrarlas usando distintos tipos de riego y fertilizante. • La resistencia a la compresión de varios tipos de concreto. • El número de errores que se cometen, durante una semana, en cuatro laboratorios. • La productividad que se obtiene empleando tres procesos distintos de producción.

12.2 Diseño de experimentos. 12.2.1 Definiciones

Los datos recolectados para la comparación de medias pueden proceder de encuestas o de experimentos diseñados, según sea el propósito. Como se dijo en el capítulo 1, se denomina experimento a la reproducción controlada de un fenómeno cualquiera que ocurre en la naturaleza. Queda en evidencia entonces que un experimento es controlado. Se denominan unidades experimentales a los elementos (personas u objetos) sobre los que se va a experimentar para obtener las medidas que se desea comparar. Por ejemplo, para comparar la acción limpiadora de tres posibles fórmulas mejoradas de una marca de detergente, se requiera aplicar dichas fórmulas a algunas prendas de vestir (unidades experimentales); luego se comparará la limpieza de las prendas limpiadas con las distintas fórmulas. Las unidades experimentales se dividen en grupos experimentales y, si es conveniente, en un grupo de control. Los grupos experimentales y el grupo de control son sometidos a distintos tratamientos. Por ejemplo, las prendas de vestir se pueden dividir en tres grupos experimentales, cada uno de los cuales es sometido a una distinta fórmula mejorada (tratamientos).

Diseño de experimentos y análisis de varianza 159

El grupo de control, cuando existe, estará sometido al tratamiento habitual. Por ejemplo, un grupo de prendas de vestir se puede someter a la fórmula limpiadora que se emplea actualmente, es decir, al tratamiento habitual. En conclusión, todas las unidades experimentales son sometidas a distintos tratamientos, para luego medir y promediar los resultados de dichos tratamientos. En el ejemplo, existe una forma de medir la limpieza de cada prenda de vestir, y, será posible entonces, comparar las limpiezas promedio de cada grupo de prendas de vestir. Generalmente, sobre las unidades experimentales actúan, además de los tratamientos, factores externos que influyen en los resultados del experimento. Esta acción de los factores externos suele llevar a conclusiones erróneas, salvo que se sepan controlar. Hay dos formas de controlar la acción de los factores externos: • Aleatorización: se asignan aleatoriamente las unidades experimentales a los grupos experimentales y al grupo de control, para que cada grupo tenga la misma probabilidad de ser afectado por los factores externos. Por ejemplo, si se tienen 30 prendas de vestir de distinto material, se puede controlar la distinta acción limpiadora de las tres fórmulas de detergente sobre los distintos materiales, repartiendo aleatoriamente las prendas de vestir en los tres grupos. • Formación de bloques: se forman boques de unidades experimentales en cada grupo, de tal forma que tales bloques sean homogéneos respecto a los factores externos que se desea eliminar. Por ejemplo, si se tienen 30 prendas de vestir de cuatro tipos de material, se pueden formar cuatro bloques (uno de cada tipo de material) en cada grupo. De esta manera, los tres grupos se verán igualmente afectados por este factor externo que es el tipo de material. 12.2.2 Diseño completamente aleatorizado

Se dice que el diseño de un experimento es completamente aleatorizado cuando se asignan las unidades experimentales a los distintos grupos en forma aleatoria. 12.2.3 Diseño aleatorizado por bloques

Se dice que el diseño de un experimento es aleatorizado por bloques cuando se forman boques de unidades experimentales en cada grupo, de tal forma que tales bloques sean homogéneos respecto a los factores externos que se desea eliminar. En cada bloque puede haber una o más unidades experimentales. 12.2.4 Errores en los datos de los experimentos

En un experimento se pueden cometer dos tipos de error: aleatorios y no aleatorios. • Error aleatorio o experimental: es la diferencia entre la medida obtenida del resultado de un experimento y la obtenida promediando los resultados de varios experimentos: e A = xi − x • Error no aleatorio o sesgo: es la diferencia entre la medida obtenida promediando los resultados de varios experimentos y la medida verdadera: e N = x − µ

12.3 Análisis de varianza: ANOVA El análisis de varianza, o ANOVA, compara dos o más medias de distintas poblaciones. Para esto extrae una muestra de cada población y analiza qué tan dispersas están las medias de dichas muestras, es decir, qué tanto difieren entre sí. Para que el análisis de varianza tenga validez se requiere que las poblaciones muestreadas sean normales y que las varianzas de dichas poblaciones sean iguales. Una estimación de esta varianza común, σ2, que sería también la varianza de todas las muestras, estará conformada por dos varianzas: la varianza entre las medias de las muestras y la varianza promedio dentro de las muestras. Para entender la naturaleza del análisis de varianza, supóngase que se quiere averiguar si son

160

Diseño de experimentos y análisis de varianza

iguales o no las medias de tres poblaciones: µ 1, µ 2 y µ 3. Para esto, se extrae una muestra de cada población, cuyas medidas se expresan en la figura 12.1. Se asume que el investigador sólo conoce las medias muestrales. µ1

x x x

x

µ2

x

x

x

x

x1

x

µ3

x x

x

x

x2

x x

x x

x

x3

Figura 12.1. Muestreos con medias muy diferentes

A simple vista se podría afirmar (figura 12.1) que µ 1, µ 2 y µ 3 son diferentes, pues las tres medias muestrales son muy diferentes (recuerde el lector que no se conocen las medias poblacionales). Analíticamente, se podría llegar a la misma conclusión calculando la varianza que hay entre las medias de las muestras. Si esta varianza es grande, indicará que las medias muestrales difieren mucho; pero, ¿cómo determinar a partir de qué valor se puede afirmar que la varianza es grande? Una forma muy práctica de hacerlo es comparándola con la varianza promedio de los datos de las muestras. Así, si la varianza que hay entre las medias de las muestras es significativamente mayor que la varianza que hay dentro de las muestras, se puede afirmar que las medias poblacionales difieren significativamente. Supóngase ahora que se quiere averiguar si las medias de las tres poblaciones representadas en la figura 12.2 son iguales o no. Nuevamente el lector debe asumir que no conoce las medias poblacionales; aunque en la figura se aprecien estos valores. µ1

x

xx

µ2

µ3

x x x x x x x xx x x x x x

x1

x2

x

x3

Figura 12.2. Muestreos con medias diferentes

Se aprecia en la figura 12.2 que las medias muestrales son diferentes; pero esta vez difieren menos. La varianza entre las medias muestrales es, en este caso, ligeramente mayor que la varianza promedio dentro de las muestras. Nuevamente se podrá afirmar que las medias poblacionales difieren significativamente. Supóngase, finalmente, que se desea averiguar si las medias de las tres poblaciones representadas en la figura 12.3 son iguales o no. Nuevamente el lector debe asumir que no conoce las medias poblacionales, aunque en la figura se aprecie que estos valores son iguales. µ1 = µ2 = µ3

xx11

x xx x x x x xx x xx x xx xx x

x2x 2

x3 Figura 12.3. Muestreos con medias diferentes

Diseño de experimentos y análisis de varianza 161

En esta última situación, la varianza entre las medias muestrales es menor que la varianza promedio dentro de las muestras, lo cual indica que las medias muestrales no difieren significativamente. Se concluye entonces que las medias poblacionales son iguales. Ahora se entiende cómo un análisis de las varianzas permite probar si las medias de varias poblaciones son iguales o no. En caso que no sean iguales, se podría probar que una de las medias poblacionales es la mayor (o la menor) mediante una prueba de hipótesis entre las dos con mayor (o menor) media muestral. 12.3.1 Análisis de varianza de un factor

Se denomina análisis de varianza de un factor o unidireccional, al análisis que se hace cuando los factores externos se controlan mediante un diseño completamente aleatorio del experimento. Entonces, se considera que el único factor que actúa sobre las unidades experimentales son los tratamientos. En el ejemplo anterior de las distintas fórmulas nuevas de detergente que se aplican a distintos grupos de prendas de vestir, los tratamientos serán precisamente las distintas fórmulas del detergente. Si se quiere comparar las medias de k poblaciones, se plantean las siguientes hipótesis: H0 : µ1 = µ2 = … = µk H1 : Al menos una media es diferente

Como se dijo antes, la varianza total está conformada por dos varianzas: la varianza entre las medias de las muestras y la varianza promedio dentro de las muestras. La varianza de las medias muestrales se conoce como varianza explicada y, según el teorema del límite central, será:

σ x2 =

σ E2 n

donde:σE2 es la varianza explicada de las poblaciones, ya que se asume que éstas tienen la misma varianza, y n es el número de datos de cada muestra. La varianza de las medias muestrales puede ser estimada por la varianza de las medias de las k muestras: k

s x2 =

∑ (x

i

− x)2

i =1

k −1

Por lo tanto, despejando de la ecuación anterior, la varianza explicada sE2 resulta: k

n

∑ (x

i

− x)2

i =1

s E2 ≅

k −1

En esta expresión, al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados de los tratamientos (PPT). La varianza promedio dentro de las muestras se conoce como varianza no explicada o error, pues se atribuye al azar. Esta varianza constituye otra estimación de la varianza de la población. Para estimar la varianza no explicada se calcula, en primer lugar, la varianza de cada muestra: n

s i2 =

∑ (x

ij

− xi ) 2

j =1

n −1

donde: xij es el j-ésimo dato de la muestra i; xi es la media de la muestra i, y n es el número de datos de la muestra.

162

Diseño de experimentos y análisis de varianza

El promedio de las varianzas de las i muestras será la varianza no explicada: k

s N2 =

n

∑ ∑ (x i =1

ij

− xi ) 2

j =1

(n − 1) k

En esta última expresión, al numerador se le conoce como suma de los cuadrados del error (SSE), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados del error (PPE). Para determinar si la varianza explicada o varianza de los tratamientos es mayor que la varianza no explicada o varianza del error, se hace la Prueba F de comparación de varianzas. Recuérdese que si ocurre esto ( σ E2 > σ N2 ), se podrá afirmar que la varianza de los tratamientos es muy grande, y por lo tanto se podrá afirmar que las medias de los tratamientos difieren significativamente. Se plantean entonces las siguientes hipótesis: H0 : σ E2 = σ N2 H1 : σ E2 > σ N2

Como se vio en la sección 9.7, se aceptará la hipótesis nula si: F =

s E2 s N2

σ N2 H1 : σ ET

Para los bloques:

2 = σ N2 H0 : σ EB 2 H1 : σ EB > σ N2

Se aceptará cada hipótesis nula si: FT =

FB =

2 s ET

s N2 2 s EB

s N2

< FT *

< FB *

2 Si se acepta la primera hipótesis nula (H0: σ ET = σ N2 ), se estaría aceptando que las medias de los tratamientos no difieren significativamente, es decir, que las medias de los tratamientos son iguales (H0: µ1 = µ2 = … = µk).

Diseño de experimentos y análisis de varianza 165

2 Igualmente, si se acepta la hipótesis nula (H0: σ EB = σ N2 ), se estaría aceptando que las medias de los bloques no difieren significativamente, es decir, que las medias de los bloques son iguales (H0: µ1 = µ2 = … = µn).

Tabla ANOVA

Los valores que se calculan para este análisis de varianza suelen expresarse en una tabla, como se muestra en la tabla 12.2. Tabla 12.2. Tabla ANOVA de dos factores sin interacción Suma de cuadrados SST SSB SSE SSTOT

Variaciones Entre tratamientos Entre bloques Error Total

Grados de Promedio de F libertad los cuadrados k–1 PPT = SST / (k – 1) PPT / PPE n–1 PPB = SSB / (n – 1) PPB / PPE (n – 1) (k – 1) PPE = SSE / [(n – 1) (k – 1)] nk – 1

F* FT* FB*

Ejemplo 2:

El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto, asigna cinco empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal que cada máquina sea operada por empleados de los cinco niveles en los que se les ha clasificado previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de mayor nivel académico. En la tabla adjunta se muestra la producción diaria. Máq. 1 16 15 20 19 22

Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5

Máq. 2 17 20 19 22 24

Máq. 3 20 17 17 23 25

¿Se puede afirmar que las tres máquinas tienen la misma productividad? En primer lugar, se plantean las siguientes hipótesis: Para los tratamientos: (máquinas)

H0 : µ1 = µ2 = µ3 H1 : Al menos una media es diferente

Para los bloques: (niveles académicos)

H0 : µ1 = µ2 = µ3 = µ4 = µ5 H1 : Al menos una media es diferente

A continuación se calculan las medias de los tratamientos, de los bloques y la media total:

Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5

xi

Máq. 1

Máq. 2

Máq. 3

xj

16 15 20 19 22 18,4

17 20 19 22 24 20,4

20 17 17 23 25 20,4

17,667 17,333 18,667 21,333 23,667 19,733

La varianza explicada de los tratamientos sET2 resulta: 3

5 2 s ET ≅

∑ (x

i

− 19,733) 2

i =1

3 −1

=

13,333 = 6,667 2

166

Diseño de experimentos y análisis de varianza

La varianza explicada de los bloques sEB2 resulta: 5

3

∑ (x

j

− 19,733) 2

j =1

2 s EB ≅

5 −1

=

87,6 = 21,9 4

La varianza no explicada sN2 resulta: 3

s N2 =

5

∑ ∑ (x i =1

ij

− x i − x j + 19,733) 2

j =1

(5 − 1) (3 − 1)

=

26 = 3,25 8

En la siguiente tabla se expresan estas varianzas. El lector puede verificar fácilmente los valores de F y sus correspondientes valores críticos. Considere α = 0,05. Variaciones Entre tratamientos Entre bloques Error Total

Suma de cuadrados 87,6 13,3333 26 126,9333

Grados de libertad 4 2 8 14

Promedio de los cuadrados 21,9 6,6667 3,25

F

F*

6,7385 2,0513

3,8379 4,4590

Resulta entonces: FT > FT*; por lo tanto se rechaza la hipótesis nula de comparación de varian2 zas (H0: σ ET = σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3). Se puede afirmar entonces que las tres máquinas no tienen la misma productividad. Además: FB < FB*; por lo tanto se acepta la hipótesis nula de comparación de varianzas (H0: 2 σ EB = σ N2 ) y se acepta también la hipótesis nula de medias (H0: µ1 = µ2 = µ3 = µ4 = µ5). Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos de los empleados. 12.3.3 Análisis de varianza de dos factores, con interacción entre los factores.

Nuevamente se consideran dos factores que actúan sobre las unidades experimentales: los tratamientos y el factor externo que se desea eliminar mediante la formación de bloques; pero esta vez se considera la posibilidad de que haya interacción entre los factores. Se podría dar el caso, por ejemplo, de que un grupo de empleados de cierto nivel académico sean más productivos que un grupo de otro nivel, si operan cierta máquina; pero con las otras máquinas podrían tener menor productividad. Esto indicaría que hay interacción entre el nivel académico y el tipo de máquina. Para probar si hay interacción entre los dos factores es necesario diseñar el experimento por bloques con al menos dos datos para cada combinación tratamiento – bloque. De esta manera se pueden investigar las hipótesis: Para los tratamientos:

H0 : µ1 = µ2 = … = µk H1 : Al menos una media es diferente

Para los bloques:

H0 : µ1 = µ2 = … = µn H1 : Al menos una media es diferente

Para la interacción:

H0 : Los factores no interactúan respecto a la variable investigada. H1 : Los factores sí interactúan respecto a la variable investigada.

En este caso se consideran tres varianzas explicadas: de los tratamientos, de los bloques y de la interacción.

Diseño de experimentos y análisis de varianza 167

Si r es el número de datos en cada combinación tratamiento – bloque, y n el número de bloques en cada muestra, el número total de datos que hay en cada muestra es nr; por lo tanto la varianza explicada de los tratamientos sET2 se calcula con la expresión: n⋅r

k

∑ (x

− x)2

i

i =1

2 s ET ≅

k −1

Al numerador se le conoce como suma de los cuadrados de los tratamientos (SST), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados de los tratamientos (PPT). La varianza explicada de los bloques se calcula con una expresión similar. El número de bloques es n, y el número de datos en cada bloque es kr. La varianza explicada de los bloques será entonces:

k ⋅r

n

∑ (x

− x)2

j

j =1

2 s EB ≅

n −1

Al numerador se le conoce como suma de los cuadrados de los bloques (SSB), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados de los bloques (PPB). Se considera que hay interacción entre los dos factores que actúan sobre las unidades experimentales si la diferencia entre la media de los r datos de una combinación tratamiento – bloque y la media total ( xij − x ) difiere de la suma de dos diferencias: una entre la media del tratamiento correspondiente y la media total ( xi − x ) , y otra entre la media del bloque correspondiente y la media total

( x j − x ) . Así, para todas las combinaciones tratamiento – bloque, estas diferencias miden la interacción entre los factores. La interacción, para cada combinación tratamiento – bloque se mide entonces con la expresión: I = ( x ij − x ) – [ ( xi − x ) + ( x j − x ) ] Simplificando, cada interacción resulta: I = xij − xi − x j + x La interacción total se mide con la varianza explicada de la interacción, que se calcula entonces con la siguiente expresión: k

r 2 s EI =

n

∑∑ ( x

ij

− xi − x j + x ) 2

i =1 j =1

(n − 1) (k − 1)

Al numerador se le conoce como suma de los cuadrados de la interacción (SSI), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados de la interacción (PPI). La varianza no explicada o error es: k

s N2 =

n

r

∑∑∑ ( x

ijh

− x ij ) 2

i =1 j =1 h =1

nk (r − 1)

En esta última expresión, al numerador se le conoce como suma de los cuadrados del error

168

Diseño de experimentos y análisis de varianza

(SSE), y el denominador representa el número de grados de libertad. A este cociente también se le llama promedio de los cuadrados del error (PPE). Para determinar si cada una de las tres varianzas explicadas es mayor que la varianza no explicada o varianza del error, se hacen tres Pruebas F de comparación de varianzas: Para los tratamientos:

2 H0 : σ ET = σ N2 2 > σ N2 H1 : σ ET

Para los bloques:

2 H0 : σ EB = σ N2 2 > σ N2 H1 : σ EB

Para la interacción:

2 = σ N2 H0 : σ EI 2 H1 : σ EI > σ N2

Se aceptará cada hipótesis nula si: FT = FB = FI =

2 s ET

s N2 2 s EB

s N2 2 s EI

s N2

< FT * < FB * < FI *

2 = σ N2 ), se estaría aceptando que las medias de los trataSi se acepta la hipótesis nula (H0: σ ET mientos no difieren significativamente, es decir, que las medias de los tratamientos son iguales (H0: µ1 = µ2 = … = µk). 2 = σ N2 ), se estaría aceptando que las medias de los bloques Si se acepta la hipótesis nula (H0: σ EB no difieren significativamente, es decir, que las medias de los bloques son iguales (H0: µ1 = µ2 = … = µn). 2 Si se acepta la hipótesis nula (H0: σ EI = σ N2 ), se estaría aceptando que las interacciones medidas en cada combinación tratamiento – bloque son muy pequeñas, es decir, que no hay interacción.

Tabla ANOVA

Los valores que se calculan para este análisis de varianza se expresan en la tabla 12.3. Tabla 12.3. Tabla ANOVA de dos factores con interacción Variaciones Entre tratamientos Entre bloques Interacción Error Total

Suma de cuadrados SST SSB SSI SSE SSTOT

Grados de Promedio de F libertad los cuadrados k–1 PPT = SST / (k – 1) PPT / PPE n–1 PPB = SSB / (n – 1) PPB / PPE (n – 1) (k – 1) PPI = SSI / [(n – 1) (k – 1)] PPI / PPE nk (r – 1) PPE = SSE / [nk (r – 1)] nk – 1

F* FT* FB* FI*

Ejemplo 3:

El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado

Diseño de experimentos y análisis de varianza 169

previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de mayor nivel académico. Como es probable que haya interacción entre el tipo de máquina y el nivel académico de los empleados, respecto a la productividad de éstos, se consideraron dos empleados para cada combinación tipo de máquina – nivel académico. En la tabla adjunta se muestra la producción diaria. M1 14 16 11 13 18 20 17 21 20 26

1 2 3 4 5

M2 20 16 21 22 17 16 22 21 25 28

M3 15 17 18 21 15 15 21 23 24 25

¿Se puede afirmar que las tres máquinas tienen la misma productividad? Se plantean las siguientes hipótesis: Para los tratamientos: (máquinas)

H0 : µ1 = µ2 = µ3 H1 : Al menos una media es diferente

Para los bloques: (niveles académicos)

H0 : µ1 = µ2 = µ3 = µ4 = µ5 H1 : Al menos una media es diferente

Para la interacción:

H0 : No hay interacción entre el tipo de máquina y el nivel académico de los empleados, respecto a la productividad de éstos. H1 : Sí hay interacción entre dichos factores.

A continuación se calculan las medias para cada tratamiento, para cada bloque, la media total y la media de cada combinación nivel académico – tipo de máquina (entre paréntesis):

xj

M1

M2

M3

14

20

15

(15)

(18)

(16)

16 11

16 21

17 18

(12)

(21,50)

(19,50)

13 18

22 17

21 15

(19)

(16,50)

(15)

20 17

16 22

15 21

(19)

(21,50)

(22)

21 20

21 25

23 24

5

(23)

(26,50)

(24,50)

24,667

xi

26 17,60

28 20,80

25 19,40

19,267

1

2

3

4

16,333

17,667

16,833

20,833

170

Diseño de experimentos y análisis de varianza

Aplicando las fórmulas recientemente descritas para calcular las tres varianzas explicadas y la varianza no explicada o error, se completa la tabla ANOVA que se muestra a continuación: Variaciones Entre tratamientos Entre bloques Interacción Error Total

Suma de cuadrados 51,4667 292,2 97,2 55 495,8667

Grados de libertad 2 4 8 15 29

Promedio de los cuadrados 25,7333 73,05 12,15 3,6667

F

F*

7,0182 19,9227 3,3136

3,6823 3,0556 2,6408

Resulta entonces: FT > FT*; por lo tanto se rechaza la hipótesis nula de comparación de varian2 zas (H0: σ ET = σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3). Se puede afirmar entonces que las tres máquinas no tienen la misma productividad. Además: FB > FB*; por lo tanto se rechaza la hipótesis nula de comparación de varianzas (H0: 2 σ EB = σ N2 ) y se rechaza también la hipótesis nula de medias (H0: µ1 = µ2 = µ3 = µ4 = µ5). Se puede afirmar entonces que la productividad no es la misma en los distintos niveles académicos de los empleados. Finalmente, FI > FI*; por lo tanto se rechaza la hipótesis de que no hay interacción. Se puede afirmar entonces que el tipo de máquina y el nivel académico sí interactúan, lo cual afecta la productividad de los empleados.

12.4 Análisis de varianza en Excel 12.4.1 Análisis de varianza de un factor

En este apartado se va a resolver el ejemplo 1, resuelto en el apartado 12.3.1.Por comodidad, se repite el texto y el planteamiento de este problema. Ejemplo 1:

Se quiere evaluar tres métodos de capacitación del personal de una fábrica. El jefe de capacitación selecciona 15 nuevos obreros y los distribuye aleatoriamente en los tres métodos. Una vez terminada la capacitación, los obreros comienzan a trabajar y se les anota la producción semanal de cada uno de ellos. ¿Hay diferencia de eficacia entre los tres métodos de capacitación? Método 1 Método 2 Método 3

16 20 19

Producción diaria 17 19 13 25 17 18 24 16 19

21 21 17

La hipótesis que se plantearon son: H0 : µ1 = µ2 = µ3 H1 : Al menos una media es diferente Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de un factor, Excel muestra el cuadro de diálogo de la figura 12.4. En este cuadro ya se han ingresado los datos del problema, que en la hoja de cálculo figuran entre las celdas A1 y E3. Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es un resumen de los datos del problema, incluyendo medias y varianzas; y la segunda es la tabla ANOVA del problema, como se muestra a continuación:

Diseño de experimentos y análisis de varianza 171

Figura 12.4. Cuadro de diálogo del ANOVA de un factor

La tabla ANOVA que presenta Excel tiene una columna más que la tabla ANOVA presentada en el apartado 12.3.1, con P = 0,3337; que representa la probabilidad de que se obtenga un valor de F mayor o igual a 1,2042. Lógicamente, si esta probabilidad es mayor que α; se rechazará H0. RESUMEN Grupos Fila 1 Fila 2 Fila 3 ANÁLISIS DE VARIANZA Origen de las Suma de variaciones cuadrados Entre grupos 22,8 Dentro de los grupos 113,6 Total

136,4

Cuenta 5 5 5

Grados de libertad 2 12

Suma 86 101 95

Promedio 17.2 20.2 19

Promedio de los cuadrados 11,4 9,4667

Varianza 9.2 9.7 9.5

F

Probabilidad

1,2042

0,3337

Valor crítico para F 3,8853

14

Resulta: F < F*; por lo tanto se acepta la hipótesis nula (H0: σ E2 = σ N2 ) y se acepta también la hipótesis nula (H0: µ1 = µ2 = µ3). Se puede afirmar entonces que los tres métodos de capacitación son igualmente eficientes. 12.4.2 Análisis de varianza de dos factores, sin interacción.

En este apartado se va a resolver el ejemplo 2, resuelto en el apartado 12.3.2. Por comodidad, se repite el texto y el planteamiento de este problema. Ejemplo 2:

El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de mayor nivel académico. En la tabla adjunta se muestra la producción diaria.

172

Diseño de experimentos y análisis de varianza

¿Se puede afirmar que las tres máquinas tienen la misma productividad? Nivel 1 Nivel 2 Nivel 3 Nivel 4 Nivel 5

Máq. 1 16 15 20 19 22

Máq. 2 17 20 19 22 24

Máq. 3 20 17 17 23 25

En primer lugar, se plantean las siguientes hipótesis: Para los tratamientos: (máquinas)

H0 : µ1 = µ2 = µ3 H1 : Al menos una media es diferente

Para los bloques: (niveles académicos)

H0 : µ1 = µ2 = µ3 = µ4 = µ5 H1 : Al menos una media es diferente

Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de dos factores con una sola muestra por grupo, Excel muestra el cuadro de diálogo de la figura 12.5. En este cuadro ya se han ingresado los datos del problema, que están entre las celdas B2 y D6.

Figura 12.5. Cuadro de diálogo del análisis de varianza con dos factores, sin interacción.

Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es un resumen de los datos del problema, incluyendo medias y varianzas; y la segunda es la tabla ANOVA del problema, como se muestra a continuación: RESUMEN Fila 1 Fila 2 Fila 3 Fila 4 Fila 5

Cuenta 3 3 3 3 3

Suma 49 50 50 63 73

Promedio 16.3333 16.6667 16.6667 21 24.3333

Varianza 2.3333 26.3333 2.3333 3 6.3333

Columna 1 Columna 2 Columna 3

5 5 5

85 105 95

17 21 19

17.5 15.5 15

Como se puede ver en esta tabla y en la tabla ANOVA que se muestra a continuación, lo que Excel denomina filas corresponde a los bloques (niveles académicos) y lo que denomina columnas corresponde a los tratamientos (tipos de máquina).

Diseño de experimentos y análisis de varianza 173

ANÁLISIS DE VARIANZA Origen de las Suma de variaciones cuadrados Filas 151,3333 Columnas 40 Error 40,6667 Total

Grados de libertad 4 2 8

232

Promedio de los cuadrados 37,8333 20 5,08333

F

Probabilidad

7,4426 3,9344

0,0084 0,0646

Valor crítico para F 3,8379 4,4590

14

Para las filas resulta: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3). Se puede afirmar entonces que las tres máquinas no tienen la misma productividad. Para las columnas: F < F*; por lo tanto se acepta la hipótesis nula (H0: µ1 = µ2 = µ3 = µ4 = µ5). Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos de los empleados. El lector debe llegar a estas mismas dos conclusiones interpretando los valores de Probabilidad, tal como se hizo en el apartado anterior. 12.4.3 Análisis de varianza de dos factores, con interacción.

En este apartado se va a resolver el ejemplo 3, resuelto en el apartado 12.3.3. Por comodidad, se repite el texto y el planteamiento de este problema. Ejemplo 3:

El gerente de producción de una fábrica quiere evaluar tres máquinas. Para esto asigna cinco empleados a cada máquina, distribuyéndolos de acuerdo a su nivel académico, de manera tal que cada máquina sea operada por empleados de los cinco niveles en que se les ha clasificado previamente. De esta forma ninguna máquina se verá favorecida al asignarle más operarios de mayor nivel académico. Como es probable que haya interacción entre el tipo de máquina y el nivel académico de los empleados, respecto a la productividad de éstos, se consideraron dos empleados para cada combinación tipo de máquina – nivel académico. En la tabla adjunta se muestra la producción diaria.

1 2 3 4 5

M1 14 16 11 13 18 20 17 21 20 26

M2 20 16 21 22 17 16 22 21 25 28

M3 15 17 18 21 15 15 21 23 24 25

¿Se puede afirmar que las tres máquinas tienen la misma productividad? Se plantean las siguientes hipótesis: Para los tratamientos: (máquinas)

H0 : µ1 = µ2 = µ3 H1 : Al menos una media es diferente

Para los bloques: (niveles académicos)

H0 : µ1 = µ2 = µ3 = µ4 = µ5 H1 : Al menos una media es diferente

174

Diseño de experimentos y análisis de varianza

Para la interacción:

H0 : No hay interacción entre el tipo de máquina y el nivel académico de los empleados, respecto a la productividad de éstos. H1 : Sí hay interacción entre dichos factores.

Ingresando al menú Herramientas/Análisis de datos/Análisis de varianza de dos factores con varias muestras por grupo, Excel muestra el cuadro de diálogo de la figura 12.6. En este cuadro ya se han ingresado los datos del problema.

Figura 12.6. Cuadro de diálogo del análisis de varianza con dos factores, con interacción.

Hay dos particularidades en el cuadro de diálogo de Excel para este análisis que incluye la posible interacción entre los factores (figura 12.6). La primera es que en el rango de entrada deben incluirse no sólo los datos (valores numéricos) sino también los títulos de las filas y columnas. A continuación se presentan los datos de este problema, tal como se escribieron en la hoja de cálculo de Excel: A 1 2 3 4 5 6 7 8 9 10 11

1 2 3 4 5

B

C

D

M1 14 16 11 13 18 20 17 21 20 26

M2 20 16 21 22 17 16 22 21 25 28

M3 15 17 18 21 15 15 21 23 24 25

La segunda particularidad es la opción Fila por muestra del mismo cuadro de diálogo de la figura 12.6, donde se debe indicar el número de datos que hay en cada combinación tratamiento – bloque. En este problema hay 2 datos por cada combinación. Aceptando los datos ingresados en el cuadro de diálogo, Excel presenta dos tablas: la primera es un resumen de los datos de cada bloque y de cada tratamiento, incluyendo sus respectivas medias y varianzas; y la segunda es la tabla ANOVA del problema, como se muestra a continuación:

Diseño de experimentos y análisis de varianza 175

RESUMEN 1

M1

M2

M3

Total

Cuenta Suma Promedio Varianza

2 30 15 2

2 36 18 8

2 32 16 2

6 98 16.3333 4.2667

2 24 12 2

2 43 21.5 0.5

2 39 19.5 4.5

6 106 17.6667 21.4667

2 38 19 2

2 33 16.5 0.5

2 30 15 0

6 101 16.8333 3.7667

2 38 19 8

2 43 21.5 0.5

2 44 22 2

6 125 20.8333 4.1667

2 46 23 18

2 53 26.5 4.5

2 49 24.5 0.5

6 148 24.6667 7.0667

10 176 17.6 19.3778

10 208 20.8 14.8444

10 194 19.4 15.1556

2 Cuenta Suma Promedio Varianza

3 Cuenta Suma Promedio Varianza

4 Cuenta Suma Promedio Varianza

5 Cuenta Suma Promedio Varianza

Total Cuenta Suma Promedio Varianza ANÁLISIS DE VARIANZA Origen de las Suma de variaciones cuadrados Muestra 292,2 Columnas 51,4667 Interacción 97,2 Dentro del grupo 55 Total

495,8667

Grados de libertad 4 2 8 15

Promedio de los cuadrados 73,05 25,7333 12,15 3,6667

F

Probabilidad

19,9227 7,0182 3,3136

7E-06 0,007057 0,021807

Valor crítico para F 3,0556 3,6823 2,6408

29

Para las muestras resulta: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3). Se puede afirmar entonces que las tres máquinas no tienen la misma productividad. Para las columnas: F > F*; por lo tanto se rechaza la hipótesis nula (H0: µ1 = µ2 = µ3 = µ4 = µ5). Se puede afirmar entonces que la productividad es la misma en los distintos niveles académicos de los empleados.

176

Diseño de experimentos y análisis de varianza

Para la interacción: F > F*; por lo tanto se rechaza la hipótesis de que los factores interactúan. Se puede afirmar entonces que el tipo de máquina y el nivel académico sí interactúan, lo cual afecta la productividad de los empleados. El lector debe llegar a estas mismas tres conclusiones interpretando los valores de Probabilidad de la tabla ANOVA, tal como se hizo en el ejemplo 1.

Diseño de experimentos y análisis de varianza 177

Problemas propuestos. 1. El Departamento de Investigación de la Facultad de Agronomía de una universidad quiere investigar el crecimiento de un tipo de planta sometida a uno de tres tipos de riego y a uno de cuatro fertilizantes. Considerando que no hay interacción entre el tipo de riego y el fertilizante, se diseñó un experimento aleatorizado por bloques, sembrando doce plantas del mismo tamaño en un terreno cuya calidad del suelo es homogénea, de tal manera que cada planta fue sometida a un tipo de riego y a un fertilizante. En la siguiente tabla se muestran los crecimientos de las plantas (en cm.) después de 6 meses. Tipo de riego A B C

Fertilizante 2 3 30 38 55 54 60 35

1 52 44 36

4 50 45 48

Determine si el crecimiento es el mismo, independientemente del tipo de riego y del fertilizante. Considere α = 0,05. 2. Se seleccionaron muestras aleatorias independientes de tres poblaciones. Los datos se muestran a continuación, junto con la salida de la tabla ANOVA de un software. Se considera α = 0,05. Muestra 1 2.1 3.3 0.2

Muestra 2 4.4 2.6 3

Muestra 3 1.1 0.2 2

ANOVA Fuente Entre grupos Dentro de los grupos Total

Suma de cuadrados 7,726666667 8,293333333

GL 2 6

16,02

8

Promedio de los cuadrados 3,863333333 1,382222222

F 2,79502

P 0,138739

a) Localice varianza entre las muestras. ¿Qué tipo de variabilidad se mide con esta cantidad? b) Localice la varianza dentro de las muestras ¿Qué tipo de variabilidad se mide? c) ¿Se acepta Ho: µ1=µ2= µ3 contra la hipótesis alternativa que al menos una media poblacional difiere de las otras dos? ¿Por qué? d) ¿A qué conclusión llega? 3. El jefe de un taller quiere investigar si el promedio de resistencia de unas láminas es el mismo para tres temperaturas y tres presiones aplicadas durante la producción. A continuación se muestran los datos obtenidos y la tabla ANOVA de Excel, incompleta. Se considera α = 0,05. a) Complete la tabla ANOVA b) ¿A qué conclusiones puede llegar? Temperatura Presión Baja

Mediana

Alta

Baja

66 56 72 109 103 100 164 133 132

83 82 88 98 64 113 140 154 162

Mediana

80 77 93 131 148 152 79 67 45

86 81 81 136 127 146 64 108 72

Alta

92 90 119 53 63 67 59 48 50

121 106 121 74 73 93 58 51 58

178

Diseño de experimentos y análisis de varianza

ANÁLISIS DE VARIANZA Origen de las

Suma de

Grados de

Promedio de

variaciones

cuadrados

libertad

los cuadrados

F

para F

0,006616254 1,92315E-07 1,07475E-16

Muestra Columnas Dentro del grupo

39715,77778 8187,666667

Total

58041,33333

Interacción

Valor crítico

Probabilidad

4. Un fabricante de llantas está investigando el desgaste de tres marcas distintas. Para esto se seleccionaron 6 llantas de cada marca y se colocaron en 18 autos, en la misma posición. Después de recorrer 5 000 km. se tuvieron los siguientes desgastes: Marca A Marca B Marca C

211 145 190

231 168 210

235 161 230

204 134 160

222 187 205

208 125 201

Diga si existe evidencia estadística para concluir que las tres marcas de llanta no difieren en la resistencia al desgaste. Excel proporciona la siguiente tabla ANOVA para un diseño completamente aleatorizado con un nivel de significancia (α) del 5%. Variaciones Entre grupos Dentro de los grupos

Suma de cuadrados

Grados de lib.

Prom. cuadrados

F

17422,86111 6508,041667

2 15

8711,43055 433,869444

20,0784606

Prob.

F*

5,737E-05 3,68231667

Total

Respuesta: No, se afirma que las tres marcas de llanta sí difieren en la resistencia al desgaste. 5. Un profesor de matemáticas quiere investigar si el aprendizaje en un determinado tema es el mismo empleando cualquiera de tres métodos: A, B o C. Se escogen aleatoriamente treinta alumnos de distintos colegios, y se les distribuye también aleatoriamente en tres aulas, de tal manera que en cada una se les enseña el tema con un método. En la siguiente tabla se muestran las evaluaciones de los alumnos después de concluidas las clases. Método A Método B Método C

15 13 19

16 18 17

18 19 20

11 15 14

15 17 18

14 16 16

14 12 15

13 15 15

16 16 17

14 18 18

¿Se puede afirmar que con los tres métodos se obtiene el mismo resultado? Considere α = 0,05. Respuesta: Sí se puede afirmar que con los tres métodos se obtiene el mismo resultado 6. Cuando se hace un análisis de varianza se investiga: a) si las varianzas de varias poblaciones difieren, para comparar eficiencias. b) si las medias de varias poblaciones difieren, lo cual se constata comparando las varianzas de las muestras extraídas de dichas poblaciones. c) si las medias de varias muestras difieren. d) ninguna de las anteriores. 7. Cuando se hace el análisis de varianza con un solo factor, ¿la variabilidad de todos los datos depende de la variabilidad de los tratamientos o de la variabilidad dentro de los tratamientos? 8. Cuando se hace el análisis de varianza con dos factores que no interactúan, ¿importa si se denominan indistintamente los tratamientos y los grupos?

Regresión lineal simple y correlación 179

Capítulo 13. Regresión lineal simple y correlación. 13.1 Introducción. El propósito de este capítulo es determinar la relación que existe entre dos variables X e Y, que representan dos características de un universo, con el propósito de predecir una en términos de la otra. Se podría establecer, por ejemplo, qué relación hay entre: • • • • • •

El gasto en publicidad y las ventas mensuales en una empresa. La resistencia del cemento y el tiempo de envejecimiento. La rapidez en una línea de producción y el porcentaje de unidades defectuosas. Los residuos de cloro en una piscina y el número de horas después de que ha sido tratada. La resistencia a la compresión de un suelo y la profundidad de éste. La frecuencia de reparaciones en un auto y la edad del auto.

13.2 Regresión. En cada uno de los ejemplos dados se puede ver que existe una asociación entre una variable X, llamada variable independiente o de predicción, y otra Y, llamada variable dependiente o variable respuesta. Evidentemente las variables de predicción serán, para cada ejemplo: • • • • • •

El gasto de publicidad. El tiempo de envejecimiento del cemento. La rapidez en la línea de producción. El número de horas después que ha sido tratada la piscina. La profundidad del suelo. La edad del auto.

En el análisis de regresión sólo se examinan variables entre las cuales la relación no es causal. En los ejemplos mencionados, no es posible establecer una relación causa-efecto entre las dos variables. No sería correcto decir, por ejemplo, que las ventas mensuales y en una empresa son altas debido al alto gasto de publicidad x, pues, aunque las ventas sí dependan de la publicidad, no las causan, ya que hay muchas otras razones por las que se hacen las ventas. Tampoco se puede decir que un cemento tiene una resistencia y debido a que se ha envejecido un tiempo x, pues la resistencia depende de ese tiempo, pero el tiempo de envejecimiento no causa dicha resistencia. Ni se puede afirmar que en una piscina hay y partes por millón de cloro debido a que hace exactamente x horas fue tratada; esto último influye pero no es la causa. Así, en muchas otras situaciones, no se debe confundir una influencia que pueda ejercer una variable sobre otra, con causalidad. Un caso donde sí hay una relación causa-efecto es el siguiente: si a un motor se le inyecta cierto flujo de gasolina, adquirirá una velocidad determinada. Pero esto no se puede estudiar mediante un análisis estadístico; de esto se ocupa otra ciencia. La palabra regresión fue usada por Francis Galton (1822–1911) cuando notó que las características promedio de la siguiente generación de un grupo en particular tendían hacia las características promedio de la población general, más que hacia las de la generación previa de ese grupo. A esta tendencia le llamó regresión hacia la media de la población. Sean X e Y variables de predicción y respuesta, respectivamente. Según lo dicho antes, no será posible predecir con exactitud un valor de Y para ciertos valores de X; pero sí se podrá estimar un promedio de Y para todos los casos en que X tome un determinado valor x. Para poder hacer esto será

180

Regresión lineal simple y correlación

necesario tomar una serie de mediciones y1, y2, ..., yn, correspondientes a los valores x1, x2, ..., xn, y estimar una función matemática que describa el comportamiento de la variable respuesta, dados los valores de la variable de predicción. Una forma muy práctica para vislumbrar qué tipo de función puede ser útil es representar todas las parejas de valores (x, y) en un sistema de coordenadas cartesianas. A este gráfico se le conoce como diagrama de dispersión. El siguiente paso es estimar aquella función empleando un método muy aceptado por todos, denominado: Método de los mínimos cuadrados. Si dicha función es lineal, se le denomina modelo lineal simple. Lineal, pues lo es en los parámetros que la determinan, y simple porque emplea una sola variable de predicción (X). Se puede afirmar que la variable de predicción (X) no es una variable aleatoria pues sus valores son fijos o se dan previamente. La variable de predicción está controlada, y por lo tanto no existen errores de observación. En la práctica, esto último no siempre es cierto, pero tales errores resultan despreciables. En cambio la variable respuesta (Y) sí es aleatoria pues los valores que toma no están determinados.

13.3 La recta de regresión de la población. Si la relación entre las variables X e Y es lineal, el modelo que más se ajusta es la recta de regresión de la población, que se puede estimar mediante la recta de regresión de una muestra, por el método de los mínimos cuadrados. La recta de regresión de la población puede expresarse de la siguiente manera: Yi = α + β Xi + εi donde α y β son parámetros de la población y εi es la diferencia entre Yi y el valor esperado de Y, dado Xi, es decir:

εi = Yi – µ Y \ Xi Así, se deduce:

µY / X =α + β X Esta ecuación es conocida como recta de regresión de Y con respecto a X. Para cada valor de X, la ordenada de la recta de regresión representa la media de un número teóricamente infinito de valores de Y. El parámetro α , que es la intersección de la recta con el eje Y, expresa el valor promedio de Y que corresponde a X = 0. El parámetro β, que es la pendiente de la recta, expresa cuánto se incrementa Y por cada unidad de incremento de X. Generalmente la distribución de Y para cada valor de X es aproximadamente normal, y la desviación estándar σ Y / X es la misma en cada caso (homoscedasticidad), como se aprecia en la figura 13.1, donde se muestra la distribución normal de Y alrededor de µY\X, para tres valores de X. Se asume entonces que los errores tienen la misma variabilidad para todos los valores de X. Se asume también que los errores son independientes para cada valor de X. Y

X µ Y\X = α + β

x1

x2

xn

X

Figura 13.1. Suposiciones en la recta de regresión

Regresión lineal simple y correlación 181

13.4 Método de los mínimos cuadrados. A partir de los datos de una muestra es posible estimar la recta de regresión de la población, determinando la recta de regresión de la muestra, por el método de los mínimos cuadrados. A esta recta se le llama también recta de mínimos cuadrados. Este método determina los parámetros de la recta minimizando la suma de los cuadrados de las diferencias entre los valores que toma la variable respuesta (y1, y2, ..., yn) y aquellos que determina la ecuación de regresión. En la figura 13.2 se muestra un diagrama de dispersión y una recta (y = a + bx) ajustada a dicho diagrama, donde a y b son los estimadores de los parámetros α y β. y

y=a+bx (xi, yi)

*

*

(xn, yn)

*

*

* e1 = y1 - y'1

(x *y ) 1,

*

*

*

*

ei = yi - y'i

*

1

x Figura 13.2. Errores de estimación de la recta de regresión

En este gráfico, las diferencias entre los valores de Y observados y los correspondientes que determina la ecuación de la recta Y’, están representados por: ei = yi – y’i = yi – (a + bxi) de εi.

para: i = 1, 2, ..., n.

A estas diferencias se les denomina errores de estimación. Puede decirse que ei es un estimador

El método de los mínimos cuadrados determina los parámetros de la ecuación de la recta que minimiza ∑ e2i. Esta sumatoria será mínima cuando: ∂

∑e

2 i

∑e

2 i

∂a



∂b

=0

=0

Despejando a y b de estas ecuaciones resulta:

∑ x ∑ y −∑ x ∑ x y a= n∑ x − (∑ x ) 2 i

i

2 i

i

i

2

i

i

; b=

n

∑ x y −∑ x ∑ y n∑ x − (∑ x ) i

i

i

2 i

i

2

i

El empleo de estas fórmulas debe ser simple para un estudiante universitario; aunque sí resulta engorroso. De hecho, es mucho más práctico emplear calculadoras que traen incorporadas estas fórmulas, además de Excel u otros softwares estadísticos como SPSS, Minitab, Statistics o Statgraphics. Ejemplo:

Se afirma que los alumnos que tienen mejores calificaciones promedio en la universidad, tienen posibilidades de conseguir mejores trabajos y por lo tanto mejores salarios iniciales. Los datos que se muestran en la siguiente tabla representan los índices académicos acumulados (I.A.A.) de

182

Regresión lineal simple y correlación

15 alumnos egresados de la Facultad de Ingeniería de una universidad y sus correspondientes sueldos iniciales (en soles). I.A.A. Sueldo inicial I.A.A. Sueldo inicial

12,20 1850 12,51 1950

13,12 2000 15,52 2200

13,94 2150 11,28 1550

14,76 2250 16,36 2300

13,12 2100 12,92 1900

14,50 2150 12,10 1700

12,71 11,73 1800 1900 11,32 1650

Empleando las fórmulas que determinan a y b, se determina la recta de mínimos cuadrados: y = 166,8 + 136,04x En la figura 13.3 se representan el diagrama de dispersión y la recta de mínimos cuadrados. Ésta es una estimación de la recta de regresión de la población, conformada en este ejemplo por todos los alumnos egresados de la Facultad de Ingeniería. Los valores que se obtengan de Y para determinados valores de X, es decir, para determinados índices académicos acumulados, son las estimaciones de las medias de los salarios iniciales correspondientes a dichos índices. El valor que toma b (la pendiente de la recta) se interpreta de la siguiente manera: por cada punto que un alumno mejore su I.A.A., puede esperar que su salario mejore en 136,04 soles. Es importante tener en cuenta que esta recta estimada puede no ser apropiada para valores de la variable de predicción que no estén comprendidos en el intervalo de la muestra, es decir, entre 11,28 y 16,36. 2600 2400 2200 2000 1800 1600 1400 11

11.5

12 12.5

13 13.5

14 14.5 15 15.5

16 16.5 17

Figura 13.3. Diagrama de dispersión y recta de mínimos cuadrados

13.5 Propiedades de la recta de mínimos cuadrados A continuación se deducen algunas propiedades de la recta de mínimos cuadrados. A partir de la primera ecuación diferencial se puede deducir: 2(∑yi – a – bxi)(–1) = 0 ∑yi – na – b∑ xi = 0 Dividiendo entre n:

∑y n

i

−a −b

∑x n

i

=0

Regresión lineal simple y correlación 183

Entonces: y = a + bx Esto indica que la recta estimada pasa por el centroide ( x , y ) . Los valores de Y determinados por la recta de mínimos cuadrados deberían denominarse y’, ya que se trata de estimaciones. Para simplificar la terminología, se usará la comilla (’) sólo en las situaciones donde se requiera para fines de claridad. La media de los valores de Y determinados por la recta de mínimos cuadrados puede expresarse de la siguiente manera: E(y’) = E(a + bx) = E(a) + E(bx) = a + bE(x) Es decir: y ' = a + bx = y Dado este último resultado, se puede deducir fácilmente:  yi y'i ei = ( y i − y ' i ) = yi − y ' i = n −  n n 













  = y − y' = 0  

Esto indica que la suma de los errores positivos es igual a la suma de los errores negativos, lo cual resulta útil para trazar visualmente la recta de mínimos cuadrados sobre un diagrama de dispersión.

13.6 Medidas de variabilidad En el análisis de regresión, la variación total de los valores Y alrededor de su media Y se puede dividir en dos partes:

• la variabilidad de los valores estimados Y’ respecto a la media Y , conocida como variación de la regresión o variación explicada, pues se explica por la relación que hay entre X e Y. • la variabilidad de los valores Y respecto a los valores estimados Y’, conocida como variación del error o variación no explicada, pues no se explica por la relación que hay entre X e Y, sino por otros factores. Para medir la variación total se emplea la suma total de cuadrados (SST): SST =

∑(y

i

− y) 2

Para medir la variación de la regresión se emplea la suma de cuadrados de la regresión (SSR): SSR =

∑ ( y'

i

− y) 2

Para medir la variación del error se emplea la suma de cuadrados del error (SSE): SSE =

∑(y

i

− y' ) 2

Los valores de Y que corresponden a un determinado valor de X, tienen una desviación estándar sY / X que mide la variabilidad del error que se comete al medir Y en vez de Y’: sY / X =

∑(y

i

− y'i ) 2

n−2

=

∑e

2 i

n−2

= se

A sY \ X se le denomina desviación estándar del error. El denominador es n – 2, pues se pierden 2 grados de libertad al estimar los parámetros α y β mediante los estimadores a y b.

184

Regresión lineal simple y correlación

En la figura 13.5 se expresan estas tres medidas de variabilidad y se ve claramente que: SST = SSR + SSE

y a y=

yi y'i

SSE =

∑ ( y − y' ) i

2

+b

x

* SST = SSR =

∑ ( y' − y ) i

∑ ( y − y) i

2

2

Y

x

xi Figura 13.5. Medidas de variación

Se define el coeficiente de determinación como el cociente de la suma de cuadrados de la regresión y la suma de cuadrados total: r2 =

SSR SST

Este coeficiente de determinación mide la fracción de la variación total de Y que es explicada por la variable X. Se deduce que mientras más se acerquen los Y’ estimados a los Y observados, es decir, mientras más concentrado esté el diagrama de dispersión alrededor de la recta de mínimos cuadrados, mayor será el coeficiente de determinación, pues menor será la variación de los errores de estimación. Por lo tanto, el coeficiente de determinación mide la bondad del ajuste de la recta de regresión. Ejemplo:

En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad se tiene: X 12,20 13,12 13,94 14,76 13,12 14,50 12,71 11,73 12,51 15,52 11,28 16,36 12,92 12,10 11,32

Y 1850 2000 2150 2250 2100 2150 1800 1900 1950 2200 1550 2300 1900 1700 1650

Y' 1826,48 1951,63 2063,19 2174,74 1951,63 2139,37 1895,86 1762,54 1868,65 2278,13 1701,32 2392,40 1924,43 1812,87 1706,76

Y –Y -113,33 36,67 186,67 286,67 136,67 186,67 -163,33 -63,33 -13,33 236,67 -413,33 336,67 -63,33 -263,33 -313,33

Y' – Y -136,86 -11,70 99,85 211,40 -11,70 176,03 -67,48 -200,79 -94,68 314,79 -262,01 429,07 -38,91 -150,46 -256,57

Los valores de la tercera columna (Y’) corresponden a los valores estimados con la recta de regresión. Por lo tanto:

Regresión lineal simple y correlación 185

∑ ( y − y) SSR = ∑ ( y ' − y ) SST =

i

i

r2 =

2

= 727 333,33

2

= 600 312,84

600 312,84 = 0,8254 727 333,33

Se interpreta que el 82,54% de la variación de los primeros sueldos de esa muestra de exalumnos se puede explicar por la variabilidad de los índices académicos acumulados que tuvieron en la universidad; y por lo tanto sólo el 17,46% de la variabilidad de dichos sueldos se pueden atribuir a otros factores.

13.7 Estimaciones de intervalo para la regresión. La recta de mínimos cuadrados proporciona el método más eficaz para estimar la media de la variable respuesta (Y), para un valor específico de la variable de predicción (X); es decir, para estimar µY\X . Estas estimaciones, que denominamos y’, o y simplemente, son puntuales. Pero, para distintas muestras que se extraigan, se determinarán distintas rectas de mínimos cuadrados. Si se tomaran n muestras de la población, se obtendrían n estimaciones y’ diferentes para cada valor de X. Se puede demostrar que, para cada valor que tome X, Y’ se distribuye normalmente alrededor de µY\X. Entonces, se podría hacer una estimación de intervalo para µY\X, de la misma forma como se hizo para µ en el capítulo 11. También se podría hacer una estimación de intervalo para Y, dado un valor de X, pues ya se ha asumido que Y se distribuye normalmente alrededor de µY\X. Todas las estimaciones de intervalo que se puedan hacer de µY\X para distintos valores de X, se suelen expresar gráficamente mediante una banda de confianza de µY\X ; de la misma manera se puede graficar una banda de confianza de Y correspondiente a los intervalos de confianza de Y para determinados valores de X, como se puede apreciar en la figura 13.6.

µ Y/X para a z ian conf e d da aY Ban a par z n a i onf a de c Band

Figura 13.6. Bandas de confianza

13.8 Correlación lineal. El objetivo del análisis de regresión es predecir la variable dependiente o respuesta Y basándose en la variable de predicción o independiente X; en cambio, el objetivo del análisis de correlación es medir el grado de asociación que hay entre dichas variables. Para medir el grado de asociación lineal que hay entre dos variables X e Y, se define el coeficiente de correlación (ρ), de tal forma que: –1 < ρ < +1.

186

Regresión lineal simple y correlación

En la figura 13.7 se muestran tres tipos diferentes de asociación entre las variables X e Y. Se puede apreciar que el valor 1 indica una correlación perfecta entre X e Y, mientras que el signo, que coincide con el signo de la pendiente de la recta de regresión, indica si la relación es directa (+) o inversa (–). Si r = 0, se dice que no existe ninguna relación lineal entre X e Y.

y

y

y

* * * * * * * * * * *

* * * *

*

*

* * * * *

ρ = -1

ρ = +1

ρ=0

*

*

**

*

*

**

x

x

x

Figura 13.7. Tipos de correlación

En el análisis de correlación no se distingue entre las dos variables; tanto X como Y son aleatorias. Además, para una muestra, se supone que los valores que tome X, dado un valor de Y, también se distribuyen normalmente. El coeficiente de correlación se puede estimar a partir del coeficiente de determinación, considerando el signo de la pendiente de la recta de regresión: r =± r2 También se puede obtener r a partir de la muestra que se usa para determinar los estimadores a y b, mediante la siguiente fórmula: n r=

[n

∑x

2 i

∑ x y −∑ x ∑ y

−(

i

∑x

i

2 i )

i

] [n

∑y

2 i

i

−(

∑y

2 i )]

Como el coeficiente de correlación es igual a la raíz cuadrada del coeficiente de determinación, se puede afirmar que r, además de medir el grado de asociación lineal entre dos variables, también mide la bondad del ajuste de la recta de regresión. Ejemplo:

En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, el coeficiente de correlación es: r = ± r 2 = + 0,9085

Este valor indica un alto grado de asociación entre el índice académico acumulado de los alumnos egresados de la Facultad de Ingeniería de la muestra y su primer sueldo. Un índice académico acumulado más alto está bastante asociado con un sueldo más alto. Para determinar, a partir de los datos de una muestra, si efectivamente existe correlación entre las variables X e Y, se tendrá que investigar si el valor de ρ es distinto de cero: H0: ρ = 0 ⇒ No hay correlación H1: ρ ≠ 0 ⇒ Sí hay correlación Se emplea la siguiente variable t de Student para esta investigación:

Regresión lineal simple y correlación 187

r−ρ

t=

1− r 2 n−2

Esta variable t tiene n – 2 grados de libertad. Ejemplo:

En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, t es: 0,9085

t=

1 − 0,8254 15 − 2

= 7,8392

Si α = 0,05; t* = 2,1604. Como t > t* ⇒ Se rechaza la hipótesis nula; o sea que se puede afirmar que sí hay correlación entre el índice académico acumulado de todos los alumnos egresados de la Facultad de Ingeniería y su primer sueldo.

13.9 Regresión simple no lineal Hay situaciones en las que el modelo lineal no se ajusta a la relación que hay entre dos variables X e Y. En la figura 13.8 se muestran algunos diagramas de dispersión donde la relación entre dichas variables no es lineal.

y

y

* * *

*

* * * * *

*

* *

x Figura 13.8a. Relación polinomial

y

* * * ** *

* * * * **

* * * * x

Figura 13.8a. Relación potencial

* * * *

*

x

Figura 13.8a. Relación exponencial

Se dice que la regresión es polinomial si la relación entre X e Y puede expresarse de la siguiente manera: Y = α + β1 X + β2 X 2 + … + βn X n Se dice que la regresión es potencial si la relación entre X e Y puede expresarse de la siguiente manera: Y = α xβ Se dice que la regresión es exponencial si la relación entre X e Y puede expresarse de la siguiente manera: Y=αβ

x

Para estos tres casos es posible estimar la correspondiente función a partir de los datos de una muestra. Resulta muy práctico recurrir a Excel o a softwares de Estadística para determinar la función que más se ajuste a una muestra representada por un diagrama de dispersión. Comparando los coeficientes de determinación de los distintos ajustes que se realicen se elige la mejor opción, es decir, la función que tenga el mayor coeficiente de determinación.

188

Regresión lineal simple y correlación

13.10 Regresión lineal, no lineal y correlación en Excel 13.10.1 Diagrama de dispersión y tendencia lineal.

Dada una muestra, es decir, un conjunto de parejas de valores (xi, yi), se puede elaborar un diagrama de dispersión con la ayuda de Excel. Para esto, primero se seleccionan las celdas donde está la muestra; luego se hace clic sobre el icono de gráficos o se selecciona el menú Insertar/Gráfico. Excel muestra el cuadro de diálogo de la figura 13.9, donde ya se ha seleccionado el Tipo de gráfico denominado XY (Dispersión). Se elige luego el subtipo de gráfico que aparece sombreado por defecto, que es precisamente el diagrama de dispersión.

Figura 13.9. Cuadro de diálogo del asistente para gráficos de Excel

Luego se selecciona sucesivamente el botón [Siguiente >], y se va conformando el gráfico hasta darle la forma deseada. Una vez que Excel presenta el diagrama de dispersión, se señala cualquiera de los puntos del gráfico y se hace clic con el botón derecho del mouse. Enseguida Excel muestra el cuadro de diálogo de la figura 13.10. Seleccionando Agregar línea de tendencia aparece el cuadro de diálogo que permite seleccionar el tipo de línea de tendencia, como se muestra en la figura 13.11.

Figura 13.10. Cuadro de diálogo del diagrama de dispersión

Regresión lineal simple y correlación 189

Figura 13.11. Cuadro de diálogo de la línea de tendencia

Una vez que se ha elegido el Tipo de línea de tendencia, se selecciona Opciones, que permite añadir la ecuación de la línea de tendencia y el coeficiente de determinación (r2). Ejemplo:

En el ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, siguiendo los pasos que se acaban de describir y eligiendo finalmente el tipo Lineal, Excel muestra finalmente el gráfico de la figura 13.12., que incluye el diagrama de dispersión, la recta de regresión, su ecuación y el coeficiente de determinación.

2600

y = 136.04x + 166.8 2

R = 0.8254

2400 2200 2000 1800 1600 1400 11

11.5

12

12.5

13

13.5

14

14.5

15

15.5

16

Figura 13.12. Recta de regresión de Excel para el ejemplo.

16.5

17

190

Regresión lineal simple y correlación

13.10.2 Tendencia no lineal.

Si la muestra no se ajusta al modelo lineal, lo cual se puede contrastar con la prueba t, tal como se hizo en el apartado 13.6; o si, visualizando el diagrama de dispersión se sospecha que uno de los modelos no lineales se ajusta mejor a dicha muestra, conviene realizar ajustes no lineales con Excel. Comparando los coeficientes de determinación de los ajustes que se realicen, se elige la mejor opción. Ejemplo:

Observando el diagrama de dispersión del ejemplo del primer sueldo de los ingenieros recién egresados de una universidad, se puede sospechar que el modelo lineal que más se ajusta es el polinomial de segundo orden, es decir, el parabólico. Eligiendo este tipo de modelo en el cuadro de diálogo (figura 13.11), Excel da el resultado de la figura 13.13.

2600

2

y = -22.86x + 761.06x - 4051.1 2

R = 0.8773

2400 2200 2000 1800 1600 1400 11

11.5

12

12.5

13

13.5

14

14.5

15

15.5

16

16.5

17

Figura 13.13. Modelo polinomial de segundo orden para el ejemplo.

Como se aprecia en la figura 13.13, el coeficiente de determinación es mayor que en el ajuste lineal (0,8733 > 0,8254); por lo tanto el ajuste polinomial de segundo orden, es decir, el ajuste parabólico, describe mejor la tendencia de los sueldos de la muestra. El lector puede verificar que ajustes polinomiales de mayor grado mejoran ligeramente (una y dos centésimas para tercer y cuarto orden) el coeficiente de determinación; pero la línea de tendencia prácticamente no varía, y la ecuación polinómica se complica excesivamente. 13.10.3 Regresión lineal con funciones de Excel

Excel cuenta con algunas funciones que calculan individualmente algunos parámetros de la regresión lineal, dentro de las funciones que se despliegan al ejecutar el icono fx o al entrar al menú Insetar/Función. A continuación se explica lo que realiza cada una de esas funciones: • COEF.DE.CORREL: calcula el coeficiente de correlación (r) de un conjunto de datos (xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos. Como este coeficiente sólo mide el grado de relación que hay entre X e Y, Excel no distingue entre los datos de X y los datos de Y. • COEFICIENTE.R2: calcula el coeficiente de determinación (r2) de un conjunto de datos (xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y.

Regresión lineal simple y correlación 191

• ERROR.TIPICO.XY: calcula la desviación estándar del error (sY / X) de un conjunto de datos (xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y. • ESTIMACION.LINEAL: calcula los parámetros a y b de la recta de regresión. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y; presenta además dos funciones lógicas: en la primera se define si el parámetro a (intersección de la recta con el eje Y) puede ser distinto de cero, y en la segunda se define si se desean todos los parámetros de la regresión lineal. En ambos casos conviene ingresar VERDADERO. Excel presenta los resultados en una matriz horizontal de dos celdas. Como esta función es matricial, una vez que se seleccionan las dos celdas donde Excel dará los resultados, se debe digitar control–shift–enter al final de la fórmula. • INTERSECCION.EJE: calcula la intersección de la recta de regresión con el eje Y, es decir, el parámetro a. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y. • PEARSON: calcula el coeficiente de correlación (r), llamado también coeficiente de Pearson de un conjunto de datos (xi, yi). Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos. • PENDIENTE: calcula la pendiente de la recta de regresión, es decir, el parámetro b. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y. • TENDENCIA: estima algunos valores de la recta de regresión que corresponden a ciertos valores de X. Al ejecutar esta función, Excel presenta un cuadro de diálogo donde se ingresa cada rango de celdas donde está cada columna de datos: una para X y una para Y, y el rango de celdas donde están los nuevos valores de X. Excel presenta además una función lógica donde se define si el parámetro a (intersección de la recta con el eje Y) puede ser distinto de cero. Como esta función es matricial, una vez que se seleccionan las celdas donde Excel dará los valores estimados de Y, se debe digitar control–shift–enter al final de la fórmula. En la figura 13.14 se muestra la hoja de Excel donde se pueden apreciar las estimaciones hechas con esta función (sueldos de exalumnos) para algunos valores de X (índices académicos acumulados). Las llaves {} que contienen la fórmula aparecen después de digitar control–shift–enter.

Figura 13.14. Estimaciones con la función TENDENCIA

192

Regresión lineal simple y correlación

Problemas propuestos 1. Se tomaron las estaturas en cm. (X) y los pesos en Kg. (Y) de 15 alumnos de quinto de secundaria de un colegio. X Y

177 74,3

160 68

182 81,6

152 61,2

167 70,7

177 76,2

187 86,7

165 72,6

157 60

170 71,2

165 63

172 74,6

165 59,2

178 73,5

183 87,8

a) Construya un diagrama de dispersión b) Asuma que hay una relación lineal entre peso y estatura y determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. Respuesta: y = – 61,949 + 0,786x c) Interprete el valor de la pendiente de la recta. Respuesta: por cada centímetro más que se tenga, se espera que el peso aumente 0,786 Kg. d) Determine el coeficiente de determinación e interprételo. Respuesta: r2 = 0,7996; el 79,96% de la variación del peso es explicada por la variación de la estatura. e) ¿Cuánto se espera que pese otro alumno de quinto de secundaria, si mide 180 cm? Respuesta: 79,53 Kg. 2. El dueño de un restaurante quiere averiguar si existe relación entre los ingresos, en soles, que tiene durante la semana (de lunes a viernes) y los ingresos del fin de semana (sábado y domingo). A continuación se muestran los datos que recopiló durante las últimas 12 semanas. Lunes a viernes Sábado y domingo

150 320

120 357

133 390

181 200

98 330

125 341

154 245

166 319

170 236

129 307

105 285

192 194

a) Construya un diagrama de dispersión. b) Asuma que hay una relación lineal entre los ingresos durante la semana y el fin de semana y determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. c) ¿Cuánto espera ingresar un fin de semana, si durante la semana ingresó 165 soles? d) ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05. 3. En un experimento sobre métodos de enseñanza de lectura se tomaron los siguientes datos a 36 niños de primer grado de primaria que participaron. Nivel de vocabulario previo a primaria 28 27 14 23 24 14 14 18 14 10 5 14 30 18 15 20 16 8

Comprensión lectora 29 30 10 21 24 11 12 8 7 5 3 6 28 12 9 20 16 2

Nivel de vocabulario previo a primaria 22 18 7 12 9 8 27 24 24 17 12 18 14 18 17 10 16 12

Comprensión lectora 28 11 4 7 5 3 25 23 22 10 7 15 6 18 18 6 10 2

a) Construya un diagrama de dispersión b) Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. c) Interprete el valor de la pendiente de la recta.

Regresión lineal simple y correlación 193

d) Determine el coeficiente de determinación e interprételo. e) ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05 4. El encargado del laboratorio de una planta de jugos concentrados quiere determinar una ecuación que le pronostique la concentración de azúcar según el tiempo que permanecen en el evaporador. En la siguiente tabla se muestra las medidas que tomó en su experimentación. Tiempo (minutos) 5 10 15 20 25 30 35 40 45 50 55 Grados Brix 22 48 52 57 43 48 34 36 43 58 89

a) Construya un diagrama de dispersión. b) Asuma que hay una relación lineal entre el tiempo de evaporación y la concentración y determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. Respuesta: y = 31,982 + 0,54x c) ¿Le parece bueno el ajuste lineal? Respuesta: No, pues se nota en el diagrama de dispersión y además el coeficiente de determinación es r2 = 0,2724. d) Proponga otro tipo de ajuste y justifique si es mejor que el lineal. Respuesta: Es mejor el ajuste polinomial: y = –12,106 + 8,8726x – 0,36344x2 + 0,0043x3. Se ajusta mucho más al diagrama de dispersión; r2 = 0,9637. 5. Una empresa de alquiler de videos quiere pronosticar cuántos videos alquilará de las películas que disponga en las próximas semanas, con base en la cantidad de videos que alquiló antes, de determinadas películas, y las ganancias obtenidas por dichas películas (en millones de dólares). En la siguiente tabla se muestran los datos de los que dispone. Ganancia bruta 1,5 18,3 2,4 45,1 1,12 5,75 28,2 12,5 23,4 35,8 9,8 15,4 Videos alquilados 90 220 201 720 55 262 460 360 546 543 245 410

a) b) c) d)

Construya un diagrama de dispersión. Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. ¿Le parece bueno el ajuste lineal? Pronostique cuántos videos alquilará de una película que tuvo una ganancia de 32 millones de dólares.

6. En la siguiente tabla se muestra el residuo de cloro (en partes por millón) que hay en una piscina, unas horas después de haber sido tratada: Horas 1 2 3 4 5 6 7 8 Residuo de cloro 1,80 1,75 1,64 1,52 1,44 1,38 1,27 1,10

a) b) c) d)

Construya un diagrama de dispersión. Determine la ecuación de la recta de regresión. Trace la recta sobre el diagrama de dispersión. Determine el coeficiente de correlación e interprételo ¿Se puede afirmar que hay correlación entre ambas variables? Considere α = 0,05

7. En la siguiente tabla se expresa el número de bacterias por litro que se encontró en un cultivo, según del número de horas que tiene dicho cultivo. 0 1 2 3 4 5 6 N° de horas N° de bacterias 32 47 65 92 132 190 275

a) Construya un diagrama de dispersión. b) Determine la ecuación de la función potencial que más se ajuste. Trace la curva sobre el diagrama de dispersión. c) ¿Cuántas bacterias se espera encontrar en un cultivo después de 7 horas? 8. El encargado de hacer el inventario en un almacén debe comparar el número de unidades observado para cada artículo con el número que figura en el archivo (teórico). Compruebe, a partir de 10

194

Regresión lineal simple y correlación

artículos observados, si el ajuste lineal entre los valores observados y los valores teóricos es correcto. 1 2 3 4 5 6 7 8 9 10 Artículo N° Valor observado 9 14 7 29 45 109 40 238 60 170 Valor teórico 10 12 9 27 47 112 36 241 59 167

Análisis de series de tiempo 195

Capítulo 14. Análisis de series de tiempo 14.1 Introducción En cualquier diario o revista económica es fácil encontrar proyecciones futuras de algunas variables económicas basándose en datos pasados. Heinz Kohler, autor de Estadística para negocios y economía, se refiere sarcásticamente a algunas proyecciones que se podrían hacer si se siguiera fielmente la tendencia que se ha venido dando hasta ahora. Por ejemplo, que dada la creciente participación comercial japonesa, es inevitable su dominio completo de la industria aeroespacial mundial; que el gasto de salud pública absorberá todo el ingreso nacional; que nuestros nietos quedarán sepultados por un volumen exponencialmente creciente de propaganda por correo, o que estarán en quiebra por el mero interés de la deuda nacional; que la población de las cárceles incluirá toda la población del país; que la productividad laboral continuará decreciendo, llegará a cero, y se hará negativa; que las reservas de recursos naturales, una vez abundantes, habrán desaparecido hacia mediados del siglo XXI, y así sucesivamente. En conclusión, es necesario ser muy prudente cuando se requiera hacer un pronóstico basándose en datos pasados, pues éste puede resultar muy disparatado; pero para muchos es necesario e inevitable tener que pronosticar, por ejemplo: los productores de energía eléctrica, los fabricantes de ropa, calzado o artículos deportivos, escolares; los encargados de los créditos bancarios, los encargados del presupuesto de un departamento, de toda la empresa, o de un país, etc.

14.2 Componentes de una serie de tiempo Una serie de tiempo es un conjunto de datos numéricos en orden cronológico. El análisis de series de tiempo es un procedimiento que analiza dichos datos con el propósito de explicar eventos anteriores o pronosticar eventos futuros. Generalmente se analizan series de tiempo de variables económicas, como las ventas mensuales de una empresa, la cantidad de unidades vendidas, el precio de un producto o de unas acciones en la bolsa de valores, las utilidades a fin de año, etc. En este capítulo se ven los conceptos básicos del análisis de series de tiempo, suficientes para hacer un diagnóstico del comportamiento de una variable a lo largo del tiempo. Una serie de tiempo puede tener cuatro componentes: • • • •

Tendencial (T) Cíclica (C) Estacional (S) Irregular (I)

Existen varios modelos que describen una serie de tiempo típica. Los más usados son: • Modelo multiplicativo: • Modelo aditivo: • Modelos mixtos:

y=T×C×S×I y=T+C+S+I y=T×C+S×I y=T×C×I+S

De estos modelos, el modelo multiplicativo es el más usado, pues se adapta bien a las características de muchas variables económicas y financieras.

196

Análisis de series de tiempo

A continuación se definen las componentes de una serie de tiempo, adecuándolas al modelo multiplicativo. 14.2.1 Componente tendencial (T)

Generalmente se presenta como un movimiento relativamente suave de una variable, progresivamente hacia arriba o hacia abajo, en un periodo prolongado (varios años). Si los datos observados (valores de la variable que se está analizando) crecen o decrecen, se dice que la tendencia es positiva o negativa, respectivamente. La tendencia se puede representar, si fuera el caso, mediante una línea recta (y = a + bt), con lo cual se podría afirmar, por ejemplo, que los valores de una variable (y) crecen a razón de b unidades por unidad de tiempo (t). Por ejemplo, en la figura 14.1 se muestra la línea recta que representa la tendencia de las ventas trimestrales de un producto desde el primer trimestre de 1998 hasta el último trimestre de 2004. (Las ventas reales se muestran en la figura 14.7). Se aprecia que las ventas aumentan a razón de 7,1633 unidades por trimestre (28,65 unidades por año). A partir de este gráfico de tendencia, se hubiera pronosticado unas ventas trimestrales de 262 unidades para el primer trimestre de 2003; sin embargo, esto no fue así, como se ve en la figura 14.7. 350.00

y = 7.1633x + 119

Ventas trimestrales

300.00 262.27 250.00

200.00

150.00

100.00

50.00

0.00 1

2

3

1998

4

1

2

3

1999

4

1

2

3

2000

4

1

2

3

2001

4

1

2

3

2002

4

1

2

3

2003

4

1

2

3

4

2004

Figura 14.1. Componente tendencial 14.2.2 Componente cíclica (C)

Se detecta por las alternancias amplias de la variable en estudio (y) alrededor de la tendencia, que duran de uno a varios años cada una, y que, por lo general, difieren en duración y amplitud de un ciclo al siguiente. Generalmente dichas alternancias irregulares reflejan las fluctuaciones de la actividad económica en general: el ciclo financiero de auge y recesión que afecta a todas las variables en la economía. En estos ciclos suelen influir fenómenos naturales importantes. La componente cíclica se suele medir como una proporción de la tendencia. Para una mejor comprensión, en la figura 14.2 se traza la tendencia como una recta horizontal (para C = 1). La componente cíclica varía alrededor de la tendencia. Por ejemplo, en el primer trimestre de 2003 la recesión hizo que las ventas sean el 87,8% de lo esperado. En la figura 14.3 se muestra la componente Tendencial-Cíclica para las ventas. Se ve que, de las 262,27 unidades que se esperaba vender para el primer trimestre de 2003, por efecto de la componente cíclica las ventas caen a: 262,27×0,878 = 230,38 unidades.

Análisis de series de tiempo 197

1.400 1.300 1.200

Recuperación 1.100

Recesión

Recesión

C

Recuperación

1.000 0.900 0.878 0.800 0.700 0.600 1

2

3

4

1

1998

2

3

4

1

2

3

4

1

2000

1999

2

3

4

1

2

2001

3

4

1

2002

2

3

4

1

2

2003

3

4

2004

Figura 14.2. Componente cíclica 450

Ventas trimestrales

400 350 300

Tendencial-cíclica

Tendencial

250 230.38 200 150 100 50 0 1

2

3

1998

4

1

2

3

4

1999

1

2

3

2000

4

1

2

3

2001

4

1

2

3

4

2002

1

2

3

2003

4

1

2

3

4

2004

Figura 14.3. Componente tendencial-cíclica

En conclusión, definiendo de esta forma la componente cíclica, la componente combinada Tendencial-Cíclica de la serie de tiempo se encuentra multiplicando (Ti× Ci) para cualquier instante. 14.2.3 Componente estacional (S)

Se detecta por alternancias de la variable en estudio (y) alrededor de la componente TendencialCíclica, que se repiten en forma predecible dentro de periodos de un año, de un mes, de una semana, etc. Generalmente estas variaciones reflejan la influencia del clima y el calendario sobre la actividad económica. Se suele hablar de productos estacionales, refiriéndose a las estaciones del año, como por ejemplo: chompas, abrigos, helados, bebidas gaseosas, cerveza, carbón, kerosene, gas, panetones, adornos de Navidad, útiles escolares, etc.

198

Análisis de series de tiempo

La componente estacional se suele medir como una proporción de la componente TendencialCíclica. Para una mejor comprensión, en la figura 14.4 se traza la componente Tendencial-Cíclica como una recta horizontal (para S = 1). La componente estacional varía con regularidad alrededor de la componente Tendencial-Cíclica. Por ejemplo, en el primer trimestre de 2003, por efecto de la componente estacional las ventas fueron el 81,7% de lo esperado. 1.3

1.2

1.1

S 1.0

0.9 0.817 0.8

0.7 1

2

3

4

1

1998

2

3

4

1

1999

2

3

4

1

2000

2

3

4

1

2001

2

3

4

1

2002

2

3

4

1

2003

2

3

4

2004

Figura 14.4. Componente estacional 500

Ventas trimestrales

450 400 350

Tendencial-cíclica

300

Tendencial

250

200 188,32

Tendencial-cíclica-estacional

150 100 50 0 1

2

3

1998

4

1

2

3 1999

4

1

2

3 2000

4

1

2

3 2001

4

1

2

3

4

1

2

2002

3

2003

4

1

2

3

4

2004

Figura 14.5. Componente Tendencial-Cíclica-Estacional

En la figura 14.5 se muestra la componente Tendencial-Cíclica-Estacional (a trazo continuo) para las ventas. Se ve que, de las 230,38 unidades que se hubieran vendido para el primer trimestre de 2003, por efecto de la componente estacional las ventas caen a: 230,38×0,817 = 188,32 unidades. En conclusión, definiendo de esta forma la componente estacional, la componente TendencialCíclica-Estacional se encuentra multiplicando (Ti × Ci × Si) para cualquier instante.

Análisis de series de tiempo 199 14.2.4 Componente irregular o aleatoria (I)

Se detecta por movimientos aleatorios de la variable en estudio alrededor de la componente Tendencia-Cíclica-Estacional. Generalmente estos movimientos se deben a factores impredecibles y probablemente no recurrentes, como por ejemplo: modas, huelgas, desastres naturales (no cíclicos), guerras, etc. Esta componente se expresa como una proporción de la componente Tendencial-CíclicaEstacional que, en la figura 14.6 se muestra como una recta horizontal (para I = 1). 1.080 1.060 1.040 1.020 1.000

I

0.980 0.972 0.960 0.940 0.920 0.900 0.880 0.860 1

2

3

4

1

2

1998

3

4

1

2

1999

3

4

1

2

2000

3

4

1

2

2001

3

4

1

2002

2

3

4

1

2

2003

3

4

2004

Figura 14.6. Componente irregular

En la figura 14.7 se muestra la componente Tendencial-Cíclica-Estacional-Irregular, es decir, las ventas reales del producto (y). Se ve que, de las 188,32 unidades que se esperaba vender para el primer trimestre de 2003, por efecto de la componente irregular las ventas caen a: 188,32×0,972 = 183 unidades. 500 450

Ventas trimestrales

400 350 300 250 200 183 150 100 50 0 1

2

3

1998

4

1

2

3

1999

4

1

2

3

2000

4

1

2

3

2001

4

1

2

3

2002

4

1

2

3

4

1

2003

Figura 14.7. Serie de tiempo: componente Tendencial-Cíclica-Estacional-Irregular

2

3

2004

4

200

Análisis de series de tiempo

En conclusión, definiendo de esta forma la componente irregular, los valores de la variable en estudio (y) se encuentran multiplicando (Ti × Ci × Si × Ii) para cualquier instante i.

14.3 Descomposición de series de tiempo Para analizar una serie de tiempo, ya sea con el propósito de pronosticar algunos valores de la variable en estudio o de estudiar su comportamiento pasado, es necesario conocer cada una de sus componentes; pero generalmente se dispone de un conjunto de datos a lo largo del tiempo, es decir, de una serie de tiempo con todas sus componentes, y se hace necesario descomponer dicha serie. 14.3.1 Suavización de la serie de tiempo.

Para eliminar las fluctuaciones de una serie de tiempo se suelen emplear dos métodos de suavización: media móvil y suavización exponencial. Estos métodos permiten aislar algunas componentes de la serie de tiempo. Medias móviles: Se obtiene una serie de medias móviles calculando sucesivamente medias aritméticas de grupos sobrepuestos de M valores de una serie de tiempo. Por ejemplo, si M = 3: y2 =

y1 + y 2 + y 3 ; 3

y3 =

y 2 + y3 + y 4 ; ... 3

yt =

y t −1 + y t + y t +1 3

Nótese que los subíndices de las medias móviles coinciden con el subíndice central de los datos. Cuando M es impar no hay mayor complicación en el cálculo de las medias móviles; pero si M es par, hace falta ajustar (centrar) las medias móviles obtenidas para conseguir valores de estas medias móviles en los mismos tiempos en que están los datos originales (y). En la tabla 14.1 se muestra parte de una serie de tiempo donde se calculan las medias móviles con M = 4. Como se aprecia, la media móvil de los primeros cuatro valores (132,00) se ha colocado entre los tiempos 2 y 3, la media móvil de los siguientes cuatro valores (133,25) se ha colocado entre los tiempos 3 y 4, y así sucesivamente. Para que estas medias móviles correspondan con los tiempos definidos, se calculan las medias móviles de las medias móviles, pero esta vez con M = 2. Así se obtienen las medias móviles ajustadas. Tabla 14.1 Cáculo de medias móviles con ajuste Tiempo

Y

1

96

2

137

3

165

Medias móviles (M = 4)

Medias móviles ajustadas

132,00 132,63 133,25 4

130

131,00 128,75

5

101

127,88 127,00

6

119

128,75 130,50

7

158

8

144

El principal inconveniente de este método de suavización es que no se tiene un valor suavizado correspondiente a cada valor de la serie original. Se pierden algunos valores al principio y al final de la serie. Por ejemplo, para la serie de tiempos de la tabla 14.1 se han perdido cuatro datos: dos al principio y dos al final. Esta desventaja es poco notoria cuando se cuenta con una gran cantidad de datos.

Análisis de series de tiempo 201

Suavización exponencial: Es un procedimiento que genera pronósticos auto-corregidos por medio de un mecanismo de ajuste que va corrigiendo los errores de pronóstico anteriores. Este método hace el pronóstico del siguiente periodo fi+1 a partir del valor real actual yi y del pronóstico actual fi, empleando una constante de suavización α, de la siguiente manera: fi+1 = α yi + (1 – α) fi El parámetro α es un valor que está entre cero y uno, y se escoge para indicar el peso que se desee dar al valor más reciente de la serie de tiempo. Mientras mayor sea α, más peso se le da a la experiencia actual y menos a la pasada. 14.3.2 Aislamiento de las componentes de la serie de tiempo.

El método de las medias móviles, que suele eliminar las fluctuaciones irregulares, puede eliminar también la componente estacional si se emplea M igual al número estaciones (una estación puede ser una semana, un mes, o un trimestre), con lo cual las medias móviles contendrían sólo las componentes cíclica y tendencial. Se podría eliminar también la componente cíclica empleando un valor de M mayor que el número de estaciones; pero esto se dificulta por el hecho de que la duración de los ciclos que puede tener una serie de tiempos no es la misma. Si se tuviesen datos suficientes (más de 20 años) se podría reducir considerablemente la componente cíclica suavizando la serie de tiempo original con M igual a la duración del ciclo más duradero. De esta forma se eliminarían tres componentes: irregular, estacional y cíclica, con lo cual se obtendría la componente tendencial. Si no se cuenta con la suficiente cantidad de datos como para emplear un valor de M muy grande, que es lo más probable, conviene calcular medias móviles con un valor de M mayor que el número de estaciones; así se eliminará una parte de la componente cíclica. Estas medias móviles estarán mucho más suavizadas, es decir, se parecerán mucho más a la tendencia. Entonces, empleando el método de los mínimos cuadrados, se puede determinar la tendencia, que puede ser una recta o una función no lineal. Esto se puede hacer con la ayuda de Excel, tal como se vio en los apartados 13.10.1 y 13.10.2. En conclusión, para aislar las componentes tendencial y cíclica se siguen los siguientes pasos: 1. Construir una serie de medias móviles con M mayor que el número de estaciones. Por ejemplo, si se tienen datos mensuales, M > 12; si se tienen datos trimestrales, M > 4. 2. Si la tendencia es lineal, hallar la recta de mínimos cuadrados a partir de la serie hallada. En caso contrario, hallar la línea de tendencia que mejor se ajuste a esta serie de medias móviles. 3. Aislar la componente cíclica (C), dividiendo los valores Ti×Ci / Ti. Para aislar las componentes estacional e irregular se siguen los siguientes pasos.

1. Construir una serie de medias móviles con M igual al número de estaciones. Por ejemplo, si se tienen datos mensuales, M = 12; si se tienen datos trimestrales, M = 4. Esta serie contendrá sólo las componentes Tendencial-Cíclica (T×C). 2. Aislar la componente S×I, dividiendo yi /(Ti×Ci). 3. Aislar la componente estacional (S), promediando los valores S×I de cada estación. Así, por ejemplo, si hay cuatro estaciones (M = 4), se hallarán cuatro promedios S×I; uno para cada estación. 4. Ajustar la componente estacional (S), considerando que las M componentes estacionales deben promediar uno, y por lo tanto deben sumar M en vez de ∑. Para conseguirlo, cada S hallado debe multiplicarse por M/∑. 5. Aislar la componente irregular (I) dividiendo Si×Ii / Si.

202

Análisis de series de tiempo

14.4 Pronóstico Se denomina pronóstico a una afirmación que se hace sobre un evento futuro. Los pronósticos se suelen hacer basándose en datos que se deducen del análisis de series de tiempo. Conociendo la línea de tendencia, se puede pronosticar por extrapolación (prolongando dicha línea tendencial), y conociendo la componente estacional, se puede ajustar dicho pronóstico multiplicando la componente tendencial por la componente estacional. En la sociedad actual es imprescindible pronosticar. Los gobernantes de un país siempre están pronosticando la inflación, el producto bruto interno, el desempleo, la recaudación de impuestos, etc., para plantear adecuadamente las políticas de gobierno. Los empresarios siempre están pronosticando las ventas, la demanda, etc., con el propósito de tomar las decisiones oportunas que los lleven a optimizar sus beneficios.

14.5 Análisis del comportamiento de una serie de tiempo Muchas veces conviene aislar una componente de una serie de tiempo para hacer un análisis del comportamiento de la variable en estudio sin considerar dicha componente, ya sea la estacional, la cíclica o la irregular. Esto permitirá evaluar el comportamiento de dicha variable sin la influencia de una u otra componente. Una serie desestacionalizada es aquella que contiene todas las componentes excepto la estacional. Sirve para sincerar los valores que toma la serie de tiempo. Por ejemplo, el gerente de una empresa que produce bebidas gaseosas no tendría que entusiasmarse mucho si las ventas en el verano están por encima de lo esperado por la tendencia. Para desestacionalizar una serie de tiempo basta con dividir cada valor de la variable en estudio entre la componente estacional: yi / Si.

14.6 Análisis de series de tiempo en Excel Aunque Excel no cuenta con una herramienta que efectúe el análisis completo de una serie de tiempo, sí cuenta con los elementos suficientes para realizarlo paso a paso, de acuerdo al propósito que se plantee. 14.6.1 Análisis de series de tiempo con medias móviles

Para calcular las medias móviles en Excel, se debe ingresar al menú Herramientas/Análisis de datos/ Media móvil. Excel abre el cuadro de diálogo que se muestra en la figura 14.8, donde ya se han ingresado los datos para el ejemplo que se desarrolla a continuación. Excel le denomina Intervalo al valor de M que se considera al calcular las medias móviles.

Figura 14.8. Cuadro de diálogo de medias móviles

Análisis de series de tiempo 203

Una vez que se han ingresado los datos y se acepta, Excel coloca las medias móviles en una columna que se inicia donde se definió el rango de salida. El único inconveniente de este resultado es que las medias móviles no las centra respecto a los datos de la serie de tiempo. El usuario debe trasladar estas medias móviles a la posición central. Si M es par, será necesario hallar las medias móviles ajustadas, a partir del resultado obtenido, considerando esta vez M = 2. Con la ayuda de Excel se pueden aislar las cuatro componentes para hacer posteriormente algunos pronósticos o análisis de la serie de tiempos, como se muestra en el siguiente ejemplo. Ejemplo:

Una empresa que se dedica a la elaboración de cierto accesorio para autos ha registrado las siguientes ventas (en unidades) durante los últimos años: Trimestre 1 2 3 4

1998 96 137 165 130

1999 101 119 158 144

2000 133 199 283 260

2001 214 258 310 259

2002 211 221 249 200

2003 183 250 328 305

2004 264 348 430 415

En primer lugar se calculan las medias móviles con M = 4 y luego las medias móviles ajustadas. Después de ingresar los datos al cuadro de diálogo (figura 14.8), Excel da el resultado en la columna D. Luego de ingresar los datos de la columna D y calcular nuevamente medias móviles, esta vez con M = 2, Excel muestra el resultado de la siguiente tabla, donde los valores de la columna E han sido centrados por el usuario, pues Excel los coloca descentrados. A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

B Trimestre

1998

1999

2000

2001

2002

2003

2004

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

C Ventas (Y) 96 137 165 130 101 119 158 144 133 199 283 260 214 258 310 259 211 221 249 200 183 250 328 305 264 348 430

D P.M.

132.00 133.25 128.75 127.00 130.50 138.50 158.50 189.75 218.75 239.00 253.75 260.50 260.25 259.50 250.25 235.00 220.25 213.25 220.50 240.25 266.50 286.75 311.25 336.75 364.25

E P.M ajustado (TC)

132.63 131.00 127.88 128.75 134.50 148.50 174.13 204.25 228.88 246.38 257.13 260.38 259.88 254.88 242.63 227.63 216.75 216.88 230.38 253.38 276.63 299.00 324.00 350.50

Nótese que las medias móviles de la columna D no pueden colocarse en la posición que les correspondería (sobre las líneas) pues esto no es posible en Excel.

Análisis de series de tiempo

En la figura 14.9 se muestra el gráfico de las medias móviles ajustadas sobre la serie de tiempo. 500 450 400

Ventas trimestrales

204

350 300 250 200 150 100 50 0 1

2

3

4

1

1998

2

3

4

1999

1

2

3

2000

4

1

2

3

4

2001

1

2

3

2002

4

1

2

3

4

2003

1

2

3

4

2004

Figura 14.9. Medias móviles para M = 4.

Las medias móviles de la columna E son las componentes Ti×Ci. A continuación se aíslan las componentes Si×Ii y posteriormente las componentes Si y las Ii, siguiendo los pasos que se detallan en la página 201. En la siguiente tabla se muestran los resultados: A 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

B Trimestre

1998

1999

2000

2001

2002

2003

2004

1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4 1 2 3 4

C Ventas (Y) 96 137 165 130 101 119 158 144 133 199 283 260 214 258 310 259 211 221 249 200 183 250 328 305 264 348 430 415

D P.M.

132,00 133,25 128,75 127,00 130,50 138,50 158,50 189,75 218,75 239,00 253,75 260,50 260,25 259,50 250,25 235,00 220,25 213,25 220,50 240,25 266,50 286,75 311,25 336,75 364,25

E P.M ajustado (TC)

132,63 131,00 127,88 128,75 134,50 148,50 174,13 204,25 228,88 246,38 257,13 260,38 259,88 254,88 242,63 227,63 216,75 216,88 230,38 253,38 276,63 299,00 324,00 350,50

F SxI = Y/(TC)

1,244 0,992 0,790 0,924 1,175 0,970 0,764 0,974 1,236 1,055 0,832 0,991 1,193 1,016 0,870 0,971 1,149 0,922 0,794 0,987 1,186 1,020 0,815 0,993

G SxI promedio 0,811 0,973 1,187 0,996

H S 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004 0,817 0,981 1,197 1,004

Análisis de series de tiempo 205

Nótese que en la columna H se han repetido sucesivamente las cuatro componentes estacionales halladas en la columna G. Como ayuda al lector, a continuación se muestran algunos ejemplos de las operaciones realizadas para hallar S×I promedio y S: • Para calcular la componente S×I promedio del primer trimestre del año (celda G3): =PROMEDIO(F3,F7,F11,F15,F19,F23,F27). • Para calcular la componente S del primer trimestre del año (celda H3): =G3*4/SUMA(G$3:G$6) Luego puede aislarse fácilmente la componente I, dividiendo las celdas de la columna F entre las celdas de la columna H. Para hallar la línea de tendencia (componente tendencial) es necesario hallar promedios móviles con un valor de M suficientemente grande. Por ejemplo, para M = 9 se obtiene una serie que se ajusta mucho a una recta, como se puede apreciar en la figura 14.10. Para hallar esta recta se traza en primer lugar el diagrama de dispersión de la serie recientemente obtenida, y luego bastará con seleccionar cualquier punto, hacer clic con el botón derecho del mouse y ejecutar el comando Agregar línea de tendencia, como ya se ha explicado en 13.10.1 500 450

Ventas trimestrales

400

y = 7.1633x + 119

Serie de tiempo suavizada con promedio móvil de 9 trimestres

350 300 250 200 150 100 50 0 1

2

3

1998

4

1

2

3

1999

4

1

2

3

2000

4

1

2 2001

3

4

1

2

3

4

2002

1

2 2003

3

4

1

2

3

4

2004

Figura 14.10. Determinación de la recta tendencial

Si se opta por hallar media móviles con un valor de M ≠ 9, se obtendrá una recta tendencial evidentemente distinta; pero muy aproximada a la que se acaba de obtener. Como se trata de estimar la recta tendencial, las pequeñas diferencias que se obtengan entre una u otra opción carecen de importancia. Una vez que se ha obtenido la componente tendencial, es fácil hallar la componente cíclica, dividiendo las celdas de la columna E entre las celdas donde se colocan los valores Ti. Los gráficos de las cuatro componentes de este problema corresponden a los que se muestran en las figuras 14.1; 14.2; 14.4 y 14.6. Vale la pena ver el gráfico de la componente S×I, que se muestra en la figura 14.11. Se aprecia claramente cómo la componente irregular afecta a la componente estacional. Se entiende así que para estimar las componentes estacionales de cada trimestre haya que promediar las componentes los respectivos valores de S×I de todos los trimestres.

206

Análisis de series de tiempo

1.300

1.200

1.100

SxI

1.000

0.900

0.800

0.700

0.600 1

2

3

1998

4

1

2

3

1999

4

1

2

3

2000

4

1

2

3

4

1

2001

2

3

2002

4

1

2

3

2003

4

1

2

3

4

2004

Figura 14.11. Componente S×I 14.6.2 Suavización exponencial

Para hacer la suavización exponencial en Excel, se debe ingresar al menú Herramientas/Análisis de datos/ Suavización exponencial. Excel abre el cuadro de diálogo que se muestra en la figura 14.11, donde ya se han ingresado los datos del ejemplo que viene desarrollando.

Figura 14.11. Cuadro de diálogo para la suavización exponencial

Es necesario aclarar que el factor de suavización que considera Excel es 1 – α. Además, si se marca la opción Crear gráfico, Excel traza la serie suavizada con un desfase respecto a la serie de tiempo. Es necesario entonces adelantar la serie suavizada una unidad de tiempo, como se hace en el siguiente ejemplo. Se va a hacer la suavización exponencial del mismo problema del apartado anterior, con α = 0,5. A continuación se repite el texto para comodidad del lector. Ejemplo:

Una empresa que se dedica a la elaboración de cierto accesorio para autos ha registrado las siguientes ventas (en unidades) durante los últimos años:

Análisis de series de tiempo 207

Trimestre 1 2 3 4

1998 96 137 165 130

1999 101 119 158 144

2000 133 199 283 260

2001 214 258 310 259

2002 211 221 249 200

2003 183 250 328 305

2004 264 348 430 415

Entrando al menú Herramientas/Análisis de datos/ Suavización exponencial aparece el cuadro de diálogo de la figura 14.11; aceptando los datos que se han ingresado Excel da el resultado que se muestra en la figura 14.12. Suavización exponencial 500 450 400 350 300

Valor

96.00 116.50 140.75 135.38 118.19 118.59 138.30 141.15 137.07 168.04 225.52 242.76 228.38 243.19 276.59 267.80 239.40 230.20 239.60 219.80 201.40 225.70 276.85 290.92 277.46 312.73 371.37

Real Pronóstico

250 200 150 100 50 0 1

3

5

7

9

11

13

15

17

19

21

23

25

Punto de datos

Figura 14.12. Suavización exponencial con α = 0,5

27

208

Análisis de series de tiempo

Problemas propuestos 1. Un país registró las siguientes entradas de turistas (en millones) en el periodo 1997-2003: Trimestre 1 Trimestre 2 Trimestre 3 Trimestre 4

1997 2,5 3,2 3,7 3,4

1998 3,6 3,9 4,8 4,1

1999 3,8 4,5 5,7 5,2

2000 4,6 5,9 7,8 6,7

2001 4,3 4,1 5,2 3,9

2002 4,7 4,9 5,5 5,0

2003 5,4 5,9 7,3 6,6

Haga un pronóstico de la entrada de turistas que se espera para los cuatro trimestres del año 2004. Sugerencia: estime la recta tendencial a partir de las medias móviles con M = 9. Respuesta: 5,27; 5,70; 6,96; 5,92. 2. ¿Con qué componente de una serie de tiempos asociaría cada uno de los siguientes hechos? a) Un aumento en las ventas de útiles de escritorio durante el mes de marzo. b) Un incremento de la producción de mango debido a la incorporación de nueva tecnología. c) Una huelga de trabajadores del sector agrario. d) Una disminución en el volumen de construcción de viviendas durante 2 años. 3. La siguiente tabla muestra el producto bruto interno (PBI) del Perú, en miles de millones de dólares. Trace una recta tendencial sobre la serie de promedios móviles de 7 años y estime el producto bruto interno para los años 2003 y 2004. Año

PBI

1974 1975 1976 1977 1978 1979 1980

12,2 15,8 15,5 13,1 11,9 15,6 20,2

Año 1981 1982 1983 1984 1985 1986 1987 1988 1989 1990

PBI 25,4 25,9 19,9 20,8 18,3 26,2 35,7 28,8 33,3 34,1

Año 1991 1992 1993 1994 1995 1996 1997 1998 1999 2000

PBI 42,2 41,4 40,1 49,5 58,7 61,2 65,3 62,8 65,1 72,1

Año 2001 2002

PBI 72,3 72,5

4. Las ventas de un producto durante los últimos años se expresan en la siguiente tabla: 1er trimestre 2do trimestre 3er trimestre 4to trimestre

1993 1994 1995 1996 1997 1998 1999 2000 2001 2002 2003 102 96 85 83 84 102 109 115 118 116 120 111 105 94 90 89 106 119 122 126 123 131 118 109 100 103 104 114 124 134 136 131 142 111 99 91 97 96 107 120 127 121 120 132

Trace un gráfico de cada componente de esta serie. Haga un pronóstico para el año 2004. Sugerencia: estime la recta tendencial a partir de las medias móviles con M = 11 5. En la siguiente tabla se muestran las ventas del año pasado de una empresa, y las componentes de la serie de tiempo, aplicando el modelo multiplicativo. a) Determine los valores faltantes. b) ¿Cuánto varían las ventas anualmente? c) Haga un comentario breve sobre la economía del país durante el año pasado. d) ¿Qué pronóstico haría para los cuatro trimestres de este año? e) Haga un análisis de las ventas del año pasado. Trimestre Ventas reales 1 65 823,00 2 42 555,00 3 85 120,50 4

C.Tendencial 65 000 70 000 75 000 80 000

C.Cíclica 0,937 1 0,955

C.Estacional 1,126

C.Irregular 1,173 0,984

0,579

1,020

Análisis de series de tiempo 209

6. Suponga que el CONAM (Consejo Nacional del Ambiente) ha registrado los siguientes niveles de contaminación por mercurio frente a las costas de Paita durante los últimos cuatro años. 2001 2002 2003 2004

Ene 0,4 0,3 0,2 0,2

Feb 0,5 0,4 0,2 0,2

Mar 0,4 0,3 0,3 0,3

Abr 1,0 0,7 0,5 0,6

May 0,9 0,8 0,6 0,6

Jun 1,0 0,7 0,5 0,5

Jul 0,7 0,5 0,5 0,5

Ago 0,6 0,6 0,4 0,3

Sep 0,6 0,5 0,5 0,4

Oct 0,7 0,6 0,3 0,3

Nov 0,7 0,5 0,3 0,4

Dic 0,4 0,4 0,2 0,2

Determine la componente estacional (para los 12 meses) y dé una interpretación. Respuesta: 0,499 0,567 0,682 1,371 1,542 1,326 1,119 1,060 1,093 1,048 1,000 0,693

En diciembre, enero, febrero y marzo la contaminación baja, especialmente en enero, por efecto de la estación; probablemente en esos meses las fábricas ubicadas en el litoral operan menos, hay menos llegadas de buques, etc. En abril, mayo y junio la contaminación aumenta, especialmente en mayo, probablemente porque aumentan las actividades mencionadas. 7. El dueño de un restaurante ubicado junto a una universidad ha anotado los ingresos, en soles, durante los tres primeros años de funcionamiento: Ene Feb Mar 2002 3210 3548 5893 2003 4120 4598 6155 2004 5244 6828 6238

Abr May Jun Jul 8251 8469 5746 6583 8961 9673 6028 6740 9981 10687 7452 6940

Ago 7360 7695 9457

Sep Oct Nov Dic 8214 8786 7056 6415 8420 8284 7654 7158 9214 10426 8493 8469

Haga un pronóstico para los 6 primeros meses del año 2005. 8. Un vendedor de autos usados ha registrado las siguientes ventas (en miles de soles) durante el último año: Mes Ene Feb Mar Abr May Jun Jul Ago Sep Oct Nov Dic Ventas 205 192 170 214 220 198 230 232 240 255 310 296 Componente estacional 0,95 0,74 0,52 0,86 0,96 1,02 1,05 1,08 1,12 1,16 1,22 1,32

Determine las ventas desestacionalizadas. 9. En la siguiente tabla se ha registrado el número de días soleados al mes que hubo en una ciudad, durante 6 años. Enero Febrero Marzo Abril Mayo Junio Julio Agosto Septiembre Octubre Noviembre Diciembre

1996 30 27 29 27 28 26 22 20 24 26 28 29

1997 26 28 28 29 28 26 22 20 24 26 21 19

1998 14 16 12 16 22 25 23 18 21 23 25 26

1999 26 25 18 24 25 26 22 20 24 26 26 23

2000 25 24 24 26 22 20 22 17 22 24 25 27

2001 25 25 16 20 21 19 20 18 23 25 25 26

2002 25 26 20 21 22 24 22 19 23 23 22 24

a) Determine las componentes estacionales. b) Trace un gráfico con la componente cíclica y coméntelo. 10. ¿Con qué componente de una serie de tiempos asociaría cada uno de los siguientes hechos? a) Un aumento en las ventas de un producto debido al cierre de la principal empresa competidora.

210

Análisis de series de tiempo

b) Una disminución en las ventas de un producto debido a la globalización. c) Un aumento en las ventas de un producto debido a una crisis petrolera durante 2 años. d) Una disminución en las ventas de un producto debido al cierre de la frontera con un país vecino durante un mes, por un problema limítrofe.

Herramientas estadísticas para mejorar la calidad de los procesos 211

Capítulo 15. Herramientas estadísticas para mejorar la calidad de los procesos 15.1 Mejora de la calidad 15.1.1 Definiciones

Aunque existen muchas definiciones de calidad, quizás la más simple y certera sea: “Calidad es lo que el cliente define como tal”. La calidad es un objeto móvil; siempre hay que estarla buscando. Nunca se podrá afirmar que ya se ha conseguido la máxima calidad posible, pues los clientes siempre están cambiando de parecer, de gusto, etc. Por lo tanto siempre hay que estar averiguando qué tan satisfechos están los clientes con el producto o servicio que se les brinda. Se concluye entonces que para conseguir la calidad se debe estar en un proceso de mejora continua. La calidad siempre se asocia con los defectos; si hay muy pocos defectos se dice que hay calidad. Como los defectos siempre estarán presentes, se intenta disminuirlos; y para esto es fundamental preguntarse: ¿por qué ocurren los defectos? Los defectos ocurren por una causa fundamental: la variabilidad en las personas, en los materiales, en las máquinas y herramientas, en el medio ambiente, en la inspección, etc. Para disminuir los defectos hay que buscar las causas. Éstas pueden ser: • Causas asignables: cuando se les puede atribuir a alguien o a algo (personas, materiales, máquinas, herramientas, medio ambiente, inspectores, etc). • Causas no asignables: cuando la variabilidad se debe al azar. Se dice que es una variabilidad inherente a las personas, materiales, máquinas, herramientas, medio ambiente, inspectores, etc. Generalmente es imposible evitar estas causas de forma económica. A la determinación de las causas de los defectos en un proceso se le llama diagnóstico. Para hacer un buen diagnóstico se puede recurrir a la intuición de un experto, a la experimentación o al análisis estadístico de los datos. Aunque la última opción es generalmente la más acertada, no siempre es aprovechada porque los encargados de tomar las decisiones en las empresas no creen en su efectividad. Para poder creer que las herramientas estadísticas son efectivas es necesario aceptar que siempre hay variabilidad, y que esta variabilidad siempre es posible medirla, y más si se debe a causas asignables. Así, evitando las causas asignables, se disminuye la variabilidad, y por lo tanto los defectos. 15.1.2 Breve historia de la calidad

Desde finales del siglo XIX, la gestión de la calidad ha pasado por cuatro grandes etapas: • • • •

Inspección de la calidad. Control de la calidad. Aseguramiento de la calidad. Gestión de la calidad total.

La gestión de la calidad ha ido evolucionando hacia una visión cada vez más global. Las etapas

212

Herramientas estadísticas para mejorar la calidad de los procesos

más recientes abarcan las anteriores; de esta manera, por ejemplo, el aseguramiento de la calidad abarca el control de la calidad y la gestión de la calidad total abarca también el aseguramiento de la calidad. Tradicionalmente la palabra calidad ha estado asociada a la calidad del producto. El objetivo que se perseguía era evitar que un producto defectuoso llegara al cliente. Para ello se efectuaba una inspección al 100% de todos los productos, separando los productos buenos de los defectuosos. La calidad era un problema de los inspectores. Al aumentar los volúmenes de producción, la inspección masiva era cada vez más difícil, costosa y menos fiable. Se pasó de inspeccionar el 100 % de los productos terminados a controlar los procesos. Así, Shewart (1931) propuso el Control estadístico de procesos, CEP. Pero esta forma de entender la calidad era reactiva, no prevenía los errores; únicamente los detectaba cuando ya habían aparecido. Entonces los especialistas centraron sus esfuerzos en diseñar métodos de trabajo que permitieran evitar los errores antes de que éstos ocurrieran. Éste es el enfoque del aseguramiento de la calidad, que pretende proporcionar a los clientes la confianza de que un producto o servicio satisface los requisitos de calidad. Pero este enfoque, aunque ya es proactivo, está limitado al ámbito interno de la empresa. La gestión de la calidad total, además de garantizar que los productos o servicios satisfacen los requisitos de la calidad, pretende involucrar a todos los miembros de la organización en la mejora de todos los procesos. Este sistema de gestión de la calidad ha sido mejorado por Seis Sigma, que se ha preocupado por mejorar continuamente el nivel de satisfacción de los clientes, entre otras cosas. A continuación se presentan las herramientas estadísticas básicas más empleadas para el mejoramiento de la calidad de los procesos, ya sean productivos o de servicio.

15.2 Interpretación de histogramas y medición de la capacidad de un proceso 15.2.1 Interpretación de histogramas.

A continuación se muestran diversos tipos de histogramas: Histograma general: la media del histograma está en el centro del rango de datos. La frecuencia es mayor en el centro y disminuye gradualmente hacia los extremos, ajustándose a una distribución normal. Se presenta en casi todos los casos en que se representa una medida en un proceso productivo. Histograma con sesgo positivo o negativo: tiene forma asimétrica. La media del histograma está a la izquierda (o derecha) y la frecuencia disminuye lentamente hacia la derecha (o izquierda). Se presenta cuando el límite inferior (o superior) se controla teóricamente o por un valor de especificación; o cuando no se presentan valores inferiores (o superiores) a cierto límite.

Sesgo positivo

General

Sesgo negativo

Histograma con precipicio: es similar al tipo con sesgo, pero con un descenso más brusco hacia un lado. Este tipo se presenta frecuentemente cuando se ha hecho una inspección al 100% y se han separado elementos que no cumplen con el límite inferior o superior de especificación del producto.

Precipicio

Histograma multimodal: hace zigzag sobre la forma general. Se presenta cuando no se ha elegido correctamente la longitud de clase y el número de clases, ya sea porque el número de datos no es suficiente para trazar el histograma (n < 50) o se han considerado muchas clases para el número de datos que hay.

Multimodal

Herramientas estadísticas para mejorar la calidad de los procesos 213

Histograma bimodal: se ven dos histogramas generales, uno junto al otro. Se presenta cuando se mezclan dos distribuciones con medias muy diferentes; por ejemplo cuando en el proceso hay dos turnos, o dos máquinas, o dos operarios, etc. que trabajan de manera distinta.

Bimodal

Histograma con pico aislado: hay un pequeño pico, aislado de un histograma de tipo general. Se presenta cuando se incluye una pequeña cantidad de datos con una distribución diferente, ya sea por una anormalidad en el proceso, por error de medición o por inclusión de datos de otro proceso. Pico aislado

Histograma planicie: las frecuencias forman una planicie. Se presenta cuando se mezclan varios histogramas que tienen que tienen medias diferentes y distribuciones diferentes, de tal manera que el conjunto forma la planicie. Planicie 15.2.2 Capacidad de un proceso

Se denominan especificaciones de un producto al rango de medidas dentro del cual se dice que el producto es conforme. Por ejemplo, las especificaciones del diámetro de los pistones que se fabrican en un taller son: 5,000 ± 0,005 cm. A la media que se especifica se le llama valor nominal, y a la medida entre la media y los límites de especificación (LEI y LES) se le denomina tolerancia. En este ejemplo, la tolerancia es ± 0,005 cm. Si se conocen las especificaciones de un producto, es posible medir si el proceso es capaz de cumplir con dichas especificaciones. Si se cuenta con un histograma, se pueden trazar dos líneas verticales sobre éste, correspondientes a las medidas de las especificaciones. Así se podrá observar si el histograma se encuentra razonablemente entre dichos límites. En la figura 15.1 se describen dos casos típicos donde se cumplen las especificaciones del producto. En el primer histograma se ve que el proceso es capaz de cumplir con las especificaciones con holgura; pero en el segundo las cumple ajustadamente.

LEI

LES

LEI

LES

Figura 15.1. Procesos capaces de cumplir con las especificaciones

En la figura 15.2 se describen dos casos típicos donde no se cumplen las especificaciones del producto.

LEI

LES

LEI

LES

Figura 15.2. Procesos no capaces de cumplir con las especificaciones

214

Herramientas estadísticas para mejorar la calidad de los procesos

En el primer caso se ve que el proceso no es capaz de cumplir con las especificaciones porque está descentrado. En el segundo caso tampoco cumple con las especificaciones, pero esta vez porque el proceso tiene mucha variabilidad. Si se conocen la media y la desviación estándar de un conjunto de datos obtenidos en un proceso, se puede calcular el índice de capacidad del proceso: Cp =

LES − LEI 6σ

Como se ve, un índice de capacidad exactamente igual a 1 (segundo caso de la figura 15.1) indicará que el proceso es capaz, pero que está a punto de no serlo. Si la media del conjunto de datos no coincide con el punto medio de los límites de especificación, es decir, si el proceso está descentrado respecto a las especificaciones, conviene emplear el siguiente índice de capacidad: C pk =

( LES − LEI ) − 2d 6σ

En la figura 15.3 se aprecia que d representa la distancia entre la media del conjunto de datos y el centro de los límites de especificación:

d= x−

LES + LEI 2

En general, siempre conviene emplear esta última fórmula para calcular el índice de capacidad, pues cuando el proceso no está descentrado d es igual a 0. d

LEI

x

LES

6σ Figura 15.3. Medición de la capacidad de un proceso

A continuación se presenta una interpretación de los valores que puede tomar el índice de capacidad de un proceso: Si: 0 n) como para asumir que el porcentaje de artículos defectuosos se mantiene constante a medida que se extrae cada unidad de la muestra, se puede usar la fórmula de probabilidad binomial: Pa = P( x ≤ c) =

c

 n

∑  x  p

x

q n− x

x =0

Si n es grande y p muy pequeño, puede resultar buena la aproximación de las probabilidades binomiales a probabilidades de Poisson. En el apéndice se presenta una tabla con probabilidades Pa (de Poisson) para determinados valores de np y c (página 271). Si np>5 y nq>5; se puede aproximar la distribución binomial a la distribución normal. Forma de la curva CO: En un plan de muestreo es importante que los riesgos de muestreo sean lo menor posible, es decir, que se consigan los valores típicos de α y β : 0,05 y 0,10, respectivamente, para el NCA que anuncia el productor y para un valor de NCL que no perjudique al consumidor. Si se aumenta el número de aceptación c en un plan de muestreo, manteniendo constante el valor de n, lógicamente aumentará la probabilidad de aceptación, como se muestra en la figura 15.31.

Herramientas estadísticas para mejorar la calidad de los procesos 237

1.00 0.90

Probabilidad de aceptación

0.80 0.70 0.60 0.50 0.40 0.30 c=0

c=1

c=2

c=3

c=4

c=5

0.20 0.10 0.00 0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

0.45

0.50

0.55

0.60

Figura 15.30. Curvas CO para n constante

Si se aumenta el tamaño de la muestra n en un plan de muestreo, manteniendo constante el valor de c, lógicamente disminuirá la probabilidad de aceptación, como se muestra en la figura 15.31. 1.00 0.90

Probabilidad de aceptación

0.80 0.70 n = 60 0.60

n = 50 n = 40

0.50

n = 30 n = 20

0.40 0.30 0.20 0.10 0.00 0.00

0.05

0.10

0.15

0.20

0.25

0.30

0.35

0.40

Figura 15.30. Curvas CO para c constante

En conclusión, para elegir un buen plan de muestreo se debe escoger una adecuada combinación del número de aceptación c y del tamaño de la muestra n. Dado un valor de NCA y definido un valor de β, se debe elegir un plan de muestreo que haga que α y NCL sean tan pequeños como se desee.

238

Herramientas estadísticas para mejorar la calidad de los procesos

Problemas propuestos. 1. Una empresa de manufactura recibe componentes de un proveedor, cuyas dimensiones ha representado mediante el histograma de la siguiente figura: LEi

LEs

Según se aprecia, el proveedor sólo envía los componentes que cumplen con las especificaciones establecidas, descartando los defectuosos. ¿Qué ventajas puede tener la empresa si exige a su proveedor que centre el proceso? a) b) c) d) e)

Ninguna, pues lo que importa es que cumpla con las especificaciones. Puede exigir precios más bajos a su proveedor. Puede ahorrarse los costos de inspección. Todas las respuestas anteriores son correctas, excepto (a). No se puede saber, pues faltan datos.

2. Suponga que usted es el gerente de una empresa que fabrica discos metálicos recubiertos con plástico. El jefe de producción tiene una muestra que fue extraída durante 3 días de producción. En la siguiente figura se muestra el histograma que representa dicha muestra. ¿Qué le diría al jefe de producción? 4 2 12

20

28

36

44

Espesor del recubrimiento (milésimas de pulgada)

3. Una empresa, que quiere analizar las ventas de sus productos en esta campaña navideña, ha tomado datos de las ventas (en soles) realizadas en sus dos tiendas durante este mes de diciembre. Para hacer un mejor análisis, ha construido el siguiente histograma:

Venta

¿Qué comentarios puede hacer al respecto? 4. Un fabricante de un compuesto está preocupado por la densidad de su producto. Análisis previos han demostrado que dicho compuesto tiene las características requeridas sólo si la densidad se encuentra entre 5,40 g/cm2 y 6,02 g/cm2. Si una muestra de 100 piezas da un promedio de 5,69 g. y una desviación estándar de 0,1 g. ¿Se puede afirmar que su proceso es capaz? ¿Qué recomendaría al jefe de producción? Respuesta: no es capaz, pues cpk = 0,967. Convendría centrar el proceso, y más aún, reducir la variabilidad del proceso.

Herramientas estadísticas para mejorar la calidad de los procesos 239

5. Se afirma que un proceso cuya tolerancia es de ±45 mm. no es capaz, a pesar de que la desviación estándar es igual a 13,11 mm. ¿Es posible esto? 6. ¿Cómo cree que debería ser el histograma de la longitud de los trozos de madera de desecho en un taller de carpintería? Respuesta: con sesgo positivo; esto revelaría que se desechan pocos trozos grandes. 7. Explique qué implicaría calcular el índice de capacidad de un proceso si se emplea 8σ en vez de 6σ. Respuesta: Empleando 8σ se mediría un índice de capacidad menor; por lo tanto se estaría siendo más estricto al valorar qué tan capaz es un proceso. 8. Las especificaciones para cierta dimensión de un producto elaborado mediante un proceso son: 3,000 ± 0,006 pulgadas. Una muestra grande indica un promedio de 2,998 pulgadas y una desviación estándar de 0,002 pulgadas. Suponga que se puede ajustar el proceso, con un gasto de $750, para cambiar el promedio a la especificación nominal, es decir, a 3,000 pulgadas. Cada producto fuera de los límites de especificación significa una pérdida de $5. a) Determine en cuánto mejora el índice de capacidad del proceso si se hace el ajuste especificado. Respuesta: mejora en 0,3333 b) Si se hace el ajuste del proceso para producir un lote de 10 000 unidades, ¿se lograría un ahorro? Respuesta: Sí, se espera ahorrar $254,10. 9. Conteste verdadero (V) o falso (F). a) El muestreo de aceptación determina si un proceso funciona correctamente. b) Un proceso productivo que está bajo control suele generar histogramas simétricos. c) Si se van obteniendo puntos fuera de los límites de control, es casi seguro que no se cumpla con los límites de especificación. d) Para detectar posibles fallas en un proceso conviene emplear los gráficos de control en lugar de estudiar la capacidad del proceso. e) β es la probabilidad Pa cuando la proporción de productos defectuosos es indeseable. f) α es la probabilidad (1 – Pa) cuando la proporción de productos defectuosos no corresponde con la especificada por el productor. 10. Se observa que el gráfico de medias aritméticas de un proceso ha estado bajo control. Si el rango disminuye repentina y significativamente, entonces la media: a) siempre aumentará. b) se mantendrá igual. c) siempre disminuirá. d) ocasionalmente hay una indicación de fuera de control para cualquiera de los límites. e) ninguno de los anteriores. 11. En la siguiente tabla se presentan medidas extraídas de 13 lotes producidos sucesivamente. De cada lote se ha extraído una muestra de 5 medidas. Trace los gráficos de control de media, mediana y de rangos, y comente los resultados obtenidos. Lote N° Valores medidos

1 47 32 44 35 20

2 19 37 31 25 34

3 13 31 24 46 44

4 29 29 42 59 38

5 28 12 45 36 25

6 40 35 11 38 33

7 15 30 12 33 26

8 25 44 32 11 38

9 37 37 26 20 35

10 23 45 26 37 32

11 28 44 40 31 18

12 31 25 24 32 22

13 22 37 19 47 14

240

Herramientas estadísticas para mejorar la calidad de los procesos

12. Se desea controlar el proceso de llenado de bolsitas con cocoa, mediante gráficos de control media–desviación estándar, para lo cual se han tomado muestras de seis bolsitas durante 20 horas consecutivas, como se muestra en la siguiente tabla. Determine si se pueden instalar dichos gráficos de control. Hora 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 74,86 74,84 73,82 75,15 74,79 75,18 75,46 74,91 76,49 74,45 75,93 75,03 74,70 75,40 74,27 74,44 74,69 75,41 74,44 75,12

76,31 74,95 73,91 74,67 75,87 74,79 74,09 74,78 74,40 75,25 74,34 74,51 75,26 74,17 75,50 74,83 73,71 75,40 75,05 75,08 76,08 75,60 76,62 74,87 74,35 74,82 75,27 74,95 75,37 75,28 73,62 75,56 74,74 74,78 75,68 74,37 75,80 74,57 75,21 74,44 75,84 74,96 74,90 74,93 75,17 74,55 75,11 76,32 75,29 75,25 74,93 75,15 75,94 74,01 75,03 74,77 75,09 74,43 74,21 73,94 74,78 75,16 75,63 73,90 75,46 76,17 75,31 75,03 75,48 74,36 75,84 74,89 75,38 74,16 74,68 74,09 74,36 74,79 73,43 75,41 74,94 74,65 73,73 74,77 75,52 74,95 75,87 74,76 75,43 75,40 75,58 76,14 74,73 74,95 74,32 74,32 75,63 75,67 74,17 75,99

Respuesta: no se pueden instalar, pues hay una racha de 9 puntos en el gráfico de medias. 13. Una biblioteca universitaria considera que ordenará entre 200 y 400 libros cada mes. Se han rastreado las órdenes de los últimos 23 meses, con los siguientes resultados: 1 275 13 368

2 335 14 325

3 336 15 400

4 363 16 491

5 319 17 500

6 400 18 400

7 376 19 175

8 245 20 297

9 240 21 170

10 300 22 271

11 210 23 250

12 363

a) ¿El proceso de órdenes se encuentra bajo control? b) ¿El proceso de órdenes cumple con las especificaciones? 14. El jefe de una biblioteca universitaria quiere medir y controlar el nivel de satisfacción de los alumnos usuarios respecto a la rapidez con que se les entrega los libros para préstamo. Para esto ha encuestado diariamente a 10 alumnos que salían de la biblioteca con algún libro prestado, durante 22 días del mes pasado, pidiéndoles que escojan una alternativa para la siguiente afirmación: “Usted considera que la rapidez con que se le ha entregado el libro que ha solicitado es”: 1) Muy baja. 2) Baja. 3) Ni baja ni alta. 4) Alta. 5) Muy alta. A cada una de estas respuestas se les da el puntaje 1, 2, 3, 4, 5, respectivamente. De esta manera, un promedio alto indicará un alto nivel de satisfacción de los usuarios. En la siguiente tabla se muestran los promedios de los puntajes obtenidos durante los 22 días. Días 1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

3 4 2 1 2 1 2 3 1 2

1 1 2 3 3 3 2 4 2 1

2 1 2 1 2 3 1 2 1 3

1 3 3 1 1 1 1 2 1 1

3 1 1 3 1 3 3 1 4 2

2 1 2 1 1 1 1 2 2 2

1 1 2 3 2 2 1 3 2 4

1 1 4 1 1 4 3 1 2 3

1 2 5 1 3 5 2 2 1 2

1 1 2 1 1 2 2 1 1 1

1 2 2 1 1 2 2 1 3 1

2 1 2 1 1 2 3 2 1 5

1 2 3 3 2 2 3 4 1 1

1 1 1 3 5 1 1 1 2 2

1 1 1 3 2 4 1 1 4 2

1 2 1 3 1 1 1 2 4 2

1 3 4 1 1 3 4 5 3 1

1 2 1 4 3 2 1 3 4 2

1 1 3 2 1 1 2 2 1 2

2 2 1 2 1 1 1 1 1 1

1 1 3 2 1 1 2 2 3 2

2 2 5 4 1 1 2 3 1 1

Determine si se pueden instalar gráficos de control media–rango. 15. Una distribuidora recibe diariamente paquetes de 400 tuercas de un fabricante, que luego vende a ferreterías locales. El porcentaje de tuercas defectuosas es, en promedio, 2,75%. a) ¿En qué rango puede considerarse estadísticamente aceptable la variación del porcentaje de tuercas defectuosas?

Herramientas estadísticas para mejorar la calidad de los procesos 241

b) ¿En qué rango puede considerarse estadísticamente aceptable la variación del número de tuercas defectuosas? 16. ¿Qué haría si, luego de tomar datos para instalar un gráfico de control de una variable de calidad: a) tres puntos se encuentran fuera de los límites de control? b) dos puntos se encuentran fuera de los límites de control? c) hay una racha? 17. ¿Por qué es más pequeña la distancia entre los límites de control de un gráfico de control de medias, que la distancia entre los límites de especificación? 18. ¿Cuándo conviene instalar un gráfico de control de proporción de unidades defectuosas en vez de número de unidades defectuosas? ¿Cuándo conviene instalar un gráfico de control de número de defectos en vez de número de defectos por unidad? 19. Se toman muestras de n = 8 de un proceso de manufactura a intervalos regulares. Se mide cierta característica de calidad (distribuida normalmente) y se calculan los valores de x y R para cada muestra. Después de 50 muestras se tiene: 50

∑x i =1

i

= 1000 ;

50

∑R

i

= 250

i =1

a) Calcule los límites de control para los gráficos de control de medias y de rangos. Respuesta: LC x = 20 ± 1,865; LCIR = 0,68; LCSR = 9,32. b) Si los límites de especificación son: 21 ± 5,0. ¿Cuál es su conclusión acerca de la capacidad del proceso? Respuesta: el proceso no es capaz, pues cpk = 0,785. 20. Un plan de muestreo n = 25; c = 0 para un lote muy grande implica un alto riesgo para un productor que afirma que tiene un máximo de 2% de productos defectuosos. a) Explique por qué y determine dicho riesgo. b) ¿Qué porcentaje de defectuosos tendría que afirmar que tiene el productor para que su riesgo no supere el 10%? 21. Una empresa recibe lotes de 1 000 productos, los cuales se pueden inspeccionar a $0,70/unidad. Si acepta material defectuoso, se incurre en un costo de $14 /unidad. Se propone un plan de muestreo n = 75; c = 2. Si el porcentaje de productos defectuosos es aproximadamente 2,2%, ¿se justifica el plan de muestreo? 22. Defina un plan de muestreo con n = 100 para un lote muy grande enviado por un productor que afirma que p = 0,02; tratando que el riesgo del productor no supere el 10% y el nivel de calidad límite sea el menor posible. Determine además el nivel de calidad límite. Considere el valor usual de β = 0,10. Respuesta: n = 100; c = 4; NCL = 0,0797. 23. Un fabricante vende su producto en lotes grandes a un cliente que utiliza un plan de muestreo n = 180, c = 2. Si un lote es rechazado se regresará al fabricante, quien ha decidido arriesgarse y enviar el mismo lote rechazado al cliente, sin revisarlo, con la esperanza de que la segunda vez el muestreo lo lleve a aceptar el lote. ¿Cuál es la probabilidad de que esto ocurra, es decir, de que un lote sea rechazado y luego aceptado, si p = 0,02? 24. ¿Cómo influye la pendiente de la curva CO en la protección para el productor y para el consumidor? 25. Se establece el siguiente plan de muestreo: n = 250; c = 5. a) Determine NCA si el riesgo del productor es 0,025. Respuesta: 0,88% b) Determine NCA si el riesgo del productor es 0,05. Respuesta: 1,04%

242

Herramientas estadísticas para mejorar la calidad de los procesos

26. La probabilidad de aceptar un producto con un nivel de calidad aceptable se define como: a) b) c) d) e)

NCA

α β

1–α 1–β

27. Defina un plan de muestreo con n > 100 para un lote muy grande enviado por un fabricante que afirma que p = 3%, tratando que el riego del productor esté entre el 5% y el 10% y el nivel de calidad límite no supere el 9%. 28. Para calificar la bondad de un plan de muestreo debe tenerse en cuenta: a) b) c) d)

NCA y c NCA NCA y NCL NCL y β

29. Un fabricante nacional de equipo de navegación compra partes de una compañía alemana, en lotes de 5 000 unidades. El fabricante planea un muestreo de 50 piezas por lote. a) Construya la curva CO para c = 0; 2 y 5. b) Determine α y NCL en cada caso, si NCA = 0,02 y β = 0,10. 30. Determine Pa para un plan de muestreo n = 110; c = 3 para lotes muy grandes con: a) 1% de productos defectuosos. Respuesta: 0,974 b) 2% de productos defectuosos. Respuesta: 0,580 c) 5% de productos defectuosos. Respuesta: 0,058208

Teoría de decisiones 243

Capítulo 16. Teoría de decisiones. 16.1

Introducción.

En todas las empresas, fábricas, tiendas, etc., se toman decisiones continuamente. Se tiene que decidir, por ejemplo: • • • • •

Cuántas horas-hombre contratar el próximo mes. Cuánto gastar en publicidad de un producto el próximo año. Cuántas mochilas comprar para la campaña escolar. Si conviene introducir un nuevo producto en el mercado. Si conviene comprar una máquina para elaborar un componente de un producto final, o seguir comprando el componente a un proveedor. • Si conviene reemplazar o reconstruir un equipo.

En cada uno de estos ejemplos se ve que son posibles dos o más cursos de acción. Generalmente las decisiones se toman con base en la intuición de personas expertas; pero existe el peligro de equivocarse por no hacer un análisis profundo de las decisiones posibles y sus consecuencias.

16.2 Definiciones 16.2.1 Decisor

Es un ente individual o colectivo capaz de tomar decisiones. Se asocia al decisor un conjunto de decisiones posibles {ai}. 16.2.2 Alternativas de decisión

Es el conjunto de decisiones o acciones {ai} entre las cuales el decisor debe elegir una.

16.3 Estados de la naturaleza Son las circunstancias que influyen en el beneficio que va a recibir el decisor y sobre los cuales él no puede influir. A los distintos estados de la naturaleza se les denomina {bj}. Según el conocimiento que se tenga de los posibles estados de la naturaleza, se puede tener: 16.3.1 Ambiente de certeza

Cuando el decisor conoce perfectamente el estado de la naturaleza para la decisión que tome. 16.3.2 Ambiente de riesgo

Cuando no se dispone de información perfecta como el caso anterior, pero se conocen las probabilidades de ocurrencia de los diferentes estados de la naturaleza. En este capítulo se analizarán situaciones de este tipo. 16.3.3 Ambiente de incertidumbre

Cuando no se dispone de ninguna información sobre las probabilidades con que pueden ocurrir los estados de la naturaleza. El decisor debe elaborar un criterio que dependerá mucho de su criterio particular.

244

Teoría de decisiones

16.3.4 Ambiente de competencia

Cuando influyen causas promovidas por otro decisor, pudiendo sus decisiones influir negativamente en el beneficio. Esto significa que lo que suponga un beneficio para un decisor, será un perjuicio para el otro. La teoría de juegos, que es parte de la Investigación de Operaciones, se encarga de analizar situaciones como ésta.

16.4 Consecuencias Son los resultados asociados a cada acción. Dependen de la decisión que tome el decisor y del estado de la naturaleza que se presente. No está demás aclarar que un estado de la naturaleza se presentará después de que el decidor haya escogido una acción. A los resultados se les suele cuantificar con un valor (vij), que representa el costo o beneficio que se obtiene cuando se toma la decisión i y ocurre el estado de la naturaleza j. En la siguiente tabla se pueden identificar los conceptos ya explicados:

Alternativas de decisión

a1 a2 ... ... am

b1 v11 v21

vm1

Estados de la naturaleza b2 … … v12 v22

vm2

bn v1n V2n

vmn

16.5 Criterios de decisión Para una mejor comprensión de los criterios de decisión que se pueden adoptar, se aplicará cada uno de éstos al ejemplo 1. El lector debe decidir cuál de los criterios le conviene emplear, lo cual dependerá de la situación específica que se presente y de su nivel de aversión al riesgo.

Ejemplo 1: Diariamente, un vendedor de periódicos (se puede suponer cualquier producto perecedero) debe decidir cuántos periódicos comprar. Cada periódico lo compra a S/.2 y lo vende a S/.2.50. Los periódicos que no vende durante el día los pierde. Por experiencia, ha encontrado que puede vender entre 6 y 10 periódicos, con la misma probabilidad de ocurrencia. ¿Cuántos periódicos le conviene comprar cada día? En la siguiente tabla se representan los posibles beneficios de este problema de decisión, que se calculan fácilmente a partir de los datos:

Posible pedido

6 7 8 9 10

6 3 1 -1 -3 -5

Posible demanda 7 8 9 3 3 3 3,50 3,50 3,50 1,50 4 4 -0,50 2 4,50 -2,50 0 2,50

10 3 3,50 4 4,50 5

16.5.1 Criterio Maximin

Es un criterio muy pesimista. Elige la acción que maximiza el peor resultado; es decir, de los peores resultados de cada acción posible, se escoge el mejor. Así se asegura que, en el peor de los casos, el resultado sea lo mejor posible. Aplicando este criterio al ejemplo 1, habría que escoger el mayor beneficio entre los menores de cada pedido posible: 3, 1, -1, -3 y -5. El mayor es 3; por lo tanto se pedirían 6 periódicos.

Teoría de decisiones 245 16.5.2 Criterio Maximax

Es un criterio muy optimista. Elige la acción que determina el mejor resultado entre los mejores de cada acción posible. Aplicando este criterio al ejemplo 1, habría que escoger el mayor beneficio entre los siguientes: 3; 3,50; 4; 4,50; 5. El mayor es 5; por lo tanto se pedirían 10 periódicos. 16.5.3 Criterio realista

Es un criterio que se sitúa entre el optimismo del criterio maximax y el pesimismo del criterio maximin. El decisor debe elegir un coeficiente de optimismo (α) comprendido entre 0 y 1. Así, para cada acción posible, la medida de realismo será: r = α (beneficio máximo) + (1 – α) (beneficio mínimo) Como se trata de obtener el máximo beneficio posible, el decisor elegirá el mayor valor de r. Aplicando este criterio al ejemplo 1, para α = 0,6: r6 = 0,6 (3) + (1 – 0,6) (3) = 3 ⇐ mínimo r7 = 0,6 (3,50) + (1 – 0,6) (1) = 2,50 r8 = 0,6 (4) + (1 – 0,6) (-1) = 2 r9 = 0,6 (4,50) + (1 – 0,6) (-3) =1,50 r10 = 0,6 (5) + (1 – 0,6) (-5) =1 Por lo tanto, se decide comprar 6 periódicos. 16.5.4 Criterio minimax del costo de oportunidad

Elige la acción que minimiza el mayor costo de oportunidad posible. El costo de oportunidad es lo que se podría haber ganado adicionalmente si se hubiese elegido la mejor acción posible. Por ejemplo, si se piden 6 periódicos y la demanda es de 8 periódicos, la ganancia es de S/.3; pero, siendo la demanda de 8 periódicos, si hubiese pedido 8 la ganancia hubiera sido S/.4. El costo de oportunidad es: 4 – 3 = S/.1. En resumen, este criterio trata de minimizar lo que se deja de ganar. Para el ejemplo 1, la matriz de costos de oportunidad se puede calcular fácilmente:

Posible pedido

6 7 8 9 10

6 0 2 4 6 8

Posible demanda 7 8 9 0,50 1 1,50 0 0,50 1 2 0 0,50 4 2 0 6 4 2

10 2 1,50 1 0,50 0

Aplicando este criterio, habría que escoger el menor costo entre los siguientes: 2 ,2 ,4 ,6 ,8; por lo tanto pediría 6 ó 7 periódicos; pues en ambos casos el costo es mínimo: S/.2. 16.5.5 Criterio del valor esperado (de Bayes)

Elige la acción que produce la máxima ganancia esperada. Para el ejemplo 1, las ganancias esperadas para cada acción posible son: G6 = 0,2(3) + 0,2(3) + 0,2(3) + 0,2(3) + 0,2(3) = 3 G7 = 0,2(1) + 0,2(3,50) + 0,2(3,50) + 0,2(3,50) + 0,2(3,50) = 3 G8 = 2,50 G9 = 1,50 G10 = 0 Aplicando este criterio, pediría 6 ó 7 periódicos.

246

Teoría de decisiones

16.5.6 Criterio del costo de oportunidad esperado

Elige la acción que produce el mínimo costo de oportunidad esperado. Para el ejemplo 1, los costos de oportunidad esperados son: C6 = 0,2(0) + 0,2(0.50) + 0,2(1) + 0,2(1,50) + 0,2(2) = 1 C7 = 1 C8 = 1,50 C9 = 2,50 C10 = 4 Aplicando este criterio, pediría 6 ó 7 periódicos. 16.5.7 Criterio de máxima verosimilitud

Elige el estado de la naturaleza que tiene la mayor probabilidad de ocurrencia, y, después, asumiendo que ocurrirá dicho estado, elige la acción que da el mayor beneficio. En el ejemplo 1 no se puede aplicar este criterio, pues todos los estados de la naturaleza tienen la misma probabilidad de ocurrencia.

16.6 Árboles de decisión Las tablas de decisión elaboradas en el apartado anterior son muy útiles para representar problemas de una sola etapa. Existen problemas con dos o más etapas, en donde hay una sucesión de acciones y eventos, que conviene representar mediante árboles para poder hacer un mejor análisis. A continuación se resuelve el ejemplo 2 empleando un árbol de decisión que se dibuja expresamente para esa situación. En los árboles se suele seguir el siguiente convenio tácito: las acciones posibles se ramifican a partir de un cuadrado, y los estados de la naturaleza a partir de un círculo (ver figura 16.1). Ejemplo 2:

Una editorial está considerando lanzar una revista mensual con artículos e información de interés para economistas y empresarios. Con base en su experiencia pasada y en sus percepciones, el gerente de la editorial ha estimado las siguientes ganancias anuales (en soles), considerando tres niveles distintos de demanda de su revista. Demanda baja Demanda regular Demanda alta

Si no edita la revista Si edita la revista 0 –150 000 0 50 000 0 200 000

El gerente estima además que las probabilidades de estos tres niveles de demanda son: P(baja) = 0,5; P(regular) = 0,2; P(alta) = 0,3 Además, el gerente pronostica que la competencia para su revista será muy grande, por lo que piensa en la posibilidad de hacer un sondeo de mercado sobre la aceptación que tendrá su revista. Suponga que este sondeo, que le costaría S/.5 000 a la editorial, sólo indicará si el diagnóstico es favorable o si es desfavorable, con lo que se decidirá si editar o no la revista. Con base en experiencias previas en relación a otras publicaciones, el gerente ha establecido las siguientes probabilidades condicionales, dadas las posibles demandas: P(diagnóstico favorable \ demanda baja) = 0,10 P(diagnóstico favorable \ demanda regular) = 0,60 P(diagnóstico favorable \ demanda pobre) = 0,90 ¿Cuál es la mejor decisión para la editorial? En la siguiente tabla se introducen las probabilidades dadas y se calculan las probabilidades condicionales, procediendo tal como se explicó en 1.7.4 y 1.7.5.

Teoría de decisiones 247

Diagnóstico favorable Diagnóstico desfavorable

Demanda baja 5 45 50

Demanda regular 12 8 20

Demanda alta 27 3 30

44 56 100

En la figura 16.1 se representa un árbol con todas las posibles decisiones, los posibles estados de la naturaleza, sus probabilidades condicionales de ocurrencia y las ganancias esperadas de los estados finales posibles. Por ejemplo, si el diagnóstico es favorable, se tendría una ganancia de -155 000 soles. D. baja 5/44 D. regular Editar

12/44 114 318,18

27/44

Favorable

D. alta

195 000

-5 000

114 318,18 D. baja 45/56 Editar 0,56

45 000

No editar

0,44

Hacer sondeo

-155 000

D. regular 8/56

-5 000 -107 678,57

47 500

3/56

D. alta

-155 000 45 000 195 000

Desfavorable

-5 000

No editar D. baja

0 No hacer sondeo

0,50 Editar

D. regular 0,20 -5 000

No editar

0,30

D. alta

-150 000 50 000 200 000

0

Figura 16.1. Árbol de decisión del ejemplo 2.

Nótese que la primera decisión que debe tomar el gerente de la editorial es si hace o no el sondeo; esta decisión le ayudará a decidir luego si edita o no la revista, con base en el resultado del sondeo. Además, en el árbol se han expresado las probabilidades condicionales calculadas a partir de la tabla anterior, por ejemplo: P(demanda baja \ diagnóstico favorable) = 5/44 P(demanda regular \ diagnóstico favorable) = 12/44 P(demanda pobre \ diagnóstico favorable) = 27/44

248

Teoría de decisiones

Una vez expresadas las probabilidades en el árbol, resulta fácil calcular las ganancias esperadas para cada decisión, utilizando el criterio de Bayes. Con base en estas ganancias esperadas se decide si editar o no editar, escogiendo la acción que dé la mayor ganancia. Por ejemplo, si el resultado del sondeo es favorable, por editar la revista se espera ganar 114 318,18 soles y por no editarla se espera perder 5 000 soles. Evidentemente se elige editarla. Siguiendo este mismo procedimiento se elige no editar la revista para el caso en que el diagnóstico sea desfavorable, con una pérdida esperada de 5 000 soles. Como se conoce la probabilidad de que el sondeo dé un diagnóstico favorable y que dé un diagnóstico desfavorable, aplicando el criterio de Bayes se calcula la ganancia que se espera tener si se hace sondeo, que resulta 47 500. Siguiendo este mismo procedimiento se llega a obtener la ganancia esperada si no se hace sondeo: cero. Por lo tanto se decide hacer el sondeo, pues reporta mayor ganancia esperada. Si el sondeo da un diagnóstico favorable, convendrá editar la revista; y si el diagnóstico es desfavorable, convendrá no editarla.

Teoría de decisiones 249

Problemas propuestos 1. Un fabricante de discos está considerando varios métodos alternativos de expandir su producción para adecuar una demanda creciente. A continuación se muestra una tabla de beneficios (en miles de dólares) que le ha elaborado un consultor de empresas para los próximos 5 años. Diga qué decisión tomaría siguiendo cada uno de los criterios: maximin, maximax, minimax del costo de oportunidad, Bayes, costo de oportunidad esperado y máxima verosimilitud. DECISIÓN POSIBLE Expandir Construir nueva planta Subcontratar PROBABILIDAD

Alta 500 700 300 0,25

Demanda Moderada Baja 250 -250 300 -400 150 -10 0,40 0,30

Nula -450 -800 -100 0,05

2. El propietario de un terreno ha recibido una oferta de una compañía para explorar su terreno pues es muy probable que haya petróleo. La oferta es de $450 000, con la posibilidad de recibir $500 000 más si encuentran petróleo y les cede los derechos de explotación. El propietario del terreno piensa en la posibilidad de explorar él mismo, y ha averiguado que le costaría $100 000, los cuales los perdería si no encuentra petróleo; pero si encuentra, sus ingresos serían de $1 300 000. Un experto ha estimado que la probabilidad de que haya petróleo es 0,6. a) Diga qué decisión aconsejaría al propietario siguiendo cada uno de los siguientes criterios: maximin, maximax, minimax del costo de oportunidad, Bayes, costo de oportunidad esperado, máxima verosimilitud. b) Supóngase que existe la posibilidad de realizar una prueba para estimar mejor la probabilidad de que haya petróleo, con un costo de $20 000. La empresa que realiza estas pruebas acepta que el 20% de las veces indica que no hay petróleo cuando sí hay; y que cuando no hay petróleo, la prueba lo indica el 90% de las veces. ¿Qué aconsejaría usted al propietario? 3. Daniel puede usar su lancha durante el verano para la pesca o puede alquilarla para recreación a los veraneantes de La Punta, a $100 diarios. Cuando el clima es bueno, la alquila un promedio de 80 días; pero cuando el clima no es bueno, sólo la alquila un promedio de 55 días. Daniel ha calculado que por cada día de alquiler tiene unos gastos de $25. Cuando el clima es bueno, las utilidades de la pesca son en promedio $6 200. Cuando el clima no es bueno, la pesca le da un promedio de $3 100 de utilidad. Para este verano, Daniel ha averiguado en un reporte meteorológico gratuito que la probabilidad de tener buen clima es 0,70. Su amigo Alejo, que dirige un servicio privado de pronóstico meteorológico afirma que en el 80% de las temporadas que hubo buen clima pronosticó buen clima y en el 90% de las temporadas en que hubo mal clima pronosticó mal clima. ¿Cuánto pagaría a Alejo por el pronóstico meteorológico para la temporada? Respuesta: Pagaría menos de $81,25. 4. Fernando, un joven ingeniero, quiere construir un edificio con 10, 20 ó 30 habitaciones para alquilar a estudiantes de la UDEP, para lo cual debe decidir cuánto invertir. En las urbanizaciones vecinas a la UDEP ya hay edificios con habitaciones para estudiantes, por lo que Fernando no está muy seguro de qué tan fuerte será la demanda para su proyecto. Si fuese conservador y construye pocas habitaciones, perdería utilidades potenciales si la demanda resulta ser alta. Por otra parte, resultaría poco rentable tener muchas habitaciones sin alquilar. En la siguiente tabla se muestran las posibles utilidades anuales (en dólares), sobre la base de tres niveles de demanda. Construir 10 Construir 20 Construir 30 Probabilidad

Demanda baja 5000 0 – 6000 0,2

Demanda mediana 5000 10000 4000 0,5

Demanda alta 5000 10000 15000 0,3

250

Teoría de decisiones

Para reducir la incertidumbre sobre el número de habitaciones que debe construir, Fernando puede realizar una encuesta que dará como resultado una de las tres medidas de demanda: baja, mediana o alta. Esta encuesta se la puede realizar una pequeña empresa consultora de Piura, (ECP) que presenta el siguiente historial: Cuando la demanda resultó Baja Mediana Alta

Demanda baja 0,7 0,3 0,1

La empresa consultora pronosticó Demanda mediana Demanda alta 0,2 0,1 0,4 0,3 0,3 0,6

El costo de la encuesta depende de la confiabilidad y del máximo error muestral que se fije, y debe discutirse. ¿Qué decisión debe tomar Fernando? Respuesta: debe solicitar la encuesta a ECP, sólo si ésta cobra menos de 1 970 dólares. Si ECP pronostica demanda baja, le conviene construir 10 habitaciones (espera ganar 5 000 dólares); si pronostica demanda mediana, le conviene construir 20 habitaciones (espera ganar 7 000 dólares); y si pronostica demanda alta, le conviene construir 30 habitaciones (espera ganar 9 600 dólares). 5. En un taller de manufactura se está considerando la posibilidad de inspeccionar pequeñas muestras extraídas de unos lotes de artículos que le llegan de un proveedor, con el propósito de determinar si se acepta o se rechaza cada lote. En el pasado le han llegado tres tipos de lotes de artículos de dicho proveedor: A, B y C, que contenían 90%, 80% y 70% de artículos de óptima calidad, respectivamente. Estos porcentajes han ocurrido en el 50%, 30% y 20% de los casos, respectivamente. Debido a las características del proceso de manufactura, se puede tomar una muestra de sólo 2 artículos de cada lote. Esta inspección tendría un costo de $5. Un detallado análisis de “costos de oportunidad” (expresan lo que se deja de ganar) ha permitido elaborar la siguiente tabla: Tipo de lote A B C

Acción Rechazar el lote Aceptar el lote $200 $0 $0 $100 $0 $200

Como resultado del muestreo de cada lote, se puede tener: 0, 1 ó 2 artículos de óptima calidad. Según el resultado del muestreo, el jefe del taller decidirá si acepta o rechaza el lote ¿Qué decisión debe tomarse? Respuesta: Le conviene hacer la inspección, con un costo esperado de $62,78. Si en la muestra los dos artículos son de óptima calidad, conviene aceptar el lote; en caso contrario, conviene rechazarlo. 6. Una empresa comercializadora debe clasificar los lotes de cierta fruta que le llegan de un agricultor, en uno de dos tipos: A o B. Para hacer esta clasificación tiene dos posibilidades: una simple inspección ocular, sin costo alguno, o una revisión de una muestra de 10 unidades, que le costaría $10. Generalmente, de los lotes que le han llegado, el 70% han sido tipo A y el 30% de tipo B. Además, haciendo esta revisión de 10 unidades, cuando le han llegado lotes tipo A los ha clasificado bien en el 90% de los casos, y cuando le han llegado lotes tipo B los ha clasificado bien en el 80% de los casos. Las utilidades que ha tenido con estos dos tipos de lote, según como los clasificó, se resumen en la siguiente tabla. ¿Qué debe hacer la empresa comercializadora para lograr el máximo beneficio? Tipo del lote de frutas A B

Clasificación del lote de frutas Tipo A Tipo B $460 $380 $290 $370

Teoría de decisiones 251

7. Christian, un joven ingeniero de sistemas ha desarrollado un novedoso software que puede vender a una conocida empresa de desarrollo de softwares, a $20 000. También lo puede comercializar él mismo, con estos posibles resultados: que no tenga aceptación, lo cual significaría una pérdida de $5 200; que sí tenga aceptación, que significaría una utilidad de $52 000. Un compañero, experto en este tipo de negocios, estima que las probabilidades de aceptación y rechazo del software son 0,6 y 0,4. Christian se entera que podría pedirle a una empresa consultora un pronóstico sobre la posible reacción del mercado, a un costo de $1 000. El gerente de la empresa consultora afirma que cuando ha hecho este tipo de pronósticos ha acertado en el 90% de los casos en que el producto no fue aceptado, y en el 80% de los casos en que el producto fue aceptado. ¿Qué le aconsejaría usted a Christian? 8. El propietario de un terreno ha hecho un contrato por 30 días con una inmobiliaria para su venta, estipulando un precio de $25 000. La inmobiliaria cobra el 4% de comisión sobre lo vendido. Además, ha estimado que necesitaría gastar $800 para efectuar la venta en el plazo estipulado. La probabilidad de vender el terreno en el tiempo estipulado es 0,7. Diga si a la inmobiliaria le conviene aceptar la oferta para la venta del terreno siguiendo los siguientes criterios: a) Maximin; b) Maximax; c) Realista (α = 0.8); d) Bayes; e) Mínimax del costo de oportunidad; f) Costo de oportunidad esperado; g) Máxima verosimilitud. 9. El propietario del terreno del problema 8 le ha ofrecido a la inmobiliaria, en caso que venda el terreno durante esos 30 días, una de dos propiedades que tiene: una casa en la Urbanización Santa María del Pinar a $50 000 y otra en la Urbanización Los Geranios a $100 000, ambas por 90 días. La inmobiliaria ha estimado que los gastos que necesitaría hacer para efectuar las ventas de las casas de Santa María del Pinar y Los Geranios en el plazo estipulado ascienden a $200 y $400, respectivamente. Además, ha estimado que las probabilidades de vender dichas casas en el tiempo estipulado son 0,6 y 0,5; respectivamente. ¿Qué le aconsejaría a la inmobiliaria? Respuesta: Le aconsejaría aceptar el terreno (espera ganar $1 020). Si vende el terreno, le aconsejaría aceptar la casa de Los Geranios (espera ganar $1 800).

252

Apéndice

Apéndice Las tablas estadísticas que se incluyen en este apéndice han sido elaboradas con la ayuda de Excel.

Apéndice

Tabla de probabilidades binomiales acumulativas

 n

n

∑  x  p

x

qn−x

x=k

p n 2

k 1 2

3

1 2 3

4

1 2 3 4

5

1 2 3 4 5

6

1 2 3 4 5 6

7

1 2 3 4 5 6 7

8

1 2 3 4 5 6 7 8

9

1 2 3 4 5 6 7 8 9

0,05 0,0975 0,0025 0,05 0,1426 0,0073 0,0001 0,05 0,1855 0,0140 0,0005 0,0000 0,05 0,2262 0,0226 0,0012 0,0000 0,0000 0,05 0,2649 0,0328 0,0022 0,0001 0,0000 0,0000 0,05 0,3017 0,0444 0,0038 0,0002 0,0000 0,0000 0,0000 0,05 0,3366 0,0572 0,0058 0,0004 0,0000 0,0000 0,0000 0,0000 0,05 0,3698 0,0712 0,0084 0,0006 0,0000 0,0000 0,0000 0,0000 0,0000

0,10 0,1900 0,0100 0,10 0,2710 0,0280 0,0010 0,10 0,3439 0,0523 0,0037 0,0001 0,10 0,4095 0,0815 0,0086 0,0005 0,0000 0,10 0,4686 0,1143 0,0158 0,0013 0,0001 0,0000 0,10 0,5217 0,1497 0,0257 0,0027 0,0002 0,0000 0,0000 0,10 0,5695 0,1869 0,0381 0,0050 0,0004 0,0000 0,0000 0,0000 0,10 0,6126 0,2252 0,0530 0,0083 0,0009 0,0001 0,0000 0,0000 0,0000

0,15 0,2775 0,0225 0,15 0,3859 0,0608 0,0034 0,15 0,4780 0,1095 0,0120 0,0005 0,15 0,5563 0,1648 0,0266 0,0022 0,0001 0,15 0,6229 0,2235 0,0473 0,0059 0,0004 0,0000 0,15 0,6794 0,2834 0,0738 0,0121 0,0012 0,0001 0,0000 0,15 0,7275 0,3428 0,1052 0,0214 0,0029 0,0002 0,0000 0,0000 0,15 0,7684 0,4005 0,1409 0,0339 0,0056 0,0006 0,0000 0,0000 0,0000

0,20 0,3600 0,0400 0,20 0,4880 0,1040 0,0080 0,20 0,5904 0,1808 0,0272 0,0016 0,20 0,6723 0,2627 0,0579 0,0067 0,0003 0,20 0,7379 0,3446 0,0989 0,0170 0,0016 0,0001 0,20 0,7903 0,4233 0,1480 0,0333 0,0047 0,0004 0,0000 0,20 0,8322 0,4967 0,2031 0,0563 0,0104 0,0012 0,0001 0,0000 0,20 0,8658 0,5638 0,2618 0,0856 0,0196 0,0031 0,0003 0,0000 0,0000

0,25 0,4375 0,0625 0,25 0,5781 0,1563 0,0156 0,25 0,6836 0,2617 0,0508 0,0039 0,25 0,7627 0,3672 0,1035 0,0156 0,0010 0,25 0,8220 0,4661 0,1694 0,0376 0,0046 0,0002 0,25 0,8665 0,5551 0,2436 0,0706 0,0129 0,0013 0,0001 0,25 0,8999 0,6329 0,3215 0,1138 0,0273 0,0042 0,0004 0,0000 0,25 0,9249 0,6997 0,3993 0,1657 0,0489 0,0100 0,0013 0,0001 0,0000

0,30 0,5100 0,0900 0,30 0,6570 0,2160 0,0270 0,30 0,7599 0,3483 0,0837 0,0081 0,30 0,8319 0,4718 0,1631 0,0308 0,0024 0,30 0,8824 0,5798 0,2557 0,0705 0,0109 0,0007 0,30 0,9176 0,6706 0,3529 0,1260 0,0288 0,0038 0,0002 0,30 0,9424 0,7447 0,4482 0,1941 0,0580 0,0113 0,0013 0,0001 0,30 0,9596 0,8040 0,5372 0,2703 0,0988 0,0253 0,0043 0,0004 0,0000

0,35 0,5775 0,1225 0,35 0,7254 0,2818 0,0429 0,35 0,8215 0,4370 0,1265 0,0150 0,35 0,8840 0,5716 0,2352 0,0540 0,0053 0,35 0,9246 0,6809 0,3529 0,1174 0,0223 0,0018 0,35 0,9510 0,7662 0,4677 0,1998 0,0556 0,0090 0,0006 0,35 0,9681 0,8309 0,5722 0,2936 0,1061 0,0253 0,0036 0,0002 0,35 0,9793 0,8789 0,6627 0,3911 0,1717 0,0536 0,0112 0,0014 0,0001

0,40 0,6400 0,1600 0,40 0,7840 0,3520 0,0640 0,40 0,8704 0,5248 0,1792 0,0256 0,40 0,9222 0,6630 0,3174 0,0870 0,0102 0,40 0,9533 0,7667 0,4557 0,1792 0,0410 0,0041 0,40 0,9720 0,8414 0,5801 0,2898 0,0963 0,0188 0,0016 0,40 0,9832 0,8936 0,6846 0,4059 0,1737 0,0498 0,0085 0,0007 0,40 0,9899 0,9295 0,7682 0,5174 0,2666 0,0994 0,0250 0,0038 0,0003

0,45 0,6975 0,2025 0,45 0,8336 0,4253 0,0911 0,45 0,9085 0,6090 0,2415 0,0410 0,45 0,9497 0,7438 0,4069 0,1312 0,0185 0,45 0,9723 0,8364 0,5585 0,2553 0,0692 0,0083 0,45 0,9848 0,8976 0,6836 0,3917 0,1529 0,0357 0,0037 0,45 0,9916 0,9368 0,7799 0,5230 0,2604 0,0885 0,0181 0,0017 0,45 0,9954 0,9615 0,8505 0,6386 0,3786 0,1658 0,0498 0,0091 0,0008

0,50 0,7500 0,2500 0,50 0,8750 0,5000 0,1250 0,50 0,9375 0,6875 0,3125 0,0625 0,50 0,9688 0,8125 0,5000 0,1875 0,0313 0,50 0,9844 0,8906 0,6563 0,3438 0,1094 0,0156 0,50 0,9922 0,9375 0,7734 0,5000 0,2266 0,0625 0,0078 0,50 0,9961 0,9648 0,8555 0,6367 0,3633 0,1445 0,0352 0,0039 0,50 0,9980 0,9805 0,9102 0,7461 0,5000 0,2539 0,0898 0,0195 0,0020

253

254

Apéndice

p n 10

k 1 2 3 4 5 6 7 8 9 10

11

1 2 3 4 5 6 7 8 9 10 11

12

1 2 3 4 5 6 7 8 9 10 11 12

13

1 2 3 4 5 6 7 8 9 10 11 12 13

0,05 0,4013 0,0861 0,0115 0,0010 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,4312 0,1019 0,0152 0,0016 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,4596 0,1184 0,0196 0,0022 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,4867 0,1354 0,0245 0,0031 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10 0,6513 0,2639 0,0702 0,0128 0,0016 0,0001 0,0000 0,0000 0,0000 0,0000 0,10 0,6862 0,3026 0,0896 0,0185 0,0028 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,7176 0,3410 0,1109 0,0256 0,0043 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,7458 0,3787 0,1339 0,0342 0,0065 0,0009 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15 0,8031 0,4557 0,1798 0,0500 0,0099 0,0014 0,0001 0,0000 0,0000 0,0000 0,15 0,8327 0,5078 0,2212 0,0694 0,0159 0,0027 0,0003 0,0000 0,0000 0,0000 0,0000 0,15 0,8578 0,5565 0,2642 0,0922 0,0239 0,0046 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,15 0,8791 0,6017 0,3080 0,1180 0,0342 0,0075 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000

0,20 0,8926 0,6242 0,3222 0,1209 0,0328 0,0064 0,0009 0,0001 0,0000 0,0000 0,20 0,9141 0,6779 0,3826 0,1611 0,0504 0,0117 0,0020 0,0002 0,0000 0,0000 0,0000 0,20 0,9313 0,7251 0,4417 0,2054 0,0726 0,0194 0,0039 0,0006 0,0001 0,0000 0,0000 0,0000 0,20 0,9450 0,7664 0,4983 0,2527 0,0991 0,0300 0,0070 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000

0,25 0,9437 0,7560 0,4744 0,2241 0,0781 0,0197 0,0035 0,0004 0,0000 0,0000 0,25 0,9578 0,8029 0,5448 0,2867 0,1146 0,0343 0,0076 0,0012 0,0001 0,0000 0,0000 0,25 0,9683 0,8416 0,6093 0,3512 0,1576 0,0544 0,0143 0,0028 0,0004 0,0000 0,0000 0,0000 0,25 0,9762 0,8733 0,6674 0,4157 0,2060 0,0802 0,0243 0,0056 0,0010 0,0001 0,0000 0,0000 0,0000

0,30 0,9718 0,8507 0,6172 0,3504 0,1503 0,0473 0,0106 0,0016 0,0001 0,0000 0,30 0,9802 0,8870 0,6873 0,4304 0,2103 0,0782 0,0216 0,0043 0,0006 0,0000 0,0000 0,30 0,9862 0,9150 0,7472 0,5075 0,2763 0,1178 0,0386 0,0095 0,0017 0,0002 0,0000 0,0000 0,30 0,9903 0,9363 0,7975 0,5794 0,3457 0,1654 0,0624 0,0182 0,0040 0,0007 0,0001 0,0000 0,0000

0,35 0,9865 0,9140 0,7384 0,4862 0,2485 0,0949 0,0260 0,0048 0,0005 0,0000 0,35 0,9912 0,9394 0,7999 0,5744 0,3317 0,1487 0,0501 0,0122 0,0020 0,0002 0,0000 0,35 0,9943 0,9576 0,8487 0,6533 0,4167 0,2127 0,0846 0,0255 0,0056 0,0008 0,0001 0,0000 0,35 0,9963 0,9704 0,8868 0,7217 0,4995 0,2841 0,1295 0,0462 0,0126 0,0025 0,0003 0,0000 0,0000

0,40 0,9940 0,9536 0,8327 0,6177 0,3669 0,1662 0,0548 0,0123 0,0017 0,0001 0,40 0,9964 0,9698 0,8811 0,7037 0,4672 0,2465 0,0994 0,0293 0,0059 0,0007 0,0000 0,40 0,9978 0,9804 0,9166 0,7747 0,5618 0,3348 0,1582 0,0573 0,0153 0,0028 0,0003 0,0000 0,40 0,9987 0,9874 0,9421 0,8314 0,6470 0,4256 0,2288 0,0977 0,0321 0,0078 0,0013 0,0001 0,0000

0,45 0,9975 0,9767 0,9004 0,7340 0,4956 0,2616 0,1020 0,0274 0,0045 0,0003 0,45 0,9986 0,9861 0,9348 0,8089 0,6029 0,3669 0,1738 0,0610 0,0148 0,0022 0,0002 0,45 0,9992 0,9917 0,9579 0,8655 0,6956 0,4731 0,2607 0,1117 0,0356 0,0079 0,0011 0,0001 0,45 0,9996 0,9951 0,9731 0,9071 0,7721 0,5732 0,3563 0,1788 0,0698 0,0203 0,0041 0,0005 0,0000

0,50 0,9990 0,9893 0,9453 0,8281 0,6230 0,3770 0,1719 0,0547 0,0107 0,0010 0,50 0,9995 0,9941 0,9673 0,8867 0,7256 0,5000 0,2744 0,1133 0,0327 0,0059 0,0005 0,50 0,9998 0,9968 0,9807 0,9270 0,8062 0,6128 0,3872 0,1938 0,0730 0,0193 0,0032 0,0002 0,50 0,9999 0,9983 0,9888 0,9539 0,8666 0,7095 0,5000 0,2905 0,1334 0,0461 0,0112 0,0017 0,0001

Apéndice

p n 14

k 1 2 3 4 5 6 7 8 9 10 11 12 13 14

15

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

16

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

0,05 0,5123 0,1530 0,0301 0,0042 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,5367 0,1710 0,0362 0,0055 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,5599 0,1892 0,0429 0,0070 0,0009 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10 0,7712 0,4154 0,1584 0,0441 0,0092 0,0015 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,7941 0,4510 0,1841 0,0556 0,0127 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,8147 0,4853 0,2108 0,0684 0,0170 0,0033 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15 0,8972 0,6433 0,3521 0,1465 0,0467 0,0115 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,9126 0,6814 0,3958 0,1773 0,0617 0,0168 0,0036 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,9257 0,7161 0,4386 0,2101 0,0791 0,0235 0,0056 0,0011 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,20 0,9560 0,8021 0,5519 0,3018 0,1298 0,0439 0,0116 0,0024 0,0004 0,0000 0,0000 0,0000 0,0000 0,0000 0,20 0,9648 0,8329 0,6020 0,3518 0,1642 0,0611 0,0181 0,0042 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,20 0,9719 0,8593 0,6482 0,4019 0,2018 0,0817 0,0267 0,0070 0,0015 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,25 0,9822 0,8990 0,7189 0,4787 0,2585 0,1117 0,0383 0,0103 0,0022 0,0003 0,0000 0,0000 0,0000 0,0000 0,25 0,9866 0,9198 0,7639 0,5387 0,3135 0,1484 0,0566 0,0173 0,0042 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,25 0,9900 0,9365 0,8029 0,5950 0,3698 0,1897 0,0796 0,0271 0,0075 0,0016 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000

0,30 0,9932 0,9525 0,8392 0,6448 0,4158 0,2195 0,0933 0,0315 0,0083 0,0017 0,0002 0,0000 0,0000 0,0000 0,30 0,9953 0,9647 0,8732 0,7031 0,4845 0,2784 0,1311 0,0500 0,0152 0,0037 0,0007 0,0001 0,0000 0,0000 0,0000 0,30 0,9967 0,9739 0,9006 0,7541 0,5501 0,3402 0,1753 0,0744 0,0257 0,0071 0,0016 0,0003 0,0000 0,0000 0,0000 0,0000

0,35 0,9976 0,9795 0,9161 0,7795 0,5773 0,3595 0,1836 0,0753 0,0243 0,0060 0,0011 0,0001 0,0000 0,0000 0,35 0,9984 0,9858 0,9383 0,8273 0,6481 0,4357 0,2452 0,1132 0,0422 0,0124 0,0028 0,0005 0,0001 0,0000 0,0000 0,35 0,9990 0,9902 0,9549 0,8661 0,7108 0,5100 0,3119 0,1594 0,0671 0,0229 0,0062 0,0013 0,0002 0,0000 0,0000 0,0000

0,40 0,9992 0,9919 0,9602 0,8757 0,7207 0,5141 0,3075 0,1501 0,0583 0,0175 0,0039 0,0006 0,0001 0,0000 0,40 0,9995 0,9948 0,9729 0,9095 0,7827 0,5968 0,3902 0,2131 0,0950 0,0338 0,0093 0,0019 0,0003 0,0000 0,0000 0,40 0,9997 0,9967 0,9817 0,9349 0,8334 0,6712 0,4728 0,2839 0,1423 0,0583 0,0191 0,0049 0,0009 0,0001 0,0000 0,0000

0,45 0,9998 0,9971 0,9830 0,9368 0,8328 0,6627 0,4539 0,2586 0,1189 0,0426 0,0114 0,0022 0,0003 0,0000 0,45 0,9999 0,9983 0,9893 0,9576 0,8796 0,7392 0,5478 0,3465 0,1818 0,0769 0,0255 0,0063 0,0011 0,0001 0,0000 0,45 0,9999 0,9990 0,9934 0,9719 0,9147 0,8024 0,6340 0,4371 0,2559 0,1241 0,0486 0,0149 0,0035 0,0006 0,0001 0,0000

0,50 0,9999 0,9991 0,9935 0,9713 0,9102 0,7880 0,6047 0,3953 0,2120 0,0898 0,0287 0,0065 0,0009 0,0001 0,50 1,0000 0,9995 0,9963 0,9824 0,9408 0,8491 0,6964 0,5000 0,3036 0,1509 0,0592 0,0176 0,0037 0,0005 0,0000 0,50 1,0000 0,9997 0,9979 0,9894 0,9616 0,8949 0,7728 0,5982 0,4018 0,2272 0,1051 0,0384 0,0106 0,0021 0,0003 0,0000

255

256

Apéndice

p n 17

k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17

18

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

0,05 0,5819 0,2078 0,0503 0,0088 0,0012 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,6028 0,2265 0,0581 0,0109 0,0015 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10 0,8332 0,5182 0,2382 0,0826 0,0221 0,0047 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,8499 0,5497 0,2662 0,0982 0,0282 0,0064 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15 0,9369 0,7475 0,4802 0,2444 0,0987 0,0319 0,0083 0,0017 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,9464 0,7759 0,5203 0,2798 0,1206 0,0419 0,0118 0,0027 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,20 0,9775 0,8818 0,6904 0,4511 0,2418 0,1057 0,0377 0,0109 0,0026 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,20 0,9820 0,9009 0,7287 0,4990 0,2836 0,1329 0,0513 0,0163 0,0043 0,0009 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,25 0,9925 0,9499 0,8363 0,6470 0,4261 0,2347 0,1071 0,0402 0,0124 0,0031 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,25 0,9944 0,9605 0,8647 0,6943 0,4813 0,2825 0,1390 0,0569 0,0193 0,0054 0,0012 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,30 0,9977 0,9807 0,9226 0,7981 0,6113 0,4032 0,2248 0,1046 0,0403 0,0127 0,0032 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,30 0,9984 0,9858 0,9400 0,8354 0,6673 0,4656 0,2783 0,1407 0,0596 0,0210 0,0061 0,0014 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000

0,35 0,9993 0,9933 0,9673 0,8972 0,7652 0,5803 0,3812 0,2128 0,0994 0,0383 0,0120 0,0030 0,0006 0,0001 0,0000 0,0000 0,0000 0,35 0,9996 0,9954 0,9764 0,9217 0,8114 0,6450 0,4509 0,2717 0,1391 0,0597 0,0212 0,0062 0,0014 0,0003 0,0000 0,0000 0,0000 0,0000

0,40 0,9998 0,9979 0,9877 0,9536 0,8740 0,7361 0,5522 0,3595 0,1989 0,0919 0,0348 0,0106 0,0025 0,0005 0,0001 0,0000 0,0000 0,40 0,9999 0,9987 0,9918 0,9672 0,9058 0,7912 0,6257 0,4366 0,2632 0,1347 0,0576 0,0203 0,0058 0,0013 0,0002 0,0000 0,0000 0,0000

0,45 1,0000 0,9994 0,9959 0,9816 0,9404 0,8529 0,7098 0,5257 0,3374 0,1834 0,0826 0,0301 0,0086 0,0019 0,0003 0,0000 0,0000 0,45 1,0000 0,9997 0,9975 0,9880 0,9589 0,8923 0,7742 0,6085 0,4222 0,2527 0,1280 0,0537 0,0183 0,0049 0,0010 0,0001 0,0000 0,0000

0,50 1,0000 0,9999 0,9988 0,9936 0,9755 0,9283 0,8338 0,6855 0,5000 0,3145 0,1662 0,0717 0,0245 0,0064 0,0012 0,0001 0,0000 0,50 1,0000 0,9999 0,9993 0,9962 0,9846 0,9519 0,8811 0,7597 0,5927 0,4073 0,2403 0,1189 0,0481 0,0154 0,0038 0,0007 0,0001 0,0000

Apéndice

p n 19

k 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19

20

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

0,05 0,6226 0,2453 0,0665 0,0132 0,0020 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,05 0,6415 0,2642 0,0755 0,0159 0,0026 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,10 0,8649 0,5797 0,2946 0,1150 0,0352 0,0086 0,0017 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,10 0,8784 0,6083 0,3231 0,1330 0,0432 0,0113 0,0024 0,0004 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,15 0,9544 0,8015 0,5587 0,3159 0,1444 0,0537 0,0163 0,0041 0,0008 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,15 0,9612 0,8244 0,5951 0,3523 0,1702 0,0673 0,0219 0,0059 0,0013 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,20 0,9856 0,9171 0,7631 0,5449 0,3267 0,1631 0,0676 0,0233 0,0067 0,0016 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,20 0,9885 0,9308 0,7939 0,5886 0,3704 0,1958 0,0867 0,0321 0,0100 0,0026 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,25 0,9958 0,9690 0,8887 0,7369 0,5346 0,3322 0,1749 0,0775 0,0287 0,0089 0,0023 0,0005 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,25 0,9968 0,9757 0,9087 0,7748 0,5852 0,3828 0,2142 0,1018 0,0409 0,0139 0,0039 0,0009 0,0002 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,30 0,9989 0,9896 0,9538 0,8668 0,7178 0,5261 0,3345 0,1820 0,0839 0,0326 0,0105 0,0028 0,0006 0,0001 0,0000 0,0000 0,0000 0,0000 0,0000 0,30 0,9992 0,9924 0,9645 0,8929 0,7625 0,5836 0,3920 0,2277 0,1133 0,0480 0,0171 0,0051 0,0013 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000 0,0000

0,35 0,9997 0,9969 0,9830 0,9409 0,8500 0,7032 0,5188 0,3344 0,1855 0,0875 0,0347 0,0114 0,0031 0,0007 0,0001 0,0000 0,0000 0,0000 0,0000 0,35 0,9998 0,9979 0,9879 0,9556 0,8818 0,7546 0,5834 0,3990 0,2376 0,1218 0,0532 0,0196 0,0060 0,0015 0,0003 0,0000 0,0000 0,0000 0,0000 0,0000

0,40 0,9999 0,9992 0,9945 0,9770 0,9304 0,8371 0,6919 0,5122 0,3325 0,1861 0,0885 0,0352 0,0116 0,0031 0,0006 0,0001 0,0000 0,0000 0,0000 0,40 1,0000 0,9995 0,9964 0,9840 0,9490 0,8744 0,7500 0,5841 0,4044 0,2447 0,1275 0,0565 0,0210 0,0065 0,0016 0,0003 0,0000 0,0000 0,0000 0,0000

0,45 1,0000 0,9998 0,9985 0,9923 0,9720 0,9223 0,8273 0,6831 0,5060 0,3290 0,1841 0,0871 0,0342 0,0109 0,0028 0,0005 0,0001 0,0000 0,0000 0,45 1,0000 0,9999 0,9991 0,9951 0,9811 0,9447 0,8701 0,7480 0,5857 0,4086 0,2493 0,1308 0,0580 0,0214 0,0064 0,0015 0,0003 0,0000 0,0000 0,0000

0,50 1,0000 1,0000 0,9996 0,9978 0,9904 0,9682 0,9165 0,8204 0,6762 0,5000 0,3238 0,1796 0,0835 0,0318 0,0096 0,0022 0,0004 0,0000 0,0000 0,50 1,0000 1,0000 0,9998 0,9987 0,9941 0,9793 0,9423 0,8684 0,7483 0,5881 0,4119 0,2517 0,1316 0,0577 0,0207 0,0059 0,0013 0,0002 0,0000 0,0000

257

258

Apéndice

e −µ µ x x! x =0 i

Tabla de probabilidades acumulativas de Poisson ∑

µ i 0 1 2 3 4 5 6 7

0,1 0,9048 0,9953 0,9998 1,0000 1,0000 1,0000 1,0000 1,0000

0,2 0,8187 0,9825 0,9989 0,9999 1,0000 1,0000 1,0000 1,0000

0,3 0,7408 0,9631 0,9964 0,9997 1,0000 1,0000 1,0000 1,0000

0,4 0,6703 0,9384 0,9921 0,9992 0,9999 1,0000 1,0000 1,0000

0,5 0,6065 0,9098 0,9856 0,9982 0,9998 1,0000 1,0000 1,0000

0,6 0,5488 0,8781 0,9769 0,9966 0,9996 1,0000 1,0000 1,0000

0,7 0,4966 0,8442 0,9659 0,9942 0,9992 0,9999 1,0000 1,0000

0,8 0,4493 0,8088 0,9526 0,9909 0,9986 0,9998 1,0000 1,0000

0,9 0,4066 0,7725 0,9371 0,9865 0,9977 0,9997 1,0000 1,0000

1,0 0,3679 0,7358 0,9197 0,9810 0,9963 0,9994 0,9999 1,0000

1,6 0,2019 0,5249 0,7834 0,9212 0,9763 0,9940 0,9987 0,9997 1,0000 1,0000

1,7 0,1827 0,4932 0,7572 0,9068 0,9704 0,9920 0,9981 0,9996 0,9999 1,0000

1,8 0,1653 0,4628 0,7306 0,8913 0,9636 0,9896 0,9974 0,9994 0,9999 1,0000

1,9 0,1496 0,4337 0,7037 0,8747 0,9559 0,9868 0,9966 0,9992 0,9998 1,0000

2,0 0,1353 0,4060 0,6767 0,8571 0,9473 0,9834 0,9955 0,9989 0,9998 1,0000

2,6 0,0743 0,2674 0,5184 0,7360 0,8774 0,9510 0,9828 0,9947 0,9985 0,9996 0,9999 1,0000 1,0000

2,7 0,0672 0,2487 0,4936 0,7141 0,8629 0,9433 0,9794 0,9934 0,9981 0,9995 0,9999 1,0000 1,0000

2,8 0,0608 0,2311 0,4695 0,6919 0,8477 0,9349 0,9756 0,9919 0,9976 0,9993 0,9998 1,0000 1,0000

2,9 0,0550 0,2146 0,4460 0,6696 0,8318 0,9258 0,9713 0,9901 0,9969 0,9991 0,9998 0,9999 1,0000

3,0 0,0498 0,1991 0,4232 0,6472 0,8153 0,9161 0,9665 0,9881 0,9962 0,9989 0,9997 0,9999 1,0000

µ i 0 1 2 3 4 5 6 7 8 9

1,1 0,3329 0,6990 0,9004 0,9743 0,9946 0,9990 0,9999 1,0000 1,0000 1,0000

1,2 0,3012 0,6626 0,8795 0,9662 0,9923 0,9985 0,9997 1,0000 1,0000 1,0000

1,3 0,2725 0,6268 0,8571 0,9569 0,9893 0,9978 0,9996 0,9999 1,0000 1,0000

1,4 0,2466 0,5918 0,8335 0,9463 0,9857 0,9968 0,9994 0,9999 1,0000 1,0000

1,5 0,2231 0,5578 0,8088 0,9344 0,9814 0,9955 0,9991 0,9998 1,0000 1,0000

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12

2,1 0,1225 0,3796 0,6496 0,8386 0,9379 0,9796 0,9941 0,9985 0,9997 0,9999 1,0000 1,0000 1,0000

2,2 0,1108 0,3546 0,6227 0,8194 0,9275 0,9751 0,9925 0,9980 0,9995 0,9999 1,0000 1,0000 1,0000

2,3 0,1003 0,3309 0,5960 0,7993 0,9162 0,9700 0,9906 0,9974 0,9994 0,9999 1,0000 1,0000 1,0000

2,4 0,0907 0,3084 0,5697 0,7787 0,9041 0,9643 0,9884 0,9967 0,9991 0,9998 1,0000 1,0000 1,0000

2,5 0,0821 0,2873 0,5438 0,7576 0,8912 0,9580 0,9858 0,9958 0,9989 0,9997 0,9999 1,0000 1,0000

Apéndice

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

3,1 0,0450 0,1847 0,4012 0,6248 0,7982 0,9057 0,9612 0,9858 0,9953 0,9986 0,9996 0,9999 1,0000 1,0000 1,0000

3,2 0,0408 0,1712 0,3799 0,6025 0,7806 0,8946 0,9554 0,9832 0,9943 0,9982 0,9995 0,9999 1,0000 1,0000 1,0000

3,3 0,0369 0,1586 0,3594 0,5803 0,7626 0,8829 0,9490 0,9802 0,9931 0,9978 0,9994 0,9998 1,0000 1,0000 1,0000

3,4 0,0334 0,1468 0,3397 0,5584 0,7442 0,8705 0,9421 0,9769 0,9917 0,9973 0,9992 0,9998 0,9999 1,0000 1,0000

3,5 0,0302 0,1359 0,3208 0,5366 0,7254 0,8576 0,9347 0,9733 0,9901 0,9967 0,9990 0,9997 0,9999 1,0000 1,0000

3,6 0,0273 0,1257 0,3027 0,5152 0,7064 0,8441 0,9267 0,9692 0,9883 0,9960 0,9987 0,9996 0,9999 1,0000 1,0000

3,7 0,0247 0,1162 0,2854 0,4942 0,6872 0,8301 0,9182 0,9648 0,9863 0,9952 0,9984 0,9995 0,9999 1,0000 1,0000

3,8 0,0224 0,1074 0,2689 0,4735 0,6678 0,8156 0,9091 0,9599 0,9840 0,9942 0,9981 0,9994 0,9998 1,0000 1,0000

3,9 0,0202 0,0992 0,2531 0,4532 0,6484 0,8006 0,8995 0,9546 0,9815 0,9931 0,9977 0,9993 0,9998 0,9999 1,0000

4,0 0,0183 0,0916 0,2381 0,4335 0,6288 0,7851 0,8893 0,9489 0,9786 0,9919 0,9972 0,9991 0,9997 0,9999 1,0000

4,6 0,0101 0,0563 0,1626 0,3257 0,5132 0,6858 0,8180 0,9049 0,9549 0,9805 0,9922 0,9971 0,9990 0,9997 0,9999 1,0000 1,0000

4,7 0,0091 0,0518 0,1523 0,3097 0,4946 0,6684 0,8046 0,8960 0,9497 0,9778 0,9910 0,9966 0,9988 0,9996 0,9999 1,0000 1,0000

4,8 0,0082 0,0477 0,1425 0,2942 0,4763 0,6510 0,7908 0,8867 0,9442 0,9749 0,9896 0,9960 0,9986 0,9995 0,9999 1,0000 1,0000

4,9 0,0074 0,0439 0,1333 0,2793 0,4582 0,6335 0,7767 0,8769 0,9382 0,9717 0,9880 0,9953 0,9983 0,9994 0,9998 0,9999 1,0000

5,0 0,0067 0,0404 0,1247 0,2650 0,4405 0,6160 0,7622 0,8666 0,9319 0,9682 0,9863 0,9945 0,9980 0,9993 0,9998 0,9999 1,0000

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

4,1 0,0166 0,0845 0,2238 0,4142 0,6093 0,7693 0,8786 0,9427 0,9755 0,9905 0,9966 0,9989 0,9997 0,9999 1,0000 1,0000 1,0000

4,2 0,0150 0,0780 0,2102 0,3954 0,5898 0,7531 0,8675 0,9361 0,9721 0,9889 0,9959 0,9986 0,9996 0,9999 1,0000 1,0000 1,0000

4,3 0,0136 0,0719 0,1974 0,3772 0,5704 0,7367 0,8558 0,9290 0,9683 0,9871 0,9952 0,9983 0,9995 0,9998 1,0000 1,0000 1,0000

4,4 0,0123 0,0663 0,1851 0,3594 0,5512 0,7199 0,8436 0,9214 0,9642 0,9851 0,9943 0,9980 0,9993 0,9998 0,9999 1,0000 1,0000

4,5 0,0111 0,0611 0,1736 0,3423 0,5321 0,7029 0,8311 0,9134 0,9597 0,9829 0,9933 0,9976 0,9992 0,9997 0,9999 1,0000 1,0000

259

260

Apéndice

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18

5,1 0,0061 0,0372 0,1165 0,2513 0,4231 0,5984 0,7474 0,8560 0,9252 0,9644 0,9844 0,9937 0,9976 0,9992 0,9997 0,9999 1,0000 1,0000 1,0000

5,2 0,0055 0,0342 0,1088 0,2381 0,4061 0,5809 0,7324 0,8449 0,9181 0,9603 0,9823 0,9927 0,9972 0,9990 0,9997 0,9999 1,0000 1,0000 1,0000

5,3 0,0050 0,0314 0,1016 0,2254 0,3895 0,5635 0,7171 0,8335 0,9106 0,9559 0,9800 0,9916 0,9967 0,9988 0,9996 0,9999 1,0000 1,0000 1,0000

5,4 0,0045 0,0289 0,0948 0,2133 0,3733 0,5461 0,7017 0,8217 0,9027 0,9512 0,9775 0,9904 0,9962 0,9986 0,9995 0,9998 0,9999 1,0000 1,0000

5,5 0,0041 0,0266 0,0884 0,2017 0,3575 0,5289 0,6860 0,8095 0,8944 0,9462 0,9747 0,9890 0,9955 0,9983 0,9994 0,9998 0,9999 1,0000 1,0000

5,6 0,0037 0,0244 0,0824 0,1906 0,3422 0,5119 0,6703 0,7970 0,8857 0,9409 0,9718 0,9875 0,9949 0,9980 0,9993 0,9998 0,9999 1,0000 1,0000

5,7 0,0033 0,0224 0,0768 0,1800 0,3272 0,4950 0,6544 0,7841 0,8766 0,9352 0,9686 0,9859 0,9941 0,9977 0,9991 0,9997 0,9999 1,0000 1,0000

5,8 0,0030 0,0206 0,0715 0,1700 0,3127 0,4783 0,6384 0,7710 0,8672 0,9292 0,9651 0,9841 0,9932 0,9973 0,9990 0,9996 0,9999 1,0000 1,0000

5,9 0,0027 0,0189 0,0666 0,1604 0,2987 0,4619 0,6224 0,7576 0,8574 0,9228 0,9614 0,9821 0,9922 0,9969 0,9988 0,9996 0,9999 1,0000 1,0000

6,0 0,0025 0,0174 0,0620 0,1512 0,2851 0,4457 0,6063 0,7440 0,8472 0,9161 0,9574 0,9799 0,9912 0,9964 0,9986 0,9995 0,9998 0,9999 1,0000

6,6 0,0014 0,0103 0,0400 0,1052 0,2127 0,3547 0,5108 0,6581 0,7796 0,8686 0,9274 0,9627 0,9821 0,9920 0,9966 0,9986 0,9995 0,9998 0,9999 1,0000 1,0000

6,7 0,0012 0,0095 0,0371 0,0988 0,2022 0,3406 0,4953 0,6433 0,7673 0,8596 0,9214 0,9591 0,9801 0,9909 0,9961 0,9984 0,9994 0,9998 0,9999 1,0000 1,0000

6,8 0,0011 0,0087 0,0344 0,0928 0,1920 0,3270 0,4799 0,6285 0,7548 0,8502 0,9151 0,9552 0,9779 0,9898 0,9956 0,9982 0,9993 0,9997 0,9999 1,0000 1,0000

6,9 0,0010 0,0080 0,0320 0,0871 0,1823 0,3137 0,4647 0,6136 0,7420 0,8405 0,9084 0,9510 0,9755 0,9885 0,9950 0,9979 0,9992 0,9997 0,9999 1,0000 1,0000

7,0 0,0009 0,0073 0,0296 0,0818 0,1730 0,3007 0,4497 0,5987 0,7291 0,8305 0,9015 0,9467 0,9730 0,9872 0,9943 0,9976 0,9990 0,9996 0,9999 1,0000 1,0000

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

6,1 0,0022 0,0159 0,0577 0,1425 0,2719 0,4298 0,5902 0,7301 0,8367 0,9090 0,9531 0,9776 0,9900 0,9958 0,9984 0,9994 0,9998 0,9999 1,0000 1,0000 1,0000

6,2 0,0020 0,0146 0,0536 0,1342 0,2592 0,4141 0,5742 0,7160 0,8259 0,9016 0,9486 0,9750 0,9887 0,9952 0,9981 0,9993 0,9997 0,9999 1,0000 1,0000 1,0000

6,3 0,0018 0,0134 0,0498 0,1264 0,2469 0,3988 0,5582 0,7017 0,8148 0,8939 0,9437 0,9723 0,9873 0,9945 0,9978 0,9992 0,9997 0,9999 1,0000 1,0000 1,0000

6,4 0,0017 0,0123 0,0463 0,1189 0,2351 0,3837 0,5423 0,6873 0,8033 0,8858 0,9386 0,9693 0,9857 0,9937 0,9974 0,9990 0,9996 0,9999 1,0000 1,0000 1,0000

6,5 0,0015 0,0113 0,0430 0,1118 0,2237 0,3690 0,5265 0,6728 0,7916 0,8774 0,9332 0,9661 0,9840 0,9929 0,9970 0,9988 0,9996 0,9998 0,9999 1,0000 1,0000

Apéndice

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21

7,1 0,0008 0,0067 0,0275 0,0767 0,1641 0,2881 0,4349 0,5838 0,7160 0,8202 0,8942 0,9420 0,9703 0,9857 0,9935 0,9972 0,9989 0,9996 0,9998 0,9999 1,0000 1,0000

7,2 0,0007 0,0061 0,0255 0,0719 0,1555 0,2759 0,4204 0,5689 0,7027 0,8096 0,8867 0,9371 0,9673 0,9841 0,9927 0,9969 0,9987 0,9995 0,9998 0,9999 1,0000 1,0000

7,3 0,0007 0,0056 0,0236 0,0674 0,1473 0,2640 0,4060 0,5541 0,6892 0,7988 0,8788 0,9319 0,9642 0,9824 0,9918 0,9964 0,9985 0,9994 0,9998 0,9999 1,0000 1,0000

7,4 0,0006 0,0051 0,0219 0,0632 0,1395 0,2526 0,3920 0,5393 0,6757 0,7877 0,8707 0,9265 0,9609 0,9805 0,9908 0,9959 0,9983 0,9993 0,9997 0,9999 1,0000 1,0000

7,5 0,0006 0,0047 0,0203 0,0591 0,1321 0,2414 0,3782 0,5246 0,6620 0,7764 0,8622 0,9208 0,9573 0,9784 0,9897 0,9954 0,9980 0,9992 0,9997 0,9999 1,0000 1,0000

7,6 0,0005 0,0043 0,0188 0,0554 0,1249 0,2307 0,3646 0,5100 0,6482 0,7649 0,8535 0,9148 0,9536 0,9762 0,9886 0,9948 0,9978 0,9991 0,9996 0,9999 1,0000 1,0000

7,7 0,0005 0,0039 0,0174 0,0518 0,1181 0,2203 0,3514 0,4956 0,6343 0,7531 0,8445 0,9085 0,9496 0,9739 0,9873 0,9941 0,9974 0,9989 0,9996 0,9998 0,9999 1,0000

7,8 0,0004 0,0036 0,0161 0,0485 0,1117 0,2103 0,3384 0,4812 0,6204 0,7411 0,8352 0,9020 0,9454 0,9714 0,9859 0,9934 0,9971 0,9988 0,9995 0,9998 0,9999 1,0000

7,9 0,0004 0,0033 0,0149 0,0453 0,1055 0,2006 0,3257 0,4670 0,6065 0,7290 0,8257 0,8952 0,9409 0,9687 0,9844 0,9926 0,9967 0,9986 0,9994 0,9998 0,9999 1,0000

8,0 0,0003 0,0030 0,0138 0,0424 0,0996 0,1912 0,3134 0,4530 0,5925 0,7166 0,8159 0,8881 0,9362 0,9658 0,9827 0,9918 0,9963 0,9984 0,9993 0,9997 0,9999 1,0000

8,6 0,0002 0,0018 0,0086 0,0281 0,0701 0,1422 0,2457 0,3728 0,5094 0,6400 0,7522 0,8400 0,9029 0,9445 0,9701 0,9848 0,9926 0,9966 0,9985 0,9994 0,9998 0,9999 1,0000 1,0000

8,7 0,0002 0,0016 0,0079 0,0262 0,0660 0,1352 0,2355 0,3602 0,4958 0,6269 0,7409 0,8311 0,8965 0,9403 0,9675 0,9832 0,9918 0,9962 0,9983 0,9993 0,9997 0,9999 1,0000 1,0000

8,8 0,0002 0,0015 0,0073 0,0244 0,0621 0,1284 0,2256 0,3478 0,4823 0,6137 0,7294 0,8220 0,8898 0,9358 0,9647 0,9816 0,9909 0,9957 0,9981 0,9992 0,9997 0,9999 1,0000 1,0000

8,9 0,0001 0,0014 0,0068 0,0228 0,0584 0,1219 0,2160 0,3357 0,4689 0,6006 0,7178 0,8126 0,8829 0,9311 0,9617 0,9798 0,9899 0,9952 0,9978 0,9991 0,9996 0,9998 0,9999 1,0000

9,0 0,0001 0,0012 0,0062 0,0212 0,0550 0,1157 0,2068 0,3239 0,4557 0,5874 0,7060 0,8030 0,8758 0,9261 0,9585 0,9780 0,9889 0,9947 0,9976 0,9989 0,9996 0,9998 0,9999 1,0000

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23

8,1 0,0003 0,0028 0,0127 0,0396 0,0940 0,1822 0,3013 0,4391 0,5786 0,7041 0,8058 0,8807 0,9313 0,9628 0,9810 0,9908 0,9958 0,9982 0,9992 0,9997 0,9999 1,0000 1,0000 1,0000

8,2 0,0003 0,0025 0,0118 0,0370 0,0887 0,1736 0,2896 0,4254 0,5647 0,6915 0,7955 0,8731 0,9261 0,9595 0,9791 0,9898 0,9953 0,9979 0,9991 0,9997 0,9999 1,0000 1,0000 1,0000

8,3 0,0002 0,0023 0,0109 0,0346 0,0837 0,1653 0,2781 0,4119 0,5507 0,6788 0,7850 0,8652 0,9207 0,9561 0,9771 0,9887 0,9947 0,9977 0,9990 0,9996 0,9998 0,9999 1,0000 1,0000

8,4 0,0002 0,0021 0,0100 0,0323 0,0789 0,1573 0,2670 0,3987 0,5369 0,6659 0,7743 0,8571 0,9150 0,9524 0,9749 0,9875 0,9941 0,9973 0,9989 0,9995 0,9998 0,9999 1,0000 1,0000

8,5 0,0002 0,0019 0,0093 0,0301 0,0744 0,1496 0,2562 0,3856 0,5231 0,6530 0,7634 0,8487 0,9091 0,9486 0,9726 0,9862 0,9934 0,9970 0,9987 0,9995 0,9998 0,9999 1,0000 1,0000

261

262

Apéndice

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

9,1 0,0001 0,0011 0,0058 0,0198 0,0517 0,1098 0,1978 0,3123 0,4426 0,5742 0,6941 0,7932 0,8684 0,9210 0,9552 0,9760 0,9878 0,9941 0,9973 0,9988 0,9995 0,9998 0,9999 1,0000 1,0000 1,0000

9,2 0,0001 0,0010 0,0053 0,0184 0,0486 0,1041 0,1892 0,3010 0,4296 0,5611 0,6820 0,7832 0,8607 0,9156 0,9517 0,9738 0,9865 0,9934 0,9969 0,9986 0,9994 0,9998 0,9999 1,0000 1,0000 1,0000

9,3 0,0001 0,0009 0,0049 0,0172 0,0456 0,0986 0,1808 0,2900 0,4168 0,5479 0,6699 0,7730 0,8529 0,9100 0,9480 0,9715 0,9852 0,9927 0,9966 0,9985 0,9993 0,9997 0,9999 1,0000 1,0000 1,0000

9,4 0,0001 0,0009 0,0045 0,0160 0,0429 0,0935 0,1727 0,2792 0,4042 0,5349 0,6576 0,7626 0,8448 0,9042 0,9441 0,9691 0,9838 0,9919 0,9962 0,9983 0,9992 0,9997 0,9999 1,0000 1,0000 1,0000

9,5 0,0001 0,0008 0,0042 0,0149 0,0403 0,0885 0,1649 0,2687 0,3918 0,5218 0,6453 0,7520 0,8364 0,8981 0,9400 0,9665 0,9823 0,9911 0,9957 0,9980 0,9991 0,9996 0,9999 0,9999 1,0000 1,0000

9,6 0,0001 0,0007 0,0038 0,0138 0,0378 0,0838 0,1574 0,2584 0,3796 0,5089 0,6329 0,7412 0,8279 0,8919 0,9357 0,9638 0,9806 0,9902 0,9952 0,9978 0,9990 0,9996 0,9998 0,9999 1,0000 1,0000

9,7 0,0001 0,0007 0,0035 0,0129 0,0355 0,0793 0,1502 0,2485 0,3676 0,4960 0,6205 0,7303 0,8191 0,8853 0,9312 0,9609 0,9789 0,9892 0,9947 0,9975 0,9989 0,9995 0,9998 0,9999 1,0000 1,0000

9,8 0,0001 0,0006 0,0033 0,0120 0,0333 0,0750 0,1433 0,2388 0,3558 0,4832 0,6080 0,7193 0,8101 0,8786 0,9265 0,9579 0,9770 0,9881 0,9941 0,9972 0,9987 0,9995 0,9998 0,9999 1,0000 1,0000

9,9 0,0001 0,0005 0,0030 0,0111 0,0312 0,0710 0,1366 0,2294 0,3442 0,4705 0,5955 0,7081 0,8009 0,8716 0,9216 0,9546 0,9751 0,9870 0,9935 0,9969 0,9986 0,9994 0,9997 0,9999 1,0000 1,0000

10,0 0,0000 0,0005 0,0028 0,0103 0,0293 0,0671 0,1301 0,2202 0,3328 0,4579 0,5830 0,6968 0,7916 0,8645 0,9165 0,9513 0,9730 0,9857 0,9928 0,9965 0,9984 0,9993 0,9997 0,9999 1,0000 1,0000

Apéndice

µ i 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40

11 0,0000 0,0002 0,0012 0,0049 0,0151 0,0375 0,0786 0,1432 0,2320 0,3405 0,4599 0,5793 0,6887 0,7813 0,8540 0,9074 0,9441 0,9678 0,9823 0,9907 0,9953 0,9977 0,9990 0,9995 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

12 0,0000 0,0001 0,0005 0,0023 0,0076 0,0203 0,0458 0,0895 0,1550 0,2424 0,3472 0,4616 0,5760 0,6815 0,7720 0,8444 0,8987 0,9370 0,9626 0,9787 0,9884 0,9939 0,9970 0,9985 0,9993 0,9997 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

13 0,0000 0,0000 0,0002 0,0011 0,0037 0,0107 0,0259 0,0540 0,0998 0,1658 0,2517 0,3532 0,4631 0,5730 0,6751 0,7636 0,8355 0,8905 0,9302 0,9573 0,9750 0,9859 0,9924 0,9960 0,9980 0,9990 0,9995 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

14 0,0000 0,0000 0,0001 0,0005 0,0018 0,0055 0,0142 0,0316 0,0621 0,1094 0,1757 0,2600 0,3585 0,4644 0,5704 0,6694 0,7559 0,8272 0,8826 0,9235 0,9521 0,9712 0,9833 0,9907 0,9950 0,9974 0,9987 0,9994 0,9997 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

15 0,0000 0,0000 0,0000 0,0002 0,0009 0,0028 0,0076 0,0180 0,0374 0,0699 0,1185 0,1848 0,2676 0,3632 0,4657 0,5681 0,6641 0,7489 0,8195 0,8752 0,9170 0,9469 0,9673 0,9805 0,9888 0,9938 0,9967 0,9983 0,9991 0,9996 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

16 0,0000 0,0000 0,0000 0,0001 0,0004 0,0014 0,0040 0,0100 0,0220 0,0433 0,0774 0,1270 0,1931 0,2745 0,3675 0,4667 0,5660 0,6593 0,7423 0,8122 0,8682 0,9108 0,9418 0,9633 0,9777 0,9869 0,9925 0,9959 0,9978 0,9989 0,9994 0,9997 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

17 0,0000 0,0000 0,0000 0,0000 0,0002 0,0007 0,0021 0,0054 0,0126 0,0261 0,0491 0,0847 0,1350 0,2009 0,2808 0,3715 0,4677 0,5640 0,6550 0,7363 0,8055 0,8615 0,9047 0,9367 0,9594 0,9748 0,9848 0,9912 0,9950 0,9973 0,9986 0,9993 0,9996 0,9998 0,9999 1,0000 1,0000 1,0000 1,0000 1,0000 1,0000

18 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0010 0,0029 0,0071 0,0154 0,0304 0,0549 0,0917 0,1426 0,2081 0,2867 0,3751 0,4686 0,5622 0,6509 0,7307 0,7991 0,8551 0,8989 0,9317 0,9554 0,9718 0,9827 0,9897 0,9941 0,9967 0,9982 0,9990 0,9995 0,9998 0,9999 0,9999 1,0000 1,0000 1,0000 1,0000

19 0,0000 0,0000 0,0000 0,0000 0,0000 0,0002 0,0005 0,0015 0,0039 0,0089 0,0183 0,0347 0,0606 0,0984 0,1497 0,2148 0,2920 0,3784 0,4695 0,5606 0,6472 0,7255 0,7931 0,8490 0,8933 0,9269 0,9514 0,9687 0,9805 0,9882 0,9930 0,9960 0,9978 0,9988 0,9994 0,9997 0,9998 0,9999 1,0000 1,0000 1,0000

20 0,0000 0,0000 0,0000 0,0000 0,0000 0,0001 0,0003 0,0008 0,0021 0,0050 0,0108 0,0214 0,0390 0,0661 0,1049 0,1565 0,2211 0,2970 0,3814 0,4703 0,5591 0,6437 0,7206 0,7875 0,8432 0,8878 0,9221 0,9475 0,9657 0,9782 0,9865 0,9919 0,9953 0,9973 0,9985 0,9992 0,9996 0,9998 0,9999 0,9999 1,0000

263

264

Apéndice

Tabla de áreas bajo la curva normal estandarizada z

z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 0,500000 0,460172 0,420740 0,382089 0,344578 0,308538 0,274253 0,241964 0,211855 0,184060

0,01 0,496011 0,456205 0,416834 0,378281 0,340903 0,305026 0,270931 0,238852 0,208970 0,181411

0,02 0,492022 0,452242 0,412936 0,374484 0,337243 0,301532 0,267629 0,235762 0,206108 0,178786

0,03 0,488033 0,448283 0,409046 0,370700 0,333598 0,298056 0,264347 0,232695 0,203269 0,176186

0,04 0,484047 0,444330 0,405165 0,366928 0,329969 0,294598 0,261086 0,229650 0,200454 0,173609

0,05 0,480061 0,440382 0,401294 0,363169 0,326355 0,291160 0,257846 0,226627 0,197662 0,171056

0,06 0,476078 0,436441 0,397432 0,359424 0,322758 0,287740 0,254627 0,223627 0,194894 0,168528

0,07 0,472097 0,432505 0,393580 0,355691 0,319178 0,284339 0,251429 0,220650 0,192150 0,166023

0,08 0,468119 0,428576 0,389739 0,351973 0,315614 0,280957 0,248252 0,217695 0,189430 0,163543

0,09 0,464144 0,424655 0,385908 0,348268 0,312067 0,277595 0,245097 0,214764 0,186733 0,161087

1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9

0,158655 0,135666 0,115070 0,096801 0,080757 0,066807 0,054799 0,044565 0,035930 0,028716

0,156248 0,133500 0,113140 0,095098 0,079270 0,065522 0,053699 0,043633 0,035148 0,028067

0,153864 0,131357 0,111233 0,093418 0,077804 0,064256 0,052616 0,042716 0,034379 0,027429

0,151505 0,129238 0,109349 0,091759 0,076359 0,063008 0,051551 0,041815 0,033625 0,026803

0,149170 0,127143 0,107488 0,090123 0,074934 0,061780 0,050503 0,040929 0,032884 0,026190

0,146859 0,125072 0,105650 0,088508 0,073529 0,060571 0,049471 0,040059 0,032157 0,025588

0,144572 0,123024 0,103835 0,086915 0,072145 0,059380 0,048457 0,039204 0,031443 0,024998

0,142310 0,121001 0,102042 0,085344 0,070781 0,058208 0,047460 0,038364 0,030742 0,024419

0,140071 0,119000 0,100273 0,083793 0,069437 0,057053 0,046479 0,037538 0,030054 0,023852

0,137857 0,117023 0,098525 0,082264 0,068112 0,055917 0,045514 0,036727 0,029379 0,023295

2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9

0,022750 0,017864 0,013903 0,010724 0,008198 0,006210 0,004661 0,003467 0,002555 0,001866

0,022216 0,017429 0,013553 0,010444 0,007976 0,006037 0,004527 0,003364 0,002477 0,001807

0,021692 0,017003 0,013209 0,010170 0,007760 0,005868 0,004397 0,003264 0,002401 0,001750

0,021178 0,016586 0,012874 0,009903 0,007549 0,005703 0,004269 0,003167 0,002327 0,001695

0,020675 0,016177 0,012545 0,009642 0,007344 0,005543 0,004145 0,003072 0,002256 0,001641

0,020182 0,015778 0,012224 0,009387 0,007143 0,005386 0,004025 0,002980 0,002186 0,001589

0,019699 0,015386 0,011911 0,009137 0,006947 0,005234 0,003907 0,002890 0,002118 0,001538

0,019226 0,015003 0,011604 0,008894 0,006756 0,005085 0,003793 0,002803 0,002052 0,001489

0,018763 0,014629 0,011304 0,008656 0,006569 0,004940 0,003681 0,002718 0,001988 0,001441

0,018309 0,014262 0,011011 0,008424 0,006387 0,004799 0,003573 0,002635 0,001926 0,001395

3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,001350 0,000968 0,000687 0,000483 0,000337 0,000233 0,000159 0,000108 0,000072 0,000048

0,001306 0,000936 0,000664 0,000467 0,000325 0,000224 0,000153 0,000104 0,000070 0,000046

0,001264 0,000904 0,000641 0,000450 0,000313 0,000216 0,000147 0,000100 0,000067 0,000044

0,001223 0,000874 0,000619 0,000434 0,000302 0,000208 0,000142 0,000096 0,000064 0,000042

0,001183 0,000845 0,000598 0,000419 0,000291 0,000200 0,000136 0,000092 0,000062 0,000041

0,001144 0,000816 0,000577 0,000404 0,000280 0,000193 0,000131 0,000088 0,000059 0,000039

0,001107 0,000789 0,000557 0,000390 0,000270 0,000185 0,000126 0,000085 0,000057 0,000037

0,001070 0,000762 0,000538 0,000376 0,000260 0,000179 0,000121 0,000082 0,000054 0,000036

0,001035 0,000736 0,000519 0,000362 0,000251 0,000172 0,000117 0,000078 0,000052 0,000034

0,001001 0,000711 0,000501 0,000350 0,000242 0,000165 0,000112 0,000075 0,000050 0,000033

4 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9

0,000032 0,000021 0,000013 0,000009 0,000005 0,000003 0,000002 0,000001 0,000001 0,000000

0,000030 0,000020 0,000013 0,000008 0,000005 0,000003 0,000002 0,000001 0,000001 0,000000

0,000029 0,000019 0,000012 0,000008 0,000005 0,000003 0,000002 0,000001 0,000001 0,000000

0,000028 0,000018 0,000012 0,000007 0,000005 0,000003 0,000002 0,000001 0,000001 0,000000

0,000027 0,000017 0,000011 0,000007 0,000005 0,000003 0,000002 0,000001 0,000001 0,000000

0,000026 0,000017 0,000011 0,000007 0,000004 0,000003 0,000002 0,000001 0,000001 0,000000

0,000025 0,000016 0,000010 0,000007 0,000004 0,000003 0,000002 0,000001 0,000001 0,000000

0,000024 0,000015 0,000010 0,000006 0,000004 0,000002 0,000002 0,000001 0,000001 0,000000

0,000023 0,000015 0,000009 0,000006 0,000004 0,000002 0,000001 0,000001 0,000001 0,000000

0,000022 0,000014 0,000009 0,000006 0,000004 0,000002 0,000001 0,000001 0,000001 0,000000

Apéndice φ(z)

Tabla de ordenadas de la curva normal estandarizada z

z 0 0,1 0,2 0,3 0,4 0,5 0,6 0,7 0,8 0,9

0 0,398942 0,396953 0,391043 0,381388 0,368270 0,352065 0,333225 0,312254 0,289692 0,266085

0,01 0,398922 0,396536 0,390242 0,380226 0,366782 0,350292 0,331215 0,310060 0,287369 0,263688

0,02 0,398862 0,396080 0,389404 0,379031 0,365263 0,348493 0,329184 0,307851 0,285036 0,261286

0,03 0,398763 0,395585 0,388529 0,377801 0,363714 0,346668 0,327133 0,305627 0,282694 0,258881

0,04 0,398623 0,395052 0,387617 0,376537 0,362135 0,344818 0,325062 0,303389 0,280344 0,256471

0,05 0,398444 0,394479 0,386668 0,375240 0,360527 0,342944 0,322972 0,301137 0,277985 0,254059

0,06 0,398225 0,393868 0,385683 0,373911 0,358890 0,341046 0,320864 0,298872 0,275618 0,251644

0,07 0,397966 0,393219 0,384663 0,372548 0,357225 0,339124 0,318737 0,296595 0,273244 0,249228

0,08 0,397668 0,392531 0,383606 0,371154 0,355533 0,337180 0,316593 0,294305 0,270864 0,246809

0,09 0,397330 0,391806 0,382515 0,369728 0,353812 0,335213 0,314432 0,292004 0,268477 0,244390

1 1,1 1,2 1,3 1,4 1,5 1,6 1,7 1,8 1,9

0,241971 0,217852 0,194186 0,171369 0,149727 0,129518 0,110921 0,094049 0,078950 0,065616

0,239551 0,215458 0,191860 0,169147 0,147639 0,127583 0,109155 0,092459 0,077538 0,064378

0,237132 0,213069 0,189543 0,166937 0,145564 0,125665 0,107406 0,090887 0,076143 0,063157

0,234714 0,210686 0,187235 0,164740 0,143505 0,123763 0,105675 0,089333 0,074766 0,061952

0,232297 0,208308 0,184937 0,162555 0,141460 0,121878 0,103961 0,087796 0,073407 0,060765

0,229882 0,205936 0,182649 0,160383 0,139431 0,120009 0,102265 0,086277 0,072065 0,059595

0,227470 0,203571 0,180371 0,158225 0,137417 0,118157 0,100586 0,084776 0,070740 0,058441

0,225060 0,201214 0,178104 0,156080 0,135418 0,116323 0,098925 0,083293 0,069433 0,057304

0,222653 0,198863 0,175847 0,153948 0,133435 0,114505 0,097282 0,081828 0,068144 0,056183

0,220251 0,196520 0,173602 0,151831 0,131468 0,112704 0,095657 0,080380 0,066871 0,055079

2 2,1 2,2 2,3 2,4 2,5 2,6 2,7 2,8 2,9

0,053991 0,043984 0,035475 0,028327 0,022395 0,017528 0,013583 0,010421 0,007915 0,005953

0,052919 0,043067 0,034701 0,027682 0,021862 0,017095 0,013234 0,010143 0,007697 0,005782

0,051864 0,042166 0,033941 0,027048 0,021341 0,016670 0,012892 0,009871 0,007483 0,005616

0,050824 0,041280 0,033194 0,026426 0,020829 0,016254 0,012558 0,009606 0,007274 0,005454

0,049800 0,040408 0,032460 0,025817 0,020328 0,015848 0,012232 0,009347 0,007071 0,005296

0,048792 0,039550 0,031740 0,025218 0,019837 0,015449 0,011912 0,009094 0,006873 0,005143

0,047800 0,038707 0,031032 0,024631 0,019356 0,015060 0,011600 0,008846 0,006679 0,004993

0,046823 0,037878 0,030337 0,024056 0,018885 0,014678 0,011295 0,008605 0,006491 0,004847

0,045861 0,037063 0,029655 0,023491 0,018423 0,014305 0,010997 0,008370 0,006307 0,004705

0,044915 0,036262 0,028985 0,022937 0,017971 0,013940 0,010706 0,008140 0,006127 0,004567

3 3,1 3,2 3,3 3,4 3,5 3,6 3,7 3,8 3,9

0,004432 0,003267 0,002384 0,001723 0,001232 0,000873 0,000612 0,000425 0,000292 0,000199

0,004301 0,003167 0,002309 0,001667 0,001191 0,000843 0,000590 0,000409 0,000281 0,000191

0,004173 0,003070 0,002236 0,001612 0,001151 0,000814 0,000569 0,000394 0,000271 0,000184

0,004049 0,002975 0,002165 0,001560 0,001112 0,000785 0,000549 0,000380 0,000260 0,000177

0,003928 0,002884 0,002096 0,001508 0,001075 0,000758 0,000529 0,000366 0,000251 0,000170

0,003810 0,002794 0,002029 0,001459 0,001038 0,000732 0,000510 0,000353 0,000241 0,000163

0,003695 0,002707 0,001964 0,001411 0,001003 0,000706 0,000492 0,000340 0,000232 0,000157

0,003584 0,002623 0,001901 0,001364 0,000969 0,000681 0,000474 0,000327 0,000223 0,000151

0,003475 0,002541 0,001840 0,001319 0,000936 0,000657 0,000457 0,000315 0,000215 0,000145

0,003370 0,002461 0,001780 0,001275 0,000904 0,000634 0,000441 0,000303 0,000207 0,000139

4 4,1 4,2 4,3 4,4 4,5 4,6 4,7 4,8 4,9

0,000134 0,000089 0,000059 0,000039 0,000025 0,000016 0,000010 0,000006 0,000004 0,000002

0,000129 0,000086 0,000057 0,000037 0,000024 0,000015 0,000010 0,000006 0,000004 0,000002

0,000124 0,000082 0,000054 0,000035 0,000023 0,000015 0,000009 0,000006 0,000004 0,000002

0,000119 0,000079 0,000052 0,000034 0,000022 0,000014 0,000009 0,000006 0,000003 0,000002

0,000114 0,000076 0,000050 0,000032 0,000021 0,000013 0,000008 0,000005 0,000003 0,000002

0,000109 0,000073 0,000048 0,000031 0,000020 0,000013 0,000008 0,000005 0,000003 0,000002

0,000105 0,000070 0,000046 0,000030 0,000019 0,000012 0,000008 0,000005 0,000003 0,000002

0,000101 0,000067 0,000044 0,000028 0,000018 0,000012 0,000007 0,000005 0,000003 0,000002

0,000097 0,000064 0,000042 0,000027 0,000017 0,000011 0,000007 0,000004 0,000003 0,000002

0,000093 0,000061 0,000040 0,000026 0,000017 0,000011 0,000007 0,000004 0,000003 0,000002

265

266

Apéndice

Tabla de valores de t de Student

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 60 ∞

0,45 0,1584 0,1421 0,1366 0,1338 0,1322 0,1311 0,1303 0,1297 0,1293 0,1289 0,1286 0,1283 0,1281 0,1280 0,1278 0,1277 0,1276 0,1274 0,1274 0,1273 0,1272 0,1271 0,1271 0,1270 0,1269 0,1269 0,1268 0,1268 0,1268 0,1267 0,1267 0,1267 0,1266 0,1266 0,1266 0,1266 0,1265 0,1265 0,1265 0,1265 0,1264 0,1264 0,1264 0,1264 0,1264 0,1264 0,1263 0,1263 0,1263 0,1263 0,1262 0,1257

0,40 0,3249 0,2887 0,2767 0,2707 0,2672 0,2648 0,2632 0,2619 0,2610 0,2602 0,2596 0,2590 0,2586 0,2582 0,2579 0,2576 0,2573 0,2571 0,2569 0,2567 0,2566 0,2564 0,2563 0,2562 0,2561 0,2560 0,2559 0,2558 0,2557 0,2556 0,2555 0,2555 0,2554 0,2553 0,2553 0,2552 0,2552 0,2551 0,2551 0,2550 0,2550 0,2550 0,2549 0,2549 0,2549 0,2548 0,2548 0,2548 0,2547 0,2547 0,2545 0,2533

0,35 0,5095 0,4447 0,4242 0,4142 0,4082 0,4043 0,4015 0,3995 0,3979 0,3966 0,3956 0,3947 0,3940 0,3933 0,3928 0,3923 0,3919 0,3915 0,3912 0,3909 0,3906 0,3904 0,3902 0,3900 0,3898 0,3896 0,3894 0,3893 0,3892 0,3890 0,3889 0,3888 0,3887 0,3886 0,3885 0,3884 0,3883 0,3882 0,3882 0,3881 0,3880 0,3880 0,3879 0,3878 0,3878 0,3877 0,3877 0,3876 0,3876 0,3875 0,3872 0,3853

0,20 1,3764 1,0607 0,9785 0,9410 0,9195 0,9057 0,8960 0,8889 0,8834 0,8791 0,8755 0,8726 0,8702 0,8681 0,8662 0,8647 0,8633 0,8620 0,8610 0,8600 0,8591 0,8583 0,8575 0,8569 0,8562 0,8557 0,8551 0,8546 0,8542 0,8538 0,8534 0,8530 0,8526 0,8523 0,8520 0,8517 0,8514 0,8512 0,8509 0,8507 0,8505 0,8503 0,8501 0,8499 0,8497 0,8495 0,8493 0,8492 0,8490 0,8489 0,8477 0,8416

Área de la cola derecha 0,15 0,10 1,9626 3,0777 1,3862 1,8856 1,2498 1,6377 1,1896 1,5332 1,1558 1,4759 1,1342 1,4398 1,1192 1,4149 1,1081 1,3968 1,0997 1,3830 1,0931 1,3722 1,0877 1,3634 1,0832 1,3562 1,0795 1,3502 1,0763 1,3450 1,0735 1,3406 1,0711 1,3368 1,0690 1,3334 1,0672 1,3304 1,0655 1,3277 1,0640 1,3253 1,0627 1,3232 1,0614 1,3212 1,0603 1,3195 1,0593 1,3178 1,0584 1,3163 1,0575 1,3150 1,0567 1,3137 1,0560 1,3125 1,0553 1,3114 1,0547 1,3104 1,0541 1,3095 1,0535 1,3086 1,0530 1,3077 1,0525 1,3070 1,0520 1,3062 1,0516 1,3055 1,0512 1,3049 1,0508 1,3042 1,0504 1,3036 1,0500 1,3031 1,0497 1,3025 1,0494 1,3020 1,0491 1,3016 1,0488 1,3011 1,0485 1,3007 1,0482 1,3002 1,0480 1,2998 1,0478 1,2994 1,0475 1,2991 1,0473 1,2987 1,0455 1,2958 1,0364 1,2816

0,05 6,3137 2,9200 2,3534 2,1318 2,0150 1,9432 1,8946 1,8595 1,8331 1,8125 1,7959 1,7823 1,7709 1,7613 1,7531 1,7459 1,7396 1,7341 1,7291 1,7247 1,7207 1,7171 1,7139 1,7109 1,7081 1,7056 1,7033 1,7011 1,6991 1,6973 1,6955 1,6939 1,6924 1,6909 1,6896 1,6883 1,6871 1,6860 1,6849 1,6839 1,6829 1,6820 1,6811 1,6802 1,6794 1,6787 1,6779 1,6772 1,6766 1,6759 1,6706 1,6449

0,025 12,7062 4,3027 3,1824 2,7765 2,5706 2,4469 2,3646 2,3060 2,2622 2,2281 2,2010 2,1788 2,1604 2,1448 2,1315 2,1199 2,1098 2,1009 2,0930 2,0860 2,0796 2,0739 2,0687 2,0639 2,0595 2,0555 2,0518 2,0484 2,0452 2,0423 2,0395 2,0369 2,0345 2,0322 2,0301 2,0281 2,0262 2,0244 2,0227 2,0211 2,0195 2,0181 2,0167 2,0154 2,0141 2,0129 2,0117 2,0106 2,0096 2,0086 2,0003 1,9600

0,01 31,8210 6,9645 4,5407 3,7469 3,3649 3,1427 2,9979 2,8965 2,8214 2,7638 2,7181 2,6810 2,6503 2,6245 2,6025 2,5835 2,5669 2,5524 2,5395 2,5280 2,5176 2,5083 2,4999 2,4922 2,4851 2,4786 2,4727 2,4671 2,4620 2,4573 2,4528 2,4487 2,4448 2,4411 2,4377 2,4345 2,4314 2,4286 2,4258 2,4233 2,4208 2,4185 2,4163 2,4141 2,4121 2,4102 2,4083 2,4066 2,4049 2,4033 2,3901 2,3264

0,005 63,6559 9,9250 5,8408 4,6041 4,0321 3,7074 3,4995 3,3554 3,2498 3,1693 3,1058 3,0545 3,0123 2,9768 2,9467 2,9208 2,8982 2,8784 2,8609 2,8453 2,8314 2,8188 2,8073 2,7970 2,7874 2,7787 2,7707 2,7633 2,7564 2,7500 2,7440 2,7385 2,7333 2,7284 2,7238 2,7195 2,7154 2,7116 2,7079 2,7045 2,7012 2,6981 2,6951 2,6923 2,6896 2,6870 2,6846 2,6822 2,6800 2,6778 2,6603 2,5759

Apéndice

Tabla de valores de ji-cuadrado P(Área de la cola derecha bajo la función ji-cuadrada) 0,95 0,90 0,50 0,10 0,05 0,025 0,0039 0,0158 0,4549 2,7055 3,8415 5,0239 0,1026 0,2107 1,3863 4,6052 5,9915 7,3778 0,3518 0,5844 2,3660 6,2514 7,8147 9,3484 0,7107 1,0636 3,3567 7,7794 9,4877 11,1433 1,1455 1,6103 4,3515 9,2363 11,0705 12,8325 1,6354 2,2041 5,3481 10,6446 12,5916 14,4494 2,1673 2,8331 6,3458 12,0170 14,0671 16,0128 2,7326 3,4895 7,3441 13,3616 15,5073 17,5345 3,3251 4,1682 8,3428 14,6837 16,9190 19,0228 3,9403 4,8652 9,3418 15,9872 18,3070 20,4832

n 1 2 3 4 5 6 7 8 9 10

0,99 0,0002 0,0201 0,1148 0,2971 0,5543 0,8721 1,2390 1,6465 2,0879 2,5582

0,98 0,0006 0,0404 0,1848 0,4294 0,7519 1,1344 1,5643 2,0325 2,5324 3,0591

11 12 13 14 15 16 17 18 19 20

3,0535 3,5706 4,1069 4,6604 5,2294 5,8122 6,4077 7,0149 7,6327 8,2604

3,6087 4,5748 5,5778 4,1783 5,2260 6,3038 4,7654 5,8919 7,0415 5,3682 6,5706 7,7895 5,9849 7,2609 8,5468 6,6142 7,9616 9,3122 7,2550 8,6718 10,0852 7,9062 9,3904 10,8649 8,5670 10,1170 11,6509 9,2367 10,8508 12,4426

10,3410 11,3403 12,3398 13,3393 14,3389 15,3385 16,3382 17,3379 18,3376 19,3374

17,2750 18,5493 19,8119 21,0641 22,3071 23,5418 24,7690 25,9894 27,2036 28,4120

19,6752 21,0261 22,3620 23,6848 24,9958 26,2962 27,5871 28,8693 30,1435 31,4104

21 22 23 24 25 26 27 28 29 30

8,8972 9,5425 10,1957 10,8563 11,5240 12,1982 12,8785 13,5647 14,2564 14,9535

9,9145 10,6000 11,2926 11,9918 12,6973 13,4086 14,1254 14,8475 15,5745 16,3062

20,3372 21,3370 22,3369 23,3367 24,3366 25,3365 26,3363 27,3362 28,3361 29,3360

29,6151 30,8133 32,0069 33,1962 34,3816 35,5632 36,7412 37,9159 39,0875 40,2560

32,6706 33,9245 35,1725 36,4150 37,6525 38,8851 40,1133 41,3372 42,5569 43,7730

11,5913 12,3380 13,0905 13,8484 14,6114 15,3792 16,1514 16,9279 17,7084 18,4927

13,2396 14,0415 14,8480 15,6587 16,4734 17,2919 18,1139 18,9392 19,7677 20,5992

Para n > 30 conviene emplear el ajuste normal: z = 2 χ 2 − 2n − 1

0,02 5,4119 7,8241 9,8374 11,6678 13,3882 15,0332 16,6224 18,1682 19,6790 21,1608

0,01 6,6349 9,2104 11,3449 13,2767 15,0863 16,8119 18,4753 20,0902 21,6660 23,2093

21,9200 23,3367 24,7356 26,1189 27,4884 28,8453 30,1910 31,5264 32,8523 34,1696

22,6179 24,0539 25,4715 26,8727 28,2595 29,6332 30,9950 32,3462 33,6874 35,0196

24,7250 26,2170 27,6882 29,1412 30,5780 31,9999 33,4087 34,8052 36,1908 37,5663

35,4789 36,7807 38,0756 39,3641 40,6465 41,9231 43,1945 44,4608 45,7223 46,9792

36,3434 37,6595 38,9683 40,2703 41,5660 42,8558 44,1399 45,4188 46,6926 47,9618

38,9322 40,2894 41,6383 42,9798 44,3140 45,6416 46,9628 48,2782 49,5878 50,8922

267

268

Apéndice

Tabla de valores de F (P = 0,05) P = 0,05 ∞ n2\n1 1 2 3 4 5 6 7 8 9 10 11 12 15 20 24 30 40 50 60 120 161,4 199,5 215,7 224,6 230,2 234,0 236,8 238,9 240,5 241,9 243,0 243,9 245,9 248,0 249,1 250,1 251,1 251,8 252,2 253,3 254,3 1 18,51 19,00 19,16 19,25 19,30 19,33 19,35 19,37 19,38 19,40 19,40 19,41 19,43 19,45 19,45 19,46 19,47 19,48 19,48 19,49 19,50 2 10,13 9,55 9,28 9,12 9,01 8,94 8,89 8,85 8,81 8,79 8,76 8,74 8,70 8,66 8,64 8,62 8,59 8,58 8,57 8,55 8,53 3 7,71 6,94 6,59 6,39 6,26 6,16 6,09 6,04 6,00 5,96 5,94 5,91 5,86 5,80 5,77 5,75 5,72 5,70 5,69 5,66 5,63 4 6,61 5,79 5,41 5,19 5,05 4,95 4,88 4,82 4,77 4,74 4,70 4,68 4,62 4,56 4,53 4,50 4,46 4,44 4,43 4,40 4,37 5 5,99 5,14 4,76 4,53 4,39 4,28 4,21 4,15 4,10 4,06 4,03 4,00 3,94 3,87 3,84 3,81 3,77 3,75 3,74 3,70 3,67 6 5,59 4,74 4,35 4,12 3,97 3,87 3,79 3,73 3,68 3,64 3,60 3,57 3,51 3,44 3,41 3,38 3,34 3,32 3,30 3,27 3,23 7 5,32 4,46 4,07 3,84 3,69 3,58 3,50 3,44 3,39 3,35 3,31 3,28 3,22 3,15 3,12 3,08 3,04 3,02 3,01 2,97 2,93 8 5,12 4,26 3,86 3,63 3,48 3,37 3,29 3,23 3,18 3,14 3,10 3,07 3,01 2,94 2,90 2,86 2,83 2,80 2,79 2,75 2,71 9 4,96 4,10 3,71 3,48 3,33 3,22 3,14 3,07 3,02 2,98 2,94 2,91 2,85 2,77 2,74 2,70 2,66 2,64 2,62 2,58 2,54 10 4,84 3,98 3,59 3,36 3,20 3,09 3,01 2,95 2,90 2,85 2,82 2,79 2,72 2,65 2,61 2,57 2,53 2,51 2,49 2,45 2,40 11 4,75 3,89 3,49 3,26 3,11 3,00 2,91 2,85 2,80 2,75 2,72 2,69 2,62 2,54 2,51 2,47 2,43 2,40 2,38 2,34 2,30 12 4,67 3,81 3,41 3,18 3,03 2,92 2,83 2,77 2,71 2,67 2,63 2,60 2,53 2,46 2,42 2,38 2,34 2,31 2,30 2,25 2,21 13 4,60 3,74 3,34 3,11 2,96 2,85 2,76 2,70 2,65 2,60 2,57 2,53 2,46 2,39 2,35 2,31 2,27 2,24 2,22 2,18 2,13 14 4,54 3,68 3,29 3,06 2,90 2,79 2,71 2,64 2,59 2,54 2,51 2,48 2,40 2,33 2,29 2,25 2,20 2,18 2,16 2,11 2,07 15 4,49 3,63 3,24 3,01 2,85 2,74 2,66 2,59 2,54 2,49 2,46 2,42 2,35 2,28 2,24 2,19 2,15 2,12 2,11 2,06 2,01 16 4,45 3,59 3,20 2,96 2,81 2,70 2,61 2,55 2,49 2,45 2,41 2,38 2,31 2,23 2,19 2,15 2,10 2,08 2,06 2,01 1,96 17 4,41 3,55 3,16 2,93 2,77 2,66 2,58 2,51 2,46 2,41 2,37 2,34 2,27 2,19 2,15 2,11 2,06 2,04 2,02 1,97 1,92 18 4,38 3,52 3,13 2,90 2,74 2,63 2,54 2,48 2,42 2,38 2,34 2,31 2,23 2,16 2,11 2,07 2,03 2,00 1,98 1,93 1,88 19 4,35 3,49 3,10 2,87 2,71 2,60 2,51 2,45 2,39 2,35 2,31 2,28 2,20 2,12 2,08 2,04 1,99 1,97 1,95 1,90 1,84 20 4,32 3,47 3,07 2,84 2,68 2,57 2,49 2,42 2,37 2,32 2,28 2,25 2,18 2,10 2,05 2,01 1,96 1,94 1,92 1,87 1,81 21 4,30 3,44 3,05 2,82 2,66 2,55 2,46 2,40 2,34 2,30 2,26 2,23 2,15 2,07 2,03 1,98 1,94 1,91 1,89 1,84 1,78 22 4,28 3,42 3,03 2,80 2,64 2,53 2,44 2,37 2,32 2,27 2,24 2,20 2,13 2,05 2,01 1,96 1,91 1,88 1,86 1,81 1,76 23 4,26 3,40 3,01 2,78 2,62 2,51 2,42 2,36 2,30 2,25 2,22 2,18 2,11 2,03 1,98 1,94 1,89 1,86 1,84 1,79 1,73 24 4,24 3,39 2,99 2,76 2,60 2,49 2,40 2,34 2,28 2,24 2,20 2,16 2,09 2,01 1,96 1,92 1,87 1,84 1,82 1,77 1,71 25 4,23 3,37 2,98 2,74 2,59 2,47 2,39 2,32 2,27 2,22 2,18 2,15 2,07 1,99 1,95 1,90 1,85 1,82 1,80 1,75 1,69 26 4,21 3,35 2,96 2,73 2,57 2,46 2,37 2,31 2,25 2,20 2,17 2,13 2,06 1,97 1,93 1,88 1,84 1,81 1,79 1,73 1,67 27 4,20 3,34 2,95 2,71 2,56 2,45 2,36 2,29 2,24 2,19 2,15 2,12 2,04 1,96 1,91 1,87 1,82 1,79 1,77 1,71 1,65 28 4,18 3,33 2,93 2,70 2,55 2,43 2,35 2,28 2,22 2,18 2,14 2,10 2,03 1,94 1,90 1,85 1,81 1,77 1,75 1,70 1,64 29 4,17 3,32 2,92 2,69 2,53 2,42 2,33 2,27 2,21 2,16 2,13 2,09 2,01 1,93 1,89 1,84 1,79 1,76 1,74 1,68 1,62 30 4,08 3,23 2,84 2,61 2,45 2,34 2,25 2,18 2,12 2,08 2,04 2,00 1,92 1,84 1,79 1,74 1,69 1,66 1,64 1,58 1,51 40 4,03 3,18 2,79 2,56 2,40 2,29 2,20 2,13 2,07 2,03 1,99 1,95 1,87 1,78 1,74 1,69 1,63 1,60 1,58 1,51 1,44 50 4,00 3,15 2,76 2,53 2,37 2,25 2,17 2,10 2,04 1,99 1,95 1,92 1,84 1,75 1,70 1,65 1,59 1,56 1,53 1,47 1,39 60 3,92 3,07 2,68 2,45 2,29 2,18 2,09 2,02 1,96 1,91 1,87 1,83 1,75 1,66 1,61 1,55 1,50 1,46 1,43 1,35 1,25 120 3,84 3,00 2,60 2,37 2,21 2,10 2,01 1,94 1,88 1,83 1,79 1,75 1,67 1,57 1,52 1,46 1,39 1,35 1,32 1,22 1,00 ∞

Apéndice

269

Tabla de valores de F (P = 0,01) P = 0,01 ∞ n2\n1 1 2 3 4 5 6 7 8 9 10 11 12 15 20 24 30 40 50 60 120 4052,2 4999,3 5403,5 5624,3 5764,0 5859,0 5928,3 5981,0 6022,4 6055,9 6083,4 6106,7 6157,0 6208,7 6234,3 6260,4 6286,4 6302,3 6313,0 6339,5 6365,6 1 98,50 99,00 99,16 99,25 99,30 99,33 99,36 99,38 99,39 99,40 99,41 99,42 99,43 99,45 99,46 99,47 99,48 99,48 99,48 99,49 99,50 2 34,12 30,82 29,46 28,71 28,24 27,91 27,67 27,49 27,34 27,23 27,13 27,05 26,87 26,69 26,60 26,50 26,41 26,35 26,32 26,22 26,13 3 21,20 18,00 16,69 15,98 15,52 15,21 14,98 14,80 14,66 14,55 14,45 14,37 14,20 14,02 13,93 13,84 13,75 13,69 13,65 13,56 13,46 4 16,26 13,27 12,06 11,39 10,97 10,67 10,46 10,29 10,16 10,05 9,96 9,89 9,72 9,55 9,47 9,38 9,29 9,24 9,20 9,11 9,02 5 13,75 10,92 9,78 9,15 8,75 8,47 8,26 8,10 7,98 7,87 7,79 7,72 7,56 7,40 7,31 7,23 7,14 7,09 7,06 6,97 6,88 6 12,25 9,55 8,45 7,85 7,46 7,19 6,99 6,84 6,72 6,62 6,54 6,47 6,31 6,16 6,07 5,99 5,91 5,86 5,82 5,74 5,65 7 11,26 8,65 7,59 7,01 6,63 6,37 6,18 6,03 5,91 5,81 5,73 5,67 5,52 5,36 5,28 5,20 5,12 5,07 5,03 4,95 4,86 8 10,56 8,02 6,99 6,42 6,06 5,80 5,61 5,47 5,35 5,26 5,18 5,11 4,96 4,81 4,73 4,65 4,57 4,52 4,48 4,40 4,31 9 10,04 7,56 6,55 5,99 5,64 5,39 5,20 5,06 4,94 4,85 4,77 4,71 4,56 4,41 4,33 4,25 4,17 4,12 4,08 4,00 3,91 10 9,65 7,21 6,22 5,67 5,32 5,07 4,89 4,74 4,63 4,54 4,46 4,40 4,25 4,10 4,02 3,94 3,86 3,81 3,78 3,69 3,60 11 9,33 6,93 5,95 5,41 5,06 4,82 4,64 4,50 4,39 4,30 4,22 4,16 4,01 3,86 3,78 3,70 3,62 3,57 3,54 3,45 3,36 12 9,07 6,70 5,74 5,21 4,86 4,62 4,44 4,30 4,19 4,10 4,02 3,96 3,82 3,66 3,59 3,51 3,43 3,38 3,34 3,25 3,17 13 8,86 6,51 5,56 5,04 4,69 4,46 4,28 4,14 4,03 3,94 3,86 3,80 3,66 3,51 3,43 3,35 3,27 3,22 3,18 3,09 3,00 14 8,68 6,36 5,42 4,89 4,56 4,32 4,14 4,00 3,89 3,80 3,73 3,67 3,52 3,37 3,29 3,21 3,13 3,08 3,05 2,96 2,87 15 8,53 6,23 5,29 4,77 4,44 4,20 4,03 3,89 3,78 3,69 3,62 3,55 3,41 3,26 3,18 3,10 3,02 2,97 2,93 2,84 2,75 16 8,40 6,11 5,19 4,67 4,34 4,10 3,93 3,79 3,68 3,59 3,52 3,46 3,31 3,16 3,08 3,00 2,92 2,87 2,83 2,75 2,65 17 8,29 6,01 5,09 4,58 4,25 4,01 3,84 3,71 3,60 3,51 3,43 3,37 3,23 3,08 3,00 2,92 2,84 2,78 2,75 2,66 2,57 18 8,18 5,93 5,01 4,50 4,17 3,94 3,77 3,63 3,52 3,43 3,36 3,30 3,15 3,00 2,92 2,84 2,76 2,71 2,67 2,58 2,49 19 8,10 5,85 4,94 4,43 4,10 3,87 3,70 3,56 3,46 3,37 3,29 3,23 3,09 2,94 2,86 2,78 2,69 2,64 2,61 2,52 2,42 20 8,02 5,78 4,87 4,37 4,04 3,81 3,64 3,51 3,40 3,31 3,24 3,17 3,03 2,88 2,80 2,72 2,64 2,58 2,55 2,46 2,36 21 7,95 5,72 4,82 4,31 3,99 3,76 3,59 3,45 3,35 3,26 3,18 3,12 2,98 2,83 2,75 2,67 2,58 2,53 2,50 2,40 2,31 22 7,88 5,66 4,76 4,26 3,94 3,71 3,54 3,41 3,30 3,21 3,14 3,07 2,93 2,78 2,70 2,62 2,54 2,48 2,45 2,35 2,26 23 7,82 5,61 4,72 4,22 3,90 3,67 3,50 3,36 3,26 3,17 3,09 3,03 2,89 2,74 2,66 2,58 2,49 2,44 2,40 2,31 2,21 24 7,77 5,57 4,68 4,18 3,85 3,63 3,46 3,32 3,22 3,13 3,06 2,99 2,85 2,70 2,62 2,54 2,45 2,40 2,36 2,27 2,17 25 7,72 5,53 4,64 4,14 3,82 3,59 3,42 3,29 3,18 3,09 3,02 2,96 2,81 2,66 2,58 2,50 2,42 2,36 2,33 2,23 2,13 26 7,68 5,49 4,60 4,11 3,78 3,56 3,39 3,26 3,15 3,06 2,99 2,93 2,78 2,63 2,55 2,47 2,38 2,33 2,29 2,20 2,10 27 7,64 5,45 4,57 4,07 3,75 3,53 3,36 3,23 3,12 3,03 2,96 2,90 2,75 2,60 2,52 2,44 2,35 2,30 2,26 2,17 2,06 28 7,60 5,42 4,54 4,04 3,73 3,50 3,33 3,20 3,09 3,00 2,93 2,87 2,73 2,57 2,49 2,41 2,33 2,27 2,23 2,14 2,03 29 7,56 5,39 4,51 4,02 3,70 3,47 3,30 3,17 3,07 2,98 2,91 2,84 2,70 2,55 2,47 2,39 2,30 2,25 2,21 2,11 2,01 30 7,31 5,18 4,31 3,83 3,51 3,29 3,12 2,99 2,89 2,80 2,73 2,66 2,52 2,37 2,29 2,20 2,11 2,06 2,02 1,92 1,80 40 7,17 5,06 4,20 3,72 3,41 3,19 3,02 2,89 2,78 2,70 2,63 2,56 2,42 2,27 2,18 2,10 2,01 1,95 1,91 1,80 1,68 50 7,08 4,98 4,13 3,65 3,34 3,12 2,95 2,82 2,72 2,63 2,56 2,50 2,35 2,20 2,12 2,03 1,94 1,88 1,84 1,73 1,60 60 6,85 4,79 3,95 3,48 3,17 2,96 2,79 2,66 2,56 2,47 2,40 2,34 2,19 2,03 1,95 1,86 1,76 1,70 1,66 1,53 1,38 120 6,64 4,61 3,78 3,32 3,02 2,80 2,64 2,51 2,41 2,32 2,25 2,18 2,04 1,88 1,79 1,70 1,59 1,52 1,47 1,32 1,01 ∞

270

Apéndice

Tabla de factores para el cálculo de límites de control Tamaño de la muestra 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25

A2

A3

E2

B3

B4

D3

D4

1,880 1,023 0,729 0,557 0,483 0,419 0,373 0,337 0,308 0,285 0,266 0,249 0,235 0,223 0,212 0,203 0,194 0,187 0,180 0,173 0,167 0,162 0,157 0,153

2,659 1,954 1,628 1,427 1,287 1,182 1,099 1,032 0,975 0,927 0,886 0,850 0,817 0,789 0,763 0,739 0,718 0,698 0,680 0,663 0,647 0,633 0,619 0,606

2,660 1,772 1,457 1,290 1,184 1,109 1,054 1,010 0,975 0,946 0,921 0,899 0,881 0,864

0,000 0,000 0,000 0,000 0,030 0,118 0,185 0,239 0,284 0,321 0,354 0,382 0,406 0,428 0,448 0,466 0,482 0,497 0,510 0,523 0,534 0,545 0,555 0,565

3,267 2,568 2,266 2,089 1,970 1,882 1,815 1,761 1,716 1,679 1,646 1,618 1,594 1,572 1,552 1,534 1,518 1,503 1,490 1,477 1,466 1,455 1,445 1,435

0,000 0,000 0,000 0,000 0,000 0,076 0,136 0,184 0,223 0,256 0,283 0,307 0,328 0,347 0,363 0,378 0,391 0,403 0,415 0,425 0,434 0,443 0,451 0,459

3,267 2,574 2,282 2,114 2,004 1,924 1,864 1,816 1,777 1,744 1,717 1,693 1,672 1,653 1,637 1,622 1,608 1,597 1,585 1,575 1,566 1,557 1,548 1,541

Tabla extraída del curso de Herramientas Estadísticas para el mejoramiento de procesos dictado por el Ing. Federico Salvador en la Sociedad Nacional de Industrias del Perú.

Apéndice 271

Tabla de probabilidades de aceptación (Pa) np \ c 0,01 0,02 0,03 0,04 0,05 0,06 0,07 0,08 0,09 0,10 0,15 0,20 0,25 0,30 0,35 0,40 0,45 0,50 0,55 0,60 0,65 0,70 0,75 0,80 0,85 0,90 0,95 1,00 1,10 1,20 1,30 1,40 1,50 1,60 1,70 1,80 1,90 2,00 2,10 2,20 2,30 2,40 2,50 2,60 2,70 2,80 2,90 3,00 3,10 3,20 3,30 3,40 3,50 3,60 3,70 3,80 3,90 4,00 4,10 4,20 4,30 4,40 4,50 4,60 4,70 4,80 4,90 5,00

0 0,990 0,980 0,970 0,961 0,951 0,942 0,932 0,923 0,914 0,905 0,861 0,819 0,779 0,741 0,705 0,670 0,638 0,607 0,577 0,549 0,522 0,497 0,472 0,449 0,427 0,407 0,387 0,368 0,333 0,301 0,273 0,247 0,223 0,202 0,183 0,165 0,150 0,135 0,122 0,111 0,100 0,091 0,082 0,074 0,067 0,061 0,055 0,050 0,045 0,041 0,037 0,033 0,030 0,027 0,025 0,022 0,020 0,018 0,017 0,015 0,014 0,012 0,011 0,010 0,009 0,008 0,007 0,007

1 1,000 1,000 1,000 0,999 0,999 0,998 0,998 0,997 0,996 0,995 0,990 0,982 0,974 0,963 0,951 0,938 0,925 0,910 0,894 0,878 0,861 0,844 0,827 0,809 0,791 0,772 0,754 0,736 0,699 0,663 0,627 0,592 0,558 0,525 0,493 0,463 0,434 0,406 0,380 0,355 0,331 0,308 0,287 0,267 0,249 0,231 0,215 0,199 0,185 0,171 0,159 0,147 0,136 0,126 0,116 0,107 0,099 0,092 0,085 0,078 0,072 0,066 0,061 0,056 0,052 0,048 0,044 0,040

2

3

4

5

6

7

8

9

10

11

12

1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,998 0,996 0,994 0,992 0,989 0,986 0,982 0,977 0,972 0,966 0,959 0,953 0,945 0,937 0,929 0,920 0,900 0,879 0,857 0,833 0,809 0,783 0,757 0,731 0,704 0,677 0,650 0,623 0,596 0,570 0,544 0,518 0,494 0,469 0,446 0,423 0,401 0,380 0,359 0,340 0,321 0,303 0,285 0,269 0,253 0,238 0,224 0,210 0,197 0,185 0,174 0,163 0,152 0,143 0,133 0,125

1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,998 0,998 0,997 0,996 0,994 0,993 0,991 0,989 0,987 0,984 0,981 0,974 0,966 0,957 0,946 0,934 0,921 0,907 0,891 0,875 0,857 0,839 0,819 0,799 0,779 0,758 0,736 0,714 0,692 0,670 0,647 0,625 0,603 0,580 0,558 0,537 0,515 0,494 0,473 0,453 0,433 0,414 0,395 0,377 0,359 0,342 0,326 0,310 0,294 0,279 0,265

1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,998 0,998 0,997 0,996 0,995 0,992 0,989 0,986 0,981 0,976 0,970 0,964 0,956 0,947 0,938 0,928 0,916 0,904 0,891 0,877 0,863 0,848 0,832 0,815 0,798 0,781 0,763 0,744 0,725 0,706 0,687 0,668 0,648 0,629 0,609 0,590 0,570 0,551 0,532 0,513 0,495 0,476 0,458 0,440

1,000 1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,998 0,998 0,997 0,996 0,994 0,992 0,990 0,987 0,983 0,980 0,975 0,970 0,964 0,958 0,951 0,943 0,935 0,926 0,916 0,906 0,895 0,883 0,871 0,858 0,844 0,830 0,816 0,801 0,785 0,769 0,753 0,737 0,720 0,703 0,686 0,668 0,651 0,634 0,616

1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,998 0,997 0,997 0,995 0,994 0,993 0,991 0,988 0,986 0,983 0,979 0,976 0,971 0,966 0,961 0,955 0,949 0,942 0,935 0,927 0,918 0,909 0,899 0,889 0,879 0,867 0,856 0,844 0,831 0,818 0,805 0,791 0,777 0,762

1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,998 0,997 0,997 0,996 0,995 0,993 0,992 0,990 0,988 0,986 0,983 0,980 0,977 0,973 0,969 0,965 0,960 0,955 0,949 0,943 0,936 0,929 0,921 0,913 0,905 0,896 0,887 0,877 0,867

1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,998 0,998 0,997 0,996 0,995 0,994 0,993 0,992 0,990 0,988 0,986 0,984 0,981 0,979 0,976 0,972 0,968 0,964 0,960 0,955 0,950 0,944 0,938 0,932

1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,999 0,998 0,998 0,997 0,997 0,996 0,995 0,994 0,993 0,992 0,990 0,989 0,987 0,985 0,983 0,980 0,978 0,975 0,972 0,968

1,000 1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,998 0,998 0,998 0,997 0,997 0,996 0,995 0,994 0,993 0,992 0,991 0,990 0,988 0,986

1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,999 0,998 0,998 0,998 0,997 0,997 0,996 0,995 0,995

1,000 1,000 1,000 1,000 1,000 0,999 0,999 0,999 0,999 0,999 0,999 0,998 0,998

13

14

1,000 1,000 1,000 1,000 1,000 1,000 0,999 1,000 0,999 1,000

272

Apéndice

Índice i

ÍNDICE CAPÍTULO 1. PROBABILIDADES................................................................................................................... 1

1.1 MODELOS MATEMÁTICOS ..................................................................................................................... 1 1.1.1 Definiciones: ................................................................................................................................... 1 1.1.2 Características de un fenómeno probabilístico: ............................................................................. 1 1.2 PERMUTACIONES Y COMBINACIONES .................................................................................................... 2 1.2.1 Teoremas relativos a permutaciones y combinaciones ................................................................... 2 1.3 EXPERIMENTOS Y EVENTOS .................................................................................................................. 7 1.4 ESPACIO MUESTRA................................................................................................................................ 7 1.5 VARIABLE ALEATORIA.......................................................................................................................... 7 1.6 PROBABILIDAD ..................................................................................................................................... 9 1.6.1. Probabilidad a priori:..................................................................................................................... 9 1.6.2. Probabilidad experimental............................................................................................................ 10 1.6.3 Probabilidad subjetiva .................................................................................................................. 11 1.7 TEOREMAS DE PROBABILIDAD. ........................................................................................................... 11 1.7.1 Suma de probabilidades:............................................................................................................... 11 1.7.2 Probabilidad condicional y regla de la multiplicación: ............................................................... 14 1.7.3 Eventos independientes ................................................................................................................. 16 1.7.4 Teorema de suma y multiplicación: particiones............................................................................ 17 1.7.5 Teorema de Bayes ......................................................................................................................... 21 PROBLEMAS PROPUESTOS. ................................................................................................................................ 23 CAPÍTULO 2. INTRODUCCIÓN A LA ESTADÍSTICA .............................................................................. 34

2.1 2.2 2.2.1 2.2.2 2.3 2.4

DEFINICIÓN DE ESTADÍSTICA .............................................................................................................. 34 DEFINICIÓN DE ALGUNOS TÉRMINOS BÁSICOS .................................................................................... 34 Universo o población:................................................................................................................... 34 Muestra ......................................................................................................................................... 34 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL......................................................................................... 35 IMPORTANCIA DE LA ESTADÍSTICA ..................................................................................................... 35

CAPÍTULO 3. ESTADÍSTICA DESCRIPTIVA ............................................................................................. 37

3.1 INTRODUCCIÓN ................................................................................................................................... 37 3.2 MEDIDAS DESCRIPTIVAS ..................................................................................................................... 37 3.2.1 Media aritmética ........................................................................................................................... 37 3.2.2 La mediana.................................................................................................................................... 38 3.2.3 La moda......................................................................................................................................... 38 3.2.4 La amplitud ................................................................................................................................... 39 3.2.5 La desviación media...................................................................................................................... 39 3.2.6 La varianza ................................................................................................................................... 39 3.2.7 La desviación estándar.................................................................................................................. 39 3.2.8 El coeficiente de variación............................................................................................................ 39 3.2.9 Los cuartiles .................................................................................................................................. 40 3.2.10 Los percentiles.......................................................................................................................... 40 3.2.11 Coeficiente de asimetría ........................................................................................................... 40 3.2.12 Curtosis .................................................................................................................................... 41 3.3 EXACTITUD Y PRECISIÓN .................................................................................................................... 41 3.4 MEDIDAS DESCRIPTIVAS EN EXCEL .................................................................................................... 42 3.5 REPRESENTACIONES DE DATOS ........................................................................................................... 44 3.5.1 Distribución de frecuencias: diagrama de barras ........................................................................ 44 3.5.2 Representaciones tallo-hoja .......................................................................................................... 45 3.5.3 Diagrama de caja-bigote.................................................................................................................... 45 3.6 DISTRIBUCIONES DE FRECUENCIAS AGRUPADAS ................................................................................. 46 3.6.1 Agrupación de datos...................................................................................................................... 46 3.6.2 Histograma, polígono de frecuencias y ojiva................................................................................ 48 3.6.3 Cálculo de algunas medidas descriptivas. .................................................................................... 50 3.7 TABLAS Y GRÁFICAS PARA LA REPRESENTACIÓN DE DATOS EN EXCEL ............................................... 50 3.7.1 Tabla y gráfico de distribución de frecuencias no agrupadas ...................................................... 50 3.7.2 Tabla de distribución de frecuencias agrupadas e histogramas en Excel .................................... 50 PROBLEMAS PROPUESTOS. ................................................................................................................................ 54

ii

Índice

CAPÍTULO 4. FUNCIÓN DE PROBABILIDAD........................................................................................... 58

4.1 DEFINICIÓN DE FUNCIÓN DE PROBABILIDAD. ...................................................................................... 58 4.2 LA FUNCIÓN DE DISTRIBUCIÓN (ACUMULATIVA). ............................................................................... 59 4.3 EL VALOR ESPERADO DE UNA VARIABLE ALEATORIA DISCRETA. ........................................................ 59 4.4 VARIANZA Y DESVIACIÓN ESTÁNDAR DE UNA VARIABLE ALEATORIA DISCRETA ................................ 60 4.5 TEOREMAS SOBRE EL VALOR ESPERADO Y LA VARIANZA.................................................................... 61 4.6 LA DESIGUALDAD DE TCHEBYCHEFF. ................................................................................................. 62 4.7 LA FUNCIÓN BIVARIANTE DE PROBABILIDAD. ..................................................................................... 63 4.7.1 Definición de función bivariante de probabilidad. ....................................................................... 63 4.7.2 El valor esperado de funciones de dos variables. ......................................................................... 64 4.7.3 Varianza y covarianza de dos variables aleatorias....................................................................... 64 4.8 DISTRIBUCIONES DE PROBABILIDAD EN EXCEL ................................................................................... 65 PROBLEMAS PROPUESTOS. ................................................................................................................................ 68 CAPÍTULO 5. DISTRIBUCIONES DISCRETAS DE PROBABILIDAD .................................................... 71

5.1 LA DISTRIBUCIÓN UNIFORME DISCRETA .............................................................................................. 71 5.2 LA DISTRIBUCIÓN BINOMIAL ............................................................................................................... 71 5.2.1 Probabilidad binomial .................................................................................................................. 71 5.2.2 La función binomial de probabilidad. ........................................................................................... 72 5.2.3 El valor esperado y la varianza .................................................................................................... 73 5.2.4 Cálculo de probabilidades binomiales acumulativas.................................................................... 74 5.2.5 La proporción muestral como estimación de la proporción poblacional. .................................... 76 5.2.6 La distribución binomial en Excel................................................................................................. 76 5.3 LA DISTRIBUCIÓN BINOMIAL NEGATIVA.............................................................................................. 76 5.4 LA DISTRIBUCIÓN DE POISSON. ........................................................................................................... 77 5.4.1 La función de probabilidad de Poisson......................................................................................... 77 5.4.2 El valor esperado y la varianza. ................................................................................................... 78 5.4.3 Cálculo de probabilidades acumulativas de Poisson.................................................................... 79 5.4.4 Aproximación de la distribución binomial a la distribución de Poisson. ..................................... 80 5.4.5 La distribución de Poisson en Excel ............................................................................................. 80 5.5 LA DISTRIBUCIÓN HIPERGEOMÉTRICA................................................................................................. 81 5.5.1 La probabilidad hipergeométrica ................................................................................................. 81 5.5.2 La distribución hipergeométrica ................................................................................................... 82 5.5.2 La media y la varianza .................................................................................................................. 82 PROBLEMAS PROPUESTOS. ................................................................................................................................ 83 CAPÍTULO 6. DISTRIBUCIONES CONTINUAS DE PROBABILIDAD................................................... 86

6.1 LA FUNCIÓN DENSIDAD DE PROBABILIDAD. ........................................................................................ 86 6.1.1 Introducción .................................................................................................................................. 86 6.1.2 La función densidad de probabilidad............................................................................................ 86 6.1.3 La media y la varianza. ................................................................................................................. 87 6.2 LA DISTRIBUCIÓN NORMAL ................................................................................................................. 87 6.2.1 La función densidad normal de probabilidad ............................................................................... 87 6.2.2 La forma estandarizada. ............................................................................................................... 89 6.2.3 Áreas bajo la curva normal........................................................................................................... 90 6.2.4 Ordenadas de la curva normal...................................................................................................... 90 6.2.5 Propiedades de la curva normal. .................................................................................................. 91 6.2.6 Aproximación a la distribución binomial...................................................................................... 92 6.2.7 Ajuste de la curva normal. ............................................................................................................ 94 6.3 LA DISTRIBUCIÓN UNIFORME CONTINUA ............................................................................................. 96 PROBLEMAS PROPUESTOS. ................................................................................................................................ 98 CAPÍTULO 7. DISTRIBUCIONES DE PROPORCIONES......................................................................... 101

7.1 LA DISTRIBUCIÓN MULTINOMIAL...................................................................................................... 101 7.2 LA DISTRIBUCIÓN DE UNA PROPORCIÓN............................................................................................ 101 7.3 DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA EN POBLACIONES INFINITAS ................................ 103 7.3.1 Determinación del tamaño de una muestra para estimar una proporción de una población infinita 103 7.3.2 Determinación del tamaño de una muestra estratificada para estimar proporciones de los estratos de una población infinita................................................................................................................................ 106

Índice iii 7.4 DETERMINACIÓN DEL TAMAÑO DE UNA MUESTRA EN POBLACIONES FINITAS ................................... 109 7.5 LA DISTRIBUCIÓN DE LA DIFERENCIA DE DOS PROPORCIONES. .......................................................... 109 PROBLEMAS PROPUESTOS. .............................................................................................................................. 111 CAPÍTULO 8: DISTRIBUCIÓN DE LAS MEDIAS MUESTRALES ........................................................ 113

8.1 INTRODUCCIÓN ................................................................................................................................. 113 8.2 DISTRIBUCIÓN DE LA MEDIA MUESTRAL ........................................................................................... 113 8.3. DISTRIBUCIÓN DE LA DIFERENCIA DE LAS MEDIAS MUESTRALES ...................................................... 114 8.4. LA DISTRIBUCIÓN T DE STUDENT: APLICACIONES A LAS MEDIAS POBLACIONALES ........................... 115 8.4.1 La distribución t de Student ........................................................................................................ 115 8.4.2 Distribución t de la media muestral ............................................................................................ 115 8.4.3 Distribución t de la diferencia de las medias muestrales............................................................ 116 PROBLEMAS PROPUESTOS ............................................................................................................................... 117 CAPÍTULO 9: CONTRASTES DE HIPÓTESIS .......................................................................................... 118

9.1. INTRODUCCIÓN ................................................................................................................................. 118 9.2. HIPÓTESIS NULA E HIPÓTESIS ALTERNATIVA ..................................................................................... 118 9.3. REGIONES DE ACEPTACIÓN Y DE RECHAZO ....................................................................................... 118 9.4. ERROR TIPO I Y ERROR TIPO II........................................................................................................... 119 9.5. CONTRASTES DE HIPÓTESIS SOBRE PROPORCIONES ........................................................................... 120 9.6. CONTRASTES DE HIPÓTESIS SOBRE MEDIAS MUESTRALES ................................................................. 124 9.7 LA DISTRIBUCIÓN F: COMPARACIÓN DE VARIANZAS. ........................................................................ 127 9.8 CONTRASTES DE HIPÓTESIS EN EXCEL ............................................................................................. 128 9.8.1 Prueba t para medias de dos muestras suponiendo varianzas iguales. ...................................... 128 9.8.2 Prueba t para medias de dos muestras suponiendo varianzas desiguales. ................................. 129 9.8.3 Prueba z para medias de dos muestras cuando se conocen la varianzas de las poblaciones..... 130 9.8.4 Prueba de una media cuando se conoce o no la varianza de la población................................. 131 9.8.5 Comparación de varianzas.......................................................................................................... 132 PROBLEMAS PROPUESTOS ............................................................................................................................... 134 CAPÍTULO 10. LA DISTRIBUCIÓN JI-CUADRADA (χ2)........................................................................ 139

10.1 INTRODUCCIÓN................................................................................................................................. 139 10.2 LA FUNCIÓN DENSIDAD DE PROBABILIDAD JI-CUADRADA................................................................. 139 10.3 PRUEBAS DE BONDAD DE AJUSTE. ..................................................................................................... 140 10.3.1 Distribución multinomial................................................................................................................ 141 10.3.2 Distribución de Poisson.................................................................................................................. 142 10.3.3 Distribución normal. ...................................................................................................................... 143 10.4 PRUEBAS DE INDEPENDENCIA: TABLAS DE CONTINGENCIA. .............................................................. 144 10.5 PRUEBAS DE HIPÓTESIS RESPECTO A LA VARIANZA........................................................................... 146 10.6 LA DISTRIBUCIÓN JI-CUADRADA EN EXCEL ...................................................................................... 147 PROBLEMAS PROPUESTOS. .............................................................................................................................. 148 CAPÍTULO 11. ESTIMACIÓN PUNTUAL Y DE INTERVALO............................................................... 150

11.1 INTRODUCCIÓN ................................................................................................................................. 150 11.2 ESTIMACIÓN PUNTUAL...................................................................................................................... 150 11.3 ESTIMACIÓN POR INTERVALOS.......................................................................................................... 151 11.3.1 Intervalo de confianza para la media poblacional. ........................................................................ 151 11.3.2 Intervalo de confianza para la diferencia de medias...................................................................... 152 11.3.3 Intervalo de confianza para la proporción p.................................................................................. 152 11.3.4 Intervalo de confianza para la diferencia de proporciones............................................................ 154 11.3.5 Intervalo de confianza para la varianza......................................................................................... 154 11.4 INTERVALO DE CONFIANZA PARA LA MEDIA EN EXCEL ..................................................................... 155 PROBLEMAS PROPUESTOS. .............................................................................................................................. 157 CAPÍTULO 12. DISEÑO DE EXPERIMENTOS Y ANÁLISIS DE VARIANZA ..................................... 158

12.1 INTRODUCCIÓN................................................................................................................................. 158 12.2 DISEÑO DE EXPERIMENTOS. .............................................................................................................. 158 12.2.1 Definiciones.................................................................................................................................... 158 12.2.2 Diseño completamente aleatorizado............................................................................................... 159 12.2.3 Diseño aleatorizado por bloques.................................................................................................... 159

iv

Índice 12.2.4 Errores en los datos de los experimentos ....................................................................................... 159 12.3 ANÁLISIS DE VARIANZA: ANOVA.................................................................................................... 159 12.3.1 Análisis de varianza de un factor ................................................................................................... 161 12.3.2 Análisis de varianza de dos factores, sin interacción entre los factores. ....................................... 163 12.3.3 Análisis de varianza de dos factores, con interacción entre los factores. ...................................... 166 12.4 ANÁLISIS DE VARIANZA EN EXCEL ................................................................................................... 170 12.4.1 Análisis de varianza de un factor ................................................................................................... 170 12.4.2 Análisis de varianza de dos factores, sin interacción..................................................................... 171 12.4.3 Análisis de varianza de dos factores, con interacción.................................................................... 173 PROBLEMAS PROPUESTOS. .............................................................................................................................. 177

CAPÍTULO 13. REGRESIÓN LINEAL SIMPLE Y CORRELACIÓN. .................................................... 179

13.1 INTRODUCCIÓN................................................................................................................................. 179 13.2 REGRESIÓN. ...................................................................................................................................... 179 13.3 LA RECTA DE REGRESIÓN DE LA POBLACIÓN..................................................................................... 180 13.4 MÉTODO DE LOS MÍNIMOS CUADRADOS............................................................................................ 181 13.5 PROPIEDADES DE LA RECTA DE MÍNIMOS CUADRADOS ...................................................................... 182 13.6 MEDIDAS DE VARIABILIDAD ............................................................................................................. 183 13.7 ESTIMACIONES DE INTERVALO PARA LA REGRESIÓN......................................................................... 185 13.8 CORRELACIÓN LINEAL. ..................................................................................................................... 185 13.9 REGRESIÓN SIMPLE NO LINEAL ......................................................................................................... 187 13.10 REGRESIÓN LINEAL, NO LINEAL Y CORRELACIÓN EN EXCEL ............................................................. 188 13.10.1 Diagrama de dispersión y tendencia lineal. ................................................................................. 188 13.10.2 Tendencia no lineal. ..................................................................................................................... 190 13.10.3 Regresión lineal con funciones de Excel ...................................................................................... 190 PROBLEMAS PROPUESTOS ............................................................................................................................... 192 CAPÍTULO 14. ANÁLISIS DE SERIES DE TIEMPO................................................................................. 195

14.1 INTRODUCCIÓN ................................................................................................................................. 195 14.2 COMPONENTES DE UNA SERIE DE TIEMPO ......................................................................................... 195 14.2.1 Componente tendencial (T)............................................................................................................. 196 14.2.2 Componente cíclica (C) .................................................................................................................. 196 14.2.3 Componente estacional (S) ............................................................................................................. 197 14.2.4 Componente irregular o aleatoria (I)............................................................................................. 199 14.3 DESCOMPOSICIÓN DE SERIES DE TIEMPO ........................................................................................... 200 14.3.1 Suavización de la serie de tiempo................................................................................................... 200 14.3.2 Aislamiento de las componentes de la serie de tiempo................................................................... 201 14.4 PRONÓSTICO ..................................................................................................................................... 202 14.5 ANÁLISIS DEL COMPORTAMIENTO DE UNA SERIE DE TIEMPO ............................................................. 202 14.6 ANÁLISIS DE SERIES DE TIEMPO EN EXCEL ........................................................................................ 202 14.6.1 Análisis de series de tiempo con medias móviles............................................................................ 202 14.6.2 Suavización exponencial................................................................................................................. 206 PROBLEMAS PROPUESTOS ............................................................................................................................... 208 CAPÍTULO 15. HERRAMIENTAS ESTADÍSTICAS PARA MEJORAR LA CALIDAD DE LOS PROCESOS ....................................................................................................................................................... 211

15.1 MEJORA DE LA CALIDAD ................................................................................................................... 211 15.1.1 Definiciones.................................................................................................................................... 211 15.1.2 Breve historia de la calidad............................................................................................................ 211 15.2 INTERPRETACIÓN DE HISTOGRAMAS Y MEDICIÓN DE LA CAPACIDAD DE UN PROCESO....................... 212 15.2.1 Interpretación de histogramas........................................................................................................ 212 15.2.2 Capacidad de un proceso ............................................................................................................... 213 15.3 GRÁFICOS DE CONTROL .................................................................................................................... 218 15.3.1 Definiciones.................................................................................................................................... 218 15.3.2 Tipos de gráficos de control ........................................................................................................... 219 15.3.3 Interpretación de los gráficos de control. ...................................................................................... 219 15.3.4 Elaboración de los gráficos de control........................................................................................... 220 15.4 MUESTREO DE ACEPTACIÓN.............................................................................................................. 232 15.4.1 Análisis económico de la inspección. ............................................................................................. 233 15.4.2 Riesgos del muestreo. ..................................................................................................................... 234

Índice v 15.4.3 Plan de muestreo ............................................................................................................................ 235 15.4.4 Curva característica de operación (Curva CO) ............................................................................. 235 PROBLEMAS PROPUESTOS. .............................................................................................................................. 238 CAPÍTULO 16. TEORÍA DE DECISIONES................................................................................................. 243

16.1 INTRODUCCIÓN................................................................................................................................. 243 16.2 DEFINICIONES ................................................................................................................................... 243 16.2.1 Decisor ........................................................................................................................................... 243 16.2.2 Alternativas de decisión.................................................................................................................. 243 16.3 ESTADOS DE LA NATURALEZA .......................................................................................................... 243 16.3.1 Ambiente de certeza........................................................................................................................ 243 16.3.2 Ambiente de riesgo ......................................................................................................................... 243 16.3.3 Ambiente de incertidumbre............................................................................................................. 243 16.3.4 Ambiente de competencia ............................................................................................................... 244 16.4 CONSECUENCIAS............................................................................................................................... 244 16.5 CRITERIOS DE DECISIÓN ................................................................................................................... 244 16.5.1 Criterio Maximin ............................................................................................................................ 244 16.5.2 Criterio Maximax ........................................................................................................................... 245 16.5.3 Criterio realista .............................................................................................................................. 245 16.5.4 Criterio minimax del costo de oportunidad.................................................................................... 245 16.5.5 Criterio del valor esperado (Bayes) ............................................................................................... 245 16.5.6 Criterio del costo de oportunidad esperado ................................................................................... 246 16.5.7 Criterio de máxima verosimilitud................................................................................................... 246 16.6 ÁRBOLES DE DECISIÓN ...................................................................................................................... 246 PROBLEMAS PROPUESTOS ............................................................................................................................... 249 APÉNDICE........................................................................................................................................................ 252

TABLA DE PROBABILIDADES BINOMIALES ACUMULATIVAS ............................................................................. 253 TABLA DE PROBABILIDADES ACUMULATIVAS DE POISSON .............................................................................. 258 TABLA DE ÁREAS BAJO LA CURVA NORMAL ESTANDARIZADA......................................................................... 264 TABLA DE ORDENADAS DE LA CURVA NORMAL ESTANDARIZADA ................................................................... 265 TABLA DE VALORES DE T DE STUDENT............................................................................................................ 266 TABLA DE VALORES DE JI-CUADRADO ............................................................................................................. 267 TABLA DE VALORES DE F (P = 0,05)................................................................................................................ 268 TABLA DE VALORES DE F (P = 0,01)................................................................................................................ 269 TABLA DE FACTORES PARA EL CÁLCULO DE LÍMITES DE CONTROL .................................................................. 270 TABLA DE PROBABILIDADES DE ACEPTACIÓN (PA).......................................................................................... 271

Prólogo En las últimas décadas ha cobrado especial importancia el análisis estadístico de datos para mejorar la calidad de todo tipo de procesos, y para mejorar finalmente el nivel de satisfacción de los clientes, ya sea que éstos adquieran un determinado producto o reciban un servicio. Grandes empresas transnacionales están implementando sistemas de gestión de la calidad, que presentan como principales argumentos las herramientas estadísticas. Quienes necesiten hacer análisis de datos deben conocer un mínimo de herramientas estadísticas básicas para abordar con éxito un problema real. Más importante que saber usar dichas herramientas, es saber cuáles son las apropiadas para cada situación. En este libro se pone especial énfasis en los conceptos, con el propósito de capacitar al lector para que sepa elegir con criterio las herramientas estadísticas que le resuelvan los problemas que aborde en su vida profesional. El rápido desarrollo que están alcanzando las computadoras personales ha ocasionado que en las últimas décadas hayan aparecido en el mercado mundial una gran cantidad de softwares estadísticos. Sin embargo, éstos no serán nada útiles si los usuarios no tienen los conocimientos mínimos de Estadística. En casi todos los capítulos de este libro se explica, con ejemplos, el uso de las herramientas estadísticas de Microsoft Excel para análisis de datos, casi desconocidas por la gran mayoría de usuarios de Excel. Se explica además cómo emplear las principales funciones estadísticas de este software. La gran ventaja de Excel sobre los softwares de Estadística como Statgraphics, Statistics, Minitab, SPSS, etc, es evidente: Excel está prácticamente al alcance de todos y requiere muy poca capacitación para su empleo. A esto se suma la gran versatilidad que se puede lograr siendo un buen usuario de Excel. Aunque éste es un libro de Estadística básica, que puede ser tomado como texto para carreras profesionales de Ingeniería, Administración de Empresas y Economía, incluye al final algunos capítulos de Estadística Aplicada, con algunas herramientas básicas para el mejoramiento de la calidad en procesos de diversa índole. Quiero agradecer a Susana Vegas y a Eduardo Sánchez, por sus comentarios constructivos durante el desarrollo de este libro, y a Don Rafael Estartús, por revisarlo tan cuidadosamente. El buen ambiente de trabajo que comparto con mis amigos del Área de Ingeniería Industrial y el Área de Sistemas, ha contribuido a que haya podido escribir este libro. Éstos últimos han conseguido que sea un buen usuario de las computadoras personales y especialmente de Excel, tan importantes en el análisis estadístico. Finalmente agradezco a mis padres, Zoila y Augusto, a mi esposa, Careen, y a mi hijo, César, por su constante apoyo y por el tiempo que me cedieron para que pudiera escribir este libro. Se lo dedico a ellos.

César Angulo Bustíos. Agosto de 2005.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF