Análisis Estadístico

July 27, 2017 | Author: Javier Hernando Ochoa Arteaga | Category: Histogram, Statistical Dispersion, Correlation And Dependence, Statistics, Linear Regression
Share Embed Donate


Short Description

Download Análisis Estadístico...

Description

Escuela de Ingeniería Industrial y Estadística

Introducción Al

Análisis Exploratorio de Datos

Roberto Behar Gutiérrez.

Introducción al Análisis Exploratorio de datos

2

R. Behar

Introducción al Análisis Exploratorio de Datos Por

Roberto Behar Gutiérrez

Universidad del Valle

3

Introducción al Análisis Exploratorio de datos

Titulo: Introducción al Análisis Exploratorio de Datos © Roberto Behar Gutiérrez, 2008 Email: [email protected]

[email protected]

Versión 2.0 , Cali, Colombia, 2009

Edición Intrauniversitaria, Universidad del Valle

4

R. Behar

Prologo El Análisis Exploratorio de Datos, (AED) es un enfoque, una actitud frente a los datos, apoyado en un conjunto de herramientas gráficas y síntesis de los datos. El profesor John Tukey acuño este nombre, Exploratory Data Analysis en la década de los setenta, cuando publicó su famoso libro que lleva ese nombre, a través de la editorial Addison-Wesley. Análisis Exploratorio en contraposición con el Análisis Confirmatorio. En este último, se supone que previo a la toma de los datos, están planteadas unas hipótesis que pretenden ser confrontadas con la observación de la naturaleza, a través de diseños de experimentos o de estudios observacionales meticulosamente planeados para obtener datos que permitan contrastar las hipótesis preestablecidas. Las ideas de Tukey, en este enfoque, restan importancia a las hipótesis enunciadas a priori. Tukey dice: “ Hay que dejar que los datos hablen”, en este sentido el Análisis Exploratorio de Datos puede convertirse en una mina generadora de hipótesis plausibles. El libro de Tukey mencionado anteriormente, surge en una época en la que la computación estaba desarrollándose, no habían grandes desarrollos de Software. Sin embargo hoy en día, todos los paquetes de software estadístico, incluyen sus ahora conocidos “diagramas de caja y alambres”, los diagramas de tallos y hojas, los diagramas de puntos, entre otros. La mayoría de las ideas planteadas por Tukey en su libro, están por ser difundidas y usadas. Esta obra, se ha llamado “Introducción al Análisis Exploratorio de Datos”, pues trata solo unas pocas herramientas muy útiles, entre las cientos de ideas plantadas por Tukey. Un par de discípulos de Tukey, Valleman y Hoaglin, escribieron en 1981 un libro que llamaron “The ABC's of EDA: Applications, Basics, and Computing of Exploratory”, muy seguramente con los mismos argumentos. 5

Introducción al Análisis Exploratorio de datos Mi colega y amigo Jorge Martínez Collantes, profesor de la Universidad Nacional de Colombia, uno de los primeros doctores en estadística en el país, también discípulo del profesor

Tukey fue el primero en difundir las ideas sobre Análisis Exploratorio en

Colombia. En este libro, se desarrollan las ideas básicas del Análisis Exploratorio de Datos, a través de situaciones problema que pretenden poner en contexto las herramientas gráficas y algunos indicadores estadísticos. Este material ha sido usado por varios cientos de estudiantes de pregrado y de posgrado. Se ha usado en el curso de Análisis de Datos de la Especialización en Estadística Aplicada y en el programa de Posgrado en Ingeniería Industrial. Esta que he llamado versión 2.0, fue mejorada en su estilo, con respecto a la versión anterior, gracias al apoyo de Nancy Jelen Valencia, estudiante de la maestría de ingeniería Industrial quien revisó la versión 1.0. Creo que todo producto es mejorable y en particular este libro. El proceso de mejora es dinámico y es justamente de la observación del proceso de enseñanza-aprendizaje, el escenario más idóneo para

detectar posibles oportunidades de hacerlo mejor, por

sugerencia de colegas y estudiantes que lo usen. El autor Santiago de Cali, Julio 13 de 2009.

6

R. Behar

El ABC del Análisis Exploratorio de Datos. Introducción. En el capítulo anterior, se ha hecho énfasis en el aporte de la estadística en la búsqueda del conocimiento, proporcionando un marco y herramientas para detectar el mensaje, la información que los datos contienen, pero que se encuentra mezclada con un ruido, que se hace homólogo a una variación aleatoria. La estadística y el pensamiento estadístico, intentan descubrir patrones de comportamiento en lo datos, en un ambiente de variabilidad e incertidumbre. En el capítulo 1, se presentó un modelo de pensamiento estadístico propuesto por Wild y Pfunnkuch (1999), que nos hace conscientes de la complejidad del proceso de pensamiento, de una jerarquía tan alta, que trasciende el clásico uso de fórmulas y algoritmos estadísticos. Queda muy claro, que al enfrentar una situación problema, es necesario recorrer un camino de reflexión, de comprensión del contexto, de valoración de la naturaleza del problema, de conocimiento de las consecuencias del mismo, de precisión en la definición operativa de conceptos y características, de sus procesos medición, de claridad en el objetivo que se propone. Todo esto, es necesario para el proceso de transnumeración, para buscar exprimir la información 7

Introducción al Análisis Exploratorio de datos contenida en los datos. En este sentido es muy útil, el recurso gráfico, la medición de algunos rasgos de los datos, que nos ayudan a establecer diferencias, a conformar grupos a sacar el diamante en bruto del fango. A esta fase se le conoce frecuentemente como análisis exploratorio de datos. Este nombre y muchas de las herramientas gráficas asociadas con él, son aportes del famoso estadístico John Tukey. Se ilustran a continuación algunas de estas herramientas exploratorias, a través de algunos casos. No siempre se requiere aplicar todas estas herramientas. Al igual que el cirujano, o el mecánico, cada instrumento surge de una necesidad y un propósito. Es natural, que para un mismo propósito estén disponibles varios instrumentos y será el criterio particular de quien decide, usar el que considere más conveniente. En los casos que se presentan algunas veces se muestra el uso de dos o más instrumentos para lograr el mismo propósito, con la intención de ilustrar su uso. Ejemplo. Caso de la fabricación de Chocolates La fábrica de chocolate, tiene indicios que el peso de las barras que produce, presenta una variabilidad más alta que la deseada, no obstante que el peso nominal es de 30 gramos. Se desea estudiar esta situación e identificar algunas acciones que permitan generar una mejora en cuanto a la heterogeneidad. ¿Qué tan grave es la situación. Dado que la variabilidad es inevitable, qué quiere decir una variabilidad más alta que la deseada? ¿Cuál es la deseada? ¿Cuál es el peso de las barras de chocolate que se producen? La respuesta a esta última pregunta no es un solo número, porque existe variabilidad, porque se sabe que es inevitable que todas las barras de chocolate salgan con peso diferente.

8

R. Behar Una muestra aleatoria de barras de chocolate es obtenida, los pesos registrados aparecen a continuación: 30,44 30,02 29,67

29,96 29,76 29,67

30,14 30,3 29,95

29,96 30,01 30,05

29,83 30,2 30,15

30,47 30,1 30,22

30,26 30,1 30,07

29,77 30,35 30,06

30,13 30,07 29,69

29,91 29,85 29,67

No obstante que son solo 30 datos, obtener alguna conclusión solo mirando los datos anteriores es difícil. Para tener una primera mirada de la situación podemos recurrir al más sencillo de los gráficos un diagrama de puntos. (dot plot).

Diagrama de puntos.

Figura 1. Diagrama de puntos para el peso de barras de chocolate en una muestra aleatoria de 30 unidades.

El diagrama de puntos consiste en ir colocando los valores de la muestra sobre un eje metrizado, de tal manera que si dos valores coinciden o están muy cercanos se coloca un punto arriba del otro. Es un gráfico muy sencillo, que permite ver de un solo golpe de vista todos los datos, su ubicación relativa, las zonas donde están más concentrados y si aparecen algunas posibles anomalías (puntos atípicos). Este gráfico es muy útil, sobre todo cuando la muestra no es demasiado grande. En tal caso, es una mejor herramienta gráfica, el histograma que presentaremos mas adelante. 9

Introducción al Análisis Exploratorio de datos Se detecta que los datos varían entre los valores extremos de 29.67 gramos (mínimo) y 30,47 gramos (máximo). A la diferencia se le denomina rango. Rango = Máximo-Mínimo=30,47 gr - 29,67 gr = 0,8 gr Podemos responder ahora la pregunta? ¿Existe demasiada variabilidad? Sabemos que la diferencia entre la barra más pesada y la más liviana es de 0,8 gramos. ¿Es grande este valor? Para intentar responder, como clientes de los chocolates, hacemos conciencia que si en el mercado nos dieran una barra de chocolate de 29, 7 gramos, cuando en el empaque dice 30 gramos, muy seguramente no lo notaríamos, de la misma manera si la barra pesara 30,5 gramos, tampoco nos enteraríamos del exceso. La reflexión anterior, nos haría pensar, en calidad de consumidores, que la variabilidad revelada en la muestra no es exagerada. Sin embargo, desde el punto de vista del fabricante otro podría ser el panorama, pues por un lado, para la industria de alimentos y los procesos de empacado, existe la legislación que toma en consideración la variabilidad, pero que define normas muy precisas para su control. En esta situación la pregunta podría convertirse en: ¿estamos cumpliendo con las normas legales? Por otro lado, dependiendo de la capacidad de los procesos de la fábrica y de las políticas de la empresa frente a la competitividad, la propia empresa podría tener normas internas de calidad, mucho más exigentes que las normas legales. En este casos la pregunta sería: ¿estamos cumpliendo con las normas y políticas de la empresa? En ambos casos, para emitir un juicio, requeriríamos de las especificaciones para el producto.

10

R. Behar Imaginemos que la empresa por todas las consideraciones anteriores, ha definido el siguiente límite de especificación: una barra de chocolate se considera conforme si su peso se encuentra entre 29,7 gramos y 30,3 gramos. ¿Qué nos dice la muestra frente a estas especificaciones? Calculemos pues, con este criterio, qué porcentaje de las barras de chocolate de la muestra no cumplen con las especificaciones. La respuesta puede deducirse a partir del siguiente diagrama de puntos en el que se han marcado los límites de especificación para las barras de chocolate.

Figura 2. Valoración de la variabilidad al confrontar la muestra con los límites de especificación del producto.

Observemos que de las 30 barras de chocolate hay 5 que no cumplen con las especificaciones definidas por la fábrica, lo cual representa aproximadamente es un 17%, lo cual denota una situación delicada.

11

Introducción al Análisis Exploratorio de datos Esta exploración, nos ha permitido corroborar la sensatez de la presunción que ha dado origen a estas pesquisas. Antes de seguir adelante, conviene plantear una reflexión, a la cual daremos curso en el último capítulo de este libro. ¿Si tomáramos de nuevo una muestra aleatoria de 30 barras, obtendríamos exactamente los mismos resultados? El equipo humano que está abordando este problema se reúne con el propósito de especular sobre las posibles causas que pueden estar dando origen a este problema de variabilidad. Después de múltiples consideraciones, creen que: • Una posible causa es la variabilidad de la viscosa colada de chocolate. Siendo los moldes de volumen constante, al variar la densidad la colada, se producen barras con diferente peso. • La variabilidad de la densidad puede ser debida a una falta de control en la temperatura de cocción. Para contrastar estas hipótesis se decide tomar nuevos datos, esta vez midiendo simultáneamente la temperatura de cocción y la densidad de la colada. En una muestra aleatoria de 50 datos se obtiene lo siguiente valores: Fabricación barras de chocolate Temperatura Densidad Temperatura Densidad 102.1 1.55 104.5 1.49 106.7 1.45 103.3 1.54 97.3 1.62 107.7 1.46 100.6 1.59 94.7 1.70 94.3 1.67 95.9 1.66

12

R. Behar Fabricación barras de chocolate Temperatura Densidad Temperatura Densidad 101.1 1.56 97.8 1.64 94.7 1.72 97.3 1.66 104.1 1.52 99.7 1.60 98.7 1.63 100.6 1.59 104.4 1.51 98.0 1.63 98.9 1.63 108.7 1.43 102.3 1.56 108.3 1.43 91.1 1.79 96.2 1.67 100.3 1.57 100.8 1.60 105.3 1.51 100.2 1.59 99.6 1.65 98.6 1.64 100.0 1.59 97.8 1.63 104.1 1.51 104.5 1.50 102.6 1.56 100.2 1.57 100.6 1.59 97.2 1.65 92.1 1.74 100.6 1.59 94.9 1.69 101.6 1.58 96.1 1.67 103.4 1.56 107.7 1.42 104.2 1.55 102.3 1.55 102.3 1.53 Con base en estos datos, ¿hay evidencia de excesiva variabilidad en los valores de la densidad? De nuevo requerimos referentes para emitir un juicio sobre la magnitud de la variabilidad de la densidad. Para ello se procedió a la siguiente manera: conociendo el volumen de los moldes, se hizo la pregunta: ¿cuál debe ser la densidad de la colada para que una barra de chocolate tenga un peso igual al límite inferior de especificación, es decir 29,7 gramos? Análogamente para 13

Introducción al Análisis Exploratorio de datos límite superior 30,3 gramos? Al responder esta pregunta surgieron de manera natural los límites de especificación para la densidad: •

Limite inferior:



Límite Superior: 1.68 gramos/c.c



Valor nominal:

1.52 gramos/c.c

1.60 gramos/c.c

Esto significa que cuando la densidad es 1,60 gramos/CC, el peso de la barra de chocolate coincide con el Valor nominal 30 gramos. Cuando la densidad alcanza el Valor 1,52 gramos/CC, el peso de la barra de chocolate coincide con el límite inferior 29,7 gramos y cuando la densidad es 1,68 gramos/CC el peso de la barra de chocolate queda en 30,3 gramos. Con base en estos nuevos límites de especificación para la densidad juzguemos la nueva muestra de la 50 barra de chocolate. Como puede apreciarse en el diagrama de puntos de la Figura 3, 11 de los 50 valores no cumplen con las especificaciones, lo cual representa el 22%, es decir casi una de cada 4 resultaron “no conformes”, lo cual es una evidencia que no contradice la hipótesis que se había planteado. El problema es grave y la variabilidad en la densidad es un factor importante. Puede observarse sin embargo que el valor nominal 1,60 gramos/CC está ubicado en el centro de los datos, lo cual habla bien del centramiento del proceso. En otras palabras, se están produciendo barras de chocolate que en promedio tienen 30 gramos, pero la variabilidad supera lo deseable.

14

R. Behar Este es una buena ilustración de lo peligroso que podría ser controlar un proceso y en general tomar decisiones solo con el promedio. La dupla centramiento y variabilidad debe ser siempre inseparable.

Figura 3. Confrontación de los valores de la muestra de 50 valores de la densidad contra sus límites de especificación

Queda pendiente una importante pesquisa, definida con la pregunta: ¿Está relacionada la variabilidad de la densidad con la variabilidad de la temperatura? Para dar respuesta esta pregunta, construiremos el gráfico conocido como diagrama de dispersión o diagrama bivariante, que consiste en dibujar los puntos de las parejas: (temperatura y densidad), en un plano cartesiano en cuyo eje X, colocaremos la temperatura y en el eje Y. la densidad. El diagrama de dispersión se muestra en la Figura 4.

15

Introducción al Análisis Exploratorio de datos

Diagrama Bivariante o Diagrama de Dispersión

Figura 4. Relación fuerte entre Densidad y Temperatura, evidenciada por un diagrama de dispersión.

En el gráfico de la Figura 4, se pone en evidencia una muy fuerte relación estadística entre la temperatura y la densidad. El diagrama de dispersión pone en evidencia que dicha relación es rectilínea y además inversa, es decir que la densidad decrece proporcionalmente con el aumento de la temperatura.

16

R. Behar Se ha trazado sobre la nube de puntos una recta que marca la tendencia y que se conoce como Recta de Regresión. Como puede observarse no siempre para una misma temperatura se genera exactamente la misma densidad, aunque los valores, en este caso están bastante cercanos. Por esa razón los valores de la densidad que se calculen con base en la recta, puede interpretarse como la densidad media que se produce para una temperatura específica, si se repitiera muchas veces la observación de la densidad a esa misma temperatura. Así por ejemplo, vemos que cuando la temperatura es 100°C, la densidad está alrededor de 1,60 gr/CC, que es el valor ideal de la densidad, con la cual se producen barras de chocolate de 30 gramos. Los valores críticos de la temperatura, como se señalan en el gráfico, corresponden a 96°C y a 104°C, con las cuales se logran las densidades críticas, de 1,52 gr/CC y de 1,68 gr/CC. Conclusión De este análisis exploratorio puede recomendarse controlar la temperatura del proceso de tal manera que se mantenga entre 96°C y 104°C, y preferiblemente muy cerca de 100°C.

Recta de Regresión En el gráfico de la Figura 4, se hace explícita la ecuación de la recta de Regresión lineal, que pasa siempre por el centro de gravedad de los puntos y logra hacer mínima la suma de los cuadrados de las desviaciones verticales de los datos a la recta. Valiéndonos de dicha expresión, podríamos estimar la densidad media que se

17

Introducción al Análisis Exploratorio de datos obtendría para cualquier temperatura dentro del rango estudiado. Así por ejemplo para una temperatura T= 98°C, se obtendría una densidad media de: Densidad media = 3,548 -0,01952 (98) = 1,63 gr/CC

Lo cual significa que si se controla la temperatura a 98 ° C, se espera que la media de la densidad de la colada se encuentre alrededor de 1,63 gr/CC. Como puede apreciarse disponer de una recta de Regresión es bastante útil para hacer predicciones en el rango observado. En el gráfico también se aprecia un valor asociado con algo llamado coeficiente de correlación lineal. Dicho valor es -0,98. ¿Cuál es su significado?

Coeficiente de Correlación Lineal. Este coeficiente, es muy usado desde hace casi un siglo, su valor siempre se encuentra en el rango entre - 1 y 1. Su significado está asociado con el grado en que la nube de puntos se acomoda en un espacio geométrico rectilíneo. Así por ejemplo, el coeficiente de correlación lineal toma los valores extremos – 1 o +1, cuando la nube de puntos se deja atrapar en forma perfecta por una recta, es decir todos los puntos del diagrama de dispersión cae sobre la recta. A medida que la nube de puntos se hace más dispersa alrededor de alguna recta, este coeficiente se acerca al valor 0. Veamos algunos casos, para hacernos una idea más precisa. Cuando la nube de puntos se ajusta alrededor de una recta con pendiente positiva, el coeficiente de correlación lineal tendrá signo positivo, en caso contrario, tendrá signo negativo, como se ilustra en laFigura 5.

18

R. Behar Cuando una nube de puntos es amorfa, como una bola o con una configuración alrededor de una recta horizontal, el correlación lineal muy seguramente estará próximo a cero. Veamos algunas situaciones:

Figura 5. Diagramas de dispersión y sus coeficientes de correlación lineal.

¿Cómo se calcula el coeficiente de correlación lineal? Se tienen n unidades de observación en la muestra aleatoria y cada una de ellas se miden dos características X e Y, como en el ejemplo la temperatura y la densidad.

19

Introducción al Análisis Exploratorio de datos Individuo i → ( X i , Yi ) n

r=

∑( X i =1

⎛ ⎜⎜ ⎝

n

∑(X i =1

i

− X )(Yi − Y

⎞ 2 ⎛ − X ) ⎟⎟ ⎜ i ⎠⎝

)

∑ (Y − Y ) i

2

⎞ ⎟ ⎠

Hoy en día, hasta las calculadoras más baratas lo incluyen. Observe alguna tecla que tenga la letra r. Comentarios. Una pobre relación entre dos variables, puede darse por mucha razones como las siguientes: a) Cuando el rango de variación de una de ellas no es suficientemente amplio como para observar cambios en la otra. Por ejemplo edad y estatura. Si en la muestra el rango de edades está entre 11 y 12 años, se percibirá un diagrama de dispersión amorfo y por lo tanto un pobre coeficiente de correlación lineal. Sin embargo si la muestra considera un rango de edades entre 6 y 12 años, la forma del diagrama de dispersión será muy distinta y estamos haciendo referencia a las mismas variables. b) Otra razón puede ser la no consideración de otras variables de interés en la explicación de la variación. En el mismo ejemplo anterior, de la edad y la estatura, si además de un rango amplio de edades, consideramos el género y hacemos diagramas de dispersión separados para hombres y mujeres, seguramente mejorará la asociación. c) Otra razón puede ser que efectivamente las dos variables no está asociadas, como podría ser la estatura de un adulto y sus ingresos mensuales.

20

R. Behar Ejemplo. El caso de Moto Pizza1. Antecedentes. Motopizza es un negocio de pizzas a domicilio que fue lanzado en octubre de 2001. La estrategia de negocios se basaba en tener tiempos de entrega menor que sus competidores (25 minutos), si se excedía este plazo se hacía un descuento a favor del cliente de 25%. Sólo se atiende a clientes de una zona cercana en la cual se concentra la publicidad local. La propuesta fue bien recibida por el público y la red se extendió rápidamente. A finales de 2003 ya contaba con 14 establecimientos en tres ciudades. Los establecimientos pertenecían a Motopizza siendo socios los encargados que pasaban por un proceso de formación. Las instalaciones y los procesos eran comunes en los 14 establecimientos. El negocio marchaba viento en popa hasta que finales de 2003 comenzaron a incrementarse en forma alarmante las quejas de los clientes por retraso en la entrega de los pedidos, con el consiguiente impacto sobre la economía del negocio, por su política de descuento por retraso.

1

Este caso está basado en un caso del mismo nombre que usan los colegas de la Universidad Politécnica de

Cataluña, en los cursos de capacitación “Seis Sigma”.

21

Introducción al Análisis Exploratorio de datos La dirección decidió emprender un programa de búsqueda científica de las causas (seis sigma) involucrando los socios encargados. Uno de los primeros proyectos piloto tenía como objetivo reducir el porcentaje de entrega es con retraso. La información cuantificada disponible era muy escasa, ya que el rápido crecimiento había desbordado los sistemas y no existía cultura de gestión con base en datos. Tras una fuerte discusión en el comité de dirección se estimó que el porcentaje de entrega con retraso estaba entre un 10% y un 15% y que el nivel aceptable era máximo un 3%. Se cree que este nivel puede alcanzarse si los tiempos de entrega tienen magnitud de 20 ± 5 minutos. Se estima que las pérdidas económicas al año, ascienden a Col$ 500 millones. El 80% de este dinero podría recuperarse si se mejora en los tiempos de entrega. Con esta información de partida se puso en marcha un equipo de cinco encargados de establecimientos que se consideraban representativos liderados por un “Black Belt2” entrenado por la UPC. A continuación se presenta un mapa del proceso llamado normalmente SIPOC por su iniciales en Inglés: Suppliers, Inputs, Process, Outputs, Customers. Que podría traducirse respectivamente como Proveedores, Entradas al Proceso, Proceso, Salidas del Proceso Y Clientes. Veamos el SIPOC para el proceso de fabricación de Pizzas de Motopizza.

2

Un “Black Belt” es un funcionario con una muy fuerte capacitación en herramientas cuantitativas, especialmente en Estadística. Esta denominación es típica en los procesos de capacitación conocidos como “Seis Sigma”.

22

R. Behar

Mapa del proceso (SIPOC)

Figura 6. Mapa de Proceso SIPOC para Motopizza.

En ocasiones se comete un grave error y es suponer que ya se sabe lo que el cliente quiere. El Black Belt, que dirige el proyecto lo sabe muy bien. La voz del cliente es el insumo más importante. Por esta razón organiza dos “Focus Group” en dos ciudades diferentes. Las ideas se organizaron con base en un diagrama de afinidad llegando a un gran descubrimiento.

La voz del cliente. Se descubrió que 30 minutos es un tiempo de entrega aceptable para el cliente siempre y cuando la pizza llegue caliente. 23

Introducción al Análisis Exploratorio de datos Dado que esta información resultó de “Focus Group” se programó para más adelante una encuesta estratificando por ciudad y por establecimiento, con los siguientes propósitos: • Validar el descubrimiento del “Focus Group” • Averiguar cuestiones relacionadas con los tipos de Pizza. • Explorar la posibilidad de ofrecer productos complementarios.

Determinación de las Características Críticas para el Cliente (CCC). Las características críticas para el cliente deben ser expresadas de manera medible de tal forma que el impacto de algún programa o una estrategia pueda ser valorado. No se puede mejorar lo que no se puede medir.

Figura 7. Determinación de las Características Críticas para el Cliente (CCC) a parir de impulsores.

24

R. Behar La facturación anual conjunta de todos los establecimientos asciende a 13.000 millones y se estima que el 15% de las entregas se hacen con retraso, lo cual representa una perdida aproximada de 500 millones. El local B2, del cual es encargado el hijo del dueño, tiene contabilizadas las perdidas por retrasos “sin trampas” y sus números alrededor de 3 millones mensuales, son bastante coherentes con las cifras estimadas. El procedimiento usados para la estimación global de las perdidas fue avalado por el director financiero de la empresa. Una síntesis de la situación se resume en el siguiente cuadro, en el cual se expresa la problemática en forma sintética, se caracterizan las métricas claves, para las cuales se intenta definir su punto de partida y además se establecen las metas que se quieren lograr con el proyecto y la ganancia que se tendrá si estas metas se cumplen. Descripción del Problema Retrasos en las entregas originando importantes pérdidas económicas valoradas en Col$ 500 millones y otros perjuicios relacionadas con la pérdida de clientes Objetivos Métrica Valor de partida Valor Objetivo 1. Retrasos % 10-15 3 2. Tiempo de Minutos ? 25-30 entrega 3. Temperatura °C ? 80°C Resultados Económicos Esperados Ahorros por aumento en la puntualidad de Col$ 500 millones.

Preguntas Claves a resolver. • En realidad, ¿Cuánto se retrasan las pizzas? • ¿A qué temperatura le están llegando las pizzas a los clientes? • ¿Ocurre lo mismo en todos los establecimientos? 25

Introducción al Análisis Exploratorio de datos • ¿Unos días de la semana son más críticos que otros? • ¿Hay más retrasos en algunas horas especiales del día? • ¿Se retrasan más los pedidos más caros? • ¿Se retrasan más unos motoristas que otros? Observe que las dos primeras preguntas hacen referencia a lo que hemos llamado variable de respuesta (Y) y están orientadas a definir de manera precisa nuestro punto de partida. ¿Cómo estamos ahora antes de emprender estrategia de mejoramiento? La respuesta a estas dos preguntas es indispensable, pues si no conocemos el punto de partida, no podemos valorar el impacto de nuestras acciones o programas. La restante preguntas están orientadas a detectar posibles causas, que nos permitan de manera racional priorizar nuestras acciones tendientes a neutralizar su efecto. Tener explícitas y bien planteadas un conjunto de preguntas relacionadas con nuestro propósito, es muy importante, pues a partir de las preguntas, surgirán las características que es necesario observar o medir para responderlas. Nos obligan a reflexionar acerca de los procedimientos idóneos para obtener datos válidos y nos hace prever algunas opciones de análisis, a partir de las cuales daremos respuesta a las preguntas. Surge de manera natural conocer el proceso que empieza con un evento desencadenante que es una llamada de un cliente y termina con la entrega del pedido. Conocer el proceso, nos permitirá detectar oportunidades de mejora.

26

R. Behar

Diagrama del proceso.

Figura 8. Diagrama de flujo del proceso en Motopizza.

El diagrama del flujo es una importante herramienta, que nos permitirá planear nuestra observación del proceso, identificación de actividades, detección de acciones redundantes y posiblemente otras que no produce ningún valor agregado. En el diagrama se han planteado tres etapas: recepción de llamadas, fabricación de la pizza, distribución y entrega de la misma. En la fase de distribución se observa que los clientes están clasificados por zona (A y B) y que se van agrupando los pedidos, para armar una ruta para hacer varias entregas. ¿Existen datos para responder las preguntas formuladas? 27

Introducción al Análisis Exploratorio de datos Las mediciones disponibles eran escasas, incompletas y además muy poco fiables. Para evitar problemas con la central, se disfrazaban muchas causas de retraso, razón por la cual la poca información disponible estaba distorsionada. Sólo el local B2 dispone de algunos datos relacionados con el monto de dinero perdido por retrasos, pues por motivación propia, al percatarse de la gravedad de la situación, puso en marcha un estudio. Durante un mes (Noviembre) el telefonista anotó la hora del pedido y los motoristas anotaron la hora de entrega. No estamos muy seguros de la fiabilidad del sistema de medida utilizado.

Validación del sistema de medida Dado que todo el proyecto y la valoración de cualquier estrategia de mejora dependen de un registro válido de las variables de respuesta o características críticas para el cliente (CCC), tiempo de entrega y temperatura de la pizza, en este caso, no es de poca monta garantizar que las mediciones de esta variables sean válidas, carentes de sesgos. Para lograr esto se convierte la hoja de pedido en una plantilla itinerante, y se construye una definición operativa del sistema de medida. Se coloca un reloj digital visible para todos, se dota a todos los motoristas de relojes digitales sincronizados pide termómetros para situar en una ranura establecida en la caja de la pizza, para la medición de la temperatura. Se explica a los implicados (telefonistas, cocineros, motoristas) la importancia de tomar buenos datos y los beneficios que se desprenden del proyecto.

28

R. Behar Como procedimiento para la validación de los datos, se ofrece un descuento en la próxima orden que realicen, a los clientes que llamen para informar no hora de recepción del pedido y su opinión sobre sí estaba caliente o no. Se confrontan los registros obtenidos con este procedimiento, con los datos registrados por los motoristas en la plantilla itinerante, revelando que el sistema de medida es bastante fiable.

Recolección de nuevos datos Durante un mes se recogieron datos, con el nuevo sistema de medida validado, al cual se le realizaron algunas mejoras. Los datos fueron registrados para cinco de los 14 establecimientos, que se consideraron bastante representativos. A continuación, se describen las características de los establecimientos observados.

Establecimiento Antigüedad

Volumen

Ubicación Tipo

M1

2 años

Mas de Col$ 1500 millones

Madrid

A

M6

4 meses

Col$ 600-1500 millones

Madrid

C

B2

2 años

Mas de Col$ 1500 millones

Barcelona

A

B3

1,5 años

Col$ 600-1500 millones

Barcelona

B

V1

3 meses

Menos de Col$ 600 millones Valencia

A

Se consideró más conveniente, recoger datos de todos los pedidos en lugar de hacer Muestreo. Se continuó validando el sistema de medida durante el proceso de recolección. Al registrar los datos en la hoja de pedido, se podía estratificar por: hora, tipo de pizza, zona de la ciudad, motorista. Se proporcionó un espacio para escribir “observaciones”. 29

Introducción al Análisis Exploratorio de datos

Responder Preguntas (datos existentes). Los datos recogidos, por el local B2, antes del estudio, nos permiten tener una primera respuesta sobre el impacto del día de la semana en el volumen de ventas. ¿Son todos los días iguales?

Figura 9. Serie de Tiempo para el número de entregas según día de la semana en el local B2 de Motopizza.

Del gráfico de serie de tiempo que muestra la Figura 9, se obtiene información muy importante. Se ve claro que hay gran diferencia entre los días laborables y los fines de semana. Se detecta un día atípico, pero se le encuentra explicación, ese día hubo un partido (clásico). Hace falta hacer un análisis especial para las horas del día. ¿Qué ocurre con los tiempos de entrega? ¿Cómo se comportan? 30

R. Behar Se dispone de 1354 observaciones del local B2, en este caso el diagrama de puntos no es práctico. En este caso conviene representar la distribución de los tiempos de entrega con un histograma.

Histograma para la distribución de los tiempos de entrega Cuando se dispone de una variable continua como el Tiempo, en lugar de reportar los valores individuales de las observaciones como lo hicimos en el diagrama de puntos, pueden construirse intervalos, para ir contando cuantas observaciones “caen” en cada uno de ellos, el resultado de éste conteo, representa lo que se conoce como frecuencia absoluta para un intervalo dado. Si se presenta como porcentaje del total de observaciones, nos referimos a la frecuencia relativa. Una manera de representar estos intervalos y sus frecuencias es a través del histograma que se construye colocando en el eje X, los intervalos definidos y construyendo sobre cada intervalo un rectángulo cuya área representa el porcentaje de datos que pertenecen a dicho intervalo. De esta manera el área de histograma es siempre ciento por ciento, que se distribuye en los distintos intervalos.

31

Introducción al Análisis Exploratorio de datos

Figura 10. Representación de la distribución de los tiempos de entrega por medio de un histograma.

Si con base en el histograma de la Figura 10, quisiéramos conocer que porcentaje de de los tiempos de entrega resultaron mayores que 25 minutos, bastaría con calcular el área del histograma que queda después de 25, suponiendo que toda la área es un 100%.

32

R. Behar En la siguiente figura se ilustra esta afirmación.

Figura 11. Interpretación del área en un histograma. Porcentaje de retrasos en la entrega.

33

Introducción al Análisis Exploratorio de datos Como puede apreciarse, el área sombreada representa aproximadamente un 16% del área total, lo cual significa que el porcentaje de tiempo de entrega superiores a 25 minutos tres aproximadamente un 16%. Este valor es preocupante, dada la política de hacer un descuento el cliente del 25% cuando se produce retraso en la entrega. En este caso Motopizza estaría dejando de recibir la cuarta parte de ese 16%, decir se está perdiendo el 4% de los ingresos. Un hecho que se destaca en el histograma es que la barra más alta se produce alrededor de 24 minutos, justo antes del valor crítico (25 minutos). Éste es un comportamiento raro, cuando los errores de medición varían de manera aleatoria, sobre todo cuando se tiene un volumen grande de datos, como el nuestro caso. Comportamiento como éste, merece la búsqueda de explicaciones. Aquí por ejemplo, se descubrió que los motoristas que entregaron a tiempo el pedido, pero olvidaron anotar al momento de la entrega el tiempo el minutos, deciden colocar en casi todas las ocasiones de olvido, el registro “24 minutos”. Es importante destacar que lo que da significado porcentual en un histograma es el área y no la lectura de los rectángulos.

Cuartiles Q1 ,Q2 ,Q3 de una distribución Podemos aprovechar la idea de histograma para empezar a definir algunos indicadores muy útiles al momento de describir el comportamiento de la distribución de frecuencias de alguna variable, éste es el caso de los llamados cuartiles de una distribución. Para encontrar los tres cuartiles Q1 ,Q2 ,Q3 de una muestra de datos, bastaría con ordenar los datos en forma no decreciente y descubrir tres números que dividan esa muestra ordenada y cuatro conjuntos de igual tamaño, de tal manera en cada uno de estos se encuentre el 25% de las observaciones.

34

R. Behar Si ligamos ésta idea con la idea de histograma, lo que requerimos es encontrar tres valores de tiempo de entrega, que dividan el área del histograma en cuatro partes iguales, cómo se muestra en la Figura 12. El gráfico de la Figura 12, enseña los cuartiles de la distribución de los tiempos de entrega. Ellos son Q1 =19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos. ¿Cuál es su significado?

Figura 12. Ilustración el significado de los cuartiles de una distribución

35

Introducción al Análisis Exploratorio de datos Estos cuartiles nos indican que el 25% de las entregas se realizan en 19 minutos o menos, que el 50% de las entregas se realizan en 22 minutos o menos y que el 25% de las entregas se realizan en tiempos que superan los 24 minutos. Esto nos proporciona una primera idea, bastante buena acerca el comportamiento de los tiempos de entrega. Un gráfico muy usado que involucra los tres cuartiles junto con el mínimo y el máximo de los datos, se conoce como diagrama de caja y alambres (Box Plot) y lo explicaremos enseguida.

Diagrama de Caja y Alambres. Antes hablamos del riesgo de tomar decisiones o hacer descripciones usando sólo los promedios. Una manera de salir al paso de esta tendencia que pretende resumir la complejidad de una muestra en un solo número, es asumir como costumbre, además de la media y de las medidas clásicas, reportar cinco indicadores que proporcionan complementariamente una muy buena idea de la distribución: los tres cuartiles y los valores extremos. Con estos cinco números, podemos construir el llamado diagrama de caja y alambres, que es una herramienta extraordinaria sobre todo al momento de comparar la distribución de una característica en varias subpoblaciones. La Figura 13 nos enseña cómo construir un diagrama de caja y alambres. Nuestro punto de partida, es el cálculo de los tres cuartiles, el nuestro caso estos son Q1=19 minutos,Q2 = 22 minutos ,Q3 = 24 minutos. Observe que la caja está delimitada por los cuartiles extremos, es decir, Q1 y Q3. En el interior de la caja aparece una línea divisoria que corresponde al segundo cuartil Q2.

36

R. Behar

Figura 13. Construcción de un diagrama de caja y alambres a partir de los tres cuartiles.

Hasta este momento tenemos construida a la caja, pero ¿hasta dónde van los alambres? Para responder esta pregunta y completar así la construcción de la caja, debemos marcar un par de cercos, que van a servir para definir cuáles datos deben considerarse atípicos o anómalos y cuales parecen provenir de la misma población (datos típicos).

37

Introducción al Análisis Exploratorio de datos En el gráfico se marca la longitud de la caja a la cual hemos llamado “RIC”, para abreviar la expresión “Rango Inter Cuartílico”, que no es otra cosa que la diferencia entre los cuartiles extremos. RIC= Q3 - Q1 = 24-19 =5 minutos. Los cercos se encuentran a una distancia de 1,5 veces el RIC, medida a partir de los cuartiles extremos. Veamos: Cerco Inferior = Q1 -1,5*RIC = 19-1,5*5= 11,5 minutos. Cerco Superior = Q3 +1,5*RIC = 24+1,5*5= 31,5 minutos. Esto significa que todo dato menor que 11,5 minutos o mayor que 31,5 minutos se considerará atípico y se marcarán con asterisco (*). Los alambres van desde los extremos de la caja hasta los datos menor y mayor que quedan atrapados entre los cercos. Más adelante, volveremos con los diagrama de caja para usarlos en la comparación de poblaciones. Hasta ahora se ha trabajo con todos los datos sin hacer la diferenciación por el tipo de día de la semana. Surge ahora la pregunta: ¿Hay diferencia en la distribución de los tiempos de entrega de los días laborables frente a los fines de semana? Esta pregunta puede ser respondida de varias maneras distintas. Alguien podría calcular para cada una de las dos subpoblaciones que se comparan, el tiempo promedio de entrega, y también algunas medidas que acompañen la media y que indiquen el grado de variabilidad, sin embargo, dichas medidas, aunque son muy importantes y los referiremos a ella más 38

R. Behar tarde, no nos dan información sobre la condición crítica de interés, es decir, el porcentaje de entregas por encima de los 25 minutos. ¿ Es distinto este porcentaje de retrasos los días laborales y los días de fin de semana? Esto podría responderse contando para cada conjunto de días, en forma directa, el número de veces que resultó por encima de 25 y convertirlo en porcentaje. Pero también lo podemos apreciar comparando las respectivas áreas en los dos histogramas como se muestra a continuación. Observando la Figura 14 y considerando las variaciones aleatorias, podríamos decir, que tanto en días laborales como en días de fin de semana el porcentaje de retrasos está alrededor del 15%. De la comparación se deduce que el promedio en bastante similar, sin embargo los fines de semana varían mucho más que lo que varían los días laborales. De nuevo se observa que el rectángulo alrededor de 24 minutos es sistemáticamente más alto en ambos histogramas corroborando la explicación dada anteriormente

39

Introducción al Análisis Exploratorio de datos

Figura 14. Comparaciones de la distribución de los tiempos de entrega según sea días laborables o fines de semana.

.Para que la comparación de histogramas sea realmente útil, es necesario asegurarse que los histogramas que se comparan tenga la misma escala horizontal, pues de lo contrario podríamos incurrir el error de apreciación, sobre todo en la dispersión como se muestra en la Figura 15 que pretende ilustrar la misma situación descrita en la Figura 14.

40

R. Behar

Figura 15. Percepción equivocada de la dispersión cuando no se unifica la escala horizontal.

Ahora se percibe menos diferencia en las dispersiones. 41

Introducción al Análisis Exploratorio de datos Debemos recordar que hasta ahora hemos estado trabajando con datos existentes, producto de la iniciativa del encargado del local B2. Más adelante confrontaremos estos resultados con los obtenidos con los nuevos datos. Para practicar la interpretación de los diagrama de caja, hagamos la comparación anterior pero usando éste tipo de diagramas.

Figura 16. Comparación de distribuciones usando diagrama de caja.

Observe la utilidad de los diagrama de caja al momento de comparar, muy fácilmente se detecta que no hay diferencias el centramiento, sin embargo, de un solo golpe de vista se aprecia que los días laborales hay menor variación.

42

R. Behar

Respondiendo preguntas (datos Nuevos). Ahora que hemos tomado nuevos datos con el propósito específico de responder nuestras preguntas y que además hemos validado los sistemas de medida, estamos listos para realizar un análisis exploratorio. ¿Qué tan calientes llegan las pizzas a nuestros clientes?

n=610 observaciones Media= 82,3°C Desviación Estándar=5,0°C

Figura 17. Distribución de la temperatura de la Pizza al momento de la entrega.

43

Introducción al Análisis Exploratorio de datos 32% de las entregas no cumplen con las especificaciones de temperatura, lo cual es bastante preocupante. Observe lo importante que disponer de esta medición inicial, pues será el punto de partida para valorar el impacto de nuestras acciones de mejora. Si no hubiera una medida fiable de nuestra situación actual, ¿cómo podríamos saber si nuestros esfuerzos funcionan? Un par de valores que calcularemos siempre será la media y la desviación estándar, pues en la mayoría de los casos de medición, conociendo este par de valores, podemos calcular los porcentajes que necesitemos. Éste maravilloso privilegio, lo tenemos cuando nuestra variable puede modelarse razonablemente como una distribución normal. En este caso sólo tuvo una media de 82,4 °C con una desviación estándar de 5°C. Calculados con una muestra de 610 observaciones. Más adelante abordaremos más en detalle el significado y la utilidad de este par de indicadores, quizás los más importantes en estadística. Dedicaremos también un capítulo para sacar provecho de la distribución normal y sus propiedades. ¿Cuál es la distribución de los tiempos de entrega, a la luz de los nuevos datos? El panorama que muestra el histograma de la Figura 18, es bastante fiable, toda vez que se ha sido muy celoso en la validación del sistema de medida y además se dispuso de una muestra de cerca de 2000 datos, lo cual nos da la confianza acerca de la estabilidad en las cifras calculadas, en el sentido de que si repitiéramos el estudio en las mismas condiciones, se esperaría que las cifras variarán relativamente poco, llegando, con alta confianza, a las mismas conclusiones

44

R. Behar

Figura 18. Distribución de los tiempos de entrega con los nuevos datos.

. La forma que presenta el histograma que se ajusta bastante bien a la llamada distribución normal, es compatible con la idea de ausencia de sesgos sistemáticos. El porcentaje de retrasos, 12%, es un poco menor que el que habíamos estimado con los datos existentes. En ocasiones, la sola conciencia, de que se está midiendo con seriedad y se está controlando el estudio, empieza a producir resultados. Por supuesto es más creíble esta 45

Introducción al Análisis Exploratorio de datos estimación que la anterior, pues aquí no solo se dispone de un número mayor de datos, sino también de datos con mayor calidad. ¿En cuanto al tiempo de entrega todos los establecimientos tienen el mismo comportamiento? Intentemos responder esta pregunta usando diagrama de cajas y alambres para hacer la comparación pertinente.

Figura 19. Diagramas de caja para la comparación de la Distribución del tiempo de entrega según localidad

Es la Figura 19 hemos agregado un hay referencias en 25 minutos, que define el punto crítico para el tiempo entrega. Se aprecia que la localidades M1, B2 y B3 tienen tendencia a

46

R. Behar tardarse un poco más en la entrega que las demás localidades. Aunque a decir verdad sería muy conveniente disponer de herramientas para saber si hay evidencia de una verdadera diferencia, o si por el contrario, es razonable pensar que dichas diferencias pueden atribuirse al azar. En el último capítulo de este libro abordaremos esta problemática. Sin embargo puedo adelantarles que al investigar más en detalle en busca de posibles explicaciones, se descubrió que los que más tardaban eran los más antiguos, pues habían ido ampliando poco a poco su radio de operación y tenían un porcentaje de clientes lejanos, mucho mayor que las localidades nuevas. Dejemos registrados para estas localidades la correspondiente media y desviación estándar, que como ya dijimos serán valiosos indicadores para realizar la comparación después de haber implementado algunas estrategias para reducirlo. Tiempos de Entrega según Localidades (Nuevos datos) Localidad Media Desviación estándar Número de datos M1

21,7

4,0

370

M6

19,0

3,9

370

B2

20,9

3,8

331

B3

21,1

3,8

370

V1

19,3

3,9

385

M1

21,7

4,0

370

¿Cómo se comportan los tiempos asociados con el proceso de fabricación de la Pizza? El sentido que tiene el diagrama de proceso que elaboramos, es entre otro, detectar las actividades que se realizan en el proceso de fabricación.

47

Introducción al Análisis Exploratorio de datos En este caso, dichas actividades son de nuestro interés, en la medida en que nuestro propósito es la reducción del tiempo transcurrido desde que el cliente hace la llamada para colocar el pedido, hasta que recibe su orden. Si atendemos al diagrama, existen básicamente tres componentes que consumen tiempo: la recepción del pedido, la fabricación de la pizza y la distribución. Para esta última hemos dedicado la mayor parte de nuestro esfuerzo, pues las otras tienen menos impacto, dada la proporción de sus magnitudes y de sus variabilidades, razón por la cual destacamos como problema prioritario el tiempo de distribución. Esto no quiere decir que las etapas del proceso de fabricación y preparación de la distribución, no sean importantes. Por ejemplo sería de interés valorar la política que ha definido la empresa para realizar una ruta de distribución. Se espera a que hayan al menos tres pedidos que vayan para la misma zona, antes de asignar una ruta a un motorista. Midiendo estos tiempos, podría realizarse un proceso de simulación, de tal manera que podamos encontrar, por ejemplo, cuál es el número óptimo de pedidos de una zona, que deben quedar en espera, antes de despachar un motorista en una determinada ruta. ¿Qué tenemos hasta ahora? Corresponde ahora, hacer un balance de lo que hemos logrado hasta ahora. Una síntesis de cómo hemos respondido las preguntas originales, con el propósito de orientar estrategias para mejorar en de las variables críticas del cliente, satisfaciendo los niveles establecidos como límites de especificación. Hemos reportado siempre la media y la desviación estándar de las variables de interés, porque como ya dijimos, son dos de los indicadores más importantes al momento de reportar el comportamiento de una característica que varía. A ellas nos dedicaremos de

48

R. Behar manera particular en breve, para conocer sobre todo, como ellas pueden ayudarnos en los procesos de descripciones y de comparación de poblaciones. A continuación en la Figura 20 se presenta un cuadro con la síntesis de las respuestas a nuestras preguntas.

49

Introducción al Análisis Exploratorio de datos

Síntesis de las respuestas a las preguntas. 

Los hallazgos Los hallazgos que tenemos hasta ahora son los siguientes: Un problema crítico, que merece ser abordado con vistas a su mejoramiento es el tiempo de reparto Parecen existir diferencias en las localidades en cuanto al tiempo de reparto. Las localidades M6 y V1, son las más rápidas. De acuerdo con el estudio realizado al comparar la distribución de los tiempos de los motoristas puede concluirse que hay evidencia suficiente para pensar que hay diferencias importantes entre ellos. Los tiempos de entrega varían según sea día laboral o fin de semana. Un estudio el margen, mostró que no había evidencias de que la hora del día por el tamaño del pedido fueran causantes de retrasos. A los clientes les parece razonable un tiempo de entrega de 30 minutos siempre que la pizza llegue caliente. (Esto podría cambiar el límite de especificación)

El Diagrama del Proceso de Fabricación

Punto de partida Tiempo de entrega

Porcentaje de Retrasos= 12% Media = 20,4 minutos Desviación Estándar = 4,0 minutos

Temperatura en la entrega

% No conformes= 32%. Media= 82,3°C Desviación Estándar=5,0°C

Figura 20. Cuadro de síntesis sobre los hallazgos preliminares y el punto de partida

50

R. Behar

Generación de hipótesis sobre posibles factores (causas) que pueden afectar las características críticas. Entramos ahora en una importante etapa, que podríamos llamar etapa de análisis, en la cual nos interesa sobre todo detectar posibles asociaciones de algunos factores, preferiblemente sobre los que actuar, con las variables de respuesta de interés: tiempo entrega y temperatura. El grupo de estudio se ha reunido usando la metodología de “Brain Storming” (Lluvia de ideas), ha planteado por un lado una hipótesis para explicar la distribución de la temperatura de la pizza al momento de la entrega: La temperatura de la pizza está bastante relacionada con el tiempo de reparto Con respecto al tiempo de reparto, las reflexiones del equipo pueden plasmarse en el siguiente diagrama de causa y efecto. El diagrama de causa-efecto, que se muestra en la Figura 21 tendrá tantas ramas cómo se requiera, en este caso las posibles causas se agruparon en: fallas humanas, fallas mecánicas, métodos o procedimientos, y las relacionadas con el medio ambiente

51

Introducción al Análisis Exploratorio de datos

Diagrama de Causa y Efecto.

Figura 21. Diagrama de causa – efecto para el retraso en los tiempos de entrega

.

52

R. Behar Si el problema fuese muy complejo, cada una de esas causas que aparecen en cada rama, podrían convertirse en ramas. Así por ejemplo, en la rama de “maquinaria”, el ítem de “no arranca”, podría descomponerse en “falta de mantenimiento”, “equipo obsoleto”. Recordemos que en la indagación a los clientes, se descubrió que aceptarían de buen agrado un tiempo entrega de 30 minutos, siempre y cuando la pizza llegue caliente. Este solo hecho, es decir, modificar el límite de especificación para el tiempo entrega, ya cambia la situación. Si el descuento del 25% para los predios con retardo, se mantuviera pero cambiando el límite a 30 minutos, el porcentaje de retrasos bajaría inmediatamente a un valor sorprendente bajo, menos del 1%, lo cual, nos pondría dentro de la meta del proyecto. Este panorama, hace que nuestros esfuerzos se centren en mejorar la situación actual con respecto a la Temperatura, pues en la actualidad no se cumple con la especificación en el 32% de las entregas y si la hipótesis de relación de Tiempo y Temperatura fuere cierta, lo que significa es que poner el límite en 30 minutos en el tiempo de entrega, eventualmente podría agravar el problema de la temperatura. Urge contrastar la hipótesis: Hipótesis: La temperatura de la pizza está bastante relacionada con el tiempo de reparto Con los datos disponibles intentemos contrastar esta hipótesis. Para ello una herramienta muy útil es el diagrama de dispersión o diagrama bivariante, además del coeficiente de correlación lineal.

53

Introducción al Análisis Exploratorio de datos

Figura 22. Relación entre el tiempo de entrega y la temperatura

El diagrama de dispersión de la Figura 22, no contradice la hipótesis. El gráfico muestra asociación estadística entre el tiempo entrega y la temperatura de la pizza. El coeficiente de de correlación lineal, toma un valor de 0,81, que calculado con base en 100 datos, en bastante fiable. Este valor nos estaría indicando que aproximadamente el 66% (0,812) de la variabilidad la temperatura, es explicada por la variabilidad en los tiempos de entrega. Con la línea punteada en el gráfico, se muestra que cuando el tiempo entrega está alrededor de 22 minutos, la temperatura de la pizza es en promedio 80°C. En esta etapa de análisis, puede usarse

una batería de herramientas estadísticas más

potentes, como el análisis de regresión lineal, que se sale del alcance de este capítulo. Sin 54

R. Behar embargo a manera de información, puede ser conveniente saber que para poder usar el modelo lineal hallado y que se muestra la figura, es necesario validar algunos supuestos. Para ello corrientemente se usan herramientas gráficas, como las que aparecen en la Figura 23.

Figura 23. Diagnostico gráfico para el ajuste de un modelo de regresión lineal.

Con los indicadores asociados al modelo de regresión ajustado, podemos afirmar por ejemplo en nuestro caso que en las ocasiones en las cuales el tiempo de entrega es de 22 minutos, la temperatura promedia de entrega es de 81°C aproximadamente. Además, podemos afirmar que en esa misma situación el 95% de las veces la temperatura de la pizza estará entre 75°C y 87°C. Análogamente en las entregas que tardan 20 minutos, el 95% de las veces la temperatura de la pizza se haya entre 77°C y 89°C. 55

Introducción al Análisis Exploratorio de datos Esta información es realmente útil, pues permite no solo trabajar con las medias sino con intervalos de confianza para los parámetros o de predicción para las variables.

Una primera

Lo que resulta de este análisis es que si queremos que la pizza

conclusión

llegue caliente (al menos 80°C), debe reducirse el tiempo de entrega o mejorar el proceso de la conservación de la temperatura o una combinación de ambos

Otras Hipótesis A partir del diagrama causa efecto de la Figura 21, se plantearon la siguiente hipótesis: Hipótesis: existe diferencia en la distribución de los tiempos de entrega según motoristas. Para contrastar esta hipótesis, se construyeron diagrama de caja, para el tiempo entrega asociado con cada uno de los motoristas, poniéndose en evidencia la existencia de tal diferencia. Por otro lado se analizaron los registros, la parte de “Observaciones” y se detectó que los errores en la dirección y en la localización del piso, representan el cuatro por ciento de los retrasos. Un descubrimiento interesante lo constituye el hecho de que la diferencias entre motoristas, se debe principalmente a la diferencias en el conocimiento de la zona.

56

R. Behar Al describir en detalle el diagrama del proceso, surge la necesidad de valorar la política de cola antes del despacho, pues en la actualidad, se espera que haya tres pedidos para la misma zona, o que transcurran tres minutos, lo que ocurra primero.

Estrategias para Mejorar. Alguna de las opciones de mejora del proceso planteadas por los miembros del equipo son las siguientes: 1. Definir mecanismos para la verificación de la dirección y del piso 2. Capacitar a los motoristas. 3. Aumentar el número de motoristas. 4. No recibir pedidos de la zona B, que es la más lejana. 5. Diseñar métodos para la conservación de la Temperatura. (Aislar cajas en la moto y hacer uso de bolsas plásticas).

Pruebas Piloto y evaluación de riesgos Una vez se han generado estrategias de mejora, existen mecanismos para valorar su impacto y para medir los riesgos de su implementación, una opción muy recomendable son las llamadas pruebas piloto. Antes de invertir grandes cantidades de dinero, llevando la práctica alguna de las alternativas, conviene probarlas a pequeña escala. Esto permite entre otras cosas, descubrir algunas posibles limitaciones en su aplicación, así como también valorar su impacto en relación con su costo, posiblemente a través de un análisis de costo beneficio. Se detectan 57

Introducción al Análisis Exploratorio de datos con ensayo piloto, algunos efectos secundarios no deseables, que podrían ser difíciles de detectar a priori. De esta manera se realizaron pruebas piloto para las siguientes propuestas de mejoramiento:

Diseño de un nuevo Proceso para disminuir errores en la dirección.  Este nuevo proceso se ensayó en las localidades B2 y M1 y se tomaron como control para la comparación las localidades B3 y M6 que usaban el sistema tradicional. Se pasó de 1,7% de direcciones erradas a tan sólo 0,5%, resultando ésta diferencia estadísticamente significativa, al aplicar las pruebas estadísticas correspondientes para decidir si esta diferencia puede producirse por azar o si por el contrario es una diferencia estructural.

Redefinición de las zonas a atender.  Las zonas a servir se redefinieron, estudiando la distancia y los tiempos de entrega a partir de los registros observados. Esto implicará, entre otras cosas, no atender algunos clientes que antes se atendía. Para ello se realizará un estudio de costo beneficio.

Conservación de la temperatura  Se probaron distintos tipos de “bolsa térmica caliente” , con criterios técnicos y de costos se seleccionó una para ser probada en un ensayo piloto. Cada vez que había pedido para una misma zona, se hacía una rifa de manera totalmente aleatoria para decidir a cual pone bolsa y a cual no, esto para evitar sesgos por posible variables no controladas y evitar se convirtieran en factores de confusión.

58

R. Behar Los resultados se presentan a continuación:

Figura 24. Valoración del impacto de la “bolsa térmica caliente”.

La Figura 24 pone en evidencia de manera contundente, el impacto de la bolsa en el control de la temperatura, pues pasamos de una situación en la cual el 35,5% de las entregas no cumplían con la especificación, a tan sólo un, 3,7%. Estos resultados correspondientes a la media y a la desviación estándar, son bastante estables, toda vez que han sido calculados con una muestra suficientemente grande, como 59

Introducción al Análisis Exploratorio de datos para garantizar que la diferencias observadas no se presentan de chiripa. Las herramientas sobre este tema, las trataremos en el último capítulo.

Implantación de las mejoras. Una vez se han realizado los ensayos piloto, se han validado las opciones de mejoramiento que realmente funcionan, y se ha medido su impacto económico a través de análisis de costo beneficio, están listas para ser implantadas en la organización. Para ello, se estableció un calendario de actividades, con responsables específicos y con los recursos requeridos para implantarlas. Se realizó una muy fuerte capacitación sobre nuevo el proceso a los encargados de los 14 establecimientos y se compraron bolsas térmicas para todos los motoristas. Se hizo una intensa formación a los motoristas en el manejo de mapas, directorios y “callejeros”, con entrenamiento en la calle y con su correspondiente evaluación para garantizar la efectividad de su capacitación. Se estableció un espacio de reunión de los motoristas, para intercambiar experiencias e información sobre rutas.

Establecimiento de controles Cuando se implementará un nuevo sistema, es muy importante garantizar la nueva inercia, que impida que el sistema vuelva a su estado anterior, es necesario, que todos en la organización se familiaricen con los nuevos estándares y especificaciones, con los nuevos procedimientos, con los nuevos instrumentos de registro de datos. Hay que evitar que las mejoras sean transitorias, es necesario consolidar el nuevo sistema.

60

R. Behar Todo esto debe hacerse de manera organizada definiendo un sistema de monitoreo y control. Corresponde ahora la práctica, ya no ha escala piloto, si no con la empresa funcionando, validar las cifras, los indicadores, y los beneficios esperados. Elementos esenciales del sistema de control podrían ser entre otros los siguientes: • Estandarización. Documentación de los nuevos procesos. • Control de los procesos a los nuevos niveles. Dado que pueden haberse cambiado las especificaciones, es necesario monitorear los procesos para asegurarse que se cumple. Esto puede hacerse a través de los llamados gráficos de control. • Documentación del proyecto. Es la historia del proyecto, que incluyen dificultades y sus soluciones, que plantea de forma explícita las métricas utilizadas, sus definiciones, los instrumentos de medición, sus especificaciones, cálculos de rentabilidad financiera, supuestos, preguntas pendientes de resolver.

Control al nuevo nivel Se puso en marcha en forma paulatina un sistema de seguimiento de tiempo y temperatura en la misma tarjeta de pedido. Se estableció el cuadro de mando que se muestran en la ¡Error! No se encuentra el origen de la referencia., en el cual se presenta de una manera precisa, la forma como deben ser controladas cada una de las variables críticas, incluyendo responsables, frecuencia de control, método evaluación, tolerancias y propósito.

61

Introducción al Análisis Exploratorio de datos

X´s Formación Zona

Objetivo

Tolerancias

Método de Evaluación

Frecuenci a

Responsa ble de la medida

Conocimiento de la ciudad Utilizar la Zona asignada según carga de trabajo

>70% en el examen

Examen nueva incorporación

Todos los motoristas

Supervisor

Cero

Zona/Carga

Cada entrega

Supervisor

Anual

Central

Todas

Supervisor

Todas

Supervisor

Respuestas Y Tiempo de Entrega Temperatura

Satisfacción del cliente

>99,7%

30 minutos

Min 99%

80°C

>76°C

Encuesta de satisfacción Número de descuentos Ficha

Figura 25. Cuadro de mando para controlar los procesos

62

R. Behar

Valoración de Resultados No financieros Tiempo de Entrega de los Pedidos

Aunque la media no ha cambiado mucho, la variabilidad se ha reducido notablemente, haciendo que el límite de especificación ahora se cumpla holgadamente. Esta reducción de los tiempos grandes traerán mejoras también en la temperatura

Temperatura de la Pizza

Se ha mejorado no solo en la media, que ahora es mayor, sino también en la dispersión que ahora es menor, a tal punto que el 100% de los pedidos llegan con temperatura superior a los 78°C.

63

Introducción al Análisis Exploratorio de datos

Calculo de los cuartiles para datos crudos. Ilustraremos el proceso de cálculo de los cuartiles con un ejemplo. Ejemplo. Los siguientes datos corresponden a las edades de 14 personas seleccionadas al azar, entre cierta clase de empleados de la población objetivo de un estudio. 25, 38, 29, 42, 39, 54, 23, 33, 45, 45, 26, 34, 30, 31. Paso #1; Ordenar los datos de menor a mayor:

Observe que cuando los números indican “posición”, los colocamos entre paréntesis. Los cuartiles los descubrimos calculando la posición que ocupan; es conveniente empezar por el segundo cuartil Segundo cuartil Q2. (Mediana) Para calcular la posición que ocupa el segundo cuartil, promediamos las posiciones extremas: (14)+(1) / 2 = (7.5). Como no existe la posición 7.5, porque un dato queda en la 64

R. Behar posición 7ª o en la 8ª, entonces interpretaremos que queda en el medio de los datos que están de 7º y 8º , para evitar esta riña, hacemos el promedio de los dos datos que ocupan esas posiciones:

Q2 =

(33 + 34) = 33,5 años 2

Primer Cuartil3, Q1. El primer cuartil se obtiene considerando solo los datos que

quedan antes de la mediana. Para este grupo de datos se calcula la media .Se trata pues de encontrar la posición de la mitad de la mitad.

La posición que ocupara el primer cuartil será la mediana de este primer grupo de datos: que es el que ocupe la posición

3

Note que si el número de datos es impar, el segundo cuartil Q2, no se´ra necesariamente un dato de la

muestra. En este caso, para calcular la ubicación del primer cuartil Q1, se toman en cuenta los datos que quedaron antes del segundo cuartil, excluyendo el dato que resultó ser el segundo cuartil Q2. Análogamente para el tercer cuartil Q3.

65

Introducción al Análisis Exploratorio de datos (7) + (1) = (4) 2 La Cuarta posición la ocupa el dato 29. Este es el primer cuartil. Es decir que el primer cuartil, Q1 es el dato que ocupa la 4º posición, o sea que Q1 = 29 Años

Si aplicamos este mismo procedimiento a los datos mayores que la mediana, se obtiene el tercer cuartil El tercer cuartil Q3.

La posición que ocupará el tercer cuartil será la mediana de este segundo grupo de datos: Es decir, será el valor que ocupe la posición: (8) + (14) = (11) 2 La posición once (11) la ocupa el dato 42. Este es el tercer cuartil. Q3 = 42 Años

66

R. Behar Para la construcción de un diagrama de caja y alambres, se requiere de algunos cálculos adicionales, basados en los cuartiles ya encontrados: Rango Intercuartílico. (RIC) RIC = Q3-Q1 = 42-29= 13 Años Edad mínima = 23 Años Edad máxima = 54 Años Cerco interno inferior = Q1- 1.5(RIC) = 29-1.5(13) = 9.5 Cerco interno superior = Q3 + 1.5(RIC) = 42 + 1.5(13)= 61.5

Construya usted el diagrama de caja para este caso4 Otro ejemplo (Síntesis)

Se tiene una muestra aleatoria sobre cierta característica de la Población y se quiere hacer una descripción de la misma, usando los cuartiles y construyendo un diagrama de caja y alambres. Para ello, se ordena la muestra de menor a mayor, como se muestra enseguida.

4

Note que en este caso particular, todos los puntos quedaron dentro de los dos (2) cercos, lo cual no ocurre

siempre, por esta razón los puntos interiores más cercanos al cerco son el mínimo y el máximo de los datos, que definen la longitud de los “alambres” que van pegados a la caja.

67

Introducción al Análisis Exploratorio de datos Se empieza calculando el segundo cuartil y después los otros dos, siguiendo los pasos que se explican abajo.

Figura 26. Ilustración de los pasos para el cálculo de los cuartiles

En resumen puede decirse que los diagramas de cajas y alambres son útiles, entre otros para los siguientes propósitos: 1.

Para identificar la localización de los datos alrededor de la mediana.

68

R. Behar 2.

Para hacerse una muy buena idea de la dispersión de los datos, basándose en la

longitud de la caja (rango intercuartílico), pues siempre la caja, corresponde al 50% de los datos que están en la parte central. Además se aprecia el rango de los datos, el cual corresponde a la distancia entre las observaciones más extremas. 3.

El diagrama de cajas y alambres, nos permite hacernos una muy buena idea sobre el

grado de asimetría de una distribución, al comparar la proporción de la caja que queda a la izquierda de la mediana, con la que queda a la derecha, igualmente la longitud de los alambres respectivos. En el ejemplo de la figura, se observa que los datos estan más concentrados en entre Q1 y Q2 que entre Q2 y Q3, lo cual es una muestra de cierto grado de asimetría. 4.

El diagrama es útil para identificar “posibles puntos atípicos” ( fuera de los cercos

internos pero dentro de los externos) o “puntos atípicos” o outliers (fuera de los cercos externos). 5.

Una utilidad grande de los diagramas de caja y alambres, es comparar varias

poblaciones, a través de sus distribuciones. En este caso se construye un diagrama para cada distribución y se dibujan en una misma escala (sobre un mismo plano), lo cual permite muy fácilmente hacerse una idea de las semejanzas y las diferencias de los rasgos más importantes de las distribuciones. Como se ilustrara en un ejemplo más adelante.

69

Introducción al Análisis Exploratorio de datos

La Media y la Desviación Estándar. Su significado y su Utilidad Práctica. La media aritmética y la desviación estándar, son las medidas mas frecuentemente usadas en estadística y, en parte, la razón es que corresponden “por suerte” a los parámetros de la distribución mas famosa y mas útil de la estadística: La Distribución Normal. Por esta razón esperamos a estar justo antes del tratamiento de la distribución normal ( próximo capítulo) para hablar de estos indicadores.

Figura 27. La Media y la desviación Estándar. Una mirada intuitiva.

En Las dos situaciones que se ilustran en la Figura 27, la media tiene el mismo valor que pretende indicar dónde está el centro del conjunto de datos respectivo, sin embargo, en la situación B, la media parece representar mejor los datos que en la situación A. Dicho de otra manera: En la situación B, los datos son “más parecidos” a su media. Dicho de otra manera, la media es mejor representante de los datos en la situación B quede en la situación A.

70

R. Behar La desviación estándar es una medida de la “cercanía” de los datos a la media que los representa. En cierta forma la desviación estándar es una medida de la credibilidad de la media aritmética en su intención de representar los datos. La media y la desviación ser estándar son una pareja inseparable, la primera informa sobre la magnitud de los datos y la segunda da cuenta del crédito que hay que darle dicha magnitud, en términos de su similaridad con los datos que representa. Decimos que en la situación B, la desviación estándar de los datos es menor que en la situación A. Es claro que pueden existir varias maneras de definir la “cercanía” (o alejamiento) de los datos a un cierto valor central. La desviación estándar tiene una definición muy específica, que aunque a primera vista tiene una complejidad para su interpretación intuitiva, tiene como contraparte un rico tratamiento matemático, que ha permitido el desarrollo de abundante teoría en la llamada inferencia estadística.

Origen de la media y la desviación estándar. El criterio de “cercanía” que da origen a la definición de la media y de la desviación estándar es el siguiente: Utilizaremos los datos representados en la Figura 28, en la que también hemos representado un valor “a”, en principio arbitrario, con el propósito de descubrir donde conviene colocarlo para que sea un “buen representante” del conjunto de los datos. Empezaremos diciendo que “a” puede ser cualquier número real y después le vamos a exigir algunos requisitos asociados con nuestra idea de lo que significa “buen 71

Introducción al Análisis Exploratorio de datos representante”, lo cual restringirá el conjunto de valores que pueda asumir. Veamos un criterio para seleccionar el valor de “a”.

Figura 28. Muestra aleatoria de 10 valores, con sus distancias a un presunto valor central

De todos los posibles valores de “a”, vamos a escoger aquel que haga menor la media de los cuadrados de la distancia de los datos a dicho valor a. Es decir, el que minimiza la función: n

g (a) =

∑ ( xi − a )

2

i =1

n

En este caso el mejor valor de “a” puede deducirse derivando g(a) con respecto de a, igualando a cero y despejando su valor. Veamos:

72

R. Behar

∂ g (a) −2 = n ∂a n

∑ ( xi − a )

Por tanto

n

∑ ( xi − a )

= 0

i =1

= 0.

i =1

De donde se deduce que

∑ xi = n ⋅ a y despejando a tenemos: a =

∑x

i

n

=x

Si hacemos la segunda derivada vemos que siempre es positiva, lo cual confirma que el punto crítico es a = x (media aritmética) es el número que produce el valor más bajo para g(a). Dicho valor g ( x ) es la varianza de X. Con los datos de nuestro ejemplo μ = 15,1 y el valor mínimo de g(a), es decir,

∑(x − x ) g(x) = i

n

2

es la varianza, que representaremos por S2 = 7,89. Sacando raíz

cuadrada se obtiene la llamada desviación estándar S = 2,81. Esto muestra como la media aritmética y la desviación estándar son medidas hermanas.

La media como centro de gravedad de los datos. Observe de la demostración anterior que el valor hallado para “a”, es decir a = x , satisface N

que

∑ (x i =1

i

− x ) = 0 , lo cual se expresa en la Figura 29, haciendo que la suma de las

distancias de la media a los datos que quedan a su izquierda es exactamente igual a la suma de los que quedan a su derecha.

73

Introducción al Análisis Exploratorio de datos

Figura 29. Propiedad de la media aritmética

Esta propiedad de la media, la caracteriza como el centro de gravedad de los datos. Si se dispone de un histograma y se desea saber en qué punto queda la media, basta identificar su centro de gravedad, como se muestra en la Figura 30

Figura 30. La media como centro de gravedad

Notación: Se usara el símbolo X (X-barra), cuando se hace referencia a la media de una

muestra. El símbolo μ (“mu””), representa la media de toda la población de Interés.

74

R. Behar Con la media X de una muestra, se pretende estimar (conocer aproximadamente) la media μ de la población, por esta razón, se dice que X es un estimador del parámetro μ. La varianza de la población (σ2) y desviación estándar poblacional (σ). Su contraparte muestral se representa por la letra S.

Observaciones. •

En realidad las definiciones que se usan con el propósito de realizar estimaciones de los parámetros poblacionales varianza (σ2) o desviación estándar (σ) son un poco distintas a las planteadas, pues en lugar del denominador n, se usa el denominador (n-1) así:

X= S

2

∑(x − x ) =

S=



X 1 + X 2 + ... + X n Media Muestral n 2

i

Varianza Muestral

n −1

∑( x − x ) i

n −1

2

Desviación Estándar Muestral

Observe que en caso extremo en que todos los datos son idénticos, es decir, no existe variabilidad, la media también seria idéntica a los datos y por tanto la desviación estándar S sería nula. Por otro lado a medida que los datos se alejan mas de la media, las distancias al cuadrado se hacen más grandes y por lo tanto crecería la desviación estándar. Por estas razones, la desviación estándar es una medida de variabilidad o dispersión de los datos. Sin embargo, la interpretación directa no es fácil, pues no es posible emitir un juicio sobre su tamaño al margen del contexto,

75

Introducción al Análisis Exploratorio de datos más aún cuando su valor depende de las unidades en las que se mide en las variables correspondientes. No obstante, una muy buena interpretación surge del llamado principio deTshevichev, y también cuando se asocia con la distribución normal.

Interpretación de la desviación estándar Aunque la interpretación y la utilidad más contundente de la desviación estándar está asociada con la distribución normal que trataremos en otro capítulo, su carácter de medida de dispersión puede apreciarse a través del conocido Principio de Schebyshev.

Principio de Schebyshev. Si a cualquier conjunto de datos le calculamos su media X y su desviación estándar S y luego construimos un intervalo con centro en la media X , restándole y sumándole un numero k de desviaciones estándar, este intervalo atrapa una fracción de los datos igual a

1 ⎞ ⎛ ⎜1 − 2 ⎟ ⎝ k ⎠ Así por ejemplo entre la media y dos desviaciones estándar (k=2), estará por lo menos

1 ⎞ ⎛ ⎜1 − 2 ⎟ = 0.75 , el 75% de los datos. ⎝ 2 ⎠ 1⎞ ⎛ Entre la media y tres desviaciones estándar siempre habrá al menos ⎜1 − 2 ⎟ = 0.88 , el ⎝ 3 ⎠ 88% de los datos. Y para 4 desviaciones estándar, por lo menos 93.8%.

76

R. Behar En los siguientes capítulos, tendremos la oportunidad de apreciar la importancia de estas dos medidas. Observe que este principio se cumple siempre, no importa cual distribución tiene la variable de interés y nos proporciona una cota mínima para el porcentaje de datos que se encuentren a una distancia de a los mas k veces la desviación estándar.

Propiedades Operativas de la media 1. Si xi = k, para todo i, o sea que si todos los datos son iguales a k, entonces: x = k. Veamos: m

x=

∑ xi i= 1

n

n

∑k i= 1

=

n

=

nk = k n

2. Si todos los datos de una muestra se multiplican por una constante, el promedio de dicha muestra resulta multiplicando por la misma constante, es decir: si yi = axi , i = 1, 2, ..., n; entonces y = a x n

y=

∑ yi i= 1

n

n

=

∑ axi i= 1

n

n

= a

∑x i= 1

n

i

= ax

3. Si Zi = axi + byi , i = 1, 2, ..., n; donde a, b son constantes, entonces

Z = ax + by

77

Introducción al Análisis Exploratorio de datos Veamos: n

Z=

n

∑ Z ∑ ( ax + by ) i =1

i

=

n Z = ax + b y

i =1

i

n

i

=a

∑ xi ∑ yi +b n n

Esta propiedad puede generalizarse a la combinación lineal de k variables y puede resumirse diciendo que la media aritmética es un operador lineal. Ejemplo: Ingreso económico de parejas de casados

Se ha tomado una muestra de parejas de casados y se han observado las variables X e Y.

X

: Ingreso mensual del esposo

Y

: Ingreso mensual de la esposa

Se encontró que el ingreso promedio mensual de los esposos es X = $100.000 y de las esposas Y = $80.000.

Si se define la variable ingreso familiar Z, como la suma de los ingresos de los esposos, entonces el ingreso familiar de la pareja i será: Zi = Xi + Yi y el ingreso familiar promedio será: Z = X + Y = $100.000 + $80.000 = $180.000

78

R. Behar Si una muestra de n elementos, se divide en k submuestras excluyentes y exhausti-

6.

vas, que tienen n1, n2,..., nk, elementos (n1 + n2 + ... + nk = n), con promedios x 1, x 2,..., x k respectivamente, entonces el promedio de la muestra global estará dado por:

x=

n1 x 1 + n2 x 2 + ... + nk x k n k

∑n x i

x=

es decir:

i

i= 1

n

El promedio x i, de los datos del grupo i, está dado por:

∑x

por tanto:

j

= ni x i

j

+ ... +

xi =

∑x

Gi

Por otro lado: n

∑x

j

=

j= 1

∑x G1

j

+

∑x G2

∑x

j

Gk

= n1 x 1 + n2 x 2 + ... + nk x k n

Entonces:

x=

∑x j= 1

n

j

=

n1 x1 + n2 x 2 + ... + nk x k n

Ejemplo

79

Gi

ni

j

Introducción al Análisis Exploratorio de datos

Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio de los hombres es $120.000, y el de las mujeres $100.000, ¿cuántos hombres y mujeres hay? Si n1 es el número de hombres y n2 el de mujeres, entonces: n1 + n2 = 500

(1)

Además:

$108.000 =

n1 × 120.000 + n2 × 100.000 500

(2)

Resolviendo (1) y (2) se obtiene: n1 = 200 y n2 = 300

Cálculo de la media aritmética para los datos agrupados en intervalos de clase. Se sabe que cuando los datos están agrupados en clases, se pierde la individualidad de la información, así por ejemplo puede conocerse que en el intervalo (10,20] hay 3 datos, pero no conocemos cuál es el valor de cada uno de estos datos; esto plantea una dificultad para el cálculo de la media usando la definición presentada. Se puede calcular en este caso la media, en forma aproximada, usando la propiedad 6 y el supuesto de que los datos en cada intervalo están uniformemente distribuidos, puesto que si esto sucede , la media aritmética de los datos del intervalo i, coincide con el punto medio del intervalo (marca de clase), de esta manera se puede considerar la muestra total, dividida en "m" submuestras constituidas por los datos que pertenecen a cada uno de los intervalos, así aplicando la propiedad 6, se obtiene que:

80

R. Behar

x=

n1 x 1 + n2 x 2 + ... + nm x m n x ≡ xi' ; entonces :

Como:

x ≡ xi' ; entonces : m

x=

∑n x

' i i

i =1

n

m

= ∑ fi × xi' i =1

Ejemplo

Dada la siguiente distribución de frecuencias:

La media aritmética de esta distribución será: x=

12 × 15 + 16 × 30 + 42 × 50 + 25 × 65 + 5 × 85 = 481 . 100

O en forma equivalente: x = 0.12 x 15 + 0.16 x 30 + 0.42 x 50 + 0.25 x 65 + 0.05 x 85

81

Introducción al Análisis Exploratorio de datos x

= 48.1

Propiedades Operativas de la varianza. Las propiedades que se presentan a continuación pueden ser heredadas por la desviación estándar con las limitaciones que genera la función raíz cuadrada. n

1.

S2 =

∑x i

n

2 i

()

− x

2

Esta, más que una propiedad es una forma alternativa de calcular la varianza, realizando menos cálculos numéricos que con la expresión que proporciona la definición. Su demostración es la siguiente:

S2 =

(

1 n ∑ xi − x n i= 1

)

2

()

2 1 n ⎡ 2 x i − 2 xx i + x ⎤ ∑ ⎥⎦ n i= 1 ⎣⎢

=

()

n 1 1 1 n = ∑ x i2 − ⋅ 2 x ∑ x i + ∑ x n n n i= 1 i= 1

2

n

∑x

1 i= 1 = ∑ x i2 − 2 x ⋅ n n =

S2 =

()

1 ∑ xi2 − 2 x n

()

1 ∑ xi2 − x n

2

i

+

()

+ x

()

1 ⋅n x n

2

2

2

S2 = Promedio de los cuadrados, menos, promedio al cuadrado

82

R. Behar 2.

La varianza es siempre no negativa.

S2 ≥ 0, esto se desprende de que la varianza es una suma de cuadrados, multiplicada por la constante,

3.

1 , que siempre es positiva. n

La varianza de una constante es cero, es decir: si xi = C, para todo i, entonces Sx2 = 0

4.

(

)

S x2 =

2 1 n x i − x , pero se sabe que si xi = C entonces x = C , de este modo: ∑ n i= 1

S x2 =

1 n (C − C ) 2 = 0 ∑ n i= 1

Si yi = kxi, entonces S y2 = k 2 S x2

i = 1, 2, ..., n

Es decir: si se tiene una muestra x1, x2, ...,xn, que tiene varianza S2x y cada dato se multiplica por la constante k, la varianza de esta nueva muestra:

Kx1, Kx2, ..., Kxn, será k 2 S x2 lo cual puede demostrarse de la siguiente manera:

83

Introducción al Análisis Exploratorio de datos

S y2 =

(

1 n ∑ yi − y n i= 1

)

2

(

1 n 2 = ∑ K xi − x n i= 1 =

(

1 n ∑ kxi − k x n i= 1

=

)

2

= K2 ⋅

)

2

(

1 ∑ xi − x n

)

2

K 2 S x2

Si yi = xi + C, entonces S y2 = S x2

5.

i = 1, 2, ..., n Es decir: que si todos los datos se trasladan la misma distancia C, la varianza no cambia, lo cual puede verificarse así:

S y2 =

= =

(

1 ∑ yi − y n

(

)

2

=

[

(

1 ∑ ( xi + C) − x + C n

1 ∑ xi + C − x − C n

)

2

=

(

1 ∑ xi − x n

)

)]

2

2

S x2

Caso de la distribución normal No obstante que los capítulos que corresponden al desarrollo de la teoría de la probabilidad, abordaremos la distribución normal, intentaremos aquí ganar interpretación de la desviación estándar, asociándola a esta distribución.

84

R. Behar Conformémonos por ahora con identificar la distribución normal por su forma acampanada, como con la variable tiempo de entrega en el problema de Motopizza. Toda distribución normal, queda inequívocamente determinada por dos números que llamamos “parámetros”, que en este caso son la media y la desviación estándar, como se nota en la Figura 31. Por esta razón la notación para una variable que sigue esta distribución es:

Figura 31. Distribución Normal

85

Introducción al Análisis Exploratorio de datos La distribución normal, en relación con su desviación estándar, presenta algunas propiedades, que se han particularizado en lo que se ha dado en llamar “las reglas de oro de la distribución normal”.

Reglas de Oro de la distribución Normal. Esta reglas puede sintetizarse de la siguiente manera: siempre, en todas las distribuciones normales, se cumple que: el porcentaje de datos que se encuentran a menos de una desviación estándar de la media, es 68,3%. (Primera Regla de Oro) El porcentaje de datos que se encuentra a una distancia de menos de dos desviación estándar de la media, es el 95,5%. (Segunda Regla de Oro) El porcentaje de datos que se encuentra a una distancia de menos de tres desviación estándar es el 99,7%, es decir casi todos. (Tercera regla de oro). Gráficamente pueden visualizarse como sigue:

86

Primera Regla de Oro

R. Behar

.

87

Segunda Regla de Oro

Introducción al Análisis Exploratorio de datos

.

88

Tercera Regla de Oro

R. Behar

.

Estas tres reglas de oro son muy útiles al momento de interpretar la desviación estándar. Veamos un ejemplo. 89

Introducción al Análisis Exploratorio de datos Ejemplo. Caso de Motopizza

En el caso de Moto Pizza, teníamos que los tiempos de entrega se distribuyen aproximadamente normalmente con los siguientes parámetros para las localidasdes estudiadas:

Localidad M1 M6 B2 B3 V1 M1

Tiempo de entrega Media Desviación estándar 21,7 4,0 19,0 3,9 20,9 3,8 21,1 3,8 19,3 3,9 21,7 4,0

¿Qué podemos decir del comportamiento de los tiempos de entrega en la localidad M1? Apoyándonos en las reglas de oro de la distribución normal, podemos decir que: El 68,3% de las entregas toman tiempo de 21,7 ± 4, 0 minutos, es decir e interés 17,7 y 25,7 minutos. El 95,5% de las veces las entregas tardan 21,7 ± 2*4,0, es decir, entre 13,7 y 29,7 minutos. El 99,7% de las entregas toman tiempo de 21,7 ± 3*4,0, es decir, entre 9,7 y 33,7 minutos. En síntesis, en una distribución normal, con sólo saber el valor de su media y de su desviación estándar, queda sabido todo.

90

R. Behar

Ejercicios Propuestos 1

Una muestra de 500 trabajadores tienen un salario promedio de $108.000, si el salario promedio de los hombres es $120.000, y el de las mujeres $100.000, ¿cuántos hombres y mujeres hay?

2

Verifique que si a partir de los datos de una variable X, producimos la transformación:

Zi =

Xi − X Sx

;

i = 1, 2, . . . , n

Entonces: Z = 0 y S z2 = 1 3

Una entidad encargada del control de contaminación de cierto río, lleva registros sobre el oxígeno disuelto, X, expresado en mg/l; éstos se presentan a continuación: 2.6, 3.6, 3.1, 2.6, 2.7, 3.9, 2.4, 2.7, 2.5, 2.3, 4.0, 3.2, 2.5, 1.7, 0.3, 3.1, 2.6, 1.3, 4.3, 1.5, 2.8, 1.8, 4.2, 3.5, 2.4, 2.2, 3.4, 3.7, 0.8, 2.3, 1.9, 4.5, 1.2, 2.2, 2.2, 3.0, 2.1, 1.8, 2.9, 3.8, 3.5, 1.6, 3.2, 4.4, 1.4, 0.7, 2.8, 3.3, 0.5, 2.3 Para estos datos verifique el Principio de Schebyshev para k=1.8 y para k=3.

4

Una compañía constructora resuelve estudiar en un concreto su resistencia a la compresión, con el objeto de hacer un control de calidad. Para ello se tomaron 50 cilindros de prueba de acuerdo con las normas establecidas. Los resultados en kg/cm2 de presión obtenidos al cabo de 28 días de curado fueron: 295, 282, 221, 240, 328, 191, 275, 253, 259, 206, 265, 199, 254, 217, 247, 296, 240, 230,

253, 237, 290, 251,

312, 226, 335, 232, 220, 214, 272, 245,

91

Introducción al Análisis Exploratorio de datos 212, 241, 234,226, 309, 226, 221, 248, 264, 268, 250, 268, 289, 277, 283, 273, 214, 269, 253, 252.

a) calcule la resistencia media y su desviación estándar. b) Si después de haber realizado los cálculos anteriores, usted se entera que el aparato de medición, esta desajustado en el sentido que aumenta 10% a la medida real, como puede aprovechar los cálculos de a) para encontrar la media y la desviación estándar verdaderos?

5. El caso de la fábrica de embutidos. La empresa “RPTQM” fabrica embutidos y otros productos de carne. La fórmula del embutido está muy bien establecida, sin embargo, la grasa y la proteína que son los ingredientes principales, solo están disponibles, en forma de carnes de cerdo, que llegan de diferentes procedencias, en camiones de varias toneladas. A cada lote de carnes que llega, se les mide el contenido de grasa y proteína con base en un proceso de muestreo de piezas de carne, de las que a su vez se toman muestras que son analizadas en el laboratorio. El contenido final de 20 para 12 grasa en el embutido es una característica determinante de la calidad, por su aspecto, textura y sabor. Si hay exceso de grasa en el embutido, el producto final presenta un aspecto desagradable a la vista. El material envolvente a menudo se arruga. Si tiene menos grasa que la requerida, el impacto sobre la calidad es menor, pero como el embutido debe tener un peso definido, esto significa que se usará más proteína, incurriendo así en mayores costos. El proveedor de la carne de cerdo, pone el precio según el contenido de proteína. El porcentaje de unidades de embutido que no pasan el control de calidad es relativamente alto y casi en su totalidad debido al contenido de grasa. 92

R. Behar Las unidades no conformes, se convierten en recortes, cuyo precio de venta es comparativamente muy bajo Si bien hay otras razones por las cuales, los embutidos resultan no conformes, el contenido de grasa, es la principal razón de rechazo del producto. En un diagrama de Pareto, que se realizó previamente, resultó que el 80% de los productos que se clasifican como “no conformes”, corresponden a un fallo en el contenido de grasa. Por esta razón los esfuerzos se centran en el explorar por qué falla la estimación del contenido de grasa. Ya se ha revisado el proceso de mezcla y fabricación y no se ha encontrado ninguna circunstancia que de indicios de la causa del problema. Casi con seguridad el problema radica en la calidad de la estimación de la grasa contenida en un lote grande de piezas de cerdo a partir de una muestra Se pensó originalmente que el problema radicaba en la etapa de mezclado, que haría que aunque la pasta completa cumpliera con los contenidos especificados, la falta de homogeneidad hiciera que partes del batch estuvieran altas en grasa y otras con deficiencia. Después de varias pruebas, se descartó esta posibilidad. Quedaban otras posibilidades, como se explica a continuación: •

Fiabilidad del proceso de medición del contenido de grasa en el laboratorio, para las muestras tomadas.



Métodos de muestreo utilizados y tamaños de las muestras tomadas.

Se decidió empezar por examinar el proceso de medición del contenido de grasa en el laboratorio. 93

Introducción al Análisis Exploratorio de datos Para valorar el impacto de esta actividad, se preparó una muestra grande de piezas de carne, se maceró y homogeneizó muy bien de tal manera que cualquier parte de la misma, arrojara el mismo resultado y se midió su contenido de grasa con métodos muy sofisticados y confiables, con el propósito de no tener ninguna duda sobre el verdadero valor que deberían arrojar las mediciones que se hicieran en el laboratorio de la empresa. El contenido de grasa de la mezcla resultó ser del 20%. Se repartió la muestra homogenizada en 30 porciones (submuestras) para ser enviadas en forma aleatoria al laboratorio a través del día, junto con las muestras normales del proceso, con el propósito de que no fueran tratadas de una manera especial, intentando que todo funcionara de la manera habitual, sin prevenciones, ni alteraciones de los procedimientos cotidianos Los resultados obtenidos en el laboratorio fueron los siguientes: Grasa 19.6 19.0 19.8 21.1 19.6 20.1 18.4 21.8 18.7 19.7 16.4 15.5 15.0 11.5 14.9

Turno 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2

Grasa 16.9 14.3 16.4 15.1 12.4 22.9 23.1 23.1 23.1 23.0 23.1 23.0 23.1 23.0 23.0

94

Turno 2 2 2 2 2 3 3 3 3 3 3 3 3 3 3

R. Behar Examine cuidadosamente los datos, represéntelos gráficamente y plantee algún diagnostico que incluya algunas hipótesis sobre la situación. ¿Es la medición en el laboratorio una posible causa del problema?

6. Control de Densidad de los piensos Una variable crítica en la producción de piensos es la densidad, ésta debe encontrarse entre ciertos límites puesto que de lo contrario los animales no se lo comen.. Usando los datos de la muestra aleatoria de 50 unidades que se presenta abajo,a la cual además de la densidad se han medido las variables: contenido en grasa de la materia prima (GRASA), temperatura de cocción (TEMP), máquina (MAQUINA) y turno (TURNO), que se sospecha puedan influir en la densidad. Archivo DENSI: Problema de la densidad del pienso para animales Densi Grasa (%) Temp (oc) Máquina Densi Grasa (%) Temp (oc) Máquina 10.0 40 80 2 7.6 36 89 1 7.8 33 91 1 9.1 38 85 2 8.9 37 90 2 7.8 26 85 1 8.5 38 91 2 6.3 26 87 1 7.6 33 91 1 6.1 27 95 1 7.4 32 93 1 10.1 40 81 2 8.8 39 95 2 9.8 39 86 2 7.4 32 94 1 9.3 33 84 2 7.9 38 94 1 9.1 27 83 2 8.3 38 95 1 9.6 40 87 2 8.7 40 95 2 10.2 39 83 2 9.0 34 84 2 8.3 31 88 2 8.5 35 85 2 8.3 25 82 2 9.0 40 88 2 7.2 29 95 1 7.6 34 94 1 6.8 29 92 1 8.2 26 80 1 8.0 26 85 1

95

Introducción al Análisis Exploratorio de datos Archivo DENSI: Problema de la densidad del pienso para animales Densi Grasa (%) Temp (oc) Máquina Densi Grasa (%) Temp (oc) Máquina 7.3 28 85 1 7.7 33 90 1 7.2 34 90 1 7.9 34 95 1 7.7 29 85 1 8.6 38 90 2 9.1 38 86 2 7.7 30 91 1 8.5 34 85 2 10.0 37 84 2 8.6 40 95 2 9.1 36 89 2 7.6 38 92 1 6.7 26 86 1 8.6 28 81 2 7.5 31 89 1 8.8 37 86 2 8.2 30 87 1 a) realice un diagnostico de la situación, sabiendo que la densidad ideal se da en torno a 10.5 gramos / cc. Y que los limites de especificación son 9 y 12 gramos /cc. b) En las actuales condiciones, ¿es el proceso capaz de cumplir las especificaciones? En caso de que no lo sea, ¿qué habría que hacer para que lo fuese? ¿qué porcentaje se está produciendo fuera de las especificaciones? c) ¿Se comportan igual las dos máquinas? ¿Y los dos turnos? ¿Haría alguna recomendación que ayudase a cumplir las especificaciones? d) ¿Existen observaciones atípicas en alguna(s) de las variables ? e) ¿Es plausible que manipulando la temperatura o incidiendo en el contenido en grasa de la materia prima, se pueda regular la densidad? ¿en qué forma manipularía estas dos variables?

96

R. Behar

Bibliografía. BEHAR, R., YEPES M. (1995). “Estadística: un enfoque descriptivo”. Universidad del Valle. Ed. Feriva. Cali, Colombia. MOORE D.; MCCABE G. (1999). “Introduction to the Practice of Statistics”. Third edition. Freeman and Company. New York. TUKEY, John W. (1977). “Exploratory Data Analysis” Reading Mass: Addison Wesley. GRIMA P., TORT-MARTORELL X. (1995) “Técnicas para la gestión de la calidad”. Ed. Díaz de Santos. Barcelona, España. MOORE D., MCCABE G. (1999). “Introduction to the Practice of Statistics”. Third edition. Freeman and Company. New York. VELLEMAN, PAUL AND HOAGLIN, DAVID (1981), The ABC's of EDA: Applications, Basics, and Computing of Exploratory Data Analysis , Duxbury Press.

97

Introducción al Análisis Exploratorio de datos

Apéndice 1. Distribuciones Unidimensionales de Frecuencia En este capítulo, se darán las bases conceptuales para obtener información a partir de los datos, empezando por la situación más sencilla, como es la que considera la observación de una sola característica a los individuos de la muestra. Tal como se trató en el capitulo anterior, las variables para su análisis se clasifican en Discretas y continuas. Abordaremos en primer lugar el tratamiento de datos provenientes de la observación de variables discretas.

CASO DE UNA VARIABLE DISCRETA Para considerar este caso, se introduce el siguiente ejemplo: Ejemplo: Número de clientes por minuto que llegan a un banco

Se toma información sobre el número de clientes que llegan a un banco en una hora pico, observando una muestra de 25 períodos de un minuto se obtuvieron los siguientes resultados: 8, 6, 7, 9, 8, 7, 8, 10, 4, 10, 8, 7, 9, 8, 7, 6, 5, 10, 7, 8, 5, 6, 8, 10, 11. A esta información, que no ha tenido ningún tipo de tratamiento se le llama muestra bruta y se representa por x1, x2,...., xn donde n es el número total de datos. Se puede comenzar a organizar la información escribiendo los datos distintos de que consta la muestra y haciendo un conteo para determinar el número de veces que aparece cada dato; valor éste que se denominará frecuencia absoluta. El cuadro 2.1 muestra la situación del ejemplo.

98

R. Behar

Cuadro 1. Distribución de frecuencias absolutas del número de clientes por minuto

Valor Observado (xj) 4 5 6 7 8 9 10 11 Total

Conteo

Frecuencia Absoluta (nj)

I II III IIIII IIIII II II IIII I

1 2 3 5 7 2 4 1 25

Como puede observarse, la suma de las frecuencias absolutas de todos los datos, debe coincidir con el número total de datos (tamaño de la muestra). No obstante que la muestra consta de 25 datos, sólo hay 8 datos distintos: 4, 5, 6, 7, 8, 9, 10, 11 que es posible representarlos, sin pérdida de generalidad, como x1, x2,..., xm. En nuestro caso n = 25 y m = 8, de esta manera la frecuencia absoluta del dato xi , se denotará por ni, así por ejemplo el dato x3 = 6 aparece 3 veces en la muestra, por tanto n3=3. Se puede también expresar la frecuencia absoluta como una fracción o porcentaje del número de datos y surge así lo que se conoce como frecuencia relativa del dato xi que se denota por fi, así pues:

99

Introducción al Análisis Exploratorio de datos n 3 = 0.12 f i = i ; en el ejemplo f 3 = n 25

Indica que el dato x3 = 6 representa el 12% de toda la muestra, es decir que de acuerdo con la muestra, en la hora pico, el 12% de las veces llegan al banco 6 clientes por minuto. También se podría calcular el número de datos que son menores o iguales que xi, que se denomina frecuencia absoluta acumulada hasta xi , y se denota por Ni; si x1, x2, ... , xm están ordenadas en forma creciente, entonces: Ni = n1 + n2 + ... + ni En nuestro ejemplo N4 es el número de datos que son menores o iguales que x4 = 7, es decir,

N4 = 11.

Si la frecuencia absoluta acumulada se expresa como una fracción o porcentaje de toda la muestra, aparece lo que se conoce como frecuencia relativa acumulada que se representa por Fi, de esta manera:

Fi =

Ni = f1 + f 2 +...+ f i n

Los conceptos, para nuestro ejemplo se sintetizan en el siguiente cuadro de frecuencias. Cuadro 2. Frecuencia absoluta, relativa y Acumulada del número de clientes que llegan por minuto

100

R. Behar

Un resumen de las principales propiedades de las frecuencias se presenta a continuación.

Propiedades y relaciones Si se toma una muestra de n datos, de los cuales hay m distintos, que ordenados en forma creciente son x1, x2, ... , xm, entonces:

0 ≤ ni ≤ n ; i = 1, 2, 3, ..., m

n1 + n2 + ... + nm = n ; es decir

m

∑n i= 1

fi =

ni ; 0 ≤ fi ≤ 1 n

f1 + f 2 +...+ f m = 1 ; es decir

m

∑ fi = 1 i =1

101

i

= n

Introducción al Análisis Exploratorio de datos j

N j = n1 + n2 + ... + n j ; es decir N j = ∑ ni i= 1

Nm = n n1 = N1 ≤ N 2 ≤ ... ≤ N m = n j

F j = f1 + f 2 +...+ f j ; es decir F j =

∑ fi i =1

f1 = F1 ≤ F2 ≤...≤ Fm = 1

En realidad las frecuencias acumuladas pueden definirse como funciones sobre todos los números reales, así: N(x) = número de datos que son menores o iguales que x F(x) = fracción (o porcentaje) de los datos que son menores o iguales que x.

Así pues : F(4.32) = la fracción del total de datos que son menores o iguales que 4.32.

= 0.04 N(4.32) = 1

Para el ejemplo planteado, la distribución N(x), es:

102

R. Behar

Distribución de Frecuencias Absolutas Acumuladas

La función F(x) es conocida como función empírica de distribución acumulativa, o Función de Frecuencias Relativas Acumuladas, la palabra “empírica” para señalar que ha sido obtenida con base en una muestra de la población, pretendiendo con ella lograr un conocimiento aproximado de la distribución acumulativa que tendría la población (función de distribución acumulativa de probabilidad). A continuación se presenta F(x) para el ejemplo.

Función

empírica

Distribución Acumulativa

En general las funciones N(x) y F(x) pueden definirse de esta manera:

103

de

Introducción al Análisis Exploratorio de datos

Análogamente la función empírica de distribución acumulativa

Las funciones N(x) , F(x) son monotónicas no decrecientes, es decir que si x1 < x2 ⇒ N(x1) ≤ N(x2) y F(x1) ≤ F(x2).

Representación Gráfica. Cuando se trate de frecuencias absolutas o de frecuencias relativas, se realizará la representación por medio del llamado diagrama de frecuencia, que consiste en colocar en el eje horizontal los valores xi, que toma la variable y levantando en cada punto un segmento vertical de longitud igual a la frecuencia correspondiente.

104

R. Behar

Gráfico 1. Diagrama de frecuencias del número de clientes que llegan a un banco en un minuto, en la hora pico

El gráfico de frecuencias absolutas difiere del gráfico de frecuencias relativas sólo en la escala del eje de las ordenadas, por tal razón aparece un solo gráfico con dos ejes: en el eje de la izquierda se leen las frecuencias absolutas y en el de la derecha se leen las relativas. Cuando consideramos las frecuencias acumuladas, la representación gráfica consiste en llevar a un plano cartesiano las funciones N(x) y F(x). Como se aprecia en el Gráfico 2 Como puede notarse el gráfico corresponde a una función escalonada, lo cual indica que sólo hay datos en los puntos de discontinuidad, cuya frecuencia está representada por el valor del salto correspondiente.

105

Introducción al Análisis Exploratorio de datos

Gráfico 2. Frecuencias acumuladas para la variable "número de clientes que llegan a un banco en un minuto en la hora pico" Figura 0-1

CASO DE UNA VARIABLE CONTINUA Supóngase que se tienen observaciones sobre la estatura de las personas que conforman una muestra de tamaño 25 y que el instrumento de medición usado tiene precisión hasta las centésimas de milímetro, así pues un valor podría ser 1.74325 metros; si se pretendiera aplicar el procedimiento que se usó para las variables discretas, habría varios problemas, uno de ellos es que seguramente, todos los datos son distintos, lo cual generaría una tabla de fre-

106

R. Behar cuencias absolutas con el mismo nivel de información que la muestra bruta; además, no es de interés conocer con ese nivel de detalle la información, por ejemplo, no es de interés conocer cuántas personas tienen una estatura de 1.74325 metros. En estos casos, es más fácil agrupar la información en los llamados intervalos de clase. Para ilustrar sobre su construcción, se plantea el siguiente ejemplo.

Ejemplo: Tiempo de atención de pacientes en un hospital

Los datos que a continuación se presentan corresponden a los tiempos de atención (en minutos) de pacientes en el "filtro" del servicio de urgencias de un hospital: 13.1, 7.1, 14.8, 19.0, 10.2, 18.0, 19.8, 15.0, 17.3, 10.8, 22.3, 14.5, 17.1, 14.9, 12.0, 14.0, 18.4, 10.2, 15.8, 16.5, 15.0, 17.6, 4.2, 13.4, 21.2, 14.7, 13.8, 21.0, 14.3, 11.1, 18.9, 8.3, 16.6, 11.2, 20.2, 14.4, 13.5, 18.2, 12.4, 17.0, 26.7, 15.5, 22.0, 12.9, 17.9, 7.4, 18.0, 19.8, 16.0, 21.2. Generalmente se empieza por determinar las observaciones extremas (mínima y máxima), que en el ejemplo aparecen marcadas: min (xi) = 4.2; max (xi) = 26.7. Estos valores extremos definen el rango de la muestra: rango = max (xi)

-

min (xi)

Se debe determinar los valores L0, L1, L2, ...,Lm que constituirán los límites de los m intervalos de clase que se van a construir, con longitudes C1, C2, ..., Cm; de esta manera: L1 = L0 + C1 107

Introducción al Análisis Exploratorio de datos

L2 = L1 + C2 Li = Li-1

+ Ci

Lm = Lm-1 + Cm El primer límite inferior, L0, debe escogerse de tal manera que sea un poco menor que el dato más pequeño; un criterio para definirlo es el siguiente: Como los datos están registrados con una cifra decimal, se entiende que el instrumento de medición usado tiene una precisión de hasta las décimas de minuto. Puede decirse que los datos tienen (3) cifras significativas, lo cual indica que el registro "4.2 minutos" está representando cualquier valor real en el intervalo: (4.15 , 4.25), de esta manera puede definirse L0 = 4.15.

Si se quiere que todos los intervalos de clase sean igual longitud, es decir C1 = C2 = ... = Cm = C , se deberá adoptar un valor C, que puede ser arbitrario o estimado con base en el

rango de los datos. En este caso, una aproximación de C puede lograrse así: C≅

Rango m

Para el ejemplo se construirán intervalos de diferente tamaño, por ser la situación más general. Comenzando con L0 = 4.15 podemos definir los otros límites como: L1 = 7.15, L2 = 11.15, L3 = 13.15, L4 = 16.15, L5 = 18.15, L6 = 21.15, L7 = 27.15, en

este caso las longitudes de los 7 intervalos de clase son respectivamente 3, 4, 2, 3, 2, 3 y 6.

108

R. Behar Para determinar la frecuencia asociada con cada intervalo, deben contarse los datos que pertenecen a cada uno; las definiciones de las frecuencias dadas anteriormente siguen vigentes para el caso de variables continuas, lo mismo que sus propiedades. Se determina el punto medio de cada intervalo, que se denomina marca de clase y se representa por x'i así:

x i' =

Li− 1 + Li

2

Este valor se constituye en el "representante" de los que pertenecen al intervalo correspondiente y más adelante jugará su papel. A continuación se construye un cuadro de frecuencias para el ejemplo del hospital Cuadro 3. Frecuencias de Tiempos de atención a pacientes en el filtro de urgencias de un hospital (minutos)

109

Introducción al Análisis Exploratorio de datos

OBSERVACIONES 1.

Se puede apreciar en el cuadro 2.3 que el límite superior de un intervalo coincide

con el límite inferior del siguiente, lo cual podría originar un problema de indefinición en caso de que un dato coincidiera con un límite, no se sabría donde clasificarlo. En el ejemplo no puede existir este problema puesto que todos los límites se han construido con una cifra decimal adicional a la que tienen los datos; cuando aquella posibilidad exista, se recomienda la convención: (Li-1 , Li] que significa que en cualquier intervalo de clase, el límite inferior no pertenece a él, pero sí, su límite superior. 2.

Cuando los datos se agrupan en intervalos de clase, se produce pérdida de informa-

ción, puesto que no se dispone de los datos en forma individual sino una caracterización más global, por ejemplo cuando se dice que en el intervalo 4.15 - 7.15 hay 2 datos, con ello no se sabe que valor tienen los dos datos, por tal razón cuando se reduce el número de intervalos se está globalizando más los datos y por tanto perdiendo más información. Por otro lado si se construyen demasiados intervalos se desvirtúa el objetivo de la estadística descriptiva, puesto que su manipulación se hace compleja y su presentación poco comprensible. Por tanto se recomienda que, en caso de que no exista una razón especial, se tome un número de intervalos mayor que cinco (5) y menor que veinte (20). 3.

No deben existir intervalos de clase que no contengan datos. Con la distribución de

frecuencias de la muestra se pretende explorar la distribución de la población; si existen clases sin datos se distorsiona esta idea. Cuando esto ocurra deberán reagruparse los datos. 4.

Cuando sea posible debe procurarse que todos los intervalos sean de igual longitud,

lo cual en ocasiones simplifica algunos cálculos y sobre todo facilita la interpretación,

110

R. Behar puesto que comparando directamente las frecuencias, se está comparando la densidad (concentración) en cada intervalo. En algunas veces no es posible construir intervalos de igual longitud, por ejemplo, cuando la variable "salario" toma un rango amplio de valores, para bajos salarios, clases de $100.000 de longitud pueden considerarse, por ser esta diferencia importante, pero para altos salarios esta longitud resulta pequeña. En estas situaciones la longitud de los intervalos crece con los valores de la variable, incluso a veces los intervalos extremos pueden ser abiertos ("los que ganan menos de $500.000" o los que ganan $1´000.000 o más). Cuando los intervalos de clase son de diferente tamaño como en el ejemplo presentado, se dificulta conocer donde hay mayor concentración de los datos, esta situación se soluciona calculando la densidad de frecuencia relativa de cada intervalo, que consiste en expresar el porcentaje (o fracción) promedia de datos que hay por cada unidad de intervalo de clase. Así por ejemplo el intervalo 13.15 - 16.15 contiene el 30% de los datos. Como el intervalo tiene una longitud de 3 minutos, se puede decir que dicho intervalo tiene una densidad promedio de 10% por cada minuto, que es el resultado de plantear: "si el 30% de los datos están en una longitud de 3 minutos, en un minuto que porcentaje habrá? De esta manera si se asume que los datos en cada intervalo están uniformemente distribuidos, se puede definir la densidad f*i en el i-ésimo intervalo, como: f f i* = i Ci

Si se expresa la densidad como una función para cualquier número real x, se obtiene la llamada función empírica de densidad, que para el ejemplo del hospital, estará dada por:

111

Introducción al Análisis Exploratorio de datos

⎧ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪ f *(x) = ⎨ ⎪ ⎪ ⎪ ⎪ ⎪ ⎪⎩

0 si x 27.15 0,04 3 ≡ 1,33% /min si 4.15 < x 7.15 0,10 4 ≡ 2,5%/min si 7.15 < x 11.15 0,12 2 ≡ 6%/min 0,30 3 ≡ 10%/min 0,18 2 ≡ 9%/min 5.33% /min 1.66% /min

si 11.15 < x 13.15 si 13.15 < x 16.15 16.15 < x 18.15 si 18.15 < x 21.15 21.15 < x 27.15

Función

empírica

de

densidad

La palabra "empírica" es para resaltar que proviene de una muestra, pero pretende indicar el comportamiento de la variable en la población (función de densidad de probabilidad). La expresión general para la función empírica de densidad, está dada por:^ ⎧0 ⎪ f ( x ) = ⎨ fi ⎪C ⎩ i *

x ≤ L0 x > Lm Li-1 < x Li , i = 1, 2, ..., m

Como puede apreciarse en la función empírica de densidad del ejemplo el intervalo 13.15 - 16.15 tiene la mayor concentración de datos (10 % /min).

Función empírica de densidad, f*(x). Este gráfico es conocido con el nombre de histograma y consiste en una serie de rectángulos, cuya base son los intervalos de clase y su altura la densidad correspondiente.

112

R. Behar

Gráfico 3. Histograma: gráfico de la función empírica de densidad.

Al observar el Gráfico 3 se puede apreciar que el área de uno de los rectángulos, por ejemplo el i-ésimo es: Ai= base x altura = Ci x f*i f f Como f i* = i , entonces : Ai = Ci x i = f i Ci Ci

113

Introducción al Análisis Exploratorio de datos Lo cual significa que el área de cada rectángulo es equivalente con su frecuencia relativa; de esta manera si un rectángulo tiene el doble de área que otro significa que contiene el doble de datos. La suma de todas las áreas debe dar 100% ó 1.00. La función empírica de densidad puede usarse para calcular en forma aproximada el porcentaje de datos que hay en un intervalo cualquiera. Si en el ejemplo 2.2 se deseara estimar el porcentaje total de consultas que duran 20 minutos o menos, se procede de la siguiente manera:

( 18.15

20

] 21.15

El porcentaje de datos menores o iguales que 20 puede calcularse al sumar el porcentaje de datos menores ó iguales a 18.15 (74%) más el porcentaje de datos que hay entre 18.15 y 20, el cual puede obtenerse mediante el siguiente razonamiento: "si en el intervalo 18.15 21.15 se tiene una densidad de 5.33 %/min entonces que porcentaje de los datos habrá en una longitud de (20 - 18.15) minutos? 5.33% ( 20 − 1815 . )min = 9.86% min Así pues que el porcentaje de datos que son menores o iguales que 20 es:

F(20) = F(18.15) + 9.86% = 74% +9.86% =83.86%

114

R. Behar Con el mismo procedimiento se puede construir en forma general, para cualquier x, el porcentaje (o fracción) de datos que son menores o iguales que x, que se denota por F(x) y se conoce como función empírica de distribución acumulativa. Supóngase que x pertenece al intervalo (Li-1 , Li] el cual tiene una longitud Ci y una frecuencia relativa fi, e interesa conocer la frecuencia relativa acumulada hasta x.

En virtud del supuesto sobre la homogeneidad en la distribución de los datos en cada intervalo, se puede plantear la siguiente regla de tres: "si en Ci unidades hay una frecuencia fi, en (x - Li-1) unidades, qué frecuencia habrá ?", la respuesta es: fi ( x − Li −1 ) Ci

Por lo tanto: f F ( x) = F ( Li −1 ) + i ( x − Li −1 ) Ci

Con esto se puede plantear la función empírica de distribución acumulativa como:

115

Introducción al Análisis Exploratorio de datos

f Si se reemplaza f i* = i , se puede escribir: Ci

La función de distribución acumulativa para el ejemplo 2.2, está dada por: 0

si x ≤ 4.15

Si se desea estimar el porcentaje de datos que son menores o iguales que 15 minutos, es decir:

116

R. Behar

F (15) = 0.26 +

0.30 (15 − 13.15) 3 = 0.26 + 0.185 = 0.445

O sea que el 44.5% de los pacientes son atendidos en 15 minutos o menos. Si se desea estimar el porcentaje de datos que hay entre "a" y "b", dígase f(a,b) se puede calcular como: f(a,b) = F(b) - F(a) Así por ejemplo, el porcentaje de datos que hay entre 15 minutos y 20 minutos puede estimarse como:

f(15;20) = F(20) - F(15)= 0.8386 - 0.445= 0.3936 O sea que aproximadamente el 39.4% de los pacientes son servidos en el "filtro" en un tiempo entre 15 y 20 minutos.

Función empírica distribución acumulativa, F(x). De la función F(x) en el ejemplo 2.2, se observa que en cada intervalo, F(x), representa un segmento de la recta, cuya pendiente es la densidad del intervalo respectivo. Esto da origen al siguiente gráfico con el nombre de ojiva.

117

Introducción al Análisis Exploratorio de datos

Gráfico 4. Ojiva: gráfico de la Función empírica de distribución acumulativa

Relación entre una función de densidad empírica y una función de densidad de probabilidad de las llamadas variables aleatorias Continuas. Estas mismas ideas que se han desarrollado hasta ahora a partir de los datos de una muestra, tienen sus respectivos homólogos cuando se trabaja con todos los datos de la población estadística y las variables continuas con las que trabajamos recibirían el nombre de variables aleatorias, análogamente las funciones de densidad empíricas f*(x) y la Función de distribución acumulada F(x), reciben los nombres de función de densidad de

118

R. Behar probabilidad y Función de distribución acumulativa de probabilidad. Aquí intentaremos dar el paso de una manera natural de los conceptos de las muestras a los conceptos de las poblaciones, es decir, de las frecuencias relativas a la probabilidad y de las áreas de los rectángulos en el histograma

a las áreas bajo curvas o funciones y en los cálculos

pasaremos de las suma de áreas de rectángulos al cálculo de intergrales. Ilustraremos este proceso con el siguiente ejemplo. Ejemplo (Del Histograma a función de densidad de Probabilidad)

En el sector de la industria metalmecánica, se toma una muestra al azar de 500 obreros y se determina la antigüedad en su trabajo. Por razones de índole administrativo, se quiere representar los datos por medio de un histograma que considere los siguientes intervalos de clase: 0-2 años, 2-3 años, 3-5 años, 510 años, 10-20 años. Cuadro 4. Distribución de frecuencias de la Antigüedad en el trabajo

i

1 2 3 4 5

Intervalo Frecuencia (Años de Relativa Antigüedad) % ( fi ) 0-2 10% 2-3 5% 3-5 40% 5-10 40% 10-20 5% TOTAL 100%

Los intervalos del cuadro, incluyen el límite superior, pero no el inferior. Observe que la frecuencia relativa la hemos denotado por fi

119

Introducción al Análisis Exploratorio de datos Vamos a construir un histograma con los datos agrupados presentados en el ¡Error! No se encuentra el origen de la referencia.

Recordando las Bases para la construcción de un histograma. Un histograma es una serie de rectángulos construidos cada uno de los cuales tiene como base el intervalo correspondiente y cuya área representa la frecuencia relativa fi de su intervalo respectivo. De tal manera que un intervalo que contiene el doble de datos que otro, deberá estar representado por rectángulo que tiene el doble del área. (Ojo que se dice el doble de área y no de altura). Observe del cuadro de frecuencias de nuestro ejemplo, que el primer rectángulo, deberá tener el doble de área que el segundo. El Tercero deberá tener la misma área del cuarto y además debe tener 4 veces el área del primero, pues esa es la relación de las áreas. Con estos criterios construyamos nuestro histograma. Vamos a construir el primer rectángulo de un área arbitraria, pero las demás áreas deberán guardar proporcionalidad de acuerdo con las frecuencias relativas fi . Si vemos el gráfico de la ¡Error! No se encuentra el origen de la referencia., se aprecia muy claramente la proporcionalidad de las áreas de acuerdo con la frecuencia relativa de cada intervalo. Observe por ejemplo que el primer rectángulo tiene el doble de área que el segundo, no obstante que tienen la misma altura. Note como los intervalos tercero y cuarto tienen rectángulos con la misma área, no obstante que las alturas son distintas. También el primero y el último tienen la misma área, pues en ambos hay el 5% de los datos.

120

R. Behar

Interpretación de la altura fi * de los rectángulos de un histograma. Si el área representa la frecuencia relativa (% de datos), entonces como se puede interpretar la altura de un rectángulo? Qué significado tiene el valor de la altura de uno de los rectángulos del histograma?.

Gráfico 5. Histograma para la variable “Antigüedad en el Trabajo”

Por lo pronto denotemos la altura del rectángulo i-esimo, por colocado un (*) para diferenciarlo de f i . Llamemos Ci al ancho del intervalo i. De esta manera 121

f i * , observe que le hemos

Introducción al Análisis Exploratorio de datos C1 = 2 , C2 = 1 , C3 = 2 , C4 = 5 , C5 = 10

De la definición de histograma quedó establecido que las áreas representan las frecuencias relativas respectivas, es decir que si llamamos Ai al área correspondiente, entonces estamos diciendo que: Ai = fi , pero como el área de un rectángulo es base por altura, entonces:

Ai = fi = base * altura = Ci * fi* , de donde podemos calcular fi * , despejando obtenemos:

fi* =

fi . Observe que se divide la frecuencia relativa entre el número de unidades que Ci

tenga el intervalo correspondiente, entonces las unidades de fi * son (% de datos por cada unidad de la variable en dicho intervalo). Veamos por ejemplo para el primer intervalo: f1 = 10% y C1 = 2 , así que la altura del primer rectángulo es: f1* =

f1 10% = = 5% / año , C1 2 años

que escrito en forma decimal es 0.05/año. Es intuitivamente claro, que si el primer intervalo tiene el 10% de los datos y estos datos están distribuidos en un intervalo que tiene una longitud de dos (2) unidades, pues en promedio hay 5% por cada unidad ( f1* = 5% / año ≡ 0.05 / año ) El cuarto intervalo, (5; 10], por ejemplo, en sus 5 unidades (5 años) contiene 40% de los datos. Así que en promedio, hay 8% de los datos en cada unidad o lo que es lo mismo: f 4* =

f4 40% = = 8% / año ≡ 0, 08 / año C4 5 años

Es decir que las unidades del eje Y en el Gráfico 3 es 1/unidad o %/unidad, por eso se le conoce como densidad de frecuencia ( fi * ).

122

R. Behar Cuadro 5. Densidad de frecuencia para la antigüedad en el trabajo

i

1 2 3 4 5

Intervalo Frecuencia (Años de Relativa Antigüedad) fi % 0-2 10% 2-3 5% 3-5 40% 5-10 40% 10-20 5% TOTAL 100%

Densidad de Frecuencia fi* %/año 5%/año 5%/año 20%/año 8%/año 0,5%/año

En general, si queremos estimar el porcentaje de datos que hay en cualquier intervalo de antigüedad, solo deberemos calcular su área asociada en el histograma. Veamos un ejemplo:

¿Cuál es el porcentaje de obreros que tienen antigüedad menor que 4 años?. Este porcentaje corresponde al área sombreada en la figura:

123

Introducción al Análisis Exploratorio de datos

Gráfico 6. Representación del porcentaje de trabajadores con antigüedad de 4 años o menos.

Observe que el área sombreada se calcula sumando por un lado las áreas de los primeros rectángulos (10%+5%) y por otro lado la parte del tercer rectángulo comprendida entre 3 y 4, que resulta ser la mitad de 40%, es decir 20%. Así que el porcentaje de trabajadores con antigüedad de 4 años o menos se estima en:

P ( X ≤ 4) = 10% + 5% + 20% = 35% ≡ 0,35 Haciendo cuentas usando el concepto de densidad de frecuencia, podríamos decir que como en el tercer intervalo su densidad es de 20%/año y en entre 3 y 4 años hay una unidad, entonces habrá el 20%. 124

R. Behar

Estimemos ahora el porcentaje de trabajadores con antigüedad entre 4 y 7,5 años.

Gráfico 7. Representación en el Histograma del porcentaje de trabajadores con Antigüedad entre 4 y 7,5 años

P ( 4 ≤ X ≤ 7,5) = f3* * ( 5 − 4) + f 4* *(7,5 − 5) = 20%/ año *(1año) + 8%/ año *(2,5años) = 40% Recuerde que el eje Y (altura de los rectángulos) representan la densidad de frecuencia f* Observe que el área total del histograma siempre será 100%. Si un valor x0 se encuentra en el cuarto intervalo, es decir entre 5 y 10. Encuentre el porcentaje de trabajadores con antigüedad menor o igual que x0. 125

Introducción al Análisis Exploratorio de datos De la Figura.2.4E, se puede apreciar al calcular el área acumulada hasta x0, que:

P ( X ≤ x0 ) = 10% + 5% + 40% + 8%/ año *( x0 − 5) = P ( X ≤ x0 ) = 55% + 8%/ año *( x0 − 5) Aquí hemos obtenido una fórmula para calcular la frecuencia relativa acumulada hasta x0, cuando este valor se encuentra entre 5 y 10 años de antigüedad.

Gráfico 8. Representación del porcentaje de Trabajadores con antigüedad de x0 o menos

Así pues si x0=8 años, entonces: P ( X ≤ 8) = 55% + 8%/ año *(8 − 5)años = 79% .

126

R. Behar Si cada vez cambiamos el intervalo en el cual se encuentra x, podemos obtener la siguiente función F(x), para calcular P ( X ≤ x ) . 0 x≤0 ⎧ ⎪ 0, 05* x 0< x≤2 ⎪ ⎪ 0,10 + 0, 05* ( x − 2 ) 2< x≤3 ⎪ F ( x ) = P ( X ≤ x ) = ⎨ 0,15 + 0, 20*( x − 3) 3< x ≤5 ⎪ 0,55 + 0, 08*( x − 5) 5 < x ≤ 10 ⎪ ⎪0,95 + 0, 005*( x − 10) 10 < x ≤ 20 ⎪ 1 x > 20 ⎩

Examine la expresión obtenida para F(x)= P ( X ≤ x

)

Función de Distribución de Frecuencia Relativa Acumulada.

y asegúrese de saber construirla.

Usando dicha expresión podemos estimar por ejemplo el porcentaje F(4), es decir el porcentaje de trabajadores con 4 años de antigüedad o menos: Observe que x=4, se encuentra en el intervalo 3 < x ≤ 5 , por lo tanto: F (4) = P( X ≤ 4) = 0,15 + 0, 20*(4 − 3) = 0,35 ≡ 35%

127

Introducción al Análisis Exploratorio de datos

Bibliografía. BLALOCK, Hubert M, Jr. (Editor)(1974).

“ Measurement in the Social Sciences:

Theories and strategies “. Chicago. Aldine. CANSADO, E. (1958). “Estadística general “. Vol. 1 Cienes. Chile. COSTNER, Hebert L

(1965) “ Criteria for measures of association “. American

Sociological Review 30: 341 - 353. ELASHOFF, Janet D. (1971). “ Measures of association between a dichotomous and

continuous variable. Page 218 - 230 in American statistical association social statistics section, proceedings. Washinton: the association. FAIRLEY, William B; and MOSTELLER, Frederich (1977). “Statistics and public

policy“ Reading Mass: Addison - Wesley. GOODMAN, Leo A. (1959). “ Some alternatives ecological correlation “. American

journal of Sociology 64: 610 - 625. GOODMAN, Leo A. (1963). “ On methods for: comparing contingency tables “. Journal

of the royal statistical society series A 126: 94 - 108. KRUSKALL, William H. (1974). “ The ubiquity of statistics “. American Statistician 28

No. 1: 3-6. LARSEN, R., F. (1976). “ Stroup Statistics in the real world ”. Ed. Collier MacMillan.

N.Y. 128

R. Behar LEIK, Robert;

and GOVE, Walter

(1971).

“ Integrated approach to measuring

association page 279 - 301 in Hebert L. Costner (Editor) Sociological methodology, 1971. San Francisco: Jossey-Bass. MENDEZ, R.I.; NAMIHIRA, G.P.; MORENO, A.L. y SOSA DE M.C. (1984 1a

impresión. 1988 tercera reimpresión). “ El protocolo de investigación “.



Lineamientos para su elaboración y análisis “. Trillas, México. Pp.210. MENDEZ, R.I. (1986a). “ Causalidad en medicina “. Gaceta médica de México.

Vol.

122, Nos. 1 y 2. MENDEZ, R.I. (1989a). “ La ubicación de la Estadística en la metodología científica “.

Ciencia 40: 39 - 48. MOSTELLER, Frederick and TUKEY, John W. (1977) “ Data analysis and regression

: A second course in statistics “ Reading Mass : Addison Wesley. MOSTELLER, KRUSKALL, TANNUR. (1980). “ Statistics, a guide to unknown. Hol-

den day ”. NETER, John and Maynes E. Scott (1970). “ On the appropriateness of the correlation

coefficient with a 0 - 1 dependent variable. JASA, 65: 501 - 509. NIETO DE ALBA, Ubaldo (1974). “Introducción a la estadística descriptiva “. Editorial

Aguilar. Madrid, España . SCHMID, C.; SCHMID, S. (1979). “ Hand book graphic presentation. J. Wiley and Sons STURGES, Herbert A. (1926) “ The choice of a class interval ”. American Statistical

Association, Vol.21, Pp. 65 - 66. 129

Introducción al Análisis Exploratorio de datos TANUR, Judith M. et al (Editors) (1972). “ Statistics: a guide to the unknown”. San

Francisco: Holden - day. TUKEY, John W. (1970). 1977. “Exploratory data analysis” Reading Mass: Addison

Wesley. UNGER LEIDER H, SMITH C.C., (Febrero 1967) “ Use and abuse of Statistics,

geriatrics”, 22, 112 - 120. WESOLOWSKY, G. (1979). “ Multiple regression and analysis of variance ”. Wiley and

Sons, N.Y. YULLE-KENDALL. (1967). “Introducción a la estadística matemática”. Ed. Aguilar,

Madrid. ZINMERMAN, J. P. (1969). “ Statistical data and their use. Physical therapy ”, 49 301 -

130

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF