2-Fundamentos de Estadística
Short Description
Estadística para diseño de experimentos...
Description
CAPÍTULO 2 FUNDAMENTOS DE ESTADÍSTICA PARA EL DISEÑO Y ANÁLISIS DE EXPERIMENTOS 1. INTRODUCCIÓN Para recopilar, organizar y luego analizar los datos de experimentos diseñados se usa la estadística descriptiva e inferencial. La estadística descriptiva ayudará a determinar estadígrafos representativos del conjunto de datos recopilados, como los de posición, dispersión, comparación, asimetría y concentración. Por otro lado ayudará a establecer la información en cuadros bidimensionales, si existe interacción entre dos variables de entrada o variables de bloque. El fundamento de la Estadística Inferencial es el muestreo y las distribuciones de muestreo, por medio de los cuales se realizará una adecuada recopilación aleatoria de datos, y que éstos sean representativos de la población sujeta a estudio. Las pruebas de hipótesis e intervalos de confianza servirán para un adecuado análisis de los datos experimentales. A continuación se detallan los elementos principales de la Estadística que se usan en el análisis y diseño de experimentos. 2. DETERMINACIÓN DE LA POBLACIÓN, MUESTRA, CARACTERÍSTICAS Y SUS NIVELES DE MEDICIÓN 2.1. La población La Estadística estudia colectivos o poblaciones y las relaciones entre ellos. La población, colectivo o universo es el total de elementos, cosas o personas que f orman parte de la investigación experimental. Los ítems a determinar de una población están resumidos en el esquema de la Figura 2.2.1 Figura 2.2.1. Determinación de la población
Definición Unidad de estudio Población Tamaño Finito Carácter Infinito Definición de la Población: Si bien la determinación de la población podría haberse realizado en la fijación de los objetivos de la investigación, a veces se pasa de lado este punto importante, y por otro lado, no está demás hacerlo como primer paso del análisis estadístico. Queda claro que el investigador es el que define cuál es su población, es decir el conjunto de elementos que estarán sujetos a investigación. Si por ejemplo se quiere estudiar el número de productos defectuosos que está produciendo una máquina, la población estará constituida por todos los productos que la máquina produjo en un cie rto periodo de tiempo, que puede ser un lote. Unidad de Estudio: Se debe determinar la unidad poblacional que será objeto de estudio, pudiendo ser personas, empresas, cosas, productos, etc. Por ejemplo, si se quiere estudiar el impacto que ha tenido la implantación de la ISO 9000 en la eficiencia del personal, entonces la unidad de estudio son las personas; pero si se quiere conocer el impacto en un rubro determinado, la unidad de estudio serán las empresas. Tamaño: Mediante información obtenida en los archivos de la empresa, se puede determinar el tamaño de la población bajo estudio: Por ejemplo, si se está estudiando el número de productos defectuosos que fabrica una máquina, el plan de producción del mes arrojará c uántos productos se fabricaron. 15
Carácter: La población puede considerarse por sus elementos como: a) Población finita. Conjunto numerable numerable de elementos. b) Población infinita. Conjunto no numerable numerable o forma línea continua de puntos. Esta distinción distinción es teórica ya que siempre se trata con poblaciones de números finitos de elementos. Junto con el tamaño, es adecuado clasificar el tamaño poblacional en infinito o finito, ya que influirá en la determinación del tamaño muestral. En la práctica, un tamaño poblacional de más de 500000 se considera infinito. También se consideran poblaciones infinitas aquellas en las que no se puede conocer el número exacto de elementos que las componen, debido a que no existen registros, sin importar si el tamaño es pequeño o grande. 2.2. La muestra 2.2.1. Notación La muestra es un subconjunto representativo de la población. Se us a para realizar trabajos empíricos, en los que los universos no son manejables, para reducir costos y ahorrar tiempo, sin disminuir la calidad de información. El muestreo estadístico es un enfoque sistemático para seleccionar unos cuantos elementos representativos (una muestra) de un grupo de datos, a fin de hacer algunas inferencias sobre el grupo total (población). Para esta determinación, primero se deberá fijar la notación que se usará para distinguir entre población y muestra. Para describir muestras y poblaciones, se hace la siguiente distinción. Un estadístico es una característica de la muestra. Se usan letras minúsculas para los estadísticos. Un parámetro es una característica de la población. Se los representa mediante letras mayúsculas o griegas.
n, tamaño de la muestra , media de la muestra s, desviación estándar de la muestra N, tamaño de la población , media de la población , desviación estándar de la población
2.2.2. Tipos de Muestreo Hay dos tipos para seleccionar las muestras que provienen de poblaciones: a) b)
Probabilístico o aleatorio, cuando la muestra se selecciona de modo que cada integrante de la población población tenga una probabilidad conocida de ser incluido en la muestr a. No probabilístico probabilístico o de juicio, cuando no todos los integrantes integrantes tienen alguna probabilidad probabilidad de ser incluidos en la muestra. Se usa el conocimiento y la opinión personal para identificar los elementos de una población que se van a incluir en la muestra.
En la determinación de la muestra se debe decidir dos aspectos fundamentales: el tipo de muestreo a usar y el tamaño de la muestra. La Figura 2.2.2 nos aclara estos aspectos. Figura 2.2.2. Determinación de la muestra Métodos de muestreo
Muestreo aleatorio simple Aleatorio o probabilístico Tipo de muestreo Determinación de la muestra
Muestreo estratificado Muestreo por conglomerados
No Aleatorio o subjetivo Tamaño muestral
Muestreo sistemático
Muestreo de juicio Muestreo por cuotas Muestreo de oportunidad
16
2.3. Características de la población Son rasgos distintivos de los elementos de una población que se quieren estudiar. Pueden ser de carácter cualitativo o cuantitativo, de ahí la distinción en: variable o atributo. 2.3.1. Atributos. Son rasgos cualitativos de los elementos de una población. Pueden ser:
Ordinales. Referente al sentido de jerarquía u organización de elementos. Ejemplo: grados militares, cargos en una empresa, etc. Nominales. Rasgos sin capacidad de ordenación. Ejemplo: color de ojos, gusto, etc.
A las diferentes clasificaciones que pueden adoptar los atributos se les llaman modalidades o categorías. Los atributos se designan con las primeras letras mayúsculas del abecedario (A, B, C, etc.) y a sus modalidades con las minúsculas (a, b, c, etc.). 2.3.2. Variables. Son rasgos, características o propiedades cuantificables. Ejemplo: peso, edad, altura, etc. Las variables pueden ser:
Discretas. Si entre dos valores consecutivos no puede introducirse otro. Ejemplo: el número de mesas, sillas, casas, bienes producidos, etc. Continuas. Si entre dos valores consecutivos pueden introducirse infinitos valores. Ejemplo: altura, presión, etc.
Las variables se designan con las últimas letras mayúsculas del abecedario (X, Y, Z, etc.) y sus valores con las minúsculas (x, y, z, etc.). Un resumen de la clasificación de las c aracterísticas de la población se muestra en la Figura 2.2.3. Figura 2.2.3. Clasificación de las características de la población
Discreta Variables (Valores) Continua
Características de la población
Nominal Atributos (Modalidades) Ordinal 2.4. Niveles de medición Las distintas características de la población a investigar deben ser medidas adecuadamente, atendiendo a los siguientes niveles de medición. a) Nivel Nominal: Es el nivel más primitivo, bajo y limitado de medición. Hace referencia a los datos que solo pueden clasificarse en categorías, sin intervención de mediciones o escalas, solo mediante conteos. Para este nivel no existe orden particular para los grupos. Las categorías o modalidades se consideran mutuamente excluyentes y exhaustivas. Es el nivel de medición para atributos nominales. b) Nivel ordinal: Tiene las características del nivel anterior, pero difiere en que las categorías pueden ordenarse en una relación “mayor que”. Es el nivel de medición para atributos ordinales.
c) Nivel de intervalo: Incluye todas las características de la escala ordinal, pero además la distancia entre valores es de tamaño conocido y constante. Es el nivel de medición para variables discretas o continuas. 17
Ejemplo: Medición de temperatura en la escala centígrada. En esta escala el punto cero es arbitrario: 0 °C; no significa que haya ausencia de temperatura, sino solo un estado de frío. Si se registraron las siguientes temperaturas: 30 °C y 60 °C, puede decirse que en la segunda oportunidad hubo una temperatura 30 °C más cálida, pero no se puede afirmar que hizo dos veces más calor. d) Nivel de razón (o cociente): Es el nivel de medición más alto y sirve para variables discretas y continuas. Las principales diferencias entre el anterior nivel y éste son: 1. Los datos de nivel de razón tienen un punto cero significativo. 2. La razón o cociente de dos números es significativa. Ejemplo: El dinero. Tener cero pesos tiene un significado: no tengo nada de dinero. Si una persona gana 1000 $us y otra 4000 $us, la segunda gana 4 veces más que la primera. 3. RECOPILACIÓN DE DATOS EXPERIMENTALES 3.1. Procedimiento Generalmente, para recopilar datos experimentales, se toman los siguientes cuidados:
Preparar un formato de colección de datos con espacio para toda la información y los comentarios Programar el equipo requerido, el personal, los materiales, etc. Proporcionar capacitación a todos los involucrados en el desarrollo del experimento, incluyendo a los que corren los experimentos y toman las mediciones Etiquetar y guardar todas las muestras y resultados de ser posible Monitorear el desempeño del experimento físicamente, llevar bitácora registrando desviaciones Revisar los datos resultantes conforme se colectan y corregir cualquier error inmediatamente
3.2. Mediciones e instrumentos Para realizar mediciones generalmente se hacen uso de instrumentos. En física, química e ingeniería, un instrumento de medición es un aparato que se usa para comparar magnitudes físicas mediante un proceso de medición. Como unidades de medida se utilizan objetos y sucesos previamente establecidos como estándares o patrones y de la medición resulta un número que es la relación entre el objeto de estudio y la unidad de referencia. Los instrumentos de medición son el medio por el que se hace esta conversión. Dos características importantes de un instrumento de medida son la precisión y la exactitud. En ingeniería, ciencia e industria, se denomina precisión a la capacidad de un instrumento de dar el mismo resultado en mediciones diferentes realizadas en las mismas condiciones. Esta cualidad debe evaluarse a corto plazo. No debe confundirse con exactitud ni con reproducibilidad. Se denomina exactitud a la capacidad de un instrumento de medir un valor cercano al valor de la magnitud real. Suponiendo varias mediciones, no estamos midiendo el error de cada una, sino la distancia a la que se encuentra la medida real de la media de las mediciones (cuán calibrado está el aparato de medición). Esta cualidad también se encuentra en instrumentos generadores de magnitudes físicas, siendo en este caso la capacidad del instrumento de acercarse a la magnitud física real. Por ejemplo, sí se lee la velocidad del velocímetro de un auto, esta tiene una precisión de 3 cifras significativas y una exactitud de 5 Kph. Algunos otros términos que se usan en la especificación de instrumentos son los siguientes:
Campo de medida. Es el espectro o conjunto de valores de la variable que se mide comprendidos dentro de los límites superior e inferior de la capacidad del instrumento. Ej: el campo de medida de un termómetro clínico es de 35-41 °C. Alcance. Es la diferencia entre los valores superior e inferior del campo de medida del instrumento. Ej: el valor del alcance de un termómetro clínico es de 6°C. Zona muerta. Es el campo de valores de la variable que no altera la indicación de salida del instrumento. Se expresa en porcentaje del alcance de la medida. Ej: La zona muerta del termómetro clínico es de , es decir, .
18
Reproducibilidad. Es la capacidad de un instrumento de dar el mismo resultado en mediciones diferentes realizadas en las mismas condiciones a lo largo de periodos dilatados de tiempo. Esta cualidad debe evaluarse a largo plazo. Ésta es la gran diferencia con la precisión que debe, en cambio, ser evaluada a corto plazo. Repetibilidad. Es la capacidad de reproducción de las posiciones del índice del instrumento al medir repetidamente valores idénticos de la variable en las mismas condiciones de operación. Fiabilidad. Es la medida de la probabilidad de que un instrumento se siga comportando dentro de los límites especificados de error en condiciones específicas y a lo largo de un tiempo determinado. Estabilidad. Es la capacidad de un instrumento para mantener su comportamiento durante su vida útil y de almacenamiento especificadas. Temperatura de servicio. Es el campo de temperaturas en que se espera que trabaje el instrumento dentro de los límites de error especificados. Vida útil de servicio. Es el tiempo mínimo especificado durante el cual las características de servicio del instrumento no presentan cambios en su comportamiento más allá de las tolerancias especificadas. Ruido. Es cualquier perturbación no deseada que modifica la transmisión, control, indicación o registro de los datos que se desean.
Los científicos utilizan una gran variedad de instrumentos para llevar a cabo sus mediciones. Desde objetos sencillos como reglas y cronómetros hasta microscopios electrónicos y aceleradores de partículas. 3.3. Instrumentos de medición 3.3.1. Clases de instrumentos Los instrumentos se pueden clasificar usando distintos criterios:
De acuerdo al campo de aplicación. Instrumentos de oceanografía, de navegación, de topografía, etc. De acuerdo a su función. Instrumentos de detección, de control, de medición, de registro, etc. De acuerdo a la variable por medir. Instrumentos de presión, temperatura, fuerza, etc. De acuerdo al principio de operación. Instrumentos mecánicos, eléctricos, neumáticos, ópticos, etc.
Algunos instrumentos de medición clasificados de acuerdo a la variable por medir son: Para medir masa:
balanza báscula espectrómetro de masa catarómetro
Para medir tiempo:
calendario cronómetro reloj reloj atómico datación radiométrica
Para medir longitud:
cinta métrica regla graduada calibre vernier micrómetro reloj comparador interferómetro odómetro 19
Para medir ángulos:
goniómetro sextante transportador
Para medir temperatura:
termómetro termopar pirómetro
Para medir presión:
barómetro manómetro tubo de Pitot (utilizado para determinar la velocidad)
Para medir velocidad:
velocímetro anemómetro (utilizado para determinar la velocidad del viento) tacómetro (Para medir velocidad de giro de un eje)
Para medir propiedades eléctricas:
electrómetro (mide la carga) amperímetro (mide la corriente eléctrica) galvanómetro (mide la corriente) óhmetro (mide la resistencia) voltímetro (mide la tensión) vatímetro (mide la potencia eléctrica) multímetro (mide todos los anteriores valores) puente de Wheatstone osciloscopio
Para medir otras magnitudes:
caudalímetro (utilizado para medir caudal) colorímetro espectroscopio microscopio espectrómetro contador geiger radiómetro de Nichols sismógrafo pHmetro (mide el pH) pirheliómetro maculómetro
3.3.2. Calibrado de instrumentos La calibración de un instrumento es un proceso importante porque permite verificar dicho instrumento con respecto a un estándar conocido. Mediante la calibración se reducen los errores en las mediciones. El calibrado implica una comparación del instrumento en particular con: 20
Un estándar o patrón primario. Un patrón secundario con una exactitud más alta que la del instrumento por calibrar. Una fuente de señal de entrada conocida.
Con la calibración se establece firmemente la exactitud de los instrumentos. 3.4. Errores sistemáticos en el muestreo En cualquier investigación de tipo estadístico, además del error “involuntario” que se comete debido al muestreo, pueden introducirse otro tipo de errores llamados sistemáticos (que se los puede eliminar o minimizar al máximo), que se dividen en dos grupos. 3.4.1. Primer Grupo: errores de medición a) Imputables al objeto. Si se quiere determinar el peso medio de un grupo de personas, éste estará influenciado por la hora en la que se pesaron, la ropa que llevaban puesta, el tiempo desde que se pesaron, etc. b) Imputables al método. Si en el ejemplo anterior se utilizaron distintas balanzas para el pesaje, unas más precisas que otras, otras estando mal calibradas, etc., el peso estará influido por estos aspectos. c) Imputables al observador. Presentes cuando no se han fijado bien los límites. Si en el anterior ejemplo se quería saber también si la persona considera que tiene sobrepeso o no, algunas contestarán falsamente que se consideran estar en buen estado, cuando no es así. d) Errores de tabulación y cálculo. Que son los más frecuentes. Ocurren por fallas de dictado, copiado, escritura, o por fallas en los dispositivos para guardar la información o reproducirla. Si en el ejemplo anterior una de las balanzas estaba en pulgadas y se hizo la transformación a kilogramos con una base de conversión errónea, o se guardó los resultados en una planilla de datos, y para hallar la media se aplicó una fórmula errónea. Se puede dar el caso que todos los cálculos hayan sido correctos, pero la impresora falló y suministró datos distorsionados. 3.4.2. Segundo grupo: errores en la obtención de la muestra a) Selección incorrecta. En un estudio sobre los errores de fabricación que cometen obreros bolivianos dependientes, la inclusión en la muestra de un grupo de obreros independientes (ya que su situación no está catalogada de manera definida) podría hacer que la muestra no sea representativa. b) No respuesta. Algunas encuestas o datos del experimento no fueron llenadas completamente y existe una falta de respuesta. La práctica normal (pero que es incorrecta) es sustituir esta respuesta, preguntando a un elemento de la población que no fue seleccionado aleatoriamente o en otros casos, dejarla en blanco. c) Voluntarios. La cooperación de voluntarios en cualquier estudio, falsea fácilmente los resultados, ya que sus costumbres y características, en general, pueden no ser representativas de toda la población. 4. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS EXPERIMENTALES Los datos obtenidos mediante la aplicación de las técnicas de recolección conocidas deben ser tabulados y luego organizados siguiendo un criterio determinado a fin de presentarlos en cuadros de distribución de frecuencias, de acuerdo a la característica de la población que está siendo investigada, con el propósito de analizar la información, interpretarla y con base en ella tomar mejores decisiones. 4.1. Formas y tipos de distribuciones de frecuencias La distribución de frecuencias para atributos se presenta como dos tipos: para atributo nominal y para atributo ordinal. La distribución de frecuencias para variables, según el número de observaciones y valores diferentes que adopta la variable, puede presentarse como: a) Distribución de frecuencias tipo I. Si la distribución de frecuencias corresponde a pocas observaciones y pocos valores diferentes de la variable. Su presentación no exige una técnica determinada, ya que, casi no son susceptibles de tratamiento estadístico, puesto que, para que éste exista, es necesario un volumen masivo de 21
observaciones. b) Distribución de frecuencias tipo II. Cuando son muchas las observaciones y pocos los valores diferentes que adopta la variable. c) Distribución de frecuencias tipo IIII. Cuando el número de observaciones es grande y también lo es los valores diferentes que toma la variable observada. Para un mejor entendimiento de las formas y tipos de distribución de frecuencias, se desarrolla un diagrama mostrado en la Figura 2.4.1. Figura 2.4.1. Formas y tipos de distribuciones de frecuencias Nominales (Sin ordenación)
Atributos (cualitativos)
Ordinales (Se pueden ordenar)
Distribuciones de Frecuencias Tipo I Tipo II Tipo III
Variables (cuantificables)
Número de observaciones Pequeño Grande Grande
Número de valores diferentes Pequeño Pequeño Grande
Sin embargo, para la tabulación de datos experimentales, la variable de respuesta siempre será una variable, y el tipo de distribución de frecuencias será de tipo I, ya que se recopilarán un número pequeño de datos, debido principalmente a los costos en su obtención. 4.2. Distribución de frecuencias de variable tipo I Las distribuciones de variable son de tipo I cuando el número de observaciones y los valores diferentes de la variable son pocos. La organización de estos datos exige disponerlos en forma ascendente. La presentación de los datos se registra en una columna o en una línea, según necesidades de su publicación. Ejemplo: El número de productos sin defectos que fabricaron 5 obreros en una fábrica industrial, es como sigue. Organice y presente los datos. 5
20
37
3
10
Se trata de una variable continua. X = Cantidad de productos sin defectos. Se dispone los datos en forma ascendente.
La presentación de los datos anteriores se efectúa en forma de una columna, como lo muestra la Tabla 2.4.1. Tabla 2.4.1. Distribución de frecuencias del número de productos sin defectos de 5 obreros xi x1 = 3 x2 = 5 x3 = 10 x4 = 20 x5 = 37 La distribución tipo I de una variable se denomina también, distribución de frecuencia unitaria. Representación gráfica Las distribuciones tipo I no tienen representación gráfica, puesto que su frecuencia absoluta es unitaria. Sin embargo, puede ser útil el diagrama que muestra la densidad de las observaciones en un área específica (Gráfico 22
2.4.1): Gráfico 2.4.1. Densidad del número de productos sin defectos fabricados por 5 obreros
0
5
10
15
20
25
30
35
40
El gráfico de densidad muestra que la producción del quinto obrero es atípica, ya que la densidad de puntos está entre 3 y 20. 5. MEDIDAS DE RESUMEN DE DATOS EXPERIMENTALES 5.1. Introducción Las distribuciones de frecuencias se pueden resumir mediante estadígrafos de posición, dispersión, comparación y forma. Un esquema de los principales estadígrafos que resumen las distribuciones de frecuencias se muestra en la Figura 2.5.1. Figura 2.5.1. Estadígrafos de posición, dispersión, comparación y forma Atributos
Nominales
Posición
Ordinales
Posición
Estadígrafos
Variables
Ti o I Tipo II Ti o III
Moda Moda Mediana
Posición
Media aritmética Mediana Moda
Dispersión
Rango Desviación estándar Desviación cuartílica
Comparación
Coeficiente de variación Variable tipificada
Forma
Coeficiente de asimetría Coeficiente de curtosis
Sin embargo, para datos experimentales, como la variable de respuesta es una variable, y como los datos recopilados son pocos, a continuación sólo se describirán y desarrollarán las formas de cálculo para cada estadígrafo, para una distribución tipo I. 5.2. Estadígrafos de posición 5.2.1. Introducción La información que contiene cualquiera de las distintas distribuciones de frecuencias sobre los valores de una variable, es posible reducirla o condensarla utilizando estadígrafos o indicadores de posición central. Ejemplo: Para describir la temperatura en Cochabamba se dice que el promedio es de 24 oC, es decir un clima templado. Los principales indicadores de tendencia central son: Media aritmética Moda Mediana
23
5.2.2. Media aritmética Es un valor determinado en algún punto del recorrido de la variable. Este punto resulta ser el centro de gravedad de la distribución. En general se define como el valor que resulta de dividir los valores registrados de la variable entre el número de ellos. Este valor llamado media aritmética se simboliza por:
̅ ∑
5.2.3. Moda
La moda es el valor de la variable que responde a la frecuencia más alta. Se dice también que es el valor de la variable más frecuente. En las distribuciones tipo I, no existe posibilidad de hallar la moda, por que dicha distribución se dice que es de tipo unitaria. 5.2.4. Mediana Es un valor de la variable que permite distribuir en dos partes igualmente proporcionales a la distribución de frecuencias. De otra manera se dice que la mediana es un valor que supera a no más de 50% de los valores observados. El procedimiento para su cálculo para la distribución tipo I es: Se distinguen 2 casos: 1) Si el número de términos de la distribución es impar
Se ordenan los datos de la distribución en forma ascendente. El valor de la mediana corresponde al término central, es decir:
2) Si el número de términos de la distribución es par
Se ordenan los datos de la distribución en forma ascendente. El valor de la mediana es el promedio de los valores centrales previamente ordenados, es decir:
5.3. Estadígrafos de dispersión
5.3.1. Introducción Los estadígrafos de tendencia central permiten resumir la información definiendo la posición de la distribución de frecuencias. Sin embargo esta es una caracterización parcial de dichas distribuciones. La caracterización se completa, cuando además de conocer la posición también se conoce su dispersión. Los estadígrafos que permiten conocer en forma resumida la dispersión de una distribución se denominan indicadores de dispersión. Además de ello permiten evaluar la confiabilidad de un e stadígrafo de posición. Aun siendo la media aritmética el promedio más utilizado en la práctica, muchas veces puede dar lugar a falsas interpretaciones. Esto ocurrirá cuando no tenga suficiente grado de representatividad, es decir, cuando los valores de la variable estén poco concentrados, o lo que es lo mismo, muy dispersos a su alrededor. Entonces, poco podrá decir la media sobre la muestra en estudio. Es necesario acompañar la media aritmética con una medida del grado de dispersión de los valores de la variable a su alrededor, de forma que, cuanto mayor sea esta medida, menor será el grado de representatividad de la media y viceversa. 24
Los principales son:
El recorrido. La varianza y la desviación estándar. La desviación cuartílica o centílica
Por ejemplo, una caracterización completa de la temperatura de Cochabamba es: La temperatura media es de 22 °C, con una dispersión de 12 °C. Si la dispersión es muy grande, entonces la temperatura media no será un valor representativo. Dependiendo qué medida de tendencia central se elige, deberá ir acompañada con el estadígrafo de dispersión adecuado. A continuación se entregan estas relaciones:
Para comprender mejor qué es lo que involucra que exista una variación en los datos de una serie estadística, se describen aquí algunos aspectos importantes: 1. Cuánto más dispersos estén los datos, más aumentará el rango, la desviación estándar o la desviación cuartílica, y viceversa. 2. Si las observaciones son todas iguales (de manera que no hay variación en los datos) todos los estadígrafos de dispersión serán igual a cero. 3. Las medidas de dispersión nunca son negativas. 5.3.2. Recorrido o rango Se determina por la diferencia entre el valor máximo y el valor mínimo observados de la variable.
Esta medida de dispersión simple es de cálculo fácil, de uso común y significación concreta, para expresar la variabilidad observada en la distribución. Su uso es limitado cuando deben efectuarse comparaciones debido a las unidades diferentes en que se expresan las variables. Su desventaja es que solo toma en cuenta los valores extremos de la variable y no así todos ellos. Es eficaz y brinda una ayuda rápida para calcular la concentración en distribuciones uniformes. Por ejemplo, si una variable se distribuye uniformemente entre los límites 5 y 12, presentará mayor concentración que otra que se distribuya también uniformemente entre los límites 1 a 20. 5.3.3. Varianza La varianza de una distribución de frecuencia se determina por el promedio del cuadrado de las desviaciones de la variable.
5.3.4. Desviación estándar
̅ ∑ ̅ ∑
Es la raíz cuadrada positiva de l a varianza. 5.3.5. Desviación cuartílica Los cuartiles son los valores de la variable que dividen a la distribución en 4 partes proporcionalmente iguales, como lo muestra la Figura 2.5.1.
25
Figura 2.5.1. Disposición de los cuartiles en una distribución A.C. 25% Vmx
25% Q1
25%
25%
Q2 = Me
VMx
Q3
Nota: El segundo cuartil es igual a la mediana. A.C. es la amplitud cuartílica. El procedimiento para la distribución tipo I se puede deducir fácilmente de la metodología seguida para el cálculo de la mediana. La desviación cuartílica es:
5.3.6. Desviación centílica
Los centiles son los valores de la variable que dividen a la distribución en 100 partes iguales, como se muestra en la Figura 2.5.2. Figura 2.5.2. Disposición de los centiles en una distribución A.Cn. 10%
40%
C10
10%
40% Q2 = C50 = Me
C90
Nota: El cuartil 2 es igual al c entil 50 y a la mediana. El cuartil 3 es igual al centil 75 y el cuartil 1 al centil 25. A.Cn . es la amplitud centílica. Nota: Por medio de los centiles, el investigador puede no sólo calcular los límites del 80% central de la distribución, sino de cualquier porcentaje que sea adecuado para sus conclusiones. 5.3.7. Diagrama de caja y bigotes En su forma más simple, un diagrama de caja y bigotes proporciona una representación gráfica de los datos, mediante el resumen de cinco valores: valor mínimo, cuartil 1, mediana, cuartil 3 y valor máximo de la variable. A continuación en la Figura 2.5.3 se muestra un diagrama de caja y bigotes Se puede observar que la caja contiene el 50% central de los datos de la distribución, c on los límites expresados por el cuartil 1 y el cuartil 3. La mediana divide a la distribución en dos partes proporcionalmente iguales. Por otro lado, las líneas que van desde la caja hasta el valor mayor y menor de la variable, son los bigotes. Figura 2.5.3. Diagrama de caja y bigotes Valor menor
Q1
Me
26
Q3
Valor mayor
El gráfico indica que la distribución está levemente sesgada a la izquierda, ya que el bigote izquierdo es de mayor magnitud al derecho. Por otro lado la mediana está levemente cerca del lado derecho de la caja, lo que confirma el sesgo. 5.4. Estadígrafos de comparación 5.4.1. Introducción En muchos casos de distribuciones de frecuencias de una variable, éstas no son comparables utilizando la medias y la varianzas respectivas, por las distintas unidades en que están expresadas las variables. Entonces es necesario construir indicadores que no estén influidos por dichas unidades. En este caso se construyen razones tales como el coeficiente de variación y la variable tipificada o estandarizada como índices que permiten comparar entre distribuciones de frecuencias de una variable. 5.4.2. Coeficiente de variación El coeficiente de variación permite expresar la dispersión de la distribución de frecuencias por unidad de media aritmética. Este coeficiente se obtiene dividiendo la desviación estándar entre la media aritmética. Se simboliza por CV y su expresión es:
̅
En general este coeficiente se usa cuando los valores de las medias aritméticas y las varianzas entre dos distribuciones no son iguales. Permite determinar la dispersión relativa porcentual o el grado de homogeneidad de una distribución. El mayor valor del coeficiente de variación expresa una mayor dispersión en la distribución. Si se expresa en porcentaje sus valores van desde 0 a valores mayores a 100. 5.4.3. Variable tipificada o estandarizada Es el resultado de transformar una variable en otra utilizando un cambio de variable de manera que su media aritmética sea igual a cero y su varianza igual a uno. La variable tipificada (z) resulta de dividir la desviación de un valor de la variable respecto de su media aritmética entre la desviación estándar.
̅
La variable tipificada se usa para determinar la posición relativa entre los valores correspondientes a distribuciones de frecuencias diferentes. La variable tipificada o estandarizada es un cambio de variable fundamental en la inferencia estadística, porque constituye la base del muestreo a través del teorema central del límite. 5.5. Estadígrafos de forma o concentración 5.5.1. Introducción Las medidas de forma o concentración permiten conocer qué forma tiene la curva que representa la serie de datos de una distribución de frecuencias. En concreto, podemos estudiar las siguientes características de la curva: a) Asimetría: mide si la curva tiene una forma simétrica, es decir, si respecto al centro de la misma (centro de simetría) los segmentos de curva que quedan a der echa e izquierda son similares. b) Curtosis: mide si los valores de la distribución están más o menos concentrados alrededor de los valores medios de la muestra. 5.5.2. Asimetría La asimetría de una distribución puede ser determinada mediante las siguientes reglas: 27
Si una distribución de frecuencias es simétrica, se dice que no tiene sesgo o su sesgo es nulo. Se dice que una distribución presenta sesgo positivo cuando la media es mayor que la mediana o moda, debido a observaciones grandes. Se dice que una distribución presenta sesgo negativo cuando la media es la menor de los tres promedios, por observaciones pequeñas.
Un diagrama que muestra los diferentes grados de simetría es el representado en la Figura 2.5.4. Figura 2.5.4. Tipos de asimetría de una distribución
Eje de simetría
Eje de simetría
Eje de simetría
Curva simétrica
Asimétrica Positiva
Asimétrica Negativa
La medición de la asimetría se realiza mediante el coeficiente de Pearson:
̅
dónde: un valor positivo indicará que la distribución tiene sesgo positivo. un valor negativo indicará que la distribución tiene sesgo negativo. un valor de cero, indicará que la distribución es simétrica. Cuanto más alejado esté el valor del cero, más asimetría tendrá la distribución. Si el CA está dentro de los valores , se considera que la distribución es aproximadamente normal.
5.5.3. Curtosis La curtosis mide el grado de agudeza de una distribución. Analiza el grado de concentración que presentan los valores alrededor de la zona central de la distribución. Se definen 3 tipos de distribuciones según su gra do de curtosis:
Distribución mesocúrtica: presenta un grado de concentración medio alrededor de los valores centrales de la variable (el mismo que presenta una distribución normal). Distribución leptocúrtica: presenta un elevado grado de concentración alrededor de los valores centrales de la variable. Distribución platicúrtica: presenta un reducido grado de concentración alrededor de los valores centrales de la variable.
Se muestra a continuación los distintos grados de curtosis (Figura 2.5.5) Figura 2.5.5. Grados de curtosis de una distribución
Eje de simetría
Leptocúrtica (Delgado)
Eje de simetría
Eje de simetría
Mesocúrtica (Intermedio)
El Coeficiente de Curtosis viene definido por la siguiente fórmula: 28
Platicúrtica (Aplanado)
̅ ∑ [ ∑ ̅]
donde los resultados pueden ser los siguientes: g2 = 0 (distribución mesocúrtica). g2 > 0 (distribución leptocúrtica). g2 < 0 (distribución platicúrtica). 5.6. Ejemplo de cálculo de estadígrafos
El número de productos defectuosos de varios lotes de producción de una empresa sigue la siguiente distribución (Tabla 2.5.1). Tabla 2.5.1. Productos defectuosos de una fábrica xi 10 12 15 16 20 21 25 Total = 119
xi 100 144 225 256 400 441 625 2191
̅ ̅ 49 25 4 1 9 16 64 168
2401 625 16 1 81 256 4096 7476
Para la distribución tipo I de variables, prácticamente se pueden determinar todos los estadígrafos, menos la moda.
̅ ( )
Interpretación: El número promedio de productos defectuosos producidos por lote en la fábrica es de 17 con una dispersión de 5. La dispersión relativa es de 28.82%.
Interpretación: El número mediano de defectuosos de la fábrica por lo te es de 16 con una dispersión de 4.
Interpretación: La distribución es asimétrica con sesgo positivo, y es platicúrtica.
29
6. MUESTREO Y DISTRIBUCIONES MUESTRALES 6.1. Conceptos 6.1.1. Muestreo El muestreo estadístico es un enfoque sistemático para seleccionar unos cuantos elementos representativos (una muestra) de un grupo de datos, a fin de hacer algunas inferencias sobre el grupo total (población). Como esta muestra aporta datos bastantes confiables, no es necesario seleccionar el total. Algunas razones para el muestreo son:
Naturaleza destructiva de ciertas pruebas. Imposibilidad física de revisar toda la población. El costo de estudiar a toda la población es muy alto. Los resultados de la muestra son bastante fiables. Se necesita mucho tiempo para muestrear a toda la población.
6.1.2. Estadísticos y parámetros Para describir muestras y poblaciones, se hace la siguiente distinción: Un estadístico es una característica de la muestra. Se usa l etras minúsculas para los estadísticos:
n, tamaño de la muestra. , media de la muestra s, desviación estándar de la muestra
Un parámetro es una característica de la pobla ción. Se los representa mediante letras mayúsculas o griegas:
N, tamaño de la población , media de la población , desviación estándar de la población
6.2. Tipos de muestreo Hay dos tipos para seleccionar las muestras que provienen de poblaciones: Probabilístico o aleatorio, cuando la muestra se selecciona de modo que cada integrante de la población tenga una probabilidad conocida de ser incluido en la muestra. No probabilístico o de juicio, cuando no todos los integrantes tienen alguna probabilidad de ser incluidos en la muestra. Se usa el conocimiento y la opinión personal para identificar los elementos de una población que se van a incluir en la muestra. 6.2.1. Métodos de muestreo aleatorio Los métodos de muestreo aleatorio tienen el objetivo de permitir que el azar determine los integrantes de la muestra. Son: 6.2.2. Muestreo aleatorio simple (MAS) En el MAS, se seleccionan las muestras mediante métodos que permiten a cada muestra tener igual probabilidad de ser seleccionada y a cada elemento de la población tener igual probabilidad de quedar incluido en la muestra. Para este fin se utilizan las tablas de números aleatorios, que han sido generadas por un proceso aleatorio, en la cual para cada dígito de un número, la probabilidad de que tenga el valor de 0, 1, 2, 3,... ó 9 es la misma y la probabilidad de que ocurra una secuencia de dígitos es idéntica a la de cualquier otra secuencia con la misma extensión. Una tabla de números aleatorios se muestra en el anexo de tablas estadísticas al final del texto. 30
6.2.3. Muestreo sistemático Se usa cuando el procedimiento del MAS puede ser difícil de usar en algunos casos, sea por tiempo o dinero. Difiere del MAS en que cada elemento tiene igual probabilidad de ser seleccionado, pero cada muestra no tiene esa misma posibilidad. En este muestreo se seleccionan los elementos de la población con un intervalo uniforme en el tiempo, en el orden o en el espacio. La desventaja de este muestreo es que no se puede usar si hay un patrón determinado o secuencial en la población. 6.2.4. Muestreo estratificado Para aplicarlo se divide la población en grupos homogéneos relativos, llamados estratos. Después se recurre a uno de dos métodos posibles:
Seleccionar al azar en cada estrato un número especificado de elementos correspondientes a la proporción del estrato de la población total. Extraer un número igual de elementos de cada estrato y ponderar los resultados de acuerdo con la proporción del estrato en la población total.
El muestreo estratificado garantiza que todos los elementos de la población tengan una posibilidad de ser seleccionados. Es adecuado cuando la población ya está dividida en grupos de diferentes tamaños. Cuando se diseñan bien, reflejan más exactamente las características de la población de donde se extrajeron que otras clases de muestreo. 6.2.5. Muestreo por conglomerados Para aplicarlo dividimos la población en grupos o conglomerados y luego seleccionamos una muestra aleatoria de ellos. Se supone que esos conglomerados son representativos de la población. 6.2.6. Diferencias entre el muestreo estratificado y el de por conglomerados Tanto en el muestreo estratificado como en el de por conglomerados, la población está dividida en grupos definidos, pero existen las siguientes diferencias:
Se usa el estratificado, cuando cada grupo presenta una pequeña variación en su interior, pero existe una amplia variación entre ellos (La intervarianza es mayor que la i ntravarianza). Se usa el de por conglomerados en el caso contrario: cuando se advierte considerable variación dentro de cada grupo, pero los grupos son esencialmente semejantes entre sí (La intravarianza es mayor que la intervarianza).
6.3. Distribuciones de muestreo 6.3.1. Introducción La distribución de probabilidad de todas las medias posibles de las muestras es una distribución de medias muestrales. A esto, los estadísticos la llaman distribución muestral de la media. El error estándar es la desviación estándar de la distribución de la medias muestrales, que mide el grado en que esperamos que las medias de las diferentes muestras varíen por el error accidental en el proceso de muestreo. 6.3.2. Distribución de las medias muestrales Se quiere conocer la vida media de unos focos producidos por cierta fábrica. Para ello se extrae una serie de muestras y se calcula la vida media de cada foco en cada una de ellas. Es poco probable que todas las medias muestrales sean iguales, sino que cabe esperar ver alguna variabilidad en las medias observadas. Dicha variabilidad en el estadístico muestral resulta del error por muestreo debido al azar. Existen diferencias entre cada muestra y la población, lo mismo que entre las varias muestras tomadas. A continuación se explicará mejor este proceso: a) Se hace la suposición que la distribución de la población de la duración de los focos de esta empresa, en horas es la siguiente (Gráfico 2.6.1): 31
Gráfico 2.6.1. Distribución de la población de la duración de focos (horas)
y
b) Para llegar a conocer estos parámetros poblacionales, se toman todas las muestras posibles de tamaño 10. Se calcula la media y la desviación estándar de cada una de las muestras. Se puede constatar que ninguna de las medias muestrales será la misma que la media poblacional, pero tenderán a estar cerca (Gráfico 2.6.2). Gráfico 2.6.2. Distribuciones muestrales de tamaño 10 de la duración de focos (horas)
y
y
y
c) Se determina una distribución de todas las medias de cada muestra que se tomó, llamada distribución de medias muestrales (Gráfico 2.6.3): Gráfico 2.6.3. Distribución de las medias muestrales de la duración de focos (horas)
La distribución muestral de las medias que se obtiene al tomar todas las muestras es una distribución teórica de muestreo. En la práctica, los estadísticos han constatado que es suficiente tomar una muestra para obtener esta distribución. Como se puede advertir, la media de la s medias muestrales es igual a la poblacional y el error estándar es igual a la desviación de la población, divida entre la raíz cuadrada del tamaño muestral. Es de esa manera que se pueden determinar los parámetros poblacionales. 6.3.3. Muestreo de poblaciones normales El muestreo de poblaciones normales sigue las siguientes propiedades:
La distribución de muestreo tiene una media igual a la media poblacional: La distribución de muestreo tiene una desviación estándar: llamada error estándar. La distribución de muestreo está distribuida normalmente.
√
El ejemplo anterior muestra estas características, ya que la población de la vida media de los focos se distribuía normalmente. Se puede observar que las distintas distribuciones muestrales no están distribuidas normalmente, pero la distribución de medias muestrales está distribuida normalmente.
32
6.3.4. Muestreo de poblaciones no normales ¿Cómo reacciona la distribución de la media cuando la población de donde se extraen las muestras no es normal? Esta pregunta se puede contestar gracias al teorema central del límite. 6.4. Teorema central del límite Las principales conclusiones del teorema central del límite son las siguientes:
La media muestral es igual a la media poblacional prescindiendo del tamaño de la muestra, aún cuando la población no sea normal. Al ir creciendo el tamaño de la muestra, la distribución muestral de la media se acercará a la normalidad, cualquiera que sea la forma de la d istribución de la población. La relación existente entre la forma de la distribución de la población y la forma de la distribución muestral de la media recibe el nombre de teorema central del límite. Este, garantiza que la distribución muestral de la media se acerque a la distribución normal a medida que c rece el tamaño de la muestra. La importancia del teorema central del límite es que nos permite usar el estadístico muestral para hacer inferencias sobre los parámetros de la población, sin conocer nada sobre la forma de la distribución de esa población.
6.5. Tamaño de la muestra y error estándar A medida que disminuye el error estándar, el valor de cualquier media muestral probablemente se acerque más al de la media de la población. Conforme decrece el error estándar, aumenta la precisión con que la media muestral puede emplearse para estimar la media de la población. Sin embargo, se debe tomar en cuenta que el incremento de la precisión no justifica el incremento adicional en el costo del muestreo. Rara vez conviene extraer muestras excesivamente grandes. 6.6. Multiplicador de población finita Para muestras que provienen de poblaciones infinitas o finitas con reposición el error estándar es:
√
Para muestras que provienen de poblaciones finitas, el error estándar es:
√ dónde: N, tamaño de la población n, tamaño de la muestra
Se usa el multiplicador si la fracción de muestra es mayor o igual a 0,05. Ejemplo Una cooperativa está constituida por una población de 20 compañías textiles del mismo tamaño, todas las cuales sufren una excesiva rotación de personal. La desviación estándar de la distribución de la rotación anual es de 75 empleados. Se muestrea 5 de esas compañías. a) Calcular el error estándar. b) Si la cooperativa crece y se asocian 90 compañías más, calcule el error estándar, si se muestrean 5 compañías. a) La fracción finita.
es mayor a 0,05. Por lo tanto el error estándar debe ir con el multiplicador de población
√ 33
es menor a 0,05. Por lo tanto no se usa el multiplicador de población finita por ser
b) La fracción cercano a 1.
√ El valor del error estándar no varía mucho si se incluye o no el multiplicador.
34
EJERCICIOS DE CLASE Clasificación de las características de la población 1. Clasifique las siguientes características de la población como variables (discretas o continuas) o atributos (nominales u ordinales). También diga el nivel de medición que se usaría en cada caso (nominal, ordinal, de intervalo o de razón). a) b) c) d) e) f) g) h) i) j) k) l) m) n) o) p) q) r)
Alumnos que aprobaron todas sus materias el anterior semestre en la UPB. Número de kilómetros que una persona normal camina diariamente. Grado de dificultad que los alumnos de la UPB tienen en Matemáticas. Preferencia en la vestimenta. Calidad de grabación de un CD. Marcas de refrescos. Tamaño de una silla. Número de personas matriculadas al final del período de inscripción. Flujo vehicular en la calle Heroínas de Cochabamba. Razas del mundo. Grado de educación. Número de hijos promedio de las familias cochabambinas. Consumo de agua diario. Número de piezas producidas por una máquina industrial. Peso promedio de una bolsa de cemento COBOCE. Temperatura del horno de esmaltado de FABOCE. Barriles por día de fuel oíl producidos por una planta refinadora de petróleo. Porcentaje de ausentismo en una fábrica.
Organización y resumen de datos experimentales 2. Para mejorar el torno controlado por computadora del ejercicio 2, se recabaron datos sobre las desviaciones de la velocidad de corte con respecto al valor deseado y ajustado por el controlador. Los siete valores observados de velocidad de corte – velocidad deseada fueron: 3, 6, -2, 4, 7, 4, 3 Presente los datos en una distribución de frecuencias adecuada y diga qué datos son los que se desearía eliminar. También determine todos los estadígrafos para resumir la distribución. 3. Las lecturas de temperatura que dio una termocupla de un horno industrial en ºC, son: 16
25
34
43
52
61
Calcule la mediana y la media aritmética; la desviación estándar, el coeficiente de variación, la asimetría y la curtosis. 4. En muchos procesos de manufactura hay un término llamado”trabajo en proceso” (abreviado WIP, por sus siglas en inglés de work-in-process) En una planta manufacturera de libros esto representa el tiempo que se necesita para doblar, unir, coser, proteger con guardas, y encuadernar las hojas que salen de la prensa. Los siguientes datos representan muestras de 20 libros en dos plantas de producción y el tiempo de procesamiento (definido como el tiempo en días contado desde que el libro llega a las prensas hasta que se empaca en cajas) para estas actividades. 5,62 11,62 9,54 5,75
5,29 7,29 11,46 12,46
16,25 7,50 16,62 9,17
10,92 7,96
Planta A 11,46 21,62 4,42 10,50
8,45 7,58
8,58 9,29
5,41 7,54
11,42 8,92
12,62 13,21
Planta B 25,75 15,41 6,00 2,33
14,29 14,25
13,13 5,37
13,71 6,25
10,04 9,71
35
Para cada una de las plantas, calcule: a) b) c) d) e) f) g) h)
La media aritmética. La mediana. Primer y tercer cuartil. El rango intercuartílico. La desviación estándar. El coeficiente de variación. El coeficiente de asimetría. El coeficiente de curtosis.
Muestreo y distribuciones muestrales 5. De una población de 125 elementos, con una media de 105 y una desviación estándar de 17, se eligieron 64 elementos. a) ¿Cuál es el error estándar de la media? b) ¿Cuál es la probabilidad: c) ¿Cuál es la probabilidad:
?
6. ¿Cuantas muestras de tamaño 2 es posible obtener de una población compuesta por los elementos: a, b, c, d, e, f, g y h. ¿Cuál es la probabilidad de que la muestra incluya al elemento representado por la letra h? 7. Usted, como administrador de personal de una pequeña compañía recogió la siguiente información de los días de ausentismo por año de la población de sus empleados: 1, 3, 6, 7, 7, 12 a) Suponiendo que se muestrea sin reposición, seleccione todas la muestras posibles de tamaño 3 y establezca la distribución muestral de la media. b) Calcule los parámetros de la población y los estadísticos de la distribución muestral de la media. ¿Qué conclusión puede sacar al compararlas? 8. Un equipo de salvamento submarino se prepara para explorar un sitio mar adentro frente a la costa de Florida, donde su hundió una flotilla entera de 45 galeones españoles. A partir de registros históricos, el equipo espera que estos buques naufragados generen un promedio de 225000 $ de ingresos cada uno cuando se exploren, con una desviación estándar de 39000 $. El patrocinador del equipo, sin embargo, se muestra escéptico y ha establecido que si no se recuperan los gastos de exploración, que suman 2.1 millones de $ con los primeros 9 galeones naufragados, cancelará el resto de la exploración. ¿Cuál es la probabilidad de que la exploración continúe una vez explorados los 9 primeros barcos? 9. Food Place, una cadena de 145 supermercados, fue comprada por otra mayor del mismo rubro que opera a nivel nacional. Antes de que el trato se realice, la cadena mayor quiere tener alguna seguridad de que Food Place será redituable. La cadena compradora ha decidido echar un vistazo a los registros financieros de 36 de las tiendas de Food Place. El gerente de ésta, afirma que las ganancias de cada tienda tienen una distribución aproximadamente normal con la misma media y una desviación estándar de 1200 $. Si la gerencia de Food Place está en lo correcto, ¿cuál es la probabilidad de que la media de la muestra de las 36 tiendas se encuentre cerca de los 200 $ de la media real? 10. La media del número de estudiantes mujeres en cada materia de la impartida en la UPB es 18 con una desviación de 8. a) Se toman al azar 10 materias. ¿Cuál es la probabilidad de encontrar 20 o más estudiantes mujeres en promedio? ¿Se requiere del teorema central de límite para resolver este inciso? b) Si se asume que la distribución poblacional del número de estudiantes mujeres en cada materia en la UPB es normal, hallar la misma probabilidad en una materia cualquiera. Compare los resultados con el inciso anterior y haga un comentario.
36
11. El número de millas recorridas antes de que cierta clase de llantas empiece a verse gastada es en promedio, 16.800 millas con una desviación estándar de 3.300 millas. Una agencia de arrendamiento de automóviles compra 36 de estas llantas para cambiar las de algunos vehículos y pone cada una en un vehículo diferente. a) Encuentre la probabilidad de que las 36 llantas promedien menos de 16000 millas antes de verse gastadas. b) Encuentre la probabilidad de que las 36 llantas promedien más de 18000 millas antes de verse gastadas.
37
EJERCICIOS PROPUESTOS 1. Los sueldos en $us de 5 empleados de la Alcaldía de Cochabamba son: 176
200
170
196
210
215
Halle la media, el recorrido y la desviación estándar de la distribución. 2. Las edades de los 11 jugadores de un equipo de fútbol (A) son: 19, 35, 24, 30, 26, 27, 29, 21, 26, 24, 33 y las de los otros 11 jugadores de otro equipo (B): 29, 29, 32, 26, 31, 25, 23, 25, 30, 20, 24 Halle todos los estadígrafos de las dos distribuciones.. 3. Identifique cada uno de los siguientes métodos de muestreo: a) La población de interés está en orden alfabético. Iniciando con el séptimo apellido, cada décimo nombre de ahí en adelante se seleccionó como elemento de la muestra. Por tanto, la muestra consta de los números 7, 17, 27, 37, y así sucesivamente. b) Un distrito extenso se subdividió en 16 áreas. Después 5 de estas áreas se seleccionaron aleatoriamente, y también se seleccionaron al azar para ser entrevistados los residentes de estas 5 regiones. c) Los ejecutivos se subdividieron en tres grupos: bancarios, industriales y de seguros. Se tomaron muestras aleatorias de cada uno de estos grupos, y se ponderaron los resultados muestrales de acuerdo con el número en el grupo, en relación con el total. 4. El Dr. Lambert tiene a cinco estudiantes que realizaron estudios especiales con él este semestre. Para evaluar el avance de lectura, el doctor aplica un examen de cinco preguntas con respuestas verdadero/falso. El número de respuestas correctas para cada estudiante se presenta a continuación. Estudiante Torres Cuevas Flores Ramos Campos a) b) c) d) e)
Número correcto 4 3 5 3 2
¿Cuántas muestras de tamaño dos son posibles con esta población? Enliste todas las muestras posibles de tamaño dos y calcule las medias muestrales. Organice las medias muestrales en una distribución probabilística. Calcule la media de las medias muestrales y compárela con la media poblacional. Compare la forma de la población, con la forma de la distribución de las medias muestrales por medio de gráficas.
5. Un técnico de laboratorio de rayos X toma lecturas de su máquina para asegurarse de que ésta se apega a las guías de seguridad federal. Sabe que la desviación estándar de la cantidad de radiación emitida por la máquina es de 150 milirems, pero desea tomar lecturas hasta que el error estándar de la distribución de muestreo no sea mayor de 25 milirems. ¿Cuántas lecturas debe tomar? 6. Dada una población de tamaño N = 80 con una media de 22 y una desviación estándar de 3.2, ¿cuál es la probabilidad de que una muestra de 25 tenga una media de entre 21 y 23 ,5? 7. Al revisar las ventas habidas desde la apertura de un restaurante hace seis meses, el dueño encontró que la cuenta promedio por pareja era de 26$, con una desviación estándar de 5,65$. ¿Qué tan grande tendría que ser una muestra de clientes para que la probabilidad fuera de al menos 95,44% de que el costo medio por comida para la muestra cayera entre 25$ y 27$? 38
8. Low-Cal Food Company usa estimaciones del nivel de actividad de los diversos segmentos del mercado para determinar la composición nutricional de sus productos de comida dietética. Low-Cal está considerando la introducción de una comida dietética líquida para mujeres maduras, puesto que este segmento tiene problemas especiales de peso no resueltos por la comida dietética de su competidor. Para determinar el contenido deseado de calorías de este nuevo producto, la doctora Nell Watson, investigadora de la compañía, condujo pruebas sobre una muestra de mujeres para determinar el consumo de calorías por día. Sus resultados mostraron que el número promedio de calorías consumidas diariamente por las mujeres mayores es de 1328, con una desviación estándar de 275. La doctora Watson estima que los beneficios que obtiene con un tamaño de muestra de 25 costarían 1720$. Espera que al reducir el error estándar a la mitad de su valor actual se duplique el beneficio. Si el costo es de 16$ por cada mujer de la muestra, ¿debería Watson reducir su error estándar? 9. La HAL Corporation fabrica grandes sistemas de cómputo y siempre se ha ufanado de la confiabilidad de sus unidades de procesamiento central del sistema 777. De hecho, la experiencia pasada ha mostrado que el tiempo improductivo mensual de las CPU del sistema 777 promedia 41 minutos, con una desviación estándar de 8 minutos. El centro de cómputo de una gran universidad estatal mantiene una instalación formada por 6 CPUs del sistema 777. James Kitchen, el director del centro, siente que se proporciona un nivel satisfactorio de servicio a la comunidad universitaria si el tiempo improductivo promedio de los 6 CPU es menor de 50 minutos al mes. Dado cualquier mes, ¿cuál es la probabilidad de que Kitchen se sienta satisfecho con el nivel de servicio? 10. Con base en sus volúmenes de ventas, 18 de las tiendas de ropa del shoping Soffer se clasifican como pequeñas y las otras 6 como grandes. ¿Cuántas muestras estratificadas diferentes de 4 de estas tiendas de ropa podemos seleccionar, si: a) se debe distribuir la mitad de la muestra a cada estrato; b) la distribución debe ser proporcional? 11. Suponga que usted es un investigador que ha sido contratado por la empresa cafetalera Columbian Cofee Corporation. La empresa está interesada en determinar el porcentaje de c onsumo de café por casa en Estados Unidos. Cree que el consumo anual por casa está n ormalmente distribuido con una media desconocida y una desviación estándar de aproximadamente 1,25 libras. a) Si usted toma una muestra de 36 casas y registra su consumo de café durante un año, ¿cuál es la probabilidad de que la media de la muestra esté en el intervalo de media libra de la media de la población?. b) ¿Qué tan grande debe ser la muestra que usted tome con el fin de estar 98% seguro de que la media de la muestra está en el intervalo de media libra de la media de la población? 12. Barbara Johnson, gerente de producción de alarmas de humo de Southern Electric, está preocupada por las quejas que ha recibido recientemente de grupos de consumidores acerca de la corta vida del dispositivo. Ha decidido recabar la evidencia para contrarrestar las quejas probando una muestra de alarmas. En cuanto a la prueba su costo será de 4$ por unidad en la muestra. La precisión es deseable para presentar evidencia estadística persuasiva a los grupos de consumidores, de tal manera que Johnson considera que los beneficios que recibirá para los diversos tamaños de muestras son determinados por la fórmula: . Si la
señorita Johnson desea aumentar su muestra hasta que el costo sea igual al beneficio, ¿cuántas unidades debe muestrear?. La desviación estándar poblacional es 265. 13. Ron Blake, director de recursos humanos de una empresa, desea estudiar el nivel de precisión de las 70 secretarias de su compañía. Anteriormente el número diario de errores de procesamiento de palabras cometido por cada secretaria había sido aproximadamente normal con un promedio de 18 y una desviación estándar de 4. El señor Blake inspecciona actualmente a 15 secretarias elegidas aleatoriamente. ¿Cuál es la probabilidad de que el número promedio de errores p or secretaria sea: a) Inferior a 15,5. b) Mayor de 20?.
39
View more...
Comments