Separata de Bioestadística i 2016
Short Description
Descripción: bioestadistica...
Description
UNIVERSIDAD NACIONAL DE SAN CRISTÓBAL DE HUAMANGA FACULTAD DE CIENCIAS BIOLÓGICAS
ESCUELA PROFESIONAL DE BIOLOGÍA
BIOESTADÍSTICA I SEPARATA I ESTADÍSTICA DESCRIPTIVA
Prof. Reynán Cóndor Alarcón
2016
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
2
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Contenido BIOESTADÍSTICA ...................................................................................................................... 7
I.
1.1.
Estadística y bioestadística ............................................................................................... 7
1.2.
Objeto de estudio. .............................................................................................................. 7
1.3.
Estadística descriptiva y estadística inferencial. ........................................................... 7
1.4. Conceptos básicos ...................................................................................................................... 8 1.5
Importancia de la Estadística.......................................................................................... 12
1.6 La bioestadística en la investigación científica. ................................................................ 13 LOS DATOS .............................................................................................................................. 15
II.
2.1.
Observación ...................................................................................................................... 15
2.2.
Datos .................................................................................................................................. 15
2.3.
Recolección de datos ....................................................................................................... 15
2.4.
Sistema y fuentes de información .................................................................................. 15
2.5.
Población ........................................................................................................................... 16
2.6.
Muestra .............................................................................................................................. 16
2.7.
Elaboración de los datos ................................................................................................. 17
2.8.
Mecanismos para presentar, tabular y graficar datos ................................................. 23
2.9.
Distribución de frecuencias (Tablas de frecuencia) ............................................................ 26
2.10 Diagrama de Tallos y Hojas ............................................................................................ 43 III.
ANÁLISIS E INTERPRETACIÓN DE DATOS ................................................................................. 45
3.1.
Análisis descriptivo. ............................................................................................................. 45
3.2.
Medidas estadísticas........................................................................................................ 45
3.3.
Medidas de tendencia central......................................................................................... 45
3.4.
Percentiles ....................................................................................................................... 50
3.5.
Medidas de Variabilidad o de dispersión. ..................................................................... 51
3.5.1 Rango o intervalo de variación ........................................................................................... 52 3.5.2 La varianza .......................................................................................................................... 52 3.5.3 La desviación estándar ....................................................................................................... 54 3.5.4 Coeficiente de variabilidad ................................................................................................. 54 3.6.
Medidas de asimetría....................................................................................................... 56
3.6.1 Formas de una distribución ................................................................................................ 56 3.6.2 Variables ordinales: el índice de asimetría intercuartílico ................................................. 57 3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson ........................................... 57 3.7 Curtosis ...................................................................................................................................... 58 3.7.1 Variables ordinales: el índice KU. ........................................................................................ 58
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
3
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher ................................... 59 3.8 Diagrama de cajas (box plot) ..................................................................................................... 59 IV.
PROBABILIDADES..................................................................................................................... 62
4.1.
Conceptos básicos de probabilidad objetiva y subjetiva. ........................................... 62
4.2.
Permutaciones y combinaciones. .................................................................................. 64
4.3.
Cálculo de probabilidades de evento. ........................................................................... 69
4.4 Probabilidad condicional................................................................................................... 70 V. Variables aleatorias ......................................................................................................................... 76 5.1 Definición .................................................................................................................................. 76 5.2 Variable aleatoria discreta ........................................................................................................ 76 5.2.1 Función de probabilidad de una variable aleatoria discreta .............................................. 77 5.3 Variable aleatoria continua ....................................................................................................... 80 5.3.1 Función de densidad de una v.a continua X ....................................................................... 80 5.4 ESPERANZA MATEMÁTICA ........................................................................................................ 82 VI.
Distribuciones Discretas .......................................................................................................... 83
6.1 Distribución Binomial ................................................................................................................ 83 6.2 Distribución Hipergeométrica ................................................................................................... 86 6.3 La distribución de Poisson. ........................................................................................................ 87 VII.
Distribuciones continuas ......................................................................................................... 90
7.1 Distribución Exponencial ........................................................................................................... 90 7.2 Distribución Normal .................................................................................................................. 91 7.3 Distribución Normal Estándar ................................................................................................... 92 7.5 Distribución Ji-Cuadrado ........................................................................................................... 94 7.6 Distribución t de Student. ......................................................................................................... 95 7.7 Distribución F ............................................................................................................................ 96 VII. Muestreo ..................................................................................................................................... 102 7.1 Muestreo ................................................................................................................................. 102 7.2 Muestra ................................................................................................................................... 102 7.3 Selección de la muestra........................................................................................................... 102 7.4 Características de la muestra .................................................................................................. 102 7.5 Tipos de muestreo. .................................................................................................................. 102 VIII. Distribución de muestreo .......................................................................................................... 104 8.1 Distribución de muestreo de medias ...................................................................................... 104 8.2 Distribución de muestreo de proporciones ............................................................................ 104 8.3 Errores típicos.......................................................................................................................... 104 8.4 Ejemplo de distribución de muestreo de promedios .............................................................. 106 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
4
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
8.5 Ejemplo de distribución de muestreo de proporciones .......................................................... 109 IX. Inferencia Estadística. .................................................................................................................. 112 9.1 Estimación de parámetros: ..................................................................................................... 112 Estimación puntual .................................................................................................................... 112 Estimación por intervalos .......................................................................................................... 112 Estimador .................................................................................................................................. 112 Población muestreada............................................................................................................... 112 Población objetivo ..................................................................................................................... 112 9.2 Interpretación del intervalo de confianza ............................................................................... 115 Interpretación probabilística ..................................................................................................... 115 Interpretación práctica.............................................................................................................. 115 Precisión .................................................................................................................................... 115 9.3 Muestreo a partir de poblaciones que no presentan una distribución normal ...................... 116 9.4 Intervalos de confianza que utilizan la distribución t.............................................................. 118 9.5 Intervalo de confianza para la proporción de una población ................................................. 119 X. Determinación del tamaño de muestra. ....................................................................................... 121 10.1 Determinación del tamaño de la muestra para la estimación del promedio ....................... 121 10.1.1 Variancia conocida ......................................................................................................... 121 10.1.2 Variancia desconocida .................................................................................................... 121 10.2 Determinación del tamaño de la muestra para la estimación de las proporciones ............. 122 XI. Prueba de hipótesis. ..................................................................................................................... 124 11.1 Tipos de hipótesis .................................................................................................................. 124 11.2 El nivel de significación.......................................................................................................... 124 11.3 Tipos de errores. ................................................................................................................... 124 11.4 Prueba de hipótesis para la media de una sola población .................................................... 124 A. Muestreo a partir de poblaciones con distribución normal y variancia conocidas .............. 125 B. Muestreo a partir de una población con distribución normal y variancia desconocida ....... 128 C. Muestreo a partir de una población que no presenta una distribución normal .................. 131 11.5 PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN DE UNA SOLA POBLACIÓN .......................... 133 XII Análisis de Asociación .................................................................................................................. 135 12.1 Distribución Ji cuadrada: Prueba de independencia ............................................................. 135 XIII. Regresión simple ........................................................................................................................ 138 13.1 Regresión ............................................................................................................................... 138 XIV. El modelo de correlación. .......................................................................................................... 141 14.1 Correlación ............................................................................................................................ 141 14.2 El coeficiente de correlación. ................................................................................................ 141 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
5
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
14.3 El coeficiente de determinación. .......................................................................................... 144 REFERENCIA BIBLIOGRÁFICA ............................................................................................................. 144
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
6
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
I. BIOESTADÍSTICA 1.1. Estadística y bioestadística Daniel indica que la estadística es la disciplina que se ocupa de 1) la recolección, organización, resumen y análisis de datos, y 2) la obtención de inferencias a partir de un volumen de datos cuando se examina solo una parte de estos. La Bioestadística, en el ámbito de la Estadística, hace referencia a métodos estadísticos y matemáticos que se aplican al análisis de datos provenientes de las ciencias biológicas. Debido a que las cuestiones a investigar, cuando se trabaja con personas, animales, plantas u otros organismos vivos, son de naturaleza muy variada. Incluye no sólo herramientas para el análisis estadístico descriptivo de datos biológicos sino también el uso de numerosos procedimientos y algoritmos de cálculo y computación para el análisis inferencial, el reconocimiento de patrones en los datos y la construcción de modelos que permiten describir y analizar procesos aleatorios (Balzarini et al, 2011). 1.2. Objeto de estudio. El objetivo de la estadística es investigar y evaluar la naturaleza y el significado de la información contenida en los datos (Daniel). Es necesario tener en cuenta que la estadística se ha propuesto como instrumento de investigación. La investigación puede ser en genética, mercadeo, nutrición, agronomía, etc. Es el campo de investigación, no el instrumento, el que debe proporcionar los “porqué” del problema de investigación. Aveces, este hecho se pasa por alto y los usuarios olvidan que tienen que pensar, que la estadística no puede pensar por ellos. La estadística, sin embargo, ayuda a los investigadores a diseñar experimentos y a evaluar objetivamente los datos numéricos resultantes. Es nuestra intención proporcionar a los investigadores instrumentos estadísticos útiles para este fin. 1.3.
Estadística descriptiva y estadística inferencial.
La Estadística puede ser dividida en: •
La Estadística Descriptiva. Parte de la estadística que se ocupa de la clasificación, descripción, simplificación y presentación de los datos. Comprende el uso de tablas de frecuencias, gráficos y el cálculo de medidas estadísticas.
•
La Estadística Inferencial. Parte de la estadística que se ocupa de la estimación y prueba de hipótesis de los parámetros de una población, a partir de una muestra aleatoria extraída de dicha población.
Ejemplo Se desea hacer un estudio sobre el consumo de drogas en el distrito de Comas. Con esta finalidad se extrae una muestra aleatoria de 240 adolescentes del distrito de Comas en el 2013 y se les aplica la encuesta respectiva. Se aplica la Estadística Descriptiva para recopilar, clasificar, organizar y presentar en una tabla de frecuencias y en forma gráfica los datos recogidos de una encuesta. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
7
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Distribución de la frecuencia de consumo de droga Frecuencia consumo
de Número
Porcentaje
No
100
41.7
Interdiario
80
33.3
Diario
40
16.7
A veces
20
8.3
Total
240
100.0
Fuente: UNAL La Molina – Dpto. de Estadística e Informática
45.0
41.7
40.0 33.3
35.0 30.0
%
25.0 20.0
16.7
15.0 8.3
10.0 5.0 0.0 No
Interdiario
Diario
A veces
FRECUENCIA Fuente: UNAL La Molina – Dpto. de Estadística e Informática
Figura. Frecuencia de consumo de droga. También se calcula medidas estadísticas. La edad promedio de la muestra de los adolescentes que consumen droga es 20.5 años. Se aplica la Estadística Inferencial para estimar la proporción de adolescentes que consumen drogas diariamente del distrito de Comas, cuya estimación fue de 16.7%. Para probar la hipótesis si esta proporción es mayor al 17%.
1.4. Conceptos básicos 1) Población. Es el conjunto de unidades elementales con características similares. El estudio de toda la población constituye un censo. Ejemplo 1. El conjunto de todos los estudiantes de una institución educativa. 2. El conjunto de todos los meses de venta en una casa comercial entre el 2007- 2011. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
8
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3. El conjunto de personas que viven en el Distrito de Ayacucho. 2) Unidad Elemental. Es un elemento particular de la población o muestra. Ejemplo 1. Un estudiante de la Institución educativa. 2. Cada mes de venta en una casa comercial entre el 2007-2011. 3. Cada persona que viven en el Distrito de Ayacucho. 3) Muestra. Es un subconjunto de la población. Al proceso de obtención de una muestra se le llama "muestreo". Para que una muestra sea representativa debe cumplir con las siguientes condiciones: a) Debe haber sido obtenida al azar. b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un método de muestreo. Ejemplo 1. 120 estudiantes de la institución educativa. 2. 45 meses de venta en una casa comercial entre el 2007-2011. 3. 80 personas que viven en el Distrito de Ayacucho. 4) Variable. Son las características que toman diferentes valores cuando son evaluadas en las unidades elementales de una población o muestra. Se representan por las últimas letras mayúsculas del alfabeto, por ejemplo: X, Y, Z, W, P, T, X1, X2, Y1, etc. Tipos de Variables A. Variables Cuantitativas. Son aquellas que se expresan en forma numérica y tiene sentido realizar operaciones matemáticas con ellas. Pueden ser del tipo: • Variable Cuantitativa Continua. Son aquellas que pueden tomar cualquier valor numérico dentro de un intervalo continuo. Se utiliza un instrumento de medición para generar sus valores: balanza, termómetros, test, escalas, cronómetros, winchas, etc. Ejemplo 1. Peso del langostino de río (en gr) 2. Tiempo para encontrar estacionamiento en un centro comercial (minutos) 3. Gasto mensual familiar en atención médica (nuevos soles) •
Variable Cuantitativa Discreta. Son aquellas que cumplen con la condición de que entre un valor cualesquiera y su consecutivo no es posible que existan valores intermedios. Generalmente son representados por el conjunto de números enteros. Las observaciones cuantitativas discretas se registran por conteo.
Ejemplo 1. Número de artículos defectuosos en un lote de 20 2. Número de clientes atendidos cada 20 minutos en una ventanilla 3. Número de predios que posee un agricultor de un valle B. Variable Cualitativa. Son aquellas que permiten que una unidad elemental pueda ser clasificada como poseedora o no de cierta cualidad, propiedad o atributo. No tiene DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
9
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
sentido realizar operaciones matemáticas con ellas. Son aquellas cuyos valores posibles son atributos o categorías. • Variable Cualitativa Nominal. Son aquellas cuyos valores (cualidades, propiedades o atributos) no son factibles de ser clasificados a través de un criterio de orden o jerarquía. Sus valores posibles no tienen un orden de importancia. Ejemplo 1. Sexo de los estudiantes (Masculino o Femenino) 2. Estado civil de una persona (Soltero, Casado, Divorciado, Viudo o Conviviente) 3. Marca de una computadora (A, B, C o D) 4. Marca de Automóvil (Toyota, Chevrolet, Mercedes Benz, etc...) • Variable Cualitativa Jerárquica u Ordinal. Son aquellas donde sí se puede establecer un criterio de orden o jerarquía entre sus atributos de la variable. Ejemplo 1. Nivel de instrucción (Sin instrucción, Primaria, Secundaria o Superior) 2. Nivel socioeconómico de un cliente (Alto, Medio o Bajo) 3. Calificación de un servicio (Bueno, Regular o Malo) 4. Rango Militar (Cabo, Sargento, Coronel)
¿Variable aleatoria? Otros autores hacen uso de la definición de variables aleatorias, que en realidad se tratan de las variables cuantitativas, pudiendo ser éstas discretas y continuas. Pondremos énfasis en la aleatoriedad, por lo tanto siempre que se determina la estatura, el peso o la edad de un individuo, el resultado frecuentemente se denomina valor de la variable respectiva. Cuando los valores se originan como resultado de factores aleatorios (al azar), que no pueden predecirse con exactitud y anticipación, la variable se llama variable aleatoria. Un ejemplo de variable aleatoria es la estatura de los adultos; cuando nacen los niños no es posible predecir con exactitud la estatura que tendrán en su edad adulta; la estatura que alcanza un adulto es el resultado de muchos factores genéticos y ambientales. Los valores resultantes de los procedimientos de medición se denominan observaciones o medidas. Variable aleatoria discreta (Variable cuantitativa discreta) Entre los ejemplos de variables aleatorias discretas: El número de admisiones diarias en un hospital general es una variable aleatoria discreta, puesto que el número de admisiones por día debe representarse con números enteros tales como 0, 1, 2 o 3. El número de admisiones en un día determinado no puede ser 1.5, 2.997 o 3.333. El número de caries, amalgamas o pérdida de dientes por niño en una escuela primaria es otro ejemplo de una variable discreta. Variable aleatoria continua (variable cuantitativa continua) Entre los ejemplos de variables continuas se hallan las diversas mediciones que pueden hacerse en individuos tales como su estatura, peso y diámetro craneano. Sin importar cuán cerca estén las estaturas de dos personas, teóricamente siempre es posible encontrar otra persona cuya estatura se encuentre entre las dos estaturas de referencia. Ahora bien, debido a las limitaciones de los instrumentos de medición disponibles, las observaciones sobre variables que son inherentemente continuas se registran como si fueran discretas. La estatura, por ejemplo, normalmente se redondea metros o centímetros completa más cercanos, mientras que si se cuenta con el instrumento de medición adecuado, esa medida puede hacerse tan precisa como se desee. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
10
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejemplos: 1. Decir cuáles de estos datos son discretos y cuáles continuos: (a) Número de acciones vendidas un día en la Bolsa de Valores. (b) Temperaturas medidas en un observatorio cada media hora. (c) Vida media de los tubos de televisión producidos por una fábrica. (d) Ingresos anuales de los profesores de Enseñanza Media. (e) Longitudes de 1000 tornillos producidos en una empresa. Solución (a) Discretos; (b) continuos; (c) continuos; (d) discretos; (e) continuos. 2. Dar el dominio de las siguientes variables y decir cuáles son continuas: (a) Número G de galones (gal) de agua en una lavadora. (b) Número B de libros en una estantería. (c) Suma S de los puntos obtenidos al lanzar un par de dados. (d) Diámetro D de una esfera. (e) País P de Europa. Solución (a) Dominio: Cualquier valor entre 0 gal y la capacidad de la lavadora. Variable: Continua. (b) Dominio: 0, 1, 2, 3,... hasta el número total de libros que caben en la estantería. Variable: Discreta. (c) Dominio: Los puntos de un dado pueden ser 1. 2, 3, 4, 5 ó 6. Luego la suma de dos dados puede ser 2, 3, 4, 5, 6, 7, 8, 9, 10, 11 ó 12, que es el dominio de S. Variable: Discreta. (d) Dominio: Todos los valores positivos. Variable: Continua. (e) Dominio: Francia, Italia, ..., etc., que pueden representarse numéricamente como 1. 2, Variable: Discreta. 5) Observación. Es el valor posible que toma una variable. A las observaciones se les suele representar con las letras minúsculas subindicadas, como por ejemplo x¡, y¡, zi Ejemplo 1. X = Peso del langostino de río (en gr). Observaciones: x1= 2.5, x2 = 3.0,..,x10 = 3.2 2. Y = Calificación de un servicio. Observaciones: .y1 = Bueno,y2 = Regular,y3 = Malo 6) Parámetro. Es una medida estadística para describir el comportamiento de una variable en la población. Son calculadas con los datos de toda la población. Es un valor constante. Se representan con letras griegas. Ejemplo 1. Suponga que el número promedio de cocinas vendidas en todos los meses de venta es 15.4 (μ = 15.4). 2. El Censo Nacional 2007: XI de Población y VI de Vivienda indica que en el grupo edad de 20 a 29 años, el 1.4% de los hombres no sabe leer y escribir mientras que el 3.1% de las mujeres no sabe leer y escribir (π1 = 0.014 y π2 = 0.031). 3. Suponga que en todo Breña la proporción del nivel de instrucción resultó:
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
11
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
7) Valor estadístico o Estadígrafo. Es una medida para describir el comportamiento de una variable en la muestra. Se calculan con los datos obtenidos de una muestra. Son valores variables (varían de muestra a muestra). Los estadísticos sirven para estimar a los parámetros. Se representan con letras latinas. Ejemplo 1. En una muestra de 30 meses de venta se encontró que el número promedio de cocinas vendidas fue de 14.9 ( X = 14.9) . 2. En la encuesta nacional de hogares (ENAHO) indica que el 1.1% de los hombres no sabe leer y ni escribir (p = 0.011) . 3. Suponga que en distrito de Breña se ha seleccionado una muestra de 500 personas encontrándose los siguientes resultados:
1.5 Importancia de la Estadística Ya hemos visto que la Estadística se encuentra ligada a nuestras actividades cotidianas. Sirve tanto para pronosticar el resultado de unas elecciones, como para determinar el número de ballenas que viven en nuestros océanos, para descubrir leyes fundamentales de la Física o para estudiar cómo ganar a la ruleta. La Estadística resuelve multitud de problemas que se plantean en ciencia: Análisis de muestras. Se elige una muestra de una población para hacer inferencias respecto a esa población a partir de lo observado en la muestra (sondeos de opinión, control de calidad, etc). Descripción de datos. Procedimientos para resumir la información contenida en un conjunto (amplio) de datos. Contraste de hipótesis. Metodología estadística para diseñar experimentos que garanticen que las conclusiones que se extraigan sean válidas. Sirve para comparar las predicciones resultantes de las hipótesis con los datos observados (medicina eficaz, diferencias entre poblaciones, etc). Medición de relaciones entre variables estadísticas (contenido de gas hidrógeno neutro en galaxias y la tasa de formación de estrellas, etc) Predicción. Prever la evolución de una variable estudiando su historia y/o relación con otras variables.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
12
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
1.6 La bioestadística en la investigación científica. La estadística es un instrumento aplicable en el método científico, para el cual fue desarrollada. Su aplicación particular está en los muchos aspectos del diseño de un experimento, desde el plan inicial para la recolección de los datos, y en el análisis de los resultados a partir de los datos resumidos, hasta la evaluación de la incertidumbre de toda la inferencia extraída de ellos. De una forma esquemática, el proceso experimental suele desarrollarse siguiendo el siguiente esquema: Definir la pregunta o problema a resolver. Cuanto más claro y definido sea el objetivo del experimento, mucho más fácil será realizar su planificación y ejecución.
Obtener información y recursos. Una vez definido el objetivo del experimento, es necesario elaborar un plan de trabajo para poder alcanzarlo. Hay que identificar qué equipos son necesarios, qué cantidades hay que medir, y de qué manera se va a realizar el experimento. Formular hipótesis, acerca de los resultados de nuestro experimento. Hacerlo antes de su ejecución evita el sesgo personal de identificar los resultados que ya se conocen como objetivos iniciales (no debemos engañarnos a nosotros mismos). Realizar el experimento y obtener las medidas. Esta tarea se subdivide en varios pasos: Preparación: el equipo debe ser puesto a punto para su utilización. Si el experimento requiere la utilización de aparatos con los que no estamos familiarizados, es necesario leer atentamente los manuales de utilización, e incluso consultar a experimentadores con experiencia previa en su manejo. Todo ello evita perder tiempo y cometer errores de bulto, a la vez que preserva la integridad del equipo (¡y la nuestra!). Experimentación preliminar: suele ser muy aconsejable realizar una pequeña experimentación de prueba antes de iniciar la toma definitiva de medidas. Esto facilita el uso correcto del equipo instrumental, permitiendo identificar los aspectos más difíciles o en los que resulta más fácil cometer errores. Toma de datos: el trabajo cuidadoso y detallado son fundamentales en todo proceso experimental. Ejecutar dicha labor siguiendo un plan de trabajo bien definido resulta básico. No hay nada más frustrante que descubir, tras largas horas de medidas, que hemos olvidado anotar algún parámetro esencial o sus unidades. En este sentido resulta imprescindible tener presentes varias cuestiones ¿Cuáles son las unidades asociadas a cada medida? ¿Cuál es la incertidumbre asociada? ¿Qué variabilidad presentan las medidas? ¿Cómo puedo tener una idea del orden de magnitud de una medida antes de realizarla y saber así que los resultados que se van obteniendo son razonables? ¿Qué información debe ser incluida en la tabla de datos? Comprobación de la repitibilidad: siempre que sea posible, todo experimento debería repetirse varias veces para comprobar que los resultados obtenidos son repetibles y representativos. Y aunque, obviamente, la repetición de un experimento no proporciona exactamente los mismos números, discrepancias muy grandes deben alertarnos acerca de la existencia de efectos sistemáticos que pueden estar distorsionando el experimento.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
13
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Analizar los datos: una vez obtenidas las medidas es necesario su tratamiento estadístico para poder obtener magnitudes (e incertidumbres asociadas) representativas del objeto de nuestro estudio. Interpretar los datos y extraer conclusiones que sirvan como punto de partida para nuevas hipótesis. El éxito de esta interpretación dependerá, básicamente, de la calidad de las medidas y de su análisis. Publicar los resultados. Los resultados de cualquier proceso experimental deben ser comunicados de manera clara y concisa. Esto incluye desde un sencillo informe de laboratorio, como el que se exigirá en los diversos laboratorios en los que se trabajará durante la licenciatura de Físicas, hasta la publicación de un artículo científico en una revista reconocida.
Referencias bibliográficas Balzarini Mónica; Di Rienzo Julio; Tablada Margot; Gonzalez, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
14
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
II. LOS DATOS 2.1. Observación Las observaciones constituyen la materia prima con la cual trabajan los investigadores. Para que se pueda aplicar la estadística a esas observaciones éstas deben estar en forma numérica. -
En el mejoramiento de cultivos, los números bien pueden ser rendimientos por parcela. En la investigación médica, pueden ser tiempos de recuperación bajo varios tratamientos. En la industria, pueden ser cantidad de defectos en varios lotes de un artículo producido en una línea de montaje.
Tales números constituyen datos y su característica común es la variabilidad o variación. 2.2. Datos Daniel indica que los datos son la materia prima de la estadística. Para este propósito definió a los datos como números. Las dos clases de números que se utilizan en estadística son números que resultan de la toma —en el sentido literal del término— de medidas, y aquellos que resultan del proceso de conteo. Por ejemplo, cuando una enfermera pesa al paciente o le toma la temperatura, se obtiene la medida que consiste en una cantidad, por ejemplo 70 kilogramos o 37 grados Centígrados. Un tipo bastante diferente de números se obtiene cuando el administrador de un hospital cuenta el número de pacientes, quizá 20, dados de alta en un día. Cada uno de los tres números es un dato (datum) y los tres juntos son datos. REDONDEO DE DATOS El resultado de redondear un número como 72.8 en unidades es 73, pues 72.8 está más próximo de 73 que de 72. Análogamente, 72.8146 se redondea en centésimas (o sea con dos decimales) a 72.81, porque 72.8146 está más cerca de 72.81 que de 72.82. Al redondear 72.465 en centesimas nos hallamos ante un dilema, ya que está equidistante de 72.46 y de 72.47. Se adopta en tales casos la costumbre de redondear al entero par que preceda al 5. Así pues, 72.465 se redondea a 72.46, 183.575 se redondea a 183.58 y 116.500.000 se redondea en millones a 116,000,000. Esta estrategia es particularmente útil para minimizar los errores de redondeo acumulados cuando se efectúa un gran número de operaciones (véase Prob. 1.4). 2.3. Recolección de datos Levine y Berenson, indican que en muchas ocasiones, los datos son medidas que se obtienen de los elementos de una muestra, y las muestras se toman de la población, de tal forma que sean lo más representativas posible. La técnica más común para asegurar una representación adecuada es usar una muestra aleatoria. 2.4. Sistema y fuentes de información El desempeño de actividades estadísticas obedece a la necesidad de responder a diversas preguntas. Por ejemplo, los médicos probablemente quieran encontrar respuestas a preguntas con respecto a la utilidad relativa de procedimientos de tratamiento alternativos. Los administradores posiblemente quieran responder a preguntas respecto a áreas de interés como el espíritu de equipo de los empleados o el uso de las instalaciones. Cuando se determina que el enfoque adecuado para buscar una respuesta a la pregunta requiere DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
15
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
del uso de la estadística, se comienza a investigar datos apropiados que sirvan como la materia prima en la investigación. Estos datos normalmente están disponibles de una o más fuentes como las siguientes: 1. Registros rutinarios. Es difícil imaginar algún tipo de organización que no lleve registros de la operación diaria de sus actividades. Mientras que los registros clínicos de un hospital, por ejemplo, contienen una inmensa cantidad de información acerca de los pacientes, los registros contables de la institución contienen datos en abundancia sobre las actividades financieras del hospital. Cuando surge la necesidad de tener datos, se debe buscar primero en los registros que se llevan rutinariamente. 2. Encuesta. Si los datos necesarios para contestar una pregunta no están disponibles a partir de los registros almacenados de manera rutinaria, la fuente lógica puede ser una encuesta. Por ejemplo, suponga que el administrador de una clínica desea obtener información respecto a la forma de transporte que utiliza el paciente para visitar la clínica. Si la forma de admisión no contiene una pregunta acerca del transporte, es posible llevar a cabo una encuesta entre los pacientes para obtener esta información. 3. Experimentación. Frecuentemente, los datos necesarios para responder una pregunta están disponibles sólo como resultado de la experimentación. Tal vez una enfermera quiere saber qué estrategia es mejor para maximizar el seguimiento de las indicaciones médicas por parte del paciente. La enfermera podría conducir un experimento en el que se prueben diferentes estrategias para motivar el cumplimiento del tratamiento en distintos pacientes. La evaluación subsecuente de las respuestas a las diversas estrategias puede capacitar a la enfermera para decidir cuál es más efectiva. 4. Fuentes externas. Los datos necesarios para responder a una pregunta pueden ya existir como informes publicados, bancos de datos disponibles o en la literatura de investigación. En otras palabras, uno se puede encontrar con que alguien más ya planteó la misma pregunta y que la respuesta que obtuvo puede aplicarse a la situación presente. 2.5. Población Habitualmente se considera a una población como una colección de entidades, por lo general personas. Sin embargo, una población o colección de entidades puede estar compuesta de animales, máquinas, plantas o células. Una población de entidades se define como la colección más grande de entidades de interés en un momento particular. Si se toma la medida de alguna variable para cada una de las entidades en una población, se obtiene una población de valores para esa variable. Por lo tanto, una población de valores se puede definir como la mayor colección de valores para una variable aleatoria, los cuales son de interés en un momento particular. Por ejemplo, si se tiene interés en conocer el peso de todos los niños inscritos en el sistema de educación primaria del estado, la población está formada por todos esos pesos. Si se tiene interés sólo en el peso de los estudiantes inscritos en el primer grado, se tiene una población diferente, compuesta por los pesos de los estudiantes de primer grado. Por lo tanto, las poblaciones se determinan o definen con base en el campo de interés. Las poblaciones pueden ser finitas o infinitas. Si una población de valores consiste en un número fijo de esos valores, se dice que la población es finita. Si, por otra parte, una población consiste en una sucesión interminable de valores, entonces es una población infinita. 2.6. Muestra Una muestra puede definirse simplemente como una parte de una población. Suponga que una población se compone de los pesos de todos los niños inscritos en el sistema de
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
16
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
educación primaria del estado, y se escoge para el análisis sólo una fracción de los niños; entonces se tiene únicamente una parte de la población, es decir, se tiene una muestra. 2.7. Elaboración de los datos Steel y Torrie (1988) mencionan que ha sido ampliamente demostrado que no se puede tomar una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general interviene una tabla de números aleatorios, como la tabla A.1. Esta tabla está formada por los dígitos 0, 1, 2, 3, 4, 5, 6, 7, 8 y 9 distribuidos en una tabla de 100 por 100, dando lugar a 10,000 dígitos aleatorios. Estos números se obtuvieron en una máquina y no hay razón para pensar que algún número apareciera con más frecuencia que otro, ni que alguna sucesión de números fuese más frecuente que otra, excepto por el azar. Hay 1,015 ceros, 1,026 unos, 1,013 doces, 975 treces, 976 cuatros, 932 cincos, 1,067 seis, 1,013 sietes, 1,023 ochos, 960 nueves; 5,094 son pares y 4 906 son impares. Ilustremos el uso de la tabla tomando una muestra aleatoria de 10 observaciones de la tabla 4.1. Los datos de la tabla 4.1 se han clasificado de acuerdo con la magnitud asignándoles números de orden. La organización por orden no es necesaria para extraer muestras al azar; el orden de los números aleatorios pudo haberse asignado en forma arbitraria. Para obtener una muestra aleatoria de 10 pesos, tómense 20 dígitos consecutivos de la tabla A.1 y regístrense como 10 pares. Estos serán los números de orden de los pesos correspondientes. Se puede comenzar en cualquier parte de la tabla, pero una forma más satisfactoria es señalar con el dedo en una de las páginas, leer los cuatro números opuestos más cercanos a la punta del dedo y utilizar éstos para localizar el punto de partida. Así: 1. En la primera página de la tabla A.1, el dedo encuentra el número 1188 (frente a 10 y son los primeros cuatro dígitos en la columna 20-24). 2.
Se va a la fila 11, columna 88, como punto de partida.
3. Se registran en pares los 20 dígitos que se encuentran yendo hacia la derecha, y que son 06, 17, 22, 84, 44 y 55; por comodidad, se baja una línea y se procede al revés para obtener los otros números, o sea, 09,15,30 y 59. 4. Se toman los números de los elementos y se llevan a la tabla 4.1 para obtener las correspondientes observaciones: 20, 30,32, 51, 39, 41, 25, 29, 35 y 42 libras. Este es un procedimiento aleatorio que equivale a extraer de una bolsa con 100 fríjoles marcados con 100 contenidos de grasa de leche, volviendo cada fríjol a la bolsa y mezclando bien los frijoles antes de cada extracción. Por esta razón, se dice que el muestreo es con reemplazo. Nótese que cada elemento puede sacarse cualquier número de veces
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
17
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Tabla 4.1 Ordenamiento en libras, de la grasa de leche producida por 100 vacas Holstein durante un mes Los datos originales se modificaron para que se aproximaran a una distribución normal con 𝜇=40 Ib y σ=12 Ib. Unidad Libras Unidad Libras Unidad Libras Unidad Libras 0 10 25 33 50 40 75 47 1 12 26 33 51 40 76 48 2 14 27 34 52 41 77 48 3 15 28 34 53 41 78 48 4 17 29 34 54 41 79 49 5 18 30 35 55 41 80 49 6 20 31 35 56 42 81 49 7 22 32 35 57 42 82 50 8 23 33 36 58 42 83 50 9 25 34 36 59 42 84 51 10 26 35 36 60 43 85 51 11 27 36 37 61 43 86 52 12 28 37 37 62 43 87 52 13 28 38 37 63 43 88 53 14 29 39 37 64 44 89 54 15 29 40 38 65 44 90 55 16 30 41 38 66 44 91 57 17 30 42 38 67 45 92 58 18 31 43 38 68 45 93 60 19 31 44 39 69 45 94 62 20 31 45 39 70 46 95 63 21 32 46 39 71 46 96 65 22 32 47 39 72 46 97 66 23 32 48 40 73 47 98 68 24 33 49 40 74 47 99 70
Fuente: Steel y Torrie (1988)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
18
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
19
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
20
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
21
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
22
UNSCH 2.8.
Bioestadística I
Prof. Reynán Cóndor A.
Mecanismos para presentar, tabular y graficar datos
La siguiente Tabla muestra el número de bushels (bu) de trigo y maíz producidos en la cooperativa PQR durante los años 1975-1985. Con referencia a esa tabla, determinar el año o años durante los cuales: (a) la producción de trigo fue mínima, (b) la de maíz fue máxima, (c) se dio el mayor descenso en la producción de trigo, (d) decreció la producción de maíz respecto del año anterior y creció la de trigo, (e) se produjo idéntica cantidad de trigo y (f) la producción conjunta de trigo y maíz fue máxima.
Año
Número de bushels de trigo
Número de bushels de maíz
1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
200 185 225 250 240 195 210 225 250 230 235
75 90 100 85 80 100 110 105 95 110 100
Solución (a) 1976; (b) 1981 y 1984; (c) 1980; (d) 1978, 1982, 1983 y 1985; (e) 1977 y 1982, y 1978 y 1983; (f) 1983. Representar los datos del Problema anterior usando: (a) gráficos de trazos y (b) gráficos de barras. Solución (a) La Figura muestra el gráfico de trazos.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
23
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
300
Número de bushels
250 200 150
Trigo Maíz
100 50 0 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
(b) Gráfico de barras.
Número de bushels
300 250 200 150
Trigo
100
Maíz
50 0 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
Gráfico de barras en componentes 400
Número de bushels
350 300 250 200
Maíz
150
Trigo
100 50 0 1975 1976 1977 1978 1979 1980 1981 1982 1983 1984 1985
Año
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
24
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
(a) Expresar la cantidad anual de bushels de trigo y maíz del Problema como porcentajes de la producción total anual. (b) Representar los porcentajes obtenidos en la parte (a). Solución (a) En 1975 el porcentaje de trigo = 200/(200 + 75) = 72.7%, y el maíz 100% — 72.7% = 27.5%; etc. Los porcentajes se indican en la Tabla 1.5. Año
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Porcentaje de trigo
72.70% 67.30% 69.20% 74.60% 75.00% 66.10% 65.60% 68.20% 72.50% 67.60% 70.10%
Porcentaje de maíz
27.30% 32.70% 30.80% 25.40% 25.00% 33.90% 34.40% 31.80% 27.50% 32.40% 29.90%
(b) El gráfico de tales porcentajes, Figura 1.11, se llama gráfico de porcentajes en componentes. Puede usarse un gráfico similar al de la Figura 1.9.
100.0% 90.0% 80.0%
Porcentaje
70.0% 60.0% 50.0%
Maíz
40.0%
Trigo
30.0% 20.0% 10.0% 0.0% 1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
Año
Ejemplo: Las áreas de los continentes se recogen en la siguiente Tabla. Representar los datos gráficamente. Tabla. Áreas de los continentes Continente Asia América África Antártida Europa Oceanía Total
Área km2
% 43810000 42330000 30370000 13720000 10180000 9008500
29% 28% 20% 9% 7% 6% 149418500 100%
Solución Primer método Gráfico de barras en el que las barras son horizontales.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
25
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
ÁREAS DE LOS CONTINENTES
Oceanía
Continentes
Europa Antártida África América Asia 0
10000000
20000000
30000000
40000000
50000000
Área en km2
Diagrama circular.
Oceanía, 6% Europa, 7% Asia, 29% Antártida, 9%
África, 20%
América, 28%
2.9.
Distribución de frecuencias (Tablas de frecuencia)
a. Organización para variables cualitativas (nominal o jerárquica) La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos valores (atributos) que toma la variable cualitativa. Tabla de frecuencias Clase o categoría (f¡) (fri) Atributo 1 f1 fr1 Atributo 2 f2 fr2 . . . Atributo k fk frk n 1 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
(p¡) P1 P2
Pk 100 26
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Donde: k= Número de clases n= Número de observaciones o unidades elementales Frecuencia absoluta ( f i ). Es el número de observaciones que existen en la clase o categoría i. k
Se cumple:
f i 1
n
i
Frecuencia relativa ( fri ). Es la proporción o porcentaje de obaservaciones con respecto al total (n) que existen en l clase o categoría i.
fri
fi n k
Se cumple:
fr 1 i
i 1
Frecuencia porcentual ( pi ). Es el porcentaje de observaciones con respecto al total (n) que esxisten en la clase o categoría i. se tiene: pi fri 100 k
Se cumple:
p i 1
i
100%
Tipo de gráficos Se pueden usar las frecuencias absolutas (fi) o relativas (fri) para elaborar dos tipos de gráficos •
Gráfico de barras vertical u horizontal
•
Gráfico circular
Ejemplo. Se hizo una encuesta a una muestra de 45 clientes del Banco Comercial y se obtuvo los siguientes resultados: Ingreso Mensual Caso Edad (miles de S/.) 1 2 3
3,00 1,99 2,90
4 5 6
29 34 61 28 41 57
7
30
4,50
4,70 3,00 5,80
Tarjeta N° de de viajes crédito (mensual) usada 3 3 2 0 1 2 4
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Ta1 Ta2 Ta3 Ta2 Ta4 Ta1 Ta4
Monto de Lugar de uso de deuda tarjeta de crédito (miles de S/.) centros comerciales 1,80 discotecas 1,10 0,60 restaurantes grifos 2,70 centros comerciales 1,30 otros 0,80 grifos
0,64
Sexo
F F M M F F M 27
UNSCH 8 9
Bioestadística I
13 14 15
43 45 35 42 28 28 24 35
16
42
6,60
2
Ta4
17 18
48
5,74
1
Ta1
discotecas
1,20
M
34
4,23
0
Ta5
centros comerciales
1,90
F
19
66 36
5,50
3
restaurantes
6,60
1
Ta1 Ta4
centros comerciales
2,35 1,90
M F
59
3,85
1
Ta4
restaurantes
0,30
M
22
37
6,70
3
Ta6
centros comerciales
0,70
F
23 24
53
3,50
0
Ta5
restaurantes
0,67
F
35
8,80
1
Ta1
discotecas
0,50
F
25
63
10,00
4
Ta5
26 27
28
10,10
2
Ta1
restaurantes centro de estudios
1,50 0,70
M F
43
2
28
60
13,40 3,90
0
Ta2 Ta5
discotecas otros
1,50 1,99
F M
29 30
59
5,84
1
Ta5
restaurantes
0,60
M
63
3,50
1
Ta4
grifos
1,50
M
31
55
4,40
2
Ta2
centro de estudios
0,40
M
32 33
42
3,70
0
Ta5
1,80
F
51
4,50
1
Ta1
centros comerciales otros
0,70
M
34
39
5,63
1
Ta1
otros
0,80
M
35 36
55
4,60
4
Ta1
discotecas
1,25
M
35 42
5,79 2,93
0 3
Ta5 Ta5
discotecas grifos
1,60 0,20
M M
38 39
36
6,60
1
Ta3
grifos
4,37
F
49
4,60
0
Ta3
centros comerciales
2,00
M
40
27
6,60
0
Ta4
grifos
0,90
F
41 42
36
2,90
4
Ta1
discotecas
0,47
M
42
4,69
2
Ta2
centros comerciales
0,80
F
43
25
3,99
1
Ta4
restaurantes
4,32
F
44 45
32 28
6,70 2,58
2 1
Ta1 Ta4
centros comerciales otros
0,60 1,70
M M
10 11 12
20 21
37
7,09 4,40 6,82 5,30 5,80 5,70 4,70 6,60
0 1 0 3 2 1 4 1
Ta3 Ta5 Ta2 Ta1 Ta4 Ta2
Prof. Reynán Cóndor A.
Ta4 Ta5
centro de estudios centros comerciales grifos restaurantes discotecas grifos restaurantes
0,90 1,40 2,46 1,10 0,20 0,80
F M F F M F
discotecas
0,50 0,40
M F
restaurantes
3,46
F
a.1 Organización de datos cualitativos nominales Tabla de frecuencia de tipo de tarjeta de crédito usada DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
28
UNSCH
Bioestadística I
N° de clase 1 2 3 4 5 6 Total f3 = 4
Prof. Reynán Cóndor A.
Tarjeta de crédito Frecuencia Frecuencaia Frecuencia usada Absoluta relativa porcentual Ta1 12 0.27 26.67 Ta2 7 0.16 15.56 Ta3 4 0.09 8.89 Ta4 11 0.24 24.44 Ta5 10 0.22 22.22 Ta6 1 0.02 2.22 45 1.00 100.00
indica que 4 de los clientes del Banco Comercial utilizan la tarjeta de crédito Ta3 indica la proporción de clientes del Banco Comercial que utilizan la tarjeta de crédito Ta1. indica que el 15.56% de clientes del Banco Comercial utilizan la tarjeta de crédito Ta2.
fr1 = 0.2667
P2 = 15.56
Gráfico de barras 30.00 25.00
%
20.00 15.00 10.00 5.00 0.00 Ta1
Ta2
Ta3
Ta4
Ta5
Ta6
TARJETA DE CRÉDITO
En el gráfico de barras, se aprecia que la tarjeta Tal es la de uso más frecuente. Gráfico circular 2% 22%
27%
16%
24% 9% Ta1
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Ta2
Ta3
Ta4
Ta5
Ta6
29
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
En el gráfico circular, se aprecia que la tarjeta de crédito Ta6 es la de uso menos frecuente. a.2 Organización de datos cualitativos ordinales Ahora veamos un caso que involucre una variable cualitativa jerárquica u odinal, pero también veremos el uso de frecuencias acumuladas, para este caso estudiaremos los datos de la base de datos de la tabla 2.1 (Blair et al 2008). La tabla 2.1 muestra las respuestas (ficticias) de 60 pacientes postoperados, a quienes se solicitó calificar su percepción del dolor en una escala ordinal de cuatro puntos, como parte de un estudio de manejo del dolor. Como puede verse, estos datos desorganizados son básicamente no informativos en lo que se refiere a los patrones de respuesta. ¿Algunos niveles de dolor dominaron? ¿Era común el dolor severo? ¿Qué proporción de pacientes no tenía dolor? ¿Qué proporción sufría de dolor leve o de menor intensidad? Con esta pequeña cantidad de datos usted puede pasar unos minutos observando la tabla para formular respuestas aproximadas a estas preguntas. Sin embargo, esta estrategia no sería efectiva con un gran conjunto de datos. Aun con este número limitado de respuestas sería conveniente reordenar los datos para facilitar la obtención de las respuestas. TABLA 2.1: Mediciones de dolor percibido de 60 pacientes. Número de paciente
Nivel de dolor
Número de paciente
1
moderado
16
leve
31
ninguno
46
severo
2
ninguno
17
leve
32
moderado
47
ninguno
3
leve
18
moderado
33
ninguno
48
ninguno
4
ninguno
19
ninguno
34
ninguno
49
leve
5
severo
20
ninguno
35
leve
50
leve
6
ninguno
21
leve
36
ninguno
51
leve
7
moderado
22
ninguno
37
moderado
52
ninguno
8
ninguno
23
ninguno
38
leve
53
leve
9
ninguno
24
leve
39
ninguno
54
severo
10
leve
25
moderado
40
ninguno
55
moderado
11
leve
26
moderado
41
ninguno
56
ninguno
12
ninguno
27
ninguno
42
ninguno
57
ninguno
13
leve
28
ninguno
43
ninguno
58
ninguno
14
leve
29
leve
44
ninguno
59
leve
15
ninguno
30
severo
45
ninguno
60
ninguno
Nivel de dolor
Número de paciente
Nivel de dolor
Número de paciente
Nivel de dolor
Distribuciones de frecuencias absolutas La tabla 2.2 muestra estos datos ordenados en distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas. La primera columna lista las categorías de la escala de menor a mayor. La segunda muestra la frecuencia de respuesta para cada categoría, que se obtiene mediante el conteo del número de veces que ocurre cada respuesta en el conjunto de datos. La frecuencia, entonces, es el número de respuestas de cada tipo.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
30
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Tabla 2.2. Distribuciones de mediciones de dolor percibido. Frecuencia Frecuencia Categoría de Frecuencia Frecuencia absoluta relativa dolor absoluta relativa acumulada acumulada Severo 4 0.07 60 1.00 Moderado 8 0.13 56 0.93 Leve 17 0.28 48 0.80 Ninguno 31 0.52 31 0.52
Distribuciones de frecuencias relativas La tercer columna de la tabla 2.2 muestra la frecuencia relativa de respuesta, la cual se obtiene dividiendo cada frecuencia entre el número total de respuestas (en este caso 60). La frecuencia relativa, entonces, es la proporción de respuestas de cada tipo. Usted puede percibir rápidamente a partir de las dos primeras columnas que el mayor número de pacientes (31) indicó no haber tenido dolor. Este número representa 0.52 (o 52%) del total de la muestra. El dolor severo fue menos común, pues únicamente 4 personas (0.07 de la muestra) eligieron esta categoría. En general, el número de respuestas en las categorías disminuyó conforme éstas representaban niveles más altos de dolor. Distribuciones de frecuencias acumulativas La columna de la frecuencia acumulativa muestra el número de pacientes que indicaron que su dolor era menor o igual al nivel representado. Por ejemplo, 48 pacientes (31+17) clasificaron su dolor como leve o menor que leve, mientras que 56 pacientes (31+17+8) percibieron su dolor como moderado o menor que moderado. La frecuencia acumulativa se obtiene mediante la suma de la frecuencia en una categoría dada con las categorías que indican un nivel menor de la variable medida. Distribuciones de frecuencias relativas acumulativas La frecuencia relativa acumulativa se calcula al dividir cada frecuencia acumulativa entre el núme ro total de encuestados. Se puede ver que 0.80 de los pacientes creyeron que su dolor era leve o de menor intensidad, mientras que 0.93 sintieron que su dolor era moderado o de menor intensidad. La columna de la frecuencia relativa acumulativa, entonces, muestra la proporción de los pacientes que indicaron que su dolor fue menor que o igual que el nivel representado. Las distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas que se muestran en la tabla 2.2 fueron calculadas para una variable de nivel ordinal. Las primeras dos distribuciones también pueden utilizarse para una variable de nivel nominal. Obviamente las distribuciones acumulativas no serían apropiadas en este caso puesto que no hay un orden cuantitativo para una variable de nivel nominal.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
31
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Figura. Representación en barras de las frecuencias absolutas, relativas, absolutas acumuladas y relativas acumuladas. Frecuencia absoluta
Frecuencia relativa
40
0.60 0.50
31
30 20 10
0.40 0.30 0.20
17 8
4
0.10 0.00
0 Severo Moderado
Leve
Ninguno
1.20
1.00
Leve
Ninguno
0.93
1.00
56
48
0.80
0.80 31
40
0.52
0.60 0.40
20
0.20
0
0.00 Severo Moderado
Leve
Ninguno
70
Severo Moderado
1.00
60
60
1.00
Leve
Ninguno
0.93
0.80
56
50
0.80
48 0.60
40
0.52
31 31
30
0.52 0.40
0.28
17
20 10
0.13 0.07
Frecuencia relativa acumulada
80 60
0.28
Severo Moderado
Frecuencia absoluta acumulada
60
0.52
4
0.20
8
0
0.07
0.13
0.00 Severo Moderado
Leve
Ninguno
Severo Moderado
Leve
Ninguno
b. Organización para variables cuantitativas discretas La tabla de frecuencia es organizada por clases o categorías que corresponden a los distintos valores (números) que toma la variable cuantitativa discreta. Se usa cuando el conjunto de valores posible de la variable cuantitativa discreta es pequeño. Tabla de frecuencias N° de clase Valor de la (fi) (fri) (p¡) variable 1 X1 f1 fr1 P1 2 X2 f2 fr2 P2 . . . k Xk fk frk Pk Total n 1 100 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
32
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Tipo de gráfico. Se elabora el gráfico de bastones o varas con las frecuencias absolutas, relativas o porcentuales. Ejemplo 2. Organización de datos cuantitativos discretos Tabla de frecuencias del número de viajes al mes Frecuencia N° de Absoluta Frecuencia viajes al No de Frecuencia Porcentual mes clientes fi Relativa fri Pi 0 10 0.2222 22.22 1 15 0.3333 33.33 9 2 0.2000 20.00 3 6 0.1333 13.33 4 5 0.1111 11.11 Total 45 1 100 Interprete: f2 = 15 p1 = 22.22
Existen 15 clientes del Banco Comercial que hacen un viaje al mes. El 22.22% de los clientes no han realizado viajes.
Gráfico de bastones o varas 35.00 30.00 25.00
%
20.00 15.00 10.00 5.00 0.00 0
1
2
3
4
VIAJES
En el gráfico de varas, se aprecia que en la variable número de viajes al mes, el número 1 (un viaje al mes) es el más frecuente.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
33
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
c. Organización para variables cuantitativas continuas El conjunto de datos es agrupado por intervalos de clase que conforman las clases o categorías de la tabla de frecuencias. N° de Intervalos clases de clase
Marca Frec. de Absoluta
Frec. Frec. Relativa Porc.
clase [LI-LS>
X'i
Frec. Frec. Acumulada Acumulada
Frec. Acum.
Absoluta
Relativa
Porc.
fi
fri
p¡
F¡
Fri
Pi
1
[LI1-LS1>
X'1
f1
fr1
p1
F1
Fr1
P1
2 . . .
[LI2-LS2>
X'2
f2
fr2
p2
F2
Fr2
P2
[LIk-LSk]
X'k
fK N
frK
pk
Fk
Frk
Pk
1
100
1
100
k Total
Donde: LI i = Límite inferior de la clase i (Límite cerrado) LSi =Límite superior de la clase i (Límite abierto, salvo última clase que es cerrado)
Marca de clase ( X i' ). Es el punto medio del intervalo de clase. Se considerará como el valor representativo de los valores que pertenecen al intervalo de clase. ' Se calcula: X i
LI i LSi o X i' X i'1 TIC , donde TIC es el tamaño del intervalo de clase 2
Frecuencia porcentual ( pi ). Indica el porcentaje de observaciones o unidades elementales k
que hay en la clase i. Se cumple:
p i 1
i
100%
Frecuencia acumulada absoluta (Fi). Indica el número de observaciones o unidades elementales que hay desde la primera clase hasta la clase i. se calcula por: k
Fk fi f1 f 2 ... f k i 1
Propiedad: Ft Fh
t
i h 1
fi , h t
Frecuencia Acumulada Relativa (Fri). Indica la proporción de observaciones o unidades elementales que hay desde la primera clase hasta la clase i. Se calcula por: i
Fi Fri n
f j 1
n
j
i
fri j 1
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
34
UNSCH
Bioestadística I
Propiedad: Frt Frh
Prof. Reynán Cóndor A.
t
i h 1
fri , h t
Frecuencia Acumulada Porcentual (pi). Indica el porcentaje de observaciones o unidades elementales que hay desde la primera clase hasta la clase i. Propiedad: pt ph
t
p,
i h 1
i
ht
Pasos para la construcción de una tabla de frecuencias: Paso 1. Hallar el rango o amplitud (r). r = Máximo-Mínimo Paso 2. Hallar el número de intervalos de clase (k). Se aplica la regla de Sturges: k = 1 + 3.3log(n). Eligiendo un valor: 3 ≤ k ≤ 15 Se aplica el redondeo normal a entero. Si el primer dígito decimal: es ≥ 5, se redondea al entero Inmediato superior y si es < 5, se considera el entero obtenido. Paso 3. Hallar el tamaño de Intervalo de Clase (TIC). r TIC k El número de decimales debe ser igual al de las observaciones. Se aplica el redondeo por exceso. Si la posición del decimal es ≥1, se redondea al valor inmediato superior, de lo contrario no se redondea. Paso 4. Hallar los límites inferiores y superiores de cada intervalo de clase. LI1 = Mínimo LI2 = LI1 + TIC = LS1 LI3 = LI2 + TIC = LS2 … LIk = LIk-1 + TIC = LSk-1
LS1= LI1 + TIC LS2= LI2 + TIC LS3= LI3 + TIC LSk= LIk + TIC
Paso 5. Realizar el conteo del conjunto de datos, como el resultado de asignar cada observación a alguno de los intervalos de clase. Luego completar la tabla hallando X i' , fi , fri , Fi , Fri Tipos de gráficos • Histograma. Se usan las frecuencias absolutas o relativas en el eje vertical y los intervalos de clase en el eje horizontal. • Polígono. Se usan las frecuencias absolutas o relativas en el eje vertical y las marcas de clase en el eje horizontal. Ejemplo 3. Organización de datos cuantitativos continuos Organicemos las observaciones de la variable ingreso mensual de los clientes (en miles de nuevos soles). Paso 1. Calcule el rango ( R ). R = Xmax - Xmin En el ejemplo R = 13.40 - 1.99 = 11.41 Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
35
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
k = 1 + 3.3 log n = 1 + 3.3 log 45 = 6.4556 Redondeo estadístico: Se toma en consideración el primer valor decimal, si es: ≥5 se redondea al entero inmediato superior < 5 se considera el entero obtenido En nuestro ejemplo, k = 6.4556, estamos en el segundo caso, por lo que el número de clases que se debe considerar es k=6. Paso 3. Halle el tamaño de los intervalos de clase (TIC) r 11.41 TIC 1.90167 k 6 Redondeo por exceso: se toma en consideración el número mayor de decimales que tienen las observaciones. Considerando la posición de este decimal, se presentan 2 casos: • Si existe alguna cifra significativa a la derecha de este valor, se redondea al valor inmediato superior • Si no existe ninguna cifra significativa a la derecha de este valor, entonces no se realiza ningún redondeo
TIC = 1.90167 Como las observaciones tienen 2 decimales en el TIC también se considerará con 2 decimales y como hay al menos un valor diferente de cero a la derecha de las centésimas se incrementa en una centésima quedando TIC = 1.91 Paso 4. Construya la tabla de frecuencias. Tener en cuenta que en la última clase el intervalo es cerrado en el lado derecho. Tabla de frecuencias del ingreso mensual
N° de clases
Ingreso mensual [LI-LS>
Marca de clase
X i'
Frec. Abs. f¡
Frec. Rel. fri
Frec. Porc. P¡
Frec. Acum. Abs. f¡
Frec. Acum. Rel. fri
Frec. Acum. Porc. P¡
1
[1.99 - 3.90>
2.945
11
0.2444
24.44
11
0.2444
24.44
2
[3.90 - 5.81>
4.855
20
0.4444
44.44
31
0.6888
68.88
3
[5.81 - 7.72>
6.765
10
0.2222
22.22
41
0.9110
91.10
4
[7.72 - 9.63>
8.675
1
0.0222
2.22
42
0.9332
93.32
5
[9.63 -11.54>
10.585
2
0.0444
4.44
44
0.9776
97.76
6
[11.54-13.45]
1
0.0222
2.22
1.000
100
1.0000
100
12.495
45
45
Interprete:
f2 = 20; 20 de los clientes tienen un ingreso mensual de por lo menos S/. 3900 pero menos de S/. 5810. fr4 = 0.0222; 0.0222 es la proporción de clientes que ganan por lo menos S/. 7720 pero menos de S/. 9630 p5 = 4.44; 4.44% de los clientes ganan por lo menos S/. 9630 pero menos de S/. 11540.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
36
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3
F3 fi f1 f 2 f3 11 + 20 + 10 = 41; 41 de los clientes ganan mensualmente por lo
menos S/. 1990 pero menos de S/. 7720. F5 - F2 = 44 - 31 =13
i 1
5
F5 - F2 =
f i 3
i
f 3 f 4 f 5 10 + l + 2 = 13; 13 de los clientes ganan por lo menos S/. 5810
pero menos de S/. 11540 4
Fr4 =
fr
= fr1 + fr2 + fr3 + fr4 = 0.2444 + 0.4444 + 0.2222 + 0.0222 = 0.9332, indica que
i
i 1
0.9332 es la proporción de clientes que ganan por lo menos S/. 1990 pero menos de S/. 9630. Fr5 - Fr3 = 0.9776 - 0.9110 = 0.0666 5
Fr5 - Fr3 =
fr = fr i
i4
4
+ fr5 = 0.0222 + 0.0444 = 0.0666, indica que 0.0666 es la proporción de
los clientes que ganan por lo menos S/.7720 pero menos de S/.11540. 3
P3 =
p i 1
i
= pl + p2 + P3 = 24.44 + 44.44 + 22.22 = 91.10, indica que el 91.10% de los clientes
tienen ingresos mensuales de por lo menos S/.1990 pero menos de S/.7720 P5 - P2 = 97.76 - 68.88 = 28.88 5
P5 - P2 =
p i 3
i
=P3 + P4 + P5 =22.22 + 2.22 + 4.44 = 28.88, indica que el 28.88% de los
clientes de ese banco tienen ingresos mensuales por lo menos S/. 5810 pero menos de S/. 11540.
X 3' = 6.765 es el valor representativo de los clientes que ganan por lo menos S/.5810 pero menos de S/.7720. Las diez observaciones (f3 = 10) que hay en la clase 3 son representadas por el valor S/. 6765. Histograma de frecuencias 50.00 45.00 40.00 35.00
%
30.00 25.00 20.00 15.00 10.00 5.00 0.00 2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
En el histograma se puede apreciar que la clase más frecuente es la segunda esto indica que los ingresos más frecuentes son de por lo menos S/. 3900 pero menores a S/. 5810. Polígono de frecuencias
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
37
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
50.00 45.00
44.44
40.00 35.00
%
30.00 25.00
24.44
22.22
20.00 15.00 10.00 5.00
2.22
0.00 2.945
4.855
6.765
8.675
4.44 10.585
2.22 12.495
INGRESO
En el polígono de frecuencias se observa que son pocos los clientes con Ingresos mensuales altos. 50.00 45.00 40.00 35.00
%
30.00 25.00 20.00 15.00 10.00 5.00 0.00 2.945
4.855
6.765
8.675
10.585
12.495
INGRESO
Presentamos a continuación un nuevo caso, la tabla 2.3 presenta una distribución de frecuencias de las presiones sanguíneas sistólicas (ficticias) de 144 adolescentes moderadamente obesos. En esta tabla las frecuencias se relacionan con los valores de la presión sanguínea más que con categorías discretas, como fue el caso en la tabla 2.2. Como resultado, hay un gran número de valores y sus frecuencias. Esto puede causar dificultades de interpretación, especialmente cuando las frecuencias individuales son pequeñas e incluyen el cero. En estos casos a veces es útil reducir el número de valores mediante la formación de grupos. Entonces se pueden dar distribuciones de frecuencias, frecuencias relativas, frecuencias acumulativas y frecuencias relativas acumulativas para estos grupos de valores en lugar de valores individuales. La tabla 2.4 presenta distribuciones agrupadas para los datos de la presión sanguínea. Como puede observarse, los valores de presión sanguínea se colocaron en intervalos que técnicamente se conocen como intervalos de clase. Las diversas distribuciones se basan entonces en esos intervalos. Al reducir los datos en esta forma, los patrones de respuesta DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
38
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
se distinguen con mayor facilidad. Pero el precio que se paga por la comodidad interpretativa es la pérdida de información. Por ejemplo, mientras que es fácil ver que alrededor del 21.5% de los valores cae en el intervalo 135-139, no hay información acerca de los valores individuales en este intervalo. Al construir tablas de este tipo se deben responder dos preguntas relacionadas. ¿En cuántos intervalos se deben agrupar los valores y qué tan grandes deberán ser los intervalos? Muy pocos intervalos provocan la pérdida de mucha información, mientras que muchos intervalos hacen fracasar el propósito de resumir los datos. El tamaño de los intervalos dependerá del número de intervalos utilizados y viceversa. No existen reglas rígidas y rápidas al respecto. En esencia, usted deseará presentar los datos dándoles el mayor significado posible. Sin embargo, hay algunas reglas generales que sirven como guía. Una sugerencia común es que no debe haber menos de seis ni más de 15 intervalos. Otra regla útil es que, cuando sea posible, se debe usar una anchura en los intervalos de clase de 5 unidades, de 10 unidades o de algún múltiplo de 10 para que el resumen de los datos sea más comprensible. Paciente
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
Presiones sanguíneas
86
90
92
92
93
95
95
95
96
96
97
97
98
98
99
Paciente
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
100
100
100
100
102
103
105
105
106
107
107
109
110
110
110
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
111
111
111
114
114
115
115
115
115
115
115
116
116
116
117
Presiones sanguíneas Paciente Presiones sanguíneas Paciente
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
118
118
119
119
120
120
120
121
122
122
122
123
123
124
124
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
124
124
125
125
125
125
126
126
126
126
126
126
126
127
127
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
127
128
128
128
129
129
129
130
130
130
130
130
131
131
131
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
Presiones sanguíneas
132
132
132
132
133
133
133
133
133
133
133
133
134
134
134
Paciente
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
Presiones sanguíneas
134
134
135
135
135
135
135
135
135
135
136
136
136
137
137
Paciente
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
Presiones sanguíneas
137
137
137
137
137
137
137
137
137
138
138
138
139
139
139
Paciente
136
137
138
139
140
141
142
143
144
Presiones sanguíneas
139
139
139
140
140
140
140
143
143
Presiones sanguíneas Paciente Presiones sanguíneas Paciente Presiones sanguíneas Paciente
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
39
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
TABLA 2.3: Distribución de frecuencias de las presiones sanguíneas de 144 adolescentes moderadamente obesos. PS
Frec.
PS
Frec.
PS
Frec.
PS
Frec.
143
2
128
3
113
0
98
2
142
0
127
3
112
0
97
2
141
0
126
7
111
3
96
2
140
4
125
4
110
3
95
3
139
6
124
4
109
1
94
0
138
3
123
2
108
0
93
1
137
11
122
3
107
2
92
2
136
3
121
1
106
1
91
0
135
8
120
3
105
2
90
1
134
5
119
2
104
0
89
0
133
8
118
2
103
1
88
0
132
4
117
1
102
1
87
0
131
3
116
3
101
0
86
1
130
5
115
6
100
4
129
3
114
2
99
1
Paso 1. Calcule el rango ( R ). R = Xmax - Xmin En el ejemplo R = 143 - 86 = 57 Paso 2. Determine el número de intervalos de clase (k). Utilice la regla de Sturges k = 1 + 3.3 log n = 1 + 3.3 log 144 = 8.122596224 k=8 Paso 3. Halle el tamaño de los intervalos de clase (TIC) R 57 TIC 7.125 k 8 TIC = 8 TABLA 2.4: Distribuciones agrupadas de las presiones sanguíneas sistólicas utilizando 8 intervalos. N° de clases
Presión sanguínea [LI-LS>
Marca de clase Frec. Abs. fi X i'
Frec. Rel. fri
Frec. Porc. Pi
Frec. Acum. Abs. fi
Frec. Acum. Rel. fri
Frec. Acum. Porc. Pi
1 [86-94>
90
5
0.035
3.47
5
0.035
3
2 [94-102>
98
14
0.097
9.72
19
0.132
13
3 [102-110>
106
8
0.056
5.56
27
0.188
19
4 [110-118>
114
18
0.125
12.50
45
0.313
31
5 [118-126>
122
21
0.146
14.58
66
0.458
46
6 [126-134>
130
36
0.250
25.00
102
0.708
71
7 [134-142>
138
40
0.278
27.78
142
0.986
99
8 [142-150]
146
2
0.014
1.39
144
1.000
100
144
1
100
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
40
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
30.00 25.00
%
20.00 15.00 10.00 5.00 0.00 90
98
106
114
122
130
138
146
PRESIÓN SANGUÍNEA
Figura. Histograma y polígono de frecuencias de la presión sanguínea. El número y tamaño de los intervalos es flexible. No siempre es necesario formar distribuciones agrupadas para variables continuas. Cuando el número de valores no es muy grande, las distribuciones pueden basarse en datos no agrupados.
Referencia bibliográfica: Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
41
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejercicio. Elabore la tabla de frecuencias y el histograma de las edades de 169 individuos que participan en un estudio de oxidación de esparteína y mefenitoína. Tabla. Arreglo ordenado de las edades de los individuos 18 18 19 19 20 21 21 21 22 22 22 22 22 22 23 23 23 23 23 23 23 24 24 24 24 24 24 24 24 24 25 25 25 25 26 26 26 26 26 26 26 26 26 26 26 27 27 27 27 27 27 27 27 27 27 28 28 28 28 28 28 28 29 29 29 29 29 29 29 29 30 30 30 30 30 30 30 30 30 30 31 31 31 31 31 31 31 32 32 32 32 32 33 33 33 34 34 34 34 34 35 36 36 36 37 37 37 37 37 38 38 38 38 38 39 39 39 40 40 40 40 40 40 41 41 41 42 42 42 42 43 43 43 44 44 44 45 45 45 46 46 47 47 47 47 48 48 48 48 48 48 49 49 50 50 50 51 51 52 52 53 53 53 53 56 61 62 63 63 Se quiere saber cuántos intervalos de clase se tienen en la distribución de frecuencias de datos y también se quiere saber qué tan amplios deben ser los intervalos. Solución: Para tener una idea del número de intervalos a utilizar, la aplicación de la regla de Sturges indica: k 1 3.322(log169) 1 3.22(2.227886705) 8.17379518885603 8
Ahora, al dividir el rango entre 8 para darse una idea de la amplitud de los intervalos de clase, se obtiene: TIC
R 63 18 45 5.625 k 8 8
Es evidente que un intervalo de clase con una amplitud de o 10 es más conveniente y significativo para el lector. Suponga que se decide que sea 10. Ahora es posible construir los intervalos. Puesto que el valor más pequeño en la tabla es 18 y el mayor es 63, entonces los intervalos inician con 10 y terminan con 69. Se obtienen los siguientes intervalos: TABLA. Distribuciones de: frecuencia, frecuencia relativa, frecuencia acumulada y frecuencia relativa acumulada de las edades de los sujetos. Frecuencia Intervalo Marca de Frecuencia Frecuencia relativa de clase clase Frecuencia relativa acumulada acumulada 10-19 14.5 4 0.0237 4 0.0237 20-29 24.5 66 0.3905 70 0.4142 30-39 34.5 47 0.2781 117 0.6923 40-49 44.5 36 0.213 153 0.9053 50-59 54.5 12 0.071 165 0.9763 60-69 64.5 4 0.0237 169 1 169 1
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
42
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Si el interés está centrado en la frecuencia relativa de los valores que caen entre 30 y 59, entonces se utiliza la columna de las frecuencias relativas acumuladas de la tabla 2.3.2 y se resta 0.4142 de .9763 para obtener 0.5621.
Histograma de Edades 70 60
Frecuencia
50 40 30 20 10 0
10
20
30
40
50
60
70
Edades
2.10 Diagrama de Tallos y Hojas Un diagrama de tallos y hojas es un ingenioso artificio que ofrece una representación parecida a un histograma. La ventaja de este diagrama es que no sólo muestran las frecuencias sino que contienen los valores reales. A diferencia de las tablas de frecuencias con este procedimiento ningún dato se pierde. Pasos para elaborar un diagrama de tallos y hojas Paso 1. Cada dato se divide en dos: la primera se llama tallo y la segunda hoja. Paso 2. Cada tallo se forma con uno o más dígitos iniciales de cada dato y las hojas se forman con los dígitos restantes (generalmente de un solo dígito). Paso 3. Los tallos se presentan en una columna ordenada de menor a mayor. Paso 4. Las hojas se muestran en filas ordenadas y listadas a la derecha de su respectivo tallo. Nota. • En caso de datos decimales, al construir el diagrama de tallos y hojas el punto decimal se pierde, por tal razón se acostumbra indicar unidades que los datos del tallo representan. Por ejemplo para un dato: 4.12 Unidad=0.01 • Es necesario pone todos los tallos consecutivos. Si no existe el dato, se pone el valor del tallo y en la fila de hoja se deja en blanco. • Si es necesario se divide en dos hojas cada tallo, según los rango: (0 - 4) y (5 - 9). Ejemplo. Los siguientes datos corresponden a la estatura de una muestra de 30 alumnos universitarios. 158, 159, 161, 161, 163, 163, 164, 166, 166, 167, 168, 168, 168, 169, 170, 170, 170, 171, 171, 171, 172, 173, 174, 174, 174, 174, 174, 177, 182, 191
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
43
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Salida de resultados en Minitab. Diseño de tallo y hoja: Estatura Tallo y hoja de C3 N Unidad de hoja = 1.0
= 30 Tallos Profundidad Hojas
2 7 14 (13) 3 2 1 1
15 16 16 17 17 18 18 19
89 11334 6678889 0001112344444 7 2 1
El diagrama de tallos y hojas representa la estatura de 30 alumnos. Existen tres partes en el gráfico. • La primera columna representa la profundidad. • La segunda columna representa los tallos. • La última columna representa las hojas. Cada dígito de las hojas representa una observación. El diagrama de tallos y hojas muestra 8 tallos con sus respectivas hojas. El primer tallo es 15 y la primera hoja es 8. La observación correspondiente es 158 que se obtuvo juntando los dígitos del tallo y de la hoja y se multiplica por la unidad de hoja (158×1.0=158). La primera columna (la profundidad) indica cuantas observaciones hay en esa línea o antes. El número 14 en la tercera línea indica que hay 14 observaciones en esa línea y en las líneas anteriores (14 observaciones menores o iguales a 169). Hay una línea especial, la línea que contiene la mediana. El valor que muestra es encerrado entre paréntesis e indica cuantas observaciones hay en esa línea. A partir de la siguiente línea que contiene la mediana, la columna de profundidad indica cuantas observaciones hay en esa línea y en las líneas posteriores. El número 3 en la quinta línea indica que hay 3 observaciones en esa línea y en las líneas posteriores (3 observaciones mayores o iguales a 177). La séptima línea muestra al tallo 18 (1 18 ); sin embargo no tiene ninguna hoja, lo que significa que no hay ninguna observación en ese tallo. (Un error muy frecuente es considerar el tallo 18 y la hoja 0 y por consiguiente considerar la observación 18.0 con lo que se tendrían 31 observaciones). Salida de resultados en SPSS. Estatura de 30 alumnos Stem-and-Leaf Plot Frequency
Stem &
2.00 15 5.00 16 7.00 16 13.00 17 1.00 17 1.00 18 1.00 Extremes Stem width: Each leaf:
. . . . . .
Leaf 89 11334 6678889 0001112344444 7 2 (>=191)
10.00 1 case(s)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
44
UNSCH
Bioestadística I
III.
ANÁLISIS E INTERPRETACIÓN DE DATOS
3.1.
Análisis descriptivo.
Prof. Reynán Cóndor A.
Se estableció que la toma de mediciones y el proceso de conteo producen números que contienen información. El objetivo de la gente que aplica herramientas estadísticas a esos números es determinar la naturaleza de esa información. Esta tarea es mucho más fácil si los números están organizados y resumidos. Cuando se hacen las mediciones sobre entidades de una población o muestra, los valores resultantes están disponibles para el investigador o estadístico como una masa de datos desorganizados. Las mediciones que no han sido organizadas, procesadas o manejadas de alguna otra forma se les llama datos crudos (materia prima). A menos que el número de observaciones sea extremadamente pequeño, es improbable que esos datos crudos proporcionen suficiente información hasta que sean puestos en algún orden. Veremos algunas técnicas para organizar y procesar datos de tal manera que sea más fácil determinar qué información contienen. Lo más actual en procesamiento de datos es el cálculo de un número individual que de alguna manera incluye información importante acerca de los datos que sirvieron para calcularlo. A estos números individuales utilizados para describir datos se les llama medidas descriptivas.
3.2.
Medidas estadísticas
Es posible caracterizar cualquier conjunto de datos numéricos por la medición de sus tendencia central, variación y forma. La mayoría de los conjuntos de datos presentan una tendencia central a agruparse en torno a un valor central. Cuando se habla de un promedio, o valor medio, o del valor más común o frecuente, se refiere de manera informal a la media, la mediana y la moda, tres medidas de tendencia central. La variación mide la distribución o dispersión de valores que conforman el conjunto de datos. Una medida simple de la variación es el rango, que es la diferencia entre los valores máximo y mínimo. En la estadística, son de uso más común la desviación estándar y la varianza, dos medidas que se explican más adelante en esta sección. La forma de un conjunto de datos representa un patrón para todos los valores, desde el mínimo hasta el máximo. Las medidas estadísticas pueden ser calculadas con los datos provenientes de una población (N: Tamaño de la población) o muestra (n: Tamaño de la muestra) para evaluar diferentes variables (cuantitativas y cualitativas), cuya finalidad es resumir y representar el conjunto de datos. Muestra (n): X1,X2,…,Xn Población (N): Xl,X2,…,XN
=> Valores Estadísticos => Parámetros
• Las medidas estadísticas asumen las mismas unidades de medida de la variable en estudio, con la excepción de ciertas medidas estadísticas relativas. • Para las variables cuantitativas, se pueden calcular medidas estadísticas como: media, mediana, moda, rango, rango intercuartílico, varianza, desviación estándar, coeficiente de variabilidad, y otras. En el caso de las variables cualitativas, sólo es posible calcular las medidas como la moda y la proporción. 3.3. Medidas de tendencia central. En cada una de las medidas de tendencia central, de las que se discuten sólo tres, únicamente un valor del conjunto de datos se considera como el representativo del todo. Las medidas de tendencia central conllevan información respecto al valor promedio de un DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
45
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
conjunto de valores. Tal como se verá, la palabra promedio se puede definir en diversas formas. Las tres medidas de tendencia central de uso más frecuente son: la media, la moda y la mediana. 3.3.1 La media aritmética La medida de tendencia central más conocida es la media aritmética. Ésta es la medida descriptiva que la mayoría de las personas tienen en mente cuando se habla de “promedio”. El adjetivo aritmética distingue a esta media de otras que se puedan calcular. La media se obtiene sumando todos los valores en una población o muestra y dividiendo entre el número de valores sumados. Media de la población:
1 N Xj N j 1
Media de la muestras
1 n Xj n j 1
X
Ejemplo. Obtenga la edad media de la población de los 169 individuos registrados tabla de edades. Solución: Se procede de la siguiente forma: Edad media: X
18 22 24 ... 47 50 63 5797 34.302 169 169
La media ponderada k
xp
x w j
j 1 k
w j 1
j
x1w1 x2 w2 ... xk wk w1 w2 ... wk
j
Ejemplo. Si el examen final de un curso cuenta tres veces más que una evaluación parcial, y un estudiante tiene calificación 85 en el examen final y 70 y 90 en los dos parciales, la calificación media es X
(1)(70) (1)(90) (3)(85) 415 83 11 3 5
Cuando los datos se encuentran en una tabla de frecuencias correspondiente a una variable cuantitativa discreta. La media se calcula por: k
xp
fx i
j 1 k
j 1
k
j
fi
fx i
j 1
j
n
k
xp
fX j 1
i
' i
n
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
46
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Si x1 , x2 ,..., xk son las medias de k grupos y cada grupo tiene tamaño n1, n2,...,nk respectivamente, entonces la media de todos los datos n = n1+n2+... +nk se calcula por: k
xp
n x i
j 1 k
j
n
i
j 1
La media aritmética para datos agrupados: k
xp
fx i
j 1
j
n k
x
fX j 1
i
' j
n
Propiedades de la media La media aritmética tiene ciertas propiedades, algunas deseables y otras no tanto. Algunas de estas propiedades son las siguientes: 1. Es única. Para un conjunto de datos existe una y sólo una media aritmética. 2. Simplicidad. El cálculo y comprensión de la media aritmética son sencillos. 3. Puesto que todos y cada uno de los valores en el conjunto de datos entran en el cálculo de la media, ésta es afectada por cada valor. Por lo tanto, los valores extremos influyen sobre la media y, en algunos casos, pueden distorsionarla tanto que llega a ser indeseable como medida de tendencia central. A continuación se muestra un ejemplo de cómo los valores extremos pueden afectar la media. Considere la siguiente situación: cinco médicos que trabajan en cierta área son llamados a declarar sus cobros por realizar cierto procedimiento. Suponga que se reporta lo siguiente: $75, $75, $80, $80 y $280. El cobro medio para los cinco médicos es de $118, un valor que no es muy representativo del conjunto de datos. El único valor atípico del conjunto tuvo el efecto de inflar la media. Medias geométrica, armónica y cuadrática Existen otras definiciones de media que pueden tener su utilidad en algunos casos. Media geométrica xG. En el caso de una muestra con valores diferentes de la variable se define como la raíz enésima (N es el tamaño de la muestra) del producto de los valores de la variable xG N x1 x2 ...xN
Si los datos aparecen agrupados en k valores distintos la definición sería xG N x1n1 x2n2 ...xknk
Esta media tiene la característica negativa de que si uno de los valores es nulo, la media sería asimismo cero, y por lo tanto sería poco representativa del valor central. Además si existen valores negativos es posible que no se pueda calcular. A la hora de calcularla es útil tener en cuenta que el logaritmo de la media geométrica es la media aritmética del logaritmo de los datos
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
47
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
k
n log x
log xG
i 1
i
i
N
La media armónica xA se define como la inversa de la media aritmética de las inversas de los valores de la variable. Es decir, para variables no agrupadas y agrupadas, sería
xA
N N
1
i 1
i
x
; xA
N ni i 1 xi k
Es evidente que si una de las medidas es 0, la media armónica no tiene sentido. La media cuadrática xQ. Se define ésta como la raíz cuadrada de la media aritmética de los cuadrados de los valores N
xQ
xi2 i 1
N
k
; xQ
x n i 1
2 i i
N
Esta media tiene su utilidad con frecuencia en la aplicación a fenómenos físicos. Se puede demostrar que estas medias se relacionan con la media aritmética, en el caso de valores positivos de la variable, por x A xG x xQ
Ninguna de estas medias es muy robusta en general, aunque esto depende de cómo se distribuyan las variables. Por ejemplo, la media armónica es muy poco sensible a valores muy altos de x, mientras que a la media cuadrática apenas le afectan los valores muy bajos de la variable. 3.3.2 La mediana La mediana de un conjunto finito de valores es aquel valor que divide al conjunto en dos partes iguales, de forma que el número de valores mayores o iguales a la mediana es igual al número de valores menores o iguales a ésta. Si el número de valores es impar, la mediana es el valor medio o central siempre y cuando todas las variables sean arregladas en orden de magnitud. Cuando el número de valores en el conjunto es par, no existe un valor medio único, sino que existen dos valores medios. En tal caso, la mediana corresponde a la media de esos dos valores centrales, cuando todos los valores son arreglados en orden de magnitud. Es decir, la mediana del conjunto de datos es la (n 1) / 2 -ésima observación, cuando las observaciones han sido ordenadas. Por ejemplo, si se tienen 11 observaciones, la mediana es la (11+1)/2=6-ésima observación ordenada. Si se tienen 12 observaciones, la mediana es la (12+l)/2=6.5-ésima observación ordenada y es el valor que está entre la sexta y séptima observación ordenada.
n 1 100 50 Entero( E ) me x( E ) Si n 1 50 Decimal ( E.d ) me x 0.d ( x (E) ( E 1) x( E ) ) 100 La mediana poblacional se representa por Me y la mediana muestral por me DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
48
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
n impar me X n 1 2 Si X n X n 1 2 n par me 2 2
Propiedades de la mediana: Entre las propiedades de la mediana se encuentran las siguientes: 1. Es única. Al igual que en el caso de la media, existe solamente una mediana para un conjunto de datos. 2. Simplicidad. Es muy sencillo calcularla. 3. Los valores extremos no tienen efectos importantes sobre la mediana, lo que sí ocurre con la media. Ejemplo. Los siguientes datos corresponden a los pesos (en Kg.) de 10 personas: 50, 77, 53, 76, 63, 64, 75, 54, 52, 80. Calcule la mediana Datos ordenados: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80 10 1 Posición 50 5.5 me x(5) 0.5 ( x(6) x(5) ) 63 0.5 (64 63) 63.5 Kg 100 Interpretación. Un 50% de personas pesan menos de 63.5 Kg. y el otro 50% pesa más de 63.5 Kg. La mediana para datos agrupados n Frecuencia acumulada f i 1 Me LI i 2 LI i 1 LI i Frecuencia fi
3.3.3 La moda La moda de un conjunto de datos es el valor que ocurre con mayor frecuencia. La moda poblaciones se representa por Mo y la moda muestral por mo. Propiedades: 1. La moda puede no existir o puede haber más de una moda en un conjunto de datos. 2. La moda no está afectada por valores extremos. 3. Se aplica tanto para información cualitativa como cuantitativa. Ejemplos: 1. Se tiene las longitudes de peces de río (cm) de la zona A: 4.0, 4.1, 4.2, 4.3, 4.5, 4.7, 4.8. No hay moda. 2. Las siguientes longitudes sonde la zona B: 4.0, 4.1, 4.1, 4.1, 4.2, 4.2, 4.5, 4.2. Se distinguen dos modas mo1 = 4.1 y mo2 = 4.2 (distribución bimodal). 3. Encuentre la edad modal de los individuos cuyas edades se presentan en la tabla de edades. El conteo de las edades en la tabla 2.2.1 revela que la edad 26 ocurre con más frecuencia (11 veces). La moda para esta población de edades es de 26. Moda para datos agrupados DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
49
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
1 xi xi 1 2 xi xi 1 Mo LI i
1
1 2
LIi 1 LIi
3.4. Percentiles El percentil Pq divide a un conjunto ordenado de observaciones en un q% menores que Pq y un (100 - q)% mayores que Pq. El percentil Pq es un valor expresado en las mismas unidades que la variable en estudio. Cálculo del Percentil n 1 Posición q 100
n 1 100 q Entero( E ) Pq x( E ) Si n 1 q Decimal ( E.d ) P x 0.d ( x q (E) ( E 1) x( E ) ) 100 Ejemplo. Se cuenta con los datos de los tiempos (en minutos) de tardanza de los estudiantes de una universidad. Halle e interprete el percentil 45. 15 12 18 22 24 10 9 13 25 18 6 14 Datos ordenados: 6 9 10 12 13 14 15 18 18 22 24 25
12 1 Posición 45 5.85 P45 x(5) 0.85 ( x(6) x(5) ) 13 0.85 (14 13) 13.85 100 Interpretación: El 45% de los estudiantes tienen un tiempo de tardanza menor 13.85 minutos y el otro 55% más de 13.85 minutos. Cuartiles Son percentiles que dividen el conjunto de datos en 4 partes iguales (25% cada una). Son conocidos también como Q1=P25, Q2=P50 y Q3=P75. Ejemplo Los siguientes datos corresponden a los pesos, en Kg. de 10 personas: 50, 52, 53, 54, 63, 64, 75, 76, 77, 80. a. Calcule e interprete el percentil 25 P 25 x 10 1 x(2.75) x (2) 0.75 (x (3) x (2) ) 52 0.75 (53 52) 52.75 Kg 25 100
Interpretación: Un 75% de personas pesa menos de 76.25 Kg. y el otro 25% pesa más de 76.25 Kg. Cuartiles para datos agrupados
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
50
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
n Frecuencia acumulada f i 1 Q1 LI i 4 LI i 1 LI i 4 Frecuencia f i Q3 LI i 4
3 n Frecuencia acumulada f i 1 4 LI i 1 LI i Frecuencia f i
Ejercicio Se ha desarrollado un experimento para evaluar el efecto de alimentos balanceados en la ganancia de pesos de pollos. Una muestra aleatoria de 30 pollos que recibieron el alimento balanceado fue seleccionada. Al cabo de 10 días se registraron las ganancias de pesos (en gr) 93 98 100 102 107 109 110 110 111 111 113 114 115 116 118 118 119 119 120 120 120 124 125 128 129 129 130 135 138 141 a. Halle e interprete las medidas de tendencia central para la ganancia de peso. b. ¿Cuál es el peso mínimo de un pollo que fue alimentado con el alimento balanceado para estar en el 10% superior de los que pesan más? c. ¿Cuál es peso máximo del 60% de pollos que pesan menos con el alimento balanceado? Solución: a) N Media StDev CoefVar Mínimo Q1 Mediana Q3 Máximo 30 117,40 11,57 9,85 93,00 110,00 118,00 125,75 141,00 La ganancia de peso por pollo alimentado con A es de 117.4 gr. El 50% de los pollos alimentados con A tuvieron ganancias de peso menores de 118 gr. y el restante 50% tuvieron ganancias de peso mayores a 118 gr. El valor de la ganancia de peso más frecuente es de 120gr. b) P90 = X27.5 = 134.5gr. c) P60 = Xl8 = 119gr. Referencia bibliográfica: Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008 3.5. Medidas de Variabilidad o de dispersión. Son medidas estadísticas que permiten conocer el grado de dispersión o variabilidad (homogeneidad o heterogeneidad) dentro de un conjunto de datos. Se usan para comparar la variabilidad entre dos o más conjuntos de datos. Cuando los datos presentan baja variabilidad, se dice que son homogéneos y cuando presentan alta variabilidad se dice que son heterogéneos. Si todos los valores son iguales, no hay dispersión, pero si no todos son iguales, entonces existe dispersión en los datos. La magnitud de la dispersión es pequeña cuando los valores, aunque diferentes, son cercanos entre sí. La figura muestra los polígonos de frecuencia para dos poblaciones que tienen medias iguales, pero diferente magnitud de variabilidad. La población B, más variable que la población A, es más dispersa. Si los valores están DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
51
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
ampliamente esparcidos, la dispersión es mayor. Otros términos sinónimos de dispersión son: variación, expansión y dispersión.
FIGURA. Dos distribuciones de frecuencias con igual media pero diferente magnitud de dispersión.
3.5.1 Rango o intervalo de variación El rango o amplitud de un conjunto de observaciones es igual a la diferencia entre el valor máximo y el valor mínimo. R X max X min
La utilidad de rango es limitada. El hecho de que toma en consideración sólo dos valores hace que sea una medida pobre de dispersión. Su ventaja principal es la simplicidad de su cálculo. Desventajas: a. Queda afectada por valores extremos b. No mide la variabilidad de los datos intermedios EJEMPLO. Calcule el rango de las edades de los individuos de la muestra estudiada en el ejemplo edades. Solución: Puesto que el individuo más joven en la muestra tiene 23 años y el más viejo tiene 61, el rango calculado es: R 61 23 38
Rango intercuartil El rango intercuartil, se define como la diferencia entre el percentil 75 (P75 = Q3) y el percentil 25 (P25 = Q1). RI = P75 - P25 • El RI excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se encuentra el 50% central de los datos. • Un RI pequeño indica alta homogeneidad o pequeña variabilidad dentro del 50% central de los datos.
3.5.2 La varianza Cuando los valores de un conjunto de observaciones se encuentran ubicados cerca de su media, la dispersión es menor que cuando están esparcidos. En consecuencia, se puede DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
52
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
pensar intuitivamente que es posible medir la dispersión en función del esparcimiento de los valores alrededor de su media. La varianza poblacional
2
2 1 N 1 N 2 2 X X j N j N j 1 N j 1
La varianza muestral
S2
1 n Xj X n 1 j 1
2
2 1 n 2 X j nX n 1 j 1
Ejemplo. Calcule la variancia de las edades de los 10 individuos. N°
Edades individuos
1
42
2
28
3
28
4
61
5
31
6
23
7
50
8
34
9
32
10
37
de
Solución:
S2
(42 36.6)2 (28 36.6)2 (28 36.6) 2 (61 36.6) 2 (31 36.6) 2 ... (37 36.6)2 9
S2
1196.399997 132.933333 9
Variancia para datos agrupados: n
S2
f X i 1
i
'2 j
nX
2
n 1
Donde:
X 'j : Marca de clase f i : Frecuencia
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
53
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3.5.3 La desviación estándar La variancia representa unidades al cuadrado, por lo que no es una medida adecuada de dispersión si se pretende expresar este concepto en términos de las unidades originales. Para obtener la medida de dispersión en unidades originales, simplemente se obtiene la raíz cuadrada de la variancia. La desviación estándar poblacional
2 La desviación estándar muestral
S S2 Ejemplo. Calcule la desviación estándar de las edades de los 10 individuos.
S S 2 132.933333 11.5296719 La desviación estándar de un conjunto de datos es una medida de cuánto se desvían los datos de su media. Esta medida es más estable que el recorrido y toma en consideración el valor de cada dato. Para distribuciones normales, resulta: (a) 68.27% de los casos están entre X S y X S (o sea, una desviación típica a cada lado de la media). (b) 95.45% de los casos están entre X 2S y X 2S (o sea, dos desviaciones típicas a cada lado de la media). (c) 99.73% de los casos entre X 3S y X 3S (o sea, tres desviaciones típicas a cada lado de la media). Para distribuciones poco asimétricas, los anteriores porcentajes son aproximadamente válidos.
3.5.4 Coeficiente de variabilidad El coeficiente de variación es una medida para comparar la variabilidad en un conjunto de datos con la de otro, en situaciones en las que una comparación directa de desviaciones típicas no es conveniente o suficientemente realista. El coeficiente de variabilidad es una medida de dispersión relativa (no tiene unidades) y se define como la razón entre la desviación estándar y la media aritmética de un conjunto de observaciones. Coeficiente de variabilidad poblacional: CV 100 Coeficiente de variabilidad muestral: DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
54
UNSCH
cv
S
Bioestadística I
Prof. Reynán Cóndor A.
100
X Ejemplo: Los siguientes resultados corresponden a dos muestras formadas por varones: Edad Peso medio Desviación estándar
Muestra 1 25 años 145 libras 10 libras
Muestra 2 11 años 80 libras 10 libras
El propósito es saber cuál tiene mayor variabilidad, los pesos de individuos de 25 años o los de 11 años. Solución: Una comparación de las desviaciones estándar puede conducir a la conclusión de que las dos muestras tienen igual variabilidad. Sin embargo, si se calculan los coeficientes de variación, se obtiene para los sujetos de 25 años de edad: cv
10 (100) 6.9 145
y para los de 11 años de edad: cv
10 (100) 12.5 80
Si se comparan estos resultados, la impresión recibida es diferente. El coeficiente de variación también es útil para comparar los resultados obtenidos por diferentes personas que efectúan investigaciones que involucran la misma variable. Debido a que el coeficiente de variación es independiente de la escala de medición, constituye una estadística útil para comparar la variabilidad de dos o más variables medidas en escalas diferentes. Por ejemplo, podría utilizarse el coeficiente de variación para comparar la variabilidad de los pesos de una muestra de individuos cuyos pesos se expresan en libras y la variabilidad de los pesos de otra muestra, expresados en kilogramos. Ejemplo, en un estudio del consumo de leche en Estados Unidos, se obtuvo que el número medio de galones de leche consumida por unidad familiar por semana fue 8, con una desviación típica muestral de 3 galones. Un estudio semejante en Canadá dio un consumo medio de 12 litros con una desviación de 4 litros. No tiene sentido comparar estas desviaciones típicas directamente porque están dadas en unidades diferentes. Una forma rápida de comparar la variabilidad es con el coeficiente de variación (CV) dado por: Los coeficientes de variación de las dos muestras son: 3 8
Estados Unidos: cv (100) 37.5% Canadá: cv
4 (100) 33.3% , respectivamente. Los datos de Estados Unidos presentan 12
más variabilidad que los de Canadá.
Comparación de la variabilidad Para comparar la variabilidad entre dos o más conjuntos de datos, se debe considerar: DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
55
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Unidades de Unidades de medidas iguales medidas diferentes Medias similares Medias diferentes S1 con S2 cv1 con cv2 cv1 con cv2 El cuadro indica que cuando se compara la variabilidad de dos conjuntos de datos, si las variables tienen unidades de medidas diferentes; se debe usar los coeficientes de variación; mientras si las variables tienen unidades de medida iguales, se debe observar si las medias son similares para usar la desviación estándar y en caso que las medias sean diferentes usar el coeficiente de variación. 3.6. Medidas de asimetría. Las medidas de asimetría permiten determinar la forma de una distribución para un conjunto de datos en lo que se refiere a su simetría o asimetría.
3.6.1 Formas de una distribución •
• •
Distribución simétrica. Un conjunto de datos muestra una distribución simétrica, si su curva guarda simetría con respecto al centro de los datos. Si la distribución es simétrica entonces μ = Me. Distribución asimétrica positiva. Si un conjunto de datos muestra una distribución asimétrica positiva o con cola a la derecha, entonces: μ > Me. Distribución asimétrica negativa. Si un conjunto de datos muestra una distribución asimétrica negativa o con cola a la izquierda, entonces: μ < Me.
Ejemplo. Los siguientes gráficos corresponden a la distribución de los ingresos mensuales (miles S/.) de muestras al azar de los clientes de tres sucursales (A, B y C) de una caja rural.
Las relaciones entre la media y la mediana descritas anteriormente, se cumplen con distribuciones unimodales (una sola moda).
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
56
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3.6.2 Variables ordinales: el índice de asimetría intercuartílico El índice de asimetría intercuartílico se basa en las distancias entre los cuartiles a fin de establecer un resumen de la asimetría de la distribución. La fórmula es la siguiente:
AsQ3 Q2
(Q3 Q2 ) (Q2 Q1 ) Q3 Q1 2Q2 Q3 Q1 Q3 Q1
Interpretación: oscila entre -1 y 1, lo cual facilita su comprensión.
3.6.3 Variables cuantitativas: Coeficiente de asimetría de Pearson Evalúa el grado de distorsión o inclinación que adopta la distribución de los datos respecto a su valor promedio tomado como centro de gravedad. El coeficiente de asimetría de Pearson es: Poblacional: As
3( Me)
Muestral:
as
3( X me) S
Propiedades 1. Si as = 0 entonces la distribución es simétrica. 2. Si as < 0 entonces la distribución es asimétrica negativa o a la izquierda. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
57
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3. Si as > 0 entonces la distribución es asimétrica positiva o a la derecha. Un mayor (menor) valor del coeficiente de asimetría de Pearson indica un mayor (menor) grado de asimetría de la distribución de los datos. Ejemplo. Recordemos los datos de los ingresos mensuales del Banco Comercial que se trabajaron en la parte de organización de datos. Con esa información se tienen los siguientes valores: X 5.350 me 4.700 s 2.181
x = 5.350, me = 4.700, s = 2.181. Por lo tanto
3( X me) 3(5.350 4.700) 0.8941 0 , entonces la distribución de los ingresos s 2.181 mensuales tiene una asimétrica positiva. as
Ejercicio 1. Se desea realizar un estudio sobre la utilización del agua en tres zonas rurales (A, B y C). Con esta finalidad se ha seleccionado al azar 8 casas de la zona A, 6 de la zona B y 10 de la zona C. Luego se registró el número de litros de agua consumidos por un día, los cuales se presenta en el siguiente cuadro:
3.7 Curtosis Evalúa el grado de apuntamiento de la distribución. El apuntamiento expresa el grado en que una distribución acumula casos en sus colas en comparación con los casos acumulados en las colas de una distribución normal cuya dispersión sea equivalente (Pardo y Ruiz, 2002).
3.7.1 Variables ordinales: el índice KU. KU
P75 P25 2( P90 P10 )
Grado de Apuntamiento Mesocurtica (Distribución normal) Leptocúrtica (Elevada) Platicúrtica (Aplanada)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Valor de la Curtosis 0.263 Mayor a 0.263 o se aproxima a 0.5 Menor a 0.263 o se aproxima a 0
58
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Por ejemplo se tienen como Q3=8.9; Q1=6.85; P90=9.95 y P10=5.85.
P75 P25 8.9 6.85 0.25 , la curtosis de la distribución es 0.25; por tanto, la 2( P90 P10 ) 2(9.95 5.85) distribución es ligeramente platicúrtica. KU
3.7.2 Variables cuantitativas: el coeficiente de apuntamiento de Fisher El coeficiente de apuntamiento de Fisher se basa en las desviaciones de los valores observados respecto a la media. La fórmula para su cálculo es la siguiente: n
APF
(X i 1
i
n
X )4
N S
4 X
(versión para distribución de frecuencias: APF
n (X i 1
i
i
X )4
N S X4
3)
Interpretación: el valor de este coeficiente para la distribución normal será igual a 0, o sea que cualquier distribución para la que se obtenga un valor de ApF igual o próximo a 0 significará que su nivel de apuntamiento es como el de la distribución normal (mesocúrtica). Valores mayores que 0, expresan que la distribución es leptocúrtica, mientras que si son menores que 0 ponen de manifiesto que la distribución es platicúrtica. No está limitado a un rango de valores.
3.8 Diagrama de cajas (box plot) Un dispositivo visual muy útil para comunicar la información contenida en un conjunto de datos es la gráfica de caja con valores extremos (algunas veces llamada sólo boxplot). Para la construcción de esta gráfica se usan los cuartiles de un conjunto de datos, y se siguen los cinco pasos que se mencionan a continuación: 1. Representar a la variable de interés sobre el eje de las x. 2. Dibujar sobre el eje horizontal un cuadro, de tal forma que el extremo izquierdo esté alineado con el primer cuartil Q1 y el extremo derecho del cuadro quede alineado con el tercer cuartil Q3. 3. Dividir el cuadro en dos partes con una línea vertical que se alinee con la mediana Q2. 4. Dibujar una línea horizontal desde el extremo izquierdo del cuadro hasta el punto en donde quede alineada con la medición más pequeña en el conjunto de datos. 5. Dibujar otra línea horizontal desde el extremo derecho del cuadro hasta el punto donde se alinea con la medición más grande en el conjunto de datos. El examen de la gráfica para un conjunto de datos revela información respecto a la magnitud de la dispersión, localización de la concentración y simetría de los datos. El siguiente ejemplo ilustra la construcción de la gráfica de caja con valores extremos. EJEMPLO. En una revista médica de publicación periódica, Pitts et al. (A-7) asegura que “los carcinomas con metaplasia y sarcomas producidos dentro del seno son difíciles de diagnosticar y clasificar con precisión debido a sus variados patrones histológicos y a su rareza”. En un intento por estudiar más detalles de las características biológicas, los autores investigaron una serie de sarcomas puros y carcinomas que exhibían metaplasia. La tabla siguiente contiene ordenados en centímetros los diámetros de los neoplasmas extirpados del pecho de 20 individuos con sarcomas puros.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
59
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
TABLA. Diámetros (cm) de sarcomas puros extirpados del pecho de 20 mujeres. 0.5 1.2 2.1 2.5 2.5 3.0 3.8 4.0 4.2 4.5 5.0 5.0 5.0 5.0 6.0 6.5 7.0 8.0 9.5 13.0 Solución: La medición más pequeña y la más grande son 0.5 y 13.0, respectivamente. El primer cuartil es Q1 = (20 + 1) / 4 = 5.25-ésima medición, la cual es 2.5 + (0.25)(3.0 - 2.5) = 2.625. La mediana es Q2 = (20 + 1) / 2 = 10.5-ésima medición igual a 4.5 + (0.5)(5.0-4.5) = 4.75. El tercer cuartil es Q3 = 3(20 + 1) / 4 = 15.75-ésima medición igual a 6.0 + (0.75)(6.5 6.0) = 6.375. La amplitud del intercuartil es IQR = 6.375 - 2.625 = 3.75. La amplitud es 12.5, y el IQR es 100(3.75/12.5) = 30 por ciento de la amplitud. La caja de valores extremos resultante se muestra en la siguiente figura.
FIGURA. Caja de valores extremos del ejemplo. Al examinar la figura se observa que 50 por ciento de las mediciones están entre 2.6 y 6.4, los valores aproximados del primero y tercer cuartil, respectivamente. La barra vertical dentro de la caja muestra que la mediana está cerca de 4.75. La línea mayor a la derecha indica que la distribución de diámetros está inclinada hacia la derecha. Gráfica de caja de Tamaño de tumor 14 13.0
12
Tamaño de tumor
10
8
6 4.75
4
2
0
FIGURA. Caja de valores extremos elaborada con el paquete MINITAB a partir de la tabla.
REFERENCIA BIBLIOGRÁFICA Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM. Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
60
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006 Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag Molina J. y Rodrigo M. Estadística descriptiva en Psicología. Curso 2009-2010. Universidad Valéncia.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
61
UNSCH
IV.
Bioestadística I
Prof. Reynán Cóndor A.
PROBABILIDADES
4.1. Conceptos básicos de probabilidad objetiva y subjetiva. 4.1.1 Probabilidad: OBJETIVA El concepto de probabilidad objetiva se puede dividir bajo los títulos de 1) probabilidad clásica o "a priori", y 2) frecuencia relativa o "a posteriori". 1) Probabilidad clásica o “a priori” La probabilidad clásica data del siglo XVII en los trabajos de dos matemáticos, Pascal y Fermat. Gran parte de esta teoría fue creada al intentar resolver problemas relacionados con los juegos de azar, como el juego de los dados. Algunos ejemplos tomados de dichos juegos ilustran perfectamente los principios de la probabilidad clásica. Por ejemplo, si un dado normal es lanzado, la probabilidad de que caiga un 1 es igual a 1/6, y es lo mismo para los otros cinco lados. Si una carta es sacada al azar de un mazo bien barajado, la probabilidad de sacar un corazón es de 13/52. Las probabilidades como éstas se calculan a través del razonamiento abstracto. No es necesario lanzar un dado o sacar una carta para calcular esas probabilidades. Al lanzar un dado, se dice que cada uno de los seis lados tiene igual probabilidad, de aparecer, si no hay razón que favorezca a alguno de los seis lados. Análogamente, si no hay razón que favorezca el sacar alguna carta en particular, se puede decir que cada una de las 52 cartas tiene la misma probabilidad de salir. La probabilidad se define en el sentido clásico como sigue: DEFINICIÓN Si un evento puede ocurrir de N formas, las cuales se excluyen mutuamente y son igualmente probables, y si m de estos eventos poseen una característica E, la probabilidad de ocurrencia de E es igual a m/N. P( E )
m N
Ejemplo 2.1.3. ¿Cuál es la probabilidad de que un niño nacido de una pareja, cada uno de cuyos miembros posee genes para ojos castaños y para ojos azules, tenga los ojos castaños? Para resolver esta cuestión, observemos que, dado que el niño recibe un gen de cada uno de sus padres, las posibilidades para él son (castaño, azul) (azul, castaño) (azul, azul) y (castaño, castaño), donde el gen que aparece representado en primer lugar en cada uno de los pares es el gen que procede del padre. Puesto que cada uno de los padres tiene exactamente la misma probabilidad de aportar un gen para ojos azules que uno para ojos castaños, las cuatro alternativas son equiprobables. Al ser dominante el gen para ojos castaños, tres de los cuatro pares dan como resultado un niño de ojos castaños. En consecuencia, la probabilidad de que el niño tenga los ojos castaños es: P(ojos castaños )
3 0.75 . 4
Este método tiene ventajas e inconvenientes. Su principal inconveniente es que no siempre es aplicable; se necesita que los resultados posibles sean equiprobables. Su mayor ventaja es que, si es aplicable, la probabilidad obtenida es exacta. Por otra
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
62
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
parte, no exige la realización de experiencias ni la recogida de datos y es de fácil uso. 2) Probabilidad de frecuencia relativa o "a posteriori". El enfoque de frecuencia relativa de la probabilidad depende de la repetibilidad de algunos procesos y la capacidad de contar el número de repeticiones, así como el número de veces que algún evento de interés ocurre. En este contexto, se puede definir la probabilidad de observar alguna característica, E, de un evento como sigue: DEFINICIÓN Si algún proceso es repetido un gran número de veces, n, y si algún evento resultante, con la característica E, ocurre m veces, la frecuencia relativa de la ocurrencia de E, m/n, es aproximadamente igual a la probabilidad de E. P( E )
m n
Sin embargo, se debe tener en mente que, estrictamente hablando, m/n es sólo una estimación de P(E). Ejemplo 2.1.2. Un investigador trabaja en un nuevo fármaco para insensibilizar a los pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180 presentaron una disminución en la gravedad de los síntomas tras sufrir una picadura, después de ser sometidos al tratamiento. Es natural suponer, entonces, que la probabilidad de que ocurra lo mismo en otro paciente que reciba el mismo tratamiento es por lo menos de aproximadamente 180 0.90 200
Basándose en este estudio, se informa de que el fármaco es eficaz en un 90 % de los casos para disminuir la reacción de pacientes sensibles a las picaduras de abejas. Tal probabilidad no es simplemente una opinión personal. Es una asignación numérica basada en la repetición de una experiencia y en la observación de los resultados. Se trata, de hecho, de una frecuencia relativa. 4.1.2 Probabilidad subjetiva En los primeros años de la década de 1950, L. J. Savage (4) dio un gran impulso a lo que se conoce como probabilidad “personalística” o subjetiva. Este enfoque sostiene que la probabilidad mide la confianza que un individuo tiene en la certeza de una proposición determinada. Este concepto no depende de la repetibilidad de ningún proceso. De hecho, al aplicar este concepto de probabilidad, se puede calcular la probabilidad de un evento que sólo puede ocurrir una vez, por ejemplo, la probabilidad de descubrir una cura para el cáncer en los próximos diez años. Aunque el punto de vista subjetivo de la probabilidad ha gozado de gran popularidad, los estadísticos que tienen orientación tradicional aún no la aceptan del todo. Ejemplo 2.1.1. Un paciente sufre de cálculos renales, y no se ha conseguido mejora alguna a partir de los métodos ordinarios. Su médico está planteándose llevar a cabo una intervención quirúrgica y debe responder a la siguiente pregunta. ¿Cuál es la probabilidad de que la operación sea un éxito? Varios factores, como son la edad del paciente, su estado general de salud y su actitud frente a la operación, intervienen en este caso. Esta particular DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
63
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
combinación de factores es una peculiaridad de este paciente. El médico no se ha enfrentado antes con un caso exactamente igual a éste, ni espera enfrentarse a otro igual en el futuro. Es una situación peculiar y es preciso establecer un juicio de valores para resolverla. En este caso, cualquier probabilidad que se asigne al suceso «la operación será un éxito» es una apreciación personal. Este ejemplo ilustra las ventajas e inconvenientes de una estimación personal. Su mayor ventaja consiste en que siempre es aplicable. Cualquiera puede establecer una apreciación personal sobre lo que sea. Su mayor inconveniente es obvio: su acierto depende de lo correcta que sea la información de que dispone y de la capacidad del científico para evaluarla adecuadamente. 4.1.3 La interpretación de probabilidades La interpretación de probabilidades puede sintetizarse de la siguiente forma: 1. Las probabilidades son números comprendidos entre 0 y 1, ambos inclusive, que reflejan las expectativas con respecto a que un suceso físico determinado ocurra. 2. Probabilidades próximas a 1 indican que cabe esperar que ocurran los sucesos de que se trate. No indican que el suceso vaya a producirse, sólo que es un tipo de suceso que generalmente se produce. 3. Probabilidades próximas a 0 indican que no cabe esperar que ocurran los sucesos de que se trate. No indican que el suceso no vaya a producirse, sólo que este tipo de sucesos se considera raro. 4. Probabilidades próximas a 1/2 indican que es tan verosímil que el suceso se produzca como que no. 4.2. Permutaciones y combinaciones. 4.2.1 Permutaciones Cualquier secuencia ordenada de n objetos tomados de un conjunto de N objetos distintos se llama permutación de tamaño n de los objetos. El número de permutaciones de tamaño n que puede construirse con los N objetos (donde sí importa el orden) se obtiene por la regla del producto de la siguiente manera:
PnN N ( N 1)( N 2)...( N n 2)( N n 1) Utilizando factoriales se obtiene: PnN
N! N n !
Definición. Una permutación es una distribución de objetos en un orden determinado. Ejemplo Los biólogos están interesados en el orden en que los cuatro ribonucleótidos adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar cadenas pequeñas. Estos nucleótidos constituyen las subunidades principales de RNA, molécula intermediaria portadora de la información que actúa en la traducción del código genético del DNA. ¿Cuántas cadenas formadas por dos nucleótidos diferentes pueden formarse? La cuestión puede resolverse muy fácilmente por medio del diagrama de árbol de la Figura 4.2.1. La solución es evidentemente 12. Obsérvese que estamos considerando que la cadena AC es distinta de la CA. Es decir, que el orden en que se disponen los nucleótidos es importante. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
64
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Figura 4.2.1. Cadenas de dos nucleótidos. Hemos demostrado, por tanto, que hay 12 permutaciones de cuatro elementos distintos tomados de dos en dos. Este resultado puede predecirse sin necesidad de recurrir al diagrama, .aplicando la siguiente ecuación: PnN
N! 4! 4! 4 3 2! P24 12 2! N n ! 4 2 ! 2!
Ejemplo En un campeonato de fútbol participan 12 equipos ¿De cuántas maneras se pueden ocupar los tres primeros puestos? Sea el evento A = {Número de maneras que puede ocupar los 3 primeros puestos} Total de equipos: N = 12 Seleccionar 3 equipos: n= 3 P312
12! 12! 12 11 10 9! 1320 9! 12 3! 9!
Casos especiales: a) Permutaciones de N en N PNN N ! N ( N 1)( N 2)...1 Ejemplo Se tiene un grupo de 5 caballos para alquiler. Si llegan 5 personas para alquilar caballo cada una de ellas ¿De cuántas maneras se puede hacer el alquiler? imaneras. b) Permutaciones con repetición. El número de permutaciones de N elementos, de los cuales son iguales entre si N1, N2, N3,..., Nk y donde N = N1+ N2 + N3 +...+ Nk, está N! dado por: PNN1 , N2 ,... Nk N1 ! N2 !...Nk ! Ejemplo Se utilizan 15 pacientes en un experimento para comparar un fármaco estándar, un fármaco experimental y un placebo. Se asigna aleatoriamente a cada paciente un tratamiento. ¿De cuántas formas distintas pueden asignarse los tres tratamientos a los 15 pacientes? DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
65
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
¿Cuál es la probabilidad de que, asignando aleatoriamente los tratamientos a los pacientes, salga la alternativa de que 10 pacientes reciben el placebo, 3 el fármaco experimental y 2 el fármaco estándar? La primera pregunta no es nueva. Hay 3 3 3 3 3 3 3 3 3 3 3 3 3 3 3 315 14348907 formas alternativas de asignar el tratamiento a los pacientes.
La segunda pregunta sí. Para hallar la probabilidad que se pide aquí, debemos determinar cuántas de las alternativas posibles incluyen 10 veces el placebo, tres veces el fármaco experimental y dos veces el fármaco estándar. Por medio de la fórmula obtenemos inmediatamente 15 P10,3,.2
15! 15 14 13 12 11 10! 30030 10!3!.2! 10! (3 2 1 2 1)
La probabilidad buscada es, por lo tanto: 30030 0.0021 14348907
Ejemplo En la casa comercial "El Palco" hay 4 sinfonías N° 9 de Beethoven, 5 Sinfonías N° 100 de Haydn y 6 Sinfonías N° 36 de Mozart. Suponga que se seleccionan con restitución y considerando el orden de extracción 8 de estas obras maestras. a. ¿De cuántas maneras serán seleccionadas 5 sinfonías de Beethoven y 3 de Haydn? Sinfonías N° 9 de Beethoven: 4 Sinfonías N° 100 de Haydn: 5 Sinfonías N° 36 de Mozart: 6 8 n( A) 45 53 P5,3 45 53
8! 7168000 maneras. 5! 3!
b. ¿De cuántas maneras serán seleccionadas 2 sinfonías de Beethoven, 2 de Haydn y 4 de Mozart? 8 n( A) 42 52 64 P2,2,4 4 2 52 6 4
8! 217728000 maneras. 2! 2! 4!
4.2.2 Combinaciones Dado un conjunto de N objetos distintos, cualquier subconjunto no ordenado de tamaño n de los objetos se llama combinación y se denota de la siguiente manera: N
N N! Cn n n! N n !
Cuando haya N objetos distintos, cualquier permutación de tamaño n se obtiene al ordenar los n objetos no ordenados de una combinación en una de n! formas (donde no importa el orden), así:
N N PN N! PnN n! n n n n! n! N n ! DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
66
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Definición Una combinación es una selección de objetos con independencia de su ordenamiento. Ejemplo Cinco personas se ofrecen voluntarias para participar en un programa experimental. Se necesitan solamente dos para llevar a cabo el estudio. ¿De cuántas formas pueden seleccionarse dos personas de entre las cinco? En este caso el orden no importa. Lo que interesa únicamente es el hecho de que sean dos los seleccionados, no el orden en que lo son. Estamos, pues, preguntando, ¿cuántas combinaciones de cinco elementos tomados dos a dos existen? La cuestión puede resolverse adjudicando una de las letras A, B, C, D, E a cada uno de los voluntarios y formando una lista con todos los subconjuntos posibles de tamaño dos, del siguiente modo: {A,B} {A,E} (B,E} {D,E} {A,C} {B,C} {C,D} {A,D} {B,D} {C,E} Obviamente, existen 10 combinaciones. Escribiremos
5 5! 5! 5 4 3! 10 5 C2 2! 5 2 ! 2! 3! 2! 3! 2 5C2
=10, donde el 5 indica el número disponible de objetos, el 2 el número de objetos que hay que seleccionar, y C las combinaciones en cuestión. Ejemplo Un banco de sangre dispone de 10 unidades de sangre tipo A*. De ellas, cuatro están contaminadas con suero de hepatitis. Se seleccionan aleatoriamente tres unidades de entre las 10 para utilizarlas con tres pacientes diferentes. ¿Cuál es la probabilidad de que un solo paciente esté expuesto a contraer la hepatitis por esta causa? Esta pregunta se refiere a las combinaciones, ya que sólo estamos interesados en las unidades seleccionadas, no en el orden en que se seleccionan. Consideremos el diagrama de la Figura 2.7. El número total de formas de seleccionar tres unidades de entre las 10 disponibles es
10 10! 10! 10 9 8 7! 120 3! 7 ! 3 3!10 3! 3! 7 ! Para que un solo paciente esté expuesto a contraer la hepatitis por esta causa, la unidad seleccionada lo ha de ser de entre las cuatro contaminadas. La unidad contaminada puede seleccionarse de
4 4! 4! 4 formas 1 1! 4 1! 1! 3! Las unidades no contaminadas pueden ser seleccionadas de
6 6! 6! 15 formas 2 2! 6 2 ! 2! 4 ! En total hay (4)(15) 60 formas de seleccionar, en las que un solo paciente está expuesto a la hepatitis por esta causa. Dando por supuesto que las 120 formas posibles de seleccionar tres unidades de entre 10 son equiprobables, podemos hacer uso del método clásico para concluir que DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
67
UNSCH
Bioestadística I
P(un solo paciente esté expuesto al riesgo) =
Prof. Reynán Cóndor A.
60 0.5 120
REFERENCIA BIBLIOGRÁFICA Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM. Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008 Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006. Milton, J. 2007. Estadística para biología y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAÑA, S. A. U.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
68
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
4.3. Cálculo de probabilidades de evento. EJEMPLO En un artículo de la revista American Journal of Drugs and Alcohol Abuse, Erickson y Murray (A-I) afirman que las mujeres están consideradas como un grupo con riesgo especial de adicción a la cocaína, y que se ha sugerido que sus problemas con la cocaína son mayores que en los hombres. Con base en la revisión de textos especializados y en el análisis de los resultados de un estudio original, estos investigadores argumentan que no hay evidencia de que el uso de cocaína en las mujeres exceda al de los hombres, o que el índice de uso crezca más rápido en comparación con el de los hombres, o que experimenten más problemas. Los sujetos de estudio de Erickson y Murray comprenden una muestra de 75 hombres y 36 mujeres. Los autores afirman que los individuos son una muestra bastante representativa de adictos típicos adultos sin tratamiento ni encarcelados. Base de datos: Consumo de cocaína por género entre adultos adictos.
N°
Sexo
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30
M M M M M F M M M M M M M M M M F M M M M F F M F F M F F F
Número de veces de uso de cocaína en el período de vida 19 134 59 134 6 53 147 22 9 4 16 98 4 6 139 42 107 11 12 9 115 96 63 117 113 17 61 109 32 88
Categorías
N°
Sexo
1-19 100-+ 20-99 100-+ 1-19 20-99 100-+ 20-99 1-19 1-19 1-19 20-99 1-19 1-19 100-+ 20-99 100-+ 1-19 1-19 1-19 100-+ 20-99 20-99 100-+ 100-+ 1-19 20-99 100-+ 20-99 20-99
31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60
M M F M M M M M M F M F F F M M M M F M F M M M M M F M M F
Número de veces de uso de cocaína en el período de vida 3 18 143 98 3 130 146 146 129 42 8 52 136 16 48 2 16 30 57 8 34 8 26 22 105 8 1 122 10 59
Categorías
N°
Sexo
1-19 1-19 100-+ 20-99 1-19 100-+ 100-+ 100-+ 100-+ 20-99 1-19 20-99 100-+ 1-19 20-99 1-19 1-19 20-99 20-99 1-19 20-99 1-19 20-99 20-99 100-+ 1-19 1-19 100-+ 1-19 20-99
61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
F M F F M M F F M F F F F F M M M F M M M M M F M M F M M M
Número de veces de uso de cocaína en el período de vida 70 140 67 4 66 104 17 111 11 3 119 30 74 16 25 122 50 99 1 135 146 16 15 23 114 14 102 123 139 10
Categorías
N°
Sexo
20-99 100-+ 20-99 1-19 20-99 100-+ 1-19 100-+ 1-19 1-19 100-+ 20-99 20-99 1-19 20-99 100-+ 20-99 20-99 1-19 100-+ 100-+ 1-19 1-19 20-99 100-+ 1-19 100-+ 100-+ 100-+ 1-19
91 92 93 94 95 96 97 98 99 100 101 102 103 104 105 106 107 108 109 110 111
F M F M M F M F M M M M M M M M M F M M M
Número de veces de uso de cocaína en el período de vida 45 2 125 13 15 24 131 73 137 31 130 44 2 25 95 99 18 48 5 129 130
Categorías
20-99 1-19 100-+ 1-19 1-19 20-99 100-+ 20-99 100-+ 20-99 100-+ 20-99 1-19 20-99 20-99 20-99 1-19 20-99 1-19 100-+ 100-+
La tabla 3.4.1 muestra la frecuencia de uso de la cocaína en el tiempo de vida y el sexo de los individuos. TABLA 3.4.1 Frecuencia de consumo de cocaína por género entre adultos adictos
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
69
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejemplo. Suponga que se escoge a uno de ellos aleatoriamente de entre la muestra. ¿Qué probabilidad existe de que sea hombre? Solución: Se supone que hombres y mujeres son categorías mutuamente excluyentes, y que la probabilidad de seleccionar a cualquier persona es igual a la probabilidad de seleccionar a cualquier otra persona. Se define la probabilidad deseada como el número de individuos con la característica de interés (hombre) dividida entre el total de individuos. Se puede escribir en notación probabilística como sigue:
total de hombres total de individuos 75 P( M ) 0.6757 111 P( M )
La probabilidad de que se elija a un hombre es 0.6757.
4.4 Probabilidad condicional. Cuando se calculan las probabilidades con un subconjunto del conjunto universal como denominador, el resultado es una probabilidad condicional. Ejemplo. Suponga que se escoge aleatoriamente a un individuo de entre los 111 y se encuentra que es un individuo del sexo masculino (M). ¿Cuál es la probabilidad de que este individuo haya consumido cocaína 100 veces o más durante su vida (C)? Solución: Ya no es importante saber el número total de individuos, porque, al seleccionar a un individuo del sexo masculino, los individuos del sexo femenino son eliminados. Entonces, se puede definir la probabilidad deseada como: ¿Que probabilidad existe de que un individuo haya consumido cocaína 100 veces o más (C) durante su tiempo de vida, dado que el individuo seleccionado es del sexo masculino (M)? Esta es una probabilidad condicional y se escribe como P(C\M), donde la línea vertical se lee como "dado". P(C\ M )
25 0.3333 75
Probabilidad conjunta Algunas veces se quiere encontrar la probabilidad de que un individuo seleccionado aleatoriamente a partir de un grupo de individuos posea dos características al mismo tiempo. A esta probabilidad se le conoce como probabilidad conjunta. Ejemplo. En referencia a la tabla 3.4.1, ¿cuál es la probabilidad de que una persona seleccionada aleatoriamente de entre los 111 individuos sea del sexo masculino (M) y que sea una persona que consumió cocaína 100 veces o más durante su tiempo de vida (C)? Solución: La probabilidad buscada se puede escribir en notación simbólica como P ( M C ) , donde el símbolo se lee como "intersección" o "y". La expresión M C indica que la condiciones M y C son una ocurrencia conjunta.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
70
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
El número de individuos que satisfacen ambas condiciones deseadas es 25, y encuentran en la tabla en la intersección etiquetada como columna M y renglón C. P( M C )
se
25 0.2252 111
Regla de la multiplicación La probabilidad se puede calcular a partir de otras probabilidades. Por ejemplo, la probabilidad conjunta se puede calcular como el producto de una probabilidad marginal y una probabilidad condicional adecuadas. Ejemplo. Se pretende calcular la probabilidad conjunta de seleccionar un individuo del sexo masculino (M) con una frecuencia de consumo de cocaína de 100 veces o más (C) durante toda su vida, a partir del conocimiento de dos probabilidades convenientes, una marginal y otra condicional. Solución: La probabilidad buscada es P ( M C ) .
La probabilidad marginal: 75 P( M ) 0.6757 111
Probabilidad condicional: 25 P(C\ M ) 0.3333 75
P( M C ) P( M ) P(C \ M )
75 25 (0.6757)(0.3333) 0.2252 111 75
Observe que esto es lo que se esperaba: el mismo resultado obtenido anteriormente para P(M C ) . Se puede afirmar que la regla de la multiplicación en términos generales es como sigue: Para cualesquiera dos eventos A y B, P ( A B) P( B) P( A \ B), si P( B) 0
Para los mismos dos eventos A y B, la regla de multiplicación también se escribe como P ( A B ) P ( A) P ( B \ A), si P ( A) 0
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
71
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Definición de la probabilidad condicional La probabilidad condicional de A dado B es igual a la probabilidad de A B dividida entre la probabilidad de B, siempre que la probabilidad de B sea diferente de cero. Esto es: P( A \ B)
P( A B) , si P( B) 0 P( B)
Ejemplo. ¿Qué probabilidad existe de que un individuo haya consumido cocaína 100 veces o más (C) durante su tiempo de vida, dado que el individuo seleccionado es del sexo masculino (M)? Solución: para encontrar la probabilidad condicional P(C\M).
25 P(C M ) 111 25 111 25 P(C \ M ) 0.3333 75 75 111 75 P( M ) 111 Regla de la adición La probabilidad de la ocurrencia de uno de los dos eventos mutuamente excluyentes es igual a la suma de sus probabilidades individuales. Ejemplo. Suponga que se escoge aleatoriamente a una persona de entre las 111 representadas en la tabla. ¿Cuál es la probabilidad de que esta persona sea del sexo masculino (M) o del sexo femenino (F)? Se expresa esta probabilidad con los símbolos P(M F), donde el símbolo Puesto que los dos géneros son mutuamente excluyentes,
se lee como "unión" u "0".
P( M F ) P( M ) P( F ) (75 / 111) (36 / 111) 0.6757 3243 1 .
¿Y si los dos eventos no fueran mutuamente excluyentes? En este caso se utiliza la regla de la adición, la cual se enuncia como sigue: Definición Dados dos eventos A y B, la probabilidad de que ocurra el evento A, el evento B o ambos es igual a la probabilidad del evento A más la probabilidad del evento B, menos la probabilidad de que ocurran simultáneamente. La regla de la adición se puede escribir como sigue: P( A B) P( A) P( B) P( A B )
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
72
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejemplo. Si se escoge aleatoriamente a una persona de los 111 individuos representados en la tabla, ¿cuál es la probabilidad de que esa persona sea del sexo masculino (M) o de que haya consumido cocaína 100 veces o más durante su tiempo de vida (C) o ambas? Solución: La probabilidad que se busca es P ( M C ) . P( M C ) P( M ) P(C ) P( M C ) 75 34 25 75 34 25 84 P( M C ) 0.7568 111 111 111 111 111
Observe que 25 individuos que cumplen ambas condiciones: ser del sexo masculino y haber consumido cocaína 100 veces o más, están incluidos entre los 75 individuos que son del sexo masculino, así como en los 34 individuos que consumieron cocaína 100 veces o más. Dado que, en el cálculo de la probabilidad, estos 25 se agregaron en el numerador dos veces, tienen que restarse una vez para superar los efectos de duplicación o traslape. Eventos independientes Suponga que en la ecuación se dice que el evento B ya ocurrió, sin que este hecho afecte la probabilidad de A. Es decir, suponga que la probabilidad del evento A es el mismo a pesar de que ocurra o no el evento B. En esta situación, P(A\B) = P(A). En tal caso se dice que los eventos A y B son eventos independientes. Por lo tanto, la regla de la multiplicación para dos eventos independientes se puede escribir como sigue: P( A B ) P ( B ) P ( A); P( A) 0, P( B) 0
Así, se observa que si dos eventos son independientes, la probabilidad de que ocurran conjuntamente es igual al producto de las probabilidades de sus ocurrencias individuales. Advierta que cuando dos eventos con probabilidades diferentes de cero son independientes, cada una de las siguientes sentencias es verdadera: P( A \ B) P( A), P( B \ A) P( B), P( A B) P( A) P( B)
Dos eventos no son independientes a menos que todas estas afirmaciones sean ciertas. Es importante estar conscientes de que los términos independiente y mutuamente excluyente no significan la misma cosa. Con el siguiente ejemplo se ilustra el concepto de independencia. Ejemplo. En un grupo de preparatoria, que consta de 60 mujeres y 40 varones, se observa que 24 chicas y 16 muchachos usan lentes. Si un estudiante es elegido aleatoriamente, la probabilidad de que el estudiante use lentes, P(L), es 40/100, o 0.4. mujeres 24 Usan lentes No usan lentes 36 60 Total
varones 16 24 40
Total 40 60 100
a) ¿Cuál es la probabilidad de que un estudiante elegido aleatoriamente use lentes dado que es un estudiante varón? DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
73
UNSCH
Bioestadística I
Solución: resultado: P( L \ V )
Prof. Reynán Cóndor A.
Con la fórmula para calcular la probabilidad condicional se obtiene como P( L V ) 16 / 100 0.4 P(V ) 40 / 100
De esta forma, la información adicional de que el estudiante es un varón no altera la probabilidad de que el estudiante use lentes, y P(L) = P(L \ V). Se puede decir que los eventos "ser varón" y "usar lentes" en ese grupo, son independientes. Se puede mostrar que los eventos "usar lentes", E, y "no ser varón", V , también son independientes:
P( L \ V )
P( L V ) P(V )
24 / 100 24 0.4 Se debe notar que la probabilidad de no ser varón 60 / 100 60 es igual a la probabilidad de ser mujer:
P(V ) P(M ) 60 / 100 0.6 b) ¿Cuál es la probabilidad de que ambos eventos, que el estudiante use lentes y sea un varón, ocurran simultáneamente? Solución: P ( L V ) P (V ) P ( L \ V )
pero, tal como ya se mostró, los eventos L y V son independientes, entonces, se sustituye P(L\V) por P(L) para obtener mediante la ecuación: 40 40 P( L V ) P(V) P( L) 0.16 100 100
Eventos complementarios La probabilidad del evento A es igual a 1 menos la probabilidad de su complemento, que se escribe como A , y
P( A) 1 P( A) Ejemplo. Suponga que de 1200 admisiones al hospital general durante cierto periodo, 750 son admisiones privadas. Si se designa a este como conjunto A, entonces A es igual a 1200 -750 = 450. Se puede calcular que: Probabilidad de que las admisiones sean privadas: P( A) 750 / 1200 0.625 Probabilidad de que las admisiones no sean privadas: Y que
P( A) 450 /1200 0.375
P( A) 1 P( A) 0.375 1 0.625 0.375 0.375
Probabilidad marginal Dada alguna variable que puede desglosarse en m categorías designadas por A1, A2,…, Ai,…, Am y otra variable de ocurrencia conjunta que pueda desglosarse en n categorías designadas por B1,B2, …,Bj,…,Bn, la probabilidad marginal de Ai, P(Ai) es igual a la suma de las probabilidades conjuntas de Ai con todas las categorías de B. Es decir,
P( Ai ) P( Ai Bi ) , para todos los valores de j. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
74
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejemplo. Se pretende utilizar la ecuación 3.4.6 y los datos de la tabla 3.4.1 para calcular la probabilidad marginal P(M). Solución: La variable genero se divide en dos categorías, individuos del sexo masculino (M) y del sexo femenino (E). La variable consumo de cocaína se divide en tres categorías: de 1 a 19 veces (A), de 20 a 99 veces (B) y de 1000 más veces (C). La categoría ser del sexo masculino ocurre conjuntamente con las tres categorías de la variable frecuencia de consumo de cocaína. Las tres probabilidades conjuntas que pueden calcularse son P ( M A) 32 / 111 0.2883 P( M B) 18 / 111 0.1662 P( M C ) 25 / 111 0.2252
Ahora, se calcula la probabilidad marginal P(M) sumando las tres probabilidades conjuntas como sigue: P( M ) P ( M A) P ( M B ) P ( M C )
Se debe recordar que la P( M )
0.2883 0.1622 0.2252 0.6757
75 0.6757 111
La sumatoria de las probabilidades marginales de filas es 1:
P( A) P( B) P(C )
39 38 34 0.3514 0.3423 0.3063 1 111 111 111
La sumatoria de las probabilidades marginales de columnas es 1:
P( M ) P( F )
75 36 0.6757 0.3243 1 111 111
REFERENCIA BIBLIOGRÁFICA Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
75
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
V. Variables aleatorias 5.1 Definición Una variable aleatoria es cualquier función que tiene como dominio a los elementos que constituyen el espacio muestral de un experimento aleatorio y como rango a un subconjunto de los reales.
Las variables aleatorias pueden ser: • Variables aleatorias discretas • Variables aleatorias continuas
5.2 Variable aleatoria discreta Si su rango es un conjunto finito o infinito numerable. Ejemplo. Sea el experimento aleatorio registrar los sexos de los próximos tres niños que van a nacer. Si se define la v.a.d. Y como el número de niños de sexo femenino que nacerán. Halle el dominio y el rango de Y. Solución: Ω ={ MMM, MMF, MFM, FMM, MFF, FMF, FFM, FFF } Y(MMM)
=
0
Y(MMF) = Y(MFM)
=
Y(FMM)
=
1
Y(MFF) = Y(FMF)
=
Y(FFM)
=
2
=
3
Y(FFF) Entonces Ry = {0, 1, 2, 3}
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
76
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
5.2.1 Función de probabilidad de una variable aleatoria discreta Sea X una variable aleatoria discreta. Se denomina función (ley, modelo o distribución) de probabilidad de X a la función f(x) definida por f(x)=P(X = x) para todo número real x, que satisface las siguientes condiciones:
i ) f ( x) 0 para x R x ii) f ( x) 0 para x R x iii )
x i R x
f ( xi ) 1
Ejemplo. Con relación al Ejemplo 1, halle la función de probabilidad de la v.a.d Y definida como el número de niños de sexo femenino que nacerán, asumiendo que los eventos simples son igualmente probables (o que P(M)=P(F)=l/2 y que M y F son eventos Independientes). Solución: f (0) = P(Y = 0) = P({MMM}) = 1/8 f (1) = P(Y = l) = P({MMF, MFM, FMM}) = 3/8 f (2) = P{Y = 2) = P({MFF, FMF, FFM }) =3/8 f (3) = P{Y = 3) = P({FFF})=1/8 La función de probabilidad también se puede representar de la siguiente manera: Y f(y) = P(Y = y)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
0
1
2
3
1/8
3/8
3/8
1/8
77
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
EJEMPLO. En un artículo de la revista American Journal of Obstetrics and Gynecology, Buitendijk y Bracken (A-1) aseguran que durante 25 años se ha tomado mayor conciencia de los efectos potencialmente dañinos de los medicamentos y químicos en el desarrollo de los fetos. En una población de mujeres dadas de alta en maternidad, en un hospital del este de EUA, entre 1980 y 1982, los autores valoraron y estudiaron la asociación del uso de medicamentos con varias características de la madre, por ejemplo uso de alcohol, tabaco y adicción a fármacos. Sus hallazgos sugieren que la mujer que muestra un comportamiento más propenso a correr riesgos durante el embarazo, también está más propensa a utilizar medicamentos durante el mismo. La tabla muestra la prevalencia del consumo de medicamentos prescritos y no prescritos durante el embarazo entre las mujeres estudiadas.
Número de medicamentos ( x)
0 1 2 3 4 5 6 7 8 9 10 12
Frecuencia P( X x) P( X x) 1425 0.3405 0.3405 1351 0.3228 0.6633 793 0.1895 0.8528 348 0.0832 0.9360 156 0.0373 0.9732 58 0.0139 0.9871 28 0.0067 0.9938 15 0.0036 0.9974 6 0.0014 0.9988 3 0.0007 0.9995 1 0.0002 0.9998 1 0.0002 1.0000 4185 1.0000
0.35 0.34 0.33 0.32 0.31 0.30 0.29 0.28 0.27 0.26 0.25 0.24 0.23 0.22 0.21 0.20 0.19 0.18 0.17 0.16 0.15 0.14 0.13 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 0.00
F(x)
Probabilidades
Total
Frecuencia Frecuencia relativa acumulada
1.00 0.95 0.90 0.85 0.80 0.75 0.70 0.65 0.60 0.55 0.50 0.45 0.40 0.35 0.30 0.25 0.20 0.15 0.10 0.05 0.00
0 1 2 3 4 5 6 7 8 9 10 12
1 2 3 4 5 6 7 8 9 10 11 12
x (número de mediamentos)
x (número de medicamentos)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
78
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Propiedades de una distribución de probabilidad para una variable discreta:
1) 0 P( X 0) 1 2)
P( X
x) 1
a. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que consumieron tres medicamentos con o sin prescripción? Solución: Se puede escribir la probabilidad deseada como P(X = 3). En la tabla se puede ver que la respuesta es 0.0832. b. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido uno o dos medicamentos? Solución: Para responder a la pregunta, se utiliza la regla de adición para eventos mutuamente excluyentes. Mediante el uso de la notación de probabilidad y los resultados de la tabla 4.2.2 la respuesta se escribe como P( 1 2) = P(1) + P(2) = 0.3228 + 0.1895 = 0.5123. c. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que consumieron dos o menos medicamentos? Solución: La probabilidad buscada se puede localizar directamente en la tabla 4.2.3, en el lado opuesto a x = 2, donde se observa que es 0.8528. Es decir, P(x 2) = 0.8528. También se puede localizar la respuesta examinando la figura 4.2.2 y determinando la altura de la gráfica (medida sobre el eje vertical) arriba del valor de x = 2. d. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que consumieron menos de dos medicamentos? Solución: Puesto que una mujer que consumió menos de dos medicamentos indica que consumió uno o ninguno, la respuesta es la probabilidad acumulada para 1, es decir, P(x < 2) = P(x ≤ 1) = 0.6633. e. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente haya consumido cinco o más medicamentos? Solución: Para encontrar la respuesta se utiliza el concepto de probabilidad complementaria. El conjunto de mujeres que consumen cinco o más medicamentos es el complemento del conjunto de mujeres que consumen menos de cinco (es decir, cuatro o menos). La suma de las probabilidades asociadas con este conjunto es igual a 1. Esta relación escrita en notación de probabilidad es P(x ≥ 5) + P(x ≤ 4) = 1. Por lo tanto, P(x ≥ 5) = 1 - P(x ≤4)= 1- 0.9733 = 0.0267. f. ¿Cuál es la probabilidad de que una mujer seleccionada aleatoriamente sea una de las que consumieron entre tres y cinco medicamentos, inclusive? Solución: P(x ≤ 5) = 0.9872 es la probabilidad de que una mujer haya consumido entre cero y 5 medicamentos, inclusive. Para obtener la probabilidad de entre 3 y 5, se resta de 0.9872 la probabilidad de 2 o menos. La respuesta escrita en notación de probabilidad queda como: P(3 ≤ x ≤ 5) = P(x ≤5) - P(x ≤2) = 0.9872 -0.8528 = 0. 1344.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
79
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
5.3 Variable aleatoria continua Si su rango es un conjunto infinito no numerable. Ejemplo. Se desea determinar el pH de un compuesto químico seleccionado al azar, entonces la variable aleatoria X definida como el pH del compuesto es una variable aleatoria continua con rango [0,14]
5.3.1 Función de densidad de una v.a continua X La función f ( x) de la v.a. continua X es su función de densidad si cumple con lo siguiente: 1. f ( x) 0, x
, f (x) no es una probabilidad por ejemplo f ( x) 3.9 es posible.
2.
f ( x)dx 1
b
3. Si
A x / a x b P( A) P(a X b) f ( x)dx a
b
4. P(a
X b) P(a X b) P(a X b) P(a X b) f ( x)dx a
b
X n 1 b n 1 a n 1 X dx a n 1 a n 1 b
n
Ejemplo. Una variable aleatoria continua X con valores entre 0 y 4 tiene una función densidad dada por p( X ) 1 aX , donde a es una constante. 2
(a) Calcular a. (b) Hallar P(1 < X < 2}.
Solución (a) El gráfico de p( X ) 1 aX es una recta, como muestra la Figura 6.5. Para hallar a, 2
debemos constatar primero que el área total bajo la recta entre X=0 y X=4, y sobre el eje X, ha de ser 1:
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
80
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
en X 0 1 p(0) a 0 2 1 p(0) 2 en X 4 1 p(4) 4a 2 Entonces debemos elegir a de modo que el área del trapecio =1. Área del trapecio=
1 (altura)×(suma de bases) 2
1 1 1 4 4a 1 2 2 2
1 1 2 4a 1 2 2 2 1 4a 1 (1 4a)
1 2
1 1 2 1 2 4a 2 1 4a 2 1 a 8 También se puede calcular a integrando de la siguiente manera: 4a
f ( x)dx 1
4
1
2 axdx 2 8a 0
4
1
2 axdx 1 0
2 8a 1 1 a 8 (b) La requerida probabilidad es el área entre X=1 y X=2. Sombreada en la figura 6.6. De la parte parte (a), p(X) 1 1 X ; así que 2 8
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
81
UNSCH
p(1) p(2)
Bioestadística I
Prof. Reynán Cóndor A.
1 1 3 1 2 8 8 1 1 1 1 1 2 2 8 2 4 4
El área del trapecio pedida es:
1 3 1 15 5 1 , que es la probabilidad deseada. 2 8 4 2 8 16
Integrando se obtiene el mismo resultado: 2
2
1 1 5 A x / 1 x 2 P( A) (1 x 2) f ( x)dx xdx 2 8 16 1 1
5.4 ESPERANZA MATEMÁTICA Si pj es la probabilidad de que una persona reciba una cantidad S de dinero, la esperanza matemática (o simplemente esperanza) se define como pS. EJEMPLO. Si la probabilidad de que un hombre gane un premio de $10 es 1/5, su esperanza matemática es 1 ($10) $2 . 5
El concepto de esperanza matemática se extiende fácilmente. Si X denota una variable aleatoria discreta que puede tomar los valores X1, X2,…,XK con probabilidades p1,p2,…,pk, donde p1 + p2 +…+ pk = 1, la esperanza matemática de X (o simplemente esperanza de X), denotada E[X] y se define como k
E ( X ) p1 X1 p2 X 2 ... pk X k p j X j pK j i
Si las probabilidades pj en esa expresión se sustituyen por las frecuencias relativas f j / N , donde N
f
j
, la esperanza matemática se reduce a (
fX ) / N , que es la media
aritmética X de una muestra de tamaño N en la que X1, X2,…,XK aparecen con estas frecuencias relativas. Al crecer N más y más, las frecuencias relativas se acercan a las probabilidades pj. Así que nos vemos abocados a interpretar E(X) como la media de la población cuyo muestreo se consideraba. Si llamamos m a la media muestral, podemos denotar la media poblacional por la correspondiente letra griega μ (mu). Puede definirse, asimismo, la esperanza matemática para variables aleatorias continuas.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
82
UNSCH
Bioestadística I
VI.
Prof. Reynán Cóndor A.
Distribuciones Discretas
6.1 Distribución Binomial Cuando en un proceso aleatorio o experimento, llamado ensayo, puede ocurrir sólo uno de dos resultados mutuamente excluyentes, como vida o muerte, enfermo o sano, masculino o femenino, el ensayo se llama ensayo de Bernoulli. 6.1.1 La función de probabilidad Binomial n x n x x 0,1, 2,..., n x (1 ) f ( x) P( X x) de otro modo 0
Notación : x
Binomial (n, )
6.1.2 La media y la varianza de X Si x
Binomial (n, ) entonces:
E ( X ) n 2 Var ( X ) n (1 ) Ejemplo: Un examen consta de n=25 preguntas, cada una de las cuales tiene 5 alternativas de las cuales sólo una es correcta, si una persona está adivinando al responder y se desea saber el número de respuestas correctamente respondidas. Entonces, este es un experimento Binomial con éxito: E={la respuesta es correcta} y fracaso: F={la respuesta no es correcta} y siendo: P( E )
1 5
Sea la v.a. X=EI número de respuestas correctas en las 25 preguntas, x
Binomial (25, 0.2)
La distribución de probabilidad Binomial será:
f ( x) nx x (1 )n x x 25 x f ( x) 25 x 0.2 (1 0.2)
x 0,1, 2,3, 4,..., 25
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
83
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
x 25 x f ( x) 25 x 0.2 (1 0.2)
x 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25
0.0038 0.0236 0.0708 0.1358 0.1867 0.1960 0.1633 0.1108 0.0623 0.0294 0.0118 0.0040 0.0012 0.0003 0.0001 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000 0.0000
La probabilidad de que la persona acierte por lo menos 3, pero menos de 5 preguntas es: P(3 X 5) P( X 3) P( X 4) 0.1358 0.1867 0.3225
Uso de una tabla binomial (Libro de Bioestadistica Daniels) Ejemplo.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
84
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Utilizar la tabla B cuando p>0.5 (libro de Bioestadística Daniels) Ejemplo.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
85
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
6.2 Distribución Hipergeométrica Cuando una población finita contiene dos tipos de unidades, que pueden ser denominados como éxitos y fracasos, y se extrae una muestra aleatoria simple de la población, cada unidad representa un ensayo de Bernoulli. A medida que se selecciona cada unidad, la proporción de éxitos en la población restante disminuye o aumenta, dependiendo si la unidad extraída es un éxito o fracaso. Por esta razón, los ensayos no son independientes, de ahí que el número de éxitos en la muestra no siga una distribución binomial. En su lugar, la distribución que describe adecuadamente el número de éxitos en esta situación se llama distribución hipergeométrica. 6.2.1 La función de probabilidad hipergeométrica Notación : x
Si X
Hiper (N, n, A)
Hiper ( N , n, A) entonces su distribución de probabilidad es:
f ( x) P( X x) A x
NA n x
N n
para x entero t.q máx(0, n A - N ) x min(n, A)
6.2.2 La media y la variancia de x Si X
Hiper(N,n,A) entonces:
=E(X)=n
A N
2 var(X) n
A A N n 1 N N N 1
Ejemplo. Un determinado antibiótico es empacado en cajas de 20 botellas. Suponga que en una caja, la cual es enviada a una farmacia hay 5 botellas mal envasadas. El dueño de la farmacia sospecha que la cantidad de antibiótico en algunos de los frascos es insuficiente por lo que selecciona al azar y sin reemplazo una muestra de tres frascos y decide que si encuentra la mitad o más de frascos mal envasados en esa muestra cambiará de distribuidor. ¿Cuál es la probabilidad de que el dueño de la farmacia no cambie de distribuidor? Respuesta:
N 20 n3 A5 N A 15 x 0,1, 2,3
0.859 P( x 2) P( x 0) P( x 1) 5 0
15 3
5 1
15 2
20 3
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
86
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
6.3 La distribución de Poisson. La distribución de Poisson se utiliza con frecuencia en el trabajo científico. Una manera de considerarla es como una aproximación de la distribución binomial cuando n es grande y p es pequeña.
e x x!
f ( x) P( X x)
x 0,1, 2,...
6.3.1 Función de probabilidad para un Proceso de Poisson
f ( x) P( X x)
e vt vt x x!
x 0,1, 2,...
Donde: v= promedio de sucesos por unidad de intervalo. t = tamaño de intervalos (ejemplo: t=2.3, t=5.8 etc.). vt = promedio d sucesos por intervalo de tamaño t Notación : X
Pois(vt )
También se puede expresar:
e x f ( x) P( X x) x! Donde vt , X
x 0,1, 2,...
Pois( )
6.3.2 La media y la variancia de X X
Pois( ) entonces:
E( X )
2 Var( X ) con vt Ejemplo.
Se cree que el número promedio de individuos por cada 2 km2 de cierta especie de mamífero que habita en las alturas de cierta región es de 1.2. a. En una zona de 2.8 km2, ¿cuántos individuos esperaríamos en promedio encontrar? Sea la v.a. X=Número de individuos en 2 km2 El número de individuos que habitan en promedio será: 2.8(1.2) / 2 1.68
b. Si se observa un área de 3 km2 en dicha región, ¿cuál es la probabilidad que se encuentren más de 3 individuos de esta especie? Sea la v.a. X: Número de individuos en 3km2
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
87
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
3(1.2) / 2 1.8
Por lo tanto 1.8
e1.8 (1.8) x p( x 3) 1 p( x 3) 1 1 0.8912 0.1087 x! x 0 3
Recordar que: e=2.71828183
x 0 1 2 3 4 5 6 7 8 9 10 . . . xi
0.1653
0.1653 0.4628 0.7306 0.8913 0.9636 0.9896 0.9974 0.9994 0.9999 1.0000 1.0000
0.2975 0.2678 0.1607 0.0723 0.0260 0.0078 0.0020 0.0005 0.0001 0.0000 . . .
. . . 0.0000
1.0000
Ejemplo En Escherichia coli, una bacteria que aparece con frecuencia en el tracto digestivo humano, una célula de cada 109 muta de ser sensible a la estreptomicina a ser resistente a ella. Esta mutación puede dar lugar a que el individuo implicado se vuelva resistente a la estreptomicina. Observando 2x109 de tales células, a. ¿cuál es la probabilidad de que ninguna mute? b. ¿Cuál es la probabilidad de que al menos una mute? Este problema es efectivamente binomial, con n = 2 x 109 y p = 1/109. Como 1/109 es extremadamente pequeño, la mutación de una célula es un suceso muy raro. De modo que X, número de células que mutan, puede considerarse como aproximadamente de Poisson con λ=np=(2 x 109)(1/109) = 2. a. ¿cuál es la probabilidad de que ninguna mute?
e2 (2)0 P( X 0) 0.1353 0! b. ¿Cuál es la probabilidad de que al menos una mute? DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
88
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
La probabilidad de que se produzca al menos una mutación es P(X≥1). Esta probabilidad se halla por sustracción. Es decir,
P( X 1) 1 P( X 0) 1
e2 (2)0 1 0.1353 0.8647 0!
A continuación se muestra la probabilidad cuando X=x y el acumulado.
e x P( X x) x!
x 0 1 2 3 4 5 6 7 8 9 10 . . . 10
0.1353 0.2707 0.2707 0.1804 0.0902 0.0361 0.0120 0.0034 0.0009 0.0002 0.0000 . . . 0.0000
e x x! x 0 x
0.1353 0.4060 0.6767 0.8571 0.9473 0.9834 0.9955 0.9989 0.9998 1.0000 1.0000 . . . 1.0000
Para facilitar estos cálculos las probabilidades acumuladas se encuentran tabuladas en los diferentes libros de estadística.
REFERENCIA BIBLIOGRÁFICA Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM. Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006 Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
89
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
VII. Distribuciones continuas Recuerde que una variable aleatoria continua es una variable aleatoria que, de por sí, puede tomar cualquier valor en cierto intervalo o secuencia de números reales y no exclusivamente en puntos aislados.
7.1 Distribución Exponencial Esta ley de distribución describe procesos en los que: Nos interesa saber el tiempo hasta que ocurre determinado evento, sabiendo que, el tiempo que pueda ocurrir desde cualquier instante dado t, hasta que ello ocurra en un instante tf, no depende del tiempo transcurrido anteriormente en el que no ha pasado nada.
La variable aleatoria continua X tiene distribución exponencial con parámetro con media igual a E ( X ) y variancia
V ( X ) 2 , si su función de densidad es:
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
90
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Ejemplo Una masa radiactiva emite partículas de acuerdo con un proceso de Poisson a una media de razón de 15 partículas por minuto. En algún punto inicia un reloj. a. ¿Cuál es la probabilidad de que transcurran cinco segundos antes de la siguiente emisión? b. ¿Cuál es la media del tiempo de espera hasta que se emite la siguiente partícula? Solución El tiempo se medirá en segundos. T denota el tiempo en segundos que transcurre antes de que se emita la siguiente partícula. La media de la razón de las emisiones es de 0.25 por segundo, por lo que el parámetro de razón es λ = 0.25 y T~ Exp(0.25). La probabilidad de que transcurran más de cinco segundos antes de la siguiente emisión es igual a Debes recordar que:
1
0.25
1 4 0.25
P(T 5) 1 P(T 5) 1 (1 e0.25(5) ) 1 (1 e5/4 ) e125 0.2865 La media del tiempo de espera es
T
1 4 0.25
7.2 Distribución Normal La Distribución Normal fue hallada por primera vez en 1733, por A. De Moivre. Pero el descubrimiento de De Moivre al parecer pasó inadvertido y fue "redescubierta" por C.F Gauss en 1809 y P.S Laplace en 1780 hizo trabajos preliminares que profundizó en 1812. En Estadística una buena cantidad de variables continuas (peso, longitud, ingresos, temperatura etc.) se consideran que tienen Distribución Normal (se dice que es lo normal que tenga esa distribución).
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
91
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
La variable aleatoria continua X tiene distribución normal con media y variancia 2 si su función de probabilidad es:
1
f ( x)
2 x 0 Notación:
e
1 x 2
2
x N ( , 2 )
Características de la distribución normal 1.
Tiene forma acampanada.
2.
Es simétrica respecto a la recta X
3.
Es asintótica respecto al eje X
En el gráfico anterior se aprecia dos distribuciones normales con igual promedio pero diferente desviación estándar (a menor desviación estándar los datos están más cerca de la media)
7.3 Distribución Normal Estándar Si
X
N (, 2 ) , entonces la v.a.c. Z
X
se dice tiene distribución normal estándar; su
media es 0, su variancia 1 y su función de probabilidad es:
f ( z)
1
2 z
e
1 z2 2
Esta prueba es incompleta porque sólo demuestra que la media y la variancia de Z son 0 y 1 respectivamente pero no demuestra que Z tiene distribución normal (esto es tema de un libro de Estadística Matemática).
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
92
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Uso de tabla de la distribución Normal Estándar P( Z a )
P(Z a) 1 P(Z a)
P(a Z b) P(Z b) P(Z a)
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
93
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
7.5 Distribución Ji-Cuadrado La distribución Ji-cuadrado fue encontrada por primera vez por F.R Helmert en 1876. Esta distribución toma el nombre de la letra griega elevada al cuadrado. Esta letra en castellano se llama Ji y en inglés Chi. Una v.a X tiene distribución Ji-cuadrado con m grados de libertad si su función de probabilidad está dada por:
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
94
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Características de una distribución Ji-cuadrado típica Como se aprecia en el gráfico anterior: 1. 2. 3. 4.
Presenta un sesgo o asimetría positiva. Es asintótica con respecto al eje horizontal en el lado positivo. El rango de la variable considera sólo los valores positivos. La distribución tiene menor sesgo conforme los grados de libertad son mayores (m > 30)
5. Si
X
2( m) ,
entonces
Teorema Si Z ~ N(0,1) entonces
X m y X2 2m . Z2
(1)2
Ejemplo
7.6 Distribución t de Student. La distribución t fue empleada por primera vez en un problema de Estadística importante por W.S Gosset en 1908 (él escribía bajo el seudónimo de Student). Una v.a X tiene distribución t con m grados de libertad si su función de probabilidad es:
Características de la distribución t 1. Cada curva t(m) tiene forma acampanada con centro en 0. 2. Cada curva t(m) es más dispersa que la curva normal estándar.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
95
UNSCH
Bioestadística I
3. Si X ~ t(m), entonces
0 0 y
2 X
Prof. Reynán Cóndor A.
m . m2
4. Conforme aumenta m, la dispersión de la curva t(m) disminuye. 5. A medida que m , la curva t(m) se aproxima a la curva normal estándar. Teorema Si las v.as Z
N (0,1) y
V
(2m )
son independientes, entonces la v.a X
Z V m
t( m ) .
7.7 Distribución F Ronald A. Fisher (nació en Inglaterra el 17 de Febrero de 1890 y falleció el 29 de Julio de 1962) fue un gran científico, matemático, estadístico, biólogo evolutivo y genetista. Fisher aportó mucho a la estadística, siendo una de sus más importantes contribuciones, la Inferencia Estadística creada por él en 1920 (que se estudiará de manera introductoria en el capítulo XI de este libro). A la distribución F también se le llama distribución F de Snedecor o distribución F de Fisher-Snedecor. Una v.a. X tiene una distribución F con n y m grados de libertad si su función de probabilidad es:
Características de la distribución F a. b. c. d.
Está definida solamente para valores positivos de la variable. Tiene asimetría positiva. Es asintótica respecto al eje horizontal en su parte positiva. Las distribuciones F(n,m) tienden a ser simétricas cuando n y m suficientemente grandes (mayores que 30) Teorema Si U
(2n ) y V
(2m ) , son v.a. independientes, entonces la variable aleatoria
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
96
UNSCH
Bioestadística I
U U m X n V V n m
Prof. Reynán Cóndor A.
F ( n, m )
Notación Si X
F(n, m) y
P( X k ) k F( ,n,m)
Propiedad recíproca
F( ,n,m)
1 F(1 ,m,n )
REFERENCIA BIBLIOGRÁFICA - Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM. - Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006 - Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag - Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. - Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM -
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
97
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
98
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
99
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
100
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
101
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
VII. Muestreo 7.1 Muestreo Proceso de selección de muestras, se utiliza cuando no es posible contar o medir todos los elementos de la población objeto de estudio.
7.2 Muestra Una muestra es una parte de la población. (En algunos casos, una muestra puede incluir la población entera). Por lo general, se trata de usar la información de muestra para hacer inferencia acerca de una población. Por esta razón es particularmente importante definir la población que se estudia y obtener una muestra representativa de la población definida.
7.3 Selección de la muestra. Ha sido ampliamente demostrado que no se puede tomar una muestra aleatoria sin emplear un proceso mecánico. En el proceso usado para obtener una muestra aleatoria o para introducir la aleatoriedad en un experimento o encuesta, por lo general interviene una tabla de números aleatorios.
Cómo seleccionar una muestra: • Tamaño reducido. • Ausencia de sesgos. o Conclusiones obtenidas de la muestra son válidas para la población. • Facilidad en la definición de la muestra. • Mejor alternativa: Muestras aleatorias simples o Cada miembro de la población tiene la misma probabilidad de pertenecer a la muestra. o La selección se realiza de manera independiente. La selección de un individuo concreto no afecta a la probabilidad de seleccionar cualquiera de los otros.
7.4 Características de la muestra Una muestra debe ser representativa de la población si tiene como fin obtener inferencias válidas. Para obtener una muestra representativa, el principio de aleatoriedad se incorpora a las reglas para obtener la muestra. La aleatoriedad es el resultado de un proceso mecánico para asegurar que los sesgos individuales, conocidos o desconocidos en su naturaleza, no influyan en la selección de las observaciones de la muestra. En consecuencia, se aplican las leyes de la probabilidad y se usan para extraer inferencias. En resumen, para que una muestra sea representativa debe cumplir con las siguientes condiciones: a) Debe haber sido obtenida al azar. b) Su tamaño y sus elementos deben haber sido seleccionados aplicando un método de muestreo.
7.5 Tipos de muestreo. Existen dos métodos para seleccionar muestras de poblaciones: a) Muestreo no aleatorio o de juicio: Se emplea el conocimiento y la opinión personal para identificar aquellos elementos de la población que deben incluirse en la muestra. b) Muestreo aleatorio o de probabilidad: En el cual todos los elementos de la población tienen la oportunidad de ser escogidos para la muestra. Dentro de este tipo de muestreo se encuentran: DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
102
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
b.1) Muestreo aleatorio simple: el cual es un método de selección de muestras que permite que cada muestra posible pueda ser elegida con la misma probabilidad. Por su parte cada elemento de la población tiene la misma oportunidad igual de ser incluido en la muestra. b.2) Muestreo sistemático: método en el cual los elementos que se muestrearán se seleccionan de la población en un intervalo uniforme que se mide con respecto al tiempo, al orden o al espacio. b.3) Muestreo estratificado: método en el que la población se divide en grupos homogéneos, o estratos, y después se toma una muestra aleatoria simple de cada estrato. Aquí la variabilidad dentro de cada grupo es pequeña y entre los grupos es grande. b.4) Muestreo de racimo: método en el que la población se divide en grupos o racimos de elementos, y luego se selecciona una muestra aleatoria de estos racimos. La variabilidad dentro de cada grupo es grande y entre los grupos es pequeña; es como si cada racimo fuese un pequeña representación de la población en si mima. REFERENCIA BIBLIOGRÁFICA - Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM. - Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006 - Spiegel, M. Estadística. 2da ed. Mc GRAW HILL. España 1991. 556 pag - Balzarini Mónica; Di Rienzo Julio; Tablada Margot; González, Laura; Bruno Cecilia; Córdoba Mariano; Robledo Walter; Casanoves Fernando. 2011. Estadística y Biometría. Editorial Brujas. Argentina. - Guía del curso de estadística general. 2016. Departamento estadística e informática. UNALM -
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
103
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
VIII. Distribución de muestreo Consideremos todas las posibles muestras de tamaño N en una población dada (con o sin reposición). Para cada muestra, podemos calcular un estadístico (tal como la media o la desviación típica) que variará de muestra a muestra. De esta manera obtenemos una distribución del estadístico que se llama su distribución de muestreo.
8.1 Distribución de muestreo de medias Supongamos que se toman todas las posibles muestras de tamaño N, sin reposición, de una población finita de tamaño Np > N. Si denotamos la media y la desviación típica de la distribución de muestreo de medias por X y X y las de la población por y . respectivamente, entonces
X
y
Np N
X
N
N p 1
Si la población es infinita o si el muestreo es con reposición, los resultados anteriores se reducen a
X
y
X
N
8.2 Distribución de muestreo de proporciones Supongamos que una población es infinita y que la probabilidad de ocurrencia de un suceso (su éxito) es p, mientras la probabilidad de que no ocurra es q = 1 — p. Se obtiene una distribución de muestreo de proporciones cuya media P y cuya desviación típica P vienen dadas por
P p
y
P
pq N
p(1 p) N
Estas ecuaciones son válidas también para una población finita en la que se hace muestreo con reposición. Para poblaciones finitas en que se haga muestreo sin reposición, las ecuaciones quedan sustituidas por las ecuaciones p y pq
8.3 Errores típicos La desviación típica de una distribución de muestreo de un estadístico se suele llamar su error típico.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
104
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
105
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
8.4 Ejemplo de distribución de muestreo de promedios Ejemplo: Una población consta de los números 2, 3, 6, 8 y 11. Consideremos todas las posibles muestras de tamaño 2 que pueden tomarse con reposición de esa población. Hallar (a) la media de la población, (b) la desviación típica de la población, (c) la media de la distribución de muestreo de medias y (d) la desviación típica de la distribución de muestreo de medias (o sea, el error típico de medias). Solución (a) la media de la población,
(b) la desviación típica de la población,
(c) la media de la distribución de muestreo de medias 2 2 3 6 8 11
(2,2) (3,2) (6,2) (8,2) (11,2)
3 (2,3) (3,3) (6,3) (8,3) (11,3)
6 (2,6) (3,6) (6,6) (8,6) (11,6)
8 (2,8) (3,8) (6,8) (8,8) (11,8)
11 (2,11) (3,11) (6,11) (8,11) (11,11)
Las correspondientes medias muestrales son 2.0 2.5 4.0 5.0 6.5
2.5 3.0 4.5 5.5 7.0
4.0 4.5 6.0 7.0 8.5
5.0 6.5 5.5 7.0 7.0 8.5 8.0 9.5 9.5 11.0
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
106
UNSCH
X
Bioestadística I
Prof. Reynán Cóndor A.
suma de todas las medias muestrales 150 6.0 25 25
(d) la desviación típica de la distribución de muestreo de medias (o sea, el error típico de medias).
N° 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 Suma
Xi
( X i X )2
2.0 2.5 4.0 5.0 6.5 2.5 3.0 4.5 5.5 7.0 4.0 4.5 6.0 7.0 8.5 5.0 5.5 7.0 8.0 9.5 6.5 7.0 8.5 9.5 11.0 150.0
16.0 12.3 4.0 1.0 0.3 12.3 9.0 2.3 0.3 1.0 4.0 2.3 0.0 1.0 6.3 1.0 0.3 1.0 4.0 12.3 0.3 1.0 6.3 12.3 25.0 135.0
Histograma de Medias muestrales Normal 9
Media 6 Desv.Est. 2.372 N 25
8 7 6
Frecuencia
Medias muestrales
5 4 3 2 1 0
2
4
6
8
10
12
Medias muestrales
N=25
2
(X
X
i
X )2
N
135 5.40 25
X 2 5.40 2.32 X
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
107
UNSCH
2 X
X
Bioestadística I
2 N
Prof. Reynán Cóndor A.
10.8 5.40 2
2 10.8 2.32 N 2
Problema. Resolver el problema anterior para el caso sin reposición. (a) la media de la población,
(b) la desviación típica de la población,
(c) la media de la distribución de muestreo de medias 2 2 3 6 8 11
(2,2) (3,2) (6,2) (8,2) (11,2)
3 (2,3) (3,3) (6,3) (8,3) (11,3)
6 (2,6) (3,6) (6,6) (8,6) (11,6)
8 (2,8) (3,8) (6,8) (8,8) (11,8)
11 (2,11) (3,11) (6,11) (8,11) (11,11)
Las correspondientes medias muestrales son: 2.0 2.5 4.0 5.0 6.5
2.5 3.0 4.5 5.5 7.0
4.0 4.5 6.0 7.0 8.5
5.0 6.5 5.5 7.0 7.0 8.5 8.0 9.5 9.5 11.0
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
108
UNSCH
Bioestadística I
Xi
N°
2.5 4 5 6.5 4.5 5.5 7 7 8.5 9.5
1 2 3 4 5 6 7 8 9 10 Suma
X
( X i X )2 12.3 4 1 0.25 2.25 0.25 1 1 6.25 12.3 40.5
60
Histograma de Medias muestrales Normal 4
Media 6 Desv.Est. 2.121 N 10
3
Frecuencia
Medias muestrales
Prof. Reynán Cóndor A.
2
1
0
2
4
6
8
10
Medias muestrales
60 6.0 10
(d) la desviación típica de la distribución de muestreo de medias (o sea, el error típico de medias).
2
(X
X
X
X )2
N
X
2
i
2 Np N
N N p 1
(X
i
X )2
N
40.5 4.05 10
3.292 5 2 4.05 2 5 1
40.5 4.05 2.01 10
8.5 Ejemplo de distribución de muestreo de proporciones Hallar la probabilidad de que en 120 lanzamientos de una moneda (a) entre el 40% y 60% sean caras y (b) 5/8 o más sean caras. Solución
p
1 2
q
1 2
(a) entre el 40% y 60% sean caras El 40% de 120 es = 48 El 60% de 120 es = 72 Usaremos la aproximación normal. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
109
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Puesto que el número de caras es una variable discreta, nos preguntamos por la probabilidad de que el número de caras esté entre 47.5 y 72.5.
1
Número esperado de caras Np 120 60 2
1 1 Npq (120) 5.48 2 2 Gráfica de distribución Normal, Media=60, Desv.Est.=5.48 0.08
0.9775 0.07
Densidad
0.06 0.05 0.04 0.03 0.02 0.01 0.00
47.5
60
72.5
X
Recordar: El 40% de 120 es = 48 48 – 0.5 = 47.5 El 60% de 120 es = 72 72 + 0.5 = 72.5 Puesto que nuestras tablas sólo presentan Z, es decir con estandarizar, como sigue: Z
P(47.5 X 72.5) P(
0
y
2 1 , debemos
X
47.5
X
72.5
) P(
47.5 60 X 72.5 60 ) 5.48 5.48
P(2.28 Z 2.28)
P(2.28 Z 2.28) P(Z 2.28) P(Z 2.28) 0.9887 0.0113 0.9774
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
110
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Gráfica de distribución Normal, Media=0, Desv.Est.=1 0.9774
0.4
Densidad
0.3
0.2
0.1
0.0
-2.28
0
2.28
X
Gráfica de distribución Normal, Media=0, Desv.Est.=1 0.4
0.6250-0.00417=0.62083
0.3
0.62083 0.5 2.65 0.0456
P(Z 2.65) 1 (Z 2.65) 1 0.9960 0.004
Densidad
(b) 5/8 o más sean caras. 5/8=0.6250
0.2
0.1
0.0
0.004025 0
2.65
X
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
111
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
IX. Inferencia Estadística. La inferencia estadística es el procedimiento por medio del cual se llega a conclusiones acerca de una población con base en la información que se obtiene a partir de una muestra seleccionada de esa población.
9.1 Estimación de parámetros: Estimación puntual Una estimación puntual es un solo valor numérico utilizado para estimar el parámetro correspondiente de la población.
Estimación por intervalos Una estimación por intervalos consta de dos valores numéricos que definen un intervalo que, con un grado específico de confianza, se considera que incluye al parámetro por estimar.
Estimador Se dice que un estimador, por ejemplo T, para el parámetro es un estimador insesgado de si E(T)=
Población muestreada La población muestreada es la población de la cual se extrae una muestra.
Población objetivo La población objetivo es la población de la que pretende hacer una inferencia. Dado que se desconoce el valor de , la expresión 2 X no dice mucho. Sin embargo, se tiene una estimación puntual de , que es
X.
¿Resultaría útil obtener un intervalo en torno a esta estimación puntual de ? La respuesta es sí. Suponga que se forman intervalos a partir de todos los valores posibles de x calculados a partir de todas las muestras posibles de tamaño n de la población de interés. De esa forma se tendría un gran número de intervalos de la forma X 2 X , con amplitudes todas iguales a la del intervalo en torno a la desconocida. Aproximadamente 95 por ciento de estos intervalos tendría centros que caen dentro del intervalo 2 X en torno a . Cada uno de estos intervalos que caen dentro de 2 X en torno a pueden contener a la misma . Estas ideas se muestran en la figura 6.2.1. En dicha figura se observa que X 1 , X 3 y X 4 caen dentro del intervalo 2 X en torno a y, en
consecuencia, los intervalos, 2 X alrededor de las medias de la muestra incluyen el valor de . Las medias muéstrales X 2 y X 5 no caen dentro del intervalo 2 X en torno a , y los intervalos de 2 X en torno a ellas no incluyen a .
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
112
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
EJEMPLO. Suponga que un investigador, interesado en obtener una estimación del nivel promedio de alguna enzima en cierta población de seres humano, toma una muestra de 10 individuos, determina el nivel de la enzima en cada uno de ellos, y calcula la media de la ̅ = 22. Además, que la variable de interés sigue una distribución muestra 𝑿 aproximadamente normal, con una variancia de 45. Se desea estimar el valor de . Solución: Un intervalo de confianza de aproximadamente 95 por ciento para está dado por:
X 2 X 45 10 22 2(2.1213) 17.76, 26.24 22 2
estimador (coeficiente de confiabilidad) (error estándar) X z1 /2 X donde z 1 / 2 es el valor de z a la izquierda de donde está 1 / 2 y a la derecha en que se encuentra / 2 del área bajo la curva.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
113
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Si : 0.05 1 1 0.05 0.95 0.05 1 / 2 1 1 1 0.025 0.975 2 2 0.05 /2 0.025 2 2
Gráfica de distribución
Gráfica de distribución
Normal, Media=22, Desv.Est.=2.12132
Normal, Media=22, Desv.Est.=2.12132 0.20
0.20
0.975 0.15
Densidad
Densidad
0.15
0.10
0.10
0.05
0.05
0.025 0.00
22
26.16
X
0.00
17.84
22
X
0.975 0.025 0.95
Gráfica de distribución Normal, Media=22, Desv.Est.=2.1213 0.20
0.95
Densidad
0.15
0.10
0.05
0.00
17.84
22
X
26.16
Ahora, debemos observar que los valores no son lo que se muestra en la figura dada por Minitab, esto se debe a que el valor del coeficiente de confiabilidad no es 2 si no debe ser 1.96, luego podemos resolverlo de la siguiente manera:
X 1.96 X 45 10 22 1.96(2.1213) 17.84, 26.16 22 1.96
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
114
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
9.2 Interpretación del intervalo de confianza Interpretación probabilística En el muestreo repetido, de una población con distribución normal y desviación estándar conocida 100(1 - α) por ciento de todos los intervalos de la forma X z 1 /2 X incluyen a la larga la media de la población .
Interpretación práctica Cuando se hace un muestreo a partir de poblaciones que siguen una distribución normal y con desviación estándar conocida, existe un 100( 1 - α) por ciento de confianza de que el intervalo calculado X z 1 /2 X , contiene la media de la población .
Precisión A la cantidad que se obtiene al multiplicar el factor de confiabilidad por el error estándar de la media se le llama precisión de la estimación. También, se le llama margen de error. Coeficiente de confianza Factores de confiabilidad 1.645 0.90 1.96 0.95 2.58 0.99 EJEMPLO. Un fisioterapeuta desea estimar, con 99 por ciento de confianza, la media de fuerza máxima de un músculo particular en cierto grupo de individuos. Se inclina a suponer que los valores de dicha fuerza muestran una distribución aproximadamente normal con una variancia de 144. Una muestra de 15 individuos que participaron en el experimento presentó una media de 84.3. Solución: Coeficiente de confianza: 0.99 Coeficiente de confiabilidad: 2.58 Muestra: N=15 Media:
X = 84.3
Variancia:
2 144
Desviación estándar: 2 144 12 Gráfica de distribución
Error estándar
N
12 15
0.14
3.0984
X 2.58 X 84.3 2.58(3.0984) 84.3 8.0 76.3, 92.3
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
0.99
0.12 0.10
Densidad
X
Normal, Media=84.3, Desv.Est.=3.0984
0.08 0.06 0.04 0.02 0.00
76.3
84.3
X
92.3
115
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Se dice que se tiene 99 por ciento de confianza de que la media de la población esté entre 76.3 y 92.3, porque al repetir el muestreo, 99 por ciento de todos los intervalos que pueden construirse en la forma descrita, incluyen a la media de la población.
9.3 Muestreo a partir de poblaciones que no presentan una distribución normal EJEMPLO. Un equipo de investigadores está interesado en la puntualidad de los pacientes en las citas concertadas. En un estudio de flujo de pacientes en los consultorios de médicos generales se encontró que una muestra de 35 pacientes llegaba 17.2 minutos tarde a las citas, en promedio. Una investigación previa había demostrado que la desviación estándar era de 8 minutos aproximadamente. Se tuvo la sensación de que la distribución de la población no era normal. ¿Cuál es el intervalo de confianza de 90 por ciento para , que es el promedio real de impuntualidad en las citas? Solución: Dado que el tamaño de la muestra es bastante grande (mayor que 30) y se conoce la desviación estándar de la población, la situación se aproxima al teorema del límite central y se supone que la distribución muestral de X presenta una distribución aproximadamente normal. Al consultar la tabla de la distribución Normal se encuentra que el coeficiente de confiabilidad que corresponde a un coeficiente de confianza de 0.90 se aproxima a 1.645 si se interpola. El error estándar es de
X
N
8 35
1.3522 ,
de modo que el intervalo de confianza de 90 por ciento para es Gráfica de distribución Normal, Media=17.2, Desv.Est.=1.3522 0.90
0.30
17.2 ± 1.645(1.3522) 17.2 ±2.2 15.0, 19.4.
0.25
0.20
Densidad
X z1 /2 X
0.15
0.10
0.05
0.00
15
17.2
X
19.4
Con frecuencia, cuando la muestra es lo suficientemente grande para aplicar el teorema del límite central, la variancia de la población se desconoce. En ese caso, se sustituye esta variancia con la de la muestra en la fórmula para construir el intervalo de confianza para la media de la población. Nota: para interpolar se realiza lo siguiente: Z 1.65 0.9505 Z 0.95 Z 1.64 0.9495 1.65 1.64 0.9505 0.9495 1.65 Z 0.9505 0.95 0.01 2 1.65 Z 0.01 1.65 Z 2 0.01 Z 1.65 2 Z 1.645 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
116
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Nota: Si se requiere conocer el valor de z cuando el nivel de confianza es 90%, ¿por qué usamos un valor de z0.95, cuando hacemos uso de la tabla de Daniel? Es porque la tabla de Daniel muestra el área bajo la curva normal P(z ≤ z0).
Por lo tanto
Gráfica de distribución 0.90 0.05 0.95 Normal, Media=0, Desv.Est.=1 0.9
0.4
Densidad
0.3
0.2
0.10 0.05 2 2
0.10 0.05 2 2
0.1
0.0
-1.645
0
X
1.645
Es por esa razón, para interpolar usamos el valor de 0.95. Esto explicación será diferente dependiendo dela tabla que se emplee.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
117
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
9.4 Intervalos de confianza que utilizan la distribución t X t
s n
Para ser más específicos, cuando se obtienen muestras a partir de una distribución normal cuya desviación estándar, , se desconoce, el 100(1 ) por ciento del intervalo de confianza para la media de la población, , está dado por:
estimador (coeficiente de confiabilidad) (error estándar) X t 1
s
2 n
EJEMPLO. Maureen McCauley (A-l) realizó un estudio para evaluar los efectos de un conjunto de instrucciones de mecánica en el lugar de labores sobre el desempeño laboral de obreros jóvenes recientemente contratados. Se utilizaron dos grupos de individuos elegidos aleatoriamente; uno de los grupos para aplicar el experimento y el otro como grupo de control. El grupo con el que se experimentó recibió una hora de capacitación impartida por un terapeuta ocupacional. El grupo de control no recibió esta capacitación. Para evaluar el esfuerzo de cada obrero para levantar, bajar, jalar y transportar objetos dentro del entorno laboral, se utilizó una lista de cotejo para la evaluación de trabajo mecánico que incluía criterios de referencia. Una tarea bien hecha recibió una calificación de 1. El grupo de control, formado por 15 individuos, alcanzó una calificación media de 11.53 en la evaluación, con una desviación estándar de 3.681. Se supone que el grupo de control se comportó como una muestra aleatoria extraída de una población similar de individuos. Se pretende utilizar los datos de la muestra para estimar la calificación media para la población.
X t 1
s
2
n
Gráfica de distribución T, df=14 0.95
0.4
X =11.53 0.3
Error estándar=
s n
3.681 15
0.9504
Coeficiente de confiabilidad Si t 1 = t 10.05 = t 0.975 2 2
Densidad
Intervalo de confianza: 95%
0.2
0.1
0.0
-2.145
0
X
2.145
Grados de libertad = n-1 = 15-1 = 14 Luego de buscar en la tabla t, tenemos que el Coeficiente de confiabilidad es = 2.1448
X t 1
s
2 n
11.53 2.1448 0.9504 11.53 2.04 9.49, 13.57 DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
118
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Este intervalo puede interpretarse con ambos puntos de vista: probabilístico y práctico. Puede asegurarse, en un 95 por ciento, que la media, , correcta de la población se encuentra entre 9.49 y 13.57, porque al repetir el muestreo, 95 por ciento de los intervalos construidos de igual manera incluyen a .
9.5 Intervalo de confianza para la proporción de una población Para estimar la proporción de una población se procede en la misma forma que cuando se estima la media de una población. Se extrae una muestra de la población de interés y se calcula su proporción p . Esta se utiliza como el estimador puntual para la proporción de la población. Un intervalo de confianza se obtiene mediante la siguiente fórmula general:
estimador (coeficiente de confiabilidad) (error estándar)
Cuando np y n(1 - p) son mayores que 5, se puede considerar que la distribución muestral de p se aproxima bastante a una distribución normal. Cuando se cumple con esta condición, el coeficiente de confiabilidad es algún valor de z de la distribución normal estándar. El error estándar es igual p p(1 p) / n .Puesto que p , que es el parámetro que se trata de calcular, se desconoce, se debe utilizar p como una estimación. Así, se estima por medio de p(1 p) / n , y el intervalo de confianza de está dado por:
100(1 ) por ciento para p
p z1 2 p(1 p) / n
EJEMPLO 6.5.1 Mathers el al. (A-12) encontraron que en una muestra de 591 pacientes internados en un hospital psiquiátrico, 204 admitieron que consumieron marihuana al menos una vez durante su vida. Se pretende construir un intervalo de confianza de 95 por ciento para la proporción de individuos que consumieron marihuana durante su vida en la población muestreada de los internos del hospital psiquiátrico. Solución: La mejor estimación puntual para la proporción de la población es
p
204 0.3452 591
El tamaño de la muestra y la estimación de p tienen una magnitud suficiente para justificar el empleo de la distribución normal estándar para elaborar un intervalo de confianza. El coeficiente de confiabilidad que corresponde al nivel de confianza de 0.95 es 1.96 y la estimación del error estándar p , es
p p(1 p) / n
0.3452 0.6548 591
0.01956
El intervalo de confianza para p, de acuerdo con estos datos, es: DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
119
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
p z1 2 p(1 p) / n p z1 /2 p 0.3452 1.96(0.01956) 0.3452 0.0383 0.3069, 0.3835 Se puede decir que se tiene 95 por ciento de confianza de que la proporción p esté entre 0.3069 y 0.3835 ya que, al repetir el muestreo, casi 95 por ciento de los intervalos construidos en la forma de este intervalo incluyen a la proporción p real. Con base en estos resultados se espera, con una confianza de 95 por ciento, encontrar que entre 30.69 y 38.35 por ciento de los internados en el hospital psiquiátrico tiene antecedentes de consumo de marihuana.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
120
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
X. Determinación del tamaño de muestra. 10.1 Determinación del tamaño de la muestra para la estimación del promedio 10.1.1 Variancia conocida
d (coeficiente de confiabilidad) (error estándar) Error máximo tolerable = d = e Tamaño de la población desconocido, tamaño de la población muy grande
Tamaño de la población conocido
dz
dz
n
n
z 2 2 d2
n
n
N n N 1
Nz 2 2 d 2 ( N 1) z 2 2
10.1.2 Variancia desconocida Estimación de
2
Las fórmulas para el tamaño de la muestra requieren del conocimiento de pero, como ya se ha señalado, la variancia de la población casi siempre se desconoce. Como 2
resultado, es necesario estimar . Las fuentes de estimación de más frecuencia son las siguientes: 2
2
que se utilizan con
1. Se extrae una muestra piloto o preliminar de la población y se puede utilizar la variancia calculada a partir de esta muestra como una estimación de . Las observaciones utilizadas en la muestra piloto se toman como parte de la muestra final, de modo que n (el tamaño calculado de la muestra) –n1, (el tamaño de la muestra piloto) = n2 (el número de observaciones necesarias para satisfacer el requerimiento total del tamaño de la muestra). 2
2. A partir de estudios anteriores o similares es posible obtener estimaciones de . 2
3. Si se cree que la población de la cual se extrae la muestra posee una distribución aproximadamente normal, se puede aprovechar el hecho de que la amplitud es aproximadamente igual a 6 desviaciones estándar y calcular R 6 . Este método requiere algún conocimiento acerca de los valores mínimo y máximo de la variable en la población.
EJEMPLO. Un nutriólogo del departamento de salud, al efectuar una encuesta entre una población de muchachas adolescentes con el fin de determinar su ingestión diaria promedio de proteínas (medidas en gramos), buscó el consejo de un bioestadístico con respecto al tamaño de la muestra que debería tomar. ¿Qué procedimiento debe seguir el bioestadístico para asesorar al nutriólogo? Antes de que el estadístico pueda ayudar el nutriólogo, éste debe proporcionar tres elementos de información: la dimensión deseada del intervalo de confianza, el nivel de confianza deseado y la magnitud de la variancia de la población.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
121
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Solución: Suponga que el nutriólogo requiere un intervalo con una dimensión de aproximadamente 10 gramos, es decir, la estimación se debería encontrar alrededor de 5 gramos de la media de la población en ambas direcciones. En otras palabras, se desea un margen de error de 5 gramos. Suponga que se decide por un coeficiente de confianza de 0.95 y que con base en su experiencia previa, el nutriólogo percibe que la desviación estándar de la población es probablemente de alrededor de 20 gramos. El estadístico dispone ya de la información necesaria para calcular el tamaño de la muestra: z = 1.96, = 20 y d = 5. Suponga que el tamaño de la población es grande, así que el estadístico puede ignorar la corrección por población finita y utilizar la ecuación 6.7.3. Con las sustituciones adecuadas, el valor de n se calcula como
z 2 2 1.962 202 n 2 61.47 d 52 Se recomienda que el nutriólogo tome una muestra de tamaño 62. Al calcular el tamaño de una muestra, el resultado se redondea al siguiente número entero mayor si los cálculos dan un número con decimales. EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamaño de la muestra, suponiendo que el tamaño de la población es conocida, es decir N=5000.
n
Nz 2 2 5000 1.962 202 54.8344091 d 2 ( N 1) z 2 2 52 (5000 1) 1.962 202
Se recomienda que el nutriólogo tome una muestra de tamaño 55. Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era desconocido.
10.2 Determinación del tamaño de la muestra para la estimación de las proporciones Tamaño de la población desconocido, tamaño de la población muy grande
n
z 2 pq d2
Tamaño de la población conocido
n
Nz 2 pq d 2 ( N 1) z 2 pq
Estimación de p Como puede observarse, ambas fórmulas requieren que se conozca p, que es la proporción de población que posee la característica de interés. Obviamente, dado que éste es el parámetro que se desea estimar, será desconocido. Una solución para este problema consiste en tomar una muestra piloto y calcular una estimación para utilizarla en lugar de p dentro de la fórmula para n. Algunas veces el investigador tendrá noción de algún límite superior para p que podrá utilizar en la fórmula. Por ejemplo, si se desea estimar la proporción de alguna población que presenta cierta discapacidad, es posible que se crea que la proporción real no puede ser mayor que, digamos, 0.30. Se sustituye entonces p por 0.30 en la fórmula para n. Si es imposible obtener una mejor estimación, se puede igualar p a 0.5 y resolver para n. Dado que p = 0.5 en la fórmula proporciona el máximo valor de n, DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
122
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
este procedimiento dará una muestra lo suficientemente grande para alcanzar la confiabilidad y la dimensión del intervalo deseadas. Sin embargo puede ser más grande de lo necesario y resultar más costosa que si se dispusiera de una mejor estimación de p. Este procedimiento se debe utilizar solamente si no se puede llegar a una mejor estimación de p.
EJEMPLO. Se planea realizar una encuesta para determinar qué proporción de familias en cierta área carece de servicios médicos. Se cree que la proporción no puede ser mayor que 0.35. Se desea un intervalo de Confianza de 95 por ciento con d = 0.05. ¿De qué tamaño se debe seleccionar la muestra de familias? Solución: Si se omite la corrección por población finita, se tiene
n
z 2 pq 1.962 0.35 0.65 349.6 d2 0.052
Por lo tanto, el tamaño de la muestra es de 350.
EJEMPLO. Considerando los datos del ejemplo anterior, calcule el tamaño de la muestra, suponiendo que el tamaño de la población es conocida, es decir N=8000.
n
Nz 2 pq 8000 1.962 0.35 0.65 334.989055 d 2 ( N 1) z 2 pq 0.052 (8000 1) 1.962 0.35 0.65
Por lo tanto, el tamaño de la muestra es de 335.
Observe que cuando se conoce N, la muestra es menor al anterior, cuando N era desconocido.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
123
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
XI. Prueba de hipótesis. Una hipótesis se define simplemente como una proposición acerca de una o más poblaciones.
11.1 Tipos de hipótesis Los investigadores se interesan en dos tipos de hipótesis: de investigación y estadísticas. La hipótesis de investigación es la conjetura o suposición que motiva la investigación. Las hipótesis estadísticas se establecen de tal forma que pueden ser evaluadas por medio de técnicas estadísticas adecuadas.
11.2 El nivel de significación. El nivel de significación es una probabilidad y, de hecho, es la probabilidad de rechazar una hipótesis nula verdadera.
11.3 Tipos de errores. El error que se comete cuando se rechaza una hipótesis nula verdadera se conoce como error del tipo I. El error del tipo II se comete cuando no se rechaza una hipótesis nula falsa. La probabilidad de cometer un error del tipo II se designa por β.
Acción posible
No rechazar H0 Rechazar H0
Condición de la hipótesis nula Verdadera Falsa Acción correcta Error tipo II Error Tipo I Acción correcta
11.4 Prueba de hipótesis para la media de una sola población Cuando el muestreo se realiza a partir de una población que sigue una distribución normal y se conoce la variancia de la población, la estadística de prueba para H o : o es
z
X o
/ n
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
124
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
A. Muestreo a partir de poblaciones con distribución normal y variancia conocidas Ejemplo. Un grupo de investigadores está interesado en conocer la edad media de cierta población. Por decirlo así, se preguntan lo siguiente: ¿Se puede concluir que la edad media de la población es diferente de 30 años? Solución: 1. Datos n = 10
X 27 2. Supuestos Se supone que la muestra de valores proviene de una población cuyas edades siguen una distribución aproximadamente normal. Suponga también que la población tiene una variancia conocida de 3. Hipótesis
2 20 .
Hipótesis nula H 0 la edad media de la población es igual a 30 Hipótesis alterna H A = la edad media de la población es diferente de 30 H 0 : 30 H A : 30 4. Estadísticos
z
X o
/ n
5. Distribución de la estadística de prueba Con base en el conocimiento acerca de las distribuciones muéstrales y de la distribución normal, se sabe que la estadística de prueba tiene una distribución normal, con una media de 0 y una variancia de 1, si H0 es verdadera. 6. Regla de decisión Suponga que se quiere que la probabilidad de rechazar una hipótesis nula verdadera sea 0.05 .
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
125
UNSCH
Bioestadística I
Región de rechazo
Prof. Reynán Cóndor A.
Región de no rechazo
Región de rechazo
Nota: La región de no rechazo se compone de todos los valores intermedios. Se puede establecer la regla de decisión para esta prueba como sigue: rechazar H0 si el valor calculado de la estadística de prueba es ≥ 1.96 o ≤ - 1.96. De otra forma, no se rechaza H0. Por lo tanto es una prueba de hipótesis bilateral. 7. Cálculo de la estadística de prueba
z
27 30 20 / 10
3 2.12 1.4142
8. Decisión estadística Con base en la regla de decisión, se puede rechazar la hipótesis nula porque -2.12 está en la región de rechazo. Se puede decir que el valor calculado de la prueba estadística tiene un nivel de significación de 0.05. 9. Conclusión Se concluye que no es igual que 30 y que las acciones del administrador o médico deberán estar de acuerdo con esta conclusión. 10. Valor de p Gráfica de distribución Normal, Media=0, Desv.Est.=1 0.4
Densidad
0.3
0.2
0.1
0.01700 0.0
0.01700 -2.12
0
X
2.12
p p 2 p 2 0.0170 0.0170 0.0340 Puesto que p 1.645.
9. Conclusión. Se concluye que el valor medio Vo2máx para la población muestreada es mayor que 30. 10.
El valor de p. El valor de p para esta prueba es < .001, porque 4.23 es mayor que 1.645.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
132
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Gráfica de distribución Normal, Media=0, Desv.Est.=1 0.4
Densidad
0.3
0.2
0.1
0.0
0
X
0.00001168 4.23
11.5 PRUEBA DE HIPÓTESIS PARA LA PROPORCIÓN DE UNA SOLA POBLACIÓN La prueba de hipótesis de proporciones poblacionales se realiza casi en la misma forma utilizada para las medias cuando son satisfechas las condiciones necesarias para emplear la curva normal. Pueden efectuarse pruebas unilaterales o bilaterales, dependiendo de la cuestión que se plantee. Cuando se dispone de una muestra lo suficientemente grande para la aplicación del teorema del límite central, la estadística de prueba es
z
p p0 p0 q0 n
la cual, cuando H0 es verdadera, sigue aproximadamente una distribución normal estándar. EJEMPLO. En una investigación de consumidores de drogas intravenosas en una ciudad grande, Coates et al. (A-17) encontraron a 18 de 423 individuos con VIH positivo. Se pretende saber si es posible concluir que menos de 5 por ciento de los consumidores de drogas intravenosas en la población muestreada tienen VIH positivo. Solución: 1. Datos. Los datos se obtienen a partir de la respuesta de 423 individuos de los cuales 18 tenían la característica de interés (VIH positivo), es decir, p = 18/423 = .0426. 2. Supuestos. La distribución muestral de p sigue una distribución aproximadamente normal de acuerdo con el teorema del límite central. 3. Hipótesis.
H 0 : p 0.05 H A : p 0.05 Se realiza esta prueba en el punto de igualdad. La conclusión a la que se puede llegar sería igual a la que se llegaría de llevarse a cabo la prueba utilizando un valor supuesto de p mayor que 0.05. Si H0 es verdadero, p = 0.05 y el error estándar
p
0.05 0.95 / 423 .
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
133
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Nótese que se utiliza el valor supuesto de p para calcular p . Esto se hace porque la prueba entera se basa en la suposición de que la hipótesis nula es verdadera. Utilizar la proporción muestral, p , para calcular p no sería compatible con este concepto. 4. Estadística de prueba. La estadística de prueba se obtiene mediante la ecuación 7.5.1.
z
p p0 p0 q0 n
5. Distribución de la estadística de prueba. Si la hipótesis nula es verdadera, la estadística de prueba sigue una distribución aproximadamente normal con una media de cero. 6. Regla de decisión. Sea α = 0.05. El valor crítico de z es -1.645. Se rechaza H0 si el valor calculado de z es ≤ -1.645. 7. Cálculo de la estadística de prueba.
0.0426 0.05
z
0.05 0.95
0.70
423 8. Decisión estadística. No se rechaza H0 porque -0.70 > -1.645. 9. Conclusión. Se concluye que la proporción de la población que tiene VIH positivo probablemente sea 0.05 o más. 10. Valor de p. p = 0.2420.
REFERENCIA BIBLIOGRÁFICA Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
134
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
XII Análisis de Asociación 12.1 Distribución Ji cuadrada: Prueba de independencia Otro uso, quizá el más frecuente, de la distribución ji-cuadrada es el de probar la hipótesis nula que indica que dos criterios de clasificación son independientes cuando se aplican al mismo conjunto de entidades. Se dice que dos criterios de clasificación son independientes si la distribución de un criterio es la misma, sin importar cuál sea la distribución del otro. Por ejemplo, si el estado socioeconómico y el área de residencia de los habitantes de cierta ciudad son independientes, se esperaría encontrar la misma proporción de familias en los grupos socioeconómicos bajo, medio y alto en todas las áreas de la ciudad.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
135
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Solución: 1. Datos. Véase la tabla 12.4.3. 2. Supuestos. Se considera que la muestra disponible para el análisis es equivalente a una muestra aleatoria extraída de la población de interés. 3. Hipótesis. H0: el estadio del PVH y la etapa de infección por VIH son independientes. HA: las dos variables no son independientes. Sea α = 0.05. 4. Prueba estadística. La prueba estadística es
Gráfica de distribución Chi-cuadrada, df=2 0.5
Densidad
0.4
0.3
0.2
0.1
0.0
0.05 0
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
X
5.991
136
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Nota: los esperados se calculan de la siguiente manera. Esperado VIH Seropositivo, Seropositivo, Seronegativo sintomático asintomático (33x37)/96=12.72 (33x37)/96=6.94 (33x37)/96=17.34 Positivo (33x59)/96=20.28 (33x59)/96=11.06 (33x59)/96=27.66 Negativo 33 18 45 Total
Total 37 59 96
REFERENCIA BIBLIOGRÁFICA Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
137
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
XIII. Regresión simple 13.1 Regresión El análisis de regresión es útil para averiguar la forma probable de las relaciones entre las variables, y el objetivo final, cuando se emplea este método de análisis, es predecir o estimar el valor de una variable que corresponde al valor dado de otra variable.
Y (días de x (horas de la estación luz por día) de cría) 12.8 110 13.9 54 14.1 98 14.7 50 15 67 15.1 58 16 52 16.5 50 16.6 43 17.2 15 17.9 28
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
138
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Diagramas de dispersión
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
139
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
a: representa el valor medio de la variable Y|X = 0, que en muchas ocasiones carece de sentido. b: representa la variación de la variable Y, cuando X aumenta o disminuye una unidad. Interpretación de b: El coeficiente de 15.11, negativo, indica que, un incremento de 1 una hora de luz por día genera una disminución de 15.11 días de la estación de cría.
Otros tipos de regresión. Regresiones múltiples, Regresión logística, etc.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
140
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
XIV. El modelo de correlación. 14.1 Correlación Por otra parte, ei análisis de correlación se refiere a la medición de la intensidad de la relación entre variables. Cuando se calculan mediciones de correlación a partir de un conjunto de datos, el interés recae en el grado de correlación entre las variables.
14.2 El coeficiente de correlación.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
141
UNSCH
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
Bioestadística I
Prof. Reynán Cóndor A.
142
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
La Figura 11.14 proporciona una escala sugerida para interpretar r. De acuerdo con la escala, la correlación -0.33 se describe como la correlación negativa «débil». Conclusión: las variables X e Y presentan una ligera correlación negativa, donde r = -0.33.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
143
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
14.3 El coeficiente de determinación.
El coeficiente de determinación puede utilizarse para justificar la escala de correlación de la Figura 11.14. Cualquier correlación que se sitúe estrictamente entre -0.5 y 0.5 se considera débil, porque el r2 de estos valores es inferior a 0.25. Para estos valores, menos del 25 % de la variación en Y se atribuye a una asociación lineal con X; más del 75 % de la variación en Y no está explicada. Los coeficientes de correlación moderados tienen valores r2 que, como mínimo, son 0.25, pero inferiores a 0.81. Para decir que una correlación es fuerte, deseamos que su valor absoluto sea al menos 0.9. En este caso, el porcentaje de variación en Y explicado por su asociación lineal con X es sustancial en el sentido de que es del 8 1 % o más.
REFERENCIA BIBLIOGRÁFICA
Blair R. Clifford y Richard A. Taylor. 2008. Bioestadística. Pearson Educación, México, 2008 Daniel W. Bioestadística. Cuarta edición. Limusa Wiley. 2006. Milton, J. 2007. Estadística para biología y ciencias de la salud. McGRAWHILL/INTERAMERICANA DE ESPAÑA, S. A. U.
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
144
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
REGRESIÓN LINEAL Y CORRELACIÓN Problema 1. Peso promedio X y consumo de alimento Y de 50 gallinas provenientes de 10 razas White Leghorn. Peso del cuerpo
Consumo de alimentos
Xi
Yi
a. b. c. d.
4.6 87.1 5.1 93.1 4.8 89.8 4.4 91.4 5.9 99.5 4.7 92.1 5.1 95.5 5.2 99.3 4.9 93.4 5.1 94.4 Elaborar el diagrama de dispersión de peso promedio X y consumo de alimento Y Calcular la recta de regresión del consumo de alimentos en función del peso del cuerpo. Realizar el ajuste de la recta. ¿Cuánto es la media de la población de Y para X=5.5 lbs del peso de cuerpo? Solución:
a. Elaborar el diagrama de dispersión de peso promedio X y consumo de alimento Y 102 100
5.2, 99.3
98
Y
96 94 92
4.4, 91.4
90
5.9, 99.5
5.1, 95.5 4.9, 93.4 5.1, 94.4 5.1, 93.1 4.7, 92.1 4.8, 89.8
88
4.6, 87.1
86 4
4.5
5
5.5
6
X Figura: Diagrama de dispersión de peso promedio X y consumo de alimento Y
b. Calcular la recta de regresión del consumo de alimentos en función del peso del cuerpo. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
145
UNSCH
Bioestadística I
Peso del cuerpo
Consumo de alimentos
Xi
Yi
X i2
4.6 5.1 4.8 4.4 5.9 4.7 5.1 5.2 4.9 5.1
X
i
49.8
X
49.8 4.98 10
Y
935.6 93.56 10
X i Yi
87.1 93.1 89.8 91.4 99.5 92.1 95.5 99.3 93.4 94.4
Y
i
935.6
Prof. Reynán Cóndor A.
21.16 26.01 23.04 19.36 34.81 22.09 26.01 27.04 24.01 26.01
X
2 i
249.54
400.66 474.81 431.04 402.16 587.05 432.87 487.05 516.36 457.66 481.44
X Y
i i
4671.1
Coeficiente de regresión b:
b
n X i Yi X i Yi n X X i 2 i
2
10 4671.1 49.8 935.6 7.69 lbs de alimento por libra de 10 249.54 49.82
gallina. Interpretación de b: Para un aumento de una libra en el peso del cuerpo, el consumo de alimento es de 7.69 libras. Intercepto a: nos indica cuánto es Y cuando X = 0, generalmente no tiene interpretación.
a Y bX a 93.56 7.69 4.98 55.26 Ecuación de la recta:
Y a bX Y 55.26 7.69 X
c. Realizar el ajuste de la recta. DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
146
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Y a bX Y i 55.26 7.69 X i
Xi 4.6
Y 4.6 55.26 7.69 4.6 90.634
5.1
Y 5.1 55.26 7.69 5.1 94.479
4.8
Y 4.8 55.26 7.69 4.8 92.172
4.4
Y 4.4 55.26 7.69 4.4 89.096
5.9 Y 5.9 55.26 7.69 5.9 100.631 4.7
Y 4.7 55.26 7.69 4.7 91.403
5.1
Y 5.1 55.26 7.69 5.1 94.479
5.2
Y 5.2 55.26 7.69 5.2 95.248
4.9
Y 4.9 55.26 7.69 4.9 92.941
5.1
Y 5.1 55.26 7.69 5.1 94.479
102 y = 7.6901x + 55.263 R² = 0.6699 5.2, 99.3
100 98
Y
96 4.9, 93.4
94
5.9, 99.5
5.1, 95.5 5.1, 94.4 5.1, 93.1
92
4.7, 92.1
4.4, 91.4
90
4.8, 89.8
88 4.6, 87.1 86 4
4.2
4.4
4.6
4.8
5
5.2
5.4
5.6
5.8
6
X
Figura: Peso promedio X y consumo de alimento Y d. ¿Cuánto es la media de la población de Y para X=5.5 lbs del peso de cuerpo?
Y 5.5 55.26 7.69 5.5 97.6 lb de alimentos
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
147
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
Problema 2. En un grupo de 8 pacientes se miden las cantidades antropométricas peso y edad, obteniéndose los siguientes resultados: Edad X 12 8 10 11 7 7 10 14 a. b.
Peso
Y 58 42 51 54 40 39 49 56 ¿Existe una relación lineal importante entre ambas variables? Calcular la bondad del ajuste (coeficiente de determinación)
a. ¿Existe una relación lineal importante entre ambas variables? Para saber si existe una relación lineal entre ambas variables se calcula el coeficiente de correlación lineal, que vale: Edad X
Peso
X2
Y 12 8 10 11 7 7 10 14
58 42 51 54 40 39 49 56
X 79 Y 389 X r
r
Y2
XY
144 64 100 121 49 49 100 196 2
823
Y
2
3364 1764 2601 2916 1600 1521 2401 3136
696 336 510 594 280 273 490 784
19303
XY 3963
n XY X Y n X 2 ( X ) 2 n Y 2 ( Y ) 2 8 3963 79 389 8 823 (79) 2 8 19303 (389)2
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
973 1031.66322
148
UNSCH
Bioestadística I
Prof. Reynán Cóndor A.
r 0.9431 El coeficiente de correlación lineal es 0.9431, por lo tanto el ajuste lineal es muy bueno. b. Calcular la bondad del ajuste Para determinar la bondad de ajuste se calcula el coeficiente de determinación ( r 2 ).
r 2 0.94312 r 2 0.8894 La bondad de ajuste es r 0.8894 , por tanto podemos decir que el 88,94% de la variabilidad del peso en función de la edad es explicado mediante la recta de regresión correspondiente. Lo mismo podemos decir en cuanto a la variabilidad de la edad en función del peso. Del mismo modo puede decirse que hay un 100 − 88, 94 % = 11, 06 % de varianza que no es explicada por las rectas de regresión. 2
DEPARTAMENTO DE CIENCIAS BIOLÓGICAS
149
View more...
Comments