Libro Estadistica Word
Short Description
Download Libro Estadistica Word...
Description
República Bolivariana de Venezuela Universidad del Zulia Facultad Experimental de Ciencias Departamento de Biología
Estadística Aplicada
Profesor Orlando J. Ferrer M. Marzo 2007
2 Dedico esta obra, con mucho amor, respeto y cariño, a mi esposa Sandra, a mis hijos Juan Carlos y Lorena Beatriz, a mis compañeros de trabajo (profesores, empleados y obreros) y a todos los estudiantes de LUZ, muy especialmente a los del Departamento de Biología de la Facultad Experimental de Ciencias.
Good judgement Comes from experience Experience comes From bad judgement Old Indian Proverb
3 INDICE Presentación…………………………………………………………………………………... CAPÍTULO 1…………………………………………………………………………………… Introducción…………………………………………………………………………………… 1.1 ¿Qué es la estadística?........................................................................................ 1.2 Tipos de estadística…………………………………………………………………… 1.3 Definiciones básicas…………………………………………………………………... 1.3.1 Población estadística……………………………………………………………. 1.3.2 Muestra…………………………………………………………………………… 1.3.3 Variable…………………………………………………………………………… 1.3.3.1 Variables cualitativas y cuantitativas……………………………………. 1.3.4 Parámetro………………………………………………………………………… 1.3.5 Aleatoriedad……………………………………………………………………… 1.3.6 Sesgo……………………………………………………………………………... 1.3.7 Estadístico………………………………………………………………………... 1.3.8 Experimento……………………………………………………………………… 1.3.9 Diseño Experimental……………………………………………………………. 1.3.10 Unidad muestral………………………………………………………………... 1.3.11 Probabilidad…………………………………………………………………….. 1.3.12 Ley……………………………………………………………………………….. 1.3.13 Principio…………………………………………………………………………. 1.3.14 Teoría……………………………………………………………………………. 1.3.14.1 Ley científica……………………………………………………………… 1.3.14.2 Hipótesis…………………………………………………………………... 1.3.14.3 Teoría……………………………………………………………………… 1.3.15 Hipótesis………………………………………………………………………… 1.3.16 Modelo…………………………………………………………………………... 1.3.17 Hecho……………………………………………………………………………. 1.3.18 Tipos de datos y escalas de medición………………………………………. CAPITULO 2…………………………………………………………………………………… Probabilidades………………………………………………………………………………... 2.1 Introducción al estudio de las probabilidades……………………………………… 2.2 ¿Qué son las probabilidades?.............................................................................. 2.3 Medición de probabilidades………………………………………………………….. 2.3.1 La probabilidad de un evento individual: captura de presas por plantas carnívoras………………………………………………………………………... 2.4 Estimación de probabilidades a través de muestreos…………………………….. 2.5 Problemas con la definición de probabilidad……………………………………….. 2.6 Las matemáticas de las probabilidades…………………………………………….. 2.6.1 Definición de espacio muestral………………………………………………… 2.6.2 Eventos complejos y compartidos: combinación de probabilidades simples…………………………………………………………………………... 2.6.3 Eventos complejos: suma de probabilidades…………………………………
Página 9 11 11 11 11 12 12 12 12 13 13 13 14 14 14 15 15 15 15 15 16 16 16 16 17 17 18 18 20 20 20 21 21 21 23 24 25 25 27 27
4
2.6.4 Eventos compartidos: multiplicación de probabilidades…………………….. 2.6.5 Cálculo de probabilidades: plantas y orugas…………………………………. 2.6.6 Eventos complejos y compartidos: reglas para la combinación de conjuntos………………………………………………………………………… CAPITULO 3…………………………………………………………………………………… Estructura y comprobación de hipótesis………………………………………………… 3.1 Introducción……………………………………………………………………………. 3.2 Métodos científicos……………………………………………………………………. 3.2.1 Deducción e inducción………………………………………………………….. 3.2.2 Inducción moderna: inferencia bayesiana……………………………………. 3.2.3 Método hipotético-deductivo…………………………………………………… 3.3 Comprobación de hipótesis estadísticas……………………………………………. 3.3.1 Hipótesis científicas vs. hipótesis estadísticas………………………………. 3.3.2 Significación estadística y valores de P ……………………………………… 3.3.3 Un ejemplo hipotético: comparación de medias……………………………… 3.3.4 La hipótesis nula ( H0 ) …………………………………………………………… 3.3.5 La hipótesis alternativa ( Ha ) …………………………………………………… 3.3.6 El valor de P …………………………………………………………………….. 3.3.7 ¿Qué determina el valor de P ?................................................................... 3.3.8 ¿Cuándo se considera que un valor de P es suficientemente pequeño?... 3.3.9 Hipótesis estadísticas vs. hipótesis científicas: controversia revivida…… 3.3.10 Errores en la comprobación de hipótesis…………………………………… 3.3.10.1 Error Tipo I………………………………………………………………… 3.3.10.2 Error Tipo II y el poder estadístico……………………………………… 3.3.11 ¿Cuál es la relación entre el error Tipo I y el error Tipo II?........................ 3.3.12 ¿Por qué se basan las decisiones estadísticas en el error Tipo I?............ 3.4 Más sobre hipótesis…………………………………………………………………… 3.4.1 Hipótesis………………………………………………………………………….. 3.4.2 ¿Cuándo se usan hipótesis?........................................................................ 3.4.3 ¿Cómo se escriben las hipótesis?............................................................... 3.4.4 Contraste de hipótesis………………………………………………………….. 3.4.5 Hipótesis nula……………………………………………………………………. 3.4.6 Pasos en el contraste de hipótesis……………………………………………. 3.4.7 ¿Por qué no se acepta la hipótesis nula?.................................................... 3.4.8 El significado preciso del valor de probabilidad ( P )………………………… 3.4.9 ¿A que nivel se rechaza H 0 realmente?..................................................... 3.4.10 La estadística y el significado práctico………………………………………. CAPÍTULO 4…………………………………………………………………………………… Diseño de estudios de campo exitosos………………………………………………….. 4.1 Introducción…………………………………………………………………………….
Página 28 29 30 32 32 32 33 33 35 37 38 38 40 40 40 41 42 43 43 45 46 47 47 47 48 48 48 49 49 51 52 53 54 56 57 58 60 60 60
5 4.2 ¿Cuál es el interés del estudio?........................................................................... 4.2.1 ¿Existen diferencias espaciales o temporales en la Variable Y?................. 4.2.2 ¿Cuál es el efecto del Factor X sobre la Variable Y?................................... 4.2.3 ¿Son la mediciones de la Variable Y consistentes con las predicciones de la Hipótesis H?............................................................................................ 4.2.4 Usando los valores de la Variable Y, ¿cuál es el mejor estimado del Parámetro θ en el Modelo Z?..................................................................... 4.3 Experimentos manipulativas…………………………………………………………. 4.4 Experimentos naturales………………………………………………………………. 4.5 Experimentos instantáneos vs. experimentos de trayectoria…………………….. 4.6 El problema de la dependencia temporal…………………………………………… 4.7 Experimentos de presión y experimentos de pulso……………………………….. 4.8 Replicación…………………………………………………………………………….. 4.8.1 ¿Cuántas réplicas?...................................................................................... 4.8.2 ¿Cuántas réplicas totales son factibles?...................................................... 4.8.3 La regla del 10…………………………………………………………………… 4.8.4 Estudios a gran escala e impactos ambientales……………………………... 4.9 Independencia……………………………………………………………………......... 4.10 Evitando factores de confusión……………………………………………………... 4.11 Replicación y aleatorización………………………………………………………… 4.12 Diseño de experimentos de campo y estudios de muestreos………………… 4.12.1 ¿Son las parcelas o encierros suficientemente grandes para asegurar resultados realistas?................................................................................. 4.12.2 ¿Cuál es la finura y extensión del estudio…………………………………... 4.12.3 ¿Reduce o expande el rango de posibles condiciones ambientales el rango de los tratamientos o las categorías de muestreos?...................... 4.12.4 ¿Han sido establecidos controles apropiados para asegurar que los resultados reflejen variación solamente en el factor de interés?........... 4.12.5 ¿Han sido manipuladas todas las réplicas en la misma forma, excepto las que serán usadas para comprobar el tratamiento de interés?........ 4.12.6 ¿Han sido medidas las covariables apropiadas en cada réplica?............. 4.13 Resumen……………………………………………………………………............... CAPÍTULO 5…………………………………………………………………………………… Distribución normal………………………………………………………………………….. 5.1 Introducción……………………………………………………………………………. 5.2 Propiedades de la distribución normal……………………………………………… 5.3 Verificación de la hipótesis de normalidad…………………………………………. CAPÍTULO 6…………………………………………………………………………………… Diseños experimentales y de muestreos………………………………………………… 6.1 Introducción……………………………………………………………………………. 6.2 Variables categóricas vs. variables continuas……………………………………... 6.3 Variables dependientes y variables independientes………………………………. 6.4 Cuatro clases de diseños experimentales………………………………………….. 6.4.1 Diseños tipo regresión…………………………………………………………..
60 60 60 Página 61 61 62 63 65 66 67 68 68 68 69 69 70 71 72 75 75 75 76 76 76 77 77 78 78 78 78 81 86 86 86 86 87 87 87
6 6.4.1.1 Regresión simple………………………………………………………….. 6.4.1.2 Regresión múltiple………………………………………………………… 6.4.2 Diseños tipo ANOVA…………………………………………………………….. 6.4.2.1 Terminología……………………………………………………………….. 6.4.2.2 ANOVA de factor simple……………………………............................... 6.4.2.3 Diseño de bloque aleatorizado…………………………………………… 6.4.2.4 ANOVA anidado…………………………………………………………… 6.4.2.5 Diseños de factores múltiples: arreglo de dos vías……………………. 6.4.2.6 Diseños split-plot…………………………………………………………… 6.4.2.7 Diseños para tres o más factores………………………………………... 6.4.2.8 Variabilidad temporal: diseños de medidas repetidas…………………. 6.4.3 Diseños tabulares……………………………………………………………….. 6.5 Resumen……………………………………………………………………………….. CAPÍTULO 7…………………………………………………………………………………… Análisis de la varianza (ANOVA)………………………………………………………….. 7.1 Introducción…………………………………………………...................................... 7.2 Símbolos y etiquetas usados en el ANOVA…….................................................. 7.3 El ANOVA y la separación de la suma de los cuadrados.................................... 7.4 Presunciones del ANOVA………………………………......................................... 7.4.1 Muestras independientes e idénticamente distribuidas................................ 7.4.1.1 Correlación positiva dentro de las muestras........................................ 7.4.1.2 Correlación negativa dentro de las muestras....................................... 7.4.1.3 Correlación negativa entre las muestras.............................................. 7.4.1.4 Correlación positiva entre las muestras............................................... 7.4.1.5 ¿Cómo evitar la no independencia?..................................................... 7.4.2 Las varianzas son homogéneas entre los tratamientos............................... 7.4.2.1 Pruebas para comprobar la homogeneidad de las varianzas.............. 7.4.2.2 Control de calidad................................................................................ 7.4.2.3 Transformación de los datos................................................................ 7.4.2.3.1 Transformación raíz cuadrada de contajes (también llamados datos Poisson)............................................................................. 7.4.2.3.2 Transformación logarítmica de tasas, razones, concentraciones y otros datos................................................................................ 7.4.2.3.3 Transformación arcoseno de porcentajes y proporciones........... 7.4.2.3.4 Ninguna transformación es posible.............................................. 7.4.3 Los residuales se distribuyen normalmente................................................. 7.4.4 Las muestras se clasifican correctamente................................................... 7.4.5 Los efectos principales son aditivos............................................................. 7.5 Pruebas de hipótesis en el ANOVA..................................................................... 7.5.1 Cálculo de valores de F................................................................................ 7.6 Tablas de valores y parámetros para los diseños ANOVA……………………….. 7.6.1 Bloque aleatorizado……………………………………………………………... 7.6.2 ANOVA anidado…………………………………………………………………. 7.6.3 ANOVA de dos vías……………………………………………………………...
88 89 90 Página 90 91 92 95 96 99 100 100 102 103 105 105 105 105 106 112 112 113 116 117 119 121 122 123 124 125 126 127 128 128 128 129 129 129 132 133 133 136 140
7 7.6.4 ANOVA de tres vías…………………………………………………………….. 7.6.5 ANOVA split-plot.......................................................................................... 7.7 Factor fijo vs. factor aleatorio en el ANOVA………………………………………...
145 145 146 Página 7.8 Gráficas del ANOVA de una vía……………………………………………………... 148 7.9 Gráficas del ANOVA de dos vías……………………………………………………. 149 7.9.1 Efectos no significativos………………………………………………………… 149 7.9.2 Un efecto principal significativo………………………………………………… 150 7.9.3 Dos efectos principales significativos…………………………………………. 150 7.9.4 Efecto de interacción significativo……………………………………………... 150 7.10 ¿Cómo interpretar el término de interacción?.................................................... 151 CAPÍTULO 8…………………………………………………………………………………… 153 Análisis de regresión………………………………………………………………………... 153 8.1 Introducción……………………………………………………………………………. 153 8.2 Definición de la línea recta y sus dos parámetros…………………………………. 153 8.3 Ajuste de datos a un modelo lineal………………………………………………….. 154 8.4 Varianzas y covarianzas……………………………………………………………… 158 b0 b1 160 8.5 Estimación de y usando los mínimos cuadrados……………………………. 8.6 Los componentes de la varianza y el coeficiente de determinación…………….. 162 8.7 Comprobación de hipótesis con análisis de regresión……………………………. 164 8.7.1 Tabla de ANOVA………………………………………………………………… 164 8.7.2 Otras pruebas e intervalos de confianza……………………………………… 167 8.8 Presunciones del análisis de regresión……………………………………………... 170 8.9 Pruebas diagnósticas en el análisis de regresión…………………………………. 171 8.9.1 Gráficas de residuales………………………………………………………….. 171 8.9.2 Otras gráficas diagnósticas…………………………………………………….. 172 8.9.3 Función influencia……………………………………………………………….. 173 CAPÍTULO 9…………………………………………………………………………………… 175 Medidas de localización y dispersión……………………………………………………. 175 9.1 Introducción……………………………………………………………………………. 175 9.2 Medidas de localización………………………………………………………………. 175 9.2.1 La media aritmética……………………………………………………………… 175 9.2.2 Otras medidas de localización: la mediana y el modo……………………… 177 9.2.3 Cuando usar cada medida de localización…………………………………… 177 9.3 Medidas de dispersión………………………………………………………………... 178 9.3.1 La varianza y la desviación estándar………………………………………….. 178 9.3.2 El error estándar de la media…………………………………………………... 179 9.3.3 Skewness, kurtosis y momentos centrales…………………………………… 181 9.3.4 Cuantiles………………………………………………………………………….. 182 9.3.5 El uso de las medidas de dispersión………………………………………….. 182 9.3.6 Algunas consideraciones filosóficas relacionadas con los estadísticos estudiados……………………………………………………………………….. 183 9.3.7 Intervalos de confianza…………………………………………………………. 184 CAPÍTULO 10………………………………………………………………………………….. 186
8 Pruebas estadísticas………………………………………………………………………… 10.1 Introducción…………………………………………………………………………... 10.2 Pruebas para encontrar diferencias……………………………………………...... 10.2.1 ¿Hay diferencias entre las distribuciones de frecuencia?.........................
186 186 186 186 Página 10.2.2 Prueba G………………………………………………………………………... 186 10.2.2.1 ¿Cuando usar la prueba G?............................................................... 187 10.2.2.2 La hipótesis nula…………………………………………………………. 187 10.2.2.3 ¿Cómo trabaja la prueba?.................................................................. 187 10.2.2.4 Ejemplo: hipótesis extrínseca…………………………………………... 188 10.2.2.5 Ejemplo: hipótesis intrínseca…………………………………………… 188 10.2.3 Prueba de Shapiro-Wilk……………………………………………………….. 189 t Student : 10.2.4 Prueba una 191 muestra……………………………………………… t Student : 10.2.5 Prueba muestras 193 independientes………………………………. 10.2.6 Prueba t Student : muestras apareadas……………………………………. 197 10.2.7 ANOVA de una vía…………………………………………………………….. 199 10.2.8 ANOVA de dos vías: arreglos o diseños factoriales a x b…………………. 202 10.2.9 ANOVA de dos vías: sin replicación…………………………………………. 207 10.2.10 Análisis de regresión simple………………………………………………… 213 10.2.10.1 ¿Existe una relación causa-efecto entre dos variables?.................. 214 10.2.10.2 Regresión lineal estándar……………………………………………… 214 10.2.10.3 Predicción……………………………………………………………….. 215 2 215 10.2.10.4 Interpretación de r …………………………………………………….. 10.2.10.5 Comparación de regresión y correlación…………………………….. 215 10.2.10.6 Residuales………………………………………………………………. 217 10.2.10.7 Intervalos de confianza………………………………………………… 217 10.3 Tamaño de la muestra………………………………………………………………. 221 10.3.1 Tamaño de la muestra con respecto a la media……………………………. 221 10.3.2 Tamaño de la muestra con respecto a una proporción……………………. 222 10.3.3 Media individual: determinación del tamaño de la muestra……………….. 223 Bibliografía…………………………………………………………………………………….. 228 Tablas…………………………………………………………………………………………… 234 Figuras………………………………………………………………………………………….. 273 Apéndices……………………………………………………………………………………… 333
9
Presentación Desde mis tiempos de estudiante en el Departamento de Biología de la Facultad Experimental de Ciencias de LUZ, he sentido interés por adquirir habilidad en el análisis estadístico. Posteriormente, cuando tuve que enfrentarme al reto de una carrera en donde el análisis estadístico era fundamental, ese interés se convirtió en obsesión. Pronto, sin embargo, me convencí que era difícil, y en ocasiones, extremadamente difícil, enfrentar toda la diversidad estadística sin la ayuda de alguien con más y mejores conocimientos sobre la materia y, peor aún, sin los conocimientos básicos necesarios que debía haber adquirido en mis estudios universitarios. Y digo debía haber adquirido, porque ciertamente no tuve la oportunidad de hacerlo. Las fallas históricas de nuestro Departamento de Biología en lo relativo a la enseñanza práctica de la estadística son reconocidas por todos sus egresados. La razón principal de esto es que nuestros profesores de estadística han sido, y son, miembros del Departamento de Matemáticas de la Facultad Experimental de Ciencias, con poca o ninguna experiencia en la enseñanza de la denominada bioestadística, lo que trae como consecuencia que nuestros estudiantes terminan adquiriendo una fuerte base teórica matemática de los diferentes procedimientos y pruebas estadísticas que les son de poca utilidad en la solución de problemas prácticos. En mi caso, esto me obligó a invertir una buena parte de mis actividades profesionales a entender, o tratar de entender, muchos aspectos estadísticos sin los cuales me hubiera sido imposible desenvolverme satisfactoriamente en el mundo de la investigación científica, particularmente la investigación pesquera. Luego de 13 años de actividades profesionales me tocó enfrentar un reto académico y profesional aún más comprometedor, y créanme, más agobiante, mis estudios de Maestría y Doctorado. Inicialmente pensé que estaba relativamente bien preparado (más allá de lo relativo a la barrera idiomática) para enfrentar este reto; cuán difícil resulta enfrentarse a ese reto sin los conocimientos estadísticos básicos iniciales. Los conceptos, definiciones y recursos básicos iniciales son fundamentales en la construcción de una experiencia profesional satisfactoria y sólida. Hube, por tanto, y una vez más, de retroceder en la línea de aprendizaje hasta los cimientos elementales cuando ya estaba cerca de empezar a vivir mi cuarta década; por fortuna, conté con varias personas que con su ayuda y dedicación me hicieron más fácil la tarea de aprender conceptos básicos de estadística. Días, semanas e incluso meses de estudio para sentirme confortable con un tema cualquiera; estoy convencido que si esto lo hubiera hecho cuando era un muchacho, ese mismo tiempo se hubiera reducido a unas
10 cuantas horas de estudio formal. Espero que con este pequeño trabajo nuestros estudiantes puedan aprender en unas pocas horas lo básico de la estadística. Al hacer este pequeño libro no pretendo ser ni genial ni vanidoso, el mérito que me pueda ser dado o reconocido se limita simplemente al esfuerzo de poner juntas muchas experiencias, horas de lectura inagotables, en muchas ocasiones con la angustia de tener que aprender y entender, y en otras con verdadero placer y satisfacción, y traducir secciones enteras tanto de libros clásicos (p. ej., Biometry de Robert R. Sokal y F. James Rohlf) como de algunos menos conocidos (p. ej., A primer of ecological statistics de Nicholas J. Gotelli y Aaron M. Ellison). No obstante, este libro también refleja mis varios años de experiencia profesional y académica, y mi preocupación porque nuestros estudiantes de la Licenciatura en Biología se encaminen por la senda estadística que mi experiencia y mi preocupación me indican. Puedo aceptar, y hasta justificar, la ignorancia de alguien cuando no ha tenido la posibilidad o no se le han ofrecido los medios para dejarla a un lado; lo que no es aceptable ni justificable para mi es que teniendo la oportunidad de dejar de ser ignorante, simplemente ese alguien se niegue a hacerlo. Se asume que el estudiante tiene, al menos, un nivel aceptable de estadística básica; es decir, el estudiante debería tener conocimientos sobre media, desviación estándar, intervalos de confianza, etc. Sin embargo, estas definiciones básicas serán tocadas con un poco de mayor profundidad en un capítulo al final del libro. Es importante recalcar también que aunque a lo largo del libro se mencionan términos, procesos y atributos ecológicos como ejemplos y puntos de apoyo, no significa que la estadística que se pretende enseñar sea solamente válida para esa disciplina; esta situación sólo refleja la experiencia del autor, pero el contenido del libro es lo suficientemente amplio para ser aplicado a cualquiera rama de las ciencias naturales o sociales. Maracaibo, marzo de 2007
11
CAPÍTULO 1 Introducción 1.1 ¿Qué es la estadística? Siempre es recomendable comenzar un libro ofreciendo una definición formal y académica del término objeto de estudio; y digo formal y académica debido a que existen muchas definiciones de estadística, esencialmente dependientes del campo de aplicación que se trate. En ese sentido, se tiene una definición biológica (que típicamente definimos como bioestadística), una definición estrictamente matemática (algunos la definen como estadística matemática), una definición social y/o coloquial (p. ej., la estadística que se aplica en las carreras de caballos y las loterías), etc. Dar una definición de estadística, no obstante, es una tarea nada fácil, e intentar dar una definición propia resultaría, al menos, presuntuoso de mi parte. Por lo tanto, la definición que doy a continuación representa el resumen de muchas de ellas, especialmente la dada en la página Web de la Universidad de Málaga, España (por lo demás, casi todo libro de estadística presenta una definición propia). Para los fines que perseguimos, podemos definir la estadística como... La rama de las matemáticas que se ocupa de reunir, organizar y analizar datos numéricos y que ayuda a resolver problemas como el diseño de experimentos y la toma de decisiones. La estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar patrones y analizar los datos, siempre y cuando la variabilidad y la incertidumbre sean características intrínsecas de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y, si es el caso, formular predicciones. Esta definición es suficientemente amplia para ser aplicada en cualquiera rama de las ciencias naturales y/o sociales; por lo tanto, cuando usted oiga hablar de bioestadística sepa que sólo se está aplicando la definición anterior a fenómenos biológicos, es decir, la bioestadística no es más que estadística común aplicada a la biología. En nuestro caso, por tanto, Estadística Aplicada debe ser vista como estadística aplicada a procesos biológicos, o simplemente bioestadística. 1.2 Tipos de estadística La estadística puede ser clasificada como descriptiva, cuando los resultados del análisis no pretenden ir más allá de la información general que nos puede ofrecer un conjunto de datos; e inferencial, cuando el objetivo del estudio es extrapolar las
12 conclusiones obtenidas a un conjunto de datos más amplio. La estadística descriptiva analiza, representa y describe un grupo de datos utilizando métodos numéricos y gráficos que resumen y presentan la información contenida en ellos, mientras que la estadística inferencial se apoya en el cálculo de probabilidades y datos muestrales para efectuar estimaciones, tomar decisiones, hacer predicciones u otras generalizaciones sobre un conjunto mayor de datos. Es importante también indicar que la estadística se divide en paramétrica (basada en la distribución normal y no paramétrica (libre de distribuciones). Hablaremos de esto más adelante. 1.3 Definiciones básicas Como cualquiera otra rama de la ciencia, la estadística también tiene una terminología propia que facilita la comunicación entre sus practicantes. A continuación se presentan algunos conceptos y definiciones que son básicos para la comprensión de muchos de los tópicos que serán desarrollados posteriormente. La lista de definiciones no es ni definitiva ni completa, por supuesto, y sólo intenta ser una lista útil para comenzar a trabajar en este fascinante mundo. Debido a que estas definiciones serán utilizadas a menudo, es recomendable para el estudiante aprender (que no es lo mismo que memorizar) su significado correcto. 1.3.1 Población estadística Una población estadística es cualquiera colección completa de personas, animales, plantas o cosas, o atributos de ellos, de las cuales podemos obtener datos. Es el grupo completo de interés que deseamos describir o del cual deseamos obtener conclusiones. Por ejemplo, la población de curvinas (Cynoscion acoupa) del Lago de Maracaibo; la población de un chironómido cualquiera del Caño Carichuano; la población del chipichipi (Donax denticulatus) de la playa Caimare Chico; etc. También se suele usar el término universo para referirse a una población estadística. 1.3.2 Muestra Una muestra no es más que una parte de una población o universo. Esto es, salvo en las raras excepciones que podemos obtener información para la población o universo entero, lo que se obtiene siempre que vamos al campo a muestrear, es decir, a obtener muestras. Cada vez que vamos a un río y obtenemos valores de conductividad, por ejemplo, esos valores representan una muestra de la población o universo total de la conductividad del río; cada vez que capturamos curvinas en el Lago de Maracaibo con redes de ahorque y obtenemos captura por unidad de esfuerzo (CPUE), esos valores representan una muestra de la población o universo total de las CPUE de curvinas del Lago de Maracaibo. Es importante enfatizar que el éxito y confiabilidad de las inferencias estadísticas que hagamos de cualquier atributo o proceso, dependerá de la calidad de la muestra que se tome; esto es así porque las decisiones estarán basadas en la calidad de la muestra y no en la población completa. Por tanto, las muestras no deben estar sesgadas. ¿Qué tan grande debe ser mi muestra para obtener resultados confiables?
13 Esta es, probablemente, la pregunta más común cuando se comienza en el estudio del diseño experimental. No existe una respuesta inequívoca a esta pregunta; y, definitivamente, todo dependerá de la intención final para la cual se tome la muestra. 1.3.3 Variable Una variable es una característica o fenómeno que puede tomar diferentes valores; por ejemplo, peso, longitud, sexo, salinidad, concentración de oxígeno disuelto, abundancia, riqueza de especies, diversidad, etc. La clave es que todas estas características y atributos difieren (es decir, son variables) de individuo a individuo, de ecosistema a ecosistema, etc. En resumen, cualquier objeto o evento que puede variar en sucesivas observaciones, bien sea cualitativa o cuantitativamente, se denomina variable. 1.3.3.1 Variables cualitativas y cuantitativas Las variables se clasifican en cualitativas y cuantitativas. Una variable cualitativa, a diferencia de una variable cuantitativa, no varía en magnitud en observaciones sucesivas; ejemplos de variables cualitativas son sexo, color de piel, nacionalidad, raza, etc. Ejemplos de variables cuantitativas son peso, longitud, salinidad, etc. 1.3.4 Parámetro Un parámetro es un valor desconocido, y por lo tanto tiene que ser estimado. Los parámetros se usan para representar una cierta característica de una población. Por ejemplo, la media de la población es un parámetro; para una población determinada un parámetro es un valor fijo que no varía. Por ejemplo, si pudiéramos medir la longitud de todos los pavones (Cichla spp.) del Embalse Pueblo Viejo en un momento determinado y obtener su media, este valor representaría (mu; la media de la población) no X (la media de la muestra). Cada muestra que se tome de la población tiene su propia media (o cualquier otro estadístico); la media de los valores de una muestra se usa para dar información acerca de la media total ( ) de la población de la cual la muestra fue tomada. Los métodos estadísticos más comunes (p. ej., la prueba t-Student, el análisis de la varianza, ANOVA), se denominan paramétricos (de allí el término estadística paramétrica) porque estiman parámetros de una distribución teórica subyacente; los métodos no paramétricos (p. ej., la prueba U Mann-Whitney, la prueba de KolmogorovSmirnov) no asumen distribución teórica alguna y, por lo tanto, no estiman parámetros (de allí el término estadística no paramétrica). Por otra parte, cuando se calculan líneas de regresión, p. ej., la relación longitud vs. peso dada por la ecuación W aLb ; donde W peso , L longitud , a intercepto y b pendiente ; a y b (denominados coeficientes de regresión) son los parámetros que definen el modelo y no tienen sentido cuando se aplican a individuos, aunque pueden ser usados para predecir el peso de un individuo a partir de su longitud. Entonces, cuando usted vaya al campo a
14 tomar medidas de pH, salinidad, abundancia de invertebrados, CPUE, etc., recuerde que está obteniendo variables, no parámetros. 1.3.5 Aleatoriedad Aleatoriedad significa impredecibilidad. Un hecho fascinante con respecto a la estadística inferencial es que, aunque cada observación aleatoria pueda no ser predecible cuando se toman individualmente, colectivamente siguen un patrón predecible denominado su función de distribución. Por ejemplo, es un hecho que la distribución del promedio de una muestra sigue una distribución normal cuando su tamaño de muestra es >30. Una muestra aleatoria es una muestra tomada de tal forma que cada elemento de la población de la cual se toma tiene una probabilidad igual e independiente de ser incluido en la muestra. ¿Cómo se toma una muestra aleatoria? En el caso más simple posible, para tomar una muestra aleatoria se debe dar a cada elemento de la población una identificación y usar una tabla de números aleatorios para seleccionar los elementos que conformarán la muestra. Por supuesto, esto no aplica a un experimento o muestreo de una población natural (p. ej., la población de botutos, Strombus gigas, del Archipiélago de Los Roques). 1.3.6 Sesgo Sesgo es un término que hace referencia a cuán lejos del valor real está la media (o cualquier otro estadístico) de la media paramétrica (o cualquier otro estadístico); es decir, cuán lejos está X de . El sesgo puede ser visto como un error que surge cuando se estima cualquiera cantidad. Los errores al azar se balancean (cancelan) mutuamente (valores positivos y valores negativos) a largo plazo, los errores debidos a sesgos no se balancean. Exactitud y precisión son términos asociados con sesgo. Exactitud y precisión se utilizan como sinónimos en el lenguaje ordinario, pero en estadística se definen más rigurosamente. Exactitud es la proximidad de un valor medido o calculado a su verdadero valor; precisión es la proximidad de medidas repetidas de la misma cantidad. Una balanza sesgada pero sensible puede dar pesos inexactos pero precisos. Una balanza poco sensible puede dar por azar una lectura exacta que, no obstante, será imprecisa, puesto que sería imposible que al repetir la medida diese un peso igualmente exacto. La Figura 1.1 ilustra todos los términos asociados con sesgo. 1.3.7 Estadístico Un estadístico es una cantidad que se calcula a partir de los valores de una muestra; se usa para dar información acerca de valores desconocidos de la población correspondiente. Por ejemplo, el promedio de los valores ( X ) de una muestra se usa para dar información acerca del promedio real de la población ( ) de la cual se tomó la muestra. Es posible obtener más de una muestra de la misma población, y el valor de un estadístico en general variará de muestra a muestra. A los estadísticos generalmente se les asignan letras romanas (p. ej., X y S ) mientras que a los parámetros se les asignan letras griegas (p. ej., y ).
15
1.3.8 Experimento Un experimento es cualquier proceso o estudio que resulta en la colecta de datos cuyos valores se desconocen. En estadística, el término se restringe usualmente a situaciones en las que el investigador tiene control sobre algunas de las condiciones bajo las cuales se efectúa el experimento. En general, un experimento es un proceso en el cual se escogen los valores de algunas variables y se determinan los valores de otras. Por ejemplo, en una encuesta política se busca obtener una muestra aleatoria de la población bajo estudio que provea información acerca de la intención de voto de los encuestados. Para poder hacer generalizaciones acerca de una población, se debe obtener una muestra aleatoria que sea representativa (no sesgada); para cada población existen muchas muestras posibles. Una muestra estadística provee información acerca de los parámetros poblacionales correspondientes; p. ej., la media de una muestra ( X ) provee información acerca de la media de la población ( ). 1.3.9 Diseño Experimental El diseño experimental es una herramienta clave para incrementar la tasa de adquisición de buenos conocimientos en el mundo de las ciencias, tanto naturales como sociales. Si usted está interesado en este tema, le recomiendo que vaya a la página Web http://biolo.bg.fcen.uba.ar/ecologia/TP1.pdf, donde se presenta información valiosa sobre diseños experimentales en ecología. En capítulos posteriores veremos más acerca de los diseños experimentales. 1.3.10 Unidad muestral Una unidad muestral (también denominada unidad experimental) es el objeto básico sobre el cual se ejecuta el estudio o experimento; p. ej., una persona, un ave, una muestra de suelo, un río, una laguna, una playa arenosa, etc. 1.3.11 Probabilidad Probabilidad puede ser definida como una herramienta que se usa para anticipar como se vería la distribución de unos datos bajo la premisa de un modelo dado. Los fenómenos aleatorios no son fortuitos, ellos despliegan un orden que emerge a largo plazo y que son descritos por una distribución. La descripción matemática de las variaciones es vital para la estadística; la probabilidad requerida por la inferencia estadística no es axiomática o combinatorial, sino orientada a describir las distribuciones de los datos. En el siguiente capítulo se estudiará con más detalle los aspectos relacionados con probabilidades. 1.3.12 Ley
16 Puede definirse ley como declaraciones que son deterministas, y por lo tanto bien corroboradas, que todos aceptamos como parte del bagaje de conocimientos científicos. Existen leyes en física, química y genética, pero no en ecología. 1.3.13 Principio Son declaraciones universales que todos aceptamos debido a que son, en su mayoría, definiciones o traducciones ecológicas de leyes fisicoquímicas. Por ejemplo, el hecho que sepamos que… ninguna población aumenta sin límite… debe ser considerado un principio ecológico importante que debe ser correcto, dado el tamaño finito de la Tierra. 1.3.14 Teoría Las personas comunes a menudo mal interpretan el lenguaje que usan los científicos y, como consecuencia, algunas veces llegan a conclusiones erróneas acerca de lo que significan realmente los términos científicos. Tres de esos términos, que se usan indistintamente, son: ley científica, hipótesis y teoría. En términos coloquiales, si se dice que algo es sólo una teoría, usualmente significa que es una simple suposición o algo no comprobado; incluso puede llegar a ser poco creíble. Pero en términos científicos, una teoría implica que algo ha sido probado y generalmente aceptado como cierto. He aquí lo que significa para un científico cada uno de estos términos: 1.3.14.1 Ley científica Una ley científica es vista como un enunciado de hechos con la intención de explicar, en términos concisos, una acción o un conjunto de acciones. Generalmente se acepta como cierta y universal, y puede ser expresada en términos de una ecuación matemática individual. Las leyes científicas son similares a los postulados matemáticos; no requieren de una prueba compleja externa alguna, se aceptan basadas en el hecho que siempre han sido observadas como algo cierto. Las leyes científicas, o leyes naturales, incluyen la ley de la gravedad, las leyes de la termodinámica, etc. 1.3.14.2 Hipótesis Una hipótesis no es nada más que una corazonada educada basada en observaciones; es una explicación racional de un evento o fenómeno individual basada en lo que se observa, pero que no ha sido probada. La mayoría de las hipótesis pueden ser soportadas o refutadas por la experimentación o la observación continua. 1.3.14.3 Teoría Una teoría, por su parte, es más parecida a una ley científica que a una hipótesis. Una teoría es un juego de hipótesis empíricas integradas y jerarquizadas que juntas explican una fracción significativa de observaciones científicas, verificadas múltiples veces por grupos diferentes de científicos. Un científico no puede crear una
17 teoría, sólo puede crear una hipótesis. La denominada teoría de la biogeografía de islas (MacArthur y Wilson, 1967) es tal vez la teoría mejor conocida en ecología. La ecología tiene muy pocas teorías buenas hasta el momento, y muchos argumentan que la única teoría ecológica que existe es la teoría de la evolución. En general, las teorías y las leyes científicas son aceptadas como ciertas por la comunidad científica como un todo. Ambas se usan para hacer predicciones de eventos. La mayor diferencia entre una ley y una teoría, es que una teoría es mucho más compleja y dinámica. Una ley gobierna una acción individual, mientras que una teoría explica una serie completa de fenómenos relacionados. Se puede hacer una analogía usando una honda (es decir, una china, un tirador, una gomera, etc.) y un automóvil. Una ley científica es como una honda; una honda sólo tiene una parte móvil, la banda de goma o liga. Si usted coloca una piedra en la honda y la estira, esta volará a una velocidad predecible, dependiendo de la fuerza con que se estire la liga. Un automóvil, por otra parte, tiene muchas partes móviles, todas trabajando al unísono para ejecutar la tarea de transportar algo o alguien de un punto a otro. Un automóvil es una pieza compleja de ingeniería. Algunas veces se hacen mejoras a uno o más componentes de esta pieza; un nuevo juego de bujías que están fabricadas de una mejor aleación que puede soportar mejor el calor, por ejemplo, pudiera reemplazar el juego existente. Pero la función del automóvil como un todo permanece sin cambio. Una teoría es como un automóvil, sus componentes pueden ser cambiados o mejorados sin cambiar la verdad general de la teoría como un todo. Algunos ejemplos de teorías científicas son la teoría de la evolución, la teoría de la relatividad y la teoría cuántica. Todas estas teorías están bien documentadas y probadas más allá de la duda razonable. Pero los científicos continúan trabajando con las hipótesis componentes de cada teoría en un intento de hacerlas más elegantes y concisas, o hacerlas más compenetradas. Las teorías pueden ser modificadas, pero rara vez son enteramente reemplazadas. 1.3.15 Hipótesis Existen muchas definiciones de hipótesis; sin embargo, dejaremos para el Capítulo 3 (ver también arriba la sección 1.3.14.2) el tratamiento más formal de lo que constituye una hipótesis y nos contentaremos por ahora con definir hipótesis como una propuesta universal que sugiere explicaciones para alguna situación observada. La ecología, por ejemplo, es rica en hipótesis que son examinadas o retadas una y otra vez. Pocas de estas hipótesis, desafortunadamente, terminan corroborando hechos que se convierten en teorías. 1.3.16 Modelo Existen muchas definiciones de modelo, desde la definición más básica y coloquial como el hijo modelo, o la madre modelo, o el carro modelo, o la o el modelo más elegante, etc. Sin embargo, en lo que a nuestro objetivo concierne, tenemos que tener una definición formal y manejable de lo que constituye un modelo. Desde el punto
18 de vista estadístico, un modelo es una declaración verbal o matemática de una hipótesis. Más formalmente, un modelo es una construcción teórica que se usa como una ayuda en el estudio de un algún sistema físico demasiado complejo para ser entendido por inferencias directas de datos observados. Usualmente un modelo se desarrolla con alguna pregunta científica específica en mente, pero si varios científicos hacen diferentes preguntas acerca de un sistema físico dado, terminarán con distintos diseños de modelos. Un modelo bien diseñado debería ser tan complejo como sea necesario para responder las preguntas que han motivado su creación, y no más. Poner todo en un modelo, usualmente en nombre del realismo físico, probablemente produzca resultados tan complicados como los datos que produce el sistema físico bajo estudio. 1.3.17 Hecho Un hecho puede ser definido como una verdad particular del mundo natural. Los filósofos discuten interminablemente acerca de lo que es un hecho. Los ecólogos hacen observaciones que pueden ser falsas, y consecuentemente cada observación no es automáticamente un hecho. Por ejemplo, si les digo que las curvinas del Lago de Maracaibo sólo se reproducen en octubre de cada año, probablemente ustedes me crean. 1.3.18 Tipos de datos y escalas de medición La información que nos interesa puede ser recolectada usando datos cualitativos o cuantitativos. Los datos cualitativos, tales como color de los ojos de un grupo de individuos, no son computables a través de relaciones aritméticas; ellos son etiquetas que indican en cual categoría o clase cae un individuo, objeto o proceso. Los datos cualitativos son denominados también variables categóricas. Un juego de datos cuantitativos consiste de medidas que toman valores numéricos, para los cuales tienen significado descripciones tales como media y desviación estándar. Los datos cuantitativos pueden ser ordenados, y se dividen en datos discretos y datos continuos. Los datos discretos son valores que se obtienen por contajes; p. ej., el número de bivalvos colectado en una playa arenosa, el número de colonias de una bacteria cualquiera contado en una placa de Petri. Los datos continuos se recolectan por mediciones y se expresan en una escala continua; p. ej., el ancho de la concha de los bivalvos colectados en una playa arenosa. Los datos vienen en varios tamaños y formas, y es importante que sepamos acerca de ellos para que usemos el análisis apropiado. Usualmente se consideran cuatro escalas de medición, a saber: 1) Datos nominales: un juego de datos se denomina nominal si los valores u observaciones que lo forman pueden ser asignados a un código en la forma de un número, donde los números son simplemente etiquetas; podemos contar pero no ordenar o medir datos nominales. Un ejemplo de datos nominales es el sexo (femenino
19 (F)/masculino (M); hembra/macho); los sexos no pueden ordenarse es decir, no tiene sentido establecer que F > M. 2) Datos ordinales: un juego de datos se denomina ordinal si los valores/observaciones que lo forman pueden ser jerarquizados (ordenados); se puede contar y ordenar datos ordinales, pero no medirlos. Las categorías para un juego de datos ordinales tienen un orden natural; p. ej., supongamos que se pidió a un grupo de personas probar un tipo de galletas y clasificarlas del 1 al 5 de acuerdo con la siguiente escala: 1- le disgusta totalmente, 2- le disgusta, 3- neutro, 4- le gusta y 5- le gusta totalmente. Un valor de 5 indica más placer que un valor de 4, por ejemplo. Sin embargo, la distinción entre puntos vecinos en la escala no es necesariamente siempre la misma; p. ej., la diferencia en disfrute expresada al dar un valor de 2 en vez de 1 pudiera ser mucho menor que la diferencia en disfrute expresada dando un valor de 4 en vez de 3. 3) Datos intervalos: un juego de datos intervalos es aquel en que la distancia entre dos unidades adyacentes es siempre la misma, pero el punto cero es arbitrario; pueden ser ordenados, las diferencias entre ellos tienen sentido, pero las proporciones no (p. ej., 30º C - 20º C = 20 º C - 10º C; pero 20º C / 10º C no es dos veces más caliente). Ejemplo: las escalas de temperatura (ºC, ºF, ºK). 4) Datos razón: un juego de datos razón puede ser ordenado, tienen una escala constante y tienen un valor cero natural; p. ej., altura, peso, longitud, etc. Creo que hasta aquí, el libro cubre los conceptos y definiciones básicas estadísticas. Como se mencionó, está lista no pretende ser completa ni exhaustiva. A lo largo de los diferentes capítulos que siguen, veremos una infinidad de nuevos conceptos y definiciones propios del tema que se trate. Por ejemplo, en la parte de diseños experimentales y el ANOVA veremos muchas definiciones (términos técnicos, diría más bien) propias de estos diseños y pruebas estadísticas. Es importante que el estudiante estudie a fondo estos detalles, ya que les serán útiles para una mejor comprensión de los análisis estadísticos que estudiaremos a los largo del curso. Recuerde, entienda los conceptos y definiciones, no los memorice simplemente; la memoria a veces es corta y traicionera, el entendimiento siempre es largo y fiel con uno.
20
CAPITULO 2 Probabilidades 2.1 Introducción al estudio de las probabilidades En esta parte se desarrollará, con suficiente detalle, los conceptos y definiciones básicos requeridos para entender probabilidades y muestreos. El estudio de las probabilidades ayudará a diseñar mejores experimentos e interpretar los resultados con más claridad. Muchos de los conceptos estudiados en esta sección son incluso más importantes que algunos de los tópicos que se estudiarán posteriormente; por lo tanto, es importante poner atención al tema. En esta sección se estudiarán los aspectos que permitirán contestar preguntas tales como: ¿Qué significa cuando se lee en un artículo científico que los valores promedios de dos muestras fueron significativamente diferentes al nivel de P 0,003 ?; ¿cuál es la diferencia entre un error estadístico Tipo I y un error estadístico Tipo II? Posiblemente resultará difícil creer que incluso a muchos investigadores con amplia experiencia en estadística les cuesta contestar con claridad estas dos preguntas. Si usted logra entender el material que a continuación se presenta, tendrá una base sólida para estudiar los temas que siguen, y siempre será capaz de interpretar correctamente los aspectos estadísticos presentados en la literatura científica, aunque no esté familiarizado con los detalles de la prueba particular presentada. En esta parte también se hará una introducción de los problemas asociados con mediciones y cuantificaciones, procesos que son esenciales para cualquier ciencia. No se puede comenzar a investigar fenómenos naturales de una manera científica, a menos que se puedan cuantificar procesos y se use un lenguaje común en la interpretación de las mediciones. Por supuesto, el simple acto de cuantificación en si mismo no convierte a una actividad en una ciencia; la astrología y el mercado de capitales, por ejemplo, hacen muchas predicciones usando una inmensa cantidad de números, pero no se consideran ciencias. Un reto conceptual para casi todo estudiante de ecología es traducir su amor por la naturaleza en amor por patrones. Por ejemplo, ¿cómo cuantificar patrones de abundancia de plantas y animales? Cuando alguien camina por un bosque puede
21 hacerse preguntas tales como: ¿cuál es el mejor estimado de la densidad de hormigas (cualquiera especie) en este bosque?; ¿será 1 colonia/m 2?; ¿10 colonias/m2?; ¿cuál será la mejor forma de medir la densidad de hormigas?; ¿cómo varía la densidad de hormigas en diferentes partes del bosque?; ¿qué mecanismos o hipótesis podrían explicar tal variación?; y, finalmente, ¿qué experimentos y observaciones se pudieran realizar para comprobar (o falsificar) estas hipótesis? Pero una vez que se ha cuantificado un proceso natural, todavía se tiene que resumir, sintetizar e interpretar los datos que se han colectado. La estadística es el lenguaje común que se usa para interpretar mediciones y comprobar y discriminar entre las diferentes hipótesis planteadas en todas las ciencias. Las probabilidades son la base fundamental de la estadística y, por lo tanto, será el punto de inicio de su estudio. 2.2 ¿Qué son las probabilidades? Si un meteorólogo nos dijera que hay un 70 por ciento de posibilidades de lluvia, probablemente todos tendríamos una idea intuitiva de lo que eso significa; tal aseveración cuantifica la probabilidad o el probable resultado de un evento del cual no se tiene certeza absoluta. Y no tenemos la certeza absoluta porque existe incertidumbre, la naturaleza es variable, y esa variación no siempre es predecible. Las variaciones en los sistemas biológicos son especialmente importantes; es imposible entender conceptos básicos en ecología, evolución y ciencias ambientales sin una apreciación de la variación natural. 1 Aunque todos tengamos una noción general de lo que son las probabilidades, definirlas de una manera precisa es una cuestión totalmente diferente. El problema de definir probabilidades adquiere mayor significado cuando se trata de determinar las probabilidades de eventos reales. 2.3 Medición de probabilidades 2.3.1 La probabilidad de un evento individual: captura de presas por plantas carnívoras Las plantas carnívoras son un buen ejemplo para tratar la definición de probabilidad.2 La planta carnívora Sarracenia purpurea captura insectos en sus hojas llenas de agua de lluvia; algunos insectos que visitan la planta caen en las hojas llenas de agua y mueren ahogados, y la planta extrae nutrientes de la presa en descomposición. Aunque la trampa es una maravillosa adaptación evolutiva para su vida de carnívora, no es, sin embargo, suficientemente eficiente, y muchos de los La variación de rasgos entre individuos es uno de los elementos claves de la teoría de la evolución por selección natural. Una de las grandes contribuciones intelectuales de Charles Darwin (1809-1882) fue enfatizar el significado de tal variación, y acabar con los inconvenientes de la conceptualización tipológica del concepto de especie, el cual consideraba una especie como una entidad fija, estática y con límites bien definidos. 1
Las plantas carnívoras han fascinado a los biólogos desde que en 1875 Darwin comprobara que pueden absorber nutrientes de los insectos que atrapan. Las plantas carnívoras poseen muchos atributos que las convierten en sistemas ecológicos modelos (Ellison y Gotelli, 2001; Ellison et al., 2003). 2
22 insectos que visitan sus hojas escapan. ¿Cómo podríamos estimar la probabilidad que la visita de un insecto resulte en captura? Una forma directa sería observar los insectos que visitan la planta y anotar cuantos resultan atrapados. La visita de un insecto a una planta es un ejemplo de lo que los estadísticos denominan un evento. Un evento no es más que un proceso simple que tiene un inicio y un final bien reconocido. En este universo simple, la visita a una planta es un evento que puede tener dos resultados: escape o captura. La captura de la presa es un ejemplo de un resultado discreto, porque se le puede asignar un entero positivo; por ejemplo, se le puede asignar un valor de 1 a la captura y 2 al escape. El conjunto formado por todos los posibles resultados de un evento se denomina espacio muestral. 1 Los espacios muestrales formados por los resultados discretos se denominan conjuntos discretos, debido a que sus resultados son contables. Cada insecto que visita una planta se cuenta como un ensayo; los estadísticos usualmente denominan a cada ensayo individual una réplica, y denominan a cada conjunto de ensayos o réplicas un experimento. 2 Se define la probabilidad de un resultado como el número de veces que un resultado ocurre, dividido por el número de intentos. Si se observa una planta y se reportan 30 presas capturadas de un total de 3000 visitas, se calcularía la probabilidad como el número de capturas dividido entre el número de visitas, o 30 entre 3000, lo cual puede ser escrito como 30/3000 o 0,01. En términos más generales, se calcula la probabilidad P de ocurrencia de un evento como: P
Aciertos Intentos
Por definición, no puede haber más aciertos que intentos, de manera que el numerador nunca es mayor que el denominador y, por lo tanto, 0,0 P 1,0 . En otras palabras, las probabilidades están siempre entre un valor mínimo de 0,0 y un valor máximo de 1,0. Una probabilidad de 0,0 representa un evento que nunca sucederá, y una probabilidad de 1,0 representa un evento que siempre sucederá. Aún en este ejemplo simple, las definiciones son evasivas y no cubren todas las posibilidades. Por ejemplo, algunos insectos voladores pueden merodear por encima de la planta sin tocarla, mientras que algunos insectos rastreros pueden explorar la superficie exterior sin entrar en la hoja. Dependiendo de cuanto cuidado se tenga, estas posibilidades pudieran o no ser incluidas en el espacio muestral de observaciones que se usen para determinar la probabilidad de ser capturado. El espacio muestral establece el dominio de inferencia a partir del cual se extraen conclusiones. 1
Esta definición estadística de experimento es menos restrictiva que la definición convencional, la cual describe un grupo de sujetos manipulados (el tratamiento) y un grupo de comparación apropiado (el control). Sin embargo, muchos ecólogos usan el término experimento natural para referirse a comparaciones de réplicas que no han sido manipuladas por el investigador, pero que difieren naturalmente en la cantidad de interés (p. ej., islas con y sin predadores). 2
23 Sin embargo, éste estimado de probabilidad es aún problemático. Muchas personas dirían que la probabilidad de que mañana salga el sol es algo seguro ( P 1,0 ). Ciertamente, si se observa la salida del sol día tras día, se pudiera decir que este sale todas las mañanas, y la medición resultaría siempre en una probabilidad de 1,0. Sin embargo, el sol es una estrella que en unos 10 mil millones de años se extinguirá; si comenzamos a tomar observaciones de la salida del sol el día antes que se cumplan esos 10 mil millones de años, la próxima mañana la probabilidad será 0,0. Por lo tanto, ¿es la probabilidad de que cada mañana salga el sol 1,0?; ¿algo menos de 1,0?; ¿1,0 hoy pero 0,0 en 5 mil millones de años? Este ejemplo ilustra que cualquier estimado de probabilidad es totalmente contingente a como se defina el espacio muestral, el conjunto de todos los posibles eventos que se usa para comparar. 2.4 Estimación de probabilidades a través de muestreos En el primer experimento se observaron 3000 insectos que visitaban una planta, 30 de los cuales fueron capturados, y se calculó la probabilidad de captura como 0,01. ¿Es este número razonable, o fue el experimento conducido en un día particularmente bueno para la planta (o mal día para los insectos)? Siempre habrá variabilidad en este tipo de números; algunos días no habrá capturas y otros días se capturarán muchos. Se podría determinar con precisión la verdadera probabilidad de captura si se pudiera observar cada insecto que visite la planta cada hora del día o de la noche cada día del año. Cada vez que un insecto visite una planta se determinaría si el resultado fue una captura o si por el contrario éste escapó, y por lo tanto se actualizaría el estimado de probabilidad. Sin embargo, la vida es muy corta para hacer esto; ¿cómo se puede estimar la probabilidad de captura sin monitorear constantemente las plantas? Se puede estimar eficientemente la probabilidad de un evento tomando una muestra de la población que interesa. Por ejemplo, cada semana durante un año entero se pudieran observar 1000 insectos que visiten una planta en un día. El resultado es un conjunto de 52 muestras de 1000 ensayos cada una y el número de insectos capturados en cada muestra. Las primeras tres filas de esta base de datos se muestran en la Tabla 1 (datos hipotéticos).1 Las probabilidades de captura difieren en diferentes días, pero no mucho; parece ser que la probabilidad de que un insecto sea capturado mientras visita una planta es baja.
En esta base de datos hipotética, cada fila representa una semana diferente en la cual se recolectó una muestra. Si el muestreo se condujo una vez a la semana durante un año entero, la base de datos tendría exactamente 52 filas. La primera columna indica el número de identificación (ID), un entero único consecutivo (1 a 52) asignado a cada fila de la base de datos. La segunda columna representa la fecha de muestreo, y la tercera columna representa el número de insectos capturados por cada 1000 visitas de insectos que fueron observadas. A partir de esta base de datos, puede estimarse la probabilidad de captura para cada muestra simple dividiendo el número de insectos capturados entre 1000. Los datos de las 52 semanas pueden graficarse y resumirse en un histograma que ilustra la variabilidad entre las muestras (ver Figura 2.1). 1
24 En la Figura 2.1 se resumen concisamente los resultados de un año de estudio (recuerde que estos son datos hipotéticos) en una gráfica denominada histograma. En este histograma particular, los números sobre el eje horizontal, o eje X, indican cuantos insectos fueron capturados mientras visitaban las plantas. Los números están en un rango entre 4 y 20, debido a que en las 52 semanas hubo días cuando solamente se capturaron 4 insectos, mientras que en otros días se capturaron 20 insectos. Los números en el eje vertical, o eje Y, indican la frecuencia: el número de intentos que produjeron un resultado particular. Por ejemplo, hubo solamente un día en el cual se capturaron cuatro insectos, dos días en que se capturaron seis y cinco días en que se capturaron nueve insectos. Una forma de estimar la probabilidad de captura es calcular el promedio de todas las muestras; en otras palabras, calculamos el número promedio de capturas en cada una de las 52 muestras. En este ejemplo el número promedio de capturas por 1000 visitas es 10,3. Así, la probabilidad de ser capturado es 10,3/1000 = 0,0103; o justo uno en cien. Este valor se denomina valor esperado de la probabilidad o expectativa y se denota como E(P). Distribuciones como la mostrada en la Figura 2.1 se usan a menudo para describir los resultados de experimentos en probabilidades. 2.5 Problemas con la definición de probabilidad La mayoría de los libros de estadística definen brevemente probabilidad como se ha hecho aquí: la frecuencia con la cual ocurren eventos. Los ejemplos estándares de libros de texto son aquellos en los que se dice que una moneda perfecta tiene una probabilidad de 0,50 (50 por ciento de oportunidades) de caer cara, y 0,50 de caer sello;1 o que un dado bien construido tiene una probabilidad en seis de caer en cualquiera de los seis valores de sus seis caras (1 a 6). ¿Por qué se aceptan estos valores como las probabilidades correctas? Se aceptan estas respuestas debido a la visión que se tiene de cómo se lanzan las monedas y los dados. Por ejemplo, si se colocara una moneda sobre una mesa con una cara mirando hacia un observador y se dejara caer suavemente, todos coincidirían que la probabilidad no sería de 0,50, debido a que la probabilidad de 0,50 sólo aplica a una moneda que es lanzada al aire vigorosamente. Aún aquí, sin embargo, se debe reconocer que la probabilidad de 0,50 representa realmente un estimado basado en una cantidad muy pequeña de datos. Supongamos que tenemos un vasto arreglo de micro sensores de alta tecnología adheridos a la superficie de la moneda, los músculos En un caso curioso, una de las nuevas monedas de la denominada zona Euro pudiera no estar totalmente bien construida. La moneda Euro, introducida en 2002 por las 12 naciones pertenecientes a la Comunidad Europea de Naciones, tiene el mapa de Europa en una cara, mientras que en la otra cara cada nación tiene su propio diseño. Los estadísticos polacos Tomasz Gliszcynski y Waclaw Zawadowski lanzaron el Euro belga, el cual tiene la imagen del rostro del Rey Alberto II, 250 veces y cayó 56 por ciento de las veces (140) en una misma cara. Ellos atribuyeron este resultado a una imagen del rostro del Rey más pesada que la de la imagen de Europa estampada en la otra cara. Sin embargo, Howard Grubb, un estadístico de la Universidad de Reading (Reino Unido), indicó que 56 por ciento de sólo 250 intentos no es significativamente diferente de 50 por ciento. ¿Quién está en lo cierto? 1
25 de la mano y las paredes del salón donde se encuentra un observador. Estos sensores detectan y cuantifican la cantidad exacta de torsión en un lanzamiento, la temperatura y la turbulencia del aire del salón, las microirregularidades de la superficie de la moneda y los microremolinos de turbulencia de aire que se generan al lanzar la moneda. Si todos estos datos fueran medidos instantáneamente en una computadora ultra rápida, se pudiera desarrollar un modelo muy complejo que describiera la trayectoria de la moneda. Con toda esta información se podría predecir con mayor precisión en cual cara caería la moneda al ser lanzada. En efecto, si se tuviera una cantidad infinita de datos, tal vez no habría incertidumbre en los resultados del lanzamiento de la moneda. 1 Los intentos que se usan para estimar la probabilidad de un evento pueden no ser similares después de todo. En última instancia, cada intento representa un conjunto de condiciones completamente único; una cadena particular de causa y efecto que determina enteramente si la moneda caerá en cara o en sello. Si se pudiera duplicar perfectamente ese conjunto de condiciones, no hubiera incertidumbre en los resultados, ¡y no se necesitaría el uso de las probabilidades o la estadística para cosa alguna! Retornando a las plantas carnívoras, es obvio que los estimados de las probabilidades de captura dependerán mucho de los detalles de los intentos. Las probabilidades de captura diferirán entre plantas grandes y pequeñas, entre hormigas presas y moscas presas, y entre plantas en el sol y en la sombra. Y, en cada uno de estos grupos, pudiéramos hacer más subdivisiones basadas en detalles más finos en relación con las visitas. Nuestros estimados de probabilidades dependerán de cuan amplio o cuan estrecho limitemos los tipos de intentos que consideremos. Para resumir, cuando decimos que un evento es al azar, estocástico, probabilístico o debido a la casualidad, lo que realmente queremos decir es que sus resultados son determinados en parte por un juego complejo de procesos que no pueden ser medidos, y que preferimos tratarlos como aleatorios. Otros procesos que se pueden medir, manipular y modelar, representan fuerzas mecánicas o deterministas. 2.6 Las matemáticas de las probabilidades En esta sección se presenta un tratamiento matemático breve de cómo calcular probabilidades. Es importante entender estos detalles, debido a que la correcta interpretación de los resultados estadísticos depende de estas operaciones. 2.6.1 Definición de espacio muestral
Esta última afirmación es altamente debatible; asume que se han medido todas las variables correctas y que las interacciones entre esas variables son lo suficientemente simples como para poder estimar todas las contingencias o expresarlas en una relación matemática. La mayoría de los científicos cree que los modelos más complejos son más precisos que los más simples, pero que no es posible eliminar toda la incertidumbre. Nótese también que los modelos complejos no ayudan mucho si no se pueden medir las variables que incluyen. 1
26 Como se presentó en el ejemplo de captura de presas por plantas carnívoras, la probabilidad P de ser capturada (el resultado) mientras visitan una planta (el evento) se define simplemente como el número de capturas dividida por el número de visitas (el número de intentos). Examinemos en detalle cada uno de estos términos: resultado, evento, intento y probabilidad. Primero necesitamos definir el universo de eventos posibles, o el espacio muestral que interesa. En el primer ejemplo, un insecto podía visitar una planta y escapar o ser capturado. Estos dos posibles resultados forman el espacio muestral (o conjunto), el cual llamaremos Visita: Visita {(Captura ), ( Escape)}
Se usan llaves para denotar el conjunto y los paréntesis para denotar los eventos de un conjunto. Los objetos dentro de los paréntesis son los resultados del evento. Debido a que hay solamente dos posibles resultados como consecuencia de una visita, si la probabilidad del resultado Captura es 1 en 1000, o 0,001, entonces la probabilidad de Escape es 999 en 1000, o 0,999. Este ejemplo simple puede ser generalizado al Primer Axioma de las Probabilidades: Axioma 1: La suma de todas las probabilidades de resultados dentro de un espacio muestral simple es igual a 1,0. Se puede escribir este axioma como P ( Ai ) 1,0 , el cual se lee como la suma de las probabilidades de todos los resultados ( Ai ) es igual a 1,0. En un espacio muestral correctamente definido, se dice que los resultados son mutuamente exclusivos (un individuo es capturado o escapa), y que los resultados son exhaustivos (Captura o Escape son los únicos posibles resultados del evento). Si los eventos no son mutuamente exclusivos y exhaustivos, las probabilidades de los eventos en el espacio muestral no suman 1,0. En muchos casos existen más de dos posibles resultados de un evento. Por ejemplo, en un estudio sobre la reproducción de una oruga imaginaria se encuentra que cada uno de estos individuos produce exactamente dos camadas formadas por 2, 3 o 4 crías cada camada. El éxito reproductivo de una oruga imaginaria puede ser descrito como un resultado (a, b), donde a representa el número de descendencias en la primera camada y b el número de descendencias en la segunda camada. El espacio muestral Aptitud consiste de todos los posibles resultados reproductivos que un individuo puede lograr: Aptitud {( 2,2), ( 2,3), ( 2,4), (3,2), (3,3), (3,4), ( 4,2), ( 4,3), ( 4,4)}
Debido a que cada individuo puede producir solamente 2, 3 o 4 crías en una camada, estos nueve pares de enteros son los únicos resultados posibles. En la ausencia de cualquiera otra información, inicialmente se hace la presunción simplificada que las probabilidades de cada una de estos diferentes resultados reproductivos son iguales. Se usa la definición de probabilidad dada anteriormente ( Aciertos / Intentos ) para determinar este valor. Debido a que hay nueve posibles
27 resultados en este conjunto, P (2,2) P (2,3) P (4,4) 1 / 9 . Notemos también que estas probabilidades cumplen con lo postulado en el Axioma 1: la suma de las probabilidades de todos los resultados es 1 / 9 1 / 9 1 / 9 1 / 9 1 / 9 1 / 9 1 / 9 1 / 9 1 / 9 1,0 . 2.6.2 Eventos complejos y compartidos: combinación de probabilidades simples Una vez que se conocen las probabilidades de eventos simples, se pueden usar para medir las probabilidades de eventos más complejos. Los eventos complejos son compuestos de eventos simples en el espacio muestral; los eventos compartidos son ocurrencias simultáneas múltiples de eventos simples en el espacio muestral. Las probabilidades de eventos complejos y compartidos pueden ser descompuestas en la suma o productos de probabilidades de eventos simples. Sin embargo, puede ser difícil decidir cuando las probabilidades deben ser sumadas o multiplicadas. La respuesta se puede encontrar determinando si el nuevo evento puede ser logrado a través de una o varias diferentes vías (un evento complejo), o si requiere la ocurrencia simultánea de dos o más eventos simples (un evento compartido). Si el nuevo evento puede ocurrir vía diferentes caminos, es un evento complejo y puede ser representado como un enunciado o: Evento A o Evento B o Evento C. Así, los eventos complejos se dice que representan la unión de eventos simples. Las probabilidades de eventos complejos se determinan sumando las probabilidades de los eventos simples. En contraste, si el nuevo evento requiere la ocurrencia simultánea de varios eventos simples, entonces es un evento compartido y puede ser representado como un enunciado y: Evento A y Evento B y Evento C. Se dice, por lo tanto, que los eventos compartidos representan la intersección de eventos simples. Las probabilidades de eventos compartidos se determinan multiplicando las probabilidades. 2.6.3 Eventos complejos: suma de probabilidades El ejemplo de la oruga imaginaria puede ser usado para ilustrar el cálculo de probabilidades de eventos complejos. Supongamos que deseamos medir el resultado reproductivo durante el tiempo de vida de una oruga; contaríamos el número total de descendencias que una oruga produce durante toda su vida. Este número es la suma de las descendencias producidas en las dos camadas, lo cual resulta en un número entero entre 4 y 8, inclusive. ¿Cómo se determinaría la probabilidad de que una de las orugas imaginarias produzca 6 descendencias? Primero, notemos que el evento 6 descendencias puede ocurrir en tres formas, 6 descendencias {( 2,4), (3,3), (4,2)} , y este evento complejo en si mismo es un grupo.
28 Podemos ilustrar estos dos grupos con un Diagrama de Venn. 1 La Figura 2.2 ilustra diagramas de Venn de los grupos Aptitud y 6 descendencias. Gráficamente, se puede ver que 6 descendencias es un subgrupo propio del grupo mayor Aptitud; es decir, todos los elementos del primero son elementos del último. Indicamos que un grupo es un subgrupo de otro grupo con el símbolo , y en este caso escribimos: 6 descendencias Aptitud . Tres de los nueve posibles resultados de Aptitud dan origen a 6 descendencias, y así estimaríamos la probabilidad de tener seis descendencias como 1 / 9 1 / 9 1 / 9 3 / 9 (recordando nuestra presunción que cada uno de los resultados es igualmente probable). Este resultado puede ser generalizado al Segundo Axioma de las probabilidades: Axioma 2: La probabilidad de un evento complejo es igual a la suma de las probabilidades de los resultados que componen ese evento. Podemos ver un evento complejo como un enunciado o en un programa de A, B y C , el evento complejo es ( computadora: si los eventos simples son A o B o C ), debido a que cualquiera de estos resultados representará el evento complejo. Así, P( A o B o C ) ( P ( A) P ( B) P (C ) . Veamos otro ejemplo sencillo. Consideremos la probabilidad de sacar una carta específica de un mazo de 52 cartas bien mezcladas y que esta carta sea un as. Sabemos que hay cuatro ases en el mazo, y la probabilidad de sacar uno de ellos es 1 / 52 . Por lo tanto, la probabilidad del evento complejo de sacar uno de los cuatro ases es P (as ) 1 / 52 1 / 52 1 / 52 1 / 52 4 / 52 1 / 13 . 2.6.4 Eventos compartidos: multiplicación de probabilidades En el ejemplo de la oruga imaginaria calculamos la probabilidad que una oruga produzca seis descendencias. Este evento complejo pudiera ocurrir por cualquiera de uno o tres diferentes pares de camadas ( 2,3), (3,3), ( 4,2) , y determinamos la probabilidad de este evento complejo sumando las probabilidades simples. Calculemos ahora la probabilidad de un evento compartido, la ocurrencia simultánea de dos eventos simples. Asumimos que el número de descendencias producidas en la segunda camada es independiente del número producido en la primera. Independencia es una presunción simplificada pero crítica de muchos análisis estadísticos. Cuando decimos que dos eventos son independientes, lo que queremos decir es que el resultado de uno de ellos no afecta ni es afectado por el resultado del John Venn (1834-1923) estudió en los Colegios de Gonville y Caius en la Universidad de Cambridge, Inglaterra, en la cual se graduó en 1857. Fue ordenado sacerdote dos años más tarde y regresó a Cambridge en 1862 como profesor de Ciencia Moral. También estudió y enseño lógica y teoría de probabilidades. Es mejor conocido por los diagramas que representan grupos, sus uniones e intersecciones y que ahora llevan su nombre. Venn es recordado también por construir una maquina para lanzar bolas de cricket. 1
29 otro. Si dos eventos son independientes, la probabilidad de que ambos eventos ocurran (un evento compartido) es igual al producto de sus probabilidades individuales: P ( A B ) P ( A) xP ( B ) (si A y B son independientes). El símbolo indica la intersección de los dos eventos independientes; es decir, ambos eventos ocurriendo simultáneamente. En el ejemplo del tamaño de la camada, supongamos que un individuo puede producir 2, 3 o 4 descendencias en la primera camada, y que la probabilidad de cada uno de estos eventos es 1 / 3 . Si la misma regla se mantiene para la producción de la segunda camada, entonces la probabilidad de obtener el par de camadas ( 2,4) es igual a 1 / 3 x1 / 3 1 / 9 . Notemos que este es el mismo número al que arribamos al tratar cada uno de los diferentes pares de camadas como eventos independientes y equiprobables. 2.6.5 Cálculo de probabilidades: plantas y orugas Veamos este ejemplo sencillo que incorpora tanto eventos complejos como eventos compartidos. Imaginemos unas rocas colonizadas por poblaciones de plantas y orugas herbívoras; están presentes dos tipos de plantas, una especie que creó, a través de procesos evolutivos, químicos secundarios que la hace resistente a los herbívoros (R), y otra especie que no creó estos químicos. Supongamos que censamos un número de poblaciones de plantas y determinamos que P( R ) 0,20 ; en otras palabras, 20 por ciento de las poblaciones de plantas son resistentes a los herbívoros. El 80 por ciento restante de las poblaciones representa el complemento de este grupo. El complemento incluye todos los otros elementos del grupo, el cual podemos escribir de forma abreviada como no R . Así: P ( R ) 0,20 y P ( no R ) 1 P ( R ) 0,80 . Similarmente, supongamos que la probabilidad de que las orugas ocurran ( C ) en un parche cualquiera es 0,70: P (C ) 0,70 y P (no C ) 1 P(C ) 0,30 . A continuación se especificarán las reglas ecológicas que determinan la interacción entre las plantas y las orugas, y luego se usará la teoría de probabilidades para determinar las probabilidades de encontrar orugas o plantas, o ambos, en parches. Las reglas son simples. Primero, todas las plantas y las orugas pueden dispersarse y colonizar todos los parches de rocas. Las poblaciones de plantas pueden persistir siempre cuando las orugas están ausentes, pero cuando las orugas están presentes sólo las plantas resistentes a los herbívoros pueden persistir. Como antes, asumimos que las plantas y las orugas colonizan parches independientemente unos de otros.1 Un montón de cosas interesantes, desde el punto de vista biológico, ocurren cuando la presunción de independencia es violada. Por ejemplo, muchas especies de mariposas adultas y polillas son muy selectivas y buscan parches con plantas huéspedes apropiadas para depositar sus huevos. Consecuentemente, la ocurrencia de orugas pudiera no ser independiente de la planta huésped. En otro ejemplo, la presencia de herbívoros incrementa la presión selectiva para la evolución de huéspedes resistentes. Más aún, muchas especies de plantas tienen las denominadas defensas químicas facultativas que se hacen activas sólo en presencia de los 1
30
Consideremos primero las diferentes combinaciones de poblaciones resistentes y no resistentes que ocurren con y sin herbívoros. Estos son dos eventos simultáneos, así multiplicaremos las probabilidades para generar los cuatro posibles eventos compartidos (Tabla 2). Hay dos cosas importantes que resaltar de la Tabla 2; primero, la suma de las probabilidades resultantes de los eventos compartidos es 0,24 + 0,56 + 0,06 + 0,14 = 1,0, y estos cuatro eventos compartidos forman un grupo propio y segundo, podemos sumar algunas de estas probabilidades para definir eventos complejos nuevos y también recobrar algunas de las probabilidades simples subyacentes. Por ejemplo, ¿cuál es la probabilidad que las poblaciones de plantas sean resistentes? Esta puede ser calculada como la probabilidad de encontrar poblaciones resistentes con orugas ( P 0,14 ) más la probabilidad de encontrar poblaciones resistentes sin orugas ( P 0,06 ). La suma (0,20) ciertamente coincide con la probabilidad original de resistencia [ P ( R ) 0,20] . La independencia de los dos eventos asegura que podamos recobrar los valores originales de esta forma. Sin embargo, hemos aprendido también algo nuevo en este ejercicio. La planta desaparecerá si una población susceptible se encuentra con las orugas, y esto ocurrirá con una probabilidad de 0,56. El complemento de este evento (1 - 0,56) = 0,44 es la probabilidad de que un sitio contenga una población de plantas. En forma equivalente, la probabilidad de persistencia de la planta puede ser calculada como P ( planta presente ) 0,24 0,06 0,14 0,44 , sumando las probabilidades de las diferentes combinaciones que resultan en plantas. Así, aunque la probabilidad de resistencia es sólo 0,20, esperamos encontrar poblaciones de plantas en 44 por ciento de los parches muestreados debido a que no todas las poblaciones susceptibles son alcanzadas por las orugas. De nuevo, enfatizamos que estos cálculos son correctos sólo si los eventos de la colonización inicial son independientes. 2.6.6 Eventos complejos y compartidos: reglas para la combinación de conjuntos Muchos eventos no son independientes unos de otros, sin embargo, y necesitamos métodos para tomar en cuenta esa no independencia. Volviendo a nuestro ejemplo de la oruga imaginaria, ¿qué sucedería si el número de descendencias producidas en la segunda camada estuviera de alguna forma relacionada con el número producido en la segunda camada? Esto pudiera suceder debido a que los organismos tienen una cantidad limitada de energía disponible para producir descendencia, de forma que la energía invertida en la primera camada no está disponible para invertirla en la segunda camada. ¿Cambiaría esto nuestro estimado de la probabilidad de producir 6 descendencias? Antes que podamos responder esta pregunta, necesitamos unas herramientas más. Estas herramientas nos dicen como combinar eventos o juegos, y nos permiten calcular las probabilidades de combinaciones de eventos. herbívoros. Consecuentemente, la ocurrencia de poblaciones resistentes pudiera no ser independiente de la presencia de herbívoros.
31 Supongamos que en nuestro espacio muestral hay dos eventos identificables, cada uno de los cuales consiste de un grupo de resultados. Por ejemplo, en el espacio muestral Aptitud pudiéramos describir un evento como una oruga que produce exactamente 2 descendencias en su primera camada. Llamaremos este evento Primera camada 2, y la abreviaremos con F (no confundir con el valor F de Fisher). El segundo evento es una oruga que produce exactamente 4 descendencias en su segunda camada. Llamaremos este evento Segunda camada 4 y la abreviaremos con S , de modo que Aptitud {( 2,2), ( 2,3), ( 2,4), (3,2), (3,3), (3,4), (4,2), (4,3), (4,4)} ; F {( 2,2), ( 2,3), ( 2,4)} y S {( 2,4), (3,4), ( 4,4)} . Podemos construir dos nuevos conjuntos de F y S . El primero es el nuevo conjunto de resultados que iguala todos los resultados que están o en F o en S solamente. Indicamos este nuevo conjunto usando la notación F S , y lo llamamos la unión de estos dos conjuntos F S {( 2,2), (2,3), (2,4), (3,4), (4,4)} . Note que el resultado (2,4) ocurre tanto en F como en S , pero se cuenta una sola vez en F S . Observe también que la unión de F y S es un conjunto que contiene más elementos que los contenidos en F o en S , debido a que estos conjuntos se suman para crear la unión. El segundo nuevo conjunto iguala los resultados que están tanto en F como en S . Indicamos este conjunto con la notación F S , y lo denominamos la intersección
de los dos conjuntos, de modo que F S {(2,4)} . Note que la intersección de F y S es un conjunto que contiene menos elementos que los contenidos en F o S solamente, debido a que ahora consideramos solamente los elementos que son comunes a ambos. El diagrama de Venn en la Figura 2.3 ilustra estas operaciones de unión e intersección. Podemos construir un tercer conjunto útil considerando el conjunto F c , llamado el complemento de F , el cual es el conjunto de objetos en el espacio muestral restante (en este caso Aptitud) que no están en el conjunto F , de modo que F c {(3,2), (3,3), (3,4), (4,2), (4,3), (4,4)} . A partir de los axiomas 1 y 2, vemos que P ( F ) P ( F c ) 1,0 . En otras palabras, debido a que F y F c incluyen colectivamente todos los posibles resultados (por definición, ellos comprenden el conjunto entero), la suma de las probabilidades asociadas con ellas debe dar 1,0. Finalmente, se introduce el conjunto vacío. El conjunto vacío no contiene elementos y se denota como {Ø} . ¿Por qué es importante este conjunto? Consideremos el conjunto que consiste de la intersección de F y F c . Debido a que no tienen elementos en común, si no tuviéramos un conjunto vacío, entonces F F c sería indefinido. El conjunto vacío nos permite tener conjuntos cerrados bajo las tres operaciones permitibles: unión, intersección y complemento. Existen muchos más detalles con respecto a las probabilidades, pero considero que con esto es suficiente para el nivel que pretendemos.
32
CAPITULO 3 Estructura y comprobación de hipótesis 3.1 Introducción Una hipótesis es una explicación potencial de observaciones que se hacen del mundo externo; usualmente describen relaciones causa-efecto entre un mecanismo o proceso propuesto (la causa) y las observaciones (el efecto). Las observaciones son datos, es decir, lo que se ve o se mide en el mundo real. La meta, al efectuar un estudio científico, es entender las causas de fenómenos observables. Recolectar observaciones es recolectar medio para conseguir un fin: se acumulan diferentes tipos de observaciones y se usan para distinguir entre diferentes posibles causas. Algunos científicos y estadísticos distinguen entre observaciones hechas durante experimentos manipulativos, y las hechas durante estudios observacionales. Sin embargo, en la mayoría de los casos el tratamiento estadístico de tales datos es idéntico. La distinción se encuentra en la confianza que se pueda poner en las inferencias que se logran de estos estudios. Los experimentos manipulativos bien diseñados permiten tener confianza en las inferencias; se tiene menos confianza en datos de experimentos pobremente diseñados, o de estudios en los cuales no podemos manipular las variables directamente. Si las observaciones son el qué de la ciencia, las hipótesis son el cómo. Mientras las observaciones son tomadas del mundo real, las hipótesis no necesitan serlo. Aunque las observaciones pueden sugerir hipótesis, las hipótesis pueden también provenir de la literatura científica existente, de las predicciones de modelos teóricos y de la propia intuición y razonamiento del investigador. Sin embargo, no todas las descripciones de las relaciones causa-efecto constituyen hipótesis científicas válidas. Una hipótesis científica debe ser comprobable; en otras palabras, debería haber un grupo de observaciones o resultados experimentales que se puedan recolectar que lleven a rechazar o descartar una hipótesis de trabajo. Las hipótesis metafísicas, incluyendo las actividades de dioses omnipotentes, no califican como hipótesis científicas debido a que estas explicaciones son tomadas como fe, y no hay observaciones que pudieran hacer a un creyente rechazar estas hipótesis. Además de ser comprobable, una hipótesis científica debería generar nuevas predicciones. Estas predicciones pueden entonces ser comprobadas colectando observaciones adicionales.
33 Sin embargo, el mismo grupo de observaciones pudiera ser predicho por más de una hipótesis. Aunque las hipótesis son escogidas para explicar las observaciones iniciales, una buena hipótesis científica también debería proveer un grupo único de predicciones que no emerjan de otras explicaciones. Al enfocarse en estas predicciones únicas, se pueden recolectar más rápidamente los datos críticos que discriminarán entre las alternativas.1 3.2 Métodos científicos El método científico, basado en observaciones y predicciones, es la técnica usada para decidir entre varias hipótesis. La mayoría de los textos presentan un solo método científico, pero los científicos realmente usan varios métodos en sus trabajos. 3.2.1 Deducción e inducción La deducción y la inducción son dos modos importantes de razonamiento científico, y ambos implican la generación de inferencias a partir de datos o modelos. La deducción procede de lo general a lo particular. El siguiente grupo de enunciados provee un ejemplo de deducción clásica: 1) todas las hormigas en el tepuy Amarawai pertenecen al género Basiceros; 2) se recolectó esta hormiga particular en el tepuy Amarawai; 3) esta hormiga particular pertenece al género Basiceros. Los enunciados 1 y 2 usualmente se denominan premisa mayor y premisa menor, y el enunciado 3 se denomina conclusión. Este grupo de tres enunciados se denomina silogismo, una estructura lógica importante desarrollada por Aristóteles. Observemos que la secuencia del silogismo procede desde el caso general (todas las hormigas del tepuy Amarawai) hacia el caso particular (la hormiga particular que fue recolectada). En contraste, la Una hipótesis es una suposición educada acerca de algo que la naturaleza hace o va a hacer o por qué lo hace. Eric Rogers en su libro Physics for the inquiring mind define hipótesis como… suposiciones tentativas sencillas- buenas corazonadas- que se usan para el desarrollo de teorías o en la planificación de experimentos, y que se someten a pruebas experimentales cuando sea necesario. ¿Qué diferencia a una hipótesis científica de una especulación? Una hipótesis científica: 1) debe ser comprobable; debemos ser capaces de hacer observaciones para comprobar la hipótesis y 2) debe ser falsificable; debemos ser capaces de refutarla (probar que no es cierta). Veamos este ejemplo: Nuestro universo está rodeado por otro universo más grande, con el que no tenemos contacto alguno. Esta aseveración puede o no ser cierta, pero no es una hipótesis científica; es sólo una especulación. Esta aseveración no es comprobable; no existen observaciones que un científico pueda hacer para probar que es o no es cierta. Veamos este otro ejemplo: Existe vida en otros planetas. Esta hipótesis es comprobable; si enviamos una sonda espacial pudiéramos eventualmente encontrar evidencia de vida y comprobar la hipótesis. Pero ¿qué sucedería si la sonda nunca encuentra evidencia de vida?; eso no significa que no exista vida en otros planetas. Sólo significa que no existe evidencia conclusiva para refutar la hipótesis, y, por lo tanto, esta aseveración no es una hipótesis científica. Una buena hipótesis biológica es la especiación; esta establece que toda especie proviene de otra preexistente. Esta hipótesis es comprobable; por ejemplo, a través del estudio de fósiles. Pero, ¿es falsificable? ¿cómo se probaría que es falsa? ¿Encontrando generación espontánea? 1
34 inducción procede de lo específico hacia lo general: 1) estas 25 hormigas pertenecen al género Basiceros; 2) estas 25 hormigas fueron recolectadas en el tepuy Amarawai; 3) todas las hormigas del tepuy Amarawai pertenecen al género Basiceros. Algunos filósofos definen deducción como inferencia cierta e inducción como inferencia probable. Estas definiciones ciertamente encajan en el ejemplo de las hormigas colectadas en el tepuy Amarawai. En el primer grupo de enunciados (deducción), la conclusión debe ser lógicamente cierta si las dos primeras premisas son ciertas. Pero en el segundo caso (inducción), aunque la conclusión es probablemente cierta, pudiera ser falsa; la confianza se incrementará con el tamaño de la muestra, como es siempre el caso en la inferencia estadística. La estadística, por su propia naturaleza, es un proceso inductivo: se trata siempre de obtener generalizaciones basadas en muestras específicas y limitadas. Cualquiera pregunta científica comienza con una observación que se trata de explicar. El método inductivo toma esta observación y desarrolla una hipótesis sencilla para explicarla. Bacon mismo enfatizó la importancia de usar los datos para sugerir la hipótesis, más que confiar en la sabiduría convencional, autoridades aceptadas o teorías filosóficas abstractas. Una vez que la hipótesis es formulada, genera, a través de la deducción, mayores predicciones. Estas predicciones son entonces comprobadas colectando observaciones adicionales; la hipótesis es soportada si las nuevas observaciones confirman las predicciones, si no, la hipótesis debe ser modificada para tomar en cuenta tanto las observaciones originales como las nuevas. Este ciclo de hipótesis-predicción-observación se repite muchas veces, y después de cada ciclo la hipótesis modificada se acerca más a la verdad (Figura 3.1). El método inductivo tiene dos ventajas: 1) enfatiza la relación que existe entre datos y teoría y 2) construye y modifica explícitamente las hipótesis basadas en conocimientos previos. El método inductivo es confirmatorio en el sentido que busca datos que soporten la hipótesis, y entonces se modifica la hipótesis para concordar con los datos acumulados.1 Existen también varias desventajas con el método inductivo. Tal vez la más seria es que el método inductivo considera una sola hipótesis inicial; otras hipótesis se consideran en etapas más avanzadas, en respuesta a datos y observaciones adicionales. Si se empieza con el pie izquierdo y se comienza explorando una hipótesis incorrecta, pudiera tomar un largo tiempo obtener la respuesta correcta a través de la inducción. En algunos casos pudiera no obtenerse de El ecólogo de comunidades Robert H. MacArthur (1930-1972) una vez escribió que el grupo de investigadores interesados en convertir la ecología en una ciencia… arreglan datos ecológicos como ejemplos para comprobar las teorías propuestas, y dedican la mayor parte del tiempo en parchar las teorías para explicar tantos datos como sea posible. Esta cita caracteriza mucho el trabajo inicial en teoría de comunidades ecológicas. Posteriormente, la teoría ecológica se desarrolló como una disciplina en si misma, y algunas líneas de investigación interesantes florecieron sin referencia a datos del mundo real. Los ecólogos discuten acerca de si tan grande cuerpo de trabajo puramente teórico ha sido bueno o malo para la ecología (Pielou, 1981; Caswell, 1988). 1
35 un todo. En adición, el método inductivo pudiera estimular a algunos científicos a defender hipótesis, y tal vez adherirse a ellas, mucho después de que hayan sido descartadas o radicalmente modificadas (Loehle, 1987). Y, finalmente, el método inductivo, al menos la visión de Bacon, deriva teorías exclusivamente de observaciones empíricas. Sin embargo, muchos importantes aspectos teóricos han surgido del modelado teórico, razonamiento abstracto y simple intuición. Hipótesis importantes en todas las ciencias han emergido a menudo mucho antes que los datos críticos que se necesitaban para comprobarlas.1 3.2.2 Inducción moderna: inferencia bayesiana La hipótesis nula es el punto inicial de una investigación científica. Una hipótesis nula trata de explicar patrones en los datos en la forma más simple posible, lo cual a menudo significa que atribuye las variaciones en los datos al azar o errores de medición. Si podemos rechazar esa hipótesis nula individual, nos podemos mover hacia hipótesis más complejas.2 Debido a que el método inductivo comienza con una observación que sugiere una hipótesis, ¿cómo se genera una hipótesis nula apropiada? La inferencia bayesiana representa una versión actualizada del método inductivo. Los principios de la inferencia bayesiana pueden ser ilustrados con un ejemplo sencillo. La respuesta fotosintética de las hojas al incremento en la intensidad de la luz es un problema bien estudiado. Imaginemos un experimento en el cual se hace crecer 15 retoños de mangle, cada uno bajo una intensidad de luz diferente (expresada como densidad de flujo fotónico fotosintético o PPFD, por sus siglas en inglés, en moles de fotones por m 2 de tejido de hoja expuesto a la luz cada segundo; moles fotones m 2 s 1 ), y se mide la respuesta fotosintética de cada planta (expresada como moles de CO2 fijado por m 2 de tejido de hoja expuesto a la luz cada Por ejemplo, en 1931 el físico austriaco Wolfgang Pauli (1900-1958) predijo la existencia del neutrino, una partícula eléctricamente neutra con masa insignificante, para explicar las inconsistencias aparentes en la conservación de energía durante la decadencia radioactiva. La confirmación empírica de la existencia del neutrino no se logró hasta 1956. 1
La preferencia por hipótesis simples sobre las complejas tiene una larga historia en la ciencia. El Principio de Parsimonia de Sir William de Ockham (1290-1349) establece que… las entidades no deben ser multiplicadas más allá de lo necesario. Ockham creía que las hipótesis innecesariamente complejas eran vanas y un insulto a Dios. El Principio de Parsimonia a veces se denomina Navaja de Ockham (la navaja elimina la complejidad innecesaria). Ockham vivió una vida interesante; fue educado en Oxford y fue miembro de la Orden Franciscana. Fue acusado de herejía debido a algunos escritos presentados en su Tesis de Maestría. El cargo fue eventualmente desechado, pero cuando el Papa Juan XXII acusó a la doctrina franciscana de pobreza apostólica, Ockham fue excomulgado y huyó a Bavaria, donde murió en 1349, probablemente víctima de la peste bubónica. 2
36 segundo; moles CO2 m 2 s 1 ). Entonces graficamos los datos representando la intensidad de la luz en el eje X (la variable predictora) y la tasa fotosintética en el eje Y (la variable respuesta). En ausencia de cualquiera información acerca de la relación entre la luz y la tasa fotosintética, la hipótesis nula más simple es que no existe relación entre las dos variables (Figura 3.2). Si se dibuja una línea recta a esta hipótesis nula, la pendiente de la línea será igual a cero. Si colectamos datos y encontramos cualquiera otra relación entre la disponibilidad de luz y la tasa fotosintética, usaríamos estos datos para modificar la hipótesis siguiendo el método inductivo. Pero, ¿es realmente necesario enmarcar la hipótesis nula como si no se tuviera información alguna? Usando sólo un poco de conocimiento sobre fisiología de plantas, podemos formular una hipótesis inicial más realista. Específicamente, se espera que haya una tasa fotosintética máxima que la planta pueda lograr. Más allá de este punto, el incremento en la intensidad de la luz no logra mayores tasas fotosintéticas, ya que otros factores, tales como agua y nutrientes limitan el proceso. Sin embargo, aún si estos factores fueran provistos sin limitaciones, la tasa fotosintética llegaría a un máximo porque existe una limitación inherente a las tasas de procesos bioquímicos y la transferencia de electrones que ocurre durante la fotosíntesis. De hecho, si se sigue incrementando la intensidad de la luz, la excesiva energía lumínica pudiera dañar los tejidos de la planta y reducir la fotosíntesis. Así, la hipótesis nula es que la relación entre la tasa fotosintética y la intensidad de la luz no debería ser lineal, con una asíntota a altas intensidades de luz (ver Figura 3.2). Pudiéramos entonces usar datos reales para comprobar el grado de soporte para esta hipótesis nula más realista (Figura 3.3). Para determinar cual hipótesis nula usar, debemos preguntarnos también ¿cual es precisamente la intención del estudio? La hipótesis nula simple (ecuación lineal) es apropiada si solamente se desea establecer que existe una relación no aleatoria entre la intensidad de luz y la tasa fotosintética. La hipótesis nula expresada por la ecuación de Michaelis-Menten es apropiada si se desea comparar curvas de saturación entre especies, o comprobar modelos teóricos que hagan predicciones cuantitativas para la asíntota o la constante de saturación media. Las figuras 3.2 y 3.3 ilustran como un inductivista moderno, o estadístico bayesiano, genera una hipótesis. La aproximación bayesiana es usar conocimientos previos para generar y comprobar hipótesis. En este ejemplo, el conocimiento previo fue derivado de la fisiología de plantas y la forma esperada de la curva de saturación de luz. Sin embargo, el conocimiento previo pudiera también estar basado en la extensa literatura sobre curvas de saturación de luz. Si tuviéramos estimados empíricos de parámetros de otros estudios, pudiéramos cuantificar los estimados previos de los valores del umbral y asíntota para la saturación de luz. Estos estimados pudieran entonces ser usados para especificar la hipótesis inicial que fije el valor asintótico para los datos experimentales. El uso de conocimientos previos en esta forma es diferente de la visión de inducción de Bacon, la cual estaba basada enteramente en una experiencia individual
37 propia. En un universo baconiano, si no se hubiera estudiado plantas antes no se tendría evidencia directa sobre la relación entre la luz y la tasa fotosintética, y comenzaría con una hipótesis nula tal como la línea plana en la Figura 3.2. Este es realmente el punto inicial para el método hipotético-deductivo presentado en la siguiente sección. La interpretación baconiana estricta de inducción es la base de la crítica fundamental de la aproximación bayesiana: que el conocimiento previo usado para desarrollar el modelo inicial es arbitrario y subjetivo, y pudiera estar sesgado debido a nociones preconcebidas del investigador. Así, el método hipotético-deductivo es visto por algunos como más objetivo y, por eso, más científico. 3.2.3 Método hipotético-deductivo El método hipotético-deductivo (Figura 3.4) fue desarrollado a partir de los trabajos de Sir Isaac Newton y otros científicos del siglo XVII, y abanderado por el filósofo de la ciencia Karl Popper.1 Al igual que el método inductivo, el método hipotético-deductivo comienza con una observación inicial que se trata de explicar. Sin embargo, más que plantear una hipótesis individual y trabajar sobre ella, el método hipotético-deductivo pide proponer múltiples hipótesis de trabajo. Todas estas hipótesis explican la observación inicial, pero todas ellas hacen también predicciones adicionales que pueden ser comprobadas por más experimentos u observaciones. La meta de estas pruebas no es confirmar, sino falsificar las hipótesis. La falsificación elimina algunas de las explicaciones, y la lista es reducida a un valor más pequeño de contendientes. El ciclo de predicciones y nuevas observaciones se repite. Sin embargo, el método hipotético-deductivo nunca confirma una hipótesis; la explicación científica aceptada es la hipótesis que resiste exitosamente intentos repetidos por falsificarla. Las dos ventajas del método hipotético-deductivo son: 1) fuerza a una consideración de múltiples hipótesis de trabajo desde el comienzo y 2) resalta las diferencias predictivas claves entre ellas. En contraste con el método inductivo, las hipótesis no tienen que ser construidas a partir de los datos, sino que pueden ser desarrolladas independientemente o en paralelo con la recolección de datos. El énfasis en la falsificación tiende a producir hipótesis comprobables simples, de manera que las explicaciones parsimoniosas son consideradas en primer lugar, y los mecanismos más complicados sólo se consideran en etapas más tardías. Una de las desventajas del método hipotético-deductivo es que las hipótesis de trabajo múltiples no siempre están disponibles, particularmente en los estadios tempranos de la investigación. Aún si están disponibles múltiples hipótesis, el método no trabaja realmente al menos que la hipótesis correcta esté entre las alternativas. En El filósofo de la ciencia austriaco Karl Popper (1902-1994) fue el más articulado abanderado del método hipotético-deductivo y la falsificación como piedras angulares de la ciencia. En La lógica de los descubrimientos científicos (1935), Popper argumentó que la falsificación es un criterio más confiable de verdad que la verificación. En La sociedad abierta y sus enemigos (1945), Popper defendió la democracia y criticó las implicaciones totalitarias de la inducción y las teorías políticas de Platón y Karl Marx. 1
38 contraste, el método inductivo pudiera comenzar con una hipótesis incorrecta, pero puede llegar a la explicación correcta a través de modificaciones repetidas de la hipótesis original a través de la recolección de datos. Otra distinción útil es que el método inductivo gana fuerza al comparar muchas bases de datos para una hipótesis sencilla, mientras que el método hipotético-deductivo es mejor para comparar una base de datos sencilla para múltiples hipótesis. Finalmente, tanto el método inductivo como el hipotético-deductivo ponen énfasis en una hipótesis correcta simple, haciendo difícil evaluar casos en los cuales entran en juego factores múltiples. Este problema es menos problemático con el método inductivo debido a que se pueden incorporar explicaciones múltiples en hipótesis más complejas. Ninguno de los dos métodos es el correcto, y algunos filósofos de la ciencia dudan que alguno de esos dos escenarios describa realmente como opera la ciencia. 1 Sin embargo, los dos métodos caracterizan mucho de la ciencia en el mundo real (en oposición al mundo abstracto de la filosofía de la ciencia). La razón para invertir tiempo en estos modelos es entender sus relaciones con la comprobación estadística de una hipótesis. 3.3 Comprobación de hipótesis estadísticas 3.3.1 Hipótesis científicas vs. hipótesis estadísticas El uso de la estadística para la comprobación de hipótesis es sólo una pequeña faceta del método científico, pero consume una cantidad enorme del tiempo de los investigadores y espacio en las revistas especializadas. La estadística se usa para describir patrones en datos, y luego se usan pruebas estadísticas para decidir si estos datos soportan las predicciones postuladas por una hipótesis. Las etapas del establecimiento de las hipótesis, la articulación de sus predicciones, el diseño y ejecución válida de experimentos, y la recolección, organización y resumen de los Ninguna discusión sobre Popper y el método hipotético-deductivo estaría completa sin mencionar a su némesis filosófico, Thomas Kuhn (1922-1996). En su libro La estructura de las revoluciones científicas (1962), Kuhn objetó el entramado completo de la comprobación de hipótesis, y argumentó que éste no representaba la forma en que se hacía la ciencia. Kuhn creía que la ciencia se hacía dentro del contexto de paradigmas mayores, o entramados de investigación, y que el dominio de estos paradigmas era implícitamente adoptado por cada generación de científicos. La actividad de resolución de rompecabezas de los científicos constituye ciencia ordinaria, en la cual se concilian anomalías empíricas con el paradigma existente. Sin embargo, ningún paradigma puede abarcar todas las observaciones, y a medida que las anomalías se acumulan, el paradigma se deshace, eventualmente colapsa y ocurre una revolución científica en la cual un paradigma totalmente nuevo reemplaza el existente. Entre Popper y Kuhn se encuentra el filósofo Imre Lakatos (1922-1974), quien pensaba que los programas de investigación científica consistían de un núcleo de principios centrales que generaban un cinturón de hipótesis que hacían predicciones más específicas. Las predicciones de las hipótesis pueden ser comprobadas por el método científico, pero el núcleo no es accesible directamente (Lakatos, 1978). 1
39 datos, todas ocurren antes que se usen pruebas estadísticas. Se debe enfatizar que aceptar o rechazar una hipótesis estadística es totalmente diferente de aceptar o rechazar una hipótesis científica. La hipótesis estadística nula usualmente implica ausencia de patrón, tal como, por ejemplo, no hay diferencia entre grupos, o no hay relación entre dos variables contiguas. En contraste, la hipótesis alternativa es que existe un patrón. En otras palabras, existen diferencias entre los grupos dadas por los valores medidos, o existe una clara relación entre dos variables contiguas. Debemos preguntarnos cómo se relacionan tales patrones con la hipótesis científica que se está comprobando. Por ejemplo, supongamos que se está evaluando la hipótesis científica que el lavado de una costa rocosa provocado por las olas crea espacios vacíos al remover especies de invertebrados competitivamente dominantes. Los espacios vacíos pueden ser colonizados por especies competitivamente subordinadas, que de otra forma serían excluidas. Esta hipótesis predice que la diversidad de especies de invertebrados marinos cambiará en función del nivel de perturbación (Sousa, 1979; también conocida como la hipótesis de perturbaciones intermedias). Se recolectan datos del número de especies en superficies rocosas perturbadas y no perturbadas. Usando una prueba estadística apropiada, se encuentra que no existe diferencia en la riqueza de especies entre los dos grupos. En este caso se ha fallado en rechazar la hipótesis estadística nula, y el patrón de los datos falla en soportar una de las predicciones de la hipótesis de perturbación. Notemos, sin embargo, que la ausencia de evidencia no es evidencia de ausencia; no rechazar una hipótesis nula no es equivalente a aceptar la hipótesis nula (aunque a menudo se considera de esta forma). Veamos este segundo ejemplo en el cual el patrón estadístico es el mismo, pero la conclusión científica es diferente. La distribución libre ideal es una hipótesis que predice que los organismos se mueven entre hábitats y ajustan sus densidades de manera que tengan la misma aptitud promedio en los diferentes hábitats (Fretwell y Lucas, 1970). Una predicción comprobable de esta hipótesis es que la aptitud de los organismos en diferentes hábitats es similar, aunque la densidad de población pueda ser diferente. Supongamos que medimos la tasa de crecimiento de poblaciones de aves (un componente importante de aptitud en aves) en hábitats de bosques y campos de cultivo como una prueba de esta predicción (Gill y col., 2001). Como en el primer ejemplo, no se rechaza la hipótesis nula, de manera que no existe evidencia de que las tasas de crecimiento difieran entre los hábitats. Pero en este caso, no rechazar la hipótesis nula realmente soporta una predicción de la distribución libre ideal. Naturalmente, existen muchas observaciones y pruebas adicionales que pudieran hacerse para evaluar las hipótesis de perturbación o la de distribución libre ideal. El punto aquí es indicar que las hipótesis científicas y estadísticas son entidades distintas. En cualquier estudio debemos determinar si el rechazo o el soporte de la hipótesis estadística nula proveen evidencia positiva o negativa para la hipótesis científica. Tal determinación también influencia profundamente la forma como se concibe un estudio experimental o los protocolos de muestreos observacionales. La
40 distinción entre la hipótesis estadística nula y la hipótesis científica es tan importante que volveremos al tópico más tarde en este capítulo. 3.3.2 Significación estadística y valores de P Es casi universalmente común reportar los resultados de una prueba estadística para recalcar la importancia de los patrones que se observan en los datos que se recolectan. Una aserción típica es: los grupos control y tratamiento difirieron significativamente ( P 0,01 ). ¿Qué significa precisamente P 0,01 , y cómo se relaciona con los conceptos de probabilidad que se introdujeron anteriormente? 3.3.3 Un ejemplo hipotético: comparación de medias Un problema común en el área de las ciencias ambientales es determinar si las actividades humanas resultan en un aumento del estrés en los animales. En los vertebrados, el estrés se puede medir a través de los niveles de las hormonas glucocorticoides (GC) en el torrente sanguíneo o en las heces. Por ejemplo, se ha determinado que los lobos que no están expuestos a los carros de nieve tienen, en promedio, 872 ng GC/g, mientras que los que están expuestos tienen 1468 ng GC/g (Creel y col., 2002). Ahora, ¿cómo se decide si esta diferencia es suficientemente grande para ser atribuida a la presencia de carros de nieve? 1 Aquí es donde se puede conducir una prueba estadística convencional. Tales pruebas pueden ser muy simples (tales como la prueba tradicional t-Student), o más complejas (tales como pruebas para términos de interacción en un análisis de varianza). Pero todas estas pruebas estadísticas producen como resultado un estadístico, el cual es el resultado numérico de la prueba, y un valor de probabilidad (o valor de P ) que está asociado con el estadístico. 3.3.4 La hipótesis nula ( H 0 ) Antes que se pueda definir la probabilidad de una prueba estadística, se debe definir lo que se denomina la hipótesis nula, o H 0 . Dijimos anteriormente que los Muchas personas tratan de responder esta pregunta simplemente comparando las medias. Sin embargo, no podemos evaluar una diferencia entre medias al menos que también tengamos una idea de cuantos individuos dentro de un grupo de tratamiento difieren. Por ejemplo, si varios de los individuos en el grupo sin carros de nieve tienen niveles tan bajos como 200 ng/g y otros tienen niveles tan altos como 1544 ng/g (recordemos que el promedio es 872 ng/g); entonces, una diferencia de 600 ng/g entre los dos grupos expuestos pudiera no tener mucho significado. Por otra parte, si la mayoría de los individuos en el grupo sin carros de nieve tiene niveles de GC entre 850 y 950 ng/g, entonces una diferencia de 600 ng/g es sustancial. Se necesita conocer no solamente la diferencia entre las medias, sino la varianza de estas medias (la cantidad por la cual un individuo típico difiere de la media de su grupo). Sin conocer la varianza, no podemos decir algo acerca de si la diferencia entre las medias de dos grupos tiene algún sentido. 1
41 científicos favorecen explicaciones parsimoniosas o simples sobre las más complejas. ¿Cuál es la razón más simple para explicar la diferencia entre las medias de dos grupos? En el ejemplo del efecto de los carros de nieve sobre lobos, la explicación más simple es que las diferencias representan variación al azar entre los grupos y no reflejan ningún efecto sistemático de los carros de nieve. En otras palabras, si se dividieran los lobos en dos grupos, pero sin exponer individuos de ningún grupo al efecto de los carros de nieve, todavía se encontraría que las medias difieren entre si. Debe recordarse que es extremadamente improbable que las medias de dos muestras sean las mismas, aún si fueran muestreadas de una población más grande usando un proceso idéntico. Los niveles de GC diferirán de un individuo a otro por muchas razones que no pueden ser estudiadas o controladas en este experimento, y toda esta variación, incluyendo la variación debida a errores de medición, es lo que se denomina variación aleatoria. Se desea saber si hay evidencia de que la diferencia observada en los niveles promedios de GC de los dos grupos es mayor de lo que se esperaría, dada la variación aleatoria entre los individuos. Así, una hipótesis nula típica es que… la diferencia entre grupos no es mayor de lo que se esperaría debido a la variación aleatoria. Se denomina a esta hipótesis, hipótesis nula debido a que no opera un mecanismo o fuerza específico diferente de la variación aleatoria. 3.3.5 La hipótesis alternativa ( H a ) Una vez que se establece la hipótesis nula, se debe indicar una o más alternativas a esta hipótesis. En el ejemplo de los lobos, la hipótesis alternativa natural es que la diferencia observada en los niveles de GC de los dos grupos es demasiado grande para deberse a la variación aleatoria entre los individuos. Debemos notar que la hipótesis alternativa no es que la exposición a los carros de nieve es responsable por un incremento en los niveles de GC; la hipótesis alternativa se enfoca simplemente en el patrón que está presente en los datos. La investigación puede inferir un mecanismo a partir del patrón, pero esa inferencia es un paso separado. La prueba estadística solamente revela si el patrón es probable o improbable, dado que la hipótesis nula es cierta. La habilidad para asignar mecanismos causales a aquellos patrones estadísticos depende de la calidad del diseño experimental y las mediciones. Por ejemplo, supongamos que los lobos expuestos a los carros de nieve habían sido también perseguidos por humanos y sus perros cazadores el día anterior, mientras que los no expuestos a los carros de nieve incluían individuos de una región remota inhabitada por humanos. El análisis estadístico probablemente revelaría diferencias significativas en los niveles de GC entre los dos grupos independientemente de la exposición a los carros de nieve. Sin embargo, sería peligroso concluir que la diferencia entre las medias de los dos grupos fue causada por los carros de nieve, aunque se pueda rechazar la hipótesis nula que establece que el patrón es explicado solamente por la variación aleatoria entre los individuos. En este caso, el efecto del tratamiento se confunde (este es un aspecto importante del análisis estadístico) con otras diferencias entre los grupos control y tratamiento que están potencialmente relacionados con los
42 niveles de estrés. Como lo discutiremos más adelante, una meta importante de un buen diseño experimental es evitar los factores de confusión. Si hemos diseñado y ejecutado correctamente el experimento, pudiéramos inferir con seguridad que la diferencia entre las medias es causada por la presencia de carros de nieve. Pero, incluso aquí, no podemos especificar el mecanismo fisiológico preciso, si todo lo que hicimos fue medir los niveles de GC de individuos expuestos y no expuestos. Necesitaríamos información mucho más detallada sobre la fisiología hormonal, la química sanguínea y otros aspectos si se desea llegar a los mecanismos subyacentes.1 La estadística ayuda a establecer patrones convincentes, y de estos patrones se puede comenzar a generar inferencias o conclusiones acerca de relaciones causa-efecto. 3.3.6 El valor de P En muchos análisis estadísticos nos preguntamos si podemos rechazar la hipótesis nula de variación aleatoria entre los individuo. El valor de P es una guía para tomar tal decisión. El valor de P mide la probabilidad que las diferencias observadas, o más extremas, pudieran encontrarse si la hipótesis nula fuera cierta. Supongamos que el valor de P hallado es pequeño; entonces es improbable (la probabilidad es pequeña) que la diferencia observada pudiera haber sido obtenida si la hipótesis nula fuera cierta. En el ejemplo de los lobos y los carros de nieve, un valor de P bajo significaría que es improbable que una diferencia de 600 ng/g en los niveles de GC hubiera sido observada entre los grupos expuesto y no expuesto, si la variación entre los individuos fuera debida solamente al azar y no por un efecto consistente de los carros de nieve. Por lo tanto, con un valor de P pequeño, los resultados serían improbables dada la hipótesis nula y, por lo tanto, se rechazaría. Debido a que se tenía una sola hipótesis alternativa en el estudio, la conclusión es que los carros de nieve (o algo asociado con ellos) pudieran ser los responsables por la diferencia entre los grupos estudiados. Por otra parte, supongamos que el valor calculado de P es relativamente grande. Entonces, es probable que las diferencias observadas pudieran haber ocurrido dado que la hipótesis nula es cierta. En este ejemplo, un valor de P grande significaría que una diferencia de 600 ng/g en los niveles de GC probablemente habría sido observada entre los grupos expuesto y no expuesto, aún si los carros de nieve no tuvieran efecto y hubiera solamente variación aleatoria entre los individuos. Es decir, con un valor de P grande, los resultados observados serían probables bajo la hipótesis nula, de manera que no se tiene suficiente evidencia para rechazarla. La Aún si dilucidáramos los mecanismos fisiológicos, tendríamos preguntas en relación con el mecanismo último a nivel molecular y genético. Cada vez que se propone un mecanismo, siempre habrá procesos de niveles inferiores que no son descritos completamente y que tienen que ser tratados como una caja negra. Sin embargo, no todos los procesos a niveles superiores pueden ser explicados exitosamente a través del reduccionismo a mecanismos de niveles inferiores. 1
43 conclusión es que la diferencia en los niveles de GC entre los dos grupos puede ser mas parsimoniosamente atribuida a la variación aleatoria entre los individuos. Tengamos siempre en cuenta que cuando calculamos un valor de P , estamos viendo los datos a través de la lente de la hipótesis nula. Si los patrones en los datos son probables bajo la hipótesis nula (alto valor de P ), no se tiene razón para rechazar la hipótesis nula a favor de explicaciones más complejas. Por otra parte, si los patrones son improbables bajo la hipótesis nula (pequeño valor de P ), es más parsimonioso rechazar la hipótesis nula y concluir que algo más que la simple variación aleatoria entre los sujetos contribuye a los resultados. 3.3.7 ¿Qué determina el valor de P ? El valor de P calculado depende de tres cosas: el número de observaciones en las muestras ( n ), la diferencia entre las medias de las muestras ( X i X j ) y el nivel de variación entre los individuos ( S 2 ). Mientras más observaciones haya en una muestra, menor el valor de P , debido a que mientras más datos se tenga, más probable es que se estén estimando las verdaderas medias de las poblaciones y se pueda detectar una diferencia real entre ellas, si realmente existe. El valor de P también será menor mientras mayor sea la diferencia entre los grupos en la variable que se esté midiendo. Así, una diferencia de 10 ng/g en los niveles promedios de GC entre los grupos control y tratamiento generará un valor de P menor que una diferencia de 2 ng/g, asumiendo que todo lo demás permanece igual. Finalmente, el valor de P será menor si la varianza entre los individuos dentro de un grupo es pequeña. Mientras menos variación haya de un individuo a otro, más fácil será detectar diferencias entre grupos. En el caso extremo de que todos los niveles de GC para todos los individuos dentro del grupo de lobos expuestos a los carros de nieve fueran idénticos, y los niveles de GC para todos los individuos dentro del grupo de lobos no expuesto fueran idénticos, entonces cualquiera diferencia en las medias de los dos grupos, sin importar cuan pequeña, generaría un valor de P bajo. 3.3.8 ¿Cuándo se considera que un valor de P es suficientemente pequeño? En el ejemplo anterior se obtuvo un P 0,01 para la probabilidad de obtener la diferencia observada en los niveles de GC entre los lobos expuestos y no expuestos a los carros de nieve. Así, si la hipótesis nula fuera cierta, y hubiera solamente variación aleatoria entre los individuos, la probabilidad de encontrar una diferencia de 600 ng/g en los niveles de GC entre los grupos expuesto y no expuesto es sólo 1 en 100. Dicho de otra manera, si la hipótesis nula fuera cierta y se conduce el experimento 100 veces, usando diferentes sujetos cada vez, solamente en uno de los experimentos se esperaría ver una diferencia tan grande o más grande que la que realmente se observa. Por lo tanto, parece improbable que la hipótesis nula sea cierta, y se rechaza. Si el experimento fuera diseñado apropiadamente, se pudiera concluir con seguridad que los carros de nieve causan el incremento en los niveles de GC, aunque no se puede especificar que cosa de los carros de nieve causa esta respuesta. Por otra parte, si la probabilidad calculada fuera P 0,88 , entonces se esperaría un resultado similar
44 al que se encontró en 88 de cada 100 experimentos debido a la variación aleatoria entre los individuos; el resultado observado resultaría no ser inusual después de todo bajo la hipótesis nula, y no habría razón para rechazarla. ¿Cuál es el punto de corte preciso que se debería usar para decidir rechazar o no rechazar la hipótesis nula? Este es un criterio difícil, ya que no existe un valor crítico natural por debajo del cual se deba siempre rechazar la hipótesis nula, o por encima del cual no deba rechazarse. Sin embargo, después de muchas décadas de costumbre y tradición, y vigilante mirada de editores y revisores, el valor crítico operacional para tomar estas decisiones es 0,05. En otras palabras, si P 0,05 , lo convencional es rechazar la hipótesis nula, y si P 0,05 , la hipótesis nula no se rechaza. Cuando los científicos reportan que un resultado particular es significativo, quieren decir que rechazan la hipótesis nula con un P 0,05 .1 Una pequeña reflexión será suficiente para hacer ver que un valor crítico de 0,05 es relativamente bajo. Si usáramos esta regla en la vida diaria, nunca llevaríamos un paraguas al menos que el meteorólogo indicara que la probabilidad de lluvia es al menos 95 por ciento. Usted se mojaría más a menudo que sus amigos y vecinos. Por otra parte, si sus amigos y vecinos lo vieran llevando un paraguas, estarían completamente seguros de que lloverá. En otras palabras, asumir un valor de 0,05 como el valor estándar para rechazar una hipótesis nula es muy conservador. Se requiere que la evidencia sea muy fuerte para rechazar la hipótesis nula. Algunos investigadores se sienten infelices teniendo que usar un valor crítico arbitrario y teniendo que asumir un valor tan bajo como 0,05. Después de todo, la mayoría de nosotros llevaría un paraguas con un 90 por ciento de probabilidad de lluvia; entonces, ¿por qué no somos menos rígidos con respecto al valor estándar para rechazar la hipótesis nula? Quizá se debiera usar 0,10, o tal vez usar diferentes valores para diferentes tipos de datos y preguntas. Una justificación para el valor 0,05 es observar que los estándares científicos necesitan ser altos, de modo que los investigadores puedan tener confianza en el trabajo de otros. Si rechazáramos la hipótesis nula usando estándares más liberales, existiría un mayor riesgo de rechazar incorrectamente una hipótesis nula cierta (un error Tipo I, descrito más adelante). Si estamos tratando de construir hipótesis y teorías científicas basadas en los datos y resultados de otros, tales errores frenan el progreso científico. Al usar un valor crítico bajo podemos confiar que los patrones en los datos son realmente fuertes. Sin embargo, incluso un valor crítico bajo no es seguro en contra de un diseño experimental o estudio pobre. En tales casos, la hipótesis nula pudiera ser rechazada, pero los patrones en los datos reflejarían debilidades en los Cuando los científicos discuten resultados significativos en sus trabajos, realmente están hablando acerca de cuan confidentes están de que una hipótesis nula ha sido rechazada correctamente. Pero el público iguala significativo con importante. Esta distinción no debe causar confusión, y es una de las razones por la que los científicos pasan ratos difíciles comunicando sus ideas claramente en la prensa popular. 1
45 muestreos o manipulaciones, sin diferencias biológicas subyacentes que estemos buscando entender. Tal vez el argumento más fuerte a favor de requerir un valor crítico bajo, es que los humanos estamos predispuestos fisiológicamente a reconocer y ver patrones en nuestros datos, aún cuando no existan. Nuestro sistema sensorial está adaptado para organizar datos y observaciones en patrones útiles, generando un sesgo hacia rechazar hipótesis nulas y ver patrones donde realmente lo que hay es aleatoriedad (Sale, 1984).1 Un valor crítico bajo es un seguro ante tales posibilidades. Un valor crítico bajo también actúa como un controlador sobre la tasa de publicaciones científicas debido a que resultados no significativos son mucho menos probables de ser publicados o reportados.2 Se debe enfatizar, sin embargo, que no existe una ley que imponga un valor crítico de 0,05 para que los resultados sean declarados significativos. En muchos casos puede ser más útil reportar el valor exacto de P y dejar que los lectores decidan por si mismos cuán importantes son los resultados. Sin embargo, la realidad práctica es que los revisores y editores usualmente no le permitirán discutir los mecanismos que no sean soportados por un resultado de P 0,05 . 3.3.9 Hipótesis estadísticas vs. hipótesis científicas: controversia revivida La mayor dificultad cuando usamos valores de P resulta del fallo en distinguir hipótesis nulas de hipótesis científicas. Se debe recordar que una hipótesis científica posee un mecanismo formal para explicar patrones en los datos. En el caso de los lobos y los carros de nieve, la hipótesis científica es que los carros de nieve causan estrés en los lobos, lo cual se propone comprobar midiendo los niveles de GC. Niveles más altos de GC pueden producirse debido a cambios complejos en la fisiología que llevan a cambios en la producción de GC cuando un animal está bajo estrés. En contraste, la hipótesis nula es una aseveración con respecto a patrones en los datos, y la probabilidad de que estos patrones puedan surgir por procesos casuales, o al azar, que no están relacionados con los factores que se están estudiando explícitamente.
Una ilustración fascinante de esto, es pedirle a un amigo que dibuje 25 puntos localizados al azar en una hoja de papel. Si se compara la distribución de estos puntos con un juego de puntos colocados al azar por una computadora, a menudo se verá que los dibujados por el amigo definitivamente no se distribuyen al azar. Las personas tienen una tendencia a espaciar los puntos demasiado equitativamente en el papel, mientras que un patrón realmente al azar genera grupos y huecos aparentes. Dada esta tendencia a ver patrones en todas partes, debemos usar un valor crítico bajo para asegurarnos que no estemos engañándonos a nosotros mismos. 1
La tendencia, bien conocida, que tienen las revistas científicas de rechazar artículos con resultados no significativos, y autores que no se preocupan por tratar de publicarlos, no es algo bueno. En el método hipotético-deductivo la ciencia progresa a través de la eliminación de hipótesis alternativas, y esto puede efectuarse cuando no rechazamos una hipótesis nula. 2
46 Usamos los métodos de probabilidades cuando decidimos aceptar o rechazar la hipótesis nula; considere este proceso como un método para establecer patrones en los datos. La fortaleza de esta inferencia depende mucho de los detalles del experimento y el diseño de muestreo. En un experimento bien diseñado y replicado, que incluya controles apropiados, y en el cual los individuos han sido asignados al azar a los tratamientos, se puede tener confianza en las inferencias y la habilidad para evaluar la hipótesis científica que se esté considerando. Sin embargo, en un estudio en el cual no se ha manipulado variable alguna, sino simplemente medido diferencias entre grupos, es difícil hacer inferencias sólidas acerca de las hipótesis científicas subyacentes, incluso si se ha rechazado la hipótesis nula. 1 Se cree que el aspecto general no es el valor crítico particular que se escoja, sino si siempre se debe usar el entramado de la comprobación de hipótesis. Ciertamente, la comprobación de hipótesis es una forma útil y poderosa para responder muchas preguntas acerca de si existen o no patrones en los datos. Pero en muchos estudios el problema real pudiera no ser la comprobación de hipótesis, sino la estimación de parámetros. Por ejemplo, en el estudio sobre el estrés pudiera ser más importante determinar el rango de los niveles de GC esperados en los lobos expuestos a los carros de nieve más que simplemente establecer que los carros de nieve incrementan significativamente los niveles de GC. Se debería también establecer el nivel de confianza o certidumbre en los parámetros estimados. 3.3.10 Errores en la comprobación de hipótesis Aunque la estadística implica muchos cálculos precisos, es importante no perder de vista el hecho que es una disciplina inserta en la incertidumbre. Se trata de usar datos limitados e incompletos para hacer inferencias acerca de mecanismos subyacentes que se entienden sólo parcialmente. En realidad, la hipótesis nula es o cierta o falsa; si se tuviera la información completa y perfecta, se sabría si es cierta o falsa y no se necesitaría estadístico alguno que lo dijera. Pero se tiene solamente datos y métodos de inferencia estadística para decidir si se rechaza o no la hipótesis nula. Esto lleva a una tabla 2 x 2 interesante de posibles resultados cada vez que se comprueban hipótesis nulas (Tabla 3). Idealmente, se desearía terminar en los extremos superior izquierdo o inferior derecho de la Tabla 3. En otras palabras, cuando existe sólo variación al azar en los datos, se espera no rechazar la hipótesis nula (extremo superior izquierdo), y cuando En contraste con el ejemplo de los carros de nieve y los lobos, supongamos que se miden los niveles de GC en 10 lobos viejos y 10 lobos jóvenes seleccionados al azar. ¿Se puede tener confianza en las inferencias aquí tanto como en el experimento de los carros de nieve? ¿Por qué o por qué no? ¿Cuáles son las diferencias, si es que las hay, entre experimentos en los cuales se manipulan individuos en grupos diferentes (lobos expuestos vs.lobos no expuestos) y muestreos en los cuales se miden las variaciones entre grupos pero no se manipulan o cambian condiciones directamente para esos grupos (lobos viejos y lobos jóvenes)? 1
47 hay algo más, se espera rechazarla (extremo inferior derecho). Sin embargo, podríamos encontrarnos en alguno de los otros dos extremos, lo cual corresponde a los dos tipos de errores que se pueden cometer al tomar una decisión estadística. 3.3.10.1 Error Tipo I Si se rechaza erróneamente una hipótesis nula que es cierta, se está aseverando falsamente que algún factor más allá de la variación aleatoria está causando patrones en los datos. Este es el denominado error Tipo I y, por convención, la probabilidad de cometer un error Tipo I se denota por alfa ( ). Cuando se calcula un valor de P , se está realmente estimando . Así, se define P más precisamente como la probabilidad que se cometa un error Tipo I al rechazar erróneamente una hipótesis nula cierta. Esta definición da mayor soporte para mantener la significación estadística sólo cuando el valor de P es muy pequeño. Mientras más pequeño sea el valor de P , más confianza se tiene que no se cometerá un error Tipo I si se rechaza la hipótesis nula. En el ejemplo de los niveles de GC en lobos, el riesgo de cometer un error Tipo I al rechazar la hipótesis nula es 1 por ciento. Como se indicó antes, las publicaciones científicas usan un estándar de un máximo de 5 por ciento de riesgo de cometer un error Tipo I al rechazar la hipótesis nula. 3.3.10.2 Error Tipo II y el poder estadístico El extremo inferior izquierdo de la Tabla 3 representa un error Tipo II. En este caso el investigador no rechaza una hipótesis nula que es falsa. En otras palabras, existen diferencias sistemáticas entre los grupos comparados, pero el investigador no rechaza la hipótesis nula y concluye incorrectamente que sólo está presente variación aleatoria entre las observaciones. Por convención, la probabilidad de cometer un error Tipo II se denota por beta ( ). Un concepto relacionado con la probabilidad de cometer un error Tipo II es el poder de una prueba estadística. El poder se calcula como 1 , y es igual a la probabilidad de rechazar correctamente la hipótesis nula cuando es falsa. Se desea que las pruebas estadísticas tengan buen poder, de manera que se tenga una buena probabilidad de detectar patrones significativos en los datos cuando estén presentes. 3.3.11 ¿Cuál es la relación entre el error Tipo I y el error Tipo II? Idealmente, se desearía minimizar tanto el error Tipo I como el error Tipo II en la inferencia estadística. Sin embargo, las estrategias para reducir el error Tipo I inevitablemente aumentan el riesgo de cometer un error Tipo II, y viceversa. Por ejemplo, supongamos que se decide rechazar la hipótesis nula solamente si P 0,01 , un estándar cinco veces más bajo que el criterio convencional de P 0,05 . Aunque el riesgo de cometer un error Tipo I es mucho más bajo ahora, hay una mayor probabilidad que cuando no se rechace la hipótesis nula, se estará haciendo incorrectamente (es decir, se estará cometiendo un error Tipo II). Aunque los errores Tipo I y Tipo II están inversamente relacionados, no existe una relación matemática simple entre ellos, debido a que la probabilidad de un error Tipo II depende en parte de
48 cual sea la hipótesis alternativa, el tamaño de la muestra y lo bien que se haya diseñado el experimento o protocolo de muestreo. 3.3.12 ¿Por qué se basan las decisiones estadísticas en el error Tipo I? En contraste con la probabilidad de cometer un error Tipo I, el cual se determina con pruebas estadísticas estándares, la probabilidad de cometer un error Tipo II a menudo no se calcula ni reporta, y en muchas publicaciones científicas la probabilidad de cometer un error Tipo II ni siquiera se discute. ¿Por qué no? Para empezar, a menudo no se puede calcular la probabilidad de cometer un error Tipo II al menos que se especifiquen completamente las hipótesis alternativas. En otras palabras, si se desea determinar el riesgo de aceptar falsamente la hipótesis nula, las alternativas deben ser especificadas completamente. En contraste, calcular la probabilidad de cometer un error Tipo I no requiere ésta especificación; pero se requiere satisfacer algunas presunciones de normalidad e independencia. Usando argumentos filosóficos, algunos autores han argumentado que un error Tipo I es un problema más serio en la ciencia que un error Tipo II (Shrader-Frechette y McCoy, 1992). Un error Tipo I es un error de falsedad, en el cual se ha rechazado incorrectamente una hipótesis nula y aseverado que existe un mecanismo más complejo. En contraste, un error Tipo II es un error debido a la ignorancia. Aunque no se haya rechazado la hipótesis nula, alguien más con un mejor experimento, o más datos, pudiera hacerlo, y la ciencia progresaría a partir de ese punto. Sin embargo, en muchos problemas aplicados, tales como monitoreo ambiental o diagnóstico de enfermedades, el error Tipo II pudiera tener consecuencias más serias, debido a que las enfermedades y los efectos ambientales no serían detectados correctamente. 3.4 Más sobre hipótesis Es importante que el estudiante entienda la mayor cantidad de cosas asociadas con la formulación de hipótesis estadísticas; a veces resulta difícil que un estudiante entienda en una primera explicación muchos detalles relacionados con un tema, pero una segunda lectura, o una segunda fuente documental, lo ayuda a aclarar la situación. A continuación presento aspectos relacionados con la formulación de hipótesis desde otra perspectiva, tal vez un poco más sencilla y coloquial, con la esperanza de contribuir al mejor entendimiento del tema. 3.4.1 Hipótesis La mayoría de los estudiantes de ciencias creen que van a realizar experimentos cada vez que van a un laboratorio; sin embargo, la mayoría de las veces no lo hacen. Esto no es intrínsecamente malo; una buena forma de hacer ciencia es a través de procesos observacionales y descriptivos. Por ejemplo, el estudio de la biodiversidad usualmente sólo envuelve la identificación y descripción de una gran variedad de especímenes; sin embargo, nadie pondría en duda el valor científico de esta actividad. Para aprender sobre lo que no se conoce, o verificar una noción plausible (una
49 corazonada educada), se debe aplicar el denominado Método Científico y conducir un experimento real. No importa si el experimento ha sido efectuado miles de veces, lo que importa es que no se conozcan los resultados anticipadamente, y que se pueda encontrar de forma independiente una respuesta verificable. Antes de efectuar cualquier experimento, es buena idea plantear hipótesis. Una hipótesis es un enunciado tentativo que propone una explicación posible de un fenómeno o evento; una hipótesis útil es un enunciado comprobable que puede incluir una predicción. No debe confundirse una hipótesis con una teoría; las teorías son explicaciones generales basadas en una gran cantidad de datos. Por ejemplo, la teoría de la evolución se aplica a todos los seres vivos y está basada en una gran cantidad de datos e información (NOTA: Para la mayoría, la evolución no es una teoría sino un hecho; se usa la palabra teoría aquí sólo para fines didácticos). Sin embargo, existen muchos detalles evolutivos que no se conocen o comprenden totalmente, tales como los vacíos en los registros fósiles. 3.4.2 ¿Cuándo se usan hipótesis? La palabra clave cuando se usan hipótesis es comprobable; usualmente una hipótesis se basa en alguna observación previa, tal como cuando se nota que en noviembre, en las zonas templadas, muchos árboles cambian el color de sus hojas y las temperaturas promedios disminuyen; ¿están estos dos eventos conectados?, ¿cómo? Cualquier experimento que se realice sin el planteamiento de una hipótesis no es realmente un experimento, es sólo un ejercicio o demostración de algo que ya se sabe. 3.4.3 ¿Cómo se escriben las hipótesis? 1) El chocolate puede causar acné; 2) la sal puede afectar el crecimiento de las plantas; 3) el crecimiento bacteriano puede ser afectado por la temperatura; 4) la luz ultravioleta puede causar cáncer de piel. Todos son ejemplos de hipótesis porque usan la palabra tentativa puede. Sin embargo, sus formas no son particularmente útiles; el usar la palabra puede no sugiere cómo se comprobarán estas hipótesis. Si estos enunciados no se escriben cuidadosamente, pudieran no constituir hipótesis. Por ejemplo, si se dice… los árboles cambiarán el color de sus hojas a medida que la temperatura disminuye…, estaremos haciendo una predicción; o si se dice… la luz ultravioleta causa cáncer de piel, estaremos estableciendo una conclusión. Una forma de evitar tales errores es formalizar la escritura de las hipótesis. Estos son ejemplos de hipótesis formalizadas: 1) si el cáncer de piel está relacionado con la luz ultravioleta, entonces las personas con alta exposición a la luz ultravioleta tendrán una mayor frecuencia de cáncer de piel; 2) si el cambio en el color de las hojas está relacionado con la temperatura, entonces la exposición de las plantas a bajas temperaturas resultará en cambios en el color de las hojas. Note que estos enunciados contienen las palabras si y entonces; éstas son necesarias en una hipótesis formalizada. Sin embargo, no todos los enunciados con si/entonces son
50 hipótesis; por ejemplo… si juego a la lotería, entonces me haré rico…, esta es una simple predicción; en una hipótesis formalizada se establece una relación tentativa. Por ejemplo… si la frecuencia de ganancia está relacionada a la frecuencia de comprar boletos de lotería, entonces es seguido por una predicción de lo que sucederá si se incrementa o disminuye la frecuencia de comprar boletos de lotería. Siempre que nos preguntemos si una cosa está relacionada con otra, deberíamos ser capaces de comprobarlo. Las hipótesis formalizadas contienen dos variables; una es independiente y la otra dependiente. La variable independiente es la que el investigador controla, mientras que la dependiente es la que se observa o mide (de la cual se obtienen resultados). El valor final de una hipótesis formalizada es que nos fuerza a pensar acerca de cuales deberían ser los resultados buscados en un experimento. Una buena hipótesis proveerá indicaciones a nuestro proyecto y nos ayudará a mantenernos enfocados. Una buena hipótesis debe ser enunciada tan simple y concisa como sea posible; es crítica para nuestro proyecto y debe ser comprobable. Evitemos usar palabras como todo, nunca y algunas veces; estas palabras son demasiado vagas y amplias a la vez. Si una persona entiende claramente su proyecto, le debe ser fácil escribir una hipótesis. Si a usted se le hace muy difícil escribir una hipótesis, simplifique el tópico o área. Por ejemplo, consideremos esta pregunta… ¿pueden los peces aprender?... sería demasiado difícil comprobar si todos los peces pueden aprender; entonces si simplificamos pudiéramos preguntarnos… ¿pueden las tilapias aprender?... en este caso es mucho más sencillo efectuar un experimento y comprobar si sólo las tilapias pueden aprender. Estos son ejemplos de hipótesis que están escritas como enunciados. Este tipo de hipótesis se conoce como hipótesis de investigación; es mejor enunciarlas como hechos y luego tratar de comprobarlos: 1) la temperatura afectará el crecimiento de los cristales; 2) el hidrógeno puede ser usado como combustible; 3) los hámsteres no ven en colores. Es aceptable en algunos casos escribir las hipótesis como preguntas… 1) ¿qué causa las ilusiones ópticas?; 2) ¿cómo afecta la música el crecimiento de las plantas?; 3) ¿cuánto ácido hay en los refrescos gaseosos? El desarrollo de una buena hipótesis no es siempre un objetivo fácil, pero sin ella usted pudiera obtener datos sin valor. Tómese su tiempo para refinar sus hipótesis, de manera que pueda obtener datos pertinentes y valiosos. Recuerde, una hipótesis lo mantiene enfocado y buscando conocimientos pertinentes. Observemos las siguientes hipótesis tomadas de Heithaus y Dill (2002): H1: La distribución de delfines que forrajean será determinada principalmente por la distribución de su alimento cuando el riesgo es bajo, pero los delfines reducirán el uso de hábitats de alto riesgo, en relación a la disponibilidad de alimento, cuando el riesgo de depredación se incremente; H2: Los delfines seleccionarán los hábitats más seguros para descansar, la cual es una actividad particularmente de alto riesgo; H3: El tamaño de los grupos de delfines será mayor durante el descanso que durante la actividad forrajera; H4: Los grupos de delfines serán más pequeños en hábitats con baja disponibilidad de alimento.
51 Observe este buen ejemplo de cómo se escribe una hipótesis de investigación, combinada con objetivos… El objetivo principal de nuestro estudio fue evaluar la abundancia de peces en el sistema de lagunas de la Reserva Natural de Humacao, Puerto Rico y su relación con el hábitat para reproducción, reclutamiento y supervivencia, e identificar la disponibilidad y la distribución de presas (invertebrados y estadios de vida temprana de peces). Comprobamos la hipótesis que la estructura de hábitat y el gradiente de salinidad mediaban las diferencias en las comunidades de peces y presas a través de las lagunas… 3.4.4 Contraste de hipótesis Veamos con detalle el denominado contraste de hipótesis; esta parte es fundamental para posteriores tópicos, así que preste especial atención. Cuando una variable independiente parece tener un efecto, es muy importante establecer con absoluta precisión que el efecto se debió realmente a la variable y no a la casualidad. Por ejemplo, consideremos un experimento hipotético sobre una nueva droga antidepresiva. Diez personas que sufren de depresión fueron tratadas con la nueva droga (Grupo Experimental, que abreviaremos GE); un grupo adicional de otras 10 personas de la misma población fueron tratadas con un placebo (Grupo Control, que abreviaremos GC; placebo es un término que se refiere a una sustancia que, careciendo por si misma de acción terapéutica, produce algún efecto curativo en el enfermo, si este la recibe convencido de que esa sustancia posee realmente tal acción). Luego de 12 semanas, se mide el nivel de depresión en los 20 pacientes y se observa que el promedio para el grupo experimental fue 4 (escala especial de depresión) y para el grupo control fue 6. La pregunta más elemental es: ¿cómo se puede estar seguro que fue la droga y no la casualidad lo que causó tal resultado? Pudiera ser que, por simple casualidad, las personas que fueron asignadas al azar al GE estuvieran inicialmente algo menos deprimidas que las que se asignaron al azar al GC. O pudiera ser que, por casualidad, le sucedieran cosas más placenteras al GE que al GC durante las 12 semanas que duró el experimento. La forma en que este problema se aborda estadísticamente es calcular cuán a menudo se obtendría una diferencia tan grande o mayor que la que se obtuvo en el experimento, si el tratamiento experimental (en este caso, la droga) no hubiera tenido realmente efecto (y así la diferencia se debiera sólo a la casualidad). Si una diferencia tan larga o mayor que la obtenida en el experimento pudiera esperarse que ocurriera por casualidad frecuentemente, digamos una de cada cuatro veces, entonces la casualidad sería una explicación viable del efecto; al contrario, si tal diferencia ocurriera por casualidad sólo raras veces, entonces la casualidad no sería una explicación viable. Volviendo al estudio sobre la efectividad del antidepresivo, recordemos que el GE difirió del Grupo Control por 6 - 4 = 2 unidades de la escala. Por simplicidad, asumamos que si no hubo diferencia entre las medias, la distribución de muestreo de la diferencia entre medias sería como se muestra en la Figura 3.5.
52 En la Figura 3.5 se observa que la media de la distribución de muestreo es cero, puesto que la presunción es que no hay diferencias entre las medias de las poblaciones y, por lo tanto, la diferencia promedio entre las medias muestreadas será cero. La gráfica de la distribución de muestreo muestra que una diferencia entre dos o más medias muestreadas no es improbable aún cuando no haya diferencia entre las medias de las poblaciones. Veinte por ciento de las veces el GE sería dos o más puntos superior y 20 por ciento de las veces el GC sería dos o más puntos superior. ¿Cómo deberían interpretarse los resultados del experimento en base a este análisis? La ciencia requiere una aproximación conservadora para tomar una decisión: una conclusión se acepta por la comunidad científica si y sólo si los datos que la soportan son suficientemente fuertes para convencer a un escéptico. Ningún escéptico se convencería que la droga antidepresiva, en vez de la casualidad, causó la diferencia. El escéptico argumentaría… Puesto que las diferencias pudieran fácilmente haber sido producidas por factores casuales, ¿por qué debería yo creer en la efectividad de esta droga?; tal vez la droga sea efectiva, tal vez no. No estoy convencido… Ahora, por razones de simplicidad, asumamos que si no hubo diferencia real entre las medias, la distribución de muestreo de la diferencia entre las medias sería como se muestra en la Figura 3.6, y no como la que se muestra en la Figura 3.5. Bajo esta presunción, una diferencia de dos o más en la escala de depresión sería extremadamente infrecuente, aproximadamente una en mil veces. El escéptico seguiría argumentando que el antidepresivo no tuvo efecto, y diría… Por supuesto, las cosas que suceden de manera extremadamente infrecuente ocasionalmente suceden; esta pudiera ser una de esas veces. Sin embargo, ser escéptico no significa ser totalmente decidido a no aceptar nuevas evidencias; los datos son contundentes y estoy forzado a concluir que la droga es más efectiva que el placebo… Desde luego, existe un alto grado de subjetividad al decidir cuan improbables deben ser los resultados antes de concluir que la casualidad no es responsable por el efecto. Tradicionalmente, los investigadores han usado niveles de significación de 5 por ciento y 1 por ciento. Cuando se usa el cinco por ciento de nivel de significación, se concluye que el tratamiento experimental tiene un efecto real si la casualidad sola produjera una diferencia tan grande o mayor que la obtenida solamente 5 por ciento de las veces o menos. 3.4.5 Hipótesis nula La hipótesis nula es una hipótesis con relación a un parámetro poblacional. El propósito del contraste de hipótesis es comprobar la viabilidad de la hipótesis nula a la luz de datos experimentales. Dependiendo de los datos, la hipótesis nula será rechazada o aceptada como una posibilidad viable. Consideremos, por ejemplo, que un investigador está interesado en saber si el tiempo de respuesta a un sonido es afectado por el consumo de alcohol. La hipótesis nula es que 1 2 0 , donde 1 es el tiempo promedio de respuesta luego de consumir alcohol, mientras que 2 es el tiempo promedio de respuesta en otras condiciones. Así, la hipótesis nula se relaciona con el parámetro 1 2 y la hipótesis nula es que ese parámetro es igual a cero. La hipótesis nula es casi siempre lo contrario de lo que el investigador realmente cree; se escoge
53 para permitir que los datos probablemente espera que experimentales muestran un alcohol, entonces la hipótesis rechazada.
la contradigan. En este experimento, el investigador el alcohol tenga un efecto dañino. Si los datos efecto suficientemente grande como consecuencia del nula que indica que el alcohol no tiene efecto puede ser
Se debe enfatizar que los investigadores muy frecuentemente establecen una hipótesis con la esperanza que pueda ser desacreditada. Como un segundo ejemplo, consideremos un investigador educacional quien diseño una nueva forma de enseñar un concepto particular en ciencia, y desea comprobar experimentalmente si este nuevo método funciona mejor que el método existente. Para hacerlo, diseña un experimento para comprobar los dos métodos. Puesto que la hipótesis nula sería que no existe diferencia entre los dos métodos, el investigador buscará rechazar la hipótesis nula y concluir que el método que el desarrolló es el mejor de los dos. El símbolo H 0 se utiliza para indicar la hipótesis nula. Para el ejemplo dado, la H 0 se designaría por la siguiente notación: H 0 : 1 2 0 o por H 0 : 1 2 . La H 0 es típicamente una hipótesis de no diferencia entre las medias de las poblaciones, como en este ejemplo. Esta es la razón para el uso de la palabra nula; es decir, no hay diferencia o el valor de la diferencia es cero. A pesar de esto, existen ocasiones cuando el parámetro no se hipotetiza que es cero. Por ejemplo, es posible que la hipótesis nula sea que la diferencia entre las medias de las poblaciones sea un valor particular; por ejemplo, que el promedio de un examen sea 16. La hipótesis nula en este caso sería establecida como H 0 : 1 16 . Aunque todas las hipótesis nulas discutidas implican la comprobación de hipótesis con relación a una, dos o más medias poblacionales, las hipótesis nulas pueden implicar cualquier parámetro. Por ejemplo, un investigador que estudia la correlación entre la satisfacción en el trabajo y la actuación en este, comprobaría la hipótesis nula que la población de correlaciones ( ) es cero; simbólicamente, H 0 : 0 . Algunas posibles hipótesis son: H 0 : 0 ; H 0 : 10 ; H 0 : 1 2 0 ; H 0 : 0,5 ; H 0 : 1 2 0 ; H 0 : 1 2 3 ; H 0 : 1 2 . Cuando se usa una prueba de una cola, la hipótesis nula incluye la dirección del efecto. Una prueba de una cola para la diferencia entre medias comprueba la hipótesis nula que 1 2 0 . Si 1 2 0 , entonces la hipótesis nula sería rechazada a favor de la hipótesis alternativa 1 2 0 . 3.4.6 Pasos en el contraste de hipótesis 1) El primer paso en el contraste de hipótesis es especificar la hipótesis nula ( H 0 ) y la hipótesis alternativa ( H a o H 1 ). Si el interés del investigador es comprobar si un método cualquiera es mejor que otro, la mejor forma para plantear la hipótesis nula es que no existe diferencia entre los métodos ( H 0 : 1 2 0 o H 0 : 1 2 ); la hipótesis alternativa sería H a : 1 2 0 o H a : 1 2 . Si el interés del investigador es comprobar si dos resultados están correlacionados, la hipótesis nula más lógica sería que no existe correlación ( H 0 : 0 ); la hipótesis alternativa sería H1 : 0 ; 2) el siguiente paso es seleccionar un nivel de significación; típicamente los niveles
54 seleccionados son 0,05 y 0,01; 3) el tercer paso es calcular un estadístico análogo al del parámetro especificado por la hipótesis nula; si la hipótesis nula se definiera por el parámetro 1 2 , entonces el estadístico que se calcularía sería X 1 X 2 ; 4) el cuarto paso es calcular el valor de probabilidad (llamado el valor de P ), el cual es la probabilidad de obtener un estadístico tan diferente o más diferente, a partir del parámetro especificado en la hipótesis nula, que el estadístico presentado en una tabla. Los cálculos se hacen asumiendo que la hipótesis nula es cierta; 5) el valor de P calculado en el paso cuatro se compara con el nivel de significación escogido en el paso dos; si la probabilidad es menor o igual que el nivel de significación, entonces la hipótesis nula se rechaza; si la probabilidad es mayor que el nivel de significación, entonces la hipótesis nula no se puede rechazar. Cuando la hipótesis nula se rechaza, se dice que el resultado es estadísticamente significativo; cuando no se puede rechazar la hipótesis nula, se dice que el resultado no es estadísticamente significativo; 6) si el resultado es estadísticamente significativo, entonces la hipótesis nula se rechaza a favor de la hipótesis alternativa. Si la hipótesis nula rechazada fuera 1 2 0 , entonces la hipótesis alternativa sería 1 2 ; 7) el paso final es describir el resultado y la conclusión estadística en una forma entendible. Asegúrese de presentar el estadístico, así como también indicar si el efecto fue significativo o no. Por ejemplo, una diferencia significativa entre un grupo que recibió una droga y el grupo control (es decir, el grupo que sólo recibió el placebo) debería ser descrita de la siguiente forma: los pacientes en el grupo experimental tuvieron una media ( X 1 23 ) significativamente mayor que los pacientes en el grupo control ( X 2 17 ); t(1,8) 2,4 ; P 0,027 . La afirmación que t (1,8) 2,4 tiene que ver con la forma en que fue calculado el valor de probabilidad ( P ). Un efecto no significativo debería ser descrito como sigue: aunque los pacientes en el grupo experimental tuvieron una media ( X 1 23 ) mayor que los pacientes en el grupo control ( X 2 20 ), la diferencia entre las medias no fue estadísticamente significativa, t (1,8) 1,4 ; P 0,179 . No sería correcto aseverar que no hubo diferencia entre las medias de los dos grupos; hubo diferencia, pero no fue suficientemente grande para tener significación estadística. Asegúrese de no decir que acepta la hipótesis nula; la hipótesis nula sólo se rechaza, no se acepta (es decir, no podemos probar una hipótesis nula). Si no hubo diferencia estadísticamente significativa, se debe decir que no hubo suficiente evidencia para rechazar la hipótesis nula. 3.4.7 ¿Por qué no se acepta la hipótesis nula? Una hipótesis nula no se acepta simplemente porque no pueda ser rechazada; si no existen datos suficientes para demostrar convincentemente que la diferencia entre dos medias es diferente de cero, la no existencia de esos datos tampoco prueba que la diferencia es cero. Tales datos pudieran aún sugerir que la hipótesis nula es falsa, pero no ser suficientemente fuerte para concluir que la hipótesis es falsa. Por ejemplo, si el valor de probabilidad fuera 0,15, entonces no se estaría listo para anunciar que la hipótesis nula es falsa; sin embargo, no habría información suficiente para concluir que la hipótesis nula es verdadera. Pudiera o no ser verdadera, pero no existe suficiente
55 evidencia para rechazarla; ni aún en los casos cuando no existe suficiente evidencia para concluir que la hipótesis nula es falsa es válido concluir que la hipótesis nula es verdadera. Si la hipótesis nula es que 1 2 0 , entonces la hipótesis nula es que es exactamente cero; ningún experimento puede distinguir entre el caso de no diferencia entre las medias y una diferencia extremadamente pequeña entre las medias. Si los datos son consistentes con la hipótesis nula, son también consistentes con otras hipótesis similares. Así, si los datos no proveen una base para rechazar la hipótesis nula que 1 2 0 , entonces casi con certeza no proveerán una base para rechazar la hipótesis que 1 2 0,001 . Los datos son consistentes con ambas hipótesis. Cuando la hipótesis nula no se rechaza, entonces es legítimo concluir que los datos son consistentes con la hipótesis nula. No es legítimo concluir que los datos soportan la aceptación de la hipótesis nula, puesto que los datos son consistentes con otra hipótesis también. En algunos casos, rechazar la hipótesis nula es comparable a que un jurado halle a un acusado culpable; en ambos casos la evidencia es convincente más allá de la duda razonable. No rechazar la hipótesis nula es comparable a encontrar a un acusado no culpable; el acusado no es declarado inocente. No existe suficiente evidencia para convencerse más allá de la duda razonable. En el sistema judicial, una decisión tiene que ser tomada y el acusado deber ser dejado en libertad; en ciencia, no se debe tomar una decisión inmediatamente. Debemos realizar más experimentos. Un experimento pudiera proveer datos suficientes para rechazar la hipótesis nula, aunque ningún experimento puede demostrar que la hipótesis nula es verdadera. ¿Dónde deja esto al investigador quien desea argumentar que una variable no tiene efecto? Si la hipótesis nula no puede ser aceptada, aún en principio, entonces ¿que tipo de evidencia estadística puede ser usada para soportar la hipótesis que una variable no tiene efecto? La respuesta está en relajar un poco la afirmación y argumentar no que una variable no tiene efecto, sino que tiene un efecto no perceptible. Esto se podría hacer construyendo un intervalo de confianza alrededor del valor del parámetro. Consideremos un investigador interesado en la posible efectividad de una nueva droga psicoterapéutica; el investigador conduce un experimento y compara el grupo tratamiento con el grupo control y no consigue diferencia significativa entre ellos. Aunque el investigador no puede asegurar que la droga no tiene efecto, puede estimar el tamaño del efecto usando un intervalo de confianza. Si 1 fuera la media de la población para el grupo experimental y 2 fuera la media de la población para el grupo control, entonces el intervalo de confianza estaría sobre el parámetro 1 2 . Asumamos que el experimento midió el bienestar en una escala de 50 puntos (mayores valores representan mayor bienestar) y que la desviación estándar es 10; asumamos también que el intervalo de confianza del 99 por ciento, calculado a partir de los datos experimentales, fue 0,5 1 2 1 . Esto nos dice que podemos estar 99 por ciento seguros que la verdadera media está entre -0,5 y 1. Si fuera -0,5 entonces la droga sería, en promedio, ligeramente perjudicial; si fuera 1 entonces la droga sería, en
56 promedio, ligeramente beneficiosa. Sin embargo, ¿cuán beneficioso es un mejoramiento promedio de 1? Naturalmente, esa es una pregunta que tiene que ver con las características de la escala de medición; pero, puesto que 1 es solamente 0,10 desviaciones estándares, se puede presumir que es pequeño. El solapamiento entre dos distribuciones cuyas medias difieren por sólo 0,10 desviaciones estándares se muestra en la Figura 3.7. Aunque una de las distribuciones está ligeramente a la derecha de la otra, el solapamiento es casi completo. Así, encontrar que la máxima diferencia que puede ser esperada (basada en un intervalo de confianza de 99 por ciento) es en si misma una diferencia muy pequeña, llevaría al investigador a concluir que la droga no es efectiva; la conclusión no sería que es totalmente inefectiva, sino que su efectividad es muy limitada. 3.4.8 El significado preciso del valor de probabilidad ( P ) Existe a menudo confusión acerca del significado preciso de la probabilidad calculada en una prueba de contraste de hipótesis. Como se estableció en el paso cuatro, se asume que la hipótesis nula ( H 0 ) es cierta. La diferencia entre el estadístico calculado en la muestra y el parámetro especificado por H 0 se calcula y la probabilidad de obtener una diferencia tan grande o mayor también se calcula. Este valor de probabilidad es la probabilidad de obtener datos tan o más extremos que los datos actuales (asumiendo que H 0 es cierta), no es la probabilidad de la hipótesis nula en si misma. Así, si el valor de probabilidad es 0,05, eso no significa que la probabilidad de que la hipótesis nula sea verdad es 0,05; significa que la probabilidad de obtener datos tan diferentes o más a partir de la hipótesis nula como aquellos obtenidos en el experimento es 0,05. La forma de concluir que la hipótesis nula es falsa se escribe así: Los datos son muy improbables dado que la hipótesis nula es verdadera; esto significa que: 1) un evento muy improbable ocurrió o 2) que la hipótesis nula es falsa. La inferencia que usualmente se hace es que la hipótesis nula es falsa. Para ilustrar que la probabilidad no es la probabilidad de la hipótesis, consideremos una prueba para verificar si es probable que una persona que dice predecir si una moneda cae sello o cara sea cierta. La hipótesis nula es que la persona puede predecir correctamente la mitad de las veces ( H 0 : 0,5 ). En la prueba se lanza 20 veces una moneda y la persona acierta en 11 oportunidades; si la persona no tiene una habilidad especial ( H 0 es verdadera), entonces la probabilidad de estar en lo cierto 11 o más de cada 20 veces es 0,41. ¿Creería alguien quien fuera escéptico que hay sólo 0,41 oportunidades que la hipótesis nula es verdadera? El escéptico casi seguramente no lo creería porque pensó que la hipótesis nula tenía una probabilidad muy alta de ser verdadera (tal vez una probabilidad tan alta como 0,99). No hay razón lógica para que el escéptico disminuya su creencia en la validez de la hipótesis nula puesto que el resultado fue perfectamente consistente con la hipótesis nula. La correcta interpretación de la prueba es esta: Una persona hizo una aseveración extraordinaria y debería proveer evidencia suficiente para soportar su aseveración si quiere que le creamos. La prueba arrojó datos consistentes con la hipótesis nula que la persona no
57 tiene habilidades especiales, puesto que una persona normal sería capaz de predecir tan bien o mejor que el 40 por ciento de las veces. Por lo tanto, no hay razones suficientes para creer tal aseveración; sin embargo, los datos no prueban que la persona no pueda predecir mejor que 40 por ciento, simplemente no proveyó evidencia de eso. 3.4.9 ¿A que nivel se rechaza H 0 realmente? De acuerdo a los pasos del contraste de hipótesis, el nivel de significación debe ser especificado antes de hacer cualquier análisis; luego, cuando se calcula la probabilidad ( P ) a través de una prueba estadística, se compara con el nivel de significación. La hipótesis nula se rechaza si P es igual o menor que el nivel de significación; no se rechaza si P es mayor que el nivel de significación. El nivel al cual P está por encima o por debajo del nivel de significación no importa; la hipótesis nula se rechaza o no se rechaza al nivel de significación previamente establecido. Así, si un investigador originalmente estableció que su nivel de significación era 0,05 y el valor de P calculado fue 0,042, entonces el investigador rechazaría la hipótesis nula al nivel de 0,05. Si P hubiera sido 0,0001 en vez de 0,042, entonces la hipótesis nula sería rechazada al nivel de 0,05; el investigador no tendría ninguna base para tener mayor confianza que la hipótesis nula era falsa con un P de 0,0001 que con un P de 0,042. Similarmente, si P hubiera sido 0,05, entonces el investigador no podría rechazar la hipótesis nula. El investigador no tendría base para mayores dudas acerca de la validez de la hipótesis nula si P hubiera sido 0,482; la conclusión sería que la hipótesis nula no podría ser rechazada al nivel de significación de 0,05. En conclusión, la idea es especificar el nivel de significación previamente, y usar P sólo para determinar si la hipótesis puede o no ser rechazada al nivel de significación establecido. Muchos estadísticos e investigadores encuentran esta forma de contrastar hipótesis no solamente demasiada rígida, sino también básicamente ilógica. ¿Quién en su sano juicio no confiaría más en que una hipótesis nula es falsa con un P 0,0001 que con un P 0,042 ? Mientras menos probables sean los resultados obtenidos bajo la hipótesis nula, más confianza habrá que la hipótesis nula es falsa. La hipótesis nula no debería ser rechazada definitivamente; la posibilidad de que sea rechazada equivocadamente está siempre presente, y mientras menor sea el valor de P , menor es esta posibilidad. De acuerdo a esta visión, los reportes de los investigadores no deberían contener los valores de P , sólo la información de si los valores fueron significativos o no. Es mucho más razonable reportar los valores de P ; de esa forma el lector puede sacar sus propias conclusiones acerca de si la hipótesis nula es falsa.
3.4.10 La estadística y el significado práctico Es importante no confundir la confianza con la cual la hipótesis nula puede ser rechazada con el tamaño del efecto. Para explicar esto concretamente, consideremos un investigador que desea determinar si el monitor que utiliza una agencia de viajes
58 para hacer reservaciones debería ser en color o en blanco en negro; debido a que los monitores a color son mucho más costosos, la única justificación sería que estos fueran más rápidos en al menos 10 segundos por transacción. Para comprobar esto, se estudiaron 50 clientes con monitores a color y 50 clientes con monitores en blanco y negro. Los resultados demostraron que los clientes que usaron un monitor a color hicieron sus reservaciones ligeramente más rápido ( X color 504,7 segundos) que los que usaron un monitor en blanco y negro ( X blanconegro 508,2 segundos). Aunque la diferencia fue aparentemente pequeña, hubo diferencia estadística significativa a un nivel de significación de 0,05. En la Figura 3.8 se muestran diagramas de cajas de los datos obtenidos. El intervalo de confianza del 95 por ciento para la diferencia entre las medias fue 7,0 color blanconegro 0,1 , lo cual significa que el investigador tiene el 95 por ciento de confianza que el monitor a color es entre 7,0 y 1,0 segundos más rápido. Claramente, la diferencia no es suficientemente grande para justificar los monitores a color más costosos; aún el límite superior del intervalo de confianza (7,0 segundos) está por debajo del mínimo necesario para justificar el costo (10 segundos). Por lo tanto, el investigador se puede sentir confiado en recomendar los monitores en blanco y negro. El hecho que los monitores a color fueran significativamente más rápidos no significa que hayan sido mucho más rápidos; sólo significa que el investigador puede rechazar la hipótesis nula que no hay diferencia entre los monitores. El investigador presentó esta conclusión a los dueños de la empresa, pero estos no la aceptaron. La imagen de los monitores a color era tan deslumbrante, que a pesar del análisis estadístico no podían creer que este no disminuyera el tiempo de las transacciones al menos 10 segundos. El investigador decidió efectuar el experimento nuevamente, pero esta vez usando 100 clientes por cada tipo de monitor. Los resultados del segundo experimento fueron muy similares a los del primero. Los clientes fueron ligeramente más rápidos haciendo reservaciones en un monitor a color ( X color 504,7 segundos) que en un monitor en blanco y negro ( X blanco negro 508,1 segundos). Esta vez la diferencia fue significativa al nivel de 0,01 más que al nivel de 0,05 encontrado en el primer experimento. A pesar del hecho que el tamaño de la diferencia entre las dos medias no fue mayor, la diferencia fue más significativa debido al mayor tamaño de muestra usado. Si la diferencia real (la diferencia obtenida midiendo todos los individuos de la población) es cero, entonces una diferencia de 3,4 o mayor para una muestra (una fracción de la población) con un tamaño de muestra de 100 es menos probable que una diferencia de 3,5 o mayor para una muestra de tamaño 50. El intervalo de confianza del 95 por ciento para la diferencia entre las medias es y el intervalo de confianza de 99 por ciento es 6,6 color blanconegro 0,1 . Por lo tanto, a pesar del hallazgo de una diferencia más significativa entre las medias, el investigador puede estar más seguro ahora que los monitores a color son sólo ligeramente mejores que los monitores en blanco y negro. El segundo experimento muestra concluyentemente que la diferencia es menor a 10 segundos. Este ejemplo permite ilustrar lo siguiente: 1) un efecto que es estadísticamente significativo no es necesariamente suficientemente grande para tener 5,8 color blanconegro 0,9 ,
59 significado práctico; 2) el menor de los dos efectos puede ser más significativo que el mayor. Tenga cuidado en cómo interpreta resultados que se reportan en los medios de comunicación. Si usted lee que una dieta particular disminuyó el colesterol significativamente, esto no necesariamente significa que la dieta disminuyó el colesterol lo suficiente para tener valor dietético. Significa que el efecto de la dieta sobre el colesterol en la población es mayor que cero.
CAPÍTULO 4 Diseño de estudios de campo exitosos 4.1 Introducción
60 El análisis apropiado de los datos va de la mano con un diseño de muestreo apropiado. Si hay errores o problemas serios en el diseño del estudio o en la colecta de los datos, raramente es posible corregir estos problemas después de ser cometidos. En contraste, si el estudio se diseña y ejecuta apropiadamente, a menudo pueden analizarse los datos de diferentes formas para responder diferentes preguntas. En este capítulo se discuten los aspectos que deben tomarse en cuenta cuando se diseña un estudio ecológico. Es importante recalcar que se debe pensar en estos aspectos antes que comience la colecta de datos. 4.2 ¿Cuál es el interés del estudio? Aunque pudiera parecer descabellado, y la respuesta obvia, muchos estudios se inician sin una respuesta clara a esta pregunta fundamental. La mayoría de las respuestas que alguien pudiera dar a esta pregunta habitualmente toman la forma de una pregunta más enfocada. 4.2.1 ¿Existen diferencias espaciales o temporales en la Variable Y? Esta es la pregunta más común que nos hacemos cuando tenemos datos de muestreos, y representa el punto de inicio de muchos estudios ecológicos. Los métodos estadísticos estándares, tales como el análisis de la varianza (ANOVA) y el análisis de regresión, son bastante adecuados para responder esta pregunta. Más aún, la comprobación y rechazo convencional de una hipótesis nula simple produce una respuesta dicotómica si/no a esta pregunta. Es difícil discutir los mecanismos sin que tengamos algún sentido de los patrones espaciales o temporales en los datos. Entender las fuerzas que controlan la diversidad biológica, por ejemplo, requiere como mínimo un mapa espacial de la riqueza de especies. El diseño e implementación de un muestreo ecológico exitoso requiere gran esfuerzo y cuidado, tanto como los que se requieren para un estudio experimental exitoso. En algunos casos el muestreo abarcará todas las metas de la investigación, en otros casos será el primer paso en un proyecto de investigación. Una vez que se han documentado los patrones temporales y espaciales en los datos, se efectúan experimentos o se recolectan datos adicionales para determinar los mecanismos responsables de esos patrones. 4.2.2 ¿Cuál es el efecto del Factor X sobre la Variable Y? Esta es la pregunta que se responde directamente con un experimento manipulativo. En un experimento de campo o de laboratorio, el investigador establece diferentes niveles del Factor X y mide la respuesta de la Variable Y. Si el diseño experimental y el análisis estadístico son apropiados, el valor de P resultante puede ser usado para comprobar la hipótesis nula de no efecto del Factor X. Resultados estadísticamente significativos sugieren que el Factor X influencia la Variable Y, y que la señal del Factor X es suficientemente fuerte para ser detectado por encima del ruido causado por otras fuentes de variación natural. 1 Ciertos experimentos naturales pueden Aunque los experimentos manipulativas permiten inferencias fuertes, pudieran no revelar mecanismos explícitos. Muchos experimentos ecológicos son simplemente 1
61 ser analizados en la misma forma aprovechando las ventajas de la variación natural que existe en el Factor X. Sin embargo, las inferencias resultantes usualmente son débiles debido a que hay menos control sobre las variables que causan confusión. Se discutirán experimentos naturales con más detalle más adelante. 4.2.3 ¿Son la mediciones de la Variable Y consistentes con las predicciones de la Hipótesis H? Esta pregunta representa la clásica confrontación entre teoría y datos (Hilborn y Mangel, 1997). En el capítulo anterior se discutieron dos estrategias que se usan en esta confrontación: la perspectiva inductiva, en la cual una hipótesis individual se modifica constantemente para adaptarla a los datos acumulados, y la perspectiva hipotético-deductiva, en la cual las hipótesis son falsificadas y desechadas si no predicen los datos. Podemos usar datos de estudios experimentales u observacionales para preguntarnos si las observaciones son consistentes con las predicciones de una hipótesis. Desafortunadamente, los ecólogos no siempre establecen esta pregunta de manera simple. Dos limitaciones son: 1) muchas hipótesis ecológicas no generan predicciones falsificables simples y 2) aún cuando una hipótesis genere predicciones, rara vez estas son únicas. Por lo tanto, pudiera no ser posible comprobar la Hipótesis H definitivamente usando solamente los valores obtenidos de la Variable Y. 4.2.4 Usando los valores de la Variable Y, ¿cuál es el mejor estimado del Parámetro θ en el Modelo Z? Los modelos estadísticos y matemáticos son herramientas poderosas en ecología y las ciencias ambientales. Estos permiten predecir cómo cambiarán las poblaciones y comunidades a través del tiempo, o responder a las alteraciones de las condiciones ambientales. Los modelos pueden también ayudar a entender cómo diferentes mecanismos ecológicos interactúan simultáneamente para controlar la estructura de las poblaciones y comunidades (Caswell, 1988). Se requiere la estimación de parámetros para construir modelos de predicción. Rara vez existe una correspondencia uno-a-uno entre el valor de la Variable Y medido en el campo y el valor del Parámetro θ en el modelo. En su lugar, esos parámetros tienen que ser extraídos y estimados indirectamente de los datos. Desafortunadamente, algunos de los diseños más comunes y tradicionales usados en experimentos ecológicos y muestreos de campo, tales como el ANOVA, no son muy útiles para estimar los parámetros de los modelos. 4.3 Experimentos manipulativos En un experimento manipulativo el investigador, en primer lugar, altera los niveles de la variable predictora (o factor), y luego mide cómo una variable, o varias cajas negras que miden la respuesta de la Variable Y ante cambios en el Factor X, pero no dilucidan mecanismos de bajo nivel que causan tales respuestas. Entender tales mecanismos pudiera requerir observaciones o experimentos adicionales enfocados a responder preguntas más precisas acerca del proceso.}
62 variables de interés, responde a estas alteraciones. Estos resultados son usados entonces para comprobar hipótesis de causa y efecto. Por ejemplo, si estamos interesados en comprobar la hipótesis que la depredación por lagartijas controla la densidad de arañas en islas pequeñas del Caribe, podríamos alterar la densidad de lagartijas en una serie de microcosmos y medir la densidad de arañas resultante. Podríamos entonces representar estos datos en una gráfica en la cual el eje X (variable independiente) es la densidad de lagartijas, y el eje Y (variable dependiente) es la densidad de arañas (Figura 4.1 A, B). La hipótesis nula es que no existe relación entre estas dos variables; es decir, la densidad de arañas pudiera ser alta o baja en un microcosmo particular, pero no estar relacionada con la densidad de lagartijas que fueron establecidas en los microcosmos. Alternativamente, pudiéramos observar una relación negativa entre la densidad de arañas y lagartijas: microcosmos con la mayor densidad de lagartijas tienen la menor densidad de arañas, y viceversa (Figura 4.1 B). Este patrón tendría entonces que estar sujeto a un análisis estadístico para determinar si la evidencia es suficiente para rechazar la hipótesis nula que establece que no hay relación entre las dos densidades. Aunque los experimentos de campo son populares y poderosos, tienen varias limitaciones importantes. En primer lugar, es difícil conducir experimentos a escalas espaciales grandes; más del 80 por ciento de los experimentos de campo han sido conducidos en parcelas de menos de 1 m 2 (Kareiva y Anderson, 1988; Wiens, 1989). Cuando se conducen experimentos a escalas espaciales grandes, inevitablemente se sacrifica la replicación (Carpenter, 1989). Incluso, cuando los experimentos a escalas espaciales pequeñas se replican apropiadamente, pudieran no rendir resultados que sean representativos de patrones y procesos que ocurren a escalas espaciales mayores (Englund y Cooper, 2003). En segundo lugar, los experimentos de campo a menudo se restringen a organismos de cuerpo pequeño y vida corta que son fáciles de manipular. Aunque siempre se desea generalizar los resultados de los experimentos a otros sistemas, es improbable que la interacción entre lagartijas y arañas diga mucho acerca de la interacción entre leones y cebras. En tercer lugar, es difícil cambiar una y sólo una variable a la vez en un experimento manipulativo. Por ejemplo, si se usan cajas, estas pueden excluir otros tipos de predadores y presas y provocar sombra. Si no se comparan con cuidado las densidades de arañas en cajas con las densidades de arañas no restringidas a cajas (controles), los efectos de la depredación por lagartijas se confunden con otras diferencias físicas entre los tratamientos. Se discutirán soluciones a problemas de confusión más adelante. Finalmente, muchos diseños experimentales estándares son realmente inaplicables a experimentos de campo. Por ejemplo, supongamos que estamos interesados en investigar interacciones competitivas en un grupo de ocho especies de arañas. Cada tratamiento en tal experimento consistiría de una combinación única de especies. Aunque el número de especies en cada tratamiento oscila entre uno y ocho, el número de combinaciones únicas es 2 8 - 1 = 255. Si deseamos establecer al menos 10 réplicas de cada tratamiento, necesitaríamos 2550 parcelas. Eso pudiera no ser
63 posible debido a limitaciones de espacio, tiempo o personal. Debido a todas estas limitaciones potenciales, muchas preguntas importantes en ecología de comunidades no pueden ser respondidas con experimentos de campo. 4.4 Experimentos naturales Un experimento natural no es realmente un experimento (Cody, 1974). Es realmente un estudio observacional en el cual se toma ventaja de la variación natural que está presente en la variable de interés. Por ejemplo, más que manipular densidades de lagartijas directamente (una misión difícil, costosa y que toma bastante tiempo), podríamos muestrear un juego de parcelas que varíen naturalmente en sus densidades de lagartijas. Idealmente, estas parcelas variarían solamente en la densidad de lagartijas, y serían idénticas en todas las otras características. Podríamos luego analizar la relación entre la densidad de arañas y la densidad de lagartijas como se ilustra en la Figura 4.1 A, B. Los experimentos manipulativos y naturales generan casi el mismo tipo de datos, y se analizan a menudo con los mismos tipos de estadísticos. Sin embargo, a menudo existen diferencias importantes en la interpretación de estos experimentos. Si hemos establecido controles válidos y mantenido las mismas condiciones ambientales entre las réplicas, en un experimento manipulativo las diferencias consistentes en la variable respuesta (en este caso la densidad de arañas) pueden ser atribuidas con seguridad a las diferencias en el factor manipulado (en este caso la densidad de lagartijas). No contamos con la misma seguridad en la interpretación de experimentos naturales. En un experimento natural no conocemos la dirección de la relación causaefecto, y no tenemos control sobre otras variables que seguramente diferirán entre las réplicas. Para el ejemplo de lagartijas y arañas, existen al menos cuatro hipótesis que pudieran explicar la asociación negativa entre las densidades de lagartijas y arañas: 1) las lagartijas pudieran controlar la densidad de arañas (esta fue la hipótesis alternativa de interés en el experimento de campo original); 2) las arañas pudieran controlar directa o indirectamente la densidad de lagartijas. Supongamos, por ejemplo, que las grandes arañas cazadoras consumen lagartijas pequeñas, o que las arañas son también depredadas por aves que se alimentan de lagartijas. En ambos casos, el incremento en la densidad de arañas pudiera disminuir la densidad de lagartijas, aunque las lagartijas depreden arañas; 3) tanto la densidad de arañas como la densidad de lagartijas son controladas por un factor ambiental no medido. Por ejemplo, supongamos que las densidades de arañas son más altas en parcelas húmedas, y que las densidades de lagartijas sean más altas en parcelas secas. Incluso si las lagartijas tienen poco efecto sobre las arañas, emergerá el patrón presentado en la Figura 4.1 B: las parcelas húmedas tendrán muchas arañas y pocas lagartijas, y las parcelas secas tendrán muchas lagartijas y pocas arañas; 4) algunos factores ambientales pudieran controlar la fuerza de la interacción entre lagartijas y arañas. Por ejemplo, las lagartijas pudieran ser predadoras eficientes de arañas en parcelas secas, pero ineficientes en
64 parcelas húmedas. En tales casos, la densidad de arañas dependerá tanto de la densidad de lagartijas como de los niveles de humedad en las parcelas. Estos cuatro escenarios son solamente los más simples que pudieran llevar a una relación negativa entre la densidad de lagartijas y la densidad de arañas (Figura 4.2). Si se añaden flechas de doble sentido a estos diagramas (las lagartijas y las arañas afectan sus densidades recíprocamente), existe un grupo aún mayor de hipótesis que pudieran explicar las relaciones esperadas entre la densidad de arañas y la densidad de lagartijas. Sin embargo, todo esto no significa que los experimentos naturales no tengan sentido. En muchos casos se pueden recolectar datos adicionales para distinguir entre estas hipótesis. Por ejemplo, si se sospecha que alguna variable ambiental, tal como humedad, es importante, se podría restringir el muestreo a un juego de parcelas con niveles de humedad comparables o, mejor aún, medir la densidad de lagartijas, la densidad de arañas y los niveles de humedad en una serie de parcelas muestreadas a lo largo de un gradiente de humedad. Los denominados factores de confusión y algunos mecanismos alternativos también pueden ser problemáticos en experimentos de campo. Sin embargo, los efectos se reducirían si el investigador conduce el experimento a escalas temporal y espacial apropiadas, establece controles apropiados, replica adecuadamente y coloca las réplicas y asigna los tratamientos en forma aleatoria. En general, los experimentos manipulativos permiten mayor confiabilidad con respecto a las inferencias causa-efecto, pero están limitados a escalas espaciales y temporales pequeñas. Los experimentos naturales pueden ser conducidos a cualquiera escala espacial (desde pequeñas parcelas hasta continentes enteros) o temporal. Sin embargo, es más difícil discernir relaciones causa-efecto en experimentos naturales. 1 4.5 Experimentos instantáneos vs. experimentos de trayectoria
En algunos casos, la distinción entre experimentos de campo manipulativos y naturales no es fácil. Las actividades humanas han generado muchos experimentos a gran escala, incluyendo eutrofización, alteración de hábitat, cambio climático global y la introducción y remoción de especies. Ecólogos con mucha imaginación pueden tomar ventajas de estas alteraciones para diseñar estudios en los cuales la confiabilidad en las conclusiones es muy alta. Por ejemplo, Knapp y col. (2001) estudiaron los efectos de la introducción de truchas en algunos lagos en la Sierra Nevada de los estados de California y Nevada (Estados Unidos de Norteamérica), comparando las comunidades de invertebrados en lagos que no poseían peces de forma natural, lagos en los cuales se introdujeron peces y lagos en los que se habían introducido peces tiempo atrás. Muchas comparaciones de este tipo son posibles para documentar las consecuencias de las actividades humanas. Sin embargo, a medida que los efectos humanos se expanden y se hacen más perjudiciales, pudiera ser cada vez más difícil encontrar sitios que puedan ser considerados controles no manipulados. 1
65 Los experimentos instantáneos y los experimentos de trayectoria son dos variantes de los experimentos naturales (Diamond, 1986). Los experimentos instantáneos son experimentos replicados espacialmente, mientras que los experimentos de trayectoria son replicados temporalmente. En los datos presentados en la Figura 4.1 se supone que se han censado 10 diferentes parcelas en un solo día. Este es un experimento instantáneo en el cual la replicación es espacial; cada observación representa una parcela diferente muestreada al mismo tiempo. Por otra parte, supongamos que se visita una misma parcela durante 10 años diferentes. Este es un experimento de trayectoria en el cual la replicación es temporal; cada observación representa un año diferente en el estudio. Las ventajas de un experimento instantáneo son que son rápidos y las réplicas espaciales son (aunque se debate acerca de esto) estadísticamente más independientes que las réplicas temporales de un experimento de trayectoria. La mayoría de los conjuntos de datos ecológicos son obtenidos de experimentos instantáneos que reflejan los 3 o 5 años de estudio de la mayoría de los financiamientos científicos y disertaciones de doctorado. 1 En efecto, muchos estudios de cambio temporal son realmente estudios instantáneos, debido a que la variación espacial se trata como una variable sustitutiva de la variación en el tiempo. Por ejemplo, los cambios sucesionales en las comunidades de plantas pueden estudiarse muestreando a través de una cronosecuencia (un juego de observaciones, sitios o hábitats a lo largo de un gradiente espacial que difieren en el tiempo de inicio; p. ej., Law y col., 2003). La ventaja de un experimento de trayectoria es que revela cómo cambian los sistemas ecológicos a través del tiempo. Muchos modelos ecológicos y ambientales describen precisamente este tipo de cambio, y los experimentos de trayectoria permiten comparaciones más fuertes entre las predicciones del modelo y los datos de campo. Más aún, muchos modelos para la predicción ambiental y la conservación se diseñan para predecir condiciones futuras, y los datos para estos modelos se derivan con mayor confianza a través de experimentos de trayectoria. Muchos de los juegos de datos más valiosos en ecología, son datos de series de tiempo para los cuales las poblaciones y comunidades en un sitio se muestrean año tras año con métodos consistentes estandarizados. Sin embargo, los experimentos de trayectoria que están restringidos a un solo sitio no son replicados espacialmente. No se sabe si las trayectorias temporales descritas en un sitio son típicas para lo que pudiera encontrarse en otro sitio. 4.6 El problema de la dependencia temporal
Una excepción notable a este tipo de experimentos ecológicos lo constituye el grupo de estudios coordinados desarrollados en los denominados sitios Long Term Ecological Research (LTER). La Fundación Nacional para la Ciencia (NSF, por sus siglas en inglés) de los Estados Unidos de Norteamérica financió estos programas en las décadas de 1980 y 1990, específicamente para cubrir la necesidad de estudios ecológicos que duraran desde décadas hasta siglos. 1
66 Un problema más difícil asociado con los experimentos de trayectoria, es la potencial no independencia de los datos colectados en una secuencia temporal. Por ejemplo, supongamos que se miden los diámetros de tres apamates cada mes durante un año en una parcela de bosque. Los apamates crecen muy lentamente, de modo que las mediciones de un mes a otro serán muy semejantes. La mayoría de los silvicultores dirán que en este caso no se tienen 12 datos independientes, sino sólo uno (el diámetro promedio para ese año). Por otra parte, las mediciones mensuales de una comunidad zooplanctónica de agua continental pudieran ser vistas razonablemente como estadísticamente independientes. Naturalmente, mientras más separadas estén las muestras temporalmente, más independientes pueden ser consideradas. Pero, aún si se usa el intervalo de muestreo correcto, existe aún un problema sutil con respecto a como debería modelarse el cambio temporal. Por ejemplo, supongamos que estamos tratando de modelar cambios en el tamaño de la población de una planta desértica anual para la cual tenemos acceso a datos de un experimento de trayectoria con 100 años de muestreos anuales consecutivos. Podemos fijar un modelo de regresión lineal estándar a la serie de tiempo, de modo que N t 0 i t . En esta ecuación el tamaño de la población ( N t ) es una función lineal de la cantidad de tiempo ( t ) que ha transcurrido. Los coeficientes 0 y 1 son la intercepción y la pendiente de esta línea recta. Si 1 0 , la población se reduce con el tiempo, y si 1 0 entonces N crece. Aquí es un ruido blanco1 (error) distribuido normalmente, que incorpora tanto los errores de medición como la variación aleatoria en el tamaño de la población. Sin embargo, este modelo no toma en cuenta que el tamaño de la población cambia con los nacimientos y las muertes que afectan el tamaño actual de la población. Un modelo de series de tiempo describiría el crecimiento poblacional como N t 1 0 1 N1 . En este modelo el tamaño de la población en el siguiente tiempo ( N t 1 ) no depende simplemente de la cantidad de tiempo que ha pasado, sino más bien del tamaño de la población en el tiempo anterior ( N t ). En este modelo la constante 1 es un término multiplicador que determina si la población está creciendo exponencialmente ( 1 1,0 ) o disminuyendo ( 1 1,0 ). Como antes, es el término de error (ruido blanco). El modelo lineal ( N t 0 1t ) describe un incremento simple aditivo de N con el tiempo, mientras que la serie de tiempo, o modelo autoregresivo, ( N t 1 0 1 N1 ) describe un incremento exponencial debido a que el factor 1 es un multiplicador que, en promedio, da una constante porcentual de incremento en el tamaño de la población en cada unidad de tiempo. La diferencia más importante entre los dos modelos, sin embargo, es que las diferencias entre los valores del tamaño de la población predichos y observados (es decir, las desviaciones) en el modelo de series El ruido blanco es un tipo de distribución en la cual los errores son independientes y no correlacionados. Se denomina ruido blanco como una analogía a la luz blanca, la cual es una mezcla equitativa de longitudes de ondas cortas y largas. En contraste, la distribución de ruido rojo es dominada así por las perturbaciones de frecuencia baja, tal como la luz roja es dominada por ondas de luz de baja frecuencia. 1
67 de tiempo se correlacionan entre ellos. Como consecuencia, existe la tendencia de períodos consecutivos de incremento seguido por períodos consecutivos de disminución. Esto se debe a que la trayectoria de crecimiento tiene una memoria [cada observación siguiente ( N t 1 ) depende íntimamente de la anterior ( N t )]. En contraste, el modelo lineal no tiene memoria, y los incrementos son función solamente del tiempo (y ) y no de N t . De aquí que las desviaciones positivas y negativas se siguen unas a otras de una manera puramente al azar (Figura 4.3). Las desviaciones correlacionadas, las cuales son típicas de datos colectados en estudios de trayectoria, violan las presunciones de la mayoría de los análisis estadísticos convencionales. Se están desarrollando métodos analíticos y de computación para analizar datos colectados a través del tiempo (Ives y col., 2003; Turchin, 2003). Esto no significa que no se puedan incorporar datos de series de tiempo en análisis estadísticos convencionales. Estos métodos requieren que se ponga una cuidadosa atención tanto al diseño de muestreo como al tratamiento de los datos después que se han colectado. En este respecto, las series de tiempo o datos de trayectoria son como cualquier otro tipo de datos. 4.7 Experimentos de presión y experimentos de pulso En estudios manipulativos también se distingue entre experimentos de presión y experimentos de pulso (Bender y col., 1984). En un experimento de presión, las condiciones alteradas en los tratamientos se mantienen a través del tiempo y son reaplicados, de ser necesario, para asegurar que la fuerza de la manipulación permanezca constante. Así, pudiera ser necesario reaplicar fertilizantes a las plantas o reemplazar animales que hayan muerto o desaparecido de una parcela. En contraste, en un experimento de pulso los tratamientos experimentales se aplican una sola vez al inicio del estudio. El tratamiento no es reaplicado, y se deja que las réplicas se recobren de la manipulación (Figura 4.4 A). Los experimentos de presión y de pulso miden dos diferentes respuestas al tratamiento. El experimento de presión (Figura 4.4 B) mide la resistencia del sistema al tratamiento experimental: la extensión con la que el sistema resiste el cambio en la constante ambiental creada por el experimento de presión. Un sistema con baja resistencia exhibirá una respuesta grande en un experimento de presión, mientras que un sistema con alta resistencia exhibirá poca diferencia entre el control y los tratamientos manipulados. Un experimento de pulso mide la elasticidad del sistema al tratamiento experimental: la extensión con la cual el sistema se recupera de una perturbación. Un sistema con alta elasticidad mostrará un retorno rápido a las condiciones controladas, mientras que un sistema con baja elasticidad tomará un largo tiempo para recuperarse; las parcelas utilizadas como control y las manipuladas, continuarán difiriendo por un largo tiempo luego de la aplicación del tratamiento. La distinción entre experimentos de presión y experimentos de pulso no es el número de tratamientos usados, sino si las condiciones aplicadas son mantenidas a lo largo del tiempo en los tratamientos. Si las condiciones ambientales permanecen
68 constantes después de una perturbación durante la ejecución del experimento, el diseño es, efectivamente, un experimento de presión. Otra distinción entre experimentos de presión y experimentos de pulso es que el experimento de presión mide la respuesta del sistema bajo condiciones de equilibrio, mientras que el experimento de pulso reporta respuestas transitorias en un ambiente cambiante. 4.8 Replicación 4.8.1 ¿Cuántas réplicas? Esta es una de las preguntas más comunes que los ecólogos y científicos ambientales hacen a los estadísticos. La aseveración correcta es que la respuesta depende de la variación de los datos y del denominado efecto del tamaño (la diferencia que se desea detectar entre los promedios de los grupos que se están comparando). Desafortunadamente, estas dos cantidades pueden ser difíciles de estimar, aunque siempre se debe considerar cual efecto de tamaño sería razonable observar. Para estimar la variación (NOTA: las palabras varianza, variancia y/o variación tienen el mismo sentido general), muchos estadísticos recomiendan conducir un estudio piloto. Desafortunadamente, los estudios pilotos usualmente no son viables (muy raras veces se tiene la libertad de diseñar y ejecutar un estudio costoso y a largo plazo más de una vez). Sin embargo, es posible estimar rangos razonables de variación y efectos de tamaño a partir de publicaciones previas y de discusiones con colegas que trabajen en la misma área. Se pueden usar estos valores para determinar el poder estadístico que resultaría de las diferentes combinaciones de réplicas, varianza y efectos de tamaño. Como mínimo, sin embargo, se necesita responder las siguientes preguntas antes. 4.8.2 ¿Cuántas réplicas totales son factibles? Toma tiempo, trabajo y dinero recolectar tanto datos experimentales como datos de encuestas, y se necesita determinar con precisión el tamaño de la muestra total que se puede obtener. Si estamos ejecutando análisis costosos de tejidos, por ejemplo, el costo pudiera ser el factor limitante. Sin embargo, en muchos estudios, el tiempo y el trabajo son más limitantes que el dinero. Esto es especialmente cierto para estudios geográficos conducidos sobre escalas espaciales grandes, en los que se puede invertir tanto o más tiempo viajando que colectando los datos. Idealmente, todas las réplicas deberían ser tomadas simultáneamente, produciendo un experimento instantáneo perfecto. Mientras más tiempo haya transcurrido colectando los datos en una de las réplicas, más cambios habrá en las condiciones medidas en la segunda réplica. Para los estudios experimentales, si los datos no son colectados todos al mismo tiempo, entonces la cantidad de tiempo que transcurra desde la aplicación de los tratamientos no es idéntica para todas las réplicas. Obviamente, mientras mayor la escala espacial del estudio, más difícil es recolectar todos los datos en un espacio de tiempo razonable. No obstante, el pago
69 pudiera ser mayor debido a que el alcance de la inferencia está atado a la escala espacial del análisis: las conclusiones basadas en muestras tomadas en un solo sitio pudieran no ser válidas en otros sitios. Sin embargo, no tiene sentido desarrollar un diseño de muestreo irreal. Describa cuidadosamente su proyecto desde el principio hasta el final para asegurarse que sea factible. Solamente después que se ha establecido el número total de réplicas u observaciones que se pueden recolectar, se puede comenzar a diseñar un experimento aplicando la denominada regla del 10. 4.8.3 La regla del 10 La regla del 10 establece que deberíamos recolectar al menos 10 réplicas por cada una de las categorías del nivel de tratamiento. Por ejemplo, supongamos que hemos determinado que podemos recolectar 50 observaciones totales en un experimento que examina las tasas fotosintéticas entre diferentes especies de plantas. Un buen diseño para un ANOVA de una vía sería comparar las tasas fotosintéticas entre no más de cinco especies. Para cada especie se escogerían al azar 10 plantas y se tomaría una medición de cada planta. La regla del 10 no está basada en ningún principio de diseño experimental o análisis estadístico, sino sobre una reflexión nacida de la experiencia ganada en aquellos experimentos de campo que han sido exitosos y aquellos que no lo han sido. Es ciertamente posible analizar conjuntos de datos con menos de 10 observaciones por tratamiento; diseños experimentales balanceados con muchas combinaciones de tratamientos pero con sólo cuatro o cinco réplicas pudieran ser poderosos. Ciertos diseños para el ANOVA de una sola vía con sólo unos pocos tratamientos pudieran requerir más de 10 réplicas por tratamiento si las varianzas son grandes. No obstante, la regla del 10 es un punto de inicio sólido. Aún si se planifica un diseño con 10 observaciones por tratamiento, es improbable que se termine con ese número. A pesar de los esfuerzos, pudiéramos perder datos por diversas razones, incluyendo fallas en los equipos, desastres debidos al clima, pérdida de parcelas, errores humanos, transcripción incorrecta de datos, etc. La regla del 10 al menos da la posibilidad de recolectar datos con razonable poder estadístico para revelar patrones. 4.8.4 Estudios a gran escala e impactos ambientales La regla del 10 es útil para estudios manipulativos a pequeña escala en los cuales las unidades de estudio (p. ej., parcelas, hojas, etc.) son de tamaño manejable; pero no aplica a experimentos de ecosistemas a gran escala, tales como manipulaciones de lagos completos, debido a que las réplicas pudieran no estar disponibles o ser muy costosas. La regla del 10 tampoco aplica a muchos estudios de impacto ambiental donde se requiera evaluar un impacto en un solo sitio. En tales casos, la mejor estrategia es usar un diseño ADCI (o BACI, por sus siglas en inglés Before-After, Control-Impact). En algunos diseños ADCI la replicación se logra a través del tiempo: los sitios control e impactado se muestrean repetidamente tanto antes como después del impacto. La ausencia de replicación espacial restringe las inferencias a los
70 sitios de impacto mismo (el cual pudiera ser el punto del estudio), y requiere que el impacto no se confunda con otros factores que pudieran covariar con el impacto. La ausencia de replicación espacial en diseños ADCI simples es controversial (Underwood, 1994; Murtaugh, 2002), pero en muchos casos son la mejor opción. 4.9 Independencia La mayoría de los análisis estadísticos asume que las réplicas son independientes entre si. Por independencia entendemos que las observaciones colectadas en una réplica no tienen influencia sobre las observaciones colectadas en otra réplica. La no independencia se entiende mejor en un contexto experimental. Supongamos que estamos estudiando la respuesta de los colibríes polinizadores al aumento del néctar producido por las flores. Seleccionamos dos parcelas adyacentes de 5 x 5 m. Una de las parcelas es el control, mientras que en la otra hemos drenado todo el néctar de las flores. Reportamos las visitas de los colibríes a las flores en las dos parcelas. En la parcela control reportamos un promedio de 10 visitas/h, mientras que en la parcela experimental reportamos un promedio de 5 visitas/h. Sin embargo, mientras colectábamos los datos notamos que una vez que las aves arribaban a la parcela experimental se iban inmediatamente, y las mismas aves visitaban la parcela control adyacente (Figura 4.5 A). Claramente, los dos juegos de observaciones no son independientes entre si. Si las parcelas controles y experimentales hubieran estado mas separadas desde un punto de vista espacial, los resultados hubieran sido diferentes, y el promedio en la parcela control hubiera sido solamente 7 visitas/h en vez de las 10 visitas/h obtenido (Figura 4.5 B). Cuando las dos parcelas están adyacentes, la no independencia infla las diferencias entre ellas, llevando tal vez a valores de P engañosamente bajos, y a cometer un error Tipo I (incorrecto rechazo de una hipótesis nula verdadera). En otros casos, la no independencia pudiera disminuir las diferencias aparentes entre los tratamientos, contribuyendo a cometer un error Tipo II (aceptación incorrecta de una hipótesis nula falsa). Desafortunadamente, la no independencia infla o desinfla tanto los valores de P como el poder de una prueba estadística a niveles desconocidos. El mejor seguro contra la no independencia es cerciorarse que las réplicas dentro y entre los tratamientos estén separadas unas de otras por suficiente espacio o tiempo para que no se afecten mutuamente. Desafortunadamente, raras veces se sabe con certeza cuanta distancia o espacio son suficientes, y esto es cierto tanto para estudios experimentales como para observacionales. Se debe usar el sentido común y tanto conocimiento biológico como sea posible. Se debe intentar mirar el mundo desde una perspectiva del animal para pensar cuanto separar las muestras. Los estudios pilotos también pueden sugerir espaciamientos apropiados para asegurar independencia. Entonces, ¿por qué no maximizar la distancia o el tiempo entre muestras? Primero, como se dijo anteriormente, se hace más costoso recolectar datos a medida que la distancia entre las muestras se incrementa. Segundo, separar mucho las muestras puede introducir nuevas fuentes de variación debido a diferencias
71 (heterogeneidad) dentro o entre hábitats. Se desea que las réplicas estén suficientemente juntas para asegurarse que se están muestreando condiciones relativamente homogéneas o consistentes, pero suficientemente separadas para asegurarse que las respuestas sean independientes entre si. A pesar de su importancia central, el problema de la independencia casi nunca se discute explícitamente en los artículos científicos. En la sección de Métodos de un artículo científico es probable leer algo como… Medimos al azar 100 retoños que crecían a plena luz. Cada retoño medido estaba al menos a 50 cm de su vecino más cercano… Lo que los autores querían decir es… No sabemos cuan separados debieron estar los retoños para asegurar independencia. Sin embargo, 50 cm parecía ser una distancia apropiada para los pequeños retoños que estudiamos. Si hubiéramos escogido distancias mayores que 50 cm, no hubiéramos colectado todos nuestros datos a plena luz, y algunos de los retoños hubieran sido colectados en la sombra, lo cual, obviamente, hubiera influenciado nuestros resultados… 4.10 Evitando factores de confusión Cuando los factores se confunden unos con otros, no se pueden discernir fácilmente sus efectos. Retornemos al ejemplo de los colibríes. Supongamos que separamos prudentemente las parcelas controles y experimentales, pero que inadvertidamente colocamos la parcela experimental en una colina asoleada y la parcela control en un valle frío (Figura 4.6). Los colibríes se alimentan menos frecuentemente en la parcela experimental (7 visitas/h), y las dos parcelas están ahora suficientemente separadas para que no exista problema de no independencia. Sin embargo, los colibríes tienden naturalmente a evitar alimentarse en valles fríos, de manera que la tasa de alimentación es también baja en esta parcela (6 visitas/h). Debido a que los tratamientos están confundidos con las diferencias de temperatura, no se pueden separar los efectos de las preferencias de alimentación de aquellos debidos a las preferencias térmicas. En este caso las dos fuerzas se cancelan una a otra, llevando a tasas de alimentación semejantes en las dos parcelas, aunque por razones muy diferentes. Este ejemplo pudiera parecer un poco exagerado. Conociendo las preferencias térmicas de los colibríes, no se hubiera diseñado tal experimento. El problema es que existen variables desconocidas que no han sido medidas (aún en un ambiente aparentemente homogéneo) que pueden tener efectos igualmente fuertes en el experimento. Y si se está efectuando un experimento natural, se estaría atascado con cualquier factor de confusión que esté presente en el ambiente. En un estudio observacional sobre la alimentación de colibríes, pudiera no ser posible encontrar parcelas que difieran solamente en sus niveles de néctar, pero que también no difieran en temperatura y otros factores que se sabe afectan el comportamiento alimenticio de los colibríes. 4.11 Replicación y aleatorización
72 Los factores de confusión y la no independencia parecerían amenazar las conclusiones estadísticas y convertir todos los estudios experimentales en sospechosos. La incorporación de réplicas y la aleatorización en los diseños experimentales puede contrarrestar los problemas introducidos por los factores de confusión y la no independencia. La replicación es el establecimiento de múltiples parcelas u observaciones dentro del mismo tratamiento o grupo de comparación; mientras que la aleatorización es la asignación al azar de los tratamientos o la selección de las muestras.1 Retornemos una vez más al ejemplo de los colibríes. Si se siguen los principios de la aleatorización y la replicación, se establecerían muchas réplicas de las parcelas controles y experimentales (idealmente un mínimo de 10 de cada una). La ubicación de cada una de estas parcelas en el área de estudio sería al azar, y la asignación de los tratamientos (control y experimental) en cada parcela también sería al azar (Figura 4.7). ¿Cómo reduce la replicación y la aleatorización el problema de los factores de confusión? En este caso, tanto la colina cálida como el valle frío, y varios sitios intermedios, tendrán múltiples parcelas controles y experimentales. Así, el factor temperatura ya no se confunde con el tratamiento, ya que todos los tratamientos ocurren dentro de cada nivel de temperatura. Como un beneficio adicional, este diseño también permitiría comprobar los efectos de la temperatura como una covariable sobre el comportamiento alimenticio de los colibríes, independientemente de los niveles de néctar. Es cierto que las visitas de los colibríes serán aún más frecuentes en la colina cálida que en el valle frío, pero será cierto para todas las réplicas control y experimental. La temperatura añadirá más variación a los datos, pero no sesgará los resultados debido a que las parcelas cálidas y frías estarán distribuidas homogéneamente entre las parcelas controles y experimentales. Por supuesto, si se hubiera sabido con antelación que la temperatura era un determinante importante del comportamiento alimenticio, no se hubiera usado este diseño en el experimento. La aleatorización minimiza la confusión de los tratamientos con variables desconocidas o no medidas en el área de estudio. Es menos obvio cómo la aleatorización y la replicación reducen el problema de la no independencia entre las muestras. Después de todo, si las parcelas están demasiado cercanas, las visitas de los colibríes no serán independientes, Muchas muestras que dicen ser aleatorias son en realidad fortuitas (haphazard, en inglés). El muestreo realmente aleatorio implica usar un generador de números aleatorios para decidir cuales réplicas usar. En contraste, con un muestreo fortuito un ecólogo sigue un juego de criterios generales y selecciona sitios u organismos que están espaciados homogéneamente o convenientemente dentro de un área de muestreo. Los muestreos fortuitos son a menudo necesarios en algún nivel, debido a que los muestreos al azar no son eficientes para muchos tipos de organismos, especialmente si su distribución es en parches. Sin embargo, una vez que los organismos o sitios han sido identificados, la aleatorización debería ser usada para muestrear o asignar réplicas a los diferentes grupos de tratamientos. 1
73 indistintamente de la cantidad de réplicas o la aleatorización. Cuando sea posible, se debería usar el sentido común y el conocimiento biológico para separar las parcelas o las muestras por alguna distancia o intervalo de muestreo mínima que permita evitar la dependencia. Sin embargo, si no se conocen todas las fuerzas que pudieran causar dependencia, la colocación aleatoria de las parcelas más allá de una distancia mínima asegurará que el espaciamiento de las parcelas sea variable. Algunas parcelas estarán relativamente cercanas, y otras estarán relativamente separadas. Por lo tanto, el efecto de la dependencia será fuerte en algunos pares de parcelas, débil en otros y no existirá en otros. Tales efectos variables pudieran cancelarse mutuamente y pueden reducir la probabilidad que los resultados estén consistentemente sesgados por la no independencia. Finalmente, notemos que la aleatorización y la replicación sólo son efectivas cuando se usan al mismo tiempo. Si no se replica, sino que simplemente se asignan aleatoriamente las parcelas controles y experimentales a la colina o el valle, el diseño aún tendría problemas de confusión (Figura 4.6). Similarmente, si se replica el diseño, pero se asignan las 10 réplicas de las parcelas controles al valle y las 10 réplicas de las parcelas experimentales a la colina, el diseño también tiene problemas de confusión (Figura 4.8). Solamente cuando se usan parcelas múltiples y se asignan los tratamientos al azar es que los efectos de confusión de la temperatura se remueven del diseño (Figura 4.7). Ciertamente, es necesario decir que cualquier diseño no replicado siempre va a estar confundido con uno o más factores ambientales. 1 Aunque el concepto de aleatorización es directo, debe ser aplicado en varios pasos del diseño. Primero, la aleatorización se aplica únicamente a espacios de muestreo bien definidos, inicialmente no aleatorios. El espacio muestral no significa simplemente el área física de la cual se toman las muestras (aunque este es un aspecto importante del espacio muestral). El espacio muestral se refiere a un juego de elementos que han experimentado condiciones similares. Ejemplos de espacios muestrales pudieran ser las truchas individuales que estén maduras reproductivamente, espacios abiertos creados por el fuego en bosques, campos de cultivo abandonados 10-20 años atrás o grandes porciones de coral Aunque la confusión es fácil de reconocer en un experimento de campo de este tipo, pudiera no ser aparente que el mismo problema exista en experimentos de laboratorio o invernaderos. Si se crían larvas de insecto a baja y alta temperaturas en dos cámaras ambientales, este es un diseño que contiene confusión debido a que todas las larvas a alta temperatura están en una cámara y todas las larvas a baja temperatura están en la otra cámara. Si otros factores ambientales, diferentes a la temperatura, difieren también en las cámaras, sus efectos se confunden con la temperatura. La solución sería criar cada larva en su propia cámara individual, asegurando así que cada réplica sea verdaderamente independiente y que la temperatura no se confunda con otros factores. Pero este tipo de diseño simple es demasiado costoso y ocupa demasiado espacio para ser utilizado. Quizá el argumento pueda ser que las cámaras ambientales y los invernaderos difieran solamente en la temperatura, pero eso es sólo una presunción que debería ser comprobada explícitamente. En muchos casos, el ambiente es sorprendentemente heterogéneo, tanto dentro como entre las cámaras. 1
74 descolorados a 5-10 metros de profundidad. Una vez que éste espacio de muestreo ha sido definido claramente, los sitios, los individuos o las réplicas que cumplan con el criterio deberían ser escogidos al azar. Como se dijo anteriormente, los límites espaciales y temporales del estudio dictarán no solamente el esfuerzo de muestreo, sino también el dominio de inferencia para las conclusiones del estudio. Una vez que se seleccionan al azar los sitios o las muestras, los tratamientos deben ser asignados a ellos aleatoriamente, lo cual asegura que los diferentes tratamientos no estén agrupados espacialmente, o confundidos con variables ambientales.1 Las muestras deberían también ser colectadas y los tratamientos aplicados en una secuencia aleatoria. De esa forma, si las condiciones ambientales cambian durante el experimento, los resultados no se confundirán. Por ejemplo, si se muestrean todas las parcelas controles primero, y el trabajo de campo se interrumpe por un incendio creado por un rayo, cualquier impacto de la tormenta se confundiría con la manipulación debido a que todas las parcelas experimentales serán muestreadas después de la tormenta. Estas mismas condiciones se aplican en estudios no experimentales en los cuales las diferentes parcelas o sitios tienen que ser muestreadas. La advertencia es que muestrear estrictamente al azar en esta forma pudiera ser demasiado ineficiente, debido a que usualmente no se visitarán los sitios vecinos en orden consecutivo. Lo más seguro es que debe existir un compromiso entre una aleatorización estricta y las restricciones impuestas por la eficiencia del muestreo. Todos los métodos de análisis estadísticos, sean paramétricos, Monte Carlo o bayesianos, descansan en la presunción del muestreo aleatorio a escalas espaciales o temporales apropiadas. Acostúmbrese a usar la aleatorización en su trabajo tanto como le sea posible.
4.12 Diseño de experimentos de campo y estudios de muestreos Aquí están algunas preguntas que surgen cuando se diseñan experimentos de campo y estudios de muestreos. Aunque algunas de estas preguntas parecen ser específicas para experimentos manipulativos, son también relevantes para ciertos experimentos naturales, donde los controles deben consistir de parcelas que no tienen una especie particular o conjunto de condiciones abióticas. 4.12.1 ¿Son las parcelas o encierros suficientemente grandes para asegurar resultados realistas? Si el tamaño de la muestra es muy pequeño, incluso una asignación aleatoria puede llevar al agrupamiento espacial de los tratamientos. Una solución sería situar los tratamientos en un orden repetido (… 123123…), lo cual aseguraría que no haya agrupamiento. Sin embargo, si no hay independencia entre los tratamientos, este diseño pudiera exagerar sus efectos, debido a que el tratamiento 2 ocurriría siempre espacialmente entre los tratamientos 1 y 3. Una mejor solución sería repetir la aleatorización y luego comprobar estadísticamente el diseño para asegurarse que no haya agrupamiento. 1
75
Los experimentos de campo que buscan controlar la densidad de animales deben, necesariamente, restringir el movimiento de los animales. Si los encierros son muy pequeños, el movimiento, la alimentación y el comportamiento reproductivo de los animales pudieran ser tan irreales que los resultados obtenidos resulten no interpretables o sin sentido. (MacNally, 2000a). Hay que tratar de usar las parcelas o encierros más grandes posibles, y que sean apropiados para el organismo que se estudia. Las mismas consideraciones aplican a los estudios de muestreos: las parcelas necesitan ser lo suficientemente grandes, y muestreadas a una escala espacial apropiada, para responder las preguntas. 4.12.2 ¿Cuál es la finura y extensión del estudio? Aunque se haya puesto mucha importancia en la escala espacial de un experimento o estudio de muestreo, existen dos componentes de la escala espacial que necesitan ser confrontadas: la finura y la extensión. La finura es el tamaño de la unidad de estudio más pequeña, la cual usualmente es el tamaño de una réplica o parcela individual; mientras que la extensión es el área total ocupada por todas las unidades de muestreo del estudio. La finura y la extensión pueden ser grandes o pequeñas (Figura 4.9). No existe una combinación sencilla de finura y extensión que sea necesariamente correcta. Sin embargo, los estudios ecológicos con finura y extensión pequeñas, tales como las capturas de escarabajos en una parcela de bosque sencilla, pudiera algunas veces ser demasiado limitado en amplitud para permitir conclusiones amplias. Por otra parte, los estudios con una finura grande, pero extensión pequeña, tales como manipulaciones de lagos completos en un valle sencillo, pudieran ser muy informativos. La preferencia de los autores (Gotelli y Arnett, 2000; Gotelli y Ellison, 2002 a,b) es por los estudios con pequeña finura, pero mediana o gran extensión, tales como los muestreos de hormigas y plantas en parcelas pequeñas (5 x 5 m) en New England, Estados Unidos de Norteamérica. La finura pequeña permite manipulaciones experimentales y observaciones tomadas a escalas que son relevantes a los organismos, pero la extensión grande expande el dominio de la inferencia de los resultados. Para determinar la finura y la extensión se debe considerar tanto la pregunta que se está tratando de responder como las restricciones sobre los muestreos. 4.12.3 ¿Reduce o expande el rango de posibles condiciones ambientales el rango de los tratamientos o las categorías de muestreos? Muchos experimentos de campo reducen o expanden el rango de condiciones encontradas en el campo. Sin embargo, si se está tratando de modelar cambios climáticos o alteraciones ambientales, pudiera ser necesario incluir también condiciones que estén fuera del rango de aquellas encontradas en el campo. 4.12.4 ¿Han sido establecidos controles apropiados para asegurar que los resultados reflejen variación solamente en el factor de interés?
76 Es raro que una manipulación cambie un solo factor a la vez. Por ejemplo, si se aíslan plantas en una caja para excluir herbívoros, también se altera el régimen de sombra y humedad. Si se comparan estas plantas con los controles no manipulados, los efectos de la herbivoría se confunden con las diferencia en sombra y humedad. El error más común en el diseño experimental es establecer un conjunto de parcelas no manipuladas, y luego tratarlo como un control. Usualmente, un conjunto adicional de parcelas controles que contengan una mínima alteración será necesario para controlar apropiadamente las manipulaciones. En el ejemplo descrito arriba, una caja con una abertura en la parte superior permitiría a los herbívoros acceder a las plantas, pero aún incluiría los efectos de sombra de la caja. Con este diseño sencillo de tres tratamientos (no manipulado, caja control y exclusión de herbívoros), podemos hacer los siguientes contrastes: 1) no manipulado vs. caja control. Esta comparación revela la extensión con la cual la sombra y los cambios físicos debido a la caja per se están afectando el crecimiento y las respuestas de las plantas; 2) caja control vs. exclusión de herbívoros. Esta comparación revela la extensión con la cual la herbivoría altera el crecimiento de las plantas. Tanto las parcelas controles como las parcelas que excluyen los herbívoros experimentan los efectos de sombra de las cajas, de modo que cualquiera diferencia entre ellas puede ser atribuida al efecto de los herbívoros; 3) no manipulado vs. exclusión de herbívoros. Esta comparación mide el efecto combinado de los herbívoros y la sombra sobre el crecimiento de las plantas. Debido a que el experimento se diseñó para medir solamente el efecto de la herbivoría, esta comparación particular confunde los efectos de los tratamientos y los efectos producidos por las cajas. Más adelante se explicará como podemos usar contrastes después de ANOVA para cuantificar estas comparaciones. 4.12.5 ¿Han sido manipuladas todas las réplicas en la misma forma, excepto las que serán usadas para comprobar el tratamiento de interés? Una vez más, los controles apropiados usualmente requieren más que la ausencia de manipulación. Si tenemos que voltear las plantas para aplicar un tratamiento, debemos voltear las plantas en la parcela control también. En un experimento de transplante recíproco con larvas de insecto, se pudieran enviar los animales vivos a través de un servicio de correo courier (a través de IPOSTEL, por ejemplo) a un sitio distante y establecerlos en una nueva población. En este caso, el control apropiado sería un conjunto de animales que sean re-establecidos en la población de la cual fueron colectados. Estos animales tendrían que recibir también el tratamiento IPOSTEL y ser enviados a través del mismo servicio de correo para asegurar que reciban el mismo estrés que recibieron los animales que fueron transplantados en los sitios distantes. Si no se tiene cuidado en asegurarse que todos los organismos sean tratados idénticamente en el experimento, los tratamientos se confundirán con las diferencias por los efectos del manejo (Cahill y col., 2000). 4.12.6 ¿Han sido medidas las covariables apropiadas en cada réplica? Las covariables son variables continuas que potencialmente afectan la variable respuesta, pero que no son necesariamente controladas o manipuladas por el
77 investigador. Algunos ejemplos son la variación de la temperatura entre las parcelas, la sombra, el pH o la densidad de los herbívoros. Se pueden usar diferentes métodos estadísticos, tales como el análisis de covarianza (ANCOVA), para cuantificar el efecto de las covariables. Sin embargo, se debe evitar la tentación de medir cada covariable concebible en una parcela sólo porque se cuente con los equipos necesarios, y el tiempo, para hacerlo. Se caería en cuenta rápidamente que se contaría con un juego de datos en el que existen más variables que réplicas, lo cual causa problemas adicionales en el análisis (Burnham y Anderson, 2002). Es mejor escoger con anticipación las covariables biológicamente más relevantes, medirlas y usar suficientes réplicas. Recuérdese que la medición de las covariables es útil, pero no sustituye la aleatorización y la replicación apropiadas. 4.13 Resumen El diseño sólido de un experimento ecológico requiere primero el establecimiento claro de la pregunta que se desea responder. Tanto los experimentos manipulativos como los observacionales pueden responder preguntas ecológicas, y cada tipo de experimento tiene sus propias debilidades y fortalezas. Los investigadores deberían considerar lo apropiado de usar un experimento de pulso o un experimento de presión, y si la replicación será en espacio (experimento instantáneo), tiempo (experimento de trayectoria) o ambas. La falta de independencia y los factores de confusión pueden comprometer el análisis estadístico de los datos en estudios manipulativos y observacionales. La aleatorización, la replicación y el conocimiento de la ecología y la historia natural de los organismos que se estudian son el mejor seguro contra la no independencia y los factores de confusión. En la medida de lo posible, se debe tratar de usar al menos 10 observaciones por grupo de tratamiento. Los experimentos de campo usualmente requieren controles cuidadosos para explicar los efectos del manejo y otras alteraciones no intencionales. Las covariables experimentales apropiadas pueden ser usadas para explicar la variación no controlada, aunque no son un sustituto de la aleatorización y la replicación.
CAPÍTULO 5 Distribución normal 5.1 Introducción La distribución normal fue descrita por primera vez por el francés Abraham de Moivre (1667-1754), y posteriormente Johann Carl Friedrich Gauss (o simplemente Gauss; 1777-1855) formuló la ecuación que describe la curva de la distribución normal. La distribución normal, o de Gauss, es una distribución continua y simétrica que sigue la forma familiar de una campana (también denominada Campana de Gauss). Uno de
78 los atributos más importantes de esta distribución es que únicamente la media y la varianza, de manera independientes, determinan su forma. Se ha demostrado experimentalmente que muchas variables tienen distribuciones que siguen, al menos aproximadamente, distribuciones normales. Aún cuando una distribución no sea normal, la distribución de la media de muchas observaciones independientes de la misma distribución se aproxima a la distribución normal a medida que el número de observaciones aumenta (esto lo establece el denominado Teorema Central del Límite). Las pruebas estadísticas más usadas (las denominadas pruebas paramétricas) asumen la condición que los datos provienen de una distribución normal (veremos esto en detalle más adelante). Sin embargo, introduzcamos un ejemplo aquí para visualizar algunos detalles de la distribución normal. Supongamos que vamos a un bosque y capturamos un grupo de especímenes de una oruga particular, y encontramos que la mayoría de los pesos se agrupan alrededor de 1 gramo, pero algunos especímenes son muy pesados y otros muy livianos. ¿Cómo sería la distribución si, como en este caso, los pesos promedios fueran relativamente comunes y los valores extremos (muy livianos y muy pesados) fueran relativamente raros? (Figura 5.1). Este tipo de curva representa lo que se denomina la Distribución Normal. La teoría sugiere que esta distribución es muy probable en un vasto rango de situaciones biológicas (de aquí que se denomine normal). Esta es la distribución más ampliamente usada en estadística, y en la que se basan todas las pruebas denominadas paramétricas; así que es conveniente que aprenda sus características más importantes y a aplicar sus propiedades. 5.2 Propiedades de la distribución normal La distribución normal posee ciertas propiedades importantes que conviene destacar: 1) tiene una única moda, que coincide con su media y su mediana; 2) la curva normal es asintótica al eje de la abscisa; por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1; 3) es simétrica con respecto a su media ( ). Según esto, para las variables que siguen una distribución normal existe una probabilidad de un 50 por ciento de observar un dato mayor o menor que la X ; 4) la distancia entre la línea trazada en la X y el punto de inflexión de la curva es igual a una desviación típica ( ); cuanto mayor sea , más aplanada será la curva de la densidad; 5) el área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándares de la media es igual a 0,95; en concreto, existe un 95 por ciento de posibilidades de observar un valor comprendido en el intervalo ( 1,96 ; 1,96 ); 6) la forma de la campana de Gauss depende de los parámetros y ; la media indica la posición de la campana, de modo que para diferentes valores de la gráfica se desplaza a lo largo del eje horizontal. Por otra parte, la desviación estándar determina el grado de apuntamiento de la curva; cuanto mayor sea el valor de , más se dispersarán los datos en torno a la media y la curva será más plana. Un valor pequeño de este parámetro indica, por
79 tanto, una gran probabilidad de obtener datos cercanos al valor medio de la distribución. Como se deduce de este último apartado, no existe una única distribución normal, sino una familia de distribuciones con una forma común, diferenciadas por los valores de su media ( ) y su varianza ( 2 ). De entre todas ellas, la más utilizada es la distribución normal estándar, que corresponde a una distribución de 0 y 2 1 . Así, la expresión que define su densidad se puede obtener de la siguiente ecuación: Z2 e 2 f (Z ) 2
Es importante tener en cuenta que, a partir de cualquiera variable X que siga una distribución N ( , ) se puede obtener otra característica Z con una distribución normal estándar, sin más que efectuar la transformación: Z
X
Esta propiedad resulta especialmente interesante en la práctica, ya que para una distribución N (0, 1) existen tablas publicadas (Apéndice A) en las que se pueden obtener de modo sencillo la probabilidad de observar un dato menor o igual a un cierto valor Z , y que permitirán resolver preguntas de probabilidad acerca del comportamiento de variables de las que se sabe o se asume que siguen una distribución aproximadamente normal. Consideremos, por ejemplo, el siguiente problema: supongamos que se sabe que el peso de los individuos de una determinada población humana sigue una distribución aproximadamente normal, con una media ( ) de 80 kg. y una desviación estándar ( ) de 10 kg. ¿Se puede saber cuál es la probabilidad que una persona, elegida al azar, tenga un peso superior a 100 kg.? Denotando por X a la variable que representa el peso de los individuos en esa población, ésta sigue una distribución N (80, 10) . Si su distribución fuese la de una normal estándar se podría utilizar la tabla del Apéndice A para calcular la probabilidad que se busca. Como éste no es el caso, resultará entonces útil transformar esta característica según la ecuación anterior, y obtener la variable: Z
X 80 10
para poder utilizar dicha tabla. Así, la probabilidad que se desea calcular será: 100 80 P( X 100) P P( Z 2) 10
80 Como el área total bajo la curva es igual a 1, se puede deducir que: P ( Z 2) 1 P ( Z 2)
Esta última probabilidad puede ser fácilmente obtenida a partir de la tabla del Apéndice A, resultando ser P( Z 2) 0,9772 . Por lo tanto, la probabilidad buscada de que una persona elegida aleatoriamente de esa población tenga un peso mayor que 100 kg. es de (1 - 0,9772)= 0,0228; es decir, aproximadamente de un 2,3 por ciento. De modo análogo, se puede obtener la probabilidad de que el peso de un sujeto esté entre 60 y 100 kg.: P (60 X 100) P (
60 80 100 80 Z ) P (2 Z 2) 10 10
Aplicando un poco de algebra de probabilidades se sabe que: P ( 2 Z 2) P ( Z 2) P ( Z 2)
Por el ejemplo previo se sabe que P( Z 2) 0,9772 . Para la segunda probabilidad, sin embargo, se tiene el problema de que las tablas estándares no proporcionan el valor de P( Z z ) para valores negativos de la variable. Sin embargo, haciendo uso de la simetría de la distribución normal, se tiene que: P ( Z 2) P ( Z 2) 1 P ( Z 2) 1 0,9772 0,0228
Finalmente, la probabilidad buscada que una persona elegida al azar tenga un peso entre 60 y 100 kg. es de 0,9772 - 0,0228 = 0,9544; es decir, aproximadamente 95 por ciento. No obstante, es fácil observar que este tipo de situaciones no corresponde a lo que habitualmente se encuentra en la práctica. Generalmente no se dispone de información acerca de la distribución teórica de la población, sino que más bien el problema se plantea a la inversa: a partir de una muestra extraída al azar de la población que se desea estudiar se realizan una serie de mediciones y se desea extrapolar los resultados obtenidos a la población de origen. En un ejemplo similar al anterior, supongamos que se dispone del peso de
n 100 individuos de esa misma población, obteniéndose una media muestral de X 78 kg. y una desviación estándar muestral S 12 kg.; se querría extraer alguna
conclusión acerca del valor medio real de ese peso en la población original. La solución a este tipo de cuestiones se basa en un resultado elemental de la teoría estadística, el llamado Teorema Central del Límite. Dicho axioma nos dice que las medias de las muestras aleatorias de cualquiera variable siguen una distribución normal con igual media que la de la población, mientras que la desviación estándar es la de la población dividida por n . En este caso, se puede entonces considerar la media muestral
81 X N (, /
n) ,
con lo cual, a partir de la tercera propiedad, se conoce que aproximadamente un 95 por ciento de los posibles valores de X caerían dentro del intervalo [ (1,96 / n ); (1,96 / n] . Puesto que los valores de y son desconocidos, se pudiera pensar en aproximarlos por sus análogos muestrales, resultando [78 (1,96 x12 / 100 ; 78 (1,96 x12 / 100 ] (75,6 : 80,3) . Estaremos, por lo tanto, un 95 por ciento seguros de que el peso medio real en la población de origen oscila entre 75.6 kg. y 80.3 kg. Aunque la teoría estadística subyacente es mucho más compleja, en líneas generales éste es el modo de construir un intervalo de confianza para la media de una población. 5.3 Verificación de la hipótesis de normalidad Una de las distribuciones teóricas mejor estudiadas en los textos de estadística y, como ya se dijo, más utilizada en la práctica, es la distribución normal. Su importancia se debe fundamentalmente a la frecuencia con la que distintas variables asociadas a fenómenos naturales y cotidianos siguen, aproximadamente, esta distribución. Caracteres morfológicos (como la talla o el peso), o psicológicos (como el coeficiente intelectual) son ejemplos de variables que frecuentemente se asume que siguen una distribución normal. No obstante, y aunque algunos autores han señalado que el comportamiento de muchas variables puede ser descrito mediante una distribución normal, en el campo de la ecología, por ejemplo, puede resultar incluso poco frecuente encontrar variables que se ajusten a este tipo de comportamiento. El uso extendido de la distribución normal en las aplicaciones estadísticas puede explicarse, además, por otras razones. Muchos de los procedimientos estadísticos habitualmente utilizados asumen la normalidad de los datos observados. Aunque muchas de estas técnicas no son demasiado sensibles a desviaciones de la normal y, en general, esta hipótesis puede obviarse cuando se dispone de un número suficiente de datos (hablaremos de esto más adelante), resulta recomendable verificar siempre si se puede o no se puede asumir una distribución normal. La simple exploración visual de los datos puede sugerir la forma de su distribución. No obstante, existen otros medios gráficos y los contrastes de hipótesis que pueden ayudarnos a decidir, de un modo más riguroso, si la muestra de la que se dispone procede o no de una distribución normal. Cuando los datos no sean normales se podrá, o bien transformarlos, o emplear otros métodos estadísticos que no exijan este tipo de restricciones (recuerde los llamados métodos no paramétricos). La verificación de la hipótesis de normalidad resulta esencial para aplicar muchos de los procedimientos estadísticos que habitualmente se usan. Tal y como se mencionó, la simple exploración visual de los datos observados mediante un histograma o un diagrama de cajas (box plot), por ejemplo, podría ayudarnos a decidir si es razonable o no considerar que proceden de una característica distribuida normalmente. Como ejemplo, consideremos los histogramas que se muestran en la Figura 5.2, correspondientes a una muestra de 100 mujeres de las que se determinó su peso y edad. Para el caso del peso, la distribución se asemeja bastante a la de una normal; sin embargo, la distribución de edades es claramente asimétrica y diferente de la normal.
82 Resulta obvio que este tipo de estudio sólo lleva a obtener una visión meramente subjetiva acerca de la posible distribución de los datos, y que es necesario disponer de otros métodos más rigurosos para contrastar este tipo de hipótesis. En primer lugar, se debe saber si los datos se distribuyen de una forma simétrica con respecto a su media o presentan algún grado de asimetría, pues es ésta una de las características fundamentales de la distribución normal. Aunque la simetría de la distribución pueda valorarse, de modo simple, atendiendo a algunas medidas descriptivas de la variable en cuestión (comparando, por ejemplo, los valores de la media, la mediana y la moda), resultará útil disponer de algún índice que permita cuantificar cualquiera desviación. Si disponemos de una muestra de tamaño n, ( X 1 , , X n ) de una característica X , se define el Coeficiente de Asimetría de Fisher (también denominado Skewness) como: n
1
[ ( X i X ) 3 ] / n n
i 1
[ ( X i X ) 2 ]3 / 2 / n i 1
a partir del cual se puede considerar que una distribución es simétrica ( 1 0 ), asimétrica hacia la izquierda ( 1 0 ) o hacia la derecha ( 1 0 ). En segundo lugar, se puede preguntar si la curva es más o menos aplanada en relación con el grado de apuntamiento de una distribución normal. El Coeficiente de Aplanamiento de Fisher (o Kurtosis), dado por: n
2
(X i 1 n
i
X )4 / n
[ ( X i X ) ] / n
3
2 2
i 1
permite clasificar una distribución de frecuencias en mesocúrtica (tan aplanada como una normal; 2 0 ), leptocúrtica (más apuntada que una normal; 2 0 ) o platicúrtica (más aplanada que una normal; 2 0 ). Existen métodos gráficos útiles para comprobar si un conjunto de datos procede de una distribución normal; estos gráficos se denominan gráficos de probabilidad normal. La idea básica consiste en enfrentar, en un mismo gráfico, los datos que han sido observados frente a los datos teóricos que se obtendrían de una distribución normal. Si la distribución de la variable coincide con la normal, los puntos se concentrarán en torno a una línea recta, aunque conviene tener en cuenta que siempre tenderá a observarse mayor variabilidad en los extremos. En los denominados gráficos P-P se confrontan las proporciones acumuladas de una variable con las de una distribución normal; los denominados gráficos Q-Q (Figura 5.3) se obtienen de modo análogo, esta vez representando los cuantiles respecto a los cuantiles de la distribución normal. Además de valorar la desviación de la normalidad, los gráficos de probabilidad
83 permiten conocer la causa de esa desviación. Una curva en forma de U o con alguna curvatura, como en el caso de la edad en la Figura 5.2, significa que la distribución es asimétrica con respecto a la normal, mientras que un gráfico en forma de S significará que la distribución tiene colas mayores o menores que la normal, esto es, que existen pocas o demasiadas observaciones en las colas de la distribución. Afortunadamente, existen pruebas basadas en probabilidades que permiten determinar con mayor rigor las desviaciones de la distribución normal. Las cuatro más conocidas son las pruebas de Shapiro-Wilk, la de Kolmogorov-Smirnov, la de Cramervon Mises y la de Anderson-Darling (nota: ¿no les parece curioso que todas estas pruebas sean de dos autores?; ¡para mi, esto demuestra la importancia del trabajo en equipo!); de estos, las dos más usadas son las pruebas de Shapiro-Wilk y la de Kolmogorov-Smirnov. ¿Cuándo usar una u otra? Se recomienda usar Shapiro-Wilk siempre, aunque algunos autores aseveran que esta prueba es recomendable cuando las muestras son pequeñas. ¿Qué tan pequeñas?; Shapiro y Wilk (1965) dicen que cuando sean 20, use Kolmogorov-Smirnov. El matemático-estadístico R. B. D'Agostino (1986) dijo… la prueba de KolmogorovSmirnov es sólo una curiosidad histórica que nunca debería ser usada… En base a esto, usaremos siempre la prueba de Shapiro-Wilk. Veamos un ejemplo de comprobación de normalidad usando el paquete estadístico Statistical Analysis System (mejor conocido como SAS). Probablemente este sea el paquete estadístico más poderoso (al menos en el mundo occidental), aunque no es tan amigable como se desearía; veremos más sobre SAS en las siguientes clases. En este ejemplo se usa el procedimiento (PROC) UNIVARIATE; los datos representan valores de mercurio (μg/g) en tejido de hígado de 33 delfines rayados Stenella coeruleoalba machos obtenidos de los océanos Atlántico y Pacífico y el Golfo de México; los datos se muestran en la Tabla 4. El programa que produce los resultados se muestra a continuación. Los comandos deben ser escritos tal cual se observa, aunque se pueden intercalar mayúsculas y minúsculas sin problemas, pero el símbolo de dólar ($) que antecede la palabra OCEANO es imprescindible, ya que le indica a SAS que es una variable alfabética y no numérica; el comando CARDS le indica a SAS que los datos deben ser leídos directamente de los comandos y no de una base de datos en algún sitio (p. ej., disco duro, floppy, cd o flash drive). Sin embargo, el símbolo más importante en SAS, y el que causa más errores y, por tanto, más dolores de cabeza es el punto y coma (;); toda línea de comandos en SAS debe terminar con un punto y coma (veremos los detalles más adelante): DATA EJEMPLO1; INPUT OCEANO$ MERCURIO; CARDS; A 264 A 300 A 85
84 . . . GM 406 GM 239 GM 275 . . . P 318 P5 P 241 ; RUN; PROC UNIVARIATE NORMAL PLOT; RUN; QUIT; Los resultados que produce SAS se muestran en el Apéndice B. Notemos que PROC UNIVARIATE produce resultados tanto gráficos como cuantitativos. En este caso observemos el resultado de la prueba de normalidad de Shapiro-Wilk (recuerde que esta es la única prueba de normalidad que nos interesa); el valor del estadístico es W 0,949247 , y el valor de P 0,1265 . ¿Qué decisión se debe tomar, dados estos resultados, con respecto a la distribución de la variable concentración de mercurio? El valor de P 0,1265 indica que no se puede rechazar la hipótesis nula ( H 0 ), pero ¿cuál H 0 ? Detengámonos un momento aquí. Cuando se efectúan pruebas de comparación de medias (p. ej., t-Student, ANOVA), la H 0 es siempre que no existen diferencias entre las medias (es decir, X 1 X 2 en el caso de una prueba t o X 1 X 2 X 3 X n en el caso de un ANOVA), mientras que la hipótesis alternativa ( H a ) es que existen diferencias significativas entre las medias (es decir, X 1 X 2 en el caso de una prueba t o X 1 X 2 X 3 X n en el caso de un ANOVA). Entonces, se busca un P 0,05 (el valor de P casi universal; hablaremos de esto más adelante) que permita rechazar la H 0 y confirmar la H a . Por el contrario, en el caso de las pruebas de normalidad se busca un P 0,05 que permita no tener evidencias suficientes para rechazar la H 0 (observe la frase… no tener evidencias suficientes…, esto es importante tenerlo en cuenta al momento de efectuar pruebas de hipótesis; esto lo discutiremos más adelante); entonces, ¿cuál es la H 0 en este caso?, pues que la variable concentración de mercurio proviene de una población normalmente distribuida. Por lo tanto, se busca un P 0,05 para no rechazar la H 0 y aceptar que la muestra es normal (NOTA: cuando se comprueba normalidad, siempre se busca valores de P 0,05 , esto indicará que la muestra es normal; en caso contrario, la muestra no es normal y deberá corregirse esta situación).
85 Volviendo al caso, los valores del estadístico de Shapiro-Wilk y el valor de P indican que la variable concentración de mercurio proviene de una población normalmente distribuida; esto es algo que también puede verse en el histograma de frecuencia y en el denominado normal probability plot producido por PROC UNIVARIATE. Observemos que la distribución parece ser normal ya que presenta un solo modo, y que el normal probability plot tiene forma de recta; el símbolo más (+) indica una recta, mientras que el asterisco (*) indica la forma de la curva. Observemos que los asteriscos se sobreponen al símbolo más y, por tanto, se está en presencia de una distribución normal (se verán ejemplos de distribución no normal más adelante).
CAPÍTULO 6 Diseños experimentales y de muestreos 6.1 Introducción Como ya lo dijimos, existen dos tipos básicos de experimentos científicos: los experimentales y los observacionales. En un estudio experimental tenemos que tomar decisiones acerca de manipulaciones biológicamente realistas que incluyen controles apropiados. En un estudio observacional tenemos que decidir cuales variables medir que mejor respondan las preguntas que nos hemos hecho. Estas decisiones son muy importantes, y fueron tratadas en el Capítulo 4. En este capítulo discutiremos diseños específicos para estudios experimentales y de muestreos en ecología y ciencias ambientales. El diseño de un experimento o estudio observacional se refiere a como se arreglan las réplicas físicamente en el espacio, y cómo se muestrean estas réplicas a lo largo del tiempo. El diseño de un experimento está íntimamente ligado a los detalles de
86 la replicación, la aleatorización y la independencia. Ciertos diseños han sido muy útiles en la interpretación y el análisis de datos de campo. Otros diseños son más difíciles de analizar e interpretar. La literatura sobre diseños experimentales y de muestreos es vasta (p. ej., Cochran y Cox, 1957; Underwood, 1997; Quinn y Keough, 2002), y sólo se cubre una parte muy restringida aquí, especialmente aquellos diseños útiles para los ecólogos y los científicos ambientales, y que se ha demostrado que son los exitosos en los estudios de campo. 6.2 Variables categóricas vs. variables continuas Las variables categóricas son aquellas que se clasifican en una o más categorías únicas. Algunas variables categóricas usadas en ecología incluyen sexo (hembra/macho), estatus trófico (p. ej., productor, herbívoro, carnívoro) y tipo de hábitat (p. ej., sombra, sol). Las variables continuas se miden en una escala numérica continua; pueden tomar un rango de números reales o enteros. Ejemplos incluyen tamaño de individuos, riqueza de especies, cubierta vegetal y densidad poblacional. Muchos textos hacen mayores distinciones entre variables categóricamente puras, en las cuales las categorías no se ordenan, y variables ranqueadas (u ordinales), en las cuales las categorías se ordenan basadas en una escala numérica. Un ejemplo de una variable ordinal sería una serie numérica (0, 1, 2, 3 o 4) asignada a la cantidad de luz solar que llega al piso de un bosque: 0 para 0-5 por ciento de luz; 1 para 6-25 por ciento de luz; 2 para 26-50 por ciento de luz; 3 para 51-75 por ciento de luz y 4 para 76-100 por ciento de luz. En muchos casos, los métodos usados para analizar datos continuos pueden también ser aplicados a datos ordinales. La distinción entre variables categóricas y continuas no siempre es clara; en muchos casos la designación depende simplemente de cómo escoge el investigador medir la variable. Por ejemplo, una variable categórica que describe hábitats, tal como sol/sombra, puede ser medida en una escala continua usando un fotómetro y midiendo la intensidad de la luz en diferentes lugares. A la inversa, una variable continua, tal como salinidad, puede ser clasificada en tres niveles (p. ej., baja, media y alta) y tratada como una variable categórica. Es importante reconocer el tipo de variable que se está midiendo, debido a que los diferentes diseños experimentales se basan en variables categóricas y/o continuas. 6.3 Variables dependientes y variables independientes Después de identificar los tipos de variables con las cuales estamos trabajando, el siguiente paso es designarlas como variables dependientes y/o independientes. La asignación de las variables dependientes e independientes implica una hipótesis de causa y efecto que estemos tratando de comprobar. La variable dependiente (o las variables dependientes) es la variable respuesta que se mide, y para la cual estamos tratando de determinar una o varias causas. En una gráfica de dos ejes cartesianos, la variable dependiente o respuesta se denomina variable Y, y usualmente se coloca en la ordenada (eje vertical). La variable independiente (o las variables independientes) es la
87 variable predictora que suponemos es la responsable por la variación en la variable respuesta. En la misma gráfica cartesiana, la variable independiente o predictora se denomina variable X, y usualmente se coloca en la abscisa (eje horizontal). En un estudio experimental, típicamente manipulamos o controlamos directamente los niveles de la variable independiente y medimos la respuesta en la variable dependiente. En un estudio observacional, dependemos de la variación natural en la variable independiente de una réplica a la siguiente. En estudios naturales y experimentales no conocemos de antemano la fortaleza de la variable predictora. En efecto, a menudo comprobamos la hipótesis estadística nula que la variación en la variable respuesta no está relacionada a la variación de la variable predictora, y no es mayor que la esperada por azar o error en el muestreo. La hipótesis alternativa es que el azar no puede explicar esta variación enteramente, y que al menos parte de la variación puede ser atribuida a la variable predictora. 6.4 Cuatro clases de diseños experimentales Combinando los tipos de variables (categórica vs. continua, dependiente vs. independiente) obtenemos cuatro diferentes clases de diseños (Tabla 5). Cuando las variables independientes son continuas, los diseños usados son los denominados tipo regresión o tipo regresión logística. Cuando las variables independientes son categóricas, los diseños son o tipo ANOVA o tipo tabular. No todos los diseños se ajustan perfectamente en estas cuatro categorías. El análisis de covarianza (ANCOVA) se usa cuando hay dos variables independientes, una categórica y una continua (la covariable). 6.4.1 Diseños tipo regresión Cuando las variables independientes se miden en escalas numéricas continuas, el plan de muestreo es un diseño tipo regresión. Si la variable dependiente también se mide en una escala continua, usamos modelos tipo regresión lineal o no lineal para analizar los datos. Si la variable dependiente se mide en una escala ordinal, usamos modelos tipo regresión logística para analizar los datos. 6.4.1.1 Regresión simple Un diseño tipo regresión simple es sencillo e intuitivo. Colectamos datos en un juego de réplicas independientes; para cada réplica, medimos tanto las variables predictoras como las respuestas. En un estudio observacional, ninguna de las dos variables se manipula, y nuestro muestreo es dictado por los niveles de variación natural en la variable independiente. Por ejemplo, supongamos que nuestra hipótesis es que la densidad de roedores de desierto es controlado por la disponibilidad de semillas; muestreamos 20 parcelas independientes, cada una escogida para representar un nivel de abundancia de semillas, y en cada parcela medimos la densidad de semillas y la densidad de roedores de desierto (Figura 6.1).
88 En un estudio experimental controlamos y manipulamos directamente los niveles de la variable predictora, y medimos la variable respuesta. Debido a que nuestra hipótesis es que la densidad de semillas es responsable por la densidad de roedores de desierto (y no al contrario), manipulamos la densidad de semillas en un estudio experimental, bien sea añadiendo o removiendo semillas para alterar su disponibilidad para los roedores. Tanto en el estudio experimental como en el observacional, la presunción es que la variable predictora es una variable causal: cambios en el valor de la variable predictora (densidad de semillas) causará un cambio en el valor de la variable respuesta (densidad de roedores). Esto es muy diferente de un estudio en el cual examináramos la correlación entre las dos variables. Correlación no especifica una relación causa-efecto entre las dos variables. 1 En adición a las advertencias acerca de la replicación y la independencia adecuada de los datos, debemos seguir los siguientes dos principios en el diseño de un estudio tipo regresión: 1) debemos asegurarnos que el rango de valores muestreados para la variable predictora es suficientemente grande para capturar el rango completo de respuestas para la variable respuesta. Si la variable predictora se muestrea de un rango muy limitado, pudiera parecer haber una relación estadística débil, o no existir, entre las variables predictora y respuesta aunque estén relacionadas (Figura 6.2). Un rango de muestreo limitado hace el estudio susceptible a un error estadístico Tipo II (no rechazar una hipótesis nula falsa); 2) debemos asegurarnos que la distribución de los valores predictores es aproximadamente uniforme dentro del rango muestreado. Hay que tener cuidado con datos en los cuales uno o dos de los valores de la variable predictora son muy diferentes de los otros. Estos puntos influyentes pueden dominar la pendiente de la regresión y generar una relación significativa donde realmente no existe (Figura 6.3) 6.4.1.2 Regresión múltiple La extensión a la regresión múltiple es directa. Se miden dos o más variables predictoras continuas para cada réplica, junto con la variable respuesta. Volviendo al ejemplo del roedor de desierto, sospechamos que, además de la disponibilidad de semillas, la densidad de roedores es controlada también por la estructura de la vegetación, en parcelas con vegetación dispersa los roedores de desierto son vulnerables a las aves predadoras (Abramsky y col., 1997). En este caso, tomaríamos tres mediciones en cada parcela: densidad de roedores, densidad de semillas y El esquema de muestreo debe reflejar las metas del estudio. Si el estudio se diseña simplemente para documentar la relación entre semillas y densidad de roedores, entonces se puede seleccionar una serie de parcelas aleatorias y usar el análisis de correlación para explorar la relación entre las dos variables. Sin embargo, si la hipótesis es que la densidad de semillas es responsable por la densidad de roedores, entonces se debería muestrear una serie de parcelas que incluya un rango uniforme de densidades de semillas y aplicar el análisis de regresión para explorar la dependencia funcional entre la abundancia de roedores y la densidad de semillas. Idealmente, las parcelas muestreadas deberían diferir unas de otras solamente en la densidad de las semillas presentes. 1
89 cubierta vegetal. La densidad de roedores es aún la variable respuesta, y la densidad de semillas y la cubierta vegetal son las dos variables predictoras (Figura 6.1). Idealmente, las variables predictoras deberían ser independientes unas de otras. Al igual que en el diseño de regresión simple, los diferentes valores de las variables predictoras deberían establecerse homogéneamente a través del rango completo de valores posibles. Esto es directo en un estudio experimental, pero raramente puede lograrse en un estudio observacional. En un estudio observacional muy a menudo las variables predictoras están correlacionadas. Por ejemplo, las parcelas con alta densidad de vegetación tienen alta probabilidad de tener alta densidad de semillas. Habrán pocas, o ninguna, parcelas en las cuales la densidad de vegetación es alta y la densidad de semillas es baja (o viceversa). Esta colinealidad hace difícil estimar los parámetros de regresión con precisión y determinar cuanta variación en la variable respuesta se asocia realmente con cada una de las variables predictoras. Como siempre, la replicación se hace más importante a medida que se añaden más variables predictoras al análisis. Siguiendo la regla del 10, deberíamos tratar de obtener al menos 10 réplicas por cada variable predictora. Pero en muchos estudios es más fácil medir variables predictoras adicionales que obtener réplicas independientes adicionales. Sin embargo, se debe evitar la tentación de medir todo lo que podamos sólo porque es posible. Hay que tratar de seleccionar variables que sean biológicamente importantes y relevantes a la hipótesis o pregunta que se haga. Es un error pensar que un algoritmo de selección, tal como la regresión múltiple paso-a-paso, pueda identificar correctamente el juego de variables predictoras de una base de datos grande. Más aún, las bases de datos grandes a menudo sufren de multicolinealidad: muchas de las variables predictoras están correlacionadas entre si (Graham, 2003).
6.4.2 Diseños tipo ANOVA Si las variables predictoras son categóricas y las variables respuestas son continuas, el diseño utilizado se denomina tipo ANOVA. El ANOVA también refiere al análisis estadístico de estos tipos de diseños. 6.4.2.1 Terminología El ANOVA está lleno de términos. Tratamiento refiere a las diferentes categorías de las variables predictoras que se usan. En un estudio experimental los tratamientos representan las diferentes manipulaciones que se hacen. En un estudio observacional los tratamientos representan los diferentes grupos que se comparan. El número de tratamientos en un estudio es igual al número de categorías comparadas. Dentro de cada tratamiento se harán múltiples observaciones, y cada una de estas observaciones es una réplica. En los diseños tipo ANOVA estándar, cada réplica debería ser
90 independiente, tanto estadística como biológicamente, de las otras réplicas dentro y entre los tratamientos. También distinguimos entre diseños de factor simple y diseños de factores múltiples (o multifactoriales). En un diseño de factor simple cada uno de los tratamientos representa la variación en una variable predictora simple o factor. Cada valor del factor que representa un tratamiento particular se denomina nivel del tratamiento. Por ejemplo, se puede usar un ANOVA de factor simple para comparar respuestas en el crecimiento de plantas cultivadas en cuatro niveles diferentes de nitrógeno, o las respuestas en el crecimiento de cinco plantas diferentes en un nivel de nitrógeno. En un diseño multifactorial los tratamientos cubren dos, o más, diferentes factores, y se aplica cada factor en combinación en diferentes tratamientos. En un diseño multifactorial hay diferentes niveles de los tratamientos para cada factor. Por ejemplo, sería necesario un diseño tipo ANOVA de dos factores si deseáramos comparar las respuestas de cuatro niveles de nitrógeno (Factor 1) y cuatro niveles de fósforo (Factor 2). En este diseño cada uno de los 4 x 4 = 16 niveles de tratamientos representa una combinación diferente de nivel de nitrógeno y nivel de fósforo. Se aplica cada combinación de nutrientes a todas las réplicas dentro de los tratamientos (Figura 6.4). Aunque retornaremos a este tópico, vale la pena preguntarnos en este momento cuál es la ventaja de usar diseños de dos factores. ¿Por qué no efectuar dos experimentos separados? Por ejemplo, podríamos comprobar los efectos del fósforo en un diseño tipo ANOVA de una vía con cuatro niveles de tratamientos, y podríamos comprobar los efectos del nitrógeno en otro diseño tipo ANOVA de una vía, también con cuatro niveles de tratamientos. ¿Cuál es la ventaja de usar un diseño de dos vías con 16 tratamientos que representan diversas combinaciones fósforo-nitrógeno en un solo experimento? Una ventaja del diseño de dos vías es la eficiencia. Es probable que sea más efectivo, desde el punto de vista del costo, efectuar un experimento individual, incluso uno con 16 tratamientos, que efectuar dos experimentos separados con cuatro tratamientos cada uno. Una ventaja más importante es que el diseño de dos vías nos permite comprobar tanto efectos principales (p. ej., los efectos del nitrógeno y el fósforo sobre el crecimiento de las plantas) como efectos de interacción (p. ej., interacciones entre nitrógeno y fósforo). Los denominados efectos principales son los efectos aditivos de cada nivel de un tratamiento promediados sobre todos los niveles de los otros tratamientos. Por ejemplo, el efecto aditivo del nitrógeno representaría la respuesta de las plantas en cada nivel de nitrógeno, promediado sobre las respuestas a los niveles de fósforo. A la inversa, el efecto aditivo del fósforo se mediría como la respuesta de las plantas en cada nivel de fósforo, promediado sobre las respuestas a los diferentes niveles de nitrógeno.
91
Los denominados efectos de interacción representan las respuestas únicas a las combinaciones particulares de tratamientos que no pueden ser predichas simplemente conociendo los efectos principales. Por ejemplo, el crecimiento de las plantas en el tratamiento alto nitrógeno-alto fósforo pudiera ser sinergísticamente mayor que lo que se predeciría conociendo los efectos aditivos simples del nitrógeno y el fósforo a altas concentraciones. Los efectos interactivos son frecuentemente la razón más importante para usar un diseño factorial. Las interacciones fuertes son las que controlan muchos cambios ecológicos y evolutivos, y a menudo son más importantes que los efectos principales. 6.4.2.2 ANOVA de factor simple El ANOVA de factor simple es uno de los diseños experimentales más simples, pero también de los más poderosos. Después de describir el arreglo básico de una vía, también se explicarán los diseños de bloque aleatorizado y ANOVA anidado. Estrictamente hablando, estos diseños son diseños de dos factores, pero el segundo factor (bloques o submuestras) se incluye solamente para controlar la variación del muestreo y no es de interés primordial. El denominado arreglo de una vía se usa para comparar medias entre dos o más tratamientos o grupos. Por ejemplo, supongamos que deseamos determinar si el reclutamiento de balanos en la zona intermareal de una línea de costa es afectado por diferentes tipos de substrato rocoso. Podemos empezar obteniendo un juego de piezas de pizarra, granito y concreto. Las piezas deben ser idénticas (tamaño y forma) y diferir solamente en el material que lo forma. Siguiendo la regla del 10, seleccionamos 10 réplicas de cada tipo de substrato para un total N 30 . Cada réplica se coloca en la zona intermareal media, siguiendo un sistema de coordenadas espaciales que se escogen con un generador de números aleatorios (Figura 6.5). Después de empezar el experimento, regresamos 10 días más tarde y contamos el número de nuevos balanos reclutados en el interior del cuadrado central de 10 x 10 cm de cada pieza. Los datos se organizan en una hoja de cálculo en la cual cada fila es una réplica. Las primeras columnas contienen la información de identificación asociada con las réplicas, y la última columna da el número de balanos que se reclutaron en cada pieza. El arreglo de una vía puede perfectamente acomodar estudios en los cuales el número de réplicas por tratamiento no es idéntico, es decir, los tamaños de muestras difieren entre los tratamientos, lo que lleva a los denominados diseños no balanceados en contraposición a los diseños balanceados. El arreglo de una vía permite comprobar diferencias entre los tratamientos, así como también comprobar hipótesis más específicas acerca de cuales medias de tratamientos particulares son diferentes y cuales son similares.
92 La mayor desventaja del arreglo de una vía es que no acomoda explícitamente la heterogeneidad ambiental. La aleatorización completa de las réplicas dentro de cada tratamiento implica que ellas muestrearán el arreglo entero de condiciones ambientales que pudieran afectar la variable respuesta. Por una parte esto es bueno, porque significa que los resultados del experimento pueden ser generalizados a través de todos estos ambientes. Por otra parte, si el ruido ambiental es mucho más fuerte que la señal del tratamiento, el experimento tendrá bajo poder; el análisis pudiera no revelar diferencias entre los tratamientos al menos que haya muchas réplicas. Otros diseños, incluyendo el de bloque aleatorizado y el arreglo de dos vías, pueden ser usados para acomodar la variabilidad ambiental. Una segunda y más sutil desventaja del arreglo de una vía es que organiza los grupos de tratamientos a lo largo de un factor individual. Si los tratamientos representan diferentes tipos de factores, entonces deberíamos usar un arreglo de dos vías para separar los efectos principales y los términos de interacción. Los términos de interacción son especialmente importantes, debido a que el efecto de un factor a menudo depende de los niveles de otro. Por ejemplo, el patrón de reclutamiento a los diferentes substratos pudiera depender de los niveles de un segundo factor (tal como la densidad de predadores). 6.4.2.3 Diseño de bloque aleatorizado Una forma efectiva de incorporar la heterogeneidad ambiental es modificar el ANOVA de una vía y usar el diseño de bloque aleatorizado. Un bloque es un área delineada, o un período de tiempo, dentro de la cual las condiciones ambientales son relativamente homogéneas. Los bloques se pueden colocar al azar o sistemáticamente en el área de estudio, pero se deben arreglar de tal forma que las condiciones ambientales sean más similares dentro de los bloques que entre ellos. Una vez que se establecen los bloques, las réplicas deben ser asignadas al azar a los tratamientos, pero hay una restricción en la aleatorización: una réplica individual de cada uno de los tratamientos se asigna a cada bloque. Así, en un diseño de bloque simple aleatorizado cada bloque contiene exactamente una réplica de todos los tratamientos en el experimento. Dentro de cada bloque la colocación de las réplicas de los tratamientos debe ser al azar. La Figura 6.6 ilustra el experimento de los balanos como un diseño de bloque aleatorizado. Debido a que hay 10 réplicas, hay 10 bloques y cada bloque contiene una réplica de cada uno de los tres tratamientos. La hoja de cálculo para estos datos es la misma que para el arreglo de una vía, excepto que la columna de las réplicas es reemplazada ahora por una columna que indica los bloques. Cada bloque debería ser suficientemente pequeño como para abarcar un conjunto de condiciones relativamente homogéneo. Sin embargo, cada bloque debe ser también suficientemente grande para acomodar una réplica individual de cada uno de los tratamientos. Más aún, debe haber espacio dentro de cada bloque para permitir suficiente espaciamiento entre las réplicas, para asegurar su independencia. Los
93 bloques mismos tienen que estar suficientemente separados unos de otros para asegurar la independencia de las réplicas entre los bloques. Si hay gradientes geográficos en las condiciones ambientales, entonces cada bloque debería abarcar un pequeño intervalo del gradiente. Por ejemplo, hay fuertes gradientes ambientales a lo largo de una ladera montañosa, de forma que deberíamos planificar un experimento con tres bloques, uno en cada elevación (p. ej., baja, media y alta; Figura 6.7 A). Pero no sería apropiado crear tres bloques que corran a lo largo del grano de alta a baja elevación (Figura 6.7 B); cada bloque abarca condiciones que son demasiado heterogéneas. En otros casos, la variación ambiental pudiera ser en parches, y los bloques deberían arreglarse para reflejar el patrón de parches. Por ejemplo, si un experimento está siendo conducido en un complejo de humedales, cada pantano semiaislado pudiera ser tratado como un bloque. Finalmente, si se desconoce la organización espacial de la heterogeneidad ambiental, los bloques pueden ser arreglados al azar dentro del área de estudio. 1 El diseño de bloque aleatorizado es un diseño muy eficiente y flexible que provee un control individual para la heterogeneidad ambiental. Puede ser usado para controlar gradientes ambientales y hábitats en parches. El diseño de bloque aleatorizado es útil también cuando la replicación está limitada en espacio o tiempo. Por ejemplo, supongamos que estamos efectuando un experimento de laboratorio sobre el crecimiento de algas con ocho tratamientos y deseamos completar 10 réplicas por tratamiento. Sin embargo, sólo tenemos espacio para tener 12 réplicas a la vez. ¿Qué podemos hacer? Efectuaríamos el experimento en bloques, y correríamos una réplica individual de cada uno de los ocho tratamientos. Después que hemos reportado todos los resultados, efectuamos el experimento de nuevo (incluyendo otro juego de tratamientos) y continuaríamos hasta que hayamos acumulado los 10 bloques. Este diseño domina los cambios inevitables en las condiciones ambientales que ocurren en el laboratorio a lo largo del tiempo, pero permite aún la comparación apropiada de los tratamientos. En otros casos la limitación pudiera no ser el espacio, sino los organismos. Por ejemplo, en un estudio del comportamiento de apareamiento en peces, pudiéramos tener que esperar hasta que tengamos un cierto número de peces sexualmente maduros hasta que seamos capaces de efectuar un bloque individual del experimento. En ambos casos el diseño de bloque aleatorizado es el mejor seguro contra la variación en las condiciones fundamentales durante el curso de nuestro experimento. El diseño de bloque aleatorizado nos permite colocar los bloques para abarcar gradientes ambientales en una dimensión espacial individual. Pero ¿que sucede si la variación ocurre en dos dimensiones? Por ejemplo, supongamos que hay un gradiente de humedad norte-sur en un campo, pero también un gradiente este-oeste en la densidad de predadores. En tales casos se pueden usar diseños de bloque aleatorizado más complejos. Por ejemplo, el cuadrado latino es un diseño de bloque en el cual los n tratamientos se colocan en el campo en un cuadrado n x n; cada tratamiento aparece exactamente una vez en cada fila y una vez en cada columna del arreglo. 1
94
Finalmente, el diseño de bloque aleatorizado puede ser adaptado para un arreglo de pares apareados. Cada bloque consiste de un grupo de organismos individuales o parcelas que han sido deliberadamente escogidas para ser más similares en características fundamentales. Cada réplica en el grupo recibe uno de los tratamientos asignados. Por ejemplo, en un estudio experimental sobre los efectos de la abrasión sobre el crecimiento de corales, un par de cabezas de corales de tamaño similar sería considerada un bloque individual. Una de las cabezas de coral sería asignada al grupo control, y la otra sería asignada al grupo de abrasión. Otro par apareado sería escogido en la misma forma y se le aplicaría los tratamientos. Aunque los individuos en cada par no son parte de bloque espacial o temporal, probablemente van a ser más similares que los individuos en otros bloques debido a que han sido apareados en base al tamaño de la colonia u otras características. Por esta razón, el análisis usará un diseño de bloque aleatorizado. El método de los pares apareados es muy efectivo cuando las respuestas de las réplicas son potencialmente muy heterogéneas. El apareamiento de los individuos controla esa heterogeneidad, haciendo más fácil detectar los efectos de los tratamientos. Existen cuatro desventajas con el diseño de bloque aleatorizado. El primer es que existe un costo estadístico al correr el experimento con bloques. Si el tamaño de la muestra es pequeña y el efecto del bloque débil, el diseño de bloque aleatorizado es menos poderoso que un arreglo simple de una vía. La segunda desventaja es que si los bloques son muy pequeños, podemos introducir no independencia al amontonar los tratamientos. La tercera desventaja es que si cualquiera de las réplicas se pierde, los datos de ese bloque no pueden ser usados al menos que los valores perdidos sean estimados indirectamente. La cuarta, y más seria, desventaja del diseño de bloque aleatorizado es que asume que no hay interacción entre los bloques y los tratamientos. El diseño de bloque explica las diferencias aditivas en la variable respuesta y asume que el orden de rango de las respuestas al tratamiento no cambia de un bloque al siguiente. Volviendo al ejemplo de los balanos, el modelo de bloque aleatorizado asume que si el reclutamiento en uno de los bloques es alto, todas las observaciones en ese bloque tendrán elevado reclutamiento. Sin embargo, se asume que los efectos de los tratamientos son consistentes de un bloque a otro, de manera que el orden de rango del reclutamiento de los balanos entre los tratamientos (Granito > Pizarra > Concreto) es el mismo, indistintamente de cualesquiera diferencias en los niveles generales de reclutamiento entre los bloques. Pero supongamos que en algunos bloques el reclutamiento es mayor en el concreto, y en otros bloques es mayor en el granito. En este caso el diseño de bloque aleatorizado pudiera fallar en caracterizar adecuadamente los efectos principales de los tratamientos. Por esta razón, algunos autores (Mead, 1988; Underwood, 1997) han argumentado que el diseño de bloque simple aleatorizado no debería usarse al menos que haya replicación dentro de los bloques. Con la replicación el diseño se convierte en un ANOVA de dos factores, el cual trataremos más adelante.
95 La replicación dentro de los bloques ciertamente separa los efectos principales, los efectos de los bloques y las interacciones entre los bloques y los tratamientos. La replicación también enfrenta el problema de datos perdidos dentro de un bloque. Sin embargo, los ecólogos a menudo no tienen el lujo de la replicación dentro de los bloques, particularmente cuando el factor del bloque no es de importancia primordial. 6.4.2.4 ANOVA anidado Un diseño anidado es cualquier diseño en el cual hay submuestreo dentro de cada una de las réplicas. Se ilustrará esto con el ejemplo de los balanos. Supongamos que en vez de medir el reclutamiento para una réplica en un cuadrado de 10 x 10 cm individual, decidimos tomar tres de esas mediciones por cada una de las 30 piezas en el estudio (Figura 6.8). Aunque el número de réplicas no se ha incrementado, el número de observaciones se ha incrementado de 30 a 90. En la hoja de cálculo para estos datos cada fila ahora representa una submuestras diferente, y las columnas indican de cual réplica y de cual tratamiento ha sido tomada la submuestra. Este es el primer diseño en el cual se incluyen submuestras que son claramente no independientes unas de otras. ¿Cuál es la lógica de tal esquema de muestreo? La principal razón es incrementar la precisión con la cual estimamos la respuesta para cada réplica. Debido a la ley de los grandes números, mientras más submuestras usemos más precisos serán los estimados de la media para cada réplica. El diseño anidado tiene tres ventajas. La primera ventaja es que el submuestreo incrementa la precisión del estimado para cada réplica en el diseño. Segundo, el diseño anidado nos permite comprobar dos hipótesis: 1) ¿hay variación entre los tratamientos? y 2) ¿hay variación entre las réplicas dentro de un tratamiento? La primera hipótesis es equivalente a un diseño de una vía que usa los promedios de las submuestras como la observación para cada réplica. La segunda hipótesis es equivalente a un diseño de una vía que usa las submuestras para comprobar las diferencias entre réplicas dentro de los tratamientos. Finalmente, el diseño anidado puede ser extendido a un diseño de muestreo jerárquico. Por ejemplo, pudiéramos censar submuestras anidadas dentro de las réplicas, réplicas anidadas dentro de zonas intermareales, zonas intermareales anidadas dentro de costas, costas anidadas dentro de regiones y aún regiones anidadas dentro de continentes (Caffey, 1985). La razón para efectuar este tipo de muestreo es que la variación en los datos puede separarse en componentes que representan cada uno de los niveles jerárquicos del estudio. Por ejemplo, pudiéramos demostrar que 80 por ciento de la variación en los datos ocurren a nivel de las zonas intermareales dentro de las costas, pero solamente 2 por ciento puede ser atribuible a la variación entre las costas dentro de una región. Esto significaría que la densidad de balanos varía fuertemente de alta a baja zona intermareal, pero no varía mucho de una línea costera a otra. Tales aseveraciones son útiles para evaluar la importancia relativa de diferentes mecanismos en la producción de patrones.
96 Los diseños anidados son potencialmente peligrosos porque son a menudo analizados incorrectamente. Uno de los errores más serios y comunes en el ANOVA es que los investigadores tratan cada submuestras como una réplica independiente y analizan el diseño anidado como un diseño de una vía (Hurlbert, 1984). La no independencia de las submuestras aumenta artificialmente el tamaño de la muestra y la probabilidad de cometer un error estadístico Tipo I (es decir, rechazar una hipótesis nula cierta). Un segundo error menos serio, es que el diseño anidado puede ser difícil o aún imposible de analizar correctamente si los tamaños de las muestras no son iguales en cada grupo. Aún con el número de muestras y submuestras iguales, el muestreo anidado en arreglos más complejos, tales como el arreglo de dos vías y el diseño splitplot, puede ser difícil de analizar; los análisis por defecto de muchos paquetes estadísticos usualmente no son apropiados. 6.4.2.5 Diseños de factores múltiples: arreglo de dos vías Los diseños multifactoriales extienden los principios del arreglo de una vía a dos o más factores de tratamiento. Los aspectos de la aleatorización, arreglo y muestreo son idénticos a los discutidos para los diseños de una vía, bloque aleatorizado y diseños anidados. Ciertamente, la única diferencia real en el diseño está en la asignación de los tratamientos a dos o más factores en vez de a un factor individual. Volviendo al ejemplo de los balanos, supongamos que, en adición a los efectos de los substratos, deseamos comprobar los efectos de los caracoles predadores sobre el reclutamiento de los balanos. Pudiéramos realizar un segundo experimento de una vía en el cual establecemos cuatro tratamientos: no manipulado, caja control, exclusión de predadores e inclusión de predadores. En vez de efectuar dos experimentos separados, sin embargo, decidimos examinar ambos factores en un solo experimento. Esta es una opción que es no sólo más eficiente, sino que también el efecto de los predadores sobre el reclutamiento de los balanos pudiera diferir dependiendo del tipo de substrato. Por lo tanto, establecemos tratamientos en los cuales aplicamos simultáneamente un substrato diferente y un tratamiento de depredación diferente. Este es un ejemplo de un diseño factorial en el cual dos o más factores son comprobados simultáneamente en un experimento. El elemento clave de un diseño factorial correcto es que los tratamientos son ortogonales 1: cada nivel de los tratamientos del primer factor (substrato) debe estar representado con cada nivel de tratamiento del segundo factor (depredación; Figura 6.9). Así, el experimento de dos factores tiene 3 x 4 = 12 distintas combinaciones de tratamientos, en contraposición a sólo tres tratamientos para el experimento de un solo factor de substrato o cuatro tratamientos para el experimento de un solo factor de depredación. Notemos que cada uno de estos experimentos de factor simple estaría restringido a una sola de las combinaciones de tratamientos del otro factor. En otras palabras, el experimento de substratos que describimos anteriormente se condujo con el tratamiento de La palabra ortogonal significa, en lenguaje coloquial, que está en ángulo recto; en estadística tiene varios significados; por ejemplo, en un ANOVA multifactorial significa que todas las combinaciones de tratamientos están representadas. 1
97 depredación no manipulado, y el tratamiento de depredación sería conducido en un solo tipo de substrato individual. Una vez que hemos determinado las combinaciones de los tratamientos, el establecimiento físico del experimento sería el mismo que para el arreglo de una vía con 12 combinaciones de tratamientos (Figura 6.10). En el experimento de dos factores es crítico que todas las combinaciones de tratamientos cruzados estén representadas en el diseño. Si alguna de las combinaciones de tratamientos no está presente, terminamos con un diseño confundido. Como un ejemplo extremo, supongamos que establecemos solamente el tratamiento granito-exclusión de predadores y el tratamiento pizarra-inclusión de predadores. Ahora el efecto del predador se confunde con el efecto del substrato. Indistintamente si los resultados son estadísticamente significativos o no, no podemos discernir si el patrón se debe al efecto del predador, al efecto del substrato o a la interacción entre ellos. Este ejemplo resalta una diferencia importante entre experimentos manipulativos y estudios observacionales. En el estudio observacional reunimos datos sobre la variación en la abundancia de la presa y el predador de un rango de muestras. Pero los predadores a menudo están restringidos a sólo ciertos microhábitats o tipos de substratos, de modo que la presencia o ausencia del predador es ciertamente confundida naturalmente con las diferencias en el tipo de substrato. Esto dificulta separar la causa y el efecto. La fortaleza de los experimentos de campo multifactoriales es que separan esta covariación natural y revelan los efectos de múltiples factores separadamente y en concierto. El hecho de que algunas de estas combinaciones de tratamientos pudieran ser artificiales y muy raras veces, si es que alguna vez se hace, se encuentran en la naturaleza, es realmente una fortaleza del experimento: revela la contribución de cada factor a los patrones observados. La ventaja clave de los diseños de dos vías es la habilidad para separar los efectos principales y las interacciones entre dos factores. Tal vez la principal desventaja del diseño de dos vías es que el número de combinaciones de tratamientos puede hacerse muy grande rápidamente para una adecuada replicación. En el ejemplo de la depredación sobre balanos, se requieren 120 réplicas para replicar cada combinación de tratamientos 10 veces. Al igual que el arreglo de una vía, un arreglo simple de dos vías no toma en cuenta la heterogeneidad espacial. Esto puede ser manejado por un diseño de bloque simple aleatorizado, en el cual cada bloque contiene exactamente una de las combinaciones de los tratamientos. Alternativamente, si replicamos todos los tratamientos dentro de cada bloque, esto se convierte en un diseño de tres vías, donde los bloques representan el tercer factor en el análisis. Una limitación final de los diseños de dos vías es que pudiera no ser posible establecer todas las combinaciones ortogonales de los tratamientos. Es algo sorprendente que para muchos experimentos ecológicos comunes, el juego completo de combinaciones de tratamientos pudiera no ser factible o lógico. Por ejemplo, supongamos que estamos estudiando los efectos de la competencia entre dos especies de salamandras sobre
98 sus tasas de supervivencia. Decidimos usar un diseño simple de dos vías en el cual cada especie representa uno de los factores. Dentro de cada factor, los dos tratamientos son la presencia o la ausencia de la especie. Este diseño ortogonal produce cuatro tratamientos (Tabla 6). Pero, ¿que vamos a medir en la combinación de tratamientos que no tenga ni la Especie A ni la Especie B? Por definición no hay nada que medir en esta combinación de tratamientos. En vez, tendremos que establecer los otros tres tratamientos [(Especie A Presente, Especie B Ausente)]; (Especie A Ausente, Especie B Presente); (Especie A Presente, Especie B Presente)] y analizar el diseño como un ANOVA de una vía. Los experimentos de competencia entre dos especies, semejantes a nuestro ejemplo de las salamandras, tienen una larga historia en la investigación ecológica y ambiental (Goldberg y Scheiner, 2001). Surgen varios problemas en el diseño y análisis de experimentos de competencia entre dos especies. Estos experimentos intentan distinguir entre una especie focal, para la cual se mide la variable respuesta, una especie asociativa, cuya densidad se manipula, y una especie subordinada, la cual puede estar presente pero no se manipula experimentalmente. El primer problema que surge es decidir que tipo de diseño usar: ¿aditivo, substitutivo o superficie de respuesta? (Figura 6.11). En un diseño aditivo, la densidad de la especie focal se mantiene constante, mientras que la densidad de la especie experimental se varía. Sin embargo, este diseño confunde los efectos de la densidad y la frecuencia. Por ejemplo, si comparamos una parcela control (5 individuos de la Especie A, 0 individuos de la Especie B) con una parcela adicional (5 individuos de la Especie A, 5 individuos de la Especie B), hemos confundido la densidad total (10 individuos) con la presencia del competidor. Por otra parte, algunos autores argumentan que tales cambios en la densidad son ciertamente observados cuando una nueva especie entra a una comunidad y establece una población, de modo que ajustar la densidad total no es necesariamente apropiado (Schluter, 1995). En un diseño substitutivo, la densidad total de los organismos se mantiene constante, pero las proporciones relativas de los dos competidores se varía. Estos diseños miden la intensidad relativa de la competencia interespecífica e intraespecífica, pero no miden la fuerza absoluta de la competencia, y asumen que las respuestas son comparables a diferentes niveles de densidad. El diseño de superficie de respuesta es un diseño de dos vías ortogonal que varía tanto la proporción relativa como la densidad de competidores. Este diseño puede ser usado para medir tanto la intensidad relativa como la fuerza absoluta de las interacciones competitivas interespecificas e intraespecificas. Sin embargo, como con cualquier experimento de dos vías con muchos tratamientos, la replicación adecuada pudiera ser un problema. 6.4.2.6 Diseños split-plot
99 El diseño split-plot es una extensión del diseño de bloque aleatorizado para dos tratamientos experimentales. La terminología viene de los estudios de agricultura en los cuales una parcela individual se divide en dos subparcelas, cada una de las cuales recibe un tratamiento diferente. Para nuestros propósitos, el split-plot es equivalente a un bloque que contiene diferentes réplicas de tratamientos. Lo que distingue un diseño split-plot de un diseño de bloque aleatorizado es que se aplica un segundo factor de tratamiento, esta vez a nivel de la parcela entera. Volvamos al ejemplo de los balanos. Una vez más vamos a establecer un diseño de dos vías para comprobar los efectos de la depredación y el substrato. Sin embargo, supongamos que las cajas son costosas y consumen mucho tiempo para su construcción, y que sospechamos que existe mucha variación debida a los microhábitats en el ambiente que afecta nuestros resultados. En un diseño split-plot agruparíamos los tres substratos, justo como hicimos en el diseño de bloque aleatorizado. Sin embargo, colocaríamos una caja individual sobre las tres réplicas de substratos dentro de un bloque individual. En este diseño el tratamiento depredación se denomina factor cuadrata completa, debido a que se aplica a un bloque entero un tratamiento de depredación individual. El tratamiento substrato se denomina factor subparcela, debido a que todos los tratamientos de substratos se aplican dentro de un bloque individual. El diseño split-plot se ilustra en la Figura 6.12. Debemos observar cuidadosamente el arreglo de dos vías (Figura 6.10) y el arreglo split-plot (Figura 6.12) para apreciar la diferencia sutil entre ellos. La distinción es que en el arreglo de dos vías, cada réplica recibe la aplicación de los tratamientos independiente y separadamente. En el arreglo split-plot, uno de los tratamientos se aplica a bloques o parcelas enteras, y el otro tratamiento se aplica a las réplicas dentro de los bloques. La principal ventaja del diseño split-plot es el uso eficiente de los bloques para la aplicación de dos tratamientos. Como en el diseño de bloque aleatorizado, este es un arreglo simple que controla la heterogeneidad ambiental. También puede ser menos exigente que aplicar tratamientos a réplicas individuales en un diseño simple de dos vías. El diseño split-plot remueve los efectos aditivos de los bloques y permite comprobar los efectos principales y las interacciones entre los dos factores manipulados. Al igual que en el diseño de bloque aleatorizado, el diseño split-plot no permite comprobar la interacción entre bloques y el factor subparcela. Sin embargo, el diseño split-plot nos permite comprobar el efecto principal del factor parcela completo, el efecto principal del factor subparcela y la interacción entre los dos. Como sucede con el diseño anidado, un error muy común de los investigadores es analizar un diseño splitplot como un ANOVA de dos factores, lo cual incrementa el riesgo de cometer un error Tipo I. 6.4.2.7 Diseños para tres o más factores El diseño de dos vías puede ser extendido a tres o más factores. Por ejemplo, si estamos estudiando las cascadas tróficas en una cadena alimenticia de agua
100 continental1 debemos añadir o remover carnívoros topes, predadores y herbívoros, y luego medir los efectos sobre el nivel de productores. Este diseño de tres vías simple genera 23 = 8 combinaciones de tratamientos, incluyendo una combinación que no tiene ni carnívoros topes, ni predadores ni herbívoros (Tabla 7). Como se indicó anteriormente, si usamos un diseño de bloque aleatorizado con un arreglo de dos vías y luego replicamos dentro de los bloques, entonces los bloques se convierten en un tercer factor en el análisis. Sin embargo, los diseños de tres o más factores raramente se usan en los estudios ecológicos. Existen simplemente demasiadas combinaciones de tratamientos para hacer a estos diseños lógicamente factibles. Si nuestro diseño se hace muy grande y complejo, deberíamos considerar dividirlo en experimentos más pequeños que permitan comprobar las hipótesis claves que deseamos estudiar. 6.4.2.8 Variabilidad temporal: diseños de medidas repetidas En todos los diseños que hemos descrito, la variable respuesta se mide para cada réplica en un punto individual en el tiempo al final del experimento. Un diseño de medidas repetidas se usa cuando se recolectan múltiples observaciones en la misma réplica en diferentes oportunidades. El diseño de medidas repetidas puede ser visto como un diseño split-plot en el cual una réplica individual sirve como un bloque, y el factor subparcela es el tiempo. Los diseños de medidas repetidas fueron usados por primera vez en estudios médicos y psicológicos, en los cuales las observaciones repetidas eran tomadas en un individuo. Así, en la terminología de medidas repetidas, el factor entre sujetos corresponde al factor parcela completa, y el factor dentro de sujetos corresponde a los diferentes tiempos. En un diseño de medidas repetidas, sin embargo, las observaciones múltiples en un individuo no son independientes, y el análisis debe proceder con cautela. Por ejemplo, supongamos que usamos el diseño de una vía simple para el estudio de los balanos en la Figura 6.5. Pero, más que muestrear en cada réplica una sola vez, medimos el número de nuevos reclutas de balanos en cada réplica durante cuatro semanas consecutivas. Ahora, en vez de 3 tratamientos x 10 réplicas = 30 observaciones, tenemos 3 tratamientos x 10 réplicas x 4 semanas = 120 observaciones (Tabla 8). Si solamente usáramos los datos de uno de los cuatro censos, el análisis sería idéntico a un arreglo de una vía. El diseño de medidas repetidas tiene tres ventajas: 1) la eficiencia. Los datos se toman a diferentes tiempos, pero no es necesario tener réplicas únicas para cada combinación tiempo x tratamiento; 2) el diseño de medidas repetidas le permite a cada réplica servir como su propio bloque o control. Cuando las réplicas representan individuos (p. ej., plantas, animales o humanos), éste controla efectivamente la variación en tamaño, edad e historia individual, lo cual tiene a menudo fuerte influencia sobre la variable respuesta; 3) finalmente, el diseño de medidas repetidas nos permite comprobar interacciones de tiempo con tratamiento. Por muchas razones, esperamos que las diferencias entre los tratamientos pudieran cambiar con el tiempo. Este es el término correcto para referirse a las denominadas aguas dulces, y hace referencia al hecho que son aguas que se encuentran en el interior de los continentes, en contraposición a las aguas oceánicas. 1
101
Tanto el diseño de bloque aleatorizado como el de medidas repetidas tienen una presunción especial, la denominada circularidad para el factor dentro de sujetos. Circularidad, en el contexto del ANOVA, significa que la varianza de la diferencia entre cualesquiera dos tratamientos en la subparcela es la misma. Para el diseño de bloque aleatorizado esto significa que la varianza de la diferencia entre cualquier par de tratamientos en el bloque es la misma. Si las parcelas tratamiento son suficientemente grandes y espaciadas adecuadamente, esta es a menudo una presunción razonable. Para el diseño de medidas repetidas, la presunción de circularidad significa que la varianza de la diferencia de observaciones entre cualquier par de tiempos es la misma. Esta presunción de circularidad es improbable que sea cumplida en el diseño de medidas repetidas; en muchos casos, la varianza de la diferencia entre dos observaciones consecutivas es probable que sea mucho menor que la varianza de la diferencia entre dos observaciones que estén separadas ampliamente en el tiempo. Esto se debe a que las series de tiempo tomadas en el mismo sujeto es probable que tengan una memoria temporal tal, que los valores actuales son una función de los valores observados en el pasado reciente. Esta premisa de las observaciones correlacionadas es la base para el análisis de las series de tiempo. La principal desventaja con el análisis de medidas repetidas es el fallo de cumplir la presunción de circularidad. Si las medidas repetidas están correlacionadas serialmente, la probabilidad de un error Tipo I aumenta, y la hipótesis nula pudiera ser incorrectamente rechazada aun cuando sea cierta. La mejor forma de cumplir la presunción de circularidad es usar tiempos de muestreos espaciados homogéneamente, junto con el conocimiento de la historia natural de nuestros organismos para seleccionar un intervalo de muestreo apropiado. ¿Cuales son las alternativas del análisis de medidas repetidas que no depende de la presunción de circularidad? Una opción es usar suficientes réplicas, de forma que se muestree un conjunto diferente cada vez. Con este diseño, el tiempo puede ser tratado como un factor simple en un ANOVA de dos vías. Si los métodos de muestreo son destructivos (p. ej., contenido estomacal de peces, cosecha de plantas, muestras de macroinvertebrados bénticos), este es el único método de incorporar tiempo en el diseño. Una segunda estrategia es usar el arreglo de medidas repetidas, pero ser más creativos en el diseño de la variable respuesta. Agrupar las medidas repetidas correlacionadas en una variable respuesta individual para cada individuo, y luego usar un ANOVA de una vía simple. Por ejemplo, si deseamos comprobar si las tendencias temporales difieren entre los tratamientos, pudiéramos fijar una línea de regresión a los datos de medidas repetidas, y usar la pendiente de la línea como la variable respuesta. Se debería calcular una pendiente separada para cada uno de los individuos en el estudio. Las pendientes serían entonces comparadas usando un análisis de una vía simple, tratando cada individuo como una observación independiente. Efectos significativos de los tratamientos indicarían diferentes trayectorias temporales para los individuos en los diferentes tratamientos.
102
6.4.3 Diseños tabulares La última clase de diseños experimentales se usa cuando las variables predictoras y respuestas son categóricas. Las mediciones en estos diseños son contajes. La más simple de tales variables es una respuesta dicotómica en una serie de ensayos independientes. Por ejemplo, en una prueba del comportamiento de cucarachas pudiéramos colocar un individuo en una arena con un lado blanco y uno negro, y luego determinar en que lado el animal pasa la mayoría del tiempo. Para asegurar la independencia, cada cucaracha réplica debe ser comprobada individualmente. Típicamente, una respuesta dicotómica es reportada para dos o más categorías de la variable predictora. En el estudio de las cucarachas, la mitad de estas pudiera ser infectada experimentalmente con un parásito que se sabe altera el comportamiento del huésped. Ahora queremos saber si la respuesta de las cucarachas difiere entre individuos con parásitos y sin parásitos. Esta aproximación pudiera ser extendida a un diseño de tres vías, añadiendo un tratamiento adicional, y preguntar si la diferencia entre individuos parasitados y no parasitados cambia en la presencia o ausencia de un vertebrado predador. Podríamos predecir que los individuos no infectados son más propensos a usar el substrato negro, lo cual los haría menos conspicuos a un predador visual. En la presencia de un predador, los individuos no infectados pudieran moverse aún más hacia las superficies obscuras, mientras que los individuos infectados pudieran moverse más hacia las superficies blancas. Alternativamente, el parásito pudiera alterar el comportamiento del huésped, pero esas alteraciones pudieran ser independientes de la presencia o ausencia del predador. Incluso, otra posibilidad es que el comportamiento del huésped pudiera ser sensible a la presencia del predador, pero necesariamente afectado por la infección parasítica. En algunos diseños tabulares, el investigador determina el número total de individuos en cada categoría de la variable predictora, y estos individuos serían clasificados de acuerdo a sus respuestas. El total para cada categoría se denomina el total marginal debido a que representa la suma de los datos en el margen de la tabla. Por ejemplo, supongamos que estamos tratando de determinar las asociaciones de cuatro especies de lagartijas Anolis con tres tipos de microhábitats (suelo, troncos de árboles y ramas de árboles). La Tabla 9 muestra el arreglo de dos vías de los datos de tal estudio. Cada fila en la tabla representa una especie de lagartija diferente, y cada columna representa una categoría de hábitat diferente. Los valores en cada celda representan los contajes de una especie de lagartija particular en un hábitat particular. El total marginal de las filas representa el número total de observaciones para cada especie de lagartija, sumada a lo largo de los tres tipos de hábitats. El total marginal de las columnas representa el número total de observaciones en cada tipo de hábitat, sumada a lo largo de las tres especies de lagartijas. El gran total en la tabla ( N 81 ) representa el contaje total de todas las especies de lagartijas observadas en todos los
103 hábitats. Hay varias formas en que estos datos pudieran haber sido colectados, dependiendo de si el muestreo estaba basado en los totales marginales para los microhábitats, los totales marginales para las lagartijas o el gran total para la muestra entera. 6.5 Resumen Las variables dependientes e independientes son categóricas o continuas, y la mayoría de los diseños caen en uno de las cuatro categorías basadas en esta clasificación. Los diseños ANOVA se usan para experimentos en los cuales la variable independiente es categórica y la variable dependiente es continua. Diseños ANOVA útiles incluyen el de una y dos vías, bloque aleatorizado y los diseños split-plot. No se recomienda usar el ANOVA anidado en el cual las submuestras no independientes son tomadas dentro de una réplica. Los diseños de medidas repetidas pueden ser usados cuando las observaciones se recolectan en una réplica individual a través del tiempo. Sin embargo, estos datos a menudo están autocorrelacionados, de forma que las presunciones del análisis pudieran no ser cumplidas. En tales casos, los datos temporales deberían ser agrupados en una medición independiente individual, o usarse los análisis de series de tiempo. Si la variable independiente es continua, se debería usar un diseño regresión. Los diseños regresión son apropiados para estudios experimentales y observacionales, aunque se usan predominantemente en los últimos. El muestreo adecuado del rango de valores predictores es importante en el diseño de un experimento de regresión adecuado. Los diseños de regresión múltiple incluyen dos o más variables predictoras, aunque el análisis se hace problemático si hay fuertes correlaciones (colinealidad) entre las variables predictoras. Si las variables independiente y dependiente son categóricas, se emplea un diseño tabular. Los diseños tabulares requieren verdadera independencia de los contajes réplicas. Si los contajes no son independientes, deberían ser agrupados de forma que la variable respuesta sea una proporción individual.
104
CAPÍTULO 7 Análisis de la varianza (ANOVA) 7.1 Introducción El análisis de la varianza (también conocido como ANOVA, por sus siglas en inglés ANalysis Of VAriance.), es la técnica creada por Sir Ronald Fisher (considerado el padre de la estadística) para separar la denominada suma de los cuadrados. Generalmente, el ANOVA se asocia con una clase de muestreo o diseño experimental (como lo vimos en el Capítulo 6) en el cual la variable predictora es categórica (p. ej., hembra/macho, arena/grava, luz/obscuridad, rápido/lento, etc.) y la variable respuesta es continua. En este capítulo explicaremos, en primer lugar, la mecánica de la separación de la suma de los cuadrados, una técnica fundamental en el ANOVA. Luego delinearemos las presunciones del ANOVA. Si estas presunciones se cumplen, se puede utilizar la denominada proporción de Fisher, representada por la letra F para estimar los valores de P para la separación de la suma de los cuadrados. Es relativamente fácil perderle la pista a la meta del ANOVA: la comparación de medias
105 entre grupos que han sido muestreados aleatoriamente. Aunque los paquetes estadísticos resuelven todas las ecuaciones presentadas en este capítulo, es importante que se entienda este material, debido a que los métodos por defecto usados por muchos de estos paquetes no generan el análisis correcto para muchos diseños experimentales. 7.2 Símbolos y etiquetas usados en el ANOVA Unos de los principales dolores de cabeza cuando se interpretan las tablas generadas por un ANOVA, es entender los símbolos y las etiquetas convencionales. Existen muchas variables que deben ser tenidas en cuenta, y no existe una notación constante en la literatura disponible sobre el tema. Usaremos un sistema relativamente simple aquí. Primero, el símbolo X se reserva siempre para la variable respuesta medida. El símbolo X indica la gran media de los datos. Cualquiera media que se calcule para un subgrupo particular se indica con un subíndice, tal como X i , que se lee como…la media de la variable i . Una variable con un subíndice que no tenga la barra sobre ella indica un dato particular, tal como X i j , que se lee como… el valor i del grupo j . La variable indica el valor esperado de una variable en el modelo, y el error residual se indica con , usualmente con un subíndice para indicar los diferentes tratamientos. Se usan letras mayúsculas, como A, B, C , para designar los diferentes factores en el modelo. Los diferentes niveles de las variables se indican con subíndices (p. ej., i, j , k ). Por ejemplo, se escribiría Ai para indicar el nivel i del factor A, y Bj para indicar el nivel j del factor B. El número máximo de niveles para un factor se indica por la correspondiente letra en minúscula. Así, si Ai indica el nivel de tratamiento i para el factor Ai , el número de niveles del factor A va desde i 1 hasta a . La excepción para este patrón es la letra minúscula n , la cual se reserva para el número de réplicas usadas para estimar la suma de los cuadrados dentro de los grupos (la suma de los cuadrados de los residuales), el nivel inferior al cual se toman las réplicas de las muestras. Siempre se usa el símbolo de la varianza estándar 2 , indistintamente de si el componente de la varianza es para un factor fijo o al azar. Se debe establecer claramente en el texto o la leyenda de la tabla si cada factor en el modelo es fijo o al azar. 7.3 El ANOVA y la separación de la suma de los cuadrados El análisis de la varianza se construye sobre el concepto de la separación de la suma de los cuadrados. La variación total en un conjunto de datos puede ser expresada como una suma de los cuadrados: la diferencia entre cada observación ( X i ) y la gran media de los datos ( X ) se eleva al cuadrado y se suma. Esta variación total puede ser separada o dividida en diferentes componentes. Algunos componentes representan variación al azar o error al azar, el cual no es atribuible a causa específica alguna; pudiera resultar de errores en las observaciones y otras fuentes no
106 especificadas. Otros componentes representan los efectos de los tratamientos experimentales aplicados a las réplicas, o las diferencias entre categorías de muestreos. Un análisis estadístico implica especificar un modelo subyacente que indique como pudieran ser afectadas las observaciones por los diferentes tratamientos, separando la suma de los cuadrados entre los diferentes componentes en el modelo, y luego usar los resultados para comprobar la hipótesis estadística de la fuerza de efectos particulares. Ilustremos la separación de la suma de los cuadrados con un ANOVA de una vía diseñado para comprobar los efectos del deshielo temprano sobre el crecimiento de plantas alpinas (larkspur, espuela de caballero, Delphinium nuttallianum; p. ej., Price y Waser, 1998; Dunne y col., 2003). Tal experimento tiene 3 tratamientos y 4 réplicas por tratamiento (4 x 3 = 12 observaciones totales). Cuatro parcelas no se manipulan: no se hacen cambios a las parcelas más que los que ocurren durante el muestreo. Cuatro parcelas se mantienen calientes permanentemente usando calentadores que funcionan con celdas solares, los cuales funden la nieve más tempranamente de lo normal. Cuatro parcelas adicionales sirven como controles: tienen instaladas calentadores que nunca son activados. Después de tres años de aplicación de los tratamientos, se mide la longitud del período de floración de las plantas en cada parcela. Los resultados se muestran en la Tabla 10. Aunque muchos de los cálculos en un ANOVA se hacen con una computadora, vale la pena invertir un poco de tiempo en este ejemplo de papel y lápiz, de manera que se entienda como se separan las sumas de los cuadrados. Se comienza el análisis calculando la suma de los cuadrados de los datos, la cual es la suma de las desviaciones cuadradas de cada observación ( X i ) de la gran media ( X ). En el diseño del ANOVA de una vía existen i 1 hasta a tratamientos y n 1 hasta j réplicas por tratamiento, con un total de a x n observaciones. En el ejemplo hay a 3 tratamientos (no manipulado, control y tratamiento) y n 4 réplicas por tratamiento, con una muestra de tamaño total a x n 3 x 4 12 . Así, podemos escribir: a
SStotal i 1
n
(X j 1
ij
X )2
La suma de los cuadrados totales para los datos de la Tabla 10 es 41,66. Esta suma de cuadrados totales refleja la desviación de cada observación de la gran media. Esta suma puede ser separada (descompuesta o dividida) en dos diferentes fuentes. El primer componente de variación es la variación entre los tratamientos (muchas veces también se denomina variación entre los grupos; en nuestro caso, usaremos siempre el primer término, excepto que indiquemos lo contrario). La variación entre los tratamientos representa las diferencias entre las medias o promedios de cada uno de los tratamientos. Considerando cada media de tratamiento como una observación sencilla, esta fuente de variación es ( et = entre tratamientos):
107 a
n
SS e t
(X
i 1
j 1
i
X )2
Esta ecuación contiene dos sumatorias, una para los a tratamientos y otra para las ni observaciones en cada tratamiento. Hacer la primera sumatoria es sencillo: calcule la media de cada tratamiento, sustráigala de la gran media, eleve al cuadrado este resultado y añada los términos para cada uno de los a tratamientos. Pero ¿cómo 2 se suman las j cuando no hay subíndice j en la ecuación ( X i X ) ? Debido a que hay ni observaciones en cada tratamiento, simplemente se multiplica la primera sumatoria por la constante ni . Así, la ecuación anterior es equivalente a: a
SS e t ni ( X i X ) 2 i 1
En el diseño balanceado que discutimos aquí, ni es el mismo en todos los tratamientos ( ni n ), y así se simplifica a: a
SS e t n ( X i X ) 2 i 1
En los datos que se muestran en la Tabla 10, las tres sumas de cuadrados para los tratamientos son 0,17, 2,02 y 3,35. Debido a que hay cuatro réplicas por tratamiento, la suma de cuadrados entre los tratamientos es igual a 4 x (0,17 + 2,02 + 3,35) = 22,16. En el modelo del ANOVA de una vía, los factores controlados representan procesos que hipotéticamente causan diferencias entre los tratamientos. El efecto de estos factores se representa por la suma de los cuadrados entre los a
tratamientos (ecuación SS e t i 1
n
(X j 1
i
X ) 2 ).
El componente restante es la variación dentro de los tratamientos. Más que calcular la desviación de cada observación de la gran media, se calcula la desviación de cada observación de su propia gran media de tratamiento y luego se suman los grupos y las réplicas. Se tiene así que ( dt = dentro de los tratamientos): a
n
SSdt ( X ij X i ) 2 i 1 j 1
Este componente de variación en los datos del ejemplo es 19,50. La suma de los cuadrados dentro de los tratamientos a menudo se denomina la suma residual de cuadrados, la variación residual o el error de variación (usaremos comúnmente el término residual para referirnos a este componente). Como en el análisis de regresión (que veremos más adelante), se refiere a residual debido a que esta es la variación que no es explicada por los factores controlados o experimentales en el modelo. La
108 variación dentro de los tratamientos se describe como error de variación debido a que el modelo estadístico incorpora este componente como muestreo aleatorio de una distribución normal. En modelos ANOVA más complejos se separa la suma de los cuadrados totales en múltiples componentes de variación, y cada uno representa la contribución de un factor en el modelo. En todos los casos, lo que siempre queda es la suma residual de los cuadrados. Una de las contribuciones claves de Fisher fue demostrar que los componentes de la variación son aditivos: SStotal SSet SS dt
En palabras, la suma total de los cuadrados es igual a la suma de los cuadrados entre los tratamientos más la suma de los cuadrados dentro de los tratamientos. Para los datos de la Tabla 10 se tiene: a
n
a
n
a
n
( X ij X )2 ( X i X )2 ( X ij X i )2 i 1 j 1
i 1 j 1
i 1 j 1
41,66 22,16 19,50
Debemos enfatizar que la separación de la suma de los cuadrados es una propiedad puramente algebraica: este resultado es igual para cualquier conjunto de números, indistintamente de lo que representen o de como sean colectados. No obstante, la separación de la suma de los cuadrados parece ser una medida natural de los efectos de los tratamientos. Si la suma de los cuadrados entre los tratamientos es relativamente grande, comparada con la suma de los cuadrados dentro de los tratamientos, entonces las diferencias entre los tratamientos parecerían ser importante. Por otra parte, si la suma de los cuadrados dentro de los tratamientos es grande, comparada con la suma de los cuadrados entre los tratamientos, se concluye que las diferencias entre los tratamientos son débiles o inconsistentes. Se verá más adelante como cuantificar estas ideas en el ANOVA. Veamos con más detalles el ejemplo anterior (datos de la Tabla 10). Los datos consisten de observaciones hipotéticas de períodos de floración (en semanas) de la flor de la planta llamada popularmente espuela de caballero en un conjunto de 12 parcelas en una pradera alpina. Cuatro de las parcelas recibieron un tratamiento de calentamiento experimental, cuatro parcelas sirvieron como controles (los elementos de calentamiento se instalaron pero nunca fueron activados) y cuatro parcelas permanecieron sin manipulación alguna. Hubo i 1 hasta 3 tratamientos, con n 4 réplicas por tratamiento. Para calcular la media de cada tratamiento, simplemente se sumaron todos los valores (p. ej., para el tratamiento No manipulado es 10 + 12 + 12 + 13 = 47) y se dividió por el número de valores n 4 ); la media para el tratamiento No manipulado fue así X NM 11,75 . De la misma forma, la media para el tratamiento Control fue
109 X C 10,75 , mientras que la media para el tratamiento Tratamiento fue X T 14,00 .
Luego se calculó la gran media de los datos, lo cual se hizo sumando todas las medias de los tratamientos, es decir X NM X C X T y que rindió X 12,17 . Luego se obtuvo la suma de los cuadrados de las desviaciones de cada observación de su propia media ( X ij X i ) 2 y se sumaron para obtener la suma de los cuadrados dentro de los tratamientos. Para el tratamiento No manipulado se efectuó así: n
(X j 1
X 1 ) 2 5,88
1j
Para el tratamiento Control se tuvo: n
(X j 1
X 2 ) 2 5,88
2j
Y para el tratamiento Tratamiento se tuvo: n
(X j 1
3j
X 3 ) 2 10,00
La suma de los cuadrados dentro de los tratamientos: a
n
( X i 1 j 1
ij
X i )2
fue así: n
n
n
j 1
j 1
j 1
( X1 j X 1 )2 ( X 2 j X 2 )2 ( X 3 j X 3 )2 Lo cual simplemente es 5,88 5,88 10,00 21,76 . Resumiendo, la suma de los cuadrados dentro de los tratamientos (también denotada como SS dt ) fue igual a 21,76, o: a
n
( X i 1 j 1
ij
X i ) 2 21,76
A continuación se calcularon las desviaciones cuadradas de cada media de los 2 tratamientos de la gran media ( X i X ) multiplicadas por el tamaño de la muestra n 4. Para el tratamiento No manipulado se tuvo que:
110 ( X 1 X ) 2 0,70
Para el tratamiento Control se tuvo: ( X 2 X ) 2 8,07
Y para el tratamiento Tratamiento se tuvo: ( X 3 X ) 2 13,40
Sumando todos estos valores, se obtuvo la suma de los cuadrados entre los tratamientos: a
n
( X i 1 j 1
i
X )2
la cual fue: ( X 1 X )2 ( X 2 X )2 ( X 3 X )2
que se obtuvo simplemente sumando 0,70 + 8,07 + 13,40 = 22,17. Resumiendo, la suma de los cuadrados entre los tratamientos (también denotada como SS et fue igual a 22,17, o: a
n
( X i 1 j 1
i
X ) 2 22,17
Finalmente, se calcularon las desviaciones cuadradas de cada observación de la 2 gran media ( X i j X ) , y se sumaron para obtener la suma total de los cuadrados. Para el tratamiento No manipulado se calculó como: n
(X j 1
1j
X ) 2 5,46
Para el tratamiento Control se tuvo: n
(X j 1
2j
X ) 2 12,83
Y, finalmente, para el tratamiento Tratamiento se tuvo: n
(X j 1
3j
X ) 2 23,40
111
Sumando todos estos valores, se obtuvo la suma total de los cuadrados: a
n
( X i 1 j 1
ij
X )2
la cual se obtuvo simplemente sumando 5,48 + 12,83 + 23,40 = 41,71. Resumiendo, la suma total de los cuadrados (también denotada por SStotal ), fue igual a 41,71, o: a
n
( X i 1 j 1
ij
X ) 2 41,71
Así, la suma total de los cuadrados (41,71) puede ser separada aditivamente en el componente dentro de los tratamientos (21,76) y el componente entre los componentes (22,17). Esta es una propiedad algebraica fundamental que aplica a cualquier conjunto de números. Usar tales datos para conducir una prueba estadística, tiene sentido solamente si el muestreo cumple las presunciones generales del ANOVA, y sigue el diseño particular del modelo del ANOVA específico. Veremos más adelante ejemplos particulares del ANOVA usando el paquete estadístico SAS. Asimismo, veremos en detalle la denominada prueba t Student (o simplemente prueba t ), un tipo particular del ANOVA en el que sólo se comparan dos medias. Veamos ahora las presunciones que deben cumplirse para poder aplicar el ANOVA. 7.4 Presunciones del ANOVA Antes que podamos usar la suma de los cuadrados en un modelo estadístico, los datos tienen que cumplir el siguiente conjunto de presunciones. Es importante recalcar que existen muchas opiniones que en ocasiones crean confusión con respecto a ciertas presunciones del ANOVA. Trataremos de presentar el tópico de la manera más clara posible, y aclarar los detalles que lo rodean. Superficialmente, estas son las presunciones del ANOVA: 1) las muestras son independientes e idénticamente distribuidas (esta es la presunción más comprometedora, y rara vez puede ser cumplida en estudios ecológicos); 2) las varianzas son homogéneas entre los grupos (ocasionalmente puede ser corregida con transformaciones apropiadas); 3) los residuales se distribuyen normalmente (esta presunción es la más confusa de todas; puede ser corregida con transformaciones apropiadas o a través del denominado Teorema Central del Límite); 4) las muestras se clasifican correctamente y 5) los efectos principales son aditivos. A continuación se detalla cada una de ellas. 7.4.1 Muestras independientes e idénticamente distribuidas Esta premisa forma la base de cualquier modelo de muestreo estadístico. Se asume que los datos representan una muestra aleatoria del espacio muestral que ha
112 sido definido, y que las observaciones dentro de los tratamientos y entre los tratamientos son independientes unas de otras (Nota: Un caso excepcional sería cuando el investigador puede muestrear toda la población que se está estudiando). En palabras simples, esto quiere decir que la muestra que se tome en cualquier tratamiento no afecte la muestra tomada en otro tratamiento. En todas las descripciones que se hicieron en el ejemplo anterior, se asumió el caso más simple de todos, en el que los tamaños de la muestras ( n ) son iguales dentro de todos los tratamientos. Este tipo de modelo se denomina balanceado. Cuando los tamaños de las muestras no son iguales para todos los tratamientos, el modelo se denomina desbalanceado o no balanceado. El problema de la independencia de las muestras es tan grande, que muchos estudios ecológicos y biológicos no son válidos debido a la imposibilidad de resolverlo. Esto, desafortunadamente, no ha evitado la publicación de los resultados de tales estudios experimentales, sin consideración alguna de las consecuencias de los problemas para la interpretación de los análisis causados por la no independencia de los datos (Underwood, 1981; Hurlbert, 1984). Como resultado de esto, se han efectuado muestreos y experimentos subsecuentes usando los métodos erróneos publicados. Por lo tanto, es crucial romper el ciclo de la autoperpetuación en el uso de procedimientos estadísticos inválidos. La mejor forma de considerar la no independencia de los datos, y sus efectos sobre la interpretación, es a través de ejemplos de los cuatro tipos diferentes (Tabla 11). Cada uno de ellos puede ser evitado o manejado si se presta atención a la necesidad de removerlos de los diseños experimentales. La responsabilidad de crear datos independientes siempre recae sobre el investigador. Dentro de los límites impuestos por la necesidad de las hipótesis establecidas, casi siempre pueden obtenerse datos independientes mediante la aplicación de más pensamiento, más esfuerzo y más dinero. Las limitaciones externas impuestas por las dos últimas (esfuerzo y dinero) pudiera explicar el por que se recolectan y analizan tantos datos no independientes. No es responsabilidad de los estadísticos entender por qué los datos biológicos son propensos a la no independencia en cualquier experimento particular. Es necesario que los biólogos y ecólogos expliquen los problemas potenciales, de manera de recibir mejores recomendaciones por parte de los estadísticos. Existen, esencialmente, cuatro tipos de no independencia. 7.4.1.1 Correlación positiva dentro de las muestras Consideremos una forma de no independencia que se observa en un experimento en el que se induce un comportamiento que afecta la estimación del crecimiento de pequeñas langostas. En el primer caso considerado, las langostas son completamente independientes unas de otras; es decir, ninguna de ellas es influenciada por la presencia de otras langostas. Si se les permite comer cuando lo deseen, el número de excursiones de alimentación que cada animal haga y el tiempo invertido comiendo cada vez, no serán influenciados por otros animales. Este comportamiento fue simulado muestreando 15 langostas que emergían a comer durante 12 horas (Figura 7.1; Apéndice C). Cada animal emergía al azar e invertía en
113 comer un tiempo al azar de entre 15 y 25 minutos. Luego volvía al refugio por un tiempo al azar de entre 15 y 25 minutos antes de volver a emerger a comer. El modelo estimó que cada animal realizaba un promedio de 10 excursiones de 20 minutos promedio. Por lo tanto, en 12 horas (720 minutos) cada animal invertía en comer un promedio de 200 minutos y permanecía un mínimo de 200 minutos en el refugio antes de volver a comer. Ahora, consideremos el resultado de muestrear un grupo de langostas que son influenciadas por el comportamiento de otras langostas. Supongamos que las langostas cuando están aisladas se comportan como se describió arriba. Cuando las langostas se observan unas a otras, son inquisitivas y tienden a salir a comer tan pronto como ven a otras langostas comiendo. En adición a comenzar sus propios esfuerzos por comer, las langostas son más propensas a emerger cuando otras langostas están comiendo. Esto fue modelado para un grupo de 15 langostas incrementando la probabilidad de emerger cuando estaban en el refugio. Para ilustrar el punto, se hizo que cada langosta fuera 20 veces más propensa a emerger siempre que otra langosta salía a comer. Entonces, cada langosta permanecía comiendo entre 15 y 25 minutos antes de retornar al refugio y permanecer en el por un tiempo entre 15 y 25 minutos. Como se esperaría, y debido al resultado de la influencia de otros animales, cada langosta salió a comer más a menudo que como lo hacían las langostas independientes descritas anteriormente. La longitud de las excursiones de alimentación no fue influenciada por la presencia de otras langostas, pero, como resultado de la alimentación más frecuente, el tiempo total invertido en la alimentación se incrementó grandemente (Apéndice C). Existen dos consecuencias de la correlación positiva entre las langostas. Para el número de esfuerzos de alimentación y el tiempo total invertido comiendo, hubo el incremento predicho para las langostas que no fueron independientes unas de otras. Mucho más importante aún, hubo una disminución sustancial en la varianza de estas variables ( 2 para langostas independientes = 1,97; 2 para langostas no independientes = 0,38). Esto ocurre siempre que haya correlación positiva entre las réplicas en una muestra. Esta es una consecuencia general de la no independencia positiva entre las unidades en una muestra. Las consecuencias para las pruebas estadísticas sobre una muestra son muy drásticas. En el caso considerado, se incrementó el tiempo promedio de alimentación, probablemente, por lo tanto, la tasa de crecimiento de los animales. Cualquier efecto de factores tales como dietas, temperaturas, tasas de flujo, etc. sobre la tasa de crecimiento, estaría influenciado por el comportamiento no independiente. En estas condiciones, el experimento solamente detectaría diferencias muy evidentes en las tasas de crecimiento; diferentes dietas no alterarían el crecimiento si este ya estuviera maximizado por la tendencia a una mayor alimentación causada por la influencia de otros animales. Pero el crecimiento a la tasa mostrada por las langostas muestreadas independientemente habría, tal vez, revelado diferencias debido a estos factores.
114
Generalmente, sin embargo, la influencia de la correlación positiva entre las réplicas es causar un error Tipo I alto en las pruebas estadísticas sobre las diferencias entre muestras. Esto se ilustra muy bien simulando un experimento sobre el crecimiento de langostas en tanques, para comprobar la hipótesis nula de que no hay diferencia entre las tasas de crecimiento promedio de tres dietas. Las dietas representan un factor fijo (se discutirá sobre factores fijos y factores al azar más adelante) con tres niveles. Por simplicidad, se asume que no existe diferencia entre un tanque y otro debido a factores tales como la posición en el laboratorio (p. ej., cantidad de luz, tasa de flujo de agua) o cualquiera otra fuente no controlada de variación. Esto es improbable en el mundo real, y requiere tanques réplicas para asegurar que cualquiera diferencia entre los tanques pueda lógicamente ser atribuida a las diferencias en las dietas (de existir, por supuesto), más que a factores de confusión. Se mantienen nueve langostas juveniles en cada tanque y se alimentan con una cantidad excesiva de alimento cada día. Ahora, supongamos que no existe diferencia en el crecimiento debido a las diferentes dietas y que el crecimiento está directamente relacionado al tiempo invertido en comer. El experimento se simuló con langostas independientes exactamente como se describió anteriormente. El tiempo promedio invertido en comer por individuo en 12 horas en todos los 200 experimentos fue 199 minutos. La varianza promedio entre las langostas (es decir, dentro de los tratamientos) fue muy similar a la varianza entre los tratamientos. Consecuentemente, el promedio de los valores de F para comprobar la hipótesis nula que establece que no hay diferencia entre las dietas fue 1,09. La probabilidad del error Tipo I fue como se predijo por la distribución nula de F con 2 y 24 grados de libertad. La distribución de los valores de F de los 200 experimentos simulados se muestra en la Figura 7.2. Así, cuando se muestrearon independientemente, los resultados experimentales se ajustan a la teoría del análisis de varianza usada. En completo contraste, cuando los experimentos fueron simulados de la misma forma, pero creando correlación positiva entre las langostas como se describió anteriormente, el efecto sobre los análisis fue desastroso. No hubo diferencia entre las dietas; la hipótesis nula fue aún cierta. La correlación positiva entre las réplicas disminuyó la variación dentro de las muestras. El tiempo promedio invertido en comer se incrementó, pero debido a que esto no difería entre las dietas, no tuvo influencia sobre los resultados. El cuadrado promedio entre los tratamientos continuó midiendo la variabilidad intrínseca entre las langostas como si ellas estuvieran comportándose independientemente. El resultado es dramático. Debido a que la variación estimada dentro de las muestras es mucho más pequeña que la encontrada cuando las langostas eran muestreadas independientemente, la variabilidad entre las muestras fue relativamente grande (aunque fue correctamente estimada). Los valores de F fueron mucho mayores que lo que hubieran sido si los datos fueran muestreados independientemente. El valor promedio de F en los 200 experimentos y las
115 proporciones mayores que los valores críticos (a P = 0,25, 0,10 y 0,05) son todos excesivos. La distribución de F (Figura 7.2) está marcadamente desplazada hacia valores grandes, y existe, consecuentemente, una probabilidad excesiva de error Tipo I. Aunque no hubo diferencia entre las dietas, en 84 de los 200 experimentos hubo rechazo de la hipótesis nula. La correlación positiva entre las réplicas ha causado un aumento en el error Tipo I, aumentando la probabilidad de detectar diferencias aparentes entre los tratamientos en comparación con la predicha por casualidad cuando la hipótesis nula es cierta. Así, la biología de las langostas (sus respuestas mutuas cuando están en tanques) tiene serios resultados para las pruebas estadísticas sobre datos derivados de animales en grupos. Si este problema ocurre en un experimento particular, no es fácil de determinar. Es siempre mejor asumir que ocurrirá no independencia y que los animales, plantas, nidos, abundancia, etc. no son independientes al menos que se muestree para hacerlos así. Es muy importante mantener los animales, o parcelas o cualquiera sea la unidad experimental, separados, porque la hipótesis nula lo requiere; mantenerlos juntos casi con seguridad creará alguna forma de no independencia. Los datos serán independientemente muestreados solamente teniendo réplicas independientes. Sin embargo, si la hipótesis nula es sobre grupos de animales, o parcelas experimentales o grupos de plantas, es esencial tener medidas de los resultados promedios en grupos replicados o conjuntos de parcelas o grupos, no de miembros individuales de los grupos. Los biólogos experimentales deben siempre estar alerta contra la no independencia; muchos procesos biológicos, tanto ecológicos como de comportamiento, causan no independencia entre las réplicas. 7.4.1.2 Correlación negativa dentro de las muestras Los datos muestreados no independientemente pueden también correlacionarse negativamente. De nuevo, un ejemplo simple ilustrará este caso. Consideremos el ejemplo de las langostas discutido anteriormente, solamente que esta vez tenemos una especie más agresiva. Algunos de los animales salen a comer cuando lo desean, indistintamente que otras langostas estén o no comiendo, pero lo hacen emitiendo mucho ruido y haciendo mucho movimiento. Como resultado de esto, las langostas más tímidas que se encuentran comiendo regresan al refugio y no vuelven a salir a comer hasta que las langostas más agresivas regresan a sus refugios. Esto fue modelado como antes, dividiendo 15 langostas en tres grupos. Las primeras cinco langostas fueron consideradas agresivamente dominantes y se alimentaban como individuos independientes. Las langostas del segundo grupo fueron intimidadas por el primer grupo (cesaban de comer y no volvían a salir a comer si un miembro del primer grupo estaba comiendo). El grupo final era muy tímido y fue intimidado por los dos grupos anteriores. Una muestra sencilla modelada en esta forma mostró una correlación negativa marcada entre los individuos. Como resultado, tanto el número de excursiones de alimentación por individuo como el tiempo promedio de la excursión disminuyeron (Figura 7.1; Apéndice C). El tiempo total invertido en la alimentación se redujo dramáticamente. De mayores consecuencias para las pruebas estadísticas, la varianza de cada una de estas variables fue mucho mayor que la varianza para las
116 langostas independientes. Obviamente, si algunas langostas se alimentaban como lo deseaban, pero otras estaban impedidas de hacerlo así, habrá más dispersión en el número de excursiones y sus duraciones que si las langostas lo hicieran como lo deseaban. En experimentos con tales langostas, mantenerlas separadas causará diferente comportamiento del que ocurre cuando están juntas. Como resultado, las medias y varianzas estimadas de algunas variables medidas diferirán. Esto requiere que determinemos cual forma de medición es apropiada para la hipótesis nula que se examina, y luego asegurar que se diseñe el experimento apropiado. Existe aún, sin embargo, el problema estadístico de los mayores estimados de la varianza en juegos de réplicas no independientes negativamente correlacionados. Esto se ilustra simulando, como antes, 200 experimentos para comprobar la hipótesis nula que el crecimiento de las langostas no es afectado por la escogencia de una de las tres dietas. Se usaron las langostas tímidas ( n 9 réplicas) en un tanque con cada dieta, ignorando las diferencias entre tanques (es decir, ignorando la confusión potencial). La influencia de la correlación negativa entre las réplicas dentro de los tratamientos es muy clara. Los valores de F para comprobar las diferencias entre los tiempos totales invertidos en comer son, en promedio, mucho más pequeñas que para las langostas muestreadas independientemente, debido a que las varianzas entre las réplicas se inflaron (Figura 7.2; Apéndice C). NOTA: Inflación es un término técnico que se usa en estadística y que, como muchos otros, es difícil de traducir apropiadamente, pero que en general se asocia con un aumento artificial o indebido de un valor estadístico. También recordemos que usamos en el texto indistintamente las palabras variación, varianza, variancia; éste último parece ser el más apropiado desde el punto de vista linguístico. Yo prefiero varianza; ustedes pueden usar el que les parezca más apropiado. La variabilidad entre los tratamientos también fue más pequeña que para las langostas independientes, debido a que el tiempo de alimentación promedio se redujo. Las diferencias entre las dietas fueron, por lo tanto, en promedio, menores que para las langostas independientes. Ningún valor de F excedió los valores críticos para F a valores de P 0,25, 0,10 o 0,05 . La tasa de error Tipo I fue, por lo tanto, cero. Las probabilidades de un error Tipo I y las distribuciones observadas de los valores de F (Figura 7.2) no son nada parecidas a las especificadas en tablas, aunque la hipótesis nula es cierta. Lo que esto significa en la práctica, sin embargo, es que se infla la probabilidad de un error Tipo II (retener una hipótesis nula falsa). En otras palabras, si hubo diferencias debidas a las tres dietas escogidas, estas debieron ser mucho mayores para ser detectadas en experimentos con langostas negativamente correlacionadas que con langostas muestreadas independientemente. Como antes, el investigador tiene que tomar el control de esta situación, siendo juicioso acerca de la biología de los sistemas que se estudian y estando consciente del problema. 7.4.1.3 Correlación negativa entre las muestras
117 Las dos situaciones previas implicaban no independencia debido a la correlación entre réplicas dentro de las muestras. Puede haber también correlación entre los tratamientos. Esto ocurre debido a relaciones espaciales o temporales, o por el uso del mismo organismo repetidamente para diferentes tratamientos experimentales. Para ilustrar el caso, discutimos aquí casos muy simples. Supongamos que se ha observado que dos especies de plantas tienen distribuciones en parches a pequeña escala espacial. Los parches de ambas especies son aproximadamente de 5 a 50 cm de diámetro. La impresión general es que una de las especies es más abundante (es decir, ocurre en mayor porcentaje de cubierta terrestre que la otra). El modelo para explicar esta observación es que existe en realidad una mayor cubierta de la especie A que de la especie B. Una hipótesis apropiada establece que un muestreo cuantitativo cuidadoso de la cubierta de las dos especies revelará una mayor abundancia de la especie A que de la especie B, y la hipótesis nula es H 0 : A B . Esto se comprueba muestreando con cuadratas divididas con una grilla de 100 puntos. El número de puntos en la grilla ocupado por cada especie proveerá un estimado de su cubierta. Hay dos formas de proceder. En una, se lanzan varias cuadratas representativamente en el área de estudio, y ambas especies son contadas en cada cuadrata. En la otra, se lanzan varias cuadratas pero sólo se determina la cubierta de la especie A; luego, se muestrea un segundo juego de cuadratas colocadas independientemente para estimar la cubierta de la especie B. En este segundo caso, los estimados de la media de la cubierta de las dos especies son independientes. Consideremos la situación donde no hay diferencia en la cubierta promedio entre las dos especies y que no hay espacio descubierto (es decir, A B 50 por ciento). Las cuadratas lanzadas independientemente (dos muestras cada una de n 10 cuadratas) proveen estimados no sesgados de estas medias, las cuales pueden ser comparadas por un análisis de varianza (o equivalentemente por una prueba t Student ). Tales datos fueron simulados en 1000 experimentos para una situación en donde la hipótesis nula es cierta, y no había diferencia entre las cubiertas medias de las dos especies. Los resultados se muestran en la Figura 7.3, donde la distribución de los valores de F se ajusta cercanamente con la esperada por azar. En contraste, si las dos especies son muestreadas en las mismas cuadratas, va a observarse, obviamente, una correlación extremadamente negativa entre ellas. Donde una especie cubre un gran espacio en la cuadrata, la otra sólo puede cubrir un pequeño espacio y viceversa. Esto tiende a maximizar la diferencia en cubierta entre las dos especies por cuadrata. Si, por azar, varias cuadratas tienen cubiertas por encima del promedio de la especie A, la media de la cubierta será sobreestimada, pero la media de la especie B será inestimada debido a que los dos estimados están unidos por el método de muestreo. Como resultado (Figura 7.3), tendremos más muestras con diferencias significativas aparentemente grandes en la cubierta promedio que la que habría de esperarse por azar. Esto fue simulado 1000 veces, y los resultados se observan en la Figura 7.3. Como se predijo, hubo una diferencia aparentemente mayor entre las cubiertas de las dos especies y los valores de F fueron mayores de lo esperado, causando un incremento en la probabilidad de cometer un error Tipo I (Apéndice D). La
118 hipótesis nula hubiera sido rechazada erróneamente en 18 por ciento de los experimentos; entre tres y cuatro veces la tasa de error de los datos muestreados independientemente. Este no es un rasgo especial de la situación donde las dos especies están absoluta y negativamente correlacionadas debido a que sus cubiertas suman hasta 100 por ciento en cada cuadrata. Para demostrar esto, las dos situaciones (muestreos con conjuntos de cuadratas independientes o muestreos de ambas especies en la misma cuadrata) fueron simuladas otras 1000 veces con la cubierta promedio de las dos especies en 40 por ciento. Así, hubo, en promedio, 20 por ciento del espacio no cubierto en las cuadratas. Pudiera pensarse que esto resolvería el problema debido a que cada especie puede, teóricamente, distribuirse independientemente. No todo el espacio está ocupado, de modo que la cantidad de terreno disponible para ser ocupado por una especie no es sólo lo que deja libre la otra especie. A pesar de este razonamiento, muchas cuadratas aún muestran correlación negativa entre las dos especies. Siempre que una especie sea más abundante que el 50 por ciento de la cubierta, habrá solamente menos de 50 por ciento de cubierta para la otra. Siempre que una especie esté presente en grandes cantidades, la otra sólo puede tener una pequeña cubierta, y viceversa. La correlación negativa de nuevo aumentó la probabilidad de un error Tipo I, causando un incremento en la probabilidad de rechazar la hipótesis nula en cualquier experimento sencillo. La situación descrita aquí para muestreos no independientes, pudiera ser remediada simplemente tratando los datos de forma apareada (porcentaje de cubierta de A, porcentaje de cubierta de B) por cada n 10 cuadratas, resultando en una prueba t Student apareada con nueve grados de libertad (se verán los detalles en la sección de la prueba t Student ). Esta solución convierte los datos correlacionados negativamente en una sola variable. Esta solución, sin embargo, no está disponible si tuviéramos más de dos especies. La única solución satisfactoria al problema de no independencia entre los tratamientos es efectuar el trabajo extra necesario para asegurar la disponibilidad de muestras independientes. 7.4.1.4 Correlación positiva entre las muestras La última forma de no independencia de mayor preocupación para los biólogos es también entre tratamientos, donde existe un patrón de correlación positiva. Se ilustrará este caso con una manipulación experimental de las presas de algunos predadores que operan en un hábitat muy parchado. La historia natural de los predadores incluye el hecho de que la intensidad o frecuencia de la predación varía de sitio en sitio. Las observaciones sobre dos especies presas (especie A, Ea y especie B, Eb ) sugieren una mayor supervivencia de una especie cuando está presente otra especie. El modelo para explicar esta correlación es que cuando la Eb es abundante, los predadores las seleccionan a ellas o invierten más tiempo comiéndoselas. Consecuentemente, se mejora la supervivencia de la Ea . Los modelos alternativos explican que las observaciones son el resultado de tasas de depredación diferenciales
119 sobre la Ea que coinciden con los patrones de distribución de la Eb . En otras palabras, los modelos alternativos no están basados en la noción que la presencia de la Eb causa la mortalidad reducida observada de la Ea . Una hipótesis relevante, surgida del modelo propuesto es, por lo tanto, que la supervivencia reducida de la Ea ocurrirá donde la Eb sea removida experimentalmente, en contraposición a áreas similares donde la Eb esté presente. La hipótesis nula es que la remoción de la Eb no resultará en un cambio o un incremento en la supervivencia de la Ea . Para comprobar esto, se establecieron varias parcelas réplicas en las cuales se removió la Eb . Las parcelas control no fueron manipuladas. En el mundo real, habría la necesidad de controles que representaran las perturbaciones causadas por la remoción de la Eb (p. ej., restos de carcasas de animales, heces de otros animales, etc.) sin remover las presas. Sin embargo, se mantendrá la simplicidad aquí. Un experimento típico independientemente muestreado luciría como el mostrado en la Figura 7.4a. Parcelas controles y experimentales están esparcidas sobre la zona de estudio. Desconocido al investigador, la zona de estudio es realmente un conjunto de parches con diferentes tasas naturales de depredación. La variación entre las réplicas de cada uno de los tratamientos será medida de las diferencias de parche a parche, como se muestrea para cada tratamiento, por un conjunto de réplicas esparcidas a través de los parches. El resultado de tales experimentos se ilustra en la Figura 7.5 para dos situaciones (Apéndice E). En el primer caso, no hay diferencia en la mortalidad debido a los predadores cuando la segunda especie presa fue removida. La hipótesis y el modelo estaban equivocados; la hipótesis nula debió haber sido retenida. En 1000 simulaciones, la hipótesis nula fue rechazada, como se esperaba, en 49 experimentos (es decir, la probabilidad de cometer un error Tipo I fue aproximadamente 0,05). En contraste, cuando el modelo y la hipótesis fueron correctos y hubo una diferencia en la supervivencia cuando la Eb estaba presente, el experimento muestreado independientemente algunas veces lo detectó. El poder del experimento para detectar tal diferencia fue, sin embargo, pequeño (0,31). El experimento fue entonces simulado usando el diseño alternativo de tener las unidades control y experimental cercas unas de otras (Figura 7.4b). Esto trajo como consecuencia que las parcelas estaban en pares, con cada par estando en uno de los parches (desconocido para el investigador). La variabilidad entre las réplicas dentro de las muestras fue idéntica, en promedio, a la del diseño previo. Las parcelas réplicas en cada tratamiento estaban, después de todo, aún esparcidas en una muestra aleatoria de los parches. Lo que es diferente en este arreglo es que no hubo diferencia de un tratamiento a otro que representara diferencias entre los parches. El punto se revela mejor considerando la situación cuando la hipótesis nula es cierta y no hay efecto de los tratamientos experimentales. Hay, sin embargo, diferencias entre todas las parcelas. La diferencia entre una parcela y otra del mismo tratamiento en la supervivencia de la Ea se debe a dos componentes. Uno es la
120 diferencia causada por el hecho de que una parcela estaba en un parche con una intensidad particular de depredación, y la otra parcela en un parche diferente. Adicionalmente, hubo también una diferencia que ocurrió entre una parcela y otra debido a menor variabilidad en el mismo parche. Así, ninguna parcela individual proveyó un estimado de la mortalidad libre de errores para el parche entero. Esto es menor que las diferencias entre las parcelas; de otra manera, la observación original de que la depredación es en parches no hubiera sido hecha. Así, la variación de parcela réplica a parcela réplica dentro de un tratamiento, incluye la variación de parche a parche y cualquiera otra variación de un lugar determinado a otro dentro de un parche. En el segundo diseño experimental, la variabilidad entre réplicas del mismo tratamiento es exactamente como antes. Consiste de las variaciones de parche a parche, y las diferencias individuales entre parcelas en el mismo parche. En contraste, para las parcelas controles y experimentales en el mismo parche, la única diferencia es la variación más pequeña dentro de los parches. La variación entre tratamientos ya no incluye componente alguno que mida la variabilidad entre los parches. El efecto de esto es que la variabilidad entre los tratamientos, si la hipótesis es falsa y no hay diferencia promedio debido a los tratamientos experimentales, será menor que la variabilidad entre las réplicas dentro de los tratamientos. Como con los casos previos, la responsabilidad para efectuar el experimento con la debida independencia entre los tratamientos es enteramente del investigador. No es apropiado o necesario argumentar que, en el caso considerado aquí, no se sabe que existen parches o que, debido a que no se conoce acerca de los parches, no hay que preocuparse por ellos. Se necesita demostrar que los patrones espaciales y temporales de los arreglos de los tratamientos experimentales son los mismos que los arreglos de las réplicas dentro de los tratamientos. Entonces, cualquiera no independencia fuera del control del investigador será igual en ambos estimados de la variación, es decir, entre y dentro de los tratamientos. Obviamente, si hay una correlación positiva potencial entre los tratamientos, descubrir diferencias significativas entre los tratamientos en un análisis estadístico significa que los problemas de no independencia no causaron un error. La correlación positiva entre los tratamientos causa un aumento en la probabilidad de cometer un error Tipo II (retener una hipótesis nula cuando debiera ser rechazada). Por lo tanto, si la hipótesis nula es rechazada, no pudo haber ocurrido un error Tipo II, a pesar de la no independencia potencial. 7.4.1.5 ¿Como evitar la no independencia? No siempre es posible realizar pruebas formales sobre resultados experimentales para determinar si hay patrones de no independencia. El tipo de problema surgido por la no independencia entre los tratamientos se puede tratar de mejor forma desde dos perspectivas. Primero, se debe invertir tiempo considerable evaluando la biología
121 y los procesos que operan en el sistema que está siendo estudiado. Estar al tanto de la necesidad de evitar la no independencia es el paso más importante. No use las mismas parcelas, animales, tanques, nidos, etc., en más de un tratamiento si ellos son las unidades réplicas. En ocasiones no es posible evitar las correlaciones. Veamos este ejemplo simple: los pacientes que atienden un hospital pueden ser asignados independientemente unos de otros a varios tratamientos médicos en un experimento sobre el efecto de diferentes fármacos. Pudiera ser, sin embargo, que todos los pacientes provengan de una zona afectada por los desechos tóxicos emanados por la chimenea de una fábrica. Como resultado, desconocido a los investigadores, los datos están todos, de una forma u otra, correlacionados. Esto significa que los resultados sólo aplican a la población que está siendo muestreada. La definición cuidadosa de esta población, y la cautela en la extrapolación de los resultados a otras situaciones, es el único procedimiento apropiado. Entonces, por supuesto, la especificidad de los resultados causada por factores desconocidos, tales como la chimenea de la fábrica, no causará errores de interpretación. Si se desea generalizar a otras áreas y otras poblaciones, se debe comprobar la hipótesis que los resultados en cualquiera otra parte difieren y demostrar que esta noción está equivocada (fallando en rechazar la hipótesis nula). Entonces, cualesquiera causas de no independencia que afecten al juego entero de datos no afectará las interpretaciones. 7.4.2 Las varianzas son homogéneas entre los tratamientos Aunque las medias de los tratamientos puedan diferir unas de otras, se asume que la varianza dentro de un tratamiento es aproximadamente igual a la varianza de los demás tratamientos. Así, cada tratamiento contribuye aproximadamente con la misma suma de los cuadrados dentro de los tratamientos. La heterogeneidad entre las varianzas tiene
122 consecuencias en la validez de los análisis cuando existe un marcado alejamiento de la homogeneidad. El problema surge debido a que las muestras de poblaciones con diferentes varianzas, pero con la misma media, pueden diferir en más formas que las muestras de poblaciones que tienen las mismas varianzas. Esto se ilustra en la Figura 7.6. A la izquierda de la figura [(a), (b) y (c)] hay tres poblaciones con las mismas media y varianza. Si se toman muestras de tamaño
n de
cada población para comprobar la hipótesis nula de no diferencia entre las tres medias, un análisis de varianza rechazará la hipótesis nula una vez en veinte veces por casualidad, si la probabilidad escogida de cometer un error Tipo I es 0,05. Esto ocurrirá cada vez que la media de la muestra de una población esté fuera del límite de confianza de 95 por ciento para su población de medias muestrales. Por supuesto, si las tres muestras están en la misma cola (es decir, todas en la cola izquierda o todas en la cola derecha), las medias muestreadas serán similares y el valor de F será pequeño. En numerosas experimentos repetidos, el 5 por ciento de los valores de F que son significativos representan las ocasiones cuando las medias muestrales caen en las colas de estas distribuciones. En la Figura 7.6 d-f, se ilustra la misma situación, pero las tres poblaciones muestreadas no tienen las mismas varianzas. Consecuentemente, las distribuciones de frecuencias de las posibles medias muestrales no tienen las mismas varianzas. Ahora hay mucho más posibles muestras de la población e que tendrán medias significativamente diferentes de aquellas en las muestras de la población d. Cualquiera media muestral en el área sombreada de la distribución de frecuencias de e diferirá estadísticamente de cualquiera media muestral dentro de los límites de confianza de la distribución de frecuencias d. Obviamente, la probabilidad de obtener una media muestral de la distribución de frecuencias e que difiera de una media muestral de la distribución de frecuencias d es
123 mucho mayor que la especificada por la cola del 5 por ciento calculada como intervalos de confianza. Las muestras de la población f diferirán mucho más a menudo de e y más a menudo de d que lo que se esperaría por azar si la poblaciones tuvieran las mismas varianzas. La distribución de los valores del estadístico F fue calculado bajo la presunción que todas las poblaciones tienen la misma varianza. Cuando no las tienen, la probabilidad de cometer un error Tipo I (rechazar la hipótesis nula aunque las poblaciones tengan la misma media) es mucho mayor que la especificada por cualquier valor crítico escogido. Esto es cierto solamente cuando el muestreo es balanceado (es decir, todas las muestras tienen el mismo número de réplicas). Cuando las muestras no tienen el mismo tamaño, la heterogeneidad de varianzas puede causar una disminución de la probabilidad de cometer un error Tipo I. 7.4.2.1 Pruebas para comprobar la homogeneidad de las varianzas Se han propuesto varias pruebas para comprobar la homogeneidad de varianzas que han sido usadas ampliamente en la literatura ecológica. Una de ellas es la denominada prueba de Bartlett (1937), la cual ha probado ser muy popular, principalmente porque puede ser usada en casos cuando los tamaños de las muestras difieren. Esta prueba, sin embargo, no es recomendable; su popularidad se contrapone a su inutilidad. Existen innumerables circunstancias donde la prueba de Bartlett indica un significativo alejamiento de la homogeneidad, pero el grado de heterogeneidad no es suficiente para causar un excesivo error Tipo I en una análisis de varianza. El robusto ANOVA no se empantanará en muchas condiciones de heterogeneidad de varianzas que causan el hundimiento de la frágil prueba de Bartlett. La prueba de Bartlett es particularmente sensible a la no normalidad de los datos, lo cual tiene poco efecto sobre el ANOVA.
124 La prueba de Levene (1960) examina los valores absolutos de las desviaciones de cada réplica de la media de su muestra. Cuando las varianzas son diferentes, las desviaciones absolutas entre las muestras difieren. Las diferencias en las desviaciones pueden ser comprobadas por un ANOVA, pero este ya asume que la varianza de las desviaciones es la misma en cada tratamiento. Scheffé (1959) creó una prueba que es insensible a la no normalidad, pero no la recomendó para su uso general. Hartley (1950) propuso un procedimiento que usa como prueba estadística la relación entre la mayor y la menor varianza de las muestras. Sin embargo, sufre del problema que la prueba estadística es grande cuando la menor varianza es muy pequeña, incluso si todas las demás varianzas son la misma. Como resultado de todos los inconvenientes mencionados, probablemente la prueba de Cochran (1951) sea la más útil. Esta prueba usa el cociente entre la mayor varianza y la suma de las varianzas muestreadas. El estadístico de Cochran ( C ) es el siguiente:
C
mayor Si a
S i 1
2
2 i
2
donde Si representa los valores de las varianzas estimadas de las muestras de las a poblaciones muestreadas. La distribución de frecuencias de C ha sido tabulada cuando la hipótesis nula es cierta, las varianzas son iguales y las poblaciones se distribuyen normalmente. La tabla de los valores de C incluye el número de tratamientos o poblaciones ( a ) y los grados de libertad en cada muestra ( n 1 ). Notemos que
n debe ser el mismo para todas las
muestras. Si la prueba de Cochran es significativa, existe evidencia de
125 problemas potenciales en cualquier ANOVA. Existen varios procedimientos que se pueden efectuar una vez que se ha identificado la heterogeneidad de las varianzas. Esto se discutirá a continuación. 7.4.2.2 Control de calidad Una de las primeras cosas que debemos preguntarnos cuando los datos experimentales tienen varianzas heterogéneas es ¿por qué? Después de todo, cuando el experimento comenzó se suponía que las muestras asignadas a los diferentes tratamientos representaban la misma población original. Así, no existe una razón obvia para esperar heterogeneidad de las varianzas. Su descubrimiento pudiera indicar, por lo tanto, que es un producto del experimento; los tratamientos difieren debido a que ellos causan diferentes patrones de variación entre las réplicas más que diferencias entre las medias. Las causas de las diferentes varianzas son, por lo menos, interesantes para interpretar la naturaleza, así como lo son las causas que crean diferentes medias. En general, sin embargo, como con muchas otras cosas en la naturaleza, muchos biólogos y ecólogos ven la heterogeneidad de varianza como un problema más que como una información. El primer paso una vez que se descubre la heterogeneidad de las varianzas es determinar si ésta es inusual. Se pudiera haber experimentado con el tipo de datos que se están analizando, y observar que normalmente no se observa heterogeneidad en ellos. Por ejemplo, pudiéramos haber muestreado la concentración de clorofila por gramo de hoja en numerosos estudios, y nunca haber encontrado heterogeneidad de varianzas entre las diferentes muestras. En este caso, debemos evaluar cuidadosamente las réplicas individuales en la muestra que generó la excesiva varianza. Si una réplica en esa muestra es muy diferente de las otras y es muy grande, se debería considerar si esta réplica es válida. Algunas veces el valor de la réplica es
126 improbable o extremadamente grande. Tal vez alguien puso un dedo sobre el tubo antes de ser leído en el espectrofotómetro. Si se tiene evidencia, a través de numerosos estudios previos, de los tamaños usuales de las varianzas y del rango de datos que pudieran esperarse del muestreo de clorofila en hojas, se tiene evidencia independiente de que los datos están equivocados. La varianza irregular es causada por una lectura errónea. Algunas veces la heterogeneidad de las varianzas ocurre debido a equivocaciones con los datos. Veamos el ejemplo real de un estudio a largo plazo de las poblaciones del caracol intermareal Littorina unifasciata. En la Tabla 12 se observan las varianzas de 10 muestras ( n 10 cuadratas) de una población de esta especie durante 10 años. Una varianza en particular (tiempo 6) es mucho mayor que las otras. Hay 100 cuadratas muestreadas en estos datos. El número de caracoles por cuadrata fue de 0 a 35, excepto para una cuadrata al tiempo 6, el cual fue introducido en la base de datos como 225 caracoles. Así, no solamente hay una varianza excepcionalmente grande en una sola de las 10 muestras, sino también una réplica extrema de las 100 muestreadas. En este caso se comprobó, al chequear las planillas de anotaciones originales, que era un error de transcripción, el número de caracoles era realmente 22. Así, la heterogeneidad de varianza alertó de un error en los datos, porque normalmente no se tiene tal heterogeneidad de varianza en este tipo de muestras y porque se tenía amplia información que ayudó a inducir que había un error. Cuando se observan las medias, se nota que el problema era aún mayor con respecto a ellas, ya que con el error la media resultaba ser 38,2 caracoles, en vez del valor correcto de 17,9. Esto habría tenido serias consecuencias para cualquier análisis y su interpretación. Así, el control de calidad puede ser muy útil para entender los
127 datos. Si no hay una corrección obvia que pueda hacerse, pero existe evidencia de un error, el dato erróneo debería ser omitido del análisis. Por ejemplo, en el caso del análisis de la clorofila, pudiera no haber error en la transcripción sino en la medición del dato. Si existe suficiente evidencia que hay un error, elimine el dato y remplácelo con la media de las otras réplicas (existe mucha controversia acerca de esto, pero no la discutiremos aquí). Este valor tiene la propiedad de mantener los datos balanceados, pero no altera la media de los datos válidos ni altera sus varianzas (la desviación de la media de la media es, por supuesto, cero). Analice los datos y ajuste los grados de libertad para la suma de los cuadrados dentro de las muestras substrayendo uno (para el valor de la réplica perdida). Supongamos que tenemos suficientes datos previos para desconfiar de la varianza estimada, y que sabemos que la muestra sencilla fue re colectada de una forma errónea, entonces pudiéramos eliminar la varianza del análisis. Calculamos la suma de los cuadrados para esa muestra (es decir, la varianza de la muestra multiplicada por sus grados de liberta) y la substraemos de la suma de los cuadrados dentro de las muestras en el ANOVA. Luego, substraemos los grados de libertad para esa muestra de los grados de libertad dentro de las muestras. Ahora, podemos calcular una nueva suma de los cuadrados dentro de las muestras que no use la varianza grande de la muestra rara. Notemos, sin embargo, que probablemente esta es una opción aceptable solamente cuando tengamos muchas muestras. Por ejemplo, si el experimento entero incluye 20 muestras, este procedimiento puede alterar la suma de los cuadrados por sólo 5 por ciento de los datos, cuando mucho. Si, sin embargo, tenemos solamente cuatro muestras, este procedimiento tendrá un efecto muy grande; alterará 25 por ciento de las varianzas estimadas. Finalmente, la discusión anterior asume que prevalece el sentido
128 común. No podemos remover réplicas o muestras raras de los datos sólo porque las varianzas sean heterogéneas. Debemos tener una causa justificable, basada en muchos datos disponibles de trabajos previos similares, para demostrar que se ha cometido un error. 7.4.2.3 Transformación de los datos Un procedimiento usual para resolver el problema de la heterogeneidad de las varianzas es la transformación de los datos. Esta metodología es efectiva solamente si hay una relación relativamente constante entre las varianzas y las medias de las muestras, de tal forma que cuando haya diferencias entre las medias haya también diferencias entre las varianzas. Más aún, para retener la posibilidad de interpretar los datos transformados, la transformación debe ser monotónica; es decir, la transformación debe dejar las medias de las diferentes muestras en el mismo orden de rango (la mayor sigue siendo la mayor; cualquiera media mayor que otra en la escala original, debe seguir siendo mayor cuando se transforme). Los procedimientos generales para la transformación de los datos para remover la heterogeneidad de las varianzas se describen en detalle en Snedecor y Cochran (1989) y Winer y col. (1991). Hay, sin embargo, tres clases generales de datos biológicos y ecológicos que potencialmente causan heterogeneidad de las varianzas. Para estos tipos de datos existen transformaciones estándares que son ampliamente usadas para resolver el problema. En todos los casos, al menos que existan otras razones para hacerlo, la transformación de los datos deberá hacerse solamente para resolver el problema de la heterogeneidad de las varianzas. La transformación rutinaria de los datos no tiene sentido. Si al aplicar alguna prueba específica (por ejemplo la prueba de Cochran), se comprueba que existe heterogeneidad entre las varianzas, hay que transformar los datos y luego aplicar la prueba de nuevo para confirmar el resultado. Si la
129 heterogeneidad fue resuelta, proceda a analizar los datos transformados. Si la heterogeneidad persiste, deténgase y piense. Algunas veces es apropiado transformar los datos de cualquiera forma, no por la existencia de heterogeneidad entre las varianzas, sino porque los datos no tienen una escala apropiada. Por ejemplo, las distancias recorridas por animales durante una caminata al azar a menudo se distribuyen exponencialmente. Esto sugiere que los procesos subyacentes que influencian las tasas de movimiento y las duraciones del movimiento están, probablemente, en alguna escala logarítmica. Tiene sentido, por lo tanto, usar rutinariamente una escala logarítmica para las distancias recorridas. Similarmente, se puede argumentar que el crecimiento de los animales o poblaciones en períodos relativamente cortos es probablemente exponencial. Veamos los tres tipos más comunes de transformaciones utilizadas en datos biológicos. 7.4.2.3.1 Transformación raíz cuadrada de contajes (también llamados datos Poisson) Muchos tipos de datos biológicos, particularmente aquellos que envuelven frecuencias o contajes por unidad de área, siguen aproximadamente una distribución Poisson. La propiedad más importante de esta distribución es que sus varianzas son iguales a sus medias. Así, siempre que analicemos datos que sigan una distribución Poisson, y las medias difieran, también lo harán sus varianzas, comprometiendo así cualquier ANOVA. Esto ocurre comúnmente en datos obtenidos de contajes por hoja, nido, cuadrata o red, particularmente cuando las medias son pequeñas. En estos casos, si hay heterogeneidad de varianzas se deben transformar los datos usando la raíz cuadrada. Un paso preliminar es graficar las varianzas contra las medias, lo cual debería mostrar una relación aproximadamente lineal (Figura 7.7A). En el caso ilustrado, los datos son los valores promedios de matorrales por cuadrata. Existe una buena probabilidad que los datos
130 se distribuyan como una distribución Poisson, excepto que haya algo en su historia natural que cause una agregación, o que compitan por recursos y se espacien más separadamente que lo esperado por azar. Esto último causaría varianzas similares en diferentes sitios. Aquí, las varianzas en 10 sitios son significativamente heterogéneas, pero la gráfica de las varianzas contra las medias luce aproximadamente lineal. La transformación a
X 1 remueve la heterogeneidad
(Figura 7.7B). Los datos pueden ser analizados ahora en esta escala transformada. 7.4.2.3.2 Transformación logarítmica de tasas, razones, concentraciones y otros datos Muchos tipos de datos, particularmente aquellos que son razones de dos variables, son altamente sesgados hacia la derecha. En tales distribuciones, cuando la media es grande, la varianza es muy grande. Tales datos a menudo se distribuyen aproximadamente log-normalmente. Considérese, por ejemplo, las medidas de la proporción del número de presas comidas por predador en parcelas de algunos hábitats. Ambos componentes de la proporción son variables. La proporción, sin embargo, no puede ser menor a cero (lo cual ocurre cuando ninguna presa es comida). Puede ser muy grande, cuando unos pocos predadores son extremadamente voraces en algunas parcelas. No existe un limite teórico para el número de presas comidas. Como resultado, en áreas donde los predadores son muy voraces o activos, estos conllevarán a grandes valores medios y algunas parcelas ocasionales tendrán valores muy grandes. Donde la media es más pequeña (debido a que hay menos presas o porque los predadores sean menos activos o eficientes), es improbable que parcelas individuales tengan grandes valores. Así, las varianzas se incrementarán muy radicalmente a medida que las medias se incrementen, conllevando a una marcada heterogeneidad de varianzas. Hay dos cosas que deben enfatizarse acerca de la transformación logarítmica. Primero, no hay diferencia en el efecto de las
131 transformaciones de acuerdo a la base del logaritmo usado. Todos los logaritmos a una base son un múltiplo constante de aquellos en cualquiera otra base. Así, en la escala transformada, la relación entre la desviación estándar y la media es constante, indistintamente de la base. Sin embargo, es importante reportar que transformación logarítmica se usó. El segundo punto es qué hacer cuando algunos de los datos tienen valor cero. El logaritmo de cero es menos infinito ( ). Se acostumbra, por lo tanto, añadir una pequeña cantidad (1 o 0,1) a los números antes de la transformación. El problema con esto es que la transformación no es, necesariamente, estrictamente monotónica. La adición de una cantidad grande (p. ej., 1) a todos los datos, pudiera ser apropiado cuando los datos son en su mayoría mayores de 10. Si algunas de las muestras son pequeñas (p. ej., < 0,1) pero otras son grandes (p. ej., > 1) con valores cero ocasionales, sus magnitudes relativas serán muy diferentes debido a la adición de uno. 7.4.2.3.3 Transformación arcoseno de porcentajes y proporciones Cuando los datos son porcentajes o proporciones, a menudo se distribuyen binomialmente. Como resultado, las varianzas son mayores cuando las medias están cerca de 0,5 (o 50 por ciento) que cuando las medias son pequeñas o grandes [cercanas a 0,1 (10 por ciento) o 0,9 (90 por ciento). Esto puede llevar a la heterogeneidad de las varianzas cuando las medias sean diferentes. Un ejemplo del porcentaje de cubierta de plantas se muestra en la Figura 7.8A. En áreas con un porcentaje de cubierta de aproximadamente 50 por ciento, la varianza entre las cuadratas es mayor que en cualquiera otra parte. En este caso, la transformación apropiada es la que esparce los datos hacia el extremo del rango posible de valores (es decir, cerca de 0 o 1 para proporciones o 0 y 100 para porcentajes). En contraste, la transformación debería hacer poco a los valores cercanos a 0,5 o 50 por ciento. En esta forma, las varianzas de los datos transformados cercanos al final del rango de valores
132 posibles, se incrementarán para aparearse con las varianzas en la mitad del rango. La transformación apropiada es el arcoseno de la raíz cuadrada de la proporción. Así, los datos transformados, X ' , se obtienen con : X ' seno 1 X
donde los valores de X son los datos originales. De nuevo, esta transformación tiene el efecto de remover la heterogeneidad de las varianzas. 7.4.2.3.4 Ninguna transformación es posible A menudo no existe una forma sencilla de tratar la heterogeneidad de las varianzas de los datos biológicos. El problema no se resuelve graficando las varianzas contra valores publicados, observando experiencias previas o usando transformaciones monotónicas. Bajo estas circunstancias, se debe notar que en el caso de experimentos grandes, el ANOVA es robusto contra la heterogeneidad de las varianzas. En otras palabras, la validez de la prueba y las probabilidades asociadas con la distribución F , no son muy afectadas por la violación de la presunción. Esto es particularmente cierto cuando los datos son balanceados o cuando las muestras son relativamente grandes. Relativamente grande es uno de esos términos deliciosamente vagos, pero más de cinco tratamientos con
n mayor que
seis parece ser suficientemente satisfactorio. Obviamente, cuando las muestras son grandes existe poca probabilidad de obtener todas las muestras de una cola de la distribución. Así, no hay mayor probabilidad de que ocurran diferencias entre las muestras simplemente debido a que se tiene una mayor varianza. Si se decide escoger una prueba no paramétrica, la prueba de Kruskal-Wallis, por ejemplo, se tendría el mismo problema, ya que este tipo de pruebas requiere homogeneidad de las varianzas también. 7.4.3 Los residuales se distribuyen normalmente Se asume que los residuales (errores) siguen una distribución normal con media cero. Gracias al Teorema Centra del Límite, esta
133 presunción no es muy restrictiva, especialmente si los tamaños de las muestras son grandes y aproximadamente iguales entre los tratamientos, o si los datos son medias en si mismo. A menudo una correcta transformación logra distribuir los errores normalmente. El ANOVA es robusto contra la no normalidad, en otras palabras, sus resultados e interpretación no son afectados porque los datos no se distribuyan normalmente. Si se anticipa que los datos pudieran ser de distribuciones altamente sesgadas, la transformación logarítmica puede ayudar a remover el sesgo y hacer los datos distribuirse mucho más normalmente. Así, la transformación pudiera ser apropiada incluso si las varianzas no son significativamente heterogéneas. Las distribuciones de frecuencias multimodales parecen ser las mayores causantes de problemas de no normalidad. Recuerde, lo que establece esta presunción es que son los residuales, o errores, los que deben distribuirse normalmente, no los datos en si mismos. Se verá como corregir este problema en la práctica más adelante. 7.4.4 Las muestras se clasifican correctamente En estudios experimentales se asume que todos los individuos asignados a un tratamiento particular han sido tratados idénticamente (p. ej., todas las aves en un tratamiento libre de parásitos reciben dosis idénticas de antibiótico). En estudios observacionales o experimentos naturales, se asume que todos los individuos agrupados en una clase particular realmente pertenecen a esa clase (p. ej., en un estudio de impacto ambiental, todas las parcelas del estudio han sido asignadas correctamente a los grupos impactados o controles). La violación de esta presunción es potencialmente seria, y puede comprometer los estimados de los valores de P . Un estudio de alta calidad, y conducido cuidadosamente, es la única seguridad contra errores de clasificación y medición. 7.4.5 Los efectos principales son aditivos
134 En ciertos diseños del ANOVA, tales como el diseño de bloques aleatorios o el diseño split-plot, no todos los tratamientos son completamente replicados. En tales casos, es necesario asumir que los efectos principales son estrictamente aditivos, y que no hay interacción entre los diferentes tratamientos. Se explicará esta presunción más adelante. 7.5 Pruebas de hipótesis en el ANOVA Si las presunciones son satisfechas (o no son severamente violadas), podemos comprobar hipótesis basadas en un modelo subyacente que es fijo para los datos. Para el ANOVA de una vía, ese modelo es: Yi j Ai i j
En este modelo Yi es la réplica j asociada con el tratamiento i , es la verdadera media o promedio ( Y es el estimado de ) y i j es el término de error. Aunque cada observación Yi
j
tiene su propia error i j asociado
con ella, se debe recordar que todos los i j provienen de una misma distribución normal con media cero. El elemento más importante del modelo es el término Ai . Este término representa el componente lineal aditivo asociado con el nivel i del tratamiento A . Existe un diferente coeficiente Ai asociado con cada uno de los i tratamientos. Si Ai es un número positivo, el tratamiento i tiene una expectativa que es mayor que la gran media. Si Ai es un número negativo, la expectativa es menor que la gran media. Debido a que los Ai representan las desviaciones de la gran media, por definición, sus sumas son igual a cero. El ANOVA permite estimar los Ai efectos (la media de los tratamientos menos la gran media es un estimador no sesgado de Ai ) y comprobar las hipótesis acerca de los Ai . ¿Cuál es la hipótesis nula? Si no hay efectos de los tratamientos,
135 entonces Ai 0 para todos los niveles de los tratamientos. Por lo tanto, la hipótesis nula es: Xi j i j
Si la hipótesis nula es cierta, cualquiera variación que ocurra entre los tratamientos (y siempre habrá alguna) refleja un error al azar y nada más. En un ANOVA se comienza calculando una suma de cuadrados promedio, la cual es simplemente la suma de los cuadrados dividida por sus correspondientes grados de libertad. Se calculan dos sumas de cuadrados promedio en un ANOVA de una vía. La primera, para la variación entre los tratamientos, tiene ( a 1 ) grados de libertad, donde a es el número de tratamientos. La segunda, para la variación dentro de los tratamientos, tiene a ( n 1) grados de libertad. Esto tiene sentido intuitivo, debido a que dentro de cada tratamiento debe haber ( n 1) grados de libertad. Con a grupos, eso rinde a ( n 1) grados de libertad para la suma de los cuadrados dentro de los tratamientos. También, note que los grados de libertad totales (a 1) a(n 1) (an 1) , lo cual es justamente uno menos que el tamaño total de la muestra. ¿Por qué los grados de libertad no se suman hasta llegar al tamaño total de la muestra ( an )? Debido a que se usa un grado de libertad para estimar la gran media total ( ). A continuación se muestran los diferentes parámetros calculados en un ANOVA de una vía. Como se dijo, existen dos componentes (más el total), entre los tratamientos y dentro de los tratamientos. Para el componente entre los tratamientos ( et ) se tiene que los grados de libertad se calculan como: df et a 1
donde como:
a representa el número de tratamientos; la suma de los cuadrados se calcula a
n
SSet ( X i X ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MSet
SSet ( a 1)
Para el componente dentro de los tratamientos se tiene que los grados de libertad se calculan como: df dt a ( n 1)
136
donde, de nuevo, a epresenta el número de tratamientos y n l número de réplicas (tamaño de la muestra); la suma de los cuadrados se calcula como: a
n
SS dt ( X i j X i ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MS dt
SS dt a( n 1)
Finalmente, para el total se tiene que los grados de libertad se calculan como: df total an 1
donde a y n representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
n
SStotal ( X ij X ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MStotal donde
SStotal an 1
a y n representan lo mismo que anteriormente. El valor de F se calcula como el cociente entre el promedio de la
suma de los cuadrados entre los tratamientos ( MSet ) y el promedio de la suma de los cuadrados dentro de los tratamientos ( MS dt ), de tal forma que queda: F
MSet MS dt
Finalmente se calcula el valor de P de una tabla preparada al respecto, utilizando los grados de libertad ( a 1) y a (n 1) . Estas tablas se encuentran en cualquier libro de estadística, y son calculadas directamente por la mayoría de los programas estadísticos.
137 En la Tabla 13 se presenta una tabla del ANOVA de una vía para el ejemplo de floración de la espuela de caballero presentado al inicio del capítulo. Para los datos de la Tabla 13 el valor de F es 5,11, con su correspondiente valor de P de 0,033. Este valor de P es pequeño (menor que 0,05), así que se rechaza la hipótesis nula que no existe efecto del tratamiento. Cuando se observan los valores en la Tabla 10, parece apropiado rechazar la hipótesis nula: los períodos de floración fueron más largos en el tratamiento Tratamiento que en el tratamiento Control o en el tratamiento No manipulado. 7.5.1 Cálculo de valores de F Aquí se presentan los pasos generales para calcular los valores de F y comprobar hipótesis usando el ANOVA: 1) use la suma de los cuadrados asociada con el modelo del ANOVA particular que se acopla a su muestreo o diseño experimental. Más adelante se detallarán algunos modelos de ANOVA; 2) encuentre la suma de los cuadrados promedio que incluya el efecto particular que está tratando de medir, y úselo como el numerador para el cálculo del valor de F ; 3) encuentre una segunda suma de cuadrados promedio que incluya todos los términos estadísticos en el numerador, excepto el término individual que está tratando de estimar, y úsela como el denominador para el cálculo de F ; 4) divida las dos sumas de cuadrados y obtenga el valor de F ; 5) usando tablas estadísticas, o los resultados de una computadora, determine el valor de la probabilidad ( P ) asociada con el valor de F y sus correspondientes grados de libertad. La hipótesis nula es siempre que el efecto de interés es cero. Si la hipótesis nula es cierta, el valor de F , correctamente calculado, usualmente tendrá un valor aproximado de 1,0. En contraste, si el efecto es muy grande, el numerador será mucho mayor que el denominador y producirá un F que es sustancialmente mayor que 1,01; 6) repita los pasos 2 al 5 para otros factores que esté comprobando. Un ANOVA de una vía genera solamente un valor de F , pero modelos más complejos permiten comprobar factores múltiples. La mayoría de los paquetes estadísticos realizan todos estos pasos. Sin embargo, se debe tomar el tiempo para examinar los valores de F y quedar convencido de que fueron calculados de la forma que debían haber sido calculados. Los valores por defecto de muchos paquetes estadísticos pudieran no generar los valores correctos de F para un modelo particular. ¡Tenga cuidado! 7.6 Tablas de valores y parámetros para los diseños ANOVA
Valores de F menores que 1,0 son también teóricamente posibles, tal resultado indicaría que las diferencias entre las medias de los tratamientos fueron realmente menores que las esperadas por simple azar. Un valor de F muy pequeño pudiera reflejar fallas en la obtención de muestreos aleatorios independientes. Por ejemplo, si se mide equivocadamente la misma réplica en más de un tratamiento, la suma de los cuadrados entre tratamientos será artificialmente pequeña. 1
138 A continuación se presentan y describen las tablas del ANOVA y las pruebas de hipótesis para los otros diseños ANOVA que se discutieron en el Capítulo 6. 7.6.1 Bloque aleatorizado En el diseño de bloque aleatorizado, cada juego de tratamientos es físicamente (o espacialmente) agrupado en un bloque (ver Figura 6.6), con cada tratamiento representado exactamente una vez en cada bloque. Hay a 1 hasta i grupos de tratamientos y j 1 hasta b bloques, de manera que el tamaño de la muestra total es bxa observaciones. El modelo que se comprueba es: xij Ai B j ij
En adición al término de error al azar, ij , y el efecto del tratamiento Ai , ahora hay un efecto de bloque B j : los valores medidos en algunos bloques son consistentemente mayores o menores que en otros bloques, por encima y más allá del efecto del tratamiento Ai . Notemos que no se incluye un término de interacción para bloques y tratamientos. Tal interacción podría, por supuesto, existir, pero no podemos estimarlo. La tabla del ANOVA para el diseño de bloque aleatorizado contiene la suma de los cuadrados usuales para las diferencias entre las medias de los tratamientos, pero también contiene una suma de los cuadrados para las diferencias entre bloques, la cual tiene (b 1) grados de libertad. Esta suma de los cuadrados se calcula obteniendo primero los promedios de todos los tratamientos dentro de cada bloque, y luego midiendo la variación entre los bloques. El error de la suma de los cuadrados ahora contiene (a 1)(b 1) grados de libertad. Para el correspondiente ANOVA de una vía con n b réplicas por tratamiento, deberán haber ( a 1)b grados de libertad. Estos números difieren por (a 1) grados de libertad, los cuales son usados para estimar el efecto de los bloques. Se pueden comprobar dos hipótesis nulas con el diseño de bloque aleatorizado. La primera hipótesis nula es que no hay diferencias entre los bloques ( eb ). El valor de F usado para comprobar esta hipótesis es (donde eb significa entre bloques y dt significa dentro de los tratamientos): MS eb MS dt
La comprobación de los efectos de los bloques usualmente no interesa; la principal razón para usar el diseño de bloque aleatorizado es que esperamos que haya diferencia entre los bloques, y queremos ajustar esas diferencias en nuestra comparación de los tratamientos. La segunda hipótesis nula, la cual es la que normalmente más nos importa, es que no hay diferencias entre los tratamientos. El
139 valor de F usado para comprobar esta hipótesis se calcula como usualmente se hace (donde et significa entre los tratamientos): MSet MS dt
Sin embargo, como se dijo anteriormente, los cuadrados medios dentro de los tratamientos tienen menos grados de libertad que el error de los cuadrados medios en el ANOVA de una vía. La razón es que algunos de los grados de libertad originales son usados para estimar el efecto de los bloques. Si las diferencias entre los bloques son grandes, la reducción en la suma de cuadrados entre los tratamientos será sustancial, y la prueba para el efecto de los tratamientos será más poderosa incluso con menos grados de libertad. Sin embargo, si las diferencias entre los bloques son pequeñas, la reducción en la suma de los cuadrados entre los tratamientos será pequeña, y la prueba para el efecto de los tratamientos será menos poderosa. A continuación se muestran los diferentes parámetros calculados en el ANOVA de bloque aleatorizado. En este diseño existen tres componentes (más el total): entre los tratamientos, entre los bloques y dentro de los tratamientos (residual). Para el componente entre los tratamientos (et)se tiene que los grados de libertad se calculan como: df et a 1
donde como:
a representa el número de tratamientos; la suma de los cuadrados se calcula a
b
SSet ( X i X ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MSet
SSet a 1
Para el componente entre los bloques ( eb ) se tiene que los grados de libertad se calculan como: df eb b 1
donde b representa el número de bloques; la suma de los cuadrados se calcula como: a
b
SS eb ( X j X ) 2 i 1 j 1
140 y el promedio de la suma de los cuadrados se calcula como: MSeb
SSeb b 1
Para el componente dentro de los tratamiento (residual) ( dt ) se tiene que los grados de libertad se calculan como: df dt ( a 1)(b 1)
donde a y b representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
b
SSdt ( X ij X i ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MS dt
SSdt (a 1)(b 1)
Finalmente, para el total se tiene que los grados de libertad se calculan como: df total ab 1
donde a y n representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
a
SStotal ( X ij X ) 2 i 1 j 1
y el promedio de la suma de los cuadrados se calcula como: MStotal donde
a y
SStotal ab 1
b representan los mismo que anteriormente.
El valor de F para la comprobación de la hipótesis de diferencia entre los tratamientos se calcula como el cociente entre el promedio de la suma de los cuadrados entre los tratamientos ( MSet ) y el promedio de la suma de los cuadrados dentro de los tratamientos ( MS dt ), de tal forma que queda:
141 F
MSet MS dt
mientras que el valor de F para la comprobación de la hipótesis de diferencia entre los bloques se calcula como el cociente entre el promedio de la suma de los cuadrados entre los bloques ( MSeb ) y el promedio de la suma de los cuadrados dentro de los tratamientos ( MS dt ), de tal forma que: F
MSeb MSdt
Finalmente se calculan los valores de P asociados con los valores de F en tablas preparadas al respecto, utilizando los grados de libertad de cada uno de los dos componentes con los cuales se comprueban las hipótesis. Para el caso de la diferencia entre los tratamientos, los grados de libertad son ( a 1) y (a 1)(b 1) , mientras que para la diferencia entre los bloques los grados de libertad son (b 1) y (a 1)(b 1) . Estas tablas se encuentran en cualquier libro de estadística y sus valores se calculan directamente en la mayoría de los programas estadísticos. En la Tabla 14 se presenta una tabla general del ANOVA de bloque aleatorizado. 7.6.2 ANOVA anidado En un diseño de ANOVA anidado, los datos se organizan jerárquicamente con una clase de objetos anidado dentro de otra (ver Figura 6.8). Un ejemplo familiar es una clasificación taxonómica en la cual las especies se agrupan dentro de géneros y los géneros se agrupan dentro de familias. El rasgo clave para reconocer un diseño anidado es que los subagrupamientos no se repiten en las categorías de mayor nivel. Por ejemplo, los géneros de hormigas Myrmica, Aphaenogaster y Pheidole ocurren solamente dentro de la subfamilia de hormigas Myrmicinae; estos géneros no se encuentran en la subfamilia Dolichoderinae o en la subfamilia Formicinae. Similarmente, los géneros de hormigas Formica y Camponotus sólo se encuentran en la subfamilia Formicinae. Los diseños anidados superficialmente pueden parecerse a los diseños ortogonales. Sin embargo, en un verdadero diseño ortogonal, cada nivel de un factor está representado con cada nivel de otro factor. Es importante reconocer la diferencia en estos diseños, debido a que son sometidos a diferentes tipos de análisis. Aunque hay muchas variaciones de diseños anidados, usaremos el más simple de todos, en el cual un investigador toma dos o más submuestras de una réplica individual de un ANOVA de una vía. Así, hay i 1 hasta a tratamientos, j 1 hasta b réplicas dentro de cada tratamiento, y k 1 hasta n submuestras dentro de cada réplica. El tamaño de la muestra total (para el diseño balanceado) es a x b x n . El modelo que se comprueba es: X ijk Ai B j ( i ) ijk
142 donde Ai representa el efecto de los tratamientos y B j (i ) es la variación entre las réplicas, los cuales están anidadas dentro de los tratamientos. El símbolo j (i ) nos recuerda que el nivel de réplica j está anidado dentro del nivel de tratamiento i . Finalmente, ijk es el término de error aleatorio, indicando el error asociado con la submuestra k , la réplica j y el tratamiento i . Correspondiendo con estos tres niveles de variación, hay tres cuadrados promedios en la tabla del ANOVA: variación entre los tratamientos, variación entre las réplicas dentro de un tratamiento y variación debido a los errores. El rasgo más importante en la tabla del ANOVA para el diseño anidado es el valor de F para el efecto de los tratamientos. El denominador de este valor de F es el correspondiente al cuadrado promedio para las réplicas dentro de los tratamientos, no el valor usual correspondiente al error de la varianza. La razón es que las submuestras individuales están anidadas dentro de las réplicas, de manera que ellas no son independientes unas de otras. Esta MSdt es apropiada para comprobar diferencias entre réplicas dentro de los tratamientos, pero no para comprobar diferencias entre tratamientos. El cálculo correcto para el efecto de los tratamientos tiene solamente a(b 1) grados de libertad en el denominador, los cuales representan la variación independiente entre las réplicas. El resultado de la prueba del ANOVA anidado para las diferencias entre los tratamientos, sería algebraicamente idéntico a un ANOVA de una vía en el cual primero calculamos el promedio de las submuestras dentro de una réplica. Este ANOVA de una vía tendría también a(b 1) grados de libertad en el denominador, lo cual corresponde al número de réplicas verdaderamente independientes. En contraste, si usamos erróneamente el MS dt para comprobar los efectos de los tratamientos en un diseño anidado, tenemos ab(n 1) grados de libertad, lo cual es considerablemente mayor y más propenso a llevar a rechazar la hipótesis nula (un error Tipo I). La escogencia del denominador correcto para el cálculo de F se hace claro cuando examinamos los promedios de los cuadrados esperados en la tabla del ANOVA. El análisis que se presentó aquí representa el diseño anidado más simple posible. Muchos otros diseños posibles incluyen la mezcla de factores anidados y cruzados, y los diseños como el split-plot y el de medidas repetidas pueden ser interpretados como formas especiales de los diseños anidados. Se recomienda evitar diseños complicados con varios factores anidados o cruzados. En algunos casos, pudiera incluso no ser posible construir un modelo del ANOVA para estos diseños. Si sus datos están organizados en un diseño anidado complicado, usted siempre puede analizar los promedios de las submuestras no independientes; a menudo esto disminuirá el diseño a un modelo más simple. A continuación se muestran los diferentes parámetros calculados en un ANOVA anidado. En este diseño existen tres componentes (más el total): entre los tratamientos, entre las réplicas dentro de los tratamientos y entre submuestras dentro de las réplicas
143 (residual). Para el componente entre los tratamientos ( et ) se tiene que los grados de libertad se calculan como: df et a 1
donde como:
a representa el número de tratamientos; la suma de los cuadrados se calcula a
b
n
SS et ( X i X ) 2 i 1 j 1 k 1
donde a representa el número de tratamientos, b representa el número de réplicas anidadas dentro de cada tratamiento y k representa el número de submuestras anidadas dentro de cada réplica. El promedio de la suma de los cuadrados se calcula como: MSet
SSet a 1
Para el componente entre las réplicas dentro de los tratamientos ( erdt ) se tiene que los grados de libertad se calculan como: df erdt a (b 1)
donde b representa el número de réplicas anidadas dentro de cada tratamiento; la suma de los cuadrados se calcula como: a
b
n
SSerdt ( X j ( i ) X i ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MSerdt
SS erdt a (b 1)
Para el componente entre submuestras dentro de las réplicas ( esmdr ; residual) se tiene que los grados de libertad se calculan como: df esmdr ab( n 1)
donde n representa el número de submuestras anidadas dentro de cada réplica; la suma de los cuadrados se calcula como:
144 a
b
n
SS esmdr ( X ijk X j (i ) ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MSesmdr
SS esmdr ab( n 1)
Finalmente, para el total se tiene que los grados de libertad se calculan como: df total abn 1
donde a , b y n representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
b
n
SStotal ( X ijk X ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: SStotal abn 1 representan los mismo que anteriormente. MStotal
donde
a,
b y
n
El valor de F para la comprobación de la hipótesis de diferencia entre los tratamientos se calcula como el cociente entre el promedio de la suma de los cuadrados entre los tratamientos ( MSet ) y el promedio de la suma de los cuadrados entre las réplicas dentro de los tratamientos ( MSerdt ), de tal forma que queda: F
MSet MSerdt
mientras que el valor de F para la comprobación de la hipótesis de diferencia entre las réplicas dentro de los tratamientos se calcula como el cociente entre el promedio de la suma de los cuadrados entre las réplicas dentro de los tratamientos ( MSerdt ) y el promedio de la suma de los cuadrados entre las submuestras dentro de las réplicas ( MSesmdr ), de tal forma que: F
MS erdt MSesmdr
Finalmente, se calculan los valores de P asociados con los valores de F en tablas preparadas al respecto, utilizando los grados de libertad de cada uno de los dos
145 componentes con los cuales se comprueban las hipótesis. Para el caso de la diferencia entre los tratamientos, los grados de libertad son ( a 1) y a(b 1) , mientras que para la diferencia entre las réplicas dentro de los tratamientos los grados de libertad son a (b 1) y ab( n 1) . Estas tablas se encuentran en cualquier libro de estadística y sus valores se calculan directamente en la mayoría de los programas estadísticos. En la Tabla 15 se presenta una tabla general del ANOVA de bloque aleatorizado. 7.6.3 ANOVA de dos vías Volvamos al ejemplo del diseño de dos vías del Capítulo 6: un estudio sobre el reclutamiento de balanos en el cual un factor es el tipo de substrato (3 niveles: concreto, pizarra y granito) y el segundo factor es la predación (4 niveles: no manipulado, control, exclusión del predador e inclusión del predador). Hay i 1 hasta a niveles del primer factor, j 1 hasta b niveles del segundo factor y k 1 hasta n réplicas para cada combinación de tratamiento única ij . Hay ab combinaciones de tratamientos únicos y a x b x n réplicas totales. En el ejemplo del Capítulo 6, a 3 niveles de substratos, b 4 niveles de depredación y n 10 réplicas por combinación de tratamientos. Hay ab 3 x 4 12 combinaciones únicas de tratamientos y un tamaño de muestra total de a x b x n 3 x 4 x10 120 (ver Figura 6.9). En vez de un promedio de los cuadrados individual para representar el efecto de los tratamientos, como en el ANOVA de una vía, ahora hay tres promedios de los cuadrados para los tratamientos. Hay una suma de los cuadrados y un promedio de los cuadrados para cada efecto principal, o tratamiento: uno para los substratos con ( a 1) 2 grados de libertad y uno para la predación con (b 1) 3 grados de libertad. Estas sumas de los cuadrados se usan para comprobar las diferencias entre las medias para cada factor, igual que en un ANOVA de una vía. Sin embargo, la suma de los cuadrados asociada con el efecto principal substrato en el ANOVA de dos vías, se calcula promediando todos los niveles de depredación. Similarmente, la suma de los cuadrados asociada con el efecto principal depredación se calcula promediando todos los niveles de substratos. En contraste, el efecto principal para el ANOVA de una vía simplemente promedia las réplicas dentro de cada tratamiento, debido a que no hay un segundo factor presente en el diseño experimental. En adición a los promedios de los cuadrados para los dos efectos principales, hay un tercer efecto que se estima en el ANOVA de dos vías: la interacción entre los dos factores. El efecto de la interacción mide las diferencias en las medias de los tratamientos que no pueden ser predichas sobre la base de aditividad de los dos efectos principales. Cuantificar el efecto de la interacción para los dos o más tratamientos, a menudo es la razón clave para conducir un experimento multifactorial o estudio de muestreo. Estudiaremos el efecto de la interacción es más detalle luego; por ahora notemos simplemente que el efecto de interacción tiene (a 1)(b 1) grados de libertad. En el ejemplo de los balanos el efecto de la interacción tiene (3 1)(4 1) 6 grados de libertad.
146
Los dos efectos principales y el término de la interacción están presentes en nuestro modelo: X ijk Ai B j ABij ijk
Siguiendo nuestro procedimiento para la construcción de los valores de F , se usará cada uno los correspondientes promedios de los cuadrados en el numerador, y el término de error se usará siempre en el denominador. Para el diseño de dos vías, los grados de libertad del denominador para el término de error son ab( n 1) 4 x3 x9 108 grados de libertad. Sin embargo, este procedimiento estándar para el ANOVA de dos vías sólo es válido si los dos factores son lo que se denomina efectos fijos. Si los dos factores son efectos aleatorios, el promedio de los cuadrados esperado cambia, y tenemos que construir los valores de F de forma diferente. Trataremos primero con una típica tabla del ANOVA para factores fijos, y luego regresaremos a este problema cuando discutamos factores fijos y factores aleatorios. Finalmente, es instructivo contrastar el diseño de dos vías para estos datos (2 factores con 4 y 3 tratamientos, respectivamente) con el correspondiente diseño de una vía (1 factor con 12 tratamientos). En el diseño de una vía, el término de error tiene a ( n 1) , 12(10 1) 108 grados de libertad. Para el diseño de dos vías, los grados de libertad del denominador para el término de error son ab(n 1) 4 x3 x9 108 grados de libertad. Así, el cálculo de los grados de libertad y el promedio de los cuadrados son idénticos, indistintamente si analizamos los datos como un arreglo de una vía o como un arreglo de dos vías. Comparemos cuidadosamente los grados de libertad para el efecto de los tratamientos en estos dos modelos. Para el diseño de dos vías, si añadimos los grados de libertad de los dos efectos principales y la interacción obtenemos: 2 (efecto principal substrato) + 3 (efecto principal depredación) + 6 (depredación x interacción de los substratos) = 11. Este es el mismo número de grados de libertad que teníamos en el diseño de una vía simple con 12 tratamientos. Más aún, encontraremos que la suma de los cuadrados para estos términos se suman de la misma forma también. Hemos separado efectivamente los grados de libertad para los tratamientos de un ANOVA de una vía, en los componentes que reflejan la estructura lógica de un arreglo de dos vías. A continuación se muestran los diferentes parámetros calculados en un ANOVA de dos vías. En este diseño existen cuatro componentes (más el total): Factor A, Factor B, interacción (A x B) y dentro de los tratamientos (residual). Para el componente Factor A ( FA )se tiene que los grados de libertad se calculan como: df FA a 1
donde a representa el número de niveles del Factor A; la suma de los cuadrados se calcula como:
147 a
b
n
SS FA ( X i X ) 2 i 1 j 1 k 1
donde a representa el número de niveles del Factor A, b representa el número de niveles del Factor B y n representa el número de réplicas de cada combinación de tratamientos ij . El promedio de la suma de los cuadrados se calcula como: MS FA
SS FA a 1
Para el componente Factor B ( FB ) se tiene que los grados de libertad se calculan como: df FB b 1
donde b representa el número de niveles del Factor B; la suma de los cuadrados se calcula como: a
b
n
SS FB ( X j X ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MS FB
SS FB b 1
Para el componente interacción ( AxB ) los grados de libertad se calculan como: df AxB (a 1)(b 1)
donde a y b representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
b
n
SS AxB ( X ij X i X j X ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MS AxB
SS AxB (a 1)(b 1)
Para el componente dentro de los tratamientos (residual), los grados de libertad se calculan como:
148 df dt ab(n 1)
donde a y b significan lo mismo que antes y n representa el número de réplicas de cada combinación única de tratamientos ij ; la suma de los cuadrados se calcula como: a
b
n
SS dt ( X ijk X ij ) 2 i 1 b 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MS dt
SS dt ab(n 1)
Finalmente, para el total los grados de libertad se calculan como: df total abn 1
donde a , b y n representan lo mismo que anteriormente; la suma de los cuadrados se calcula como: a
b
n
SStotal ( X ijk X ) 2 i 1 j 1 k 1
y el promedio de la suma de los cuadrados se calcula como: MStotal donde
a,
b y
SStotal abn 1
n representan lo mismo que anteriormente.
Como se indicó anteriormente, en un ANOVA de dos vías con interacciones se calculan tres de valores de F que sirven para comprobar tres hipótesis. Para la comprobación de la hipótesis de diferencia entre los tratamientos del factor principal Factor A, el valor de F se calcula como el cociente entre el promedio de la suma de los cuadrados entre los tratamientos ( MS FA ) y el promedio de la suma de los cuadrados dentro de los tratamientos (residual; MS dt ), de tal forma que queda: F
MS FA MS dt
El valor de F para la comprobación de la hipótesis de diferencia entre los tratamientos del factor principal Factor B, se calcula como el cociente entre el promedio
149 de la suma de los cuadrados entre los tratamientos ( MS FB ) y el promedio de la suma de los cuadrados dentro de los tratamientos (residual; MS dt ), de tal forma que: F
MS FB MS dt
Finalmente, para la comprobación de la hipótesis de diferencia en los promedios de los tratamientos que no puede ser predicha sobre la base de la aditividad de los dos efectos principales (o en otras palabras, el efecto de la interacción), el valor de F se calcula como el cociente entre el promedio de la suma de los cuadrados para la interacción ( MS AxB ) y el promedio de la suma de los cuadrados dentro de los tratamientos (residual; MS dt ), de tal forma que: F
MS AxB MS dt
Los valores de P asociados con los valores de F se calculan en tablas preparadas al respecto, utilizando los grados de libertad de cada uno de los tres componentes con los cuales se comprueban las hipótesis. Para el Factor A, los grados de libertad son ( a 1) y ab( n 1) ; para el Factor B, los grados de libertad son (b 1) y ab( n 1) , y para la interacción los grados de libertad son (a 1)(b 1) y ab( n 1) . Estas tablas se encuentran en cualquier libro de estadística, y sus valores se calculan directamente en la mayoría de los programas estadísticos. En la tabla 16 se presenta una tabla del ANOVA de dos vías. 7.6.4 ANOVA de tres vías En teoría, el diseño de dos factores puede extenderse a cualquier número de factores. Cada factor tiene diferentes niveles de tratamientos dentro de el, y todos los tratamientos se cruzan completamente. Cada nivel de un tratamiento se aplica con cada nivel de los otros tratamientos, de modo que todas las combinaciones estén representadas. Por ejemplo, un experimento de tres factores que manipula la presencia o ausencia de herbívoros, carnívoros y predadores tiene dos niveles para cada uno de los tres factores. En el modelo de tres factores hay una gran media ( ), tres efectos principales ( A , B y C ), tres interacciones apareadas ( AB , AC y BC ), un término de interacción simple de tres vías ( ABC ) y un término de error ( ). El modelo es: X ijkl Ai B j Ck ABij ACik BC jk ABCijk ijkl
Los efectos principales de herbívoros, carnívoros y predadores tienen cada uno
( a 1) grados de libertad. Los términos de interacción apareados representan el
efecto no aditivo para cada par de posibles factores de niveles tróficos. Cada uno de estos términos de interacción tiene (a 1)(b 1) grados de libertad. Finalmente, hay un término de interacción individual de tres vías también con ( a 1)(b 1)(c 1) grados de libertad. Como antes, todos los efectos principales y los términos de
150 interacción se comprueban usando el término de error como los cuadrados promedios en el denominador. 7.6.5 ANOVA split-plot En el diseño split-plot, los tratamientos de un factor son espacialmente agrupados, como en un diseño de bloque aleatorizado. Un segundo tratamiento se aplica entonces al bloque entero. En el ejemplo de los balanos, el factor del bloque entero es la depredación, debido a que este es el bloque entero que es manipulado. El factor dentro del bloque es el substrato, debido a que cada tipo de substrato es representado dentro de cada bloque. El modelo es: X ijk Ai B j ( i ) Ck ACik CBkj ( i ) ijkl
El tratamiento de bloque completo es Ai , los diferentes bloques (anidados dentro del factor A) son B j (i ) , el factor dentro del bloque es Ck , y el término de error es ijkl . Se usan dos términos de error diferentes para la comprobación de hipótesis en el diseño split-plot. Para comprobar los efectos del tratamiento del bloque completo A, usamos el promedio de los cuadrados de los bloques B j (i ) como el denominador para el calculo de F . Esto se debe a que los bloques enteros sirven como las réplicas independientes con respecto a los tratamientos de bloques completos. El tratamiento dentro de bloque C se comprueba contra el término de interacción C x B, al igual que la interacción A x C. Al igual que en el ANOVA de dos vías estándar, este modelo genera valores de F y pruebas de hipótesis para los efectos principales A, C y la interacción entre ellos (A x C). Sin embargo, debido a que el término de error residual ( ijkl ) no puede ser aislado completamente, el modelo split-plot asume que no hay interacción entre el factor C y los sub bloques ( CBkj (i ) 0 ). 7.7 Factor fijo vs. factor aleatorio en el ANOVA Las pruebas que se han presentado hasta ahora son la suerte de resultados que obtendríamos de un análisis estándar con cualquier paquete estadístico. Desafortunadamente, para diseños de dos o más factores estos análisis pudieran no ser correctos. Un hecho importante que surge en los diseños multifactoriales es si cada factor debería ser analizado como un factor fijo o como un factor al azar. En un análisis de factor fijo, los diferentes niveles de tratamientos que se usan son loa únicos de interés, y las inferencias se restringen a estos niveles particulares. En un análisis de factor al azar, los niveles de tratamientos particulares representan una muestra al azar de todos los posibles niveles que pudieran haber sido establecidos; se pretende que las inferencias sean válidas no sólo para los niveles de tratamientos particulares comprobados, sino para todos los otros niveles de los tratamientos que no fueron incluidos en el diseño. En un análisis de modelo mezclado algunos factores son fijos y otros son al azar. Los resultados por defecto en casi todos los paquetes estadísticos son para el ANOVA de factor fijo.
151
¿Por qué es importante la distinción entre factor fijo y factor al azar? La razón es que los promedios de los cuadrados esperados son diferentes; consecuentemente, los valores de F usados para comprobar las hipótesis acerca de factores fijos y factores al azar son diferentes. Por ejemplo, en un ANOVA de dos vías de factor fijo, tanto los efectos principales como el término de interacción se comprueban contra los promedios de los cuadrados de los residuales. Pero en un modelo de efectos al azar, los efectos principales se comprueban usando el cuadrado de los promedios de la interacción en el denominador para el cálculo de F , no el promedio de los cuadrados de los residuales. Tanto los cuadrados promedios, como los grados de libertad, son muy diferentes para estos dos términos, lo cual significa que sus valores de significación cambiarán completamente. En un modelo mezclado, el factor A es aleatorio y el factor B es fijo; en este caso, el factor A es comprobado contra los cuadrados promedios de la interacción, pero el factor B es comprobado contra los cuadrados promedios de los residuales. Es importante notar que los denominados factores aleatorios y fijos y los análisis de modelos mezclados aplican solamente a modelos con dos o más factores. El ANOVA de una vía se calcula de la misma forma, independientemente que el tratamiento sea aleatorio o fijo. El cálculo correcto de los valores de F para los modelos del ANOVA mezclado y de factores aleatorios es muy importante, pero es igualmente importante el hecho que estos diferentes modelos requieren diferentes estrategias de muestreos. En los modelos de efectos fijos, nuestra meta debería ser replicar tanto como sea posible dentro de cada tratamiento; todas estas réplicas extras nos darán más grados de libertad en los cuadrados promedios de los residuales, los cuales incrementarían nuestro poder estadístico. Pero en los modelos de efectos aleatorios y mezclados, deberíamos usar una estrategia diferente. En vez de tratar de incrementar la replicación dentro de cada tratamiento, deberíamos incrementar el número de tratamientos y no preocuparnos mucho por la replicación dentro de cada tratamiento. El número de tratamientos determina el número de grados de libertad en los promedios cuadrados de la interacción, y es aquí donde deseamos incrementar nuestro muestreo. En el peor de los casos, si ejecutamos un ANOVA de dos vías con efectos aleatorios con sólo dos tratamientos por cada factor, tendríamos solamente un grado de libertad en la suma de los cuadrados de la interacción, independientemente de cuanta replicación hayamos usado. El esfuerzo de muestreo apropiado para un modelo de efectos fijos, en comparación con un modelo de efectos aleatorios, debería tener un sentido intuitivo. Si el dominio de inferencia se restringe a los tratamientos que hayamos establecido, entonces la replicación extra aumentaría nuestro poder en el modelo de efecto fijo. Pero si los tratamientos son solamente una submuestra aleatoria de muchos posibles tratamientos, deberíamos tratar de incrementar nuestra cobertura de aquellos diferentes niveles para el modelo de efecto aleatorio. No es siempre fácil decidir si un factor debe ser tratado como aleatorio o como fijo. Si el factor es un conjunto de sitios o tiempos escogidos aleatoriamente, éste casi
152 siempre debería ser tratado como un factor aleatorio, lo cual es como los bloques se analizan en un diseño de bloque aleatorizado y en un diseño de medidas repetidas. Si el factor representa un conjunto de categorías bien definidas, limitadas en número, y que no representan una variación continua, como especies o sexos, debería ser tratado como un factor fijo. Una alternativa es considerar la relación x/X, donde x es el número de tratamientos en el estudio y X es el número de posibles tratamientos. Si esta relación se acerca a cero, probablemente se trate de un factor aleatorio, mientras que si es cercano a uno probablemente se trate de un factor fijo. Muchas variables continuas, tales como concentración de nutrientes o densidad de poblaciones, probablemente deberían ser analizadas como factores aleatorios. Sin embargo, si hay un significado especial en el tratamiento que ha sido establecido, casi siempre es mejor usar un diseño fijo. Por ejemplo, en un estudio de densidad se pudiera establecer solamente dos tratamientos: densidad ambiental y densidad cero. Aunque hay muchos otros posibles niveles, la densidad ambiental pudiera ser vista como una condición de equilibrio, mientras que la ausencia de especies representaría la condición pre invasión. Un diseño fijo pudiera ser apropiado aquí. En todo caso, siempre se debe establecer claramente en la sección de métodos del artículo o reporte, cuales factores fueron fijos y cuales aleatorios, y luego usar el diseño del ANOVA apropiado. No hay excusas para usar los análisis por defectos de la mayoría de los paquetes estadísticos que usan factores fijos, más aun cuando estos permiten indicar los términos de error que se usarán. 7.8 Gráficas del ANOVA de una vía Consideremos el diseño de una vía más simple para un estudio experimental genérico: tres grupos de tratamientos que consisten de un juego de parcelas no manipuladas (U) que no se alteran excepto por los efectos del muestreo, un juego de parcelas control (C) que incorpora efectos potenciales de manipulación, pero que realmente no sufre el tratamiento de interés y las parcelas tratamiento (T), las cuales están sujetas a los efectos del tratamiento y (por necesidad) también incluyen los efectos del muestreo. Podemos graficar estos datos en una gráfica de barra simple. El eje Y de la gráfica representa la variable respuesta, representada en sus unidades de medición. En el eje X hay una etiqueta para cada grupo de tratamiento que se grafica (tres en este caso). Para cada grupo, se grafica una barra simple; la altura de la barra representa el promedio del grupo de tratamiento. Añada una línea vertical por encima de la barra para indicar la desviación estándar (o preferiblemente el error estándar) asociada con la media. Idealmente, como ya hemos visto, la media de la muestra y la desviación estándar deberían estar basadas en 10 observaciones en cada grupo de tratamiento. Una vez que se tenga esta gráfica, se pueden interpretar los resultados del ANOVA. Si los resultados muestran que el valor de F no es significativo, quiere decir que no existe evidencia que las medias de las poblaciones son más diferentes de lo que se esperaría por simple azar. Note que si la varianza dentro de los grupos es
153 grande y la muestra es pequeña, las medias de la muestra pudieran ser realmente diferentes aunque la hipótesis nula no haya sido rechazada. Esta es la razón por lo que es muy importante graficar las desviaciones estándares junto con las medias, y considerar cuidadosamente el tamaño de las muestras. ¿Qué sucede si los valores de F indican diferencias significativas entre los tratamientos? Existen tres patrones generales en las medias que llevan a tres interpretaciones diferentes (ver Figura 7.9). Primero, supongamos que la media del tratamiento (T) es elevada (o reducida) en comparación con las parcelas control y no manipuladas, de tal forma que T > C = U. Este resultado sugiere que el tratamiento tiene un efecto significativo sobre la variable respuesta, y que el resultado no representa un artefacto del diseño. Note que el efecto del tratamiento hubiera sido inferido erróneamente si hubiéramos (incorrectamente) diseñado el experimento sin los controles, y sólo hubiéramos comparado los grupos tratamiento y no manipulado. Alternativamente, supongamos que los grupos tratamiento y control tienen medias similares, pero que ambas son mayores que la media de los grupos no manipulados (T = C > U). Este patrón sugiere que el efecto del tratamiento no es importante, y que la diferencia entre las medias refleja un efecto de manipulación u otro artefacto. Finalmente, supongamos que las tres medias difieren entre si, siendo el grupo tratamiento el mayor, y el no manipulado el menor (T > C > U). En este caso, hay evidencia de un efecto de la manipulación debido a que C > U. Sin embargo, el hecho que T > C significa que el efecto del tratamiento es también real y no representa sólo un artefacto debido al manejo. Una vez que se ha establecido el patrón en nuestros datos usando un ANOVA y las gráficas de sus resultados, el siguiente paso es determinar si el patrón tiende a soportar o refutar la hipótesis científica que estamos evaluando. Tenga siempre en mente la diferencia entre significación estadística y significación biológica. 7.9 Gráficas del ANOVA de dos vías Para la representación de los resultados del ANOVA de dos vías se puede usar también una gráfica de barra simple, pero es más difícil de interpretar y no despliega los efectos principales y los efectos de la interacción muy bien. Se sugiere el siguiente protocolo para graficar las medias en un ANOVA de dos vías: 1) establezca una gráfica en la cual el eje Y es la variable respuesta continua, y el eje X representa los diferentes niveles de tratamientos para el primer factor en el experimento; 2) para representar el segundo factor en el experimento, use un símbolo o color diferente para cada nivel de tratamiento. Cada símbolo, colocado sobre la etiqueta apropiada en el eje X, representa la media de una combinación de tratamiento particular. Habrá un total de a x b símbolos, donde a es el número de tratamientos en el primer factor y b es el número de tratamientos en el segundo factor; 3) alinee cada símbolo encima del factor apropiado para establecer las combinaciones de tratamientos representados; 4) use una línea para conectar los símbolos a través de los niveles del primer factor; 5) para graficar las desviaciones estándares use líneas verticales
154 La Figura 7.10 muestra una gráfica de este tipo para el experimento hipotético de los balanos que se describió. El eje X da los cuatro niveles de los tratamientos de depredación (no manipulado, control, exclusión de predador, inclusión de predador). Se usan tres tipos de líneas para indicar los tres niveles de los tratamientos de substratos (concreto, pizarra y granito). Para cada tipo de substrato, las medias para los cuatro niveles de los tratamientos de depredación se conectan por una línea. Una vez más, deberíamos considerar los diferentes resultados del ANOVA y como se ven las gráficas asociadas. En este caso, hay varias posibilidades debido a que ahora tenemos dos comprobaciones de hipótesis para los efectos principales de depredación y substratos, y una tercera comprobación de hipótesis para la interacción entre estos dos efectos principales. 7.9.1 Efectos no significativos Como vimos anteriormente, el escenario más simple es aquel en el que ni los dos efectos principales ni el término de interacción son estadísticamente significativos. Dado este escenario, la gráfica resultará complicada dado que las líneas se sobrepondrán unas a otras. 7.9.2 Un efecto principal significativo Supongamos que el efecto principal predación es significativo, pero que el efecto principal substrato y el término de interacción no lo son. Por lo tanto, las medias de cada tratamiento de predación, promediadas sobre los tres tratamientos de substratos, son significativamente diferentes unos de otros. En contraste, las medias de los tipos de substratos, promediadas sobre los tres tratamientos de predación, no son sustancialmente diferentes unos de otros. La gráfica mostrará diferentes grupos de medias de tratamientos a cada nivel de tratamiento de predación, pero las medias de cada tipo de substrato serán casi idénticas a cada nivel de predación. Si ahora suponemos que el efecto de los substratos es significativo, pero que el efecto de la depredación no lo es, las medias de cada uno de los tres tratamientos de substratos son significativamente diferentes, promediadas sobre los cuatro tratamientos de depredación. Sin embargo, los promedios de los tratamientos de depredación no difieren. Las tres líneas que conectan los tipos de substratos estarán separadas perfectamente entre si, pero las pendientes de esas líneas serán básicamente planas, debido a que no hay efecto de los cuatro tratamientos. 7.9.3 Dos efectos principales significativos La siguiente posibilidad es un efecto significativo de la depredación y los substratos, pero no del término de interacción. En este caso, el perfil de las respuestas promedios es de nuevo diferente para cada uno de los tipos de substratos, pero no es plano a través de cada uno de los tratamientos de depredación. Un rasgo clave de esta gráfica es que las líneas que conectan los diferentes grupos de tratamientos son paralelas entre si. Cuando los perfiles de los tratamientos son paralelos, los efectos de
155 los dos factores son estrictamente aditivos: la combinación de tratamientos particulares puede ser predicha conociendo los efectos promedios de cada uno de los dos tratamientos individuales. La aditividad de los efectos de los tratamientos y un perfil de tratamientos paralelos, son indicativos de un ANOVA en el cual ambos efectos principales son significativos, pero el término de interacción no es significativo. 7.9.4 Efecto de interacción significativo La última posibilidad es que el efecto de la interacción sea significativo, pero que ninguno de los efectos principales lo sea. Siempre que haya un efecto de interacción significativo, las líneas de los perfiles no son paralelas, y si las interacciones son fuertes, pudieran incluso cruzarse entre si.
7.10 ¿Cómo interpretar el término de interacción? Con un término de interacción significativo, las medias de los grupos de tratamientos son significativamente diferentes entre si, pero no podemos describir un efecto aditivo simple para cada uno de los dos factores en el diseño. En cambio, el efecto del primer factor (p. ej., depredación) depende del nivel del segundo factor (p. ej., substrato). Así, las diferencias entre los tipos de substratos dependen de cual tratamiento de depredación esté siendo considerado. En las parcelas controles y no manipuladas, el reclutamiento fue mayor en los substratos de granito, mientras que en las parcelas de inclusión y exclusión de predadores, el reclutamiento fue mayor en los substratos de pizarra. Equivalentemente, podemos decir que el efecto de la depredación depende del substrato. Para el substrato granito, la abundancia es mayor en las parcelas controles, mientras que para el substrato pizarra, la abundancia fue mayor en las parcelas de inclusión y exclusión de predadores. La representación gráfica del término de interacción como líneas no paralelas tiene también una interpretación algebraica. Como vimos en el ANOVA de dos vías, la suma de los cuadrados del término de interacción es: a
b
n
SS AxB ( X ij X i X j X ) 2 i 1 j 1 k 1
Equivalentemente, podemos añadir y substraer un término para X , resultando en: a
b
n
SS AxB [( X ij X ) ( X i X ) ( X j X )]2 i 1 j 1 k 1
156 El primer término ( X ij X ) en esta expresión expandida, representa la desviación de la media de cada grupo de tratamiento de la gran media. El segundo término ( X i X ), representa la desviación del efecto aditivo del Factor A, y el tercer término ( X j X ) representa el efecto aditivo del Factor B. Si los efectos aditivos de los factores A y B juntos explican todas las desviaciones de las medias de los tratamientos de la gran media, entonces el efecto de la interacción es cero. Así, el término de interacción mide la extensión con la cual las medias de los tratamientos difieren de los efectos estrictamente aditivos de los dos factores principales. Si no existe un efecto de interacción, entonces conocer el tipo de substrato y el nivel de depredación nos permitiría predecir perfectamente la respuesta cuando estos factores están combinados. Pero si existe una interacción fuerte, no podemos predecir el efecto combinado, incluso si entendiéramos el comportamiento de los factores individuales. 1 Está claro por que el término de interacción es significativo en la Figura 7.10E, pero ¿por qué deberían los efectos principales ser no significativos en este caso? La razón es que si promediamos las medias a través de cada tratamiento de depredación, o a través de cada tipo de substrato, ellos serían aproximadamente iguales, y no habrían diferencias consistentes para cada factor considerado por si solo. Por esta razón, a veces se dice que nada puede decirse con respecto a los efectos principales cuando los términos de interacción son significativos. Esta aseveración sólo es cierta para interacciones muy fuertes, en las cuales las curvas se cruzan entre ellas. Por ejemplo, consideremos la Figura 7.10F, la cual ciertamente generaría un término de interacción estadísticamente significativo en un ANOVA de dos vías. La interacción significativa nos dice que las diferencias entre las medias para los tipos de substratos dependen del tratamiento de depredación. Sin embargo, en este caso la interacción surge principalmente debido a que el tratamiento concreto x exclusión de predadores tiene una media que es muy pequeña en relación a todos los otros tratamientos. En todos los tratamientos de depredación, el substrato granito tiene el mayor reclutamiento y el substrato concreto tiene el menor. En el tratamiento control las diferencias entre las medias de los substratos son relativamente pequeñas, mientras que en el tratamiento de exclusión de predadores las diferencias entre las medias de los substratos son relativamente grandes. De nuevo, se debe enfatizar que los resultados de un ANOVA no pueden ser interpretados correctamente sin referencia a los patrones de medias y varianzas en los datos. Finalmente, debemos notar que la transformación de los datos puede algunas veces eliminar los términos de interacción significativos. En particular, Un ejemplo interesante de una interacción estadística es el efecto del alcohol y los sedantes sobre la presión sanguínea de los humanos. Supongamos que el alcohol disminuye la presión sanguínea en 20 puntos, y que los sedantes la disminuye en 15 puntos. En un mundo aditivo simple, la combinación del alcohol y los sedantes debería disminuir la presión sanguínea por 35 puntos. Sin embargo, la interacción del alcohol y los sedantes puede disminuir la presión sanguínea en 50 puntos o más y a menudo es letal. Este resultado no pudiera haber sido predicho simplemente entendiendo sus efectos por separado. Las interacciones son un serio problema tanto en medicina como en las ciencias ambientales. Estudios experimentales simples pudieran cuantificar los efectos de factores simples tales como elevados niveles de CO 2 o altas temperaturas, pero pudieran existir interacciones fuertes entre estos factores que pudieran causar resultados inesperados. 1
157 las relaciones que son multiplicativas en una escala lineal son aditivas en una escala logarítmica, y por lo tanto la transformación logarítmica a menudo puede eliminar un término de interacción significativo.
CAPÍTULO 8 Análisis de regresión 8.1 Introducción El análisis de regresión se usa para analizar relaciones entre variables continuas. Básicamente, el análisis de regresión describe la relación lineal entre una variable predictora, representada en el eje X, y una variable respuesta, representada en el eje Y. En este capítulo explicaremos como usar el denominado método de los mínimos cuadrados para ajustar una línea de regresión a los datos, y como comprobar hipótesis acerca de los parámetros estimados del modelo ajustado. También se hablará acerca de las presunciones del análisis de regresión, y se explicará como usar el modelo para hacer predicciones. 8.2 Definición de la línea recta y sus dos parámetros Comenzaremos con el desarrollo de un modelo lineal, porque este es el corazón del análisis de regresión. Como se indicó anteriormente (Capítulo 4), un modelo de regresión comienza con una hipótesis de causa y efecto; el valor de la variable X causa, directa o indirectamente, el valor de la variable Y.1 En algunos casos, la dirección de la causa y el efecto es directa; p. ej., hipotetizamos que el área de una isla controla el número de plantas y animales, y no al contrario. En otros casos, la dirección de la causa y el efecto no es tan obvia; p. ej., ¿controlan los predadores la abundancia de sus presas, o es la abundancia de las presas la que controla el número de predadores? Una vez que hemos decidido la dirección de la causa y el efecto, el siguiente paso es describir la relación como una función matemática: Y f (X )
Muchos libros estadísticos enfatizan la distinción entre análisis de correlación, en la cual dos variables simplemente se asocian entre ellas, y análisis de regresión, en el cual existe una relación causa-efecto directa. 1
158
En otras palabras, se aplica la función f a cada valor de la variable X (la entrada) para generar el correspondiente valor de la variable Y (la salida). Existen muchas funciones interesantes y complejas que pueden describir la relación entre dos variables, pero la más simple es la que establece que Y es una función lineal de X : Y b0 b1 X
En palabras, esta función nos dice tome el valor de la variable X , multiplíquelo por b1 y sume este resultado a b0 ; el resultado final es el valor de la variable Y . Esta ecuación describe la gráfica de una línea recta. Este modelo tiene dos parámetros, b0 y b1 , los cuales son llamados el intercepto y la pendiente de la línea (Figura 8.1). El intercepto ( b0 ) es el valor de la función cuando X 0 . El intercepto se mide en las mismas unidades que la variable Y . La pendiente ( b1 ) mide el cambio en la variable Y por cada unidad de cambio en la variable X . La pendiente es, por lo tanto, una tasa y se mide en unidades de Y / X (se lee como el cambio en Y dividido por el cambio en X ). Si se conocen la pendiente y el intercepto, la ecuación Y b0 b1 X puede ser usada para predecir el valor de Y para cualquier valor de X . Al contrario, la ecuación Y b0 b1 X puede ser usada para determinar el valor de X que hubiera generado un valor particular de Y . Por supuesto, nada dice que la naturaleza tenga que obedecer una ecuación lineal; muchas relaciones ecológicas son inherentemente no lineales. Sin embargo, el modelo lineal es el punto de partida más simple para ajustar funciones a los datos. Más aún, incluso funciones no lineales complejas pudieran ser aproximadamente lineales sobre un rango limitado de la variable X (Figura 8.2). Si restringimos cuidadosamente nuestras conclusiones a ese rango de la variable X , un modelo lineal pudiera ser una aproximación valida de la función. 8.3 Ajuste de datos a un modelo lineal Los datos para un análisis de regresión consisten de una serie de observaciones apareadas. Cada observación incluye un valor de X ( X i ) y un valor correspondiente de Y ( Yi ) que han sido medidos para la misma réplica. El índice i indica la réplica. Si hay un total de n réplicas en nuestros datos, el índice i puede tomar cualquier valor entero en el rango i 1 hasta n . El modelo que ajustaría estos datos sería: Y b0 b1 X i i
Al igual que en la ecuación Y b0 b1 X , los dos parámetros en la ecuación lineal, b0 y b1 , son desconocidos. Pero ahora existe una tercera cantidad desconocida, i , la cual representa el término de error. Mientras que b0 y b1 son constantes simples, i es una variable normal aleatoria. Esta distribución tiene un valor esperado (o media) de 0, y una varianza igual a 2 , la cual puede ser conocida o
159 desconocida. Si todos los datos caen en una línea perfecta, entonces 2 0 , y por lo tanto sería fácil conectar los puntos y medir el intercepto ( b0 ) y la pendiente ( b1 ) directamente de la línea.1 Sin embargo, la mayoría de los datos ecológicos exhiben más variación que esta; una variable sencilla raramente explicará la mayoría de la variación en los datos, y los puntos caerán dentro de una banda difusa más que a lo largo de una línea bien demarcada. Mientras mayor sea el valor de 2 , mayor será el ruido, o error, alrededor de la línea de regresión. Introduzcamos el siguiente ejemplo que ilustra muy bien un caso práctico del análisis de regresión, así como también el efecto de las transformaciones de los datos en el ajuste de una línea recta. Las transformaciones se usan a menudo para convertir curvas en líneas rectas; las relaciones lineales son más fáciles de entender conceptualmente. Cuando dos variables se relacionan exponencialmente, la transformación logarítmica es una de las transformaciones más útiles. Un ejemplo ecológico clásico es la relación especies-área: la relación entre el número de especies y el tamaño de una isla o área cualquiera (Preston, 1962; MacArthur y Wilson, 1967). Si medimos el número de especies en varias islas y lo graficamos contra el área de las islas, a menudo los datos siguen una función potencia simple: S cAz
donde S es el número de especies, A el área de las islas, y c y z son las constantes que se ajustan a los datos. Por ejemplo, el número reportado de especies de plantas de cada una de las Islas Galápagos (Preston, 1962) parece seguir una relación potencial (Tabla 17). Primero, notemos que el área de las islas fluctúa en tres órdenes de magnitud, de menos de 1 hasta casi 6000 km 2. Similarmente, la riqueza de especies abarca dos órdenes de magnitud, de 7 a 325 especies. Si graficamos los datos originales, la riqueza de especies, S , como una función del área, A (Figura 8.3), vemos que la mayoría de los puntos se agrupan a la izquierda de la figura (debido a que la mayoría de las islas son pequeñas). Como un primer paso en el análisis, pudiéramos tratar de ajustar una línea recta a esta relación: S b0 b1 A
En este caso, b0 representa el intercepto de la línea y b1 es su pendiente. Sin embargo, la línea no ajusta los datos muy bien. En particular, observemos que la pendiente de la línea de regresión parece estar dominada por el dato correspondiente a la isla Isabela, la mayor isla en la base de datos. La línea ajustada a los datos no captura muy bien la relación entre la riqueza de especies y el área de las islas. Por supuesto, si hay sólo dos observaciones estas siempre serán ajustadas perfectamente por una línea recta. Sin embargo, tener más datos no es garantía que la línea recta sea un modelo significativo. Como veremos en este capítulo, se puede ajustar una línea recta a cualquier juego de datos y luego usarla para hacer predicciones acerca de condiciones futuras, indistintamente si el modelo ajustado sea o no sea válido. 1
160
Si la riqueza de especies y el área de las islas están relacionadas potencialmente ( S cAz ), podemos transformar esta ecuación usando logaritmos en ambos lados: LogS Log (cA z ) LogS Logc zLogA
Esta transformación toma ventaja de dos propiedades de los logaritmos. Primero, el logaritmo del producto de dos números es igual a la suma de sus logaritmos: Log (ab) Loga Logb
segundo, el logaritmo de un número elevado a una potencia es igual a la potencia multiplicada por el logaritmo del número: Log a b bLog a
Podemos reescribir la ecuación LogS Log (cA z ) , denotando los valores logarítmicamente transformados con un asterisco (*):
S * c * zA * Así, hemos tomado una ecuación potencia ( S cAz ) y la hemos transformado a una ecuación lineal (
S * c * zA * ). Cuando graficamos los logaritmos de los datos, la
relación entre la riqueza de especies y el área de las islas es ahora mucho más clara (Figura 8.4), y los coeficientes tienen una interpretación simple. El valor de z en las ecuaciones anteriores, el cual es igual a la pendiente de la línea en la Figura 8.4, es igual a 0,331; esto significa que cada vez que incrementamos
A*
(el logaritmo del
área de las islas) por una unidad (es decir, por un factor de 10 debido a que hemos usado Log para transformar nuestras variables de la Tabla 17, y 101 10 ), incrementamos la riqueza de especies por 0,331 unidades (es decir, por un factor de aproximadamente 2 debido a que 100,331 2,14 ). Así, podemos decir que el incremento en 10 veces en el área de una isla trae como resultado el duplicado en la riqueza de especies de plantas presentes en las Islas Galápagos. 1 La historia de la relación especie-área ilustra los peligros de la reificación: la conversión de un concepto abstracto en algo material. La función potencia ( S cAz ) ha formado la base para varios modelos teóricos importantes de la relación especie-área (Preston, 1962; MacArthur \& Wilson, 1967; Harte y col., 1999). También ha sido usada para argumentar la construcción de reservas naturales tan grandes como sea posible, de modo que puedan contener el mayor número posible de especies. Esto ha llevado a 1
161 La Figura 8.4 muestra una relación clara entre Log (área) y Log (riqueza de especies), pero los puntos no caen en una línea perfecta. ¿Dónde debería colocarse la línea de regresión? Intuitivamente, parece que la línea de regresión debería pasar a través del centro de la nube de puntos, definido por el punto ( X , Y ). Para los datos de las islas, el centro corresponde al punto (1,654; 1,867) (recuerde que estos son valores transformados). Ahora podemos rotar la línea a través del punto central hasta que arribemos a la posición mejor ajustada. ¿Pero cómo definiríamos el mejor ajuste para la línea? Definamos primeramente el término residual ( d i ) como la diferencia al cuadrado entre el valor observado Yi y el valor Y que se predice por la ecuación de regresión ( ˆ ). El d i se calcula como: Y i d i (Yi Yˆi ) 2
La desviación residual es al cuadrado porque estamos interesados en la magnitud, y no en el signo, de la diferencia entre el valor observado y predicho. Para cualquier observación particular Yi , pudiéramos pasar la regresión a través de ese punto, de modo que su residual sería minimizado ( d i 0 ). Pero la línea de regresión se tiene que ajustar a todos los datos colectivamente, de modo que definiremos la suma de todos los residuales, también llamada la suma residual de cuadrados, y abreviada como RSS , como: un largo debate sobre que tipo de reserva protegería más especies, una reserva grande o varias pequeñas (p. ej., Willis, 1984; Simberlof y Abele, 1984). Sin embargo, Lomolino y Weiser (2001) han propuesto recientemente que la relación especie-área tiene una asíntota, en cuyo caso una función potencia no sería apropiada. Pero esta propuesta ha sido a su vez retada en los terrenos teóricos y prácticos (Williamson y col., 2001). En otras palabras, no existe consenso en que la función potencia forme siempre la base para la relación especie-área. La función potencia ha sido popular debido a que parece que provee un buen ajuste a muchas bases de datos especieárea. Sin embargo, un análisis estadístico detallado de 100 relaciones especie-area publicadas (Connor y McCoy, 1979) encontró que la función potencia fue el mejor modelo de ajuste solamente en la mitad de los casos. Aunque el área de una isla es usualmente el predictor sencillo más fuerte del número de especies, el área típicamente explica solamente la mitad de la variación en la riqueza de especies (Boecklen y Gotelli, 1984). Como consecuencia, el valor de la relación especie-área para planes de conservación es muy limitado debido a que existe demasiada incertidumbre asociada con la predicción de la riqueza de especies. Más aún, la relación especie-área puede ser usada solamente para predecir el número de especies presentes, mientras que la mayoría de las estrategias de conservación se preocupan también por la identidad de las especies residentes. La moraleja de la historia es que los datos siempre pueden ser ajustados a una función matemática, pero tenemos que usar herramientas estadísticas para evaluar si el ajuste es razonable o no. Incluso si el ajuste de los datos es aceptable, este resultado, por si mismo, es raramente una prueba fuerte de una hipótesis científica, debido a que usualmente existen modelos matemáticos alternativos que también pueden ajustar los datos.
162
n
RSS (Yi Yˆ ) 2 i 1
La línea de regresión mejor ajustada es aquella que minimiza la suma de cuadrados residuales.1 Al minimizar RSS aseguramos que la línea de regresión resulte en la diferencia promedio entre cada Yi y Yˆi más pequeña predicha por el modelo de regresión (Figura 8.5).2 Pudiéramos ajustar la línea de regresión a través de ( X , Yˆ ) a ojo, y luego jugar con ella hasta que encontremos los valores de la pendiente y el intercepto que nos de el menor valor de RSS . Afortunadamente, existe una forma más fácil de obtener los valores de b0 y b1 que minimicen RSS . Pero primero debemos discutir las varianzas y covarianzas. 8.4 Varianzas y covarianzas La suma de los cuadrados ( SSY ) de una variable cualquiera se calcula como: n
SSY (Yi Y ) 2 i 1
Francis Galton (1822-1911), explorador británico, antropólogo, sobrino de Charles Darwin, algunas veces estadístico y quintaesencia D.W.E.M. (Dead White European Male), se recuerda mejor por su interés en la eugenesia y su aseveración que la inteligencia se hereda y es poco influenciada por los factores ambientales. Sus escritos sobre la inteligencia, la raza y la herencia lo llevaron a proponer restricciones en el apareamiento entre personas y pavimentó las políticas de los primeros racistas en Australia. Fue nombrado caballero en 1909. En su artículo de 1866 Regresión hacia la mediocridad en la estructura hereditaria, Galton analizó la estatura de niños y sus padres con el modelo de regresión lineal de los mínimos cuadrados. Aunque los datos de Galton han sido usados frecuentemente para ilustrar la regresión lineal, un análisis reciente de los datos originales revela que no son lineales (Wachsmuth y col., 2003). 1
En este capítulo se presentan formulas, tales como la que se muestra en la ecuación de la suma residual de cuadrados, para las sumas de cuadrados y otras cantidades que se usan en estadística. Sin embargo, no se recomienda usar estas fórmulas para hacer los cálculos. La razón es que estas formulas son muy susceptibles a los pequeños redondeos, los cuales se acumulan en sumas grandes. La multiplicación de matrices es una forma mucho más confiable para obtener soluciones estadísticas; de hecho, es la única forma de resolver problemas más complejos, tales como regresión múltiple. Es importante estudiar estas ecuaciones de manera de entender como trabaja la estadística; sin embargo, para fines de publicación, se deberá usar paquetes estadísticos que empleen algebra de matrices. 2
163 la cual mide la desviación cuadrada de cada observación de la media de las observaciones. Dividiendo esta suma por (n 1) nos da la fórmula familiar para la varianza muestral de una variable: SY2
1 n (Yi Y ) 2 n 1 i 1 n
2 Eliminando el exponente de la ecuación SSY (Yi Y ) y expandiendo el i 1
término cuadrático, podemos reescribirla como: n
SSY (Yi Y )(Yi Y ) i 1
Ahora consideremos la situación con dos variables X y Y . En vez de la suma de los cuadrados para una variable, podemos definir la suma de los productos cruzados ( SS XY ) como: n
SS XY ( X i X )(Yi Y ) i 1
y la covarianza de la muestra ( s XY ) como: s XY
1 n ( X i X )(Yi Y ) n 1 i 1
La varianza de la muestra es siempre un valor positivo. Debido a que el 2 cuadrado de la diferencia de cada observación de su media (Yi Y ) es siempre mayor que cero, la suma de todas estas diferencias cuadradas también debe ser mayor que cero. Pero esto no es cierto para la covarianza de la muestra. Supongamos que valores de X relativamente grandes se aparean consistentemente con valores de Y relativamente pequeños. El primer término de las ecuaciones n
SS XY ( X i X )(Yi Y ) i 1
y s XY
1 n ( X i X )(Yi Y ) n 1 i 1
164 será positivo para los valores de X i que sean mayores que X . Pero el segundo término (y por tanto el producto) será negativo debido a que los valores de Yi relativamente pequeños son menores que Y . Similarmente, los valores relativamente pequeños de X i (aquellos menores que X ) se aparearán con los valores de Yi relativamente grandes (aquellos mayores que Y ). Si hay muchos pares de datos organizados de esta forma, la covarianza de la muestra será un número negativo. Por otra parte, si los valores grandes de X se asocian siempre con los valores grandes de Y , los términos sumatorios en las dos anteriores ecuaciones serán todos positivos y generarán una covarianza positiva grande. Finalmente, supongamos que X y Y no están relacionadas, de modo que los valores pequeños o grandes de X pueden algunas veces estar asociados con valores de Y pequeños o grandes. Esto generará una colección heterogénea de covarianzas, con signos tanto negativos como positivos. La suma de estos términos pudiera estar cercana a cero. Para el ejemplo de los datos de riqueza de plantas de las Galápagos,
SS XY 6,558 y s XY 0,410 . La mayoría de los términos de covarianza son positivos
(los únicos negativos son los correspondientes a las islas Pinzón (-0,057) y Marchena (0,080). Intuitivamente, parecería que esta covarianza debería estar relacionada a la pendiente de la línea de regresión, debido a que describe la relación (positiva o negativa) entre la variación en la variable X y la variación en la variable Y .1 8.5 Estimación de b0 y b1 usando los mínimos cuadrados Una vez definida la covarianza, podemos ahora estimar los parámetros de la línea de regresión que minimizan la suma de los cuadrados residuales:
s SS ˆ1 XY2 XY sX SS XX donde la suma de los cuadrados de X es: n
SS X ( X i X ) 2 i 1
Se usa el símbolo ˆ1 para designar el estimado de la pendiente, y para distinguirlo de b1 , el verdadero valor del parámetro. La ecuación que estima ˆ1 ilustra la relación entre la pendiente de un modelo de regresión y la covarianza entre X y Y . La covarianza es un número sencillo que expresa una relación entre un par sencillo de variables. Suponiendo que tenemos un conjunto de n variables. Para cada par único ( X i , X j ) de variables, pudiéramos calcular cada una de las covarianzas, sij . Hay exactamente n( n 1) / 2 tales pares únicos, los cuales pueden determinarse usando coeficientes binominales. 1
165 Ciertamente, la pendiente es la covarianza de X y Y , en relación con la varianza en X . Debido a que el denominador (n 1) es idéntico para el cálculo de s XY s X2 , ˆ1 también puede ser expresada como una relación de la suma de los productos cruzados ( SS XY ) con la suma de los cuadrados de X ( SS X ). Para el ejemplo de la riqueza de especies de plantas de las Islas Galápagos, s XY 0,410 y s X2 1,240 , de modo que ˆ1 0,410 / 1,240 0,331 . Recuerde que la pendiente siempre se expresa en unidades de Y / X , el cual en este caso es el cambio en Log (riqueza) dividido por el cambio en Log (área). Para obtener el intercepto de la ecuación ( ˆ0 ), se toma ventaja del hecho que la línea de regresión pasa a través del punto ( X , Y ) . Combinando esto con el estimado de ˆ1 , tenemos: ˆ0 Y ˆ1 X
Para los datos de riqueza de especies de plantas de las Islas Galápagos, ˆ0 1,867 0,331x1,645 1,319 . Las unidades del intercepto son las mismas que las
unidades de la variable Y , las cuales en este caso son Log (riqueza). El intercepto nos dice el estimado de la variable respuesta ( Y ) cuando el valor de la variable predictora ( X ) es igual a cero. Para nuestro ejemplo de las Islas galápagos, X 0 corresponde a un área de 1 km2 (recordemos que Log 1,0 = 0,0), con un estimado de 10 1,319 = 20,844 especies. Aún tenemos un parámetro que estimar. Recordemos que nuestro modelo de regresión representado en la euación Y b0 b1 X i i ncluye no solamente un intercepto ( b0 ) y una pendiente ( b1 ), sino también un término de error ( i ). Este término de error tiene una distribución normal con una X 0 y una varianza representada por 2 . ¿Cómo podemos estimar 2 ? Primero, notemos que si 2 es relativamente grande, los datos observados deberían estar ampliamente esparcidos alrededor de la línea de regresión. Algunas veces la variable aleatoria será positiva, empujando el dato Yi por encima de la línea de regresión, y algunas veces será negativa, empujando Yi por debajo de la línea de regresión. Finalmente, si 2 0 , no habrá esparcimiento, y los datos se ajustarán a la línea perfectamente. Esta descripción suena muy similar a la explicación que se dio para la suma de cuadrados residual ( RSS ), la cual mide la desviación cuadrada de cada observación de n
2 su valor fijado (ecuación RSS (Yi Yˆ ) ). Resumiendo conceptos estadísticos i 1
simples, recordemos que la varianza de una muestra mide la desviación promedio de cada observación de la media. Similarmente, nuestro estimado de la varianza del error de regresión es la desviación promedio de cada observación del valor fijado:
166 n
ˆ 2
RSS n2
(Y Yˆ ) i 1
i
n2
i
n
2
[Y (ˆ i 1
i
0
ˆ1 X i )]2
n2
Se muestran las formas expandidas para recordarle los cálculos de RSS y Yˆi . Como antes, recuerde que b0 y b1 son los parámetros de regresión ajustados, y Yˆi es el valor predicho de la ecuación de regresión. La raíz cuadrada de la ecuación anterior, , a menudo se denomina el error estándar de la regresión. Note que el denominador de la varianza estimada es (n 2) , mientras que previamente usamos ( n 1) como el denominador de la varianza de la muestra. La razón para usar ( n 2) es que el denominador son los grados de libertad, el número de piezas de información independientes que tenemos para estimar esa varianza. En este caso, hemos usado dos grados de libertad para estimar el intercepto y la pendiente de la línea de regresión. Para el caso de las Islas Galápagos, ˆ 0,320 . 8.6 Los componentes de la varianza y el coeficiente de determinación Una técnica fundamental en el análisis estadístico es la separación de la suma de los cuadrados en diferentes componentes o fuentes (ya vimos este procedimiento en el Capítulo 7). Un componente de la variación es el error puro o al azar. Esta variación no puede ser atribuida a fuente particular alguna, más que al muestreo aleatorio de una distribución normal. En la ecuación Yi 0 1 X i i , esta fuente de variación es i , y ya hemos visto como estimar este residual calculando la suma de cuadrados residual ( RSS ). La variación restante en Yi no es aleatoria, sino sistemática. Algunos valores de Yi son grandes debido a que están asociados con valores grandes de X i . La fuente de esta variación es la relación de regresión Yi b0 b1 X i . Por sustracción, observamos que el componente de variación restante que puede ser atribuido al modelo de regresión ( SS reg ) es: SS reg SSY RSS
Reordenando la ecuación anterior, la variación total de los datos puede ser aditivamente separada en componentes de la regresión ( SS reg ) y de los residuales ( RSS ): SSY SS reg RSS
SS reg
Para el ejemplo de las Islas Galápagos, SSY 3,708 y RSS 1,540 . Por lo tanto, 3,708 1,540 2,168 .
Podemos imaginarnos dos extremos en esta repartición de la torta de la varianza. Supongamos que todos los datos caen perfectamente sobre la línea de regresión, de modo que cualquier valor de Yi pudiera ser predicho exactamente
167 conociendo el valor de X i . En este caso, RSS 0 y SSY SS reg . En otras palabras, toda la variación en los datos puede ser atribuida a la regresión y no existe el componente de error. Al otro extremo, supongamos que la variable X no tuviera efecto sobre la variable Y resultante. Si no hay influencia de X sobre Y , entonces b1 0 y no existe pendiente: Yi b0 i
Recordemos que i es una variable aleatoria con una X 0 y 2 . Haciendo algunas manipulaciones y tomando ventaja de algunas propiedades matemáticas, tenemos que: Y ~ N (0 , )
En palabras, la ecuación anterior nos dice que Y es una variable normal aleatoria con una media de b0 y una desviación estándar de . Si ninguna variación en Yi puede ser atribuida a la regresión, la pendiente es igual a cero, y los valores de Yi son muestreados de una distribución normal con media igual al intercepto de la regresión ( b0 ) y una varianza de 2 . En este caso SSY RSS , y por lo tanto SS reg 0,0 . Entre los dos extremos de SS reg 0,0 y RSS 0 descansa la realidad de la mayoría de los conjuntos de datos, la cual refleja tanto variación aleatoria como sistemática. Un índice natural que describe la importancia relativa de la regresión versus la variación residual es el familiar r 2 , o coeficiente de determinación: r2
SS reg SS reg SSY SS reg RSS
El coeficiente de determinación nos dice la proporción de la variación en la variable Y que puede ser atribuida a la variación en la variable X a través de una regresión lineal simple. Esta proporción varia de 0,0 hasta 1,0. Mientras mayor el valor de r 2 , menor el error de la varianza y más cercanamente los datos se ajustan a la línea de regresión. Para los datos de las Islas Galápagos, r 2 0,585 , aproximadamente en el medio entre no correlación y un ajuste perfecto. Si convertimos el valor de r 2 a una escala de 0 a 100, a menudo se describe como el porcentaje de variación en Y explicado por la regresión en X . Recordemos, sin embargo, que la relación causal entre la variable X y la variable Y es una hipótesis que es explicitamente propuesta por el investigador. El coeficiente de determinación, indistintamente de cuan grande sea, no confirma por si mismo una relación causaefecto entre dos variables. Un estadístico relacionado es el coeficiente de correlación, r . Como se puede imaginar, r es la raíz cuadrada de r 2 . Sin embargo, el signo de r (positivo o
168 negativo) se determina por el signo de la pendiente de regresión; negativo si b0 0 y positivo si b0 0 . Equivalentemente, r puede calcularse como: SS XY s r XY ( SS X SSY ) s X sY con el signo positivo o negativo resultante de la suma de los productos cruzados en el numerador.1 8.7 Comprobación de hipótesis con análisis de regresión Hasta el momento hemos aprendido como ajustar una línea recta a datos de X y Y continuos, y como usar el criterio de los mínimos cuadrados para estimar la pendiente, el intercepto y la varianza de la línea de regresión ajustada. El siguiente paso es comprobar hipótesis acerca de la línea de regresión ajustada. Recordemos que los mínimos cuadrados sólo nos proveen estimados de los verdaderos valores de los parámetros b0 , b1 y 2 . Debido a que existe incertidumbre en estos estimados, deseamos comprobar si algunos de los estimados de estos parámetros difieren significativamente de cero. En particular, la presunción subyacente de causa y efecto está enmarcada en la pendiente. Recordemos que, en el establecimiento del modelo de regresión, asumimos que X causa Y . La magnitud de b1 mide la fortaleza de la respuesta de Y ante cambios en X . Nuestra hipótesis nula es que b1 no difiere de cero. Si no podemos rechazar esta hipótesis nula, no existe evidencia suficiente de una relación funcional entre las variables X y Y . Enmarcando las hipótesis nulas y alternativa en términos de nuestros modelos, tenemos: H 0 : Yi 0 i H a : Yi 0 1 X i i
8.7.1 Tabla de ANOVA La hipótesis nula presentada arriba puede ser comprobada organizando primeramente los datos en una tabla ANOVA. Aunque una tabla de ANOVA se asocia naturalmente con un análisis de varianza, la separación de la suma de los cuadrados es común en el ANOVA, el análisis de regresión y muchos otros modelos lineales La reordenación de la ecuación anterior revela una conexión cercana entre pendiente de la regresión: s b1 r Y sX 1
r
y b1 , la
Así, observamos que la pendiente de la línea de regresión es el coeficiente de correlación pero en relación a la desviación estándar relativa de Y y X .
169 generalizados (McCullagh y Nelder, 1989). La Tabla 18 presenta los componentes y ecuaciones de una tabla completa del ANOVA para un análisis de regresión (la Tabla 19 ilustra la misma tabla pero con los resultados de los datos de riqueza de especies de plantas de las Islas Galápagos). A continuación se muestran los componentes detallados: La suma de los cuadrados de la regresión se calcula como: n
SS reg (Yˆi Y ) 2 i 1
el promedio de los cuadrados se calcula como: SS reg / 1
el promedio de los cuadrados esperado se calcula como: n
2 12 X 2 i 1
la proporción de Fisher se calcula como: SS reg / 1 RSS /( n 2)
finalmente, el valor de P se calcula como la cola de la distribución F con (1, n 2) grados de libertad. Por su parte, la suma de cuadrados de los residuales se calcula como: n
RSS (Yi Yˆi ) 2 i 1
el promedio de los cuadrados se calcula como: RSS n2
y el promedio de los cuadrados esperado se calcula como 2 . Finalmente, para la fuente total, la suma de los cuadrados se calcula como: n
SSY (Yi Y ) 2 i 1
170 el promedio de los cuadrados se calcula como: SSY n 1 y el promedio de los cuadrados esperado se calcula como Y2 . La tabla del ANOVA tiene varias columnas que resumen la separación de la suma de los cuadrados. La primera columna usualmente se identifica como Fuente, lo cual significa que es el componente de la fuente de variación. En el modelo de regresión hay solamente dos fuentes: la regresión y el error. Se ha adicionado una tercera fuente, la total, para recordar que la suma de los cuadrados total es igual a la suma de la regresión y el error. Sin embargo, la fila que presenta la suma de los cuadrados total usualmente se emite en las publicaciones. El modelo de regresión simple sólo tiene dos fuentes de variación, pero los modelos más complejos pudieran tener varias fuentes de variación. La segunda columna se identifica como los grados de libertad, que usualmente se abrevia como df. Como se dijo anteriormente, los grados de libertad dependen del número de piezas de información independientes disponibles para estimar la suma de cuadrados particular. Si el tamaño de la muestra es n , hay 1 grado de libertad asociado con el modelo de regresión (específicamente la pendiente), y (n 2) grados de libertad asociados con el error. El total de grados de libertad es (1 n 2) (n 1) . El total es solamente (n 1) debido a que se usó 1 grado de libertad para estimar la gran media, Y . La tercera columna se identifica como la suma de los cuadrados ( SS ) asociada con una fuente de variación particular. La cuarta columna se identifica como el promedio de los cuadrados ( MS ), el cual es simplemente la suma de los cuadrados dividida por sus correspondientes grados de libertad. Esta división es análoga a calcular una varianza simple dividiendo SSY por ( n 1) . La quinta columna se identifica como el Promedio de los cuadrados esperado ( EMS ). Esta columna no se presenta en las tablas del ANOVA en publicaciones
científicas, pero es muy valiosa debido a que muestra exactamente lo que está siendo estimado por cada uno de los diferentes promedios de los cuadrados. Son estas expectativas las que se usan para formular las hipótesis en el ANOVA. La sexta columna se identifica como la proporción de Fisher ( F ). El valor de F es la relación de dos diferentes valores del promedio de los cuadrados. La última columna se identifica como el valor de P correspondiente a un valor de F particular. Específicamente, esta es la probabilidad de obtener el valor de F (o un valor mayor) si la hipótesis nula es cierta. Para la regresión lineal simple, la hipótesis nula es que b1 0 , lo que implica que no existe una relación funcional entre las variables X y Y . El valor de probabilidad depende del valor de F y del número de grados de libertad asociados con el promedio de los cuadrados del numerador y el denominador. Los
171 valores de probabilidad pueden ser encontrados en tablas estadísticas, pero usualmente se imprimen como parte de los resultados estándar del análisis de regresión en los paquetes estadísticos. Para entender como se calcula el valor de F , necesitamos examinar los valores esperados del promedio de los cuadrados. El valor esperado del promedio de los cuadrados de la regresión es la suma de la varianza asociada con los errores y un término que mide el efecto de la pendiente de la regresión: n
E ( MSreg ) 2 12 X 2 i 1
En contraste, el valor esperado del promedio de los cuadrados de los residuales es simplemente la varianza del error de la regresión: E ( MS reg ) 2
Ahora podemos entender la lógica del cálculo de la proporción de Fisher ( F ). El valor de F para las pruebas de hipótesis en el análisis de regresión usa el promedio de los cuadrados de la regresión en el numerador, y el promedio de los cuadrados de los residuales en el denominador. Si la verdadera pendiente de la regresión es cero, el n
2 2 2 segundo término en la ecuación E ( MS reg ) 1 X también es igual a cero. Como i 1
consecuencia, la ecuación anterior y la ecuación Yi 0 1 X i i serán iguales. En otras palabras, si la pendiente de la regresión ( b1 ) es igual a cero, el valor esperado de F será 1,0. Para una varianza de los errores dada, mientras más inclinada sea la pendiente de la regresión, mayor será el valor de F . También, para una pendiente dada, mientras más pequeña sea la varianza de los errores, mayor será el valor de F . Esto también tiene sentido intuitivo, debido a que mientras menor sea la varianza de los errores, más agrupados estarán los datos alrededor de la línea de regresión ajustada. Mientras mayor sea el valor de F (para un tamaño de muestra y modelo dados), menor será el valor de P . Mientras menor sea el valor de P , menos probable será que el valor observado de F hubiera sido hallado si la hipótesis nula fuera cierta. Con valores de P menores que el valor estándar de 0,05, rechazamos la hipótesis nula y concluimos que el modelo de regresión explica más variación que la que pudiera ser debida al simple azar. Para los datos de las Islas Galápagos, F 21,048 . El numerador de este F es 21 veces mayor que el denominador, de modo que la varianza explicada por el modelo de regresión es mucho mayor que la varianza residual. El valor correspondiente de P es 0,0003. 8.7.2 Otras pruebas e intervalos de confianza Como se podría sospechar, todas las pruebas de hipótesis y los intervalos de confianza para los modelos de regresión dependen de la varianza de la regresión ( ˆ 2 ).
172 De aquí podemos calcular otras varianzas y pruebas de significación. Por ejemplo, la varianza del intercepto estimado es: 1 X2 n SS X
ˆ 20 ˆ 2
También se puede calcular un valor de F a partir de esta varianza para comprobar la hipótesis nula que b0 0,0 . Notemos que el intercepto de la línea de regresión es un poco diferente del intercepto que se calcula cuando el modelo tiene una pendiente cero: Yi 0 i
Si el modelo tiene una pendiente cero, el valor esperado del intercepto es simplemente el promedio de los valores Yi : E (b0 ) Y
Sin embargo, para el modelo de regresión con una pendiente, el intercepto es el valor esperado cuando X i 0 , es decir: E ( 0 ) Yˆi | (X i 0)
Se puede calcular un intervalo de confianza de 95 por ciento para el intercepto a partir de: ˆ0 t( , n 2 )ˆ ˆ 0 ˆ0 t( , n 2)ˆ ˆ 0
0
donde es el nivel de probabilidad ( 0,025 para un intervalo de confianza de 95 por ciento), n es el tamaño de la muestra, t es el valor de la tabla de la distribución t -Student para el especificado y ˆ 0 se calcula como la raíz cuadrada de la ecuación ˆ 2 ˆ 2 (1 / n Xˆ 2 / SS X ) . Similarmente, la varianza del estimador de la pendiente es: 0
ˆ 2ˆ 1
ˆ 2 SS X
y el correspondiente intervalo de confianza para la pendiente es: ˆ1 t( , n 2)ˆ ˆ 1 ˆ1 t( , n 2)ˆ ˆ 1
1
Para los datos de las Islas Galápagos, el intervalo de confianza de 95 por ciento para el intercepto ( 0 ) es entre 0,966 y 1,601, y el intervalo de confianza de 95 por
173 ciento para la pendiente ( 1 ) es entre 0,177 y 0,484 (recuerde que estos son valores de logaritmos). Debido a que ninguno de estos intervalos abarca el 0,0, los correspondientes valores de F nos llevarían a rechazar la hipótesis nula que tanto 0 como 1 son iguales a 0. Si 1 0 , la línea de regresión es horizontal, y la variable dependiente, Log (riqueza), no se incrementa sistemáticamente con los cambios en la variable independiente, Log (area). Si 0 0 , la variable dependiente toma un valor de 0 cuando la variable independiente es 0. Aunque en este caso se ha rechazado la hipótesis nula, los datos observados no caen perfectamente en una línea recta, de modo que hay incertidumbre asociada con cualquier valor particular de la variable X . Por ejemplo, si muestrearamos repetidamente diferentes islas que tuvieran idéntica área ( X ), habría variación entre ellas en el número de especies colectadas.1 La varianza del valor ajustado Y es:
1 ( X i X )2 n SS X
ˆ (2Y | X ) ˆ 2
y el intervalo de confianza de 95 por ciento es: Yˆ t X , n 2 )ˆ (Yˆ | X ) Yˆ Yˆ t( , n 2 )ˆ (Yˆ | X )
Este intervalo de confianza no forma una banda paralela que abarque la línea de regresión (Figura 8.6). Más aún, el intervalo de confianza se ensancha a medida que 2 nos alejamos de X debido al término ( X i X ) en el numerador de la ecuación que Desafortunadamente, muchas veces nuestros datos no cumplen con el marco metodológico relacionado con la aleatoriedad. En el caso de la riqueza de especies de plantas de las Islas Galápagos, después de todo, sólo existe un archipiélago Galápagos, en el cual ha evolucionado una flora y fauna única, y no existen múltiples réplicas de islas que tengan áreas idénticas. Parece dudoso tratar estas islas como muestras tomadas de un espacio muestral mayor, el cual en si mismo no está definido claramente; ¿pudieran ser islas volcánicas?, ¿islas tropicales del Pacífico?, ¿islas oceánicas aisladas? Podríamos considerar los datos como una muestra de las Galápagos, excepto que las muestras no son aleatorias debido a que esta consiste de información de todas las islas grandes del archipiélago. Existen pocas islas adicionales de las cuales tomar muestras, pero estas son considerablemente más pequeñas, con muy pocas especies de plantas y animales. Algunas islas son tan pequeñas que están vacías, y estos ceros (que no pueden ser convertidos a logaritmo) tienen efectos importantes en la forma de la relación especies-área. La regresión ajustada para todas las islas pudiera no ser necesariamente la misma que la ajustada para conjuntos de islas pequeñas y grandes. Estos problemas no son exclusivos para los datos de la relación especie-área. En cualquier muestreo debemos enfrentar el hecho que el espacio muestral no está definido claramente, y las réplicas que colectamos pudieran no ser ni aleatorias ni independientes entre ellas, aunque usemos estadísticos que se basen en estas presunciones. 1
174 estima la varianza del valor ajustado Y . Esta ampliación del intervalo de confianza tiene sentido intuitivo. Mientras más cercano estemos del centro de la nube de puntos, mayor confianza tenemos en la estimación de Y a partir de muestras repetidas de X . De hecho, si escogemos X como el valor ajustado, la desviación estándar del valor ajustado es equivalente a un error estándar del valor promedio ajustado: ˆ (Yˆ / X )
ˆ n
La varianza aquí se minimiza debido a que hay datos observados tanto por encima como por debajo del valor ajustado. Sin embargo, a medida que nos alejamos de X existen menos datos en los alrededores, de modo que la predicción se hace menos confiable. Es necesario hacer una distinción útil entre interpolación y extrapolación. Interpolación es la estimación de nuevos valores que están dentro del rango de los datos que hemos colectado, mientras que extrapolación significa la estimación de nuevos valores más allá del rango de los datos. La ecuación ˆ ˆ ˆ Y t X , n 2 )ˆ (Yˆ | X ) Y Y t( , n 2 )ˆ (Yˆ | X ) asegura que los intervalos de confianza para los datos ajustados serán siempre menores para la interpolación que para la extrapolación. 8.8 Presunciones del análisis de regresión El modelo de regresión lineal que hemos desarrollado se basa en cuatro presunciones: 1) el modelo lineal describe correctamente la relación funcional entre X y X . Esta es la presunción fundamental. Incluso si la relación total no es lineal, un modelo lineal pudiera aún ser apropiado para un rango limitado de la variable X . Si la presunción de linealidad se viola, el estimado de 2 se inflará debido a que incluirá el error aleatorio y un error fijo; esto último representa la diferencia entre la verdadera función y la lineal que se ha ajustado a los datos. Y si la verdadera relación no es lineal, las predicciones derivadas del modelo no serán correctas, particularmente cuando se extrapola más allá del rango de los datos; 2) la variable X se mide sin error. Esta presunción nos permite aislar el componente de error enteramente como variación aleatoria asociada con la variable respuesta ( Y ). Si hay error en la variable X , el estimado de la pendiente y el intercepto estarán sesgados. Asumiendo que no hay error en la variable X , podemos usar los estimadores de los mínimos cuadrados, los cuales minimizan la distancia vertical entre cada observación y su valor predicho (los d i ). Con errores en ambas variables ( X y Y ), una estrategia sería minimizar la distancia perpendicular entre cada observación y la línea de regresión; 3) para cada valor dado de X , los valores muestreados de Y son independientes con errores normalmente distribuidos. La presunción de normalidad nos permite usar la teoría paramétrica para construir intervalos de confianza y pruebas de hipótesis basados en el valor de F . La independencia, por supuesto, es la presunción crítica para todos los datos muestreados, aunque a menudo esta presunción es violada hasta un grado conocido en estudios observacionales. Si usted sospecha que el valor de Yi influencia la
175 siguiente observación que se colecte ( Yi 1 ), un análisis de series de tiempo pudiera remover los componentes correlacionados de la variación del error; 4) las varianzas son constantes a lo largo de la línea de regresión. Esta presunción nos permite usar una 2 constante para la varianza de la línea de regresión. Si las varianzas dependieran de X , entonces requeriríamos una familia entera de varianzas, cada una basada en una valor particular de X . La existencia de varianzas no constantes son un un problema común en el análisis de regresión que puede ser reconocido a través de las gráficas de diagnóstico (ver la siguiente sección), y algunas veces pueden ser remediadas con transformaciones de las variables X y Y originales. Sin embargo, no existe garantía que una transformación linealice la relación y genere varianzas constantes. Si todas estas presunciones se cumplen, el método de los mínimos cuadrados provee estimadores no sesgados de los parámetros del modelo. Estos parámetros no son sesgados debido a que muestras repetidas de la misma población rendirán estimados de la pendiente y el intercepto que son, en promedio, los mismos que los verdaderos valores de la pendiente y el intercepto para la población. 8.9 Pruebas diagnósticas en el análisis de regresión Hemos visto como obtener los estimados de los parámetros de la línea de regresión utilizando los mínimos cuadrados, como comprobar hipótesis acerca de los valores de estos parámetros y construir intervalos de confianza apropiados. Sin embargo, una línea de regresión puede ser forzada a través de cualquier conjunto de datos { X , Y } , indistintamente si el modelo lineal es apropiado o no. En esta sección se presentan algunas herramientas diagnósticas para determinar cuan bien la línea de regresión estimada se ajusta a los datos. Indirectamente, estos diagnósticos también ayudan a evaluar la extensión con la cual los datos cumplen con las presunciones del modelo. La herramienta de diagnóstico más importante es el conjunto de residuales, {d i } , el cual representa las diferencias entre los valores observados ( Yi ) y los valores predichos por el modelo de regresión ( Yˆ ) de la ecuación di (Yi Yˆi ) 2 . Los residuales se usan para estimar la varianza de la regresión, y también proveen información importante acerca del ajuste del modelo a los datos. 8.9.1 Gráficas de residuales Quizás la gráfica más importante para el análisis diagnóstico del modelo de regresión es la gráfica de los residuales ( d i ) contra los valores ajustados ( Yˆi ). Si el modelo lineal ajusta bien los datos, esta gráfica de los residuales debería exhibir una nube de puntos que siguen aproximadamente una distribución normal y son completamente no correlacionados con los valores ajustados (Figura 8.7A).
176 Dos tipos de problema pueden ser observados en las gráficas de residuales. Primero, si los residuales en si mismo están correlacionados con los valores ajustados, significa que la relación no es realmente lineal. El modelo pudiera estar sobreestimando o subestimando Yˆi sistemáticamente para altos valores de X (Figure 8.7B). Esto puede suceder, por ejemplo, cuando una línea recta es forzada a través de datos que representan realmente una relación asintótica, logarítmica u otra relación no lineal. Si los residuales primero aumentan hasta un valor ajustado, y luego caen por debajo, y luego aumenta de nuevo, los datos pudieran indicar una relación cuadrática más que lineal. (Figura 8.7C). Finalmente, si los residuales despliegan una figura en forma de embudo, la varianza es heteroscedástica. Las gráficas de los residuales también pueden mostrar outliers, puntos que caen mucho más lejos de las predicciones de la regresión. Pare ver los efectos de las transformaciones, compare las figuras 8.8A y 8.8B, las cuales ilustran gráficas de residuales para los datos de las Islas Galápagos antes y después de la transformación logarítmica. Sin la transformación logarítmica existen muchos residuales negativos, y se encuentran agrupados alrededor de valores muy pequeños de Yˆi (Figura 8.8A). Después de la transformación, los residuales negativos y positivos se distribuyen proporcionalmente y no se asocian con Yˆi (Figura 8.8B). 8.9.2 Otras gráficas diagnósticas Los residuales pueden ser graficados no solamente contra los valores ajustados, sino también contra otras variables que pudieran haber sido medidas. La idea es ver si existe variación que pueda ser atribuida a una fuente sistemática. Por ejemplo, pudiéramos graficar los residuales de la Figura 8.8B contra alguna medida de diversidad de hábitat en cada isla. Si los residuales estuvieran correlacionados positivamente con la diversidad de hábitat, entonces las islas que tienen más especies que lo esperado en base al área, usualmente tendrán mayor diversidad de hábitat. De hecho, esta fuente adicional de variación sistemática puede ser incluida en un modelo de regresión múltiple en el cual ajustamos coeficientes para dos o más variables predictoras. Graficar los residuales contra otras variables predictoras a menudo es una táctica exploratoria más simple y confiable que asumir un modelo con efectos e interacciones lineales. También puede ser informativo graficar los residuales contra el tiempo o el orden de recolección de los datos. Esta gráfica pudiera indicar condiciones de mediciones alteradas durante el período de tiempo en que los datos fueron colectados, tales como el efecto del incremento en la temperatura a lo largo del día en el comportamiento de un insecto, o un medidor de pH con baterías débiles que produzca resultados sesgados durante mediciones posteriores. Estas gráficas nos recuerdan los sorprendentes problemas que pueden surgir al no usar la aleatorización cuando colectamos nuestros datos. Si colectamos todas las medidas de comportamiento de la especie de insecto en la mañana, o medimos el pH en todas las parcelas control primeramente, estaremos introduciendo una fuente confusa de variación inesperada en nuestros datos.
177 8.9.3 Función influencia Las gráficas de residuales hacen un buen trabajo al revelar no linealidad, heteroscedasticidad y outliers. Sin embargo, más insidiosos son los denominados puntos influyentes. Estos datos pudieran no mostrarse como outliers, pero tienen una influencia excesiva sobre los estimados de la pendiente y el intercepto. En la peor situación, los datos que se encuentran lejos de la nube de puntos que representan los datos típicos pueden controlar la línea de regresión y dominar el estimado de la pendiente (ver Figura 6.3). La mejor forma de detectar tales datos, es graficar la denominada función influencia. La idea es simple; se toma la primera de las n réplicas de los datos y se elimina del análisis. Se recalcula la pendiente, el intercepto y el valor de P . Seguidamente se reemplaza ese primer punto y se elimina el segundo; de nuevo se calcula la pendiente, el intercepto y P . Luego se reemplaza el dato y se continúa con todos los datos. Si se tiene n datos originales, se terminará con n diferentes análisis de regresión, cada uno de los cuales estará basado en un total de (n 1) puntos. Ahora, se toman los estimados de las pendientes y los interceptos para cada uno de estos análisis y se grafican (Figura 8.9). En esta misma gráfica se colocan los estimados de la pendiente y el intercepto para el conjunto completo de datos. Esta gráfica de los interceptos estimados versus las pendientes estimadas siempre tendrá una pendiente negativa, debido a que a medida que la línea de regresión se inclina la pendiente aumenta y el intercepto disminuye. La función influencia ilustra cuanto pudieran cambiar los estimados de los parámetros de línea de regresión excluyendo solamente un dato. Idealmente, los parámetros estimados deberían agruparse alrededor de los estimados de los parámetros del conjunto completo de datos. Un agrupamiento de puntos sugeriría que los valores de la pendiente y el intercepto son estables, y no cambiarían grandemente con la eliminación o adición de un dato simple. Por otra parte, si uno de los puntos está muy distante del agrupamiento, la pendiente y el intercepto están altamente influenciados por ese dato simple, y se debería tener cuidado con las conclusiones que extraigamos de este análisis. Para los datos de las Islas Galápagos, la función influencia resalta la importancia de transformar apropiadamente los datos. Para los datos no transformados, la isla con la mayor área (Isabela) domina el estimado de 1 . Si este punto es eliminado, la pendiente aumenta de 0,035 hasta 0,114 (Figura 8.9A). En contraste, la función influencia para los datos transformados muestra mucho más consistencia, aunque ˆ1 aún fluctúa entre 0,286 y 0,390 al eliminar un solo dato (Figura 8.9B). Esta técnica no es única del análisis de regresión. Cualquier análisis estadístico puede ser repetido con cada dato sistemáticamente eliminado. Puede consumir algo de tiempo, pero es una forma excelente de manejar la estabilidad y validez general de las conclusiones a las que usted desea llegar.
178
CAPÍTULO 9 Medidas de localización y dispersión 9.1 Introducción
179
Este capítulo está destinado a introducir algunos conceptos estadísticos básicos relacionados con medidas de localización y dispersión, con la intención que sirvan de guía a estudiantes menos avanzados, o como simple referencia a los más avanzados. Por supuesto, el material no abarca toda la estadística básica, sino sólo aquellos conceptos de uso general. Se recomienda comenzar por este capítulo. Los datos son la esencia de las investigaciones científicas, pero raramente reportamos todos los datos que colectamos. En vez de eso, resumimos nuestros datos usando estadísticos, valores que resumen los datos. Los biólogos y estadísticos distinguen entre dos tipos de mediciones estadísticas: medidas de localización y medidas de dispersión. Las medidas de localización ilustran donde se encuentran la mayoría de los datos; estas medidas incluyen la media, la mediana y el modo (o moda). En contraste, las medidas de dispersión describen cuan variables son los datos; estas medidas incluyen la desviación estándar, la varianza (o variancia) y el error estándar. De ahora en adelante, se adoptará la notación estadística estándar para describir variables aleatorias y cantidades estadísticas o estimadores. Variables aleatorias se designan como X , y cada observación individual se indiza con un índice, X i . El índice i indica la iava observación. El tamaño de la muestra se denota por n , y así i puede tomar cualquier valor entero entre 1 y n . La media aritmética se denota como X . Los parámetros desconocidos (o estadísticos poblacionales) de distribuciones, tales como los valores esperados y varianzas, se escriben con letras griegas (tales como para el valor esperado, 2 para la varianza esperada y para la desviación estándar esperada), mientras que los estimadores estadísticos de estos parámetros (basados en datos reales) se escriben con letras normales (tales como X para la media aritmética, S 2 para la varianza de la muestra y S para la desviación estándar de la muestra). A lo largo de este capítulo se usará el ejemplo de los datos simulados de mediciones de la longitud de la tibia espinal de 50 arañas linyfidas. Estos datos, presentados en orden ascendente, se presentan en la Tabla 20. 9.2 Medidas de localización 9.2.1 La media aritmética Existen muchas formas de resumir un conjunto de datos. El más familiar es el promedio o media aritmética de las observaciones. La media aritmética se calcula como la suma de las observaciones ( X i ) dividida entre el número de observaciones ( n ) y se denota por X : n
X
X i 1
n
i
180 Para los datos en la Tabla 20, X 0,253 . Esta media aritmética de las observaciones sería un estimador no sesgado de si se cumplieran con estas tres condiciones: 1) las observaciones se obtienen de individuos seleccionados al azar; 2) las observaciones en la muestra son independientes unas de otras; 3) las observaciones son tomadas de una población mayor que puede ser descrita por una variable aleatoria normal. El hecho que la X de una muestra se aproxime a la de la población de la cual la muestra fue obtenida, es un caso especial del segundo teorema fundamental de las probabilidades, la Ley de los Grandes Números. 1 Esta es una descripción de la Ley de los Grandes Números. Consideremos un conjunto infinito de muestras aleatorias de tamaño n , tomadas de una variable aleatoria X . Así, X 1 es una muestra de X con un dato, {x1} . X 2 es una muestra de tamaño 2, {x1 , x2 } , etc. La Ley de los Grandes Números establece que a medida que el tamaño de la muestra aumenta, la media aritmética de X i se aproxima al valor esperado de X , E ( X ) . En notación matemática se escribe:
n
X
lim
i 1
n
n
i
X n E (Y )
En palabras, se dice que a medida que n se hace grande, el promedio de los X i se hace igual a E (Y ) . En el ejemplo, la longitud de la espina tibial de todos los individuos de arañas linyfidas en una población puede ser descrita como una variable aleatoria normal con un valor esperado igual a . No se pueden medir todas las espinas, pero se puede medir un subconjunto de ellas; la Tabla 20 muestra n 50 de estas mediciones. Si cada espina medida es de una araña linyfida individual, cada araña se selecciona al azar, y no hay sesgo en las mediciones, entonces el valor esperado de cada observación debería ser el mismo (debido a que ellas vienen de la misma población infinitamente grande de arañas). La Ley de los Grandes Números establece que la longitud promedio de las 50 mediciones se aproxima al valor esperado de la longitud de las espinas en la población entera. De aquí que se pueda estimar el valor esperado desconocido de con el promedio de las observaciones. 9.2.2 Otras medidas de localización: la mediana y el modo Los ecólogos y los científicos ambientales usan otras dos mediciones de localización, la mediana y el modo, para resumir conjuntos de datos. La mediana se define como el valor de un conjunto de observaciones ordenadas que tiene un número igual de observaciones por encima y por debajo. En otras palabras, la mediana divide un conjunto de datos en dos, con igual número de observaciones en cada mitad. Para La versión moderna de la ley de los grandes números fue desarrollada por el matemático ruso Andrei Kolmogorov (1903-1987), quien también estudió los procesos de Markov, tales como los usados en el análisis computacional moderno. 1
181 un número impar de observaciones, la mediana es simplemente la observación central. Así, si se consideran solamente las primeras 49 observaciones en los datos de las longitudes de espinas, la mediana sería la observación 25 (0,248). Pero con un número par de observaciones, la mediana se define como el punto medio entre la observación n / 2 y la [(n / 2) 1] . Si se consideran todas las 50 observaciones, la mediana sería el promedio de la observación 25 y la observación 26, o 0,2485. El modo, por otra parte, es el valor de las observaciones que ocurre más frecuentemente en la muestra. El modo se puede leer fácilmente de un histograma de los datos, debido a que es el pico del histograma. La Figura 9.1 ilustra la media aritmética, la mediana y el modo en un histograma de los datos de las longitudes de la espina tibial. 9.2.3 Cuando usar cada medida de localización ¿Por qué escoger una medida de localización y no otra? La media aritmética es la medida de localización más comúnmente usada, en parte porque es familiar. Una justificación más importante es que el Teorema Central del Límite muestra que las medias aritméticas de muestras grandes de variables aleatorias se distribuyen normalmente, aunque la variable aleatoria no lo haga. Esta propiedad facilita la comprobación de hipótesis usando medias aritméticas. La mediana o el modo describen mejor la localización de los datos cuando las distribuciones de las observaciones no pueden ser ajustadas a una distribución de probabilidades estándar, o cuando existen observaciones extremas. Esto se debe a que la media aritmética es muy sensible a observaciones extremas (pequeñas o grandes), mientras que la mediana y el modo tienden a caer en el medio de la distribución indistintamente de su dispersión y forma. En las distribuciones simétricas, tales como la normal, la media aritmética, el modo y la mediana son iguales. Pero en distribuciones asimétricas, tales como la mostrada en la Figura 9.1, la media ocurre hacia la cola más larga de la distribución, el modo ocurre en la parte más alta de la distribución y la mediana ocurre entre las dos. 1 9.3 Medidas de dispersión Nunca es simplemente suficiente reportar la media u otra medida de localización. Debido a que en la naturaleza existe variación, y debido a que existe un Las personas también usan diferentes medidas de localización para soportar diferentes puntos de vista. Por ejemplo, el promedio de ingresos por hogar en los Estados Unidos de Norte América es considerablemente mayor que el ingreso más típico (o mediana). Esto se debe a que el ingreso tiene una distribución log-normal, de modo que los promedios tienden a ubicarse en la parte derecha de la curva, representando los ultra ricos. Ponga atención cuando se reporten la media, la mediana y el modo de un conjunto de datos, y sospeche si no se indican medidas de variación o dispersión. 1
182 límite a la precisión con la que podemos hacer mediciones, debemos también cuantificar y publicar la dispersión, o la variabilidad, de nuestras observaciones. 9.3.1 La varianza y la desviación estándar Para una variable aleatoria X , la varianza 2 es una medida de cuan lejos las observaciones de esta variable aleatoria se encuentra del valor esperado. Al igual que con la media, la verdadera varianza de una población es una cantidad desconocida. Al igual que calculamos un estimado X de la media de la población usando nuestros datos, podemos calcular una S 2 estimada de la varianza de la población 2 usando nuestros datos: S2
1 n ( X i X )2 n 1
Este valor también se conoce como el cuadrado promedio. Este término, junto con su acompañante, la suma de los cuadrados: n
SSY ( X i X ) 2 i 1
se usan profusamente en el ANOVA y el análisis de regresión. Y al igual que definimos la desviación estándar de una variable aleatoria como la raíz cuadrada de su varianza, podemos estimar la desviación estándar como S S 2 . Dijimos anteriormente que la media aritmética X provee un estimado no sesgado de . Sesgado significa que si muestrearamos la población repetidamente infinitas veces, y computáramos la media aritmética de cada muestra (indistintamente del tamaño de la muestra), la media de este conjunto de medias aritméticas debería ser igual a . Sin embargo, nuestros estimados iniciales de la varianza y la desviación estándar no son estimadores no sesgados de 2 y , respectivamente. En particular, 1 n 2 S ( X i X ) 2 subestima la varianza real de la población. El sesgo en la ecuación n 1 esta ecuación se puede ilustrar con un experimento sencillo. Supongamos que tomamos una sola muestra X 1 de una población y tratamos de estimar y 2 . Nuestro estimado de es el promedio de las observaciones, el cual en este caso es simplemente X 1 mismo. Sin embargo, si estimamos 2 usando la ecuación anterior, la respuesta será siempre igual a 0,0 debido a que la única observación es igual a la media. El problema es que, con n 1 , hemos usado nuestro dato para estimar , y no tenemos información adicional para estimar 2 . Esto nos lleva directamente al concepto de los grados de libertad. Los grados de libertad representan el número de piezas independientes que tenemos en el conjunto de datos para estimar los parámetros estadísticos. En un conjunto de datos de tamaño
183 uno, no tenemos suficientes observaciones independientes que puedan ser usadas para estimar la varianza. El estimado no sesgado de la varianza, la varianza de la muestra, se calcula dividiendo la suma de los cuadrados por (n 1) en vez de sólo n . Así que el estimado no sesgado de la varianza es: S2
1 ( X i X )2 n 1
y el estimado no sesgado de la desviación estándar, la desviación estándar de la muestra, es: S
1 ( X i X )2 n 1
Las dos ecuaciones anteriores están ajustadas a los grados de libertad. Estas ecuaciones ilustran que necesitamos al menos dos observaciones para estimar la varianza de una distribución. Para los datos de las espinas tibiales tenemos que S 2 0,0017 y S 0,0412 . 9.3.2 El error estándar de la media Otra medida de dispersión usada frecuentemente por los ecólogos y científicos ambientales es el error estándar de la media. Esta medida de dispersión se abrevia como S X y se calcula dividiendo la desviación estándar de la media por la raíz cuadrada del tamaño de la muestra: SX
S n
La Ley de los Grandes Números prueba que para un número infinitamente grande de observaciones, X i / n se aproxima a la media de la población , donde X n { X i } es una muestra de tamaño n de una variable aleatoria X con un valor 2 esperado de E ( X ) . Similarmente, la varianza de Yn / n . Debido a que la desviación estándar es simplemente la raíz cuadrada de la varianza, la desviación estándar de X n es: 2 n n
la cual es lo mismo que el error estándar de la media. Por lo tanto, el error estándar de la media es un estimado de la desviación estándar de la población .
184 Desafortunadamente, muchos no entienden la diferencia entre la desviación estándar (típicamente abreviada como SD o DE) y el error estándar de la media (abreviada como SE o EE).1 Debido a que el error estándar de la media es siempre menor que la desviación estándar, las medias reportadas con los errores estándar parecen menos variables que aquellas reportadas con desviaciones estándar (Figura 9.2). Sin embargo, la decisión de reportar el error estándar de la media, S X , o la desviación estándar, S , depende de cual inferencia deseamos que el lector haga. Si las conclusiones están basadas en una sola muestra representativa de la población entera, entonces reporte el error estándar de la media. Por otra parte, si las conclusiones están limitadas a la muestra que se tenga a mano, es más honesto reportar la desviación estándar de la muestra. Muestreos observacionales amplios que cubren grandes espacios con grandes números de muestras, probablemente sean más representativos de la población entera (por lo que se debe reportar S X ), mientras que experimentos pequeños controlados con pocas réplicas, probablemente estén basados en un grupo único (y posiblemente no representativo) de individuos (por lo tanto, reporte S ). Muchos autores recomiendan reportar la desviación estándar de la muestra, S , la cual refleja con más precisión la variabilidad subyacente de los datos reales y generaliza menos. Sin embargo, siempre y cuando usted provea el tamaño de la muestra en el texto, tablas o las leyendas de las figuras, los lectores pueden computar el error estándar de la media de la desviación estándar de la muestra y viceversa.
9.3.3 Skewness, kurtosis y momentos centrales La desviación estándar y la varianza son casos especiales de lo que los estadísticos llaman momentos centrales. Un momento central ( MC ) es el promedio de las desviaciones de la media de todas las observaciones en un conjunto de datos elevado a una potencia r : MC
1 n ( X i X )r n i1
En esta ecuación, n es el número de observaciones, X i es el valor de cada observación individual, X es la media aritmética de las n observaciones y r es un entero positivo. El primer momento central ( r 1 ) es la suma de las diferencias de cada observación de la media aritmética, la cual es siempre igual a cero. El segundo momento central ( r 2 ) es la varianza. El tercer momento ( r 3 ) dividido por la desviación estándar cubicada ( S 3 ) se denomina sesgo (skewness; denotado por g1 ): Probablemente habrá notado que nos hemos referido al error estándar de la media, y no simplemente el error estándar. El error estándar de la media es igual a la desviación estándar de un conjunto de medias. Similarmente, pudiéramos computar la desviación estándar de un conjunto de varianzas u otro estadístico. 1
185
g1
1 n ( X i X )3 nS 3 i 1
El sesgo describe como difiere la forma de la distribución de una muestra de una distribución simétrica. Una distribución normal tiene g1 0 . Una distribución para la cual g1 0 se dice que está sesgada a la derecha; es decir, muchas observaciones son mayores que la media (están a la derecha de ella). En contraste, g1 0 denota que la distribución está sesgada a la izquierda; es decir, muchas observaciones son menores que la media (están a la izquierda) (Figura 9.3). El kurtosis ( g 2 ) se basa en el cuarto momento central ( r 4 ):
1 n g2 ( X i X )4 3 4 nS i 1 El kurtosis mide la extensión con la que se distribuye una densidad de probabilidad en las colas en comparación con el centro. Distribuciones agrupadas o platicúrticas tienen un g 2 0 ; en comparación con una distribución normal, hay mayor probabilidad en el centro de la distribución y menos en las colas. En contraste, las distribuciones leptocúrticas tienen un g 2 0 . Las distribuciones leptocúrticas tienen menos probabilidad en el centro y colas relativamente "gordas" (Figura 9.4). Aunque el sesgo y el kurtosis eran reportados usualmente en la literatura ecológica hasta mediados de los 1980, rara vez son reportados ahora. Sus propiedades estadísticas no son buenas: son muy sensibles a outliers y a diferencias en la media de la distribución. Weiner y Solbrig (1984) discuten el problema de usar sesgo y kurtosis en los estudios ecológicos. 9.3.4 Cuantiles Otra forma de ilustrar la dispersión de una distribución es reportar sus cuantiles. Todos estamos familiarizados con un tipo de cuantil, el percentil, debido a que se usa en las pruebas de conocimiento estandarizadas (p. ej., la Prueba LUZ, la Prueba del CNU, etc). Cuando se dice que una nota está en el percentil 90 avo, 90 por ciento de las notas son menores y 10 por ciento son mayores en comparación con la nota que se reporta. Anteriormente vimos otro ejemplo de un percentil, la mediana, la cual es el valor localizado en el 50avo percentil de los datos. En las presentaciones de datos estadísticos, comúnmente reportamos los cuartiles superior e inferior, los valores para los percentiles 25avo y 75avo, y los deciles superior e inferior, los valores para los percentiles 10avo y 90avo. Estos valores para los datos de las longitudes de las espinas tibiales de arañas linyfidas se ilustran en el diagrama de caja (box plot) de la Figura 9.5. A diferencia de la varianza y la desviación estándar, los valores de los cuantiles no dependen de los valores de la media aritmética o la mediana. Cuando las distribuciones
186 son asimétricas o contienen outliers (valores extremos que no son característicos de las distribuciones de las cuales fueron muestreados), los diagramas de cajas pueden representar la distribución de los datos con más precisión que las gráficas convencionales de medias y desviaciones estándar. 9.3.5 El uso de las medidas de dispersión Por si mismos, las medidas de dispersión no son especialmente informativas. Su utilidad primaria es comparar datos de diferentes poblaciones o de diferentes tratamientos dentro de experimentos. Por ejemplo, el ANOVA usa los valores de las varianzas de las muestras para comprobar hipótesis relacionadas con diferencias de tratamientos. La prueba familiar t-Student usa las muestras de las desviaciones estándar para comprobar la hipótesis que las medias de dos poblaciones difieren entre si. No es un procedimiento directo comparar la variabilidad a través de las poblaciones, o los grupos de tratamientos, debido a que la varianza y la desviación estándar dependen de la media de la muestra. Sin embargo, podemos calcular una medida de variabilidad independiente, llamada el coeficiente de variación o CV. El CV es simplemente la desviación estándar de la muestra dividida por la media, S / X , y se multiplica convencionalmente por 100 para convertirla en porcentaje. El CV para los datos de longitudes de espinas tibiales es igual a 16,5 por ciento. Si otra población de arañas tuviera un CV de longitud de espina tibial igual a 25 por ciento, diríamos que nuestra primera población es algo menos variable que la segunda población. Un índice relacionado es el coeficiente de dispersión, el cual se calcula como la varianza de la muestra dividida por le media ( S 2 / X ). El coeficiente de dispersión puede usarse con datos discretos para evaluar si los individuos están agrupados o hiper dispersos en el espacio, o si se distribuyen al azar o como lo predice una distribución Poisson. Por ejemplo, algunas larvas de invertebrados marinos exhiben una respuesta de colonización agregada: una vez que los juveniles ocupan un parche, dicho parche se hace muy atractivo como una superficie de colonización para larvas subsecuentes (Crisp, 1979). Comparadas con una distribución Poisson, estos agregados o distribuciones agrupadas tenderán a tener muchas muestras con altos números de ocurrencias, y muchas muestras con cero ocurrencias. En contraste, muchas colonias de hormigas exhiben fuerte territorialidad y matarán o ahuyentarán otras hormigas que traten de establecer colonias dentro de su territorio (Levings y Traniello, 1981). Este comportamiento segregacionista también empujará la distribución lejos de la Poisson. En este caso, las colonias estarán hiper dispersadas: habrán muy pocas muestras con frecuencia cero y muy pocas muestras con altos valores. Debido a que la varianza y la media de una variable aleatoria con distribución Poisson son ambas iguales a , el coeficiente de dispersión ( CD ) para una variables aleatoria Poisson es igual a / 1 . Por otra parte, si los datos son agregados, CD 1,0 , y si los datos son hiper dispersos o segregados, CD 1,0 . Sin embargo, el análisis de patrones espaciales con distribuciones Poisson se puede complicar debido
187 a que los resultados dependen no solamente del grado de agregación o segregación de los organismos, sino también del tamaño, número y localización de las unidades de muestreo. 9.3.6 Algunas consideraciones filosóficas relacionadas con los estadísticos estudiados La media de la muestra, la desviación estándar y la varianza son estimados de los parámetros poblacionales , y 2 que obtenemos directamente de nuestros datos. Debido a que nunca muestreamos la población entera, estamos forzados a estimar estos parámetros desconocidos por X , S y S 2 . Al hacerlo así, asumimos una presunción fundamental: que existe un verdadero valor fijo para cada uno de estos parámetros. La Ley de los Grandes Números prueba que si muestreamos nuestra población infinitas veces, el promedio de las infinitas X que calculamos de nuestras infinitas muestras será igual a . La Ley de los Grandes Números forma la base para lo que se conoce como los estadísticos paramétricos y frecuentistas (o asintóticos). Los estadísticos paramétricos se llaman así porque la presunción es que la variable medida puede ser descrita por una variable aleatoria, o distribución de probabilidad, de forma conocida con parámetros definidos y fijos. Los estadísticos frecuentistas o asintóticos se llaman así porque asumen que si el experimento se repitiera infinitas veces, los estimados más frecuentes de los parámetros convergerían (alcanzarían una asíntota) en sus valores verdaderos. Pero ¿que pasaría si esta presunción fundamental (que los parámetros tienen valores verdaderos fijos) es falsa? Por ejemplo, si nuestras muestras fueran tomadas por largos períodos, habrían cambios en la longitud de las espinas tibiales debido a la plasticidad fenotípica en el crecimiento, o incluso cambios evolutivos debidos a la selección natural. O tal vez nuestras muestras sean tomadas en cortos períodos, pero cada araña venga de un micro hábitat diferente, para los cuales hay una única varianza. En tal caso, ¿existe un significado real en estimar un valor sencillo para la longitud promedio de la espina tibial en la población de arañas? La estadística bayesiana comienza con la presunción fundamental que los parámetros poblacionales tales como , y 2 son en si mismas variables aleatorias. Un análisis bayesiano produce estimados no solamente de los valores de los parámetros, sino también de la variabilidad inherente de estos parámetros. La distinción entre la filosofía frecuentista y la bayesiana está lejos de ser trivial, y ha resultado en muchos años de ardiente debate, primero entre los estadísticos, y más recientemente entre ecólogos. La estimación bayesiana de los parámetros como si fueran variables aleatorias a menudo requiere cálculos complejos. En contraste, los estimados frecuentistas de los parámetros como valores fijos usan las formulas simples que se han estudiado en este capítulo. Debido a la complejidad computacional de los estimados bayesianos, inicialmente no estaba claro si los resultados de los análisis frecuentistas y bayesianos eran cuantitativamente diferentes. Sin embargo, con el advenimiento de computadoras veloces, es posible ahora ejecutar análisis bayesianos
188 complejos. Bajo ciertas condiciones, los resultados de ambos son cuantitativamente similares. Sin embargo, las interpretaciones de los resultados estadísticos pudieran ser totalmente diferentes. Un ejemplo de tal diferencia es la construcción e interpretación de los intervalos de confianza para los parámetros estimados. 9.3.7 Intervalos de confianza Los científicos a menudo usan la desviación estándar de la muestra para construir un intervalo de confianza alrededor de la media. Para una variable aleatoria normalmente distribuida, aproximadamente el 67 por ciento de las observaciones ocurren dentro de 1 desviación estándar de la media, y aproximadamente 96 por ciento de las observaciones ocurren dentro de 2 desviaciones estándares de la media.1 Usamos esta observación para crear un intervalo de confianza del 95 por ciento, el cual para muestras grandes es el intervalo limitado por ( X 1,96 S X , X 1,96 S X . ¿Qué representa este intervalo? Este intervalo nos dice que la probabilidad de que la verdadera media de la población caiga dentro del intervalo de confianza es igual a 0,95: P ( X 1,96 S X X 1,96 S X ) 0,95
Debido a que nuestra media de la muestra y el error estándar de la muestra son derivadas de una muestra individual, este intervalo de confianza cambiará si muestreamos la población de nuevo (aunque si nuestro muestreo es aleatorio e insesgado, no debería cambiar mucho). Así, esta expresión afirma que la probabilidad de que la verdadera media de la población, , caiga dentro de un intervalo de confianza individual es igual a 0,95. Por extensión, si muestrearamos repetidamente la población (manteniendo el tamaño de la muestra constante), 5 por ciento de las veces esperaríamos que la verdadera media de la población, , estaría fuera de este intervalo de confianza. La interpretación de un intervalo de confianza es engañosa. Una interpretación común acerca del significado de un intervalo de confianza es decir que … existe una probabilidad de 95 por ciento que la verdadera media de la población, , ocurra dentro de este intervalo. Esto es incorrecto. El intervalo de confianza puede contener o puede no contener ; no puede estar tanto dentro como fuera del intervalo de confianza simultáneamente. Lo que realmente se quiere decir es que 95 por ciento de las veces un intervalo calculado en esta forma contendrá el valor de la . Así, si usted realiza su experimento 100 veces, y crea 100 intervalos de confianza, aproximadamente 95 de ellos contendrán y cinco no. Use la regla de las dos desviaciones estándar cuando lea literatura científica, y habituese a estimar intervalos de confianza aproximados para los datos de la muestra. Por ejemplo, supongamos que el contenido promedio de nitrógeno de una muestra de tejido de plantas fue 3,4% 0,2 , donde 0,2 es la desviación estándar de la muestra. Dos desviaciones estándar es igual a 0,4, la cual se añade y substrae de la media. Por lo tanto, aproximadamente 95 por ciento de las observaciones estuvieron entre 3,0 y 3,8 por ciento. 1
189
CAPÍTULO 10 Pruebas estadísticas 10.1 Introducción Ahora, por fin, veremos algunos ejemplos típicos de como resolver problemas que se nos presentan cotidianamente. Aunque casi siempre existen múltiples formas de resolver un mismo problema usando diferentes pruebas, sólo trataremos algunas de ellas, las más usadas, simples o directas, o famosas, dejando para estudios más avanzados otras pruebas menos comunes y/o complicadas. 10.2 Pruebas para encontrar diferencias 10.2.1 ¿Hay diferencias entre las distribuciones de frecuencia? Hay dos tipos de preguntas que se pueden hacer: 1) ¿ difiere un conjunto de frecuencias observadas de otro conjunto? 2) ¿ siguen las frecuenciaS observadas una distribución estándar? En el primer caso, la prueba es análoga a una prueba de diferencia entre dos muestras como la t-Student. El segundo caso es una forma de comprobar diferencia entre frecuencias observadas y esperadas, tales como en cruces genéticos de plantas que siguen proporciones esperadas, o para comprobar si un
190 organismo se distribuye al azar usando una distribución Poisson. La prueba G, la prueba Chi2 de bondad del ajuste y la prueba de Shapiro-Wilk son las más empleadas para responder estas preguntas. A continuación veremos la prueba G y la prueba de Shapiro-Wilk. 10.2.2 Prueba G Cuando usted tiene frecuencias observadas de varias categorías, y proporciones esperadas para esas categorías que no fueron derivadas de los mismos datos, entonces la prueba G debería ser la prueba preferida a ser usada. Sin embargo, hace poco tiempo fue que se demostró que esta prueba era superior a la prueba Chi 2 de bondad del ajuste, la cual era, o sigue siendo aún, la prueba más usada en este tipo de casos. Consecuentemente, la prueba G no es ofrecida por la mayoría de los paquetes estadísticos. En la prueba G se calculan las proporciones de las frecuencias observadas y esperadas; se calcula el logaritmo natural (Ln o log e) de las proporciones, y estos valores se multiplican por los valores observados, se suman y luego se duplican. Este valor de G se compara con una distribución Chi 2 con un grado de libertad menos que el número de categorías cuando se comprueba una H 0 extrínseca; mientras que cuando se comprueba una H0 intrínseca, los grados de libertad se calculan substrayendo dos del número de categorías. La ecuación para la prueba G es la siguiente: O G 2 * O * Ln E
donde O = frecuencias observadas y E = frecuencias esperadas. 10.2.2.1 ¿Cuando usar la prueba G? Use la prueba G de bondad del ajuste cuando tenga una variable atributo con dos o más valores (tales como rojo, rosado y blanco). Los datos observados se comparan con los datos esperados, los cuales son algún tipo de valor teórico (tal como la proporción de sexos 1:1 o una proporción 1:2:1 en un cruce genético) 10.2.2.2 La hipótesis nula La hipótesis nula es que el número de observaciones en cada categoría es igual a la predicha por una teoría biológica, y la hipótesis alternativa es que los valores observados son diferentes de los esperados. La hipótesis nula usualmente es extrínseca es decir, una hipótesis para la cual las proporciones esperadas se determinan antes de hacer el experimento; por ejemplo la proporción de sexos 1:1 o la proporción 1:2:1 para un cruce genético. En algunas circunstancias se usa una hipótesis intrínseca. Esta es una hipótesis nula en la cual las proporciones esperadas se calculan después que se hace el experimento, usando alguna información a partir de los datos. El ejemplo mejor conocido de una hipótesis intrínseca es la de las
191 proporciones de poblaciones genéticas de Hardy-Weinberg: si la frecuencia de un alelo en una población es p y el otro alelo es q , la hipótesis nula es que las frecuencias esperadas de los tres genotipos son p 2 , 2 pq y q 2 . 10.2.2.3 ¿Cómo trabaja la prueba? La prueba estadística se calcula tomando el valor observado ( O ), dividiéndolo por el valor esperado ( E ), luego se le aplica el logaritmo natural ( Ln o Log e ) a esta proporción. El Ln de 1 es 0; si el valor observado es mayor que el esperado, Ln(O / E ) es positivo, mientras que si O es menor que E entonces Ln(O / E ) es negativo. Cada Ln se multiplica por el valor observado, luego estos productos se suman y se multiplican por 2. Como vimos arriba, la ecuación para la prueba G es G 2 * O * Ln(O / E ) . Al igual que en la mayoría de las pruebas estadísticas, mientras mayor sea la diferencia entre los valores observados y los esperados, mayor se hace el valor de la prueba estadística. La distribución del estadístico G bajo la hipótesis nula se ajusta a la distribución teórica Chi 2. Esto significa que una vez que usted tenga el estadístico G , usted puede calcular la probabilidad de obtener ese valor de G usando la distribución Chi 2. La forma de la distribución Chi 2 depende de los grados de libertad. Para una hipótesis nula extrínseca (la situación más común, donde usted conoce las proporciones predichas por la hipótesis nula antes de recolectar los datos), los grados de libertad son simplemente el número de valores de la variable menos uno. Así, si usted está comprobando la hipótesis nula de una proporción de sexos 1:1, hay dos posibles valores (hembra y macho) y por lo tanto un grado de libertad. Esto se debe a que una vez que usted sabe cuantos del total son hembras (un valor que es libre de variar entre 0 y el tamaño de la muestra), el número de machos se determina directamente. Una hipótesis nula intrínseca es aquella en la cual usted estima uno o más parámetros a partir de los datos para obtener los valores para su hipótesis nula. Como se dijo arriba, el ejemplo más común es el relacionado con las proporciones de la ecuación de Hardy-Weinberg. Para una hipótesis nula intrínseca, los grados de libertad se calculan tomando el número de valores de la variable, sustrayéndole uno por cada parámetro estimado a partir de los datos, y luego sustrayéndole uno más. 10.2.2.4 Ejemplo: hipótesis extrínseca Mendel cruzó guisantes que eran heterocigotos para liso/rugoso y liso como dominante. La proporción esperada en la descendencia es 3:1 (tres lisos y 1 rugoso). El observó 423 lisos y 133 rugosos. La frecuencia esperada de lisos se calcula multiplicando el tamaño de la muestra ( n 556 ) por la proporción esperada (0,75), lo cual resulta en 417. Se hace lo mismo para el rugoso, lo cual resulta en 139. Los grados de libertad cuando es una hipótesis extrínseca es el número de clases menos uno. En este caso hay dos clases (lisos y rugosos), de modo que hay 1 grado de libertad. El resultado es G 0,35 , df 1 , P 0,555 , indicando que la hipótesis nula no puede ser rechazada; no hay suficiente evidencia que demuestre diferencia significativa entre las frecuencias observadas y esperadas (es decir, no hay suficiente evidencia que
192 nos permita rechazar la hipótesis nula; recuerde, nunca diga que comprobó la hipótesis nula, simplemente diga que no tiene suficiente evidencia que le permita rechazarla). 10.2.2.5 Ejemplo: hipótesis intrínseca McDonald y col. (1996) examinaron la variación en el locus CVJ5 en la ostra americana Crassostrea virginica. Habían dos alelos, L y S; y la frecuencia de genotipos en Panacea, Florida fueron 14 LL, 21 LS y 25 SS. El estimado de la proporción de L a partir de los datos es 49/120 = 0,408. Usando la ecuación de Hardy-Weinberg y esta proporción estimada de alelos, las proporciones de genotipos esperados son 0,166 LL; 0,484 LS y 0,350 SS. Hay tres clases (LL, LS y SS) y un parámetro estimado de los datos (la proporción del alelo L), por lo tanto, hay un grado de libertad. El resultado es G 4,56 , df 1 y P 0,033 , el cual es significativo al nivel de 0,05. Podemos rechazar la hipótesis nula de que los datos se ajustan a las proporciones esperadas según la ecuación de Hardy-Weinberg. Recuerde que la ecuación (o fórmula) de Equilibrio de Hardy-Weinberg establece que la frecuencia de genes es p:2 : 2 pq : q 2 (o pp : 2 pq : qq ), donde p es la frecuencia del alelo dominante y q la frecuencia del alelo recesivo. De esta fórmula se sigue que p q 100% de todos los genes en el pool genético. En este ejemplo, por lo tanto, si la proporción del alelo L es 0,408 (recesivo), debido a que p q 100% , entonces la proporción del alelo S (dominane) es 0,592 (0,408 + 0,592 = 1 o 100 por ciento). Por lo tanto LL = 0,408 x 0,408 = 0,166 (es decir, q 2 o qxq ); LS = 2 x 0,592 x 0,408 = 0,484 (es decir, 2pq o 2 x p x q) y SS = 0,592 x 0,592 = 0,350 (es decir, p 2 o pxp ). La prueba Chi2 da aproximadamente los mismos resultados que la prueba G . A diferencia de la prueba Chi2, los valores de G son aditivos, lo cual significa que pueden ser usados en diseños experimentales más sofisticados. La prueba G es, por lo tanto, la preferida por la mayoría, incluso para diseños más simples donde la aditividad no es importante. En el Apéndice F se muestra el ejemplo de la hipótesis extrínseca efectuado en la hoja de cálculo MS Excel. 10.2.3 Prueba de Shapiro-Wilk La prueba de Shapiro-Wilk (también puede ser encontrada como Wilk-Shapiro) es, hoy por hoy, la prueba más usada para comprobar normalidad; existen además las pruebas de Kolmogorov-Smirnov, de Cramer-von Mises y la de Anderson-Darling. Desafortunadamente, pocos paquetes estadísticos ofrecen un valor de P asociado con la prueba que nos permita deducir normalidad directamente. Por ejemplo, el paquete Statistix sólo ofrece el valor del estadístico (W) y la gráfica de los denominados rankits. El paquete estadístico SAS, probablemente el paquete estadístico más completo, ofrece la mejor alternativa para este tipo de análisis (y casi cualquier diseño o prueba estadística). Para este ejemplo usaremos datos de peso de 48 ratones; esta muestra es parte de un experimento y los investigadores desean saber si los pesos se distribuyen normalmente antes de proceder a ejecutar pruebas paramétricas. El programa SAS
193 que nos permitirá comprobar normalidad en este caso es el siguiente (el Capítulo 5 ofrece un ejemplo detallado de este tipo): DATA Ejemplo; INPUT Peso; CARDS; 12.5 14.2 12.6 13.0 14.1 15.0 13.5 13.2 12.8 14.1 12.1 12.6 13.2 13.8 12.5 12.6 12.9 13.0 12.5 12.0 13.1 13.2 14.5 13.5 12.1 12.5 12.4 13.8 13.2 14.0 12.6 12.1 13.5 13.8 14.1 12.9 12.1 12.8 13.4 13.9
194 12.5 12.4 12.8 12.9 13.6 14.0 12.5 12.8 ; RUN; PROC PRINT; RUN; PROC UNIVARIATE NORMAL PLOT; VAR Peso; RUN; QUIT; Ejecute el programa y observe los resultados generados. En este caso el estadístico de Shapiro-Wilk (W) es igual a 0,953277, con un P 0,0541 , el cual es > 0,05. Debido a esto, no tenemos suficiente evidencia para rechazar la hipótesis nula de que los pesos de los ratones siguen una distribución normal, y por lo tanto concluimos que los pesos provienen de una población que se distribuye normalmente (recuerde que para rechazar la hipótesis nula P debe ser menor a 0,05). Los resultados y las gráficas se muestran en el Apéndice G. 10.2.4 Prueba t Student : una muestra La prueba t Student (o simplemente prueba t ) es una de las pruebas estadísticas más sencillas y útiles. Típicamente esta prueba se usa cuando se desea determinar si existe diferencia significativa entre dos medias, independientemente de la forma en que hayan sido obtenidas las dos medias. Veamos el siguiente ejemplo ficticio para detallar esto: En cosechas anteriores, un cultivador de camarones ha obtenido un rendimiento promedio de 6850 kilogramos de camarones tamaño comercial por hectárea. Un comerciante le proveyó un nuevo alimento que fue probado en 15 lagunas de una hectárea y los rendimientos fueron los siguientes (la media obtenida es 7200 kilogramos): 7540, 6820, 7390, 7430, 6950, 7160, 6850, 6500, 7230, 7080, 7370, 7410, 7620, 7190 y 7460. ¿Indican estos resultados que el rendimiento promedio de camarones se incrementó debido al uso de este nuevo alimento? Este es un típico ejemplo de preguntas que pueden ser respondidas con el uso de la prueba t . Para esto usaremos PROC MEANS en SAS (usaremos PROC TTEST en ejemplos posteriores). Veamos el programa:
195 DATA EJEMPLO; INPUT Rendimiento; X= Rendimiento - 6850; CARDS; 7540 6820 7390 7430 6950 7160 6850 6500 7230 7080 7370 7410 7620 7190 7460 ; PROC PRINT; RUN; PROC MEANS MEAN VAR STD STDERR T PRT; VAR X; RUN; QUIT; Observe que luego de INPUT Rendimiento creamos una nueva variable X que SAS calcula sustrayendo de cada valor de Rendimiento obtenido bajo condiciones experimentales el valor del rendimiento promedio (es decir, 6850) que el cultivador había obtenido y contra el cual desea hacer la comparación. En el comando PROC MEANS le indicamos a SAS que estime la media (MEAN), varianza (VAR), desviación estándar (STD), error estándar (STDERR) (todos estos valores son optativos) y finalmente el valor del estadístico t (T) y la probabilidad asociada con este valor (PRT) (estos son los valores que necesitamos para nuestra prueba de comparación). Al ejecutar el programa, observe que se imprimen los valores de Rendimiento y de la variable X, y luego se imprime una tabla con los estadísticos solicitados. Note que t 4,35 y que la probabilidad asociada es P 0,0007 (esto significa que si repetimos el experimento 10.000 veces encontraremos el mismo resultado en siete oportunidades; es decir 7/10000 = 0,0007 y que por lo tanto este resultado no es producto del azar). Es importante en este momento establecer la hipótesis nula (H 0) en este caso; la hipótesis nula es que nuestra media experimental (es decir, la media de Rendimiento, ó 7200; X es igual a la media obtenida con anterioridad (es decir, 6850; ) (en otras palabras, X ). Observe, sin embargo, que los estadísticos mostrados en la tabla
196 corresponden a los valores de la variable X (es decir, Rendimiento - 6850); por lo tanto, la media es 350, que es el valor que se utiliza para estimar el estadístico t . El valor de P calculado indica que este es mucho menor que 0,05 (el valor casi estándar de P ), y por lo tanto tenemos suficiente evidencia para rechazar la H 0 de que las medias son iguales, y concluir que el nuevo alimento incrementa el rendimiento de los camarones. Por supuesto, este pequeño problema podríamos haberlo resuelto manualmente ya que sabemos que la fórmula de la prueba t para este tipo de análisis es: t
X SX
donde S X es el error estándar de la media ( S /
n
y
n es el tamaño de la muestra).
Por lo tanto, t 350 / 80,4155872 … t 4,35 (el cual es el valor obtenido por SAS). Con este valor y los grados de libertad ( df ) buscamos en una tabla de valores de t el valor de P asociado con este t . Recuerde que los valores de P en las tablas estadísticas vienen dadas para las denominadas pruebas de dos colas es decir, cuando lo que importa es que las medias sean simplemente diferentes, no que sean menor o mayor lo cual sería el caso para una prueba de una sola cola; en este caso el valor del estadístico t debe dividirse por dos. Recuerde que la prueba t es una prueba paramétrica, y por lo tanto requiere la condición de normalidad; sin embargo, no comprobamos normalidad aquí, ¿cómo comprobaríamos normalidad? Simplemente invocando PROC UNIVARIATE; efectúe esta prueba. Ejercicio Las regulaciones gubernamentales establecen que la dosis estándar (potencia) de una cierta preparación biológica sea 600 unidades de actividad por centímetro cúbico (UA/cc). Se prepararon 10 muestras de esta preparación y se comprobó la potencia. Los valores se muestran a continuación: 590, 592, 593, 590, 599, 595, 596, 591, 590 y 590. ¿Cumple nuestra muestra la regulación gubernamental al respecto? Escriba un programa en SAS para responder la pregunta; si tiene una calculadora puede hacerlo manualmente. 10.2.5 Prueba t Student : muestras independientes Como lo indicamos anteriormente, la prueba t Student es la prueba estadística tradicional para determinar si existe diferencia entre dos medias (vimos anteriormente que no importa la forma en que se obtienen las dos medias); la prueba t es, de hecho, un caso especial del ANOVA. Existen, sin embargo, dos tipos de prueba t que son apropiadas para diferentes diseños experimentales, y que son las más usadas en la investigación ecológica. La denominada prueba t de muestras independientes (independent-samples t test) es apropiada si las observaciones obtenidas bajo una de las condiciones de tratamiento son independientes (no correlacionadas) de las observaciones obtenidas bajo la otra condición de tratamiento. Por ejemplo, imagínese
197 que usted determina la cosecha de peces en dos lagunas (A y B) independientes (no interconectadas entre si) en donde se han utilizado dos dietas diferentes (y todas las demás variables potenciales se mantienen estándar), y desea determinar si la cosecha de la laguna A difiere de la cosecha de la laguna B (NOTA: tome en cuenta que las mediciones deben ser comparables, y para eso deben estar estandarizadas; p. ej., si la laguna A tiene mayor superficie que la laguna B es necesario estandarizar la cosecha, por ejemplo estimando captura por unidad de área (cosecha/área); o captura por unidad de esfuerzo, CPUE de forma genérica); una prueba t de muestras independientes sería apropiada (NOTA: observe que también podría utilizar un ANOVA, y que debería obtener el mismo resultado). El segundo tipo de prueba t es la denominada prueba t de muestras apareadas (paired-samples t test). Esta prueba es apropiada si cada observación en una de las condiciones se aparea de alguna forma con las observaciones de la otra condición; existen innumerables instancias en las que este fenómeno puede ocurrir. Por ejemplo, suponga que usted divide la laguna A en dos secciones tomando como criterio la profundidad (la separación no es física es decir, la laguna A sigue siendo un solo cuerpo de agua) y obtiene valores de cosecha en las dos secciones y desea determinar si la cosecha es diferente (en otras palabras, si una de las dos secciones rinde mejor cosecha que la otra); en este caso la prueba recomendada es la prueba t de muestras apareadas. Siempre que existan indicios de que las muestras puedan estar correlacionadas de alguna manera, considere usar esta prueba; si no existen dudas de que las muestras son independientes, use la prueba alternativa. Veamos un ejemplo de una prueba t de muestras independientes; los datos que usaremos para ambos ejemplos son datos de contenido de mercurio (μg/g) en tejido de hígado de 33 delfines rayados Stenella coeruleoalba machos obtenidos de los océanos Atlántico y Pacífico y el Golfo de México. DATA TTEST; INPUT Lugar$ Mercurio; CARDS; ATL 264 ATL 300 ATL 85 ATL 445 ATL 286 ATL 118 ATL 218 ATL 180 ATL 278 ATL 261 ATL 168 GM 406 GM 239 GM 275
198 GM 540 GM 214 GM 481 GM 252 GM 288 GM 230 GM 216 GM 580 PAC 210 PAC 2 PAC 397 PAC 221 PAC 101 PAC 10 PAC 290 PAC 215 PAC 318 PAC 5 PAC 241 ; Recuerde imprimir los datos y verificar que todo este bien; esto lo hacemos con el siguiente comando: PROC PRINT; RUN; Luego hay que explorar los datos y comprobar si las muestras de mercurio de todos los cuerpos de agua provienen de una población normalmente distribuida (recuerde que la prueba t es una prueba paramétrica, y por lo tanto la normalidad está implícita); esto lo hacemos con PROC UNIVARIATE: PROC UNIVARIATE NORMAL; VAR Mercurio; BY Lugar; RUN; Al ejecutar el programa observe que las concentraciones de mercurio en hígados de los delfines del Atlántico y el Pacífico aparecen normalmente distribuidas, no así las concentraciones provenientes del Golfo de México. Por lo tanto, si deseamos comparar los datos de este cuerpo de agua con cualquiera de los otros dos, debemos corregir este problema (transformando los datos, por ejemplo). Sin embargo, dejemos esto para otra ocasión y utilicemos los valores del Atlántico y del Pacífico, que se distribuyen normalmente, para nuestro ejercicio.
199 Ya que tenemos tres tratamientos (Atlántico, Pacífico y Golfo de México), y la prueba t es para dos tratamientos, debemos manipular los datos para eliminar temporalmente los datos del Golfo de México (existen muchas formas de lograr esto, utilizaremos una de ellas ahora y veremos más opciones luego): DATA TTEST; INPUT Lugar$ Mercurio; IF Lugar= "GM" THEN DELETE; RUN; Ahora imprimimos los resultados con PROC PRINT para ver que todo esté bien: PROC PRINT; RUN; Ahora ejecutaremos una prueba t de muestras independientes utilizando PROC TTEST: PROC TTEST; CLASS Lugar; VAR Mercurio; RUN; Observe que PROC TTEST produce varios estadísticos generales que no nos interesan en este momento; por lo tanto, concentrémonos en el encabezado T-TESTS y notemos la tercera columna (Variances) en donde se lee Equal y Unequal; y en el encabezado Equality of Variances. Esto es importante tenerlo en cuenta, ya que nos permitirá discernir cuál prueba usaremos para nuestra conclusión. Los resultados del encabezado Equality of Variances comprueban si las varianzas de los dos tratamientos (en este caso Atlántico y Pacífico) son homogéneas (homoscedásticas; lo contrario es heterogéneas o heteroscedásticas) (NOTA: aunque homogeneidad de varianza es una presunción de la prueba t , PROC TTEST provee resultados para ambas opciones, evitando así limitaciones). Observe que t 1,86 y P 0,3407 ; por lo tanto, la H0 que las varianzas son homogéneas no puede ser rechazada (observe que el P 0,05 ) y por lo tanto asumimos que las varianzas son homogéneas. Ahora observe el encabezado T-TESTS; allí notamos resultados para las dos opciones (Equal y Unequal variances). Debemos usar la opción equal ya que demostramos que las varianzas son homogéneas. La prueba ( t 1,07 ; P 0,2992 ) indica que no existen diferencias significativas entre las concentraciones de mercurio en hígado de delfines colectados de los océanos Atlántico y Pacífico (observe que ambas opciones, Equal y Unequal, no son significativamente diferentes). Ejercicio Los datos mostrados en la Tabla 21 representan valores de captura por unidad de esfuerzo (CPUE), en número, de tilapias (Oreochromis mossambicus) por conjunto
200 de redes de ahorque capturadas en las lagunas Santa Teresa 1 y Santa Teresa 2 del sistema de lagunas de la Reserva Natural de Humacao, Puerto Rico. El sistema de lagunas consiste de cinco lagunas de aguas salobres interconectadas. Compruebe la presunción de normalidad y, de ser necesario, aplique transformación logarítmica; si la transformación no corrige el problema, use los datos originales y compruebe, mediante una prueba t de muestras independientes, si existe diferencia entre las CPUE promedio de las lagunas (reporte todos los resultados generados por la prueba t ; es decir, Statistics, T-Tests y Equality of Variances). ¿Considera que una prueba t de muestras independientes es la apropiada? (Pista: con la información proporcionada puede decidir); ¿Por qué o por qué no? Siéntase libre de consultar cualquiera fuente si lo desea; juegue con los datos y el programa para ganar experiencia, y siempre verifique que el procedimiento y/o los comandos que use son los correctos. Si desea usar otro paquete estadístico, puede hacerlo.
10.2.6 Prueba t Student : muestras apareadas En la sección anterior aprendimos que la denominada prueba t Student es un caso especial del análisis de la varianza (ANOVA), que se usa cuando se desea determinar si existe diferencia significativa entre dos medias. También aprendimos que existen dos tipos de prueba t (aparte de la prueba t de una muestra); la prueba t de muestras independientes y la prueba t de muestras apareadas. Ya estudiamos la prueba t de muestras independientes, veamos ahora un ejemplo de la prueba t de muestras apareadas. Recuerde que los algoritmos en que se basan los dos tipos de prueba t son diferentes, y por lo tanto se usan procedimientos diferentes. En el caso de muestras apareadas, SAS no utiliza PROC TTEST sino PROC MEANS (recuerde que usamos este PROC en el primer ejemplo de la prueba t ); asimismo, la base de datos debe ser construida de diferente manera. Observemos un ejemplo utilizando los mismos datos de contenido de mercurio (μg/g) en tejido de hígado de 33 delfines rayados Stenella coeruleoalba machos obtenidos de los océanos Atlántico y Pacífico y el Golfo de México. Note que debido a que son datos apareados, lo que PROC MEANS analiza son las diferencias entre los valores que se calculan con el comando DIFERENCIA = Atl – Pac. DATA TTEST; INPUT Atl Pac; DIFERENCIA = Atl - Pac; CARDS; 264 210
201 300 2 85 397 445 221 286 101 118 10 218 290 180 215 278 318 261 5 168 241 ; Recuerde que lo primero que hay que hacer es imprimir los datos para verificar que todo esté bien; también revise LOG para asegurarse que no haya errores (ERROR) o advertencias (WARNING). PROC PRINT; RUN; Debido a que ya hemos verificado que los valores de Atl y Pac estaban normalmente distribuidos, obviaremos esta parte aquí; pero recuerde que siempre debe verificar la presunción de normalidad de los datos con PROC UNIVARIATE. Usaremos ahora PROC MEANS con las opciones T ( t Student ) y PRT (probabilidad asociada con el valor de t ); N y MEAN sólo le indican a PROC MEANS imprimir el número de datos (N) y las medias (MEAN) de cada variable (esto es opcional; recuerde que si no le indica lo que usted desea, PROC MEANS imprimirá todos los cálculos definidos por defecto); VAR DIFERENCIA le indica a PROC MEANS que la variable que analizará es esa y no cualquiera de las otras dos. PROC MEANS N MEAN STDERR T PRT; VAR DIFERENCIA; RUN; Observe que el valor de t 0,98 y el P asociado es 0,3496; por lo tanto, esta prueba también nos indica que no existe diferencia significativa entre los contenidos de mercurio (μg/g) en tejido de hígado de delfines rayados Stenella coeruleoalba machos obtenidos de los océanos Atlántico y Pacífico. Recuerde que estos datos son utilizados con fines de docencia, y no constituyen un ejemplo típico de datos para ser utilizados en una prueba t de muestras apareadas. De hecho, estos son datos típicos para ser utilizados en una prueba t de muestras independientes. Ejercicio
202
Ahora ustedes deberán comparar Golfo de México con Atlántico; recuerden verificar las presunciones de la prueba t ; transforme si es necesario [explore LOG y SQRT (raíz cuadrada)], pero si ninguna transformación rinde normalidad, haga el análisis utilizando los datos originales. Ejercicio Diez pacientes fueron sometidos inicialmente al efecto de una nueva droga que controla una cierta enfermedad; meses después, los mismos pacientes fueron sometidos a un placebo. Al final de cada experiencia se determinó el grado de resistencia a los tratamientos; los resultados se muestran en la Tabla 22. ¿Cuál prueba t sería apropiada en este caso? Efectúe el análisis y compruebe la presunción de normalidad. Ejercicio Se ha sugerido que la construcción de una planta termoeléctrica afectará la cantidad de material particulado en el aire. Sin embargo, hay solamente tres lecturas disponibles de la cantidad de material particulado para el mes antes que la planta comience sus operaciones. Los sitios para los cuales se tenía esta información fueron visitados de nuevo una vez que la planta comenzó sus operaciones. Los datos se muestran en la Tabla 23. ¿Cuál prueba t sería apropiada en este caso? Efectúe el análisis y compruebe la presunción de normalidad. En base a los resultados, ¿que recomendación daría al departamento encargado del control de emisiones de materia particulada? ¿se pudiera demandar a la planta y exigir una indemnización, o incluso exigir el cierre de operaciones de la planta? Ejercicio Se han medido los pesos de cinco granos de dos cultivos experimentales denominados Premier y Super. Cada grano ha sido pesado con una exactitud de 0,1 mg. Los investigadores desean determinar si el peso de los granos es el mismo en los dos cultivos. La hipótesis nula (H 0) es que los dos cultivos producen granos con el mismo peso promedio. La hipótesis alternativa (H a) es que los dos cultivos producen granos con pesos promedios diferentes. Los datos se muestran en la Tabla 24. ¿Cuál prueba t sería apropiada en este caso? Efectúe el análisis y compruebe la presunción de normalidad. Siéntase libre de explorar SAS a su antojo y buscar formas diferentes de manipular los datos; recuerde, SAS es un paquete extraordinario que permite hacer cuanta cosa a usted se le ocurra con datos estadísticos, pero hay que buscar la forma. Aproveche, y ¡buena suerte! También recuerde que puede usar cualquier paquete estadístico que desee o tenga disponible, aunque dele prioridad a SAS.
203 TAMBIÉN RECUERDE VERIFICAR LA OPCIÓN LOG CON CADA EJECUCIÓN, PUDIERA ENCONTRAR ¡¡¡SORPRESAS!!! 10.2.7 ANOVA de una vía En esta parte usaremos PROC ANOVA; recuerde que el ANOVA en general se usa para comparar más de dos medias (también puede usarse para dos medias, pero la prueba t Student es más específica). El algoritmo usado para el análisis dependerá de las condiciones del diseño experimental, si es balanceado o desbalanceado. Recuerde, siempre que su diseño sea balanceado use PROC ANOVA, de otra forma use PROC GLM. Usaremos para este ejemplo los datos de contenido de mercurio (μg/g) en tejido de hígado de 33 delfines rayados (Stenella coeruleoalba) machos obtenidos de los océanos Atlántico y Pacífico y el Golfo de México (Nota: más adelante veremos la conveniencia de usar PROC MIXED para análisis de varianzas que envuelvan datos ecológicos. Esto está relacionado con la no independencia de los tratamientos). DATA ANOVA; INPUT Lugar$ Mercurio; CARDS; ATL 264 ATL 300 ATL 85 ATL 445 ATL 286 ATL 118 ATL 218 ATL 180 ATL 278 ATL 261 ATL 168 GM 406 GM 239 GM 275 GM 540 GM 214 GM 481 GM 252 GM 288 GM 230 GM 216 GM 580 PAC 210 PAC 2 PAC 397
204 PAC 221 PAC 101 PAC 10 PAC 290 PAC 215 PAC 318 PAC 5 PAC 241 ; Imprima los datos para verificar que todo esté bien PROC PRINT; RUN; Ahora compruebe normalidad con PROC UNIVARIATE PROC UNIVARIATE NORMAL PLOT; VAR Mercurio; BY Lugar; RUN; Atlántico y Pacífico parecen normales, pero Golfo de México no. ¿Qué hacer entonces? Se debe transformar los datos del Golfo de México buscando normalidad. ¿Que haría si la transformación no rinde normalidad? Para simplificar, asumiremos que todo está bien y ejecutaremos el análisis. PROC ANOVA; CLASS Lugar; MODEL Mercurio = Lugar; MEANS Lugar / TUKEY; RUN; Los resultados muestran un ejemplo bastante típico donde el modelo es significativo ( F 4,37 , P 0,0216 ; es decir, existen diferencias significativas entre las muestras) sin embargo, la prueba de TUKEY muestra que no es posible separar las medias por Lugar con claridad. Una vez más, siéntase libre de explorar SAS y encontrar otras formas de manejar y/o manipular la información. Ejercicios Cada estudiante deberá crear programas en SAS usando PROC ANOVA; verifique todas las presunciones del análisis y que todo esté correcto con el proceso de ejecución de los programas. Imprima los programas y los resultados, y conteste las preguntas formuladas al final de cada problema.
205 1. Se seleccionaron al azar 30 pavos de una semana de edad para comprobar la eficiencia de cinco dietas (Dieta 1 = Blanco; Dieta 2 = 10 mg vitamina B12; Dieta 3 = 20 mg vitamina B12; Dieta 4 = 2 mg tiroxina; Dieta 5 = 5 mg tiroxina); se asignaron seis pavos a cada tratamiento. Al final de ocho semanas todos los pavos fueron pesados y se determinó la ganancia en peso (libras). Los resultados se muestran en la Tabla 25. Preguntas: a) ¿existen diferencias significativas entre los tratamientos con respecto a la ganancia promedio de peso de los pavos?; b) ¿existe un tratamiento más efectivo con respecto a la ganancia promedio de peso de los pavos?; c) ¿son los dos niveles de tiroxina diferentes con respecto a la ganancia promedio de peso de los pavos? 2. Para estimar el contenido promedio de calcio en un sembradío de nabos, se obtuvo una muestra aleatoria de cinco hojas al cual se le determinó el contenido de calcio como porcentaje de peso seco; los resultados se muestran en el Tabla 26. Preguntas: a) estime media, desviación estándar y varianza para cada hoja; b) ¿varía el contenido de calcio de hoja a hoja?; c) ¿existen diferencias significativas entre las hojas con respecto al contenido promedio de calcio?; d) ¿existe una hoja con mayor o menor contenido promedio de calcio? 3. Un investigador tiene datos de peso de granos de tres cultivos de caraotas rojas y desea determinar si existen diferencias entre ellos. La hipótesis nula (H 0) es que los tres cultivos tienen el mismo peso promedio de granos (o que las tres muestras están tomadas de poblaciones con la misma media). Si existe un resultado significativo (es decir, si P 0,05 ), indicaría que al menos un par de cultivos tiene medias de peso de granos diferentes; este resultado no dice cual es ese par. Los datos se muestran en la Tabla 27. Preguntas: a) estime media, desviación estándar y varianza para cada cultivo; b) ¿varía el peso promedio de los granos de variedad a variedad?; c) existen diferencias significativas entre los promedios de peso de los granos de las tres variedades de caraotas rojas?; d) ¿existe un cultivo con mayor o menor peso promedio de granos? 10.2.8 ANOVA de dos vías: arreglos o diseños factoriales a x b Una nueva droga para tratar la gota (esta enfermedad se caracteriza por la acumulación de cristales de ácido úrico en las articulaciones, particularmente en las inferiores y es muy dolorosa), denominada ZRX, parece elevar el ritmo cardíaco de los pacientes. Los científicos creen que la droga pudiera ser más segura si se le añade uno de los ingredientes activos de sus productos tranquilizantes, y conducen un experimento para explorar esta posibilidad. Treinta voluntarios que sufren de gota fueron escogidos y asignados al azar a 6 grupos de tratamiento de 5 pacientes cada uno. Cada grupo de tratamiento fue asignado a una sala y se les determinó el pulso; a cada paciente se le administró 2 cápsulas con agua y se les pidió permanecer quietos por 2 horas. Una de las cápsulas contenía o bien la dosis recomendada o el doble de la
206 dosis de ZRX, y la otra cápsula contenía o bien una sustancia placebo, 5 mg del tranquilizante o 10 mg del tranquilizante. Cada grupo de tratamiento recibió una combinación diferente de los ingredientes en las 2 cápsulas, pero no se les notificó cual combinación estaba recibiendo cada uno de ellos. Puesto que la tasa cardíaca varía considerablemente de paciente a paciente, los científicos decidieron usar el cambio en el pulso como la variable respuesta. Luego de tomar sus cápsulas, a cada paciente se le determinó el pulso cada media hora. Los resultados se muestran en la Tabla 28. En este ejemplo los científicos están interesados no solamente en saber el efecto sobre los pacientes de la droga ZRX (una vía) sino también en saber si la dosis de tranquilizante también tiene efectos sobre ellos (una vía); una prueba de este tipo se denomina ANOVA de dos vías (two-way ANOVA). Entonces, las dos preguntas generales serían: 1) ¿afecta la dosis de ZRX el pulso de los pacientes?; 2) ¿afecta la dosis de tranquilizante el pulso de los pacientes? Para responder estas preguntas solo debemos ejecutar un ANOVA de dos vías y observar el valor de P para cada uno de los efectos. Sin embargo, en estudios de este tipo también debe preguntarse si la combinación de los dos factores (en este caso, las dos drogas) tiene influencia sobre los pacientes. De ser así, observe que no podemos obtener una respuesta inequívoca del efecto de las concentraciones (0, 5, 10 mg) de tranquilizante, tenemos que separar nuestra conclusión en base a la concentración de la droga (normal, alta). Ésta dependencia del efecto de un factor sobre el nivel del otro factor se denomina interacción, que es una idea científica común y fundamental. Cualquier combinación dada de niveles de factores tales como ZRX normal-10 mg de tranquilizante podría resultar en una desviación positiva o negativa del valor esperado basado sólo en ZRX normal o 10 mg de tranquilizante. En terminología biológica común, una desviación positiva significativa se denomina sinergismo. Por ejemplo, cuando dos drogas actúan sinergísticamente, el resultado de la interacción de las dos drogas pudiera estar por encima del efecto separado de cada droga. Cuando una combinación de niveles de dos factores inhibe el efecto de cada una, llamamos a este fenómeno interferencia. Por lo tanto, comprobar el efecto interactivo de dos factores es un propósito importante del ANOVA. Pero ejecutemos el ANOVA (recuerde que se puede usar PROC ANOVA porque el diseño está balanceado; sin embargo, usaremos siempre PROC GLM hasta que se indique lo contrario) y veamos sus resultados. DATA INTERACCION; INPUT ZRX$ Tranquilizante Diferencia; CARDS; N09 N 0 12 N 0 10 N08 N07 A 0 20 A 0 17
207 A 0 18 A 0 24 A 0 22 N57 N 5 11 N56 N55 N58 A 5 15 A 5 18 A 5 17 A 5 19 A 5 12 N 10 -1 N 10 3 N 10 -2 N 10 0 N 10 5 A 10 8 A 10 10 A 10 6 A 10 9 A 10 7 ; PROC PRINT; RUN; PROC GLM; CLASS ZRX Tranquilizante; MODEL Diferencia=ZRX Tranquilizante ZRX*Tranquilizante; MEANS ZRX Tranquilizante/LSD LINES; RUN; QUIT; Observe que en MODEL existen dos factores, ZRX y Tranquilizante y el factor de interacción ZRX*Tranquilizante (esta notación se interpreta simplemente como el producto de los dos factores). Observe también que en MEANS se pide las medias para ambos factores. Los diseños factoriales son importantes porque permiten comprobar varios efectos a la vez; sin embargo, algunas veces producen resultados que son difíciles de interpretar comparados con los resultados de un ANOVA de una sola vía. Cuando una variable predictora (predictor; o factor) en un diseño factorial muestra un efecto significativo (main effect) significa que existen diferencias entre al menos dos de los niveles de esa variable con respecto a las medias de la variable respuesta (criterion; en este caso Diferencia, que describe la variación en el pulso de los pacientes). En un ANOVA de una vía existe esencialmente un solo efecto principal (main effect); sin
208 embargo, en un ANOVA factorial existe al menos un efecto principal posible para cada variable predictora incluida en el estudio. Entonces, en el caso de dos variables predoctoras (pueden haber tantas como deseemos o seamos capaces de interpretar) se puede obtener cualquiera o una combinación de los siguientes efectos principales: 1) un efecto principal significativo sólo para la variable predictora A (en este ejemplo, ZRX); 2) un efecto principal significativo sólo para la variable predictora B (Tranquilizante); 3) efectos principales significativos para ambas variables predictoras (ZRX y Tranquilizante) y 4) efectos principales no significativos para ninguna de las variables predictoras. Finalmente, se puede obtener una interacción (ZRX*Tranquilizante) no significativa o significativa. Esta última posibilidad es la que complica y hace difícil los resultados de un ANOVA factorial. Normalmente, no se puede interpretar fácilmente un efecto principal significativo para una variable predictora si ésta está envuelta en una interacción significativa. Existen más detalles, especialmente en relación a como interpretar efectos principales significativos o no, e interacciones, significativas o no, usando métodos gráficos, pero no serán presentados aquí. Al ejecutar el ANOVA, lo primero que debemos observar (después del P asociado con el MODEL, que en este caso es < 0,0001 y por lo tanto altamente significativo) es si el término de interacción (ZRX*Tranquilizante) es significativo (recuerde que de ser así es difícil interpretar los resultados). En este caso observamos que F 1,68 y P 0,208 , y por lo tanto concluimos que ZRX y Tranquilizante no interactúan para afectar la tasa de cambio promedio del pulso de los pacientes. Ahora podemos interpretar fácilmente los efectos de cada factor. Observamos que para ZRX, F 100,03 y P 0,0001 y concluimos que las dos dosis de ZRX son significativamente diferentes con respecto al efecto sobre el promedio de la tasa de cambio del pulso de los pacientes; para Tranquilizante, F 46,17 y P 0,0001 y concluimos que al menos dos niveles de Tranquilizante son diferentes con respecto al efecto sobre el promedio de la tasa de cambio del pulso de los pacientes. El análisis Post Hoc LSD nos permite responder las siguientes dos preguntas: 1) ¿qué dosis de Tranquilizante se debería añadir a las cápsulas de ZRX? y 2) ¿qué nivel de ZRX se debería recomendar para el tratamiento de la gota? Para responder la primera pregunta, observe el resultado del segundo LSD, allí vemos que los tres niveles de concentración son diferentes y que la menor tasa de cambio (4,5) en el pulso de los pacientes se obtiene con una dosis de Tranquilizante de 10 mg; por lo tanto, esta es la dosis que debería añadirse. Para responder la segunda pregunta, observe el resultado del primer LSD, allí observamos que los dos niveles de ZRX (alto y normal) son diferentes, y que la menor tasa de cambio en el pulso de los pacientes se obtiene al nivel normal de la droga; por lo tanto, se recomienda el nivel normal de la droga para el tratamiento de la gota. Otro ejemplo Nuevas variedades de maíz con secuencias de aminoácidos alteradas pudieran tener mayor valor nutritivo que el maíz normal, cuya concentración de lisina es baja. Se desarrollaron dos nuevas variedades de maíz con secuencias de aminoácidos alteradas, denominadas Opaco-2 y Floury-2, y se desea comparar el efecto nutritivo de estas variedades contra el maíz normal. Se usaron pollos jóvenes en el experimento
209 debido a que el peso ganado por estos provee una buena medida del valor nutritivo de su dieta. Los pollos usualmente se alimentan con una harina de soya que contiene 12 por ciento de proteína. El nutricionista decidió usar niveles de proteína de 0, 12 y 24 por ciento en combinación con las variedades nuevas de maíz Opaco-2 y Floury-2 en el experimento. Se prepararon nueve dietas usando harina de maíz hecha de cada una de las tres variedades de maíz en combinación con soya con niveles de proteína de 0, 12 y 24 por ciento. El experimento se condujo usando 36 pollos recién nacidos divididos al azar entre los nueve grupos de tratamiento; los pollos fueron alimentados durante 21 días. Todos los pollos fueron alimentados individualmente y recibieron la misma cantidad de alimento. Los resultados, expresados en peso ganado se dan en la Tabla 29. El programa SAS que ejecuta esta prueba es el siguiente: DATA MAIZ; INPUT Variedad$ Proteina Peso; CARDS; N 0 272 N 0 283 N 0 310 N 0 305 N 12 356 N 12 350 N 12 345 N 12 321 N 24 434 N 24 406 N 24 427 N 24 430 O 0 410 O 0 384 O 0 402 O 0 431 O 12 455 O 12 462 O 12 447 O 12 477 O 24 443 O 24 478 O 24 481 O 24 486 F 0 339 F 0 401 F 0 393 F 0 407 F 12 467
210 F 12 420 F 12 415 F 12 438 F 24 450 F 24 457 F 24 463 F 24 475 ; RUN; PROC GLM; CLASS Variedad Proteina; MODEL Peso=Variedad Proteina Variedad*Proteina; MEANS Variedad Proteina/LSD LINES; RUN; QUIT; Al ejecutar el programa, observamos que tanto Variedad ( F 79,48 ; P 0,0001 ), Proteína ( F 68,65 ; P 0,0001 ) y el termino de interacción Variedad*Proteína ( F 4,79 ; P 0,0047 ) son significativos. Es decir, los factores Variedad y Proteína se combinan para afectar el peso ganado por los pollos; en otras palabras, un incremento en el nivel de proteína no tiene el mismo efecto sobre el peso promedio ganado por los pollos para todas las variedades de maíz usadas en el experimento. Al existir una interacción significativa los resultados no son fáciles de interpretar; existe, sin embargo, lo que se denomina efectos simples (simple effects) que ocasionalmente pudiera ayudar a interpretar estos resultados. Mi experiencia, sin embargo, me ha indicado que muchas veces es en vano buscar una explicación adecuada a tales resultados, aunque dado el caso se debe buscar esa explicación a través de los estadísticos recomendados o los métodos gráficos. Finalmente, observe que en un ANOVA factorial se comprueban al menos tres hipótesis nulas (en el caso de dos vías con interacción); la primera H 0 de interés es que no existe interacción, rechazamos o aceptamos esta hipótesis en base a F y P (en este caso Variedad*Proteína; F 4,79 , P 0,0047 ; por lo tanto rechazamos H0 y concluimos que existe interacción). Las otras dos H 0, en este caso, tienen poco interés dada la interacción significativa; de todos modos observe que ambas presentan valores de P 0,05 y por lo tanto nos lleva a rechazar las H0 correspondientes. Ejercicio Se alimentaron por 73 días 12 ratas de ambos sexos con alimentos que contenían manteca fresca y manteca rancia por separado. Los resultados, expresados en gramos consumidos, se muestran en la Tabla 30. Ejecute un ANOVA pertinente y responda: a) ¿interactúan sexo y tipo de manteca para afectar el consumo de alimento de las ratas?; b) ¿existe diferencia
211 significativa entre los sexos de las ratas?; c) ¿existe diferencia significativa entre los tipos de manteca?; d) ¿prefieren las ratas un tipo de manteca? 10.2.9 ANOVA de dos vías: sin replicación Habrán muchas ocasiones donde usted desea comprobar el efecto de dos factores, pero sólo puede hacer pocas observaciones. Si usted tiene solamente una observación para cada combinación de factores, existen pruebas que le permiten comprobar la hipótesis nula que cada nivel de los factores tiene la misma media. La principal diferencia en la interpretación de los resultados de estas pruebas, cuando se comparan con pruebas con replicación, es que no existe una hipótesis nula que establezca que no hay interacción entre los dos factores (es decir, en este caso no puede comprobar interacción). Pudiera parecer un poco raro o inusual que una prueba estadística que se basa en la comparación de la variación pueda ser usada cuando sólo se tiene una observación para cada combinación de factores, pero la prueba es perfectamente válida. Las dos variables agrupantes pueden ser establecidas por el investigador (p. ej., diferentes concentraciones) o que ocurran naturalmente (p. ej., diferentes sitios). Las presunciones de la prueba son: que los datos son continuos, se distribuyen normalmente, que los datos tienen la misma varianza en cada combinación de factores y que las variables agrupantes tienen al menos dos niveles que pueden ser codificados. Obviamente, con solamente una observación en cada combinación de factores no se puede comprobar normalidad. Por lo tanto, queda a discreción del investigador usar el sentido común o el conocimiento previo de los datos para decidir acerca de esto. Ejemplo Se ensayaron seis diferentes marcas de fertilizantes (codificados con las letras U hasta Z) en cultivos de linaza en 4 granjas (codificadas de 1 a 4). El Factor 1 es el fertilizante y el Factor 2 es la granja (puede ser al contrario). En cada granja se utilizaron seis parcelas, de modo que sólo fue posible usar cada uno de los seis fertilizantes una vez en cada granja. Las cosechas de linaza se dan en la Tabla 31. En este caso debemos ejecutar un ANOVA de dos vías sin interacciones, y el programa SAS que lo ejecuta es el siguiente (debido a que el diseño está balanceado, se puede usar PROC GLM o PROC ANOVA): DATA Cosecha; INPUT Granja Fertilizante$ Cosecha; CARDS; 1 U 1130 2 U 1115 3 U 1145 4 U 1200 1 V 1125
212 2 V 1120 3 V 1170 4 V 1230 1 W 1350 2 W 1375 3 W 1235 4 W 1140 1 X 1375 2 X 1200 3 X 1175 4 X 1325 1 Y 1225 2 Y 1250 3 Y 1225 4 Y 1275 1 Z 1235 2 Z 1200 3 Z 1155 4 Z 1215 ; RUN; PROC PRINT; RUN; PROC GLM; CLASS Granja Fertilizante; MODEL Cosecha=Granja Fertilizante; RUN; QUIT; Observe que para el modelo F 1,91 y P 0,1330 , indicando que éste no es significativo y, por lo tanto, no podemos decir nada más acerca de éste experimento. Es importante recordar que cuando se hace un análisis estadístico de este tipo, lo primero que hay que hacer es analizar el resultado del modelo (es decir, buscar los valores de F y P para el modelo) y, a partir de allí, arribar a conclusiones valederas; si el modelo es significativo, podemos entonces analizar los resultados para los dos efectos principales (en este caso Granja y Fertilizante), caso contrario, es vano tratar de explicar algo. Enfatizo esto aquí, debido a que este ejemplo fue tomado del libro Choosing and using statistics. A biologist's guide escrito por Calvin Dytham (Dytham, 2003), y éste hace todo un análisis de los efectos principales, sin tomar en cuenta que el modelo no es significativo, lo cual es un contrasentido. RECUERDE: SI EL MODELO NO ES SIGNIFICATIVO, OLVÍDESE DE TODO LO DEMÁS. Ejemplo Un investigador efectuó un experimento de crecimiento bacteriano en caldos de cultivo a tres niveles de pH y cuatro temperaturas; utilizó 12 matraces en total sin
213 réplicas. El crecimiento bacteriano se midió a través de la densidad óptica (DO). Los resultados se muestran en la Tabla 32. Al igual que en el caso anterior, debemos ejecutar un ANOVA de dos vías sin interacciones, y el programa SAS que lo ejecuta es el siguiente (similar al anterior ejemplo, debido a que el diseño está balanceado, se puede usar PROC GLM o PROC ANOVA): DATA EJEMPLO; INPUT Temperatura pH DO; CARDS; 25 5.5 10 30 5.5 15 35 5.5 20 40 5.5 15 25 6.5 19 30 6.5 25 35 6.5 30 40 6.5 22 25 7.5 40 30 7.5 45 35 7.5 55 40 7.5 40 ; PROC PRINT; RUN; PROC GLM; CLASS Temperatura pH; MODEL DO=Temperatura pH; RUN; QUIT; En este caso, observe que el modelo es altamente significativo ( F 93,72 ; P 0,0001 ), y ahora podemos evaluar los resultados para los dos efectos principales (temperatura y pH). Debido a que el diseño está balanceado (hay un valor para cada combinación de temperatura y pH), la suma de cuadrados tipo I (Type I SS) y la suma de cuadrados tipo III (Type III SS) son iguales (elimine una línea de datos cualquiera y ejecute el programa para que vea la diferencia; al quedar desbalanceado el diseño, las sumas de cuadrados mencionadas son diferentes). Cuando el diseño está desbalanceado, debemos usar la suma de cuadrados tipo III (Type III SS) para nuestro análisis, no la suma de cuadrados tipo I (Type I SS). Observamos que existen diferencias significativas en el crecimiento bacteriano determinado por la densidad óptica para los dos efectos tratados (es decir, temperatura y pH); para el factor temperatura F 17,46 y P 0,0023 y para el factor pH F 208,10 y P 0,0001 . Por lo tanto, concluimos que el crecimiento bacteriano se ve afectado significativamente por la temperatura y el pH. Ahora bien, ¿como se diferencian realmente los valores de crecimiento bacteriano en base a la temperatura y
214 el pH? Es importante notar que un efecto significativo en el ANOVA solamente demuestra que al menos un par de los grupos es significativamente diferente; no identifica cual par. Cuando hay tres grupos sólo existen tres posibles pares, con cuatro grupos aumenta a seis pares y con cinco grupos habrán 10. Las denominadas pruebas Post Hoc ayudan a entender este gran número de posibles comparaciones al identificar realmente cuales grupos son significativamente diferentes entre ellos. El único problema es que el número de métodos disponibles es grande (p. ej., el método de Tukey, conocido como Tukey HSD o Tukey Honestly Significant Difference; el LSD, Least Significant Difference, o Fisher LSD test; el método de Bonferroni, etc). Yo sugiero usar o bien el método de Tukey o el LSD. Para hacer una prueba Post Hoc en este caso, sólo agregue al programa, luego de la línea MODEL DO=Temperatura pH, la siguiente línea de comandos MEANS Temp pH/TUKEY;. Esta línea de comandos le dice a SAS que calcule los promedios de la DO por temperatura y pH, y luego aplique el método de Tukey (puede usarse cualquiera otro de los mencionados arriba; pruebe usando LSD LINES) para hacer comparaciones entre los grupos. Al ejecutar el programa vemos que SAS separa los resultados promedios de la DO para los cuatro niveles de temperatura y los tres niveles de pH. Observe los resultados de la prueba Post Hoc en las tablas 33 (temperatura) y 34 (pH). Observe que para el efecto principal temperatura (Tabla 33), el crecimiento bacteriano a 35 ºC es el único que puede diferenciarse claramente (observe la letra A para este nivel de temperatura en el cuadro, mientras que todos los otros niveles están precedidos por la letra B) con una densidad óptica promedio de 35, mientras que todos los demás niveles de temperatura se solapan y no pueden separarse con claridad. Por lo tanto, concluimos aquí que el crecimiento bacteriano determinado por la densidad óptica es claramente mayor a 35 ºC, mientras que a temperaturas superiores o inferiores el crecimiento bacteriano es menor. ¿Cómo interpretaría los resultados para el efecto principal pH? (Tabla 34). Otro ejemplo En base a los resultados del experimento anterior, otro investigador efectuó un experimento de crecimiento bacteriano en caldos de cultivo a tres niveles de pH y cuatro temperaturas, pero esta vez replicó el experimento y utilizó 24 (dos por cada combinación de factores) matraces en total sin réplicas. Al igual que anteriormente, el crecimiento bacteriano se midió a través de la densidad óptica (DO). Los resultados se muestran en la Tabla 35. El programa SAS que ejecuta el ANOVA de dos vías, esta vez con interacciones, ya que hay replicación, y prueba Post Hoc de Tukey es el siguiente: DATA EJEMPLO; INPUT Temperatura pH DO; CARDS; 25 5.5 9
215 25 6.5 18 25 7.5 36 25 5.5 11 25 6.5 20 25 7.5 44 30 5.5 13 30 6.5 23 30 7.5 27 30 5.5 17 30 6.5 27 30 7.5 33 35 5.5 18 35 6.5 27 35 7.5 23 35 5.5 22 35 6.5 33 35 7.5 27 40 5.5 22 40 6.5 20 40 7.5 7 40 5.5 28 40 6.5 24 40 7.5 13 ; PROC PRINT; RUN; PROC GLM; CLASS Temperatura pH; MODEL DO=Temperatura pH Temperatura*pH; MEANS Temperatura pH/TUKEY; RUN; QUIT; Ejecute el programa y analice los resultados. Observe los resultados de F y P para el modelo, y luego para cada uno de los efectos principales (temperatura y pH) y el término de interacción (temperatura*pH). ¿Es significativo el modelo?, ¿a que nivel de P , ¿qué pasa con los efectos principales y con el término de interacción?, ¿que puede decir acerca de la prueba Post Hoc de Tukey? Escriba un reporte, incluyendo una tabla de resultados con los valores de F y P , y emita una conclusión acerca del efecto de la temperatura y el pH, y su interacción, de ser el caso, sobre el crecimiento bacteriano determinado a través de la densidad óptica. Otro ejemplo Un biólogo investigó el efecto de la luz sobre la ingesta de alimento en estorninos, colocándolos en jaulas individuales de idéntico tamaño con luz controlada y
216 proveyéndoles alimento en exceso. Utilizó ocho hembras, ocho machos y ocho de sexo no identificado. Doce de las aves (cuatro hembras, cuatro machos y cuatro de sexo no identificado) fueron expuestas a 16 horas de luz (período largo) y 12 (cuatro hembras, cuatro machos y cuatro de sexo no identificado) fueron expuestas a ocho horas de luz (período corto). Cada ave fue monitoreada por siete días y su ingesta alimenticia (g) fue reportada. Cada ave fue utilizada una sola vez. Debido a que se expusieron ocho aves a cada combinación de factores, este es un diseño balanceado. Los resultados se reportan en la Tabla 36. El programa SAS que ejecuta un ANOVA de dos vías con interacciones para este ejemplo es el siguiente (la prueba Post Hoc LSD puede ser cambiado por TUKEY si lo desea): DATA EJEMPLO; INPUT Periodo$ Sexo$ Ingesta; CARDS; Largo H 78.1 Largo H 75.5 Largo H 76.3 Largo H 81.2 Largo M 69.5 Largo M 72.1 Largo M 73.2 Largo M 71.1 Largo I 69.2 Largo I 70.3 Largo I 77.9 Largo I 73.4 Corto H 82.4 Corto H 80.9 Corto H 83.0 Corto H 88.2 Corto H 72.3 Corto H 73.3 Corto H 70.0 Corto H 72.9 Corto I 67.8 Corto I 65.3 Corto I 71.2 Corto I 69.8 ; PROC PRINT; RUN; PROC GLM; CLASS Periodo Sexo; MODEL Ingesta=Periodo Sexo Periodo*Sexo;
217 MEANS Periodo Sexo/LSD LINES; RUN; QUIT; Observe los resultados y saque sus propias conclusiones. 10.2.10 Análisis de regresión simple Unas pocas palabras más acerca del análisis de regresión antes de comenzar con los ejemplos. El uso del análisis de regresión usualmente implica que se intentará predecir el valor de una variable a partir de otra variable (es decir, una relación causaefecto). Debido a que el análisis de regresión produce un valor de P y un r 2 , la similitud entre el análisis de regresión y la correlación de Pearson es muy grande. El valor de P dado en una análisis de regresión lineal estándar es la probabilidad que el mejor ajuste de la relación entre dos variables es realmente cero. Si se compara con el índice de correlación de Pearson, equivaldría a decir que no existe relación entre las dos variables (es decir, r 0 ). El análisis de regresión usualmente considera una segunda hipótesis nula: el valor de Y es cero cuando X es cero. Esto se puede ver como una prueba para ver si la línea mejor ajustada pasa a través del origen. Esta prueba usualmente se define como una prueba del intercepto. La ventaja de usar el análisis de regresión en vez de una correlación de Pearson, es que se obvia la presunción que las dos variables se distribuyan normalmente. Las presunciones son diferentes, aunque ligeramente menos restrictivas. Por ejemplo, el análisis de regresión asume que la causa ( X ) debe ser medida sin error; que la variación en el efecto ( Y ) es la misma para cualquier valor de X ; que la variable Y debe distribuirse normalmente en cualquier valor de X y, para la regresión lineal, que la relación entre las dos variables puede ser descrita por una línea recta. De estas, la presunción que la variación en Y es la misma para cualquier valor de X es la menos probable de ser cierta. Es usual que la variación en Y se incremente a medida que X se incremente. Si usted decide usar el análisis de regresión para determinar la asociación entre dos variables, por favor tenga cuidado, debido a que la implicación es que una de las variables en alguna forma depende de otra. También, una de las presunciones subyacentes del análisis de regresión es que los valores de la variable X son fijados o escogidos por el investigador, este no es el caso, claramente, si las observaciones se toman al azar. 10.2.10.1 ¿Existe una relación causa-efecto entre dos variables? Hay muchas circunstancias donde es claro que un conjunto de observaciones depende, de una forma u otra, de otro conjunto de observaciones. En esta sección tendremos dos observaciones para cada individuo, con una observación considerada como la causa, la variable X , la variable predictora o la variable independiente que se establece o es escogida por el investigador, y la otra variable considerada como el efecto, la variable Y o la variable dependiente que nunca es escogida o fijada por el
218 investigador. Existen muchos métodos que se pueden aplicar para determinar la forma y fortaleza de la relación entre la causa y el efecto que asumen diferentes presunciones acerca de las variables y la forma de la relación entre ellas. Utilizaremos el análisis de regresión lineal simple aquí. 10.2.10.2 Regresión lineal estándar El análisis de regresión es ampliamente usado en biología; es también, posiblemente, con el que más se abusa debido a que se burlan las presunciones del método. El análisis de regresión lineal es una técnica extremadamente útil y poderosa que determina la forma y la fuerza de una relación entre dos variables. El análisis de regresión se usa si la intención es predecir un valor para Y a partir de un valor dado de X . Hay varios componentes que se estiman en este análisis. La pendiente es la pendiente de una línea recta de mejor ajusta trazada a través del conjunto de puntos con coordenadas definidas por las dos variables. La pendiente puede ser positiva o negativa, indicando un incremento o decremento de Y con el incremento de X . La pendiente puede, teóricamente, tomar cualquier valor. Una pendiente cero indica que no hay cambio en Y con X . El segundo componente estimado es el intercepto o constante. Este es el valor predicho de Y cuando X es igual a cero. La pendiente a menudo se denomina b o m y el intercepto a o c o simplemente constante. Pero la pendiente y el intercepto usualmente se reportan con alguna medida de variabilidad (p. ej., el intervalo de confianza del 95 por ciento o la desviación estándar). Usualmente se reporta una prueba de significación como parte de los resultados del análisis de regresión. Esta prueba comprueba si la pendiente es cero o diferente de cero (es decir, comprueba la hipótesis nula que b 0 ). Si el valor de P es menor que 0,05, esto debería ser interpretado como una indicación que la pendiente es significativamente diferente de cero, indicando que existe una relación entre las variables X y Y . El análisis de regresión hace muchas presunciones acerca de los conjuntos de datos; estas incluyen: que los valores de X se miden sin error, que los valores de X son fijados o establecidos por el investigador, que la relación entre X y Y se ajusta mejor por una línea recta ( Y a bX ), que la variación en Y es igual para cualquier valor de X y que Y se distribuye normalmente.1 10.2.10.3 Predicción Una vez que se ha determinado la línea del mejor ajuste, entonces se puede predecir un valor para el efecto para cualquier valor de la causa. En la práctica no se recomienda usar valores de la causa más allá del rango de los datos usados para ajustar la línea, debido a que la forma de la relación es improbable que sea la misma a través de todos los valores de la causa. 10.2.10.4 Interpretación de r 2 NOTA: Si usted no está seguro cual de las dos variable es X (causa), entonces el análisis de regresión lineal casi con seguridad no es el apropiado. 1
219
Un resultado del análisis de regresión usado comúnmente es el valor de r 2 . Este a menudo se expresa como un porcentaje y se describe como la cantidad de variación explicada por la regresión (es decir, cuanta de la variación en el efecto puede ser explicada usando la relación causa-efecto). 10.2.10.5 Comparación de regresión y correlación Las presunciones del análisis de regresión lineal son muy diferentes a las de correlación. La correlación estándar asume que tanto X como Y se distribuyen normalmente. Cuando se menciona correlación, casi invariablemente se tiene en mente la correlación de Pearson. El estadístico r para estimar la verdadera correlación, (ro), producido por la prueba fluctúa de -1 a 1, pasando por 0, y describe un rango de asociaciones que van desde perfecta negativa ( r 1 ) a perfecta positiva ( r 1 ) o no correlación en definitiva ( r 0 ). Esta prueba es muy ampliamente aplicada, tal vez demasiado ampliamente, debido a que tiene algunas presunciones severas acerca de la distribución de las dos variables investigadas. Ambas variables deben ser medidas en una escala continua y ambas deben distribuirse normalmente. Si estas presunciones no se cumplen, aplique la correlación de Spearman en vez de regresión. Cuando se reportan los resultados de esta prueba, es usual usar una gráfica representando los pares de datos y decir algo como: la correlación de Pearson indica una asociación positiva significativa entre X y Y ( r 0,51; df 22; P 0,05 ). Dos precauciones: 1) es realmente raro encontrar dos variables que se distribuyan normalmente y, por lo tanto, aptas para la correlación de Pearson. Explore los datos para ver si siguen una distribución lineal; considere las alternativas; 2) la significación estadística de la correlación no es una buena guía para la significación real de la correlación. Cuando se tienen muestras grandes el valor de r requerido para obtener una significación estadística (es decir, demostrar que hay alguna relación entre las dos variables) es bastante bajo. Por eso, es mejor usar el valor de r 2 como un indicador de la significación real, debido a que este valor muestra la cantidad de variación en una variables explicada por la otra. Ejemplo Un biólogo marino que trabaja con pinguinos Adélie (Pygoscelis adeliae) midió los tamaños de las aves que forman pareja, usando la longitud de un hueso de la pata que se sabe, a través de estudios previos, que es una buena indicación del tamaño. Las medidas están tomadas con una precisión de 0,1 mm. La hipótesis nula es que el tamaño de los machos no está correlacionado con el tamaño de las hembras. Desafortunadamente, las medidas sólo fueron tomadas en seis parejas. Los datos se muestran en la Tabla 37. Asumimos aquí que ambas variables se distribuyen normalmente; este conjunto de datos es un poco pequeño para probar esto, pero una muestra mayor debería probarlo. Al ejecutar el análisis, rechazamos la hipótesis nula debido a que hay una
220 correlación positiva significativa entre el tamaño de las hembras y el tamaño de los machos, indicando que existe un apareamiento selectivo entre los individuos de esta especie. El valor de r 0,88 ( P 0,0203 ) y el valor de r 2 0,77 , indicando que 77 por ciento de la variación en el tamaño de un sexo es explicada por el tamaño del otro sexo. El programa SAS que ejecuta la prueba de correlación de Pearson es el siguiente: DATA CORRELACION; INPUT PAR HEMBRA MACHO; CARDS; 1 17.1 16.5 2 18.5 17.4 3 19.7 17.3 4 16.2 16.8 5 21.3 19.5 6 19.6 18.3 ; RUN; PROC PRINT; RUN; PROC CORR; VAR HEMBRA MACHO; RUN; QUIT; 10.2.10.6 Residuales La variación de Y no explicada por la línea de mejor ajuste entre X y Y se denomina la variación residual. Para cada observación de X hay un valor predicho, en la línea, para Y . Debido a que Y varía, es improbable que cualquier punto caiga exactamente sobre la línea ajustada. La distancia vertical desde el punto a la línea es el residual para ese punto. A menudo es útil examinar los residuales graficándolos contra X . Esta opción la ofrece la mayoría de los paquetes estadísticos. Si la relación entre X y Y es realmente una línea recta, o no existe relación después de todo, entonces los residuales estarán esparcidos sin patrón para todos los valores de X . Sin embargo, si la relación es realmente una curva, entonces los residuales de una línea de mejor ajuste lo mostrarán; la mayoría de los residuales serán negativos (o positivos) al final de la línea y positivos (o negativos) en el medio. Si este es el caso, entonces deberíamos o usar una regresión polinomial o transformar los datos. Recuerde que una de las presunciones del análisis de regresión es que la variación en Y es la misma para todos los valores de X . Si los residuales son todos pequeños en un extremo del rango de valores de X y grandes en el otro extremo, esto indicaría que esta presunción ha sido violada. 10.2.10.7 Intervalos de confianza
221
Los intervalos de confianza asociados a la pendiente y el intercepto permiten un rango de posibles líneas que pueden ser dibujadas con límites que abarcan el rango dentro del cual 95 por ciento (o 90 por ciento, si lo prefiere) de las líneas de mejor ajuste aparecerán. Como este rango de posibles líneas, de una forma u otra, está asociada al eje Y en el punto donde X es cero y comprende un rango de líneas de diferente pendiente, los límites de confianza de 95 por ciento de las líneas no son líneas rectas. Estas líneas siempre son curvas que están más cercanas a la línea de mejor ajuste en el medio del rango de valores de X y muy alejadas de este en los extremos. Esto indica que usted puede tener más confianza sobre las predicciones de la regresión en el medio de los datos. Ejemplo Un grupo de limnólogos brasileños está tratando de determinar si existe relación entre los períodos de aguas bajas y aguas altas del Río Amazonas, y para eso han recopilado una serie de datos, separados en dos períodos (1 y 0), para estos estadios desde 1962 hasta 1978 (17 años). La idea es utilizar el análisis de regresión para escudriñar a fondo la posible relación entre estos estadios y poder predecir posibles influencias sobre la dinámica del río y los efectos sobre las poblaciones que viven en las márgenes. Los datos se muestran en la Tabla 38. Aprovecharemos este ejemplo para explorar algunas de las funciones de SAS, y que recomiendo guardar para futuros ejemplos y estudio. A continuación se detalla el programa SAS que explora los datos y ejecuta un análisis de regresión utilizando los datos de la Tabla 38 (recuerde que SAS no trabaja en castellano; después de todo no es tan inteligente como el cree y, por lo tanto, no se pueden escribir acentos ni eñes, por eso verá aquí ANO es vez de AÑO y la ausencia de acentos). DATA Ejemplo; Input Ano Alta Baja Periodo; LABEL Periodo = 'Periodo de tiempo'; CARDS; 1962 25.82 18.24 0 1963 25.35 16.50 0 1964 24.29 20.26 0 1965 24.05 20.97 0 1966 24.89 19.43 0 1967 25.35 19.31 0 1968 25.23 20.85 0 1969 25.06 19.54 0 1970 27.13 20.49 1 1971 27.36 21.91 1 1972 26.65 22.51 1 1973 27.13 18.81 1 1974 27.49 19.42 1
222 1975 27.08 19.10 1 1976 27.51 18.80 1 1977 27.54 18.80 1 1978 26.21 17.57 1 ; TITLE1 'Niveles de agua del Rio Amazonas'; TITLE2 'Coloque su nombre aqui'; TITLE3 'Ejemplo'; FOOTNOTE1 'Referencia: Applied Linear Regression'; FOOTNOTE2 'Second Edition, by Sanford Weisberg'; FOOTNOTE3 'Chapter 1, pp. 1-32, Exercise 1.9'; PROC GPLOT DATA = Ejemplo; PLOT (Baja Alta)*Ano = Periodo / LEGEND = LEGEND1; LABEL Baja = 'Aguas bajas'; LABEL Alta = 'Aguas altas'; PLOT (Alta Baja)*Ano / OVERLAY LEGEND = LEGEND2 VAXIS = AXIS1 HREF=1969 5; SYMBOL1 V = star C = red; SYMBOL2 V = diamond C = blue; LEGEND1 POSITION = (MIDDLE RIGHT OUTSIDE) ACROSS = 1 DOWN = 2 VALUE = ('1962-1969' '1970-1978'); LEGEND2 POSITION = (MIDDLE RIGHT OUTSIDE) ACROSS = 1 DOWN = 2 VALUE = ('Alta' 'Baja') LABEL = ('Niveles de agua (m)'); AXIS1 LABEL = ('Niveles de agua'); RUN; QUIT; Esta parte del programa sólo grafica los valores de niveles bajos y altos por año y por período (tres gráficas en total). Observe como se relacionan los altos y bajos de las aguas del Río Amazonas a lo largo de los años de muestreo. ¿Se observa una relación lineal aparente entre los niveles de agua y los años? Determinemos ahora si existe relación entre los niveles de aguas bajas y los niveles de aguas altas. Para eso ejecutamos el siguiente programa (en realidad una adición al anterior) en SAS: PROC GPLOT DATA=Ejemplo; PLOT Alta*Baja; LABEL Alta= 'Aguas altas' Baja = 'Aguas bajas'; PROC REG DATA= Ejemplo; MODEL Alta=Baja /CLM CLI; PLOT Alta*Baja /CONF95; PLOT STUDENT.*PREDICTED.; PLOT STUDENT.*Baja; PLOT STUDENT.*NPP.;
223 RUN; El PROC REG es el indicado para ejecutar el análisis de regresión (el PROC GPLOT sólo grafica los datos). Observe que en este caso el modelo no es significativo ( F 0,00 y P 0,9463 ) y, por lo tanto, nada más puede decirse de este caso, sólo que no hay una relación lineal entre los niveles de aguas bajas y los niveles de aguas altas. Determinemos ahora qué relación existe entre los niveles de aguas altas y los años. Para esto adicionamos el siguiente programa SAS: PROC GPLOT DATA=Ejemplo; PLOT Alta*Ano; LABEL Alta = 'Aguas altas' Ano = 'Ano'; PROC REG DATA= Ejemplo; MODEL Alta=Ano /CLM CLI; PLOT Alta*Ano /CONF95; PLOT STUDENT.*PREDICTED.; PLOT STUDENT.*Ano; PLOT STUDENT.*NPP.; RUN; En este caso observamos que el modelo es significativo ( F 20,85 y y que el intercepto es significativamente diferente de cero ( t 4,23 y Los valores de los parámetros son: a (int ercepto ) 330,21235 y b ( pendiente) 0,18088 , por lo que la línea de regresión que mejor ajusta la relación de los valores de los niveles de aguas altas del Río Amazonas y los años es la siguiente: ~ AGUAS ALTAS 330,21235 0,18088 * ANO (Y a bx ) . P 0,0004 ), P 0,0007 ).
La interpretación del estimado del intercepto sería: si el año es igual a cero (
X 0 ), entonces el promedio de los niveles de aguas altas es = -330,21235 metros. En
este caso, esta interpretación no tiene sentido, debido a que el rango de años no incluye el año cero (de hecho, el rango es sólo de 1962 hasta 1978). Por lo tanto, el intercepto estimado no tiene un significado real práctico. La interpretación de la pendiente estimada (0,180882) es: por cada un año de incremento en el tiempo, el incremento promedio en los niveles de aguas altas es 0,180882 metros. La conclusión que sacamos aquí es que los datos proveen evidencia suficiente para concluir que la variable año tiene un efecto significativo sobre los niveles promedios de aguas altas en el Río Amazonas. El valor de r 2 0,5816 , y establece que 58,16 por ciento de la variación en los niveles de aguas altas en el Río Amazonas es explicado por la línea de regresión que incluye año como variable independiente. Observemos ahora las dos gráficas de residuales (residuales estudentizados vs. valores predichos y residuales estudentizados vs. años) y la distribución normal acumulativa. Estas gráficas muestran que no existe una clara evidencia que las
224 presunciones del análisis de regresión hayan sido violadas (no existe una clara tendencia, aunque los puntos no lucen al azar). Finalmente, observe la figura de la línea de regresión con los límites de confianza del 95 por ciento. Sólo por curiosidad, compare estos resultados con los dados por el análisis anterior. Analicemos ahora los niveles de aguas bajas. El programa SAS es el siguiente: PROC GPLOT DATA=Ejemplo; PLOT Baja*Ano; LABEL Baja= 'Agua bajas' Ano = 'Ano'; PROC REG DATA= Ejemplo; MODEL Baja=Ano /CLM CLI; PLOT Baja*Ano /CONF95; PLOT STUDENT.*PREDICTED.; PLOT STUDENT.*Ano; PLOT STUDENT.*NPP.; RUN; Como podemos observar, el modelo no es significativo ( F 0,01 y P 0,9197 ) y, por lo tanto, los datos no proveen suficiente evidencia para concluir que la variable año tiene un efecto significativo sobre la media de los niveles de aguas bajas del Río Amazonas. Este es un ejemplo típico de aplicación del análisis de regresión. Recuerde, cada vez que usted aplique este análisis estadístico (y casi cualquier otro análisis estadístico) obtendrá resultados; pero recuerde, existe un decir en el mundo del análisis estadístico que parece ser una ley: GARBAGE IN, GARBAGE OUT, que en cristiano pudiera traducirse como BASURA ENTRA, BASURA SALE. En conclusión, la calidad de sus resultados dependerá de la calidad de sus datos, y la calidad de sus datos dependerá de la calidad del diseño experimental que planificó y ejecutó. No sólo hay que ir al campo a tomar muestras invirtiendo una enorme cantidad de tiempo y, a veces, dinero, debe ir al campo a tomar muestras planificadas, con una hipótesis de trabajo clara y bien definida. No vaya al campo a poner anzuelos a ver quien pica, ponga los anzuelos que le permitan atrapar los peces que le interesan. 10.3 Tamaño de la muestra Terminaré con un tópico que parece ser interesante para los estudiantes que comienzan su camino por la estadística; muchos estudiantes se me acercan para decirme que sus asesores les han pedido asegurarse que están tomando un tamaño de muestra lo suficientemente grande para llegar a conclusiones valederas. Si bien no confío mucho en estas técnicas, especialmente cuando se trata de aplicarlas en el campo de la ecología, presentaré algunas técnicas que permiten obtener tamaños de muestras, confiando en que el buen juicio privará en la decisión de usarlas o desecharlas. 10.3.1 Tamaño de la muestra con respecto a la media
225 Antes de recolectar datos, debemos determinar cuan grande es la muestra que necesitamos para obtener el intervalo de confianza deseado. Comencemos determinando el tamaño de la muestra necesaria para estimar una media poblacional. Recordemos que los límites para el intervalo de confianza de 90 por ciento viene dado por: X 1,64 X X 1,64 X
mientras que para el 95 por ciento viene dado por: X 1,96 X X 1,96 X
Ahora, los términos que se añaden o substraen a la media pudieran ser vistos como el error de estimación ligado a estos intervalos de confianza. Llamemos a este error B . También sabemos que:
X
n
B Zc
n
Esto, unido a B nos da:
Si usamos algo de algebra, podemos resolver esta ecuación para de obtener:
n de forma
Z c2 2 n 2 B Cuando aplicamos esta fórmula, nos encontramos con un par de problemas, ¿qué valores de la desviación estándar y B usamos? Con respecto a B , pudiéramos subjetivamente decidir que deseamos estar dentro de 3 unidades de la media poblacional. Por lo tanto, B 3 . Si no tenemos un valor para (lo cual es el caso usualmente), pudiera ser más difícil. Una posibilidad es efectuar un estudio preliminar y usar la desviación estándar de esta muestra. Otra posibilidad es usar la proporción rango / 4 cuando la población no sea muy sesgada. Una tercera táctica es expresar B como una función de . Por ejemplo, nos pudiéramos contentar si nuestro error estuviera dentro de un 10 por ciento de σ para un intervalo de confianza de 95 por ciento. Si usamos esta opción, obtenemos:
226
n
1,96 2 2 1,96 2 2 384,16 (0,1 ) 2 0,01 2
que redondeado nos da n 384 . 10.3.2 Tamaño de la muestra con respecto a una proporción Si usamos el mismo argumento que utilizamos cuando calculamos el tamaño de la muestra para una media, tenemos: Z n (1 ) c B
2
Una vez más, podemos escoger subjetivamente un valor para B . Ahora, con respecto a , podemos usar un estimado de algún estudio previo o un argumento algebraico. El argumento algebraico muestra que el peor escenario ocurre cuando 0,5 . Por ejemplo, ¿cuán grande debe ser la muestra para que en un intervalo de confianza de 95 por ciento el error no sea más de 4 por ciento? Solución: 1,96 n 0,5(1 0,5) 0,04
2
0,5(0,5)(2401) 600,25
que redondeado nos da n 600 . Ejercicio La Administración Federal de la Aviación (AFA) de los Estados Unidos de Norteamérica, está interesada en los tiempos entre arribos de aviones consecutivos en un aeropuerto local, para asegurar que haya espacio suficiente entre los aviones. ¿Cuán grande debería ser la muestra para obtener un intervalo de confianza de 95 por ciento donde el error esté dentro de un 5 por ciento del verdadero tiempo promedio entre arribos? Este es un problema sencillo, y lo resolvemos así: 1,96 0,05
n
que redondeado nos da n 1537 . Ejercicio
2
1,96 0,05
2
1536,64
227
El SENIAT está interesado en el porcentaje de declaraciones individuales que son hechas con errores. ¿Cuán grande debería ser la muestra para estimar esta proporción con un 95 por ciento de confianza? 1,96 n (0,5)(0,5) 0,05
2
0,25(39,2) 2 384,16
que redondeado nos da n 384 . 10.3.3 Media individual: determinación del tamaño de la muestra Durante la planificación de una investigación es importante tratar el aspecto del tamaño de la muestra. Debido a que los muestreos son costosos y consumen mucho tiempo, el investigador necesita saber, a priori, el tamaño aproximado de la muestra requerida para tener una precisión deseada. Para poder responder este aspecto, el investigador necesita saber: 1) La precisión requerida. Ésta a menudo se expresa como el margen de error (la parte +/- del intervalo de confianza) o la amplitud del intervalo de confianza. Las claves que se toman en cuenta son: a) dentro de xx unidades- el margen de error es xx, b) tiene una amplitud de xx unidades- la amplitu es xx. 2. La confianza requerida. Usualmente 95 por ciento, o 19 veces en 20 3. La variabilidad en la población. Ésta raramente se conoce. Consecuentemente, a menudo asumimos que una prueba provee un valor de S (desviación estándar de la muestra), la cual se asume que está cercana al valor de (la desviación estándar de la población). Teoría Recordemos que el intervalo de confianza de una media viene dado por: X t ( n 1)
o
X t( n1)
S n
Comenzamos asumiendo que el tamaño de la muestra será suficientemente grande para que el valor de t se aproxime a un valor de la distribución normal. Asimismo, asumimos que la desviación estándar de la población se conoce con antelación; es decir, que S es muy cercano a .
228 Entonces, la fórmula de arriba se reduce a: n
X Z
donde Z es el percentil de la distribución normal correspondiente al intervalo de confianza requerido. Por ejemplo, para un intervalo de confianza de 95 por ciento, requerimos el percentil 97,5avo de una distribución normal estándar la cual tiene el valor de 1,96. Ahora asumimos que el margen de error máximo es el valor d . Esto implica que la parte +/- del intervalo de confianza debe ser igual al valor d o: n
d Z
Necesitamos resolver para
n a partir de la ecuación de arriba, lo cual da: Z d
2
n
Ejercicio Un limnólogo desea estimar el contenido promedio de fosfato por unidad de volumen de un lago. Se sabe, de estudios previos, que la desviación estándar es muy estable (4 ppm). ¿Cuántas muestras se deberían tomar para tener una confianza de 95 por ciento de estar dentro de 0,8 ppm del verdadero valor? Aquí tenemos la siguiente información: a) 4 ppm b) El nivel de confianza es 95 por ciento. Al observar en la tabla de la distribución estándar normal encontramos que el percentil 97,5 avo es Z 1,96 c) El margen de error. Deseamos estar dentro de 0,8 ppm del verdadero valor. Esto implica que la parte +/- del intervalo de confianza es d 0,8 Sustituyendo en la formula de arriba tenemos: Z n d
2
1,96 * 4 0,8
es decir, se requieren al menos 96 muestras.
2
96,04
229 Ejercicio Un productor de aves ha recibido un cargamento de 2000 gallinas y desea estimar el peso promedio para saber si el contrato ha sido cumplido. De cargamentos anteriores el sabe que la desviación estándar es aproximadamente 0,2 kg. ¿Qué tamaño de muestra se requiere para tener una confianza de 95 por ciento que la amplitud del intervalo de confianza es 100 g o menos? Aquí tenemos la siguiente información: a) 200 g b) El nivel de confianza es 95 por ciento ( Z 1,96 ) c) El margen de error. Deseamos que la amplitud del intervalo de confianza no sea mayor de 100 g. Esto implica que la parte +/- del intervalo de confianza es d 50 g (¿por qué?). Sustituyendo en la fórmula encontramos: Z d
2
n
1,96 * 200 50
2
61,5
es decir, se requieren al menos 61 muestras. Ejercicio Un fisiólogo vegetal desea saber la asimilación promedio de nitrógeno de un sembradío. Un estudio piloto demostró que la desviación estándar de la asimilación es aproximadamente 120 ppm. El fisiólogo desea tener una confianza de 90 por ciento de conocer la verdadera media dentro de 20 ppm. ¿Cuál es el tamaño de muestra requerido? Aquí extraemos la siguiente información: a) 120 ppm b) El nivel de confianza es 90 por ciento. Al observar en la tabla de la distribución estándar normal encontramos que el percentil 95 avo es Z 1,645 c) El margen de error. El valor de d 20 ppm (¿por qué?) Sustituyendo en la fórmula encontramos: Z d
n
2
1,645 *120 20
2
97,4
230 es decir, se requieren al menos 97 muestras. Comentario final Los tamaños de muestras son solamente aproximados, debido a que el valor de la desviación estándar de la población raramente se conoce en la práctica. En muchos casos, todo lo que se necesita para propósitos de planificación es una idea aproximada de la desviación estándar de la población. Esta puede ser obtenida de la literatura, a través de expertos o estudios pilotos. Los valores obtenidos deberían ser tomados con cautela; es decir, representan el orden de magnitud del esfuerzo necesario más que un valor absoluto.
231
Bibliografía Abramsky, Z., M. L. Rosenzweig y A. Subach. 1997. Gerbils under threat of owl predation: isoclines and isodars. Oikos 78:81-90. Bartlett, M. S. 1937. Some examples of statistical methods of research in agriculture and applied biology. Journal of the Royal Statistical Society Supplement 4:137170. Bender, E. A., T. J. Case y M. E. Gilpin. 1984. Perturbation experiments in community ecology: theory and practice. Ecology 65:1-13. Boecklen, W. J. y N. J. Gotelli. 1984. Island biogeographic theory and conservation practice: species-area or specious-area relationships? Biological Conservation 29:63-80. Burnham, K. P. y D. R. Anderson. 2002. Model selection and inference: a practical information-theoretic approach, 2nd Edition, Springer-Verlag, New York, NY, USA. Caffey, H. M. 1982. No effect of naturally occurring rock types on settlement or survival in the intertidal barnacle, Tesserpopra rosea (Krauss)}. Journal of Experimental Marine Biology and Ecology 63:119-132. Caffey, H. M. 1985. Spatial and temporal variation in settlement and recruitment of intertidal barnacles. Ecological Monographs 55:313-332. Cahill, J. F., J. P. Castelli y B. B. Casper. 2000. Separate effects of human visitation and touch on plant growth and herbivory in an old-field community. American Journal of Botany 89:1401-1409. Carpenter, S. R. 1989. Replication and treatment strength in whole-lake experiments. Ecology 70:453-463. Caswell, H. 1988. Theory and models in ecology: a different perspective. Ecological Modeling 43:33-44.
232 Cochran, W. G. 1951. Testing a linear relation among variances. Biometrics 7:17-32. Cochran, W. G. y G. Cox. 1957. Experimental designs. 2nd Edition. Wiley, New York, NY, USA. Cody, M. L. 1974. Competition and the structure of bird communities. Princeton University Press, Princeton, NJ, USA. Connor, E. F. y E. D. McCoy. 1979. The statistics and biology of the species-area relationship. American Naturalist 113:791-833. Creel, S., J. E. Fox, A. Hardy, J. Sands, B. Garrott y R. O. Peterson. 2002. Snowmobile activity and glucocorticoid stress responses in wolves and elk. Conservation Biology 16:809-814. Crisp, D. J. 1979. Dispersal and re-aggregation in sessile marine invertebrates, particularly barnacles. Systematics Association 11:319-327. D'Agostino, R. B. 1986. Tests for the normal distribution. pp. 367-420 In R. B. D'Agostino y M. A. Stephens (Editores). Goodness-of-fit Techniques. Marcel Dekker, Inc., New York, NY, USA. Diamond, J. 1986. Overview: Laboratory experiments, field experiments, and natural experiments. pp. 3-22 In J. Diamond y T. J. Case (Editores). Community ecology. Harper and Row, Inc., New York, NY, USA. Dunne, J. A., J. Harte y K. J. Taylor. 2003. Subalpine meadow flowering phenology responses to climate change: Integrating experimental and gradient methods. Ecological Monographs 73:69-86. Dytham, C. 2003. Choosing and using statistics. A biologist's guide. Second edition. Blackwell Publishing, Malden, MA, USA. Ellison, A. M. y N. J. Gotelli. 2001. Evolutionary ecology of carnivorous plants. Trends in Ecology and Evolution 16:623-629. Ellison, A. M., N. J. Gotelli, J. S. Brewer, D. L. Cochran-Stafira, J. Kneitel, T. F. Miller, A. C. Worley y R. Zamora. 2003. The evolutionary ecology of carnivorous plants. Advances in Ecological Research 33:1-74. Englund, G. y S. D. Cooper. 2003. Scale effects and extrapolation in ecological experiments. Advances in Ecological Research 33:161-213. Farnsworth, E. J. y A. M. Ellison. 1996. Sun-shade adaptability of the red mangrove, Rhizophora mangle (Rhizophoraceae): changes through ontogeny at several levels of biological organization. American Journal of Botany 83:1131-1143.
233
Fretwell, S. D. y H. L. Lucas, Jr. 1970. On territorial behavior and other factors influencing habitat distribution in birds. Acta Biotheoretica 19:16-36. Gill, J. A., K. Norris, P. M. Potts, T. G. Gunnarson, P. W. Atkinson y W. J. Sutherland. 2001. The buffer effect and large-scale population regulation in migratory birds. Nature 412:4236438. Goldberg, D. E. y S. M. Scheiner. 2001. ANOVA and ANCOVA: Field competition experiments}. pp. 77-98 In S. Scheiner y J. Gurevith (Editores). Design and analysis of ecological experiments. 2nd Edition. Oxford University Press, New York, NY, USA. Gotelli, N. J. y A. E. Arnett. 2000. Biogeographic effects of red fire ant invasion. Ecology Letters 3:257-261. Gotelli, N. J. y A. M. Ellison. 2002a. Biogeography at a regional scale: determinants of ant species density in New England bogs and forest. Ecology 83:1604-1609. Gotelli, N. J. y A. M. Ellison. 2002b. Assembly rules for New England ant assemblages. Oikos 99:591-599. Gotelli, N. J. y A. M. Ellison. 2004. A primer of ecological statistics. Sinauer Associates, Inc. Publishers, Sunderland, MA, USA. Graham, M. H. 2003. Confronting multicollinearity in ecological multiple regression. Ecology 84:2809-2815. Harte, J., A. Kinzig y J. Green. 1999. Self-similarity in the distribution and abundance of species. Science 284:334-336. Hartley, H. O. 1950. The maximum F-ratio as a short-cut test for heterogeneity of variances. Biometrika Heithaus, M.R. y L.M. Dill. 2002. Food availability and tiger shark predation risk influence bottlenose dolphin habitat use. Ecology 83:480-491. Hilborn, R. y M. Mangel. 1997. The ecological detective: confronting models with data. Princeton University Press, Princeton, NJ, USA. Hurlbert, S. H. 1984. Pseudoreplication and the design of ecological field experiments. Ecological Monographs 54:187-211. Ives, A. R., B. Dennis, K. L. Cottingham y S. R. Carpenter. 2003. Estimating community stability and ecological interaction from time-series data. Ecological Monographs 73:301-330.
234
Kareiva, P. y M. Anderson. 1988. Spatial aspects of species intercations: The wedding of models and experiments. pp. 38-54 In A. Hasting (Editor). Community ecology. Springer-Verlag, Berlin. Knapp, R. A., K. R. Matthews y O. Sarnelle. 2001. Resistance and resilience of alpine lake fauna to fish introductions. Ecological Monographs 71:401-421. Kuhn, T. 1962. The structure of scientific revolutions. University of Chicago Press, Chicago, IL, USA. Lakatos, I. 1978. The methodology of scientific reserach programmes. Cambridge University Press, Cambridge, UK. Law, B. E., O. J. Sun, J. Campbell, S. Van Tuyl y P. E. Thornton. 2003. Changes in carbon storage and fluxes in a chronosequence of ponderosa pine. Global Change Biology 9:510-524. Levene, H. 1960. Robust tests for equality of variances. pp. 278-292 In I. Olkin, S. G. Ghurye, W. Hoeffding, W. G. Madow y H. B. Mann (Editores). Contributions to probability and statistics. Stanford University Press, Stanford, CA, USA. Levings, S. C. y J. F. A. Traniello. 1981. Territoriality, nest dispersion, and community structure in ants. Psyche 88:265-319. Loehle, C. 1987. Hypothesis testing in ecology: psychological aspects and the importance of theory maturation. Quarterly Review of Biology 62:397-409. Lomolino, M. V. y M. D. Weiser. 2001. Towards a more general species-area relationship: diversity on all islands, great and small. Journal of Biogeography 28:431- 445. MacArthur, R. H. y E. O. Wilson. 1967. The theory of island biogeography. Princeton University Press, Princeton, NJ, USA. MacNally, R. 2000. Modelling confinement experiments in community ecology: differential mobility among competitors. Ecological Modelling 129:65-85. McCullagh, P. y J. A. Nelder. 1989. Generalized linear models, 2nd Edition. Chapman and Hall, London, UK. McDonald, J.H., B.C. Verrelli y L.B. Geyer. 1996. Lack of geographic variation in anonymous nuclear polymorphisms in the American oyster, Crassostrea virginica. Molecular Biology and Evolution 13: 1114-1118.
235 Mead, R. 1988. The design of experiments: statistical principles for practical applications. Cambridge University Press, Cambridge, UK. Murtaugh, P. A. 2002. On rejection rates of paired intervention analysis. Ecology 83:1752-1761. Pielou, E. C. 1981. The usefulness of ecological models. A stock-taking. Quarterly Review of Biology 56:17-31. Preston, F. W. 1962. The canonical distribution of commonness and rarity: Part I. Ecology 43:185-215. Price, M. V. y N. M. Waser. 1998. Effects of experimental warming on plant reproductive phenology in a subalpine meadow. Ecology 79:1261-1271. Quinn, G. y M. Keough. 2002. Experimental design and data analysis for biologists. Cambridge University Press, Cambridge, UK. Sale, P. F. 1984. The structure of communities of fish on coral reefs and the merit of a hypothesis-testing, manipulative approach to ecology. pp. 478-190 In D. R. Strong, Jr., D. Simberloff, L. G. Abele y A. B. Thistle (Editores). Ecological communities: conceptual issues and the evidence. Princeton University Press, Princeton, NJ, USA. Scheffe, H. 1959. The analysis of variance. Wiley, New York, NY, USA. Schluter, D. 1995. Criteria for testing character displacement response. Science 268:1066-1067. Shapiro, S. S. y M. B. Wilk. 1965. An analysis of variance test for normality. Biometrika 52:591-9. Shrader-Frechette, K. S. y E. D. McCoy. 1992. Statistics, costs and rationality in ecological inference. Trends in Ecology and Evolution 7:96-99. Simberloff, D. y L. G. Abele. 1984. Conservation and obfuscation: subdivision of reserves. Oikos 42:399-401. Snedecor, G. W. y W. G. Cochran. 1989. Statistical methods. 8th Edition. University of Iowa Press, Ames. IA, USA. Sousa, W. P. 1979. Disturbance in marine intertidal boulder fields: the nonequilibrium maintenance of species diversity. Ecology 60:1225-1239. Turchin, P. 2003. Complex population dynamics: a theoretical/empirical synthesis. Princeton University Press, Princeton, NJ, USA.
236
Underwood, A. J. 1981. Techniques of analysis of variance in experimental marine biology and ecology. Annual Reviews of Oceanography and Marine Biology 19:513-605. Underwood, A. J. 1994. On beyond BACI: sampling designs that might reliably detect environmental disturbances. Ecological Applications 4:3-15. Underwood, A. J. 1997. Experiments in ecology: their logical design and interpretation using analysis of variance. Cambridge University Press, Cambridge, UK. Wachsmuth, A., L. Wilkinson y G. E. Dallal. 2003. Galton's bend: a previously undiscovered nonlinearity in Galton's family stature regression data. The American Statistician 57:190-192. Weiner, J. y O. T. Solbrig. 1984. The meaning and measurement of size hierarchies in plant populations. Oecologia 61:334-336. Wiens, J. A. 1989. Spatial scaling in ecology. Functional Ecology 3:385-397. Williamson, M., K. J. Gaston y W. M. Lonsdale. 2001. The species-area relationship does not have an asymptote! Journal of Biogeography 28:827-830. Willis, E. O. 1984. Conservation, subdivision of reserves, and the anti-dismemberment hypothesi}. Oikos 42:396-398. Winer, B. J., D. R. Brown y K. M. Michels. 1991. Statistical principles in experimental design 3rd Edition. McGraw-Hill, New York, NY, USA. La versión original de este libro se terminó de escribir a las 1630 horas (es decir, 4:30 pm) del jueves 8 de marzo de 2007, en la computadora de Orlando J. Ferrer M., ubicada en su apartamento de la Calle 70, Maracaibo, Estado Zulia, Venezuela. La versión actual se terminó el sábado 16 de mayo de 2009, en la misma computadora y la misma dirección. Por supuesto, su impresión no se hizo en papel libre de ácidos (es muy costoso; si se publica oficialmente, espero que la editorial si lo haga), el copyright no sirve de nada (igual lo van a quemar en los bajos fondos); debido a esto, los estudiantes que tomen el curso recibirán una copia pdf gratis del libro. Se pide a todos los lectores reportar los errores encontrados.
237
Tablas
238
Tabla 1. Número de insectos capturados por 1000 visitas a la planta carnívora Sarracenia purpurea. ID Fecha de observación 1 2 3 . . . 52
Junio 1, 1998 Junio 8, 1998 Junio 15, 1998 . . . Mayo 24, 1999
Número de insectos capturados 10 13 12 . . . 11
239
Tabla 2. Cálculo de probabilidades para eventos compartidos (Pob. = población, Susc. = susceptibe, Resi. = resistente). Evento compartido Pob. Susc./sin oruga
Cálculo de probabilidaes Planta presente Oruga presente [1-P(R)][1-P(C)] = Si No (1,0-0,2)(1,0-0,7) = 0,24
Pob. Susc./con oruga
[1-P(R)][P(C)] = (1,0-0,2)(0,7) = 0,56
No
Si
Pob. Resi./sin oruga
[P(R)][1-P(C)] = (0,2)(1,0-0,7) = 0,06
Si
No
Pob. Resi./con oruga
[P(R)][P(C)] = (0,2)(0,7) = 0,14
Si
Si
240
Tabla 3. El mundo cuatripartito de la comprobación de hipótesis estadísticas. H 0 = hipótesis nula H0 retenida H0 rechazada H0 verdadera Decisión correcta Error Tipo I (α) H0 falsa Error Tipo II (β) Decisión correcta
241
Tabla 4. Valores de mercurio (μg/g) en tejido de hígado de 33 delfines reyados (Stenella coeruleoalba) machos obtenidos de los océanos Atlántico y Pacífico y el Golfo de México. Atlántico Golfo de México Pacífico 264 405 210 300 239 2 85 275 397 445 540 221 286 214 101 118 481 10 218 252 290 180 288 215 278 230 318 261 216 5 168 580 241
242
Tabla 5. Cuatro clases de diseños experimentales y diseños de muestreos. dep. = dependiente; indep. = independiente. Variable dep. Variable indep. contínua Variable indep. categórica Contínua Regresión ANOVA Categórica Regresión logística Tabular
243
Tabla 6. Combinaciones de tratamientos en un arreglo de dos vías para experimentos de adición y remoción de especies. El valor en cada celda es el número de réplicas de cada combinación de tratamientos. Si la variable respuesta es alguna propiedad de las especies mismas (p. ej., supervivencia, tasa de crecimiento), entonces la combinación Especie A Ausente-Especie B Ausente no es posible lógicamente, y el análisis tendrá que usar un arreglo de una vía con tres grupos de tratamientos (Especie A Presente-Especie B Presente; Especie A Presente-Especie B Ausente y Especie A Ausente-Especie B Presente). Si la variable respuesta es alguna propiedad del ambiente que es potencialmente afectada por la especie (p. ej., la abundancia de presas, pH), entonces todas las cuatro combinaciones de tratamientos pueden ser usadas y analizadas como un ANOVA de dos vías con dos factores ortogonales (Especie A y Especie B), cada una con dos niveles de tratamiento (Ausente, Presente). Especie B Especie A ausente Ausente 10 Presente 10
Especie A presente 10 10
244
Tabla 7. Combinaciones de tratamientos en un arreglo de tres vías para un experimento de adición y remoción en una cadena alimenticia. En este experimento los tres grupos tróficos representan los tres factores experimentales (Carnívoro, Herbívoro, Productor), cada uno de los cuales tiene dos niveles (Ausente, Presente). El valor de cada celda es el número de réplicas de cada combinación de tratamientos. Si la variable respuesta es alguna propiedad de la cadena alimenticia en si misma, entonces la combinación de tratamientos en el cual todos los tres niveles tróficos están ausentes no es posible lógicamente. Carnívoro Carnívoro Carnívoro Carnívoro ausente ausente presente presente Herbívoro Herbívoro Herbívoro Herbívoro ausente presente ausente presente Productor Productor
10 10
10 10
10 10
10 10
245
Tabla 8. Hoja de cálculo para un análisis de medidas repetidas simple. Este experimento se diseña para comprobar el efecto del tipo de substrato sobre el reclutamiento de balanos en la zona intermareal rocosa. Los datos están organizados de tal forma que cada fila es una réplica independiente. Las columnas indican el número de ID (1-30), el tratamiento (Concreto, Pizarra y Granito) y el número de réplicas (1-10 dentro de cada tratamiento). Las siguientes cuatro columnas dan el número de balanos reclutados sobre un substrato particular en cada una de las cuatro semanas consecutivas. ID 1 2 3 4 5 6 7 8 9
Tratamiento Granito Pizarra Concreto Granito Pizarra Concreto Granito Pizarra Concreto
. . .
. . .
30
Concreto
Réplica 1 1 1 2 2 2 3 3 3
Semana 1 12 10 3 14 10 8 11 11 7
Semana 2 15 6 2 14 11 9 13 17 7
Semana 3 17 19 0 5 13 4 22 28 7
Semana 4 17 32 2 11 15 4 29 15 6
. . .
. . .
. . .
. . .
. . .
10
8
0
0
3
246
Tabla 9. Contajes tabulados de la ocurrencia de cuatro especies de lagartijas muestreadas en tres diferentes microhábitats. Especie Especie A Especie B Especie C Especie D Hábitats totales
Suelo Tronco de árboles 9 9 9 9 36
0 0 5 10 15
Ramas de árboles 15 12 0 3 30
Especies totales 24 21 14 22 81
247
Tabla 10. Períodos de floración de la planta espuela de caballero (Delphinium nuttallianum) usados para el ejemplo de la separación de la suma de los cuadrados en ANOVA. (CUADRO 7.1) No manipulado Control Tratamiento 10 9 12 12 11 13 12 11 15 13 12 16
248
Tabla 11. Consecuencias de la no independencia entre réplicas (dentro de tratamientos) o entre tratamientos para la interpretación de los experimentos. (Cuadro 7.2). No independiente dentro de los tratamientos Correlación positiva σe2 inestimada dentro de las muestras Valores de F excesivos Error Tipo I alto Diferencias espurias detectadas Correlación negativa σe2 sobrestimada dentro de las muestras Valores de F demasiado pequeños Error Tipo II alto Diferencias reales no detectadas
No independiente entre los tratamientos Correlación positiva σe2 inestimada entre las muestras Valores de F demasiados bajos Error Tipo II alto Diferencias reales no detectadas Correlación negativa σe2 sobrestimada entre las muestras Valores de F excesivos Error Tipo I alto Diferencias espurias detectadas
249
Tabla 12. Control de calidad en la evaluación de la heterogeneidad de las varianzas. Los datos representan las varianzas entre números de caracoles intermareales Littorina unifasciata en muestras de 10 cuadratas (4,5 cm x 4,5 cm) en 10 muestreos durante cinco años. La varianza al tiempo seis es excesiva. (CUADRO 7.3) Tiempo Varianza 1 26,9 2 29,7 3 46,7 4 35,7 5 63,5 6 466,2 7 42,3 8 36,6 9 37,0 10 45,2
250
Tabla 13. Tabla para el ANOVA de una vía para el ejemplo de floración de la espuela de caballero. Los términos en las celdas (df = grados de libertad, SS = suma de los cuadrados, MS = promedio de las sumas de los cuadrados y el valor de F) corresponden a los términos descritos en el texto. (CUADRO 7.4) Fuente Entre los tratamientos Dentro de los tratamientos Total
P F 2 22,17 11,08 5,11 0,033 9 19,50 2,17
df
SS
11 41,67
MS
251
Tabla 14. Tabla general para el ANOVA de bloque aleatorizado. Los términos en las celdas (df = grados de libertad, SS = suma de los cuadrados, MS = promedio de la suma de los cuadrados y los valores de F) corresponden a los términos descritos en el texto. Fuente Entre los tratamientos Entre los bloques Dentro de los tratamientos Total
df
SS
a-1 SSet b-1 SSeb (a-1)(b-1) SSdt Ab-1
SStotal
MS
MSet MSeb MSdt MStotal
F MSet/MSdt MSeb/MSet
252
Tabla 15. Tabla general para el ANOVA de bloque aleatorizado. Los términos en las celdas ( df = grados de libertad, SS = suma de los cuadrados, MS = promedio de la suma de los cuadrados y los valores de F ) corresponden a los términos descritos en el texto. rep. = réplica, trat. = tratamiento, subm. = submuestra. (CUADRO 7.6) df SS Fuente Entre los tratamientos a-1 SSet Entre rep. dentro de los trat. a(b-1) SSerdt Entre subm. dentro de las rep. (a-1)(b-1) SSdt Total abn-1 SStotal
MS MSet MSerdt MSdt MStotal
F MSet/MSerdt MSerdt/MSesmdr
253
Tabla 16. Tabla para el ANOVA de dos vías. Los términos en las celdas ( df = grados de libertad, SS = suma de los cuadrados, MS = promedio de la suma de los cuadrados y los valores de F ) corresponden a los términos descritos en el texto. (CUADRO 7.7) Fuente Factor A Factor B Interacción (AxB) Dentro de los tratamientos Total
df
SS
MS
a-1 b-1 (a-1)(b-1) ab(n-1)
SSFA SSFB SS(AxB) SSdt
MSFA MSFB MS(AxB) MSdt
abn-1
SStotal
MStotal
F MSFA/MSdt MSFB/MSdt MS(AxB)/MSdt
254
Tabla 17. Riqueza de especies de plantas reportada en las 17 Islas Galápagos. El área se expresa en km2 y la riqueza en número de especies. (CUADRO 8.1) Isla Isabela Floreana San Cristóbal Santiago Santa Cruz Pinta Pinzón Fernandina Española Seymour Santa Fe Gardner Marchena Rábida Genovesa Wolf Darwin _____________________ Media Desviación estándar Error estándar de la media
Área Riqueza Log (área) Log (riqueza) 5824,9 325 3,765 2,512 165,8 319 2,219 2,504 505,1 306 2,703 2,486 525,8 224 2,721 2,350 1007,5 193 3,003 2,286 51,8 119 1,714 2,076 18,4 103 1,265 2,013 634,6 80 2,802 1,903 46,6 79 1,669 1,898 2,6 52 0,415 1,716 19,4 48 1,288 1,681 0,5 48 -0,301 1,681 116,6 47 2,066 1,672 4,8 42 0,681 1,623 11,4 22 1,057 1,342 4,7 14 0,672 1,146 2,3 7 0,362 0,845 _____ ______ ________ __________ 526,0 119,3 1,654 1,867 1396,9 110,7 1,113 0,481 388,8 26,8 0,270 0,012
255
Tabla 18. Tabla completa del ANOVA para un análisis de regresión simple. df = grados de libertad, SS = suma de los cuadrados, MS = promedio de los cuadrados, EMS = promedio de los cuadrados esperados, F = valor de la proporción de Fisher, P = valor de la probabilidad. Los valores de P se obtienen de una tabla de probabilidades provista por la mayoría de los textos; los programas estadísticos proveen estos valores para cada F y df particular. (CUADRO 8.2) Fuente Regresió n
df
Residual
n2
Total
1
n 1
SS
MS
SS (Yˆi Y ) 2
SS reg / 1
n
i 1
n
RSS (Yi Yˆi ) 2 i 1 n
SSY (Yi Y ) 2 i 1
EMS n
2 12 X 2 i 1
RSS n2
SSY n 1
2
Y2
F SS reg / 1 RSS /( n 2)
P
256
Tabla 19. Tabla del ANOVA completo para los datos de la riqueza de especies de plantas de las Islas Galápagos. Ver explicación detallada en el texto. Los datos originales son los mostrados en la Tabla 17 (Cuadro 8.1). (CUADRO 8.3). Fuente Regresió n Residual
df
SS
MS
F P 1 2,168 2,168 21,048 0,000329
15 1,540 0,103
257
Tabla 20. Medidas ordenadas de espinas tibiales de 50 arañas linyfidas. Las medidas son en mm. (CUADRO 9.1). 0,155 0,184 0,199 0,202 0,206
0,207 0,208 0,212 0,212 0,215
0,219 0,219 0,221 0,223 0,226
0,228 0,228 0,229 0,235 0,238
0,241 0,243 0,247 0,247 0,248
0,249 0,250 0,252 0,253 0,258
0,263 0,268 0,270 0,274 0,275
0,276 0,277 0,280 0,286 0,289
0,292 0,292 0,296 0,301 0,306
0,307 0,308 0,328 0,329 0,368
258
Tabla 21. Valores de captura por unidad de esfuerzo (CPUE) de tilapia Oreochromis mossambicus en las lagunas Santa Teresa 1 y Santa Teresa 2 del sistema de lagunas de la Reserva Natural de Humacao, Puerto Rico. (CUADRO 11.1) Laguna Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1 Santa Teresa 1
CPUE 3 7 6 2 9 11 13 8 10 2
Laguna Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2 Santa Teresa 2
CPUE 5 8 12 12 10 17 12 10 13 8
259
Tabla 22. Valores del grado de resistencia a los tratamientos de 10 pacientes sometidos a una droga experimental y a un placebo. (CUADRO 11.2) Paciente Droga Placebo 1 7 4 2 5 3 3 2 1 4 8 6 5 3 2 6 4 4 7 10 9 8 7 5 9 4 3 10 9 8
260
Tabla 23. Cantidad de material particulado en el aire en tres sitios, antes y después del comienzo de operaciones de una planta termoeléctrica. (CUADRO 11.3) Sitio Antes Después 1 34,6 41,3 2 38,2 39,6 3 37,6 41,0
261
Tabla 24. Pesos (mg) de granos de dos cultivos experimentales denominados Premier y Super. (CUADRO 11.4) Premier Super 24,5 26,4 23,4 27,0 22,1 25,2 25,3 25,8 23,4 27,1
262
Tabla 25. Pesos (libras) de 30 pavos luego de ocho semanas sometidos a cinco dietas experimentales (CUADRO 11.5) Dieta 1 Dieta 2 Dieta 3 Dieta 4 Dieta 5 4,1 7,3 6,3 6,5 9,5 3,3 4,8 6,0 7,8 7,6 3,1 4,5 5,1 6,3 9,2 4,0 6,8 7,4 7,5 8,1 3,6 5,5 7,8 6,9 9,8 4,4 6,2 6,7 7,0 8,9
263
Tabla 26. Contenido de calcio (porcentaje de peso seco) en cinco hojas de nabo tomadas al azar. (CUADRO 11.6) Hoja 1 Hoja 2 Hoja 3 Hoja 4 Hoja 5 3,28 3,52 2,88 3,34 2,97 3,09 3,48 2,80 3,38 3,14 3,03 3,38 2,81 3,23 2,95 3,03 3,38 2,76 3,26 3,22
264
Tabla 27. Peso (mg) de granos de tres cultivos de caraotas rojas Premier, Supey y Dupa. (CUADRO 11.7) Cultivo Código Peso del grano Premier 1 24,5 Premier 1 23,4 Premier 1 22,1 Premier 1 25,3 Premier 1 23,4 Super 2 26,4 Super 2 27,0 Super 2 25,2 Super 2 25,8 Super 2 27,1 Dupa 3 25,5 Dupa 3 25,7 Dupa 3 26,8 Dupa 3 27,3 Dupa 3 26,0
265
Tabla 28. Diferencias de pulso entre pacientes sometidos al efecto de una droga (ZRX) y un placebo. (CUADRO 11.8)
ZRX Normal Normal Normal Normal Normal Alta Alta Alta Alta Alta
Placebo Tranquilizante Tranquilizante O mg 5 mg 10 mg 9 7 -1 12 11 3 10 6 -2 8 5 0 7 8 5 20 15 8 17 18 10 18 17 6 24 19 9 22 12 7
266
Tabla 29. Peso ganado por 36 pollos sometidos a dietas de 0, 12 y 24 por ciento de proteína usando tres variedades de maíz. (CUADRO 11.9) Nivel de proteína Variedad de maíz
0%
12% 24%
Normal Normal Normal Normal Opaco-2 Opaco-2 Opaco-2 Opaco-2 Floury-2 Floury-2 Floury-2 Floury-2
272 283 310 305 410 384 402 431 339 401 393 407
356 350 345 321 455 462 447 477 467 420 415 438
434 406 427 430 433 478 481 486 450 457 463 475
267
Tabla 30. Alimento consumido (g) por 12 ratas de ambos sexos durante 72 días alimentadas con manteca rancia y manteca fresca. (CUADRO 11.10) Sexo
Manteca fresca
Macho Macho Macho Hembra Hembra Hembra
709 679 699 657 594 677
Manteca rancia 592 538 476 508 505 539
268
Tabla 31. Cosechas (kg) de linaza en seis parcelas de cuatro granjas con seis tipos de fertilizantes (CUADRO 11.11)
Granja
U
V
1 2 3 4
1130 1115 1145 1200
1125 1120 1170 1230
Fertilizante W X 1350 1375 1235 1140
1375 1200 1175 1325
Y
Z
1225 1250 1225 1275
1235 1200 1155 1215
269
Tabla 32. Crecimiento bacteriano medido a través de la densidad óptica a cuatro temperaturas (ºC) y tres niveles de pH. (CUADRO 11.12) Temperatura 25 30 35 40 25 30 35 40 25 30 35 40
pH Densidad óptica 5,5 10 5,5 15 5,5 20 5,5 15 6,5 19 6,5 25 6,5 30 6,5 22 7,5 40 7,5 45 7,5 55 7,5 40
270
Tabla 33. Resultados de la prueba Post Hoc de Tukey para el efecto principal temperatura en el ejemplo del crecimiento bacteriano. Nota: las medias con la misma letra no son significativamente diferentes. (CUADRO 11.13) Grupo Tukey A B B B
Media 35,000 28,333 25,667 23,000
N Temperatura 3 35 3 30 3 40 3 25
271
Tabla 34. Resultados de la prueba Post Hoc de Tukey para el efecto principal pH en el ejemplo del crecimiento bacteriano. (CUADRO 11.14) Grupo Tukey Media N pH A 45,0 4 7,5 B 24,0 4 6,5 C 15,0 4 5,5
272
Tabla 35. Crecimiento bacteriano medido a través de la densidad óptica a cuatro temperaturas (ºC) y tres niveles de pH con replicación (CUADRO 11.15) Temperatura 25 25 25 25 25 25 30 30 30 30 30 30
pH Densidad óptica Temperatura pH Densidad óptica 5,5 9 35 5,5 18 6,5 18 35 6,5 27 7,5 36 35 7,5 23 5,5 11 35 5,5 22 6,5 20 35 6,5 33 7,5 44 35 7,5 27 5,5 13 40 5,5 22 6,5 23 40 6,5 20 7,5 27 40 7,5 7 5,5 17 40 5,5 28 6,5 27 40 6,5 24 7,5 33 40 7,5 13
273
Tabla 36. Resultados de ingesta alimenticia (g) de 24 estorninos (ocho hembras, ocho machos y ocho de sexo indeterminado), sometidos a dos regímenes de longitud de día (16 y 8 horas de luz solar). CUADRO 11.16 Período Hembra Macho Indeterminado Largo 78,1 75,5 76,3 81,2 69,5 72,1 73,2 71,1 69,2 70,3 77,9 73,4 Corto 82,4 80,9 83,0 88,2 72,3 73,3 70,0 72,9 67,8 65,3 71,2 69,8
274
Tabla 37. Tamaños de los 12 ejemplares (seis hembras y seis machos) de pinguinos Adélie (Pygoscelis adeliae) que forman pareja. CUADRO 11.17 Par Hembra Macho 1 17,1 16,5 2 18,5 17,4 3 19,7 17,3 4 16,2 16,8 5 21,3 19,5 6 19,6 18,3
275
Tabla 38. Valores de aguas altas y aguas bajas en el Río Amazonas para dos perídos entre 1962 y 1978. (CUADRO 11.18) Año 196 2 196 3 196 4 196 5 196 6 196 7 196 8 196 9 197 0 197 1 197 2 197 3 197 4 197 5 197 6 197 7
Alta 25.8 2 25.3 5 24.2 9 24.0 5 24.8 9 25.3 5 25.2 3 25.0 6 27.1 3 27.3 6 26.6 5 27.1 3 27.4 9 27.0 8 27.5 1 27.5 4
Baja 18.2 4 16.5 0 20.2 6 20.9 7 19.4 3 19.3 1 20.8 5 19.5 4 20.4 9 21.9 1 22.5 1 18.8 1 19.4 2 19.1 0 18.8 0 18.8 0
Período 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1
276 197 8
26.2 1
17.5 7
1
277
Figuras
Preciso Inexacto (Sesgado)
Preciso Exacto (No sesgado) )
Impreciso Inexacto (Sesgado)
Impreciso Inexacto (No sesgado)
Figura 1.1 Representación gráfica de los términos asociados con sesgo.
278
Figura 2.1. Histograma de frecuencias de captura. Cada semana durante un año entero, un investigador observó 1000 visitas de insectos a una planta carnívora y contó cuantas veces las plantas capturaban un insecto. Los datos colectados para las 52 observaciones (una cada semana) pueden ser graficados en la forma de un histograma. El número de capturas observadas está en un rango entre 4 y 20; el promedio de insectos capturados en las 52 semanas de observaciones es 10,3 por 1000 visitas. Modificada de Gotelli y Ellison (2004).
279
Aptitud
(2,3) (2,4) (3,3) (4,2)
(2,2) (3,4) (4,3) (4,4)
6 descendencias
(3,2)
Figura 2.2. Diagrama de Venn para ilustrar el concepto de conjunto. Cada par de números representa las descendencias producidas en dos camadas sucesivas por una oruga imaginaria. Asumimos que esta oruga produce exactamente 2, 3 o 4 descendencias cada vez que se reproduce, de manera que estos son los únicos enteros que se representan en el diagrama. Un conjunto en un Diagrama de Venn es un anillo que encierra ciertos elementos. El conjunto Aptitud contiene todos los posibles resultados reproductivos para las dos camadas consecutivas. Dentro del conjunto Aptitud hay un conjunto menor de 6 descendencias que consiste de aquellas camadas que producen un total de exactamente 6 descendencias (es decir, cada par suma 6 descendencias). Decimos que 6 descendencias es un subconjunto propio de Aptitud debido a que los elementos del primero están contenidos completamente dentro del último. Modificada de Gotelli y Ellison (2004).
280
(2,2) (2,3)
F
(4,3) (3,3)
FS
(2,4) (4,2)
FS
S
(3,4)
(3,2)
(4,4)
Aptitud
Figura 2.3. Diagramas de Venn que ilustran las uniones e intersecciones de conjuntos. Cada anillo representa un conjunto diferente de números de descendencias producidas en un par de camadas por una oruga. El anillo mayor es el conjunto Aptitud, el cual representa todos los posibles resultados reproductivos de la oruga. El anillo pequeño (F) es el conjunto de todos los pares de camadas en el cual hay exactamente 2 descendencias en la primera camada. El anillo pequeño (S) es el conjunto de todos los pares en el cual hay exactamente 4 descendencias en la segunda camada. El área en la cual se solapan los dos anillos representa la intersección de F y S (F∩S) y contiene solamente aquellos elementos comunes a ambos. El anillo que comprende F y S representa la unión de F y S (FUS) y contiene todos los elementos encontrados en cualquiera de los dos juegos. Note que la unión de F y S no duplica el elemento común a ambos, (2,4). En otras palabras, la unión de dos conjuntos es la suma de los elementos de ambos conjuntos, menos sus elementos comunes. Así, FUS = (F +S) – (F∩S). Modificada de Gotelli y Ellison (2004).
281
Observación Inicial
Sugiere
Predicción SI, verdad aceptada Datos, experimentos Genera Nuevas observaciones
Hipótesis
NO; modificar la hipótesis Confirman las predicciones?
Figura 3.1. El método inductivo. El ciclo de hipótesis, predicción y observación se recorre repetidamente. La confirmación de la hipótesis representa el punto final teórico del proceso. Compare el método inductivo con el método hipotético deductivo, en el cual se proponen múltiples hipótesis de trabajo y se pone el énfasis en la falsificación más que en la verificación. Modificada de Gotelli y Ellison (2004).
282
Figura 3.2. Dos hipótesis nulas para la relación entre la intensidad de luz (medida como radiación fotosintéticamente activa; mol m 2 s 1 ) y la tasa de asimilación 2 1 neta ( mol CO2 m s ) en plantas. La hipótesis nula más simple es que no hay asociación entre las dos variables (línea de puntos). Esta hipótesis nula es el punto de partida para una visión hipotética deductiva que asume que no existe un conocimiento previo acerca de la relación entre las variables, y es la base para un análisis de regresión estándar. En contraste, la línea curva representa una visión bayesiana de usar el conocimiento previo para crear hipótesis nulas educadas. En este caso, el conocimiento previo tiene que ver con fisiología y fotosíntesis. Esperamos que la tasa de asimilación aumente rápidamente al principio a medida que la intensidad de la luz aumente, y que luego se alcance una asíntota o nivel de saturación. Tal relación puede describirse mediante una ecuación de Michaelis-Menten [ Y kX /( D X )] , la cual incluye parámetros para una tasa de asimilación asintótica ( k ) y una constante de saturación media ( D ) que controla la inclinación de la curva. Modificada de Gotelli y Ellison (2004).
283
Figura 3.3. Relación entre la intensidad de luz y la tasa fotosintética. Los datos representan mediciones de la tasa de asimilación neta y la radiación fotosintéticamente activa para N 15 hojas jóvenes del mangle Rhizophora mangle en Belice (Farnsworth y Ellison, 1996). Los datos siguen una ecuación de Michaelis-Menten de la forma Y kX /( D X ) . Los parámetros estimados 1 desviación estándar son k 7,3 0,58 y D 313 86,6 . Modificada de Gotelli y Ellison (2004).
284
Observación inicial
Sugiere Hipótesis A
Hipótesis D Hipótesis B
Hipótesis C
Predicciones falsificables (únicas a cada hipótesis)
Predicción B
Predicción C
Predicción D
Predicción A
Nuevas observaciones Si ¿Explican las nuevas observaciones las predicciones? No Hipótesis A Incorrecta
Múltiples fallos para falsificarla
Hipótesis B Correcta
Hipótesis C Incorrecta
Hipótesis D Incorrecta
Verdad aceptada
Figura 3.4. El método hipotético deductivo. Se proponen múltiples hipótesis de trabajo, y sus predicciones se comprueban con la meta de falsificar las hipótesis incorrectas. La explicación correcta es la que permanece después de repetidas pruebas (es decir, no es falsificada). Modificado de Gotelli y Ellison (2004).
285
Figura 3.5. Distribución de muestreo de la diferencia entre medias para el ejemplo del efecto de una nueva droga antidepresiva.
286
Figura 3.6. Distribución de muestreo de la diferencia entre medias para el ejemplo del efecto de una nueva droga antidepresiva.
Figura 3.7. Dos distribuciones de frecuencias que difieren por 0,10 desviaciones estándares.
287
Figura 3.8. Diagramas de caja para los resultados del ejemplo de monitores en color y blanco y negro (B-N). A
B
288
Figura 4.1. Relación entre la densidad de lagartijas y la densidad de arañas (número de individuos / m2) en experimentos naturales y manipulados. Cada punto representa una parcela o cuadrata en la cual se ha medido tanto la densidad de lagartijas como la densidad de arañas. (A) La hipótesis nula es que la densidad de lagartijas no afecta la densidad de arañas. (B) La hipótesis alternativa es que la depredación de arañas por las lagartijas controla la densidad de arañas, trayendo como consecuencia una relación negativa entre las dos variables. Modificada de Gotelli y Ellison (2004).
Densidad de lagartijas
Densidad de lagartijas
Humedad
Densidad de lagartijas
Densidad de arañas
Densidad de arañas
Densidad de arañas
Humedad
Densidad de lagartijas
Densidad de arañas
Figura 4.2. Hipótesis mecanicistas para explicar las correlaciones entre la densidad de lagartijas y la densidad de arañas (ver Figura 4.1). La relación causa-efecto pudiera ser de depredador a presa (lagartijas-arañas) o de presa a depredador (arañas-lagartijas). Modelos más complicados incluyen los efectos de otras variables abióticas o bióticas. Por ejemplo, pudiera no haber interacción entre las lagartijas y las arañas, sino que las densidades de ambas fueran controladas por una tercera variable, tal como la
289 humedad. Alternativamente, la humedad pudiera tener un efecto indirecto al alterar la interacción entre las lagartijas y las arañas. Modificada de Gotelli y Ellison (2004).
Línea negra
Línea verde
Tiempo o Figura 4.3. Ejemplos de series de tiempo deterministas y estocásticas, con y sin autocorrelación. Cada población comienza con 100 individuos. Un modelo lineal sin error (línea rayada) ilustra una tendencia constante hacia arriba en los datos de la población. Un modelo lineal con ruido blanco estocástico (línea negra) añade variabilidad temporal no correlacionada. Finalmente, un modelo autocorrelacionado (línea verde) describe el tamaño de la población en el siguiente paso ( t 1 ) como una función del tamaño de la población en el tiempo actual ( t ) más un ruido aleatorio.
290 Aunque el término de error en este modelo es aún una variable simple aleatoria, la serie de tiempo resultante muestra autocorrelación ─ hay épocas en que la población crece seguida por épocas en que la población disminuye. Para el modelo lineal y para el modelo estocástico de ruido blanco la ecuación es N t a bt , con a 100 y b 0,10 . Para el modelo autocorrelacionado, N t 1 a bN t , con a 0,0 y b 1,0015 . Para ambos modelos con error, es una variable aleatoria normal: ~ N (0,1) . Modificada de Gotelli y Ellison (2004).
R e s p u e s t a
(A) Experimento de pulso
Tiempo
R e s p u e s t a
(B) Experimento de presión
Tiempo
Figura 4.4. Experimentos ecológicos de pulso y de presión. La flecha indica la aplicación de un tratamiento, y la línea indica la trayectoria temporal de la variable respuesta. El experimento de pulso (A) mide la respuesta a la aplicación de un tratamiento sencillo (elasticidad), mientras que el experimento de presión (B) mide la respuesta bajo condiciones constantes (resistencia). Modificada de Gotelli y Ellison (2004).
291
292
(A)
•
•
•
•
•
•
•
•
Parcela de remoción de néctar
Parcela control
(B)
•
•
•
•
•
•
•
•
Parcela de remoción de néctar
Parcela control
Figura 4.5. El problema de la no independencia en los estudios ecológicos se ilustra en este diseño experimental en el cual colibríes se alimentan de néctar en parcelas controles, y en parcelas en las cuales se ha removido el néctar de todas las flores. (A) En un arreglo no independiente, los dos tipos de parcela están adyacentes de manera que cuando el colibrí entra en la parcela sin néctar puede inmediatamente moverse a la parcela control. Como consecuencia, los datos colectados en la parcela control no son independientes de los datos colectados en la parcela sin néctar: la respuesta en un tratamiento influencia la respuesta en el otro. (B) Si se modifica el arreglo de modo que los dos tipos de parcela estén bien separados, los colibríes que salen de la parcela sin néctar no necesariamente entran en la parcela control. Los dos tipos de parcela son independientes, y los datos colectados en una no son influenciados por la presencia de la otra parcela. Aunque es fácil ilustrar los problemas potenciales de no independencia, en la práctica puede ser muy difícil saber con anticipación las escalas temporales y espaciales que aseguren la independencia estadística. Modificada de Gotelli y Ellison (2004).
293
•
•
•
•
•
•
•
•
Parcela de remoción de néctar
Caliente
Parcela control
Frío
Figura 4.6. Un diseño experimental confundido. Al igual que en la Figura 4.5, el estudio establece parcelas sin néctar y parcelas controles para evaluar las respuestas en la alimentación de colibríes. Aunque en este diseño las parcelas han sido colocadas suficientemente separadas para garantizar la independencia, han sido colocadas en diferentes puntos a lo largo de un gradiente térmico. Consecuentemente, los efectos de los tratamientos están confundidos con las diferencias en el ambiente térmico. El resultado neto es que el experimento compara datos obtenidos en parcelas sin néctar colocadas en un ambiente caliente con datos obtenidos en parcelas controles colocadas en un ambiente frío. Modificada de Gotelli y Ellison (2004).
294
○
○ ○ ○
•
• • ○
• •
• ○
Caliente Calien
○
•
○
•
○
•
Caliente
○
•
fr Frío Frío Caliente Frío
te Figura 4.7. Un diseño experimental correctamente replicado y aleatorizado. El estudio establece parcelas como en la Figura 4.6. Cada cuadrado representa una réplica de la parcela control (•) o parcela de remoción de néctar (○). Las parcelas están separadas por suficiente distancia para asegurar la independencia, y sus localizaciones dentro del gradiente de temperatura han sido aleatorizadas. Hay 10 réplicas para cada uno de los dos tratamientos. La escala espacial en la gráfica es mayor que en la Figura 4.6. Modificada de Gotelli y Ellison (2004).
295
○
○
○
•
•
•
•
•
○ ○
○
○
• ○
○
○
C Caliente
• •
• • Frío
Figura 4.8. Un diseño replicado, pero confundido. Al igual que en las figuras 4.5, 4.6 y 4.7, el estudio establece parcelas controles y experimentales para evaluar la respuesta en la alimentación de colibríes. Cada cuadrado representa una réplica de la parcela control (•) o parcela de remoción de néctar (○). Si se replican los tratamientos pero no son asignados aleatoriamente, el diseño confunde los tratamientos con el gradiente ambiental subyacente. La replicación, combinada con la aleatorización y el suficiente espaciamiento entre las réplicas (Figura 4.7) es lo único seguro contra la no independencia (Figura 4.5) y la confusión (figuras 4.6 y 4.8). Modificada de Gotelli y Ellison (2004).
296
EPeq x ueñ ta e n s i ó n e s Gr pande a c i a l
Pequeño
Grande Grano espacial
Figura 4.9. Grano y extensión espacial en estudios ecológicos. Cada cuadrado representa una parcela sencilla. El grano espacial mide el tamaño de las unidades de muestreo, representadas por cuadrados pequeños o grandes. La extensión espacial mide el área comprendida por todas las réplicas del estudio, representada por cuadrados agrupados cercana o separadamente. Modificada de Gotelli y Ellison (2004).
297
Figura 5.1. Distribución de frecuencias de peso de orugas.
298
A
B
Figura 5.2. Distribuciones de peso (A) y edad (B) de 100 mujeres.
299
A
B
Figura 5.3. Gráficos Q-Q de probabilidad para los ejemplos de peso (A) y edad (B).
300
Parcela 2 Densidad de roedores: 1,1 Densidad de semillas: 1500 Cubierta vegetal: 2
Parcela 1 Densidad de roedores: 5,0 Densidad de semillas: 12000 Cubierta vegetal: 11
Parcela Semillas/m2 Cubierta vegetal (%) Roedores/m2 1 12000 11 5,0 2 1500 2 1,1 . . . . . . . . . . . . 20 11500 52 3,7 Figura 6.1. Arreglo espacial de réplicas para un estudio de regresión. Cada cuadrado representa una parcela diferente de 25 m 2. Las parcelas fueron muestreadas para asegurar una cobertura uniforme de la densidad de semillas. Dentro de cada parcela el investigador mide la densidad de roedores (la variable respuesta), la densidad de semillas y la cubierta vegetal (las dos variables predictoras). Los datos están organizados en una tabla en la cual cada fila es una parcela, y las columnas son las variables medidas dentro de cada parcela. Modificada de Gotelli y Ellison (2004).
301
A
B
Figura 6.2. El inadecuado muestreo sobre un rango estrecho de la variable X puede crear una pendiente de regresión no significativa, aunque X y Y estén fuertemente correlacionadas. Cada punto representa una réplica individual para la cual se ha medido un valor para X y para Y . Los puntos a la izquierda y a la derecha del área enmarcada por las líneas rayadas representan los posibles datos que no fueron colectados para el análisis. (A) El rango completo de datos. La línea sólida indica la verdadera relación lineal entre las variables. (B) La línea de regresión ajustada a los datos muestreados. Debido a que la variable X fue muestreada en un rango estrecho de valores, existe una limitada variación en la variable Y , y la pendiente de la regresión ajustada no es significativa. El muestreo sobre el rango entero de la variable X prevendría este tipo de error. Modificada de Gotelli y Ellison (2004).
302
A
B
Figura 6.3. Los fallos en muestrear uniformemente el rango entero de una variable puede llevar a resultados espurios. Al igual que en la Figura 6.2, cada punto representa una observación individual. (A) La línea indica la verdadera relación lineal entre las variables. Esta relación hubiera sido revelada si la variable X hubiera sido muestreada uniformemente. (B) La línea de regresión ajustada solamente a los datos muestreados. Debido a que sólo se midió un dato con un valor grande, este punto tiene una influencia desproporcionada sobre la línea de regresión ajustada. Como consecuencia, el resultado sugiere una relación positiva entre las dos variables. Modificada de Gotelli y Ellison (2004).
303 Tratamiento de nitrógeno (arreglo de una vía) 0,00 mg 0,10 mg 0,50 mg 1,00 mg 10 10 10 10 Tratamiento de fósforo (arreglo de una vía) 0,00 mg 0,05 mg 0,10 mg 0,25 mg 10 10 10 10 Tratamientos de nitrógeno y fósforo en un arreglo de dos vías Tratamiento de fósforo
0,00 mg 0,05 mg 0,10 mg 0,25 mg
Tratamiento de nitrógeno 0,0 0,10 0,50 1,00 mg mg mg mg 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10 10
Figura 6.4. Combinaciones de tratamientos en un diseño de un factor (los dos paneles superiores) y en un diseño de dos factores (panel inferior). En todos los diseños, el número en cada celda indica el número de parcelas réplicas independientes a ser establecido. En los dos diseños de un factor (arreglo de una vía), los cuatro niveles de tratamiento representan cuatro diferentes concentraciones de nitrógeno y fósforo (mg/L). El tamaño de la muestra total es 40 parcelas en cada experimento de un factor. En el diseño de dos factores, los 4 x 4 = 16 tratamientos representan diferentes combinaciones de concentraciones de nitrógeno y fósforo que son aplicados simultáneamente a una parcela réplica. Este diseño de ANOVA de dos factores cruzados con 10 réplicas por combinación de tratamiento, requeriría un tamaño de muestra total de 160 parcelas. Modificada de Gotelli y Ellison (2004).
304
No.: 1 Tratamiento: Granito No. balanos reclutados: 12
No.: 8 Tratamiento: Pizarra No. balanos reclutados: 12
No.: 3 Tratamiento: Concreto No. balanos reclutados: 3
Número Tratamiento Réplica No. balanos reclutados 1 Granito 1 12 2 Pizarra 1 10 3 Concreto 1 3 4 Granito 2 14 5 Pizarra 2 10 6 Concreto 2 8 7 Granito 3 11 8 Pizarra 3 11 9 Concreto 3 7 . . . . . . . . . . . . 30 Concreto 10 8 Figura 6.5. Ejemplo de un arreglo de una vía. Este experimento está diseñado para comprobar el efecto del tipo de substrato sobre el reclutamiento de balanos en la zona intermareal rocosa (Caffey, 1982). Cada círculo representa un substrato rocoso independiente. Hay 10 réplicas de cada uno de los tratamientos colocadas al azar, representadas por las diferentes tonalidades. El número de balanos reclutados se muestreo en una cuadrata de 10 cm2 en el centro de cada tipo de superficie. Los datos están organizados en una tabla en la cual cada fila es una réplica independiente. Las columnas indican el número de identificación de cada réplica (1-30), el grupo de tratamiento (concreto, pizarra o granito), el número de la réplica dentro de cada tratamiento (1-10) y el número de balanos reclutados (la variable respuesta). Modificada de Gotelli y Ellison (2004).
305
No.: 6 Bloque: 2 Tratamiento: Concreto No. balanos reclutados: 8
No.: 2 Bloque: 1 Tratamiento: Pizarra No. balanos reclutados: 10
No.: 1 Bloque: 1 Tratamiento: Granito No. balanos reclutados: 12
Número Tratamiento Bloque No. balanos reclutados 1 Granito 1 12 2 Pizarra 1 10 3 Concreto 1 3 4 Granito 2 14 5 Pizarra 2 10 6 Concreto 2 8 7 Granito 3 11 8 Pizarra 3 11 9 Concreto 3 7 . . . . . . . . . . . . 30 Concreto 10 8 Figura 6.6. Ejemplo de diseño de bloque al azar. Las 10 réplicas de cada uno de los tres tratamientos se agrupan en bloques. Tanto la colocación de los bloques como la colocación de los tratamientos dentro de los bloques se hacen al azar. Los datos se organizan en la tabla igual que en la Figura 6.5., pero la columna de réplicas es reemplazada por una columna indicando el bloque con el cual cada réplica está asociada. Modificada de Gotelli y Ellison (2004).
306
(A) Bloques válidos
Alto
(B) Bloques inválidos
Bajo Figura 6.7. Diseños de bloqueos válidos e inválidos. (A) Tres bloques correctamente orientados, cada uno abarcando una elevación simple en un gradiente de altura. Las condiciones ambientales son más similares dentro de los bloques que entre los bloques. (B) Estos bloques están orientados incorrectamente, yendo a través del gradiente altitudinal. Las condiciones son tan heterogéneas dentro de los bloques como entre ellos, de forma que no hay ventajas en este diseño. Modificada de Gotelli y Ellison (2004).
307
No.: 2 Tratamiento: Granito No. réplica: 1 Submuestra: 2 No. balanos reclutados: 10 No.: 1 Tratamiento: Granito No. réplica: 1 Submuestra: 1 No. balanos reclutados: 12
No.: 3 Tratamiento: Granito No. réplica: 1 Submuestra: 3 No. balanos reclutados: 3
Número Tratamiento No. réplica Submuestra No. balanos reclutados 1 Granito 1 1 12 2 Granito 1 2 10 3 Granito 1 3 11 4 Pizarra 2 1 14 5 Pizarra 2 2 10 6 Pizarra 2 3 7 7 Concreto 3 1 5 8 Concreto 3 2 6 9 Concreto 3 3 10 . . . . . . . . . . . . . . . 90 Concreto 30 3 6 Figura 6.8. Ejemplo de un diseño anidado. El estudio es el mismo que se muestra en las figuras 6.5 y 6.6. El arreglo es idéntico al arreglo de una vía en la Figura 6.5, pero aquí se toman tres submuestras en cada réplica independiente. En la tabla se añade una columna adicional para indicar el número de la submuestra, y el número total de observaciones se incrementa de 30 a 90. Modificada de Gotelli y Ellison (2004).
308 Tratamiento substrato (arreglo de una vía) Granito Pizarra Concreto 10 10 10 Tratamiento depredador (arreglo de una vía) No manipulado Control Exclusión depredador Inclusión predador 10
10
10
Tratamientos depredador y substrato simultáneos en un arreglo de dos vías No manipulado
10 Tratamiento substrato Granito Pizarra Concreto 10
10
10
Control
Tratamiento depredador
10
10
10
10
10
10
10
10
Exclusión depredador
Inclusión depredador 10
Figura 6.9. Combinaciones de tratamientos en diseños de dos factores y en un diseño de dos factores cruzados. Este experimento está diseñado para comprobar el efecto del tipo de substrato (granito, pizarra y concreto) y la depredación (no manipulado, control, exclusión de depredador e inclusión de depredador) sobre el reclutamiento de balanos en la zona intermareal rocosa. Los 10 indican el número total de réplicas en cada tratamiento. Los círculos representan los tres tipos de substrato y los cuadrados representan los cuatro tratamientos de depredación. Los dos paneles superiores ilustran los dos diseños de una vía, en los cuales solamente uno de los dos factores varía sistemáticamente. En el diseño de dos factores (panel inferior), los 4 x 3 = 12 tratamientos representan diferentes combinaciones de substrato y depredación. El símbolo en cada celda indica la combinación de tratamientos de depredación y tipo de substrato aplicado. Modificada de Gotelli y Ellison (2004).
309
Número: 1 Substrato: Granito Predación: No manipulado No. balanos reclutados: 12
Número 1 2 3 4 5 6 7 8 9 . . . 120
Número: 5 Substrato: Pizarra Predación: Control No. balanos reclutados: 10
Tratamiento substrato Granito Pizarra Concreto Granito Pizarra Concreto Granito Pizarra Concreto . . . Concreto
Número: 120 Substrato: Concreto Predación: Inclusión No. balanos reclutados: 2
Tratamiento depredación No manipulado No manipulado No manipulado Control Control Control Exclusión depredador Exclusión depredador Exclusión depredador . . . Inclusión depredador
No. balanos reclutados 12 10 8 14 10 8 50 68 39 . . . 2
Figura 6.10. Ejemplo de un diseño de dos vías. La tabla contiene columnas para indicar cual tratamiento de substrato y cual tratamiento de depredación fueron aplicados a cada réplica. El diseño entero incluye 4 x 3 x 10 = 120 réplicas en total, pero solamente se ilustran 36 réplicas (tres por cada combinación de tratamiento). Modificada de Gotelli y Ellison (2004).
310
4 E s p e c i e
ŶŶ
YY
ŸŸ
YY
2
YY
ŶŶ
ŸŸ
YY
1
YY
YY
ŶŸ
YY
0
YY
YY
ŸŸ
ŶŶ
0
1
2
4
B
Especie A Figura 6.11. Diseños experimentales para experimentos de competencia. La abundancia de las especies A y B se fijan cada una en 0, 1, 2 o 4 individuos. Cada Y indica una combinación de tratamientos diferentes. En un diseño aditivo (ŸŸ), la abundancia de una especie es fija (2 individuos de la especie A) y la abundancia del competidor es variable (0, 1, 2 o 4 individuos de la especie B). En un diseño substitutivo (ŶŶ), la abundancia total de ambos competidores se mantiene constante en 4 individuos, pero la composición de especies en los diferentes tratamientos se altera (0,4; 1,3; 2,2; 3,1; 4,0). En un diseño de superficie de respuesta (el área abarcada por el rectángulo), todas las combinaciones de abundancia de los dos competidores se establecen en diferentes tratamientos (4 x 4 = 16 tratamientos). El diseño de superficie de respuesta es preferible debido a que sigue el principio de un buen ANOVA de dos vías: los niveles de los tratamientos son completamente ortogonales (todos los niveles de abundancia de la especie A están representados con todos los niveles de abundancia de la especie B). Modificada de Gotelli y Ellison (2004).
311
No.: 120 Trat. subst.: Concreto Trat. dep.: Inclusión No. bloque: 40 No. balanos reclutados: 2
No.: 1 Trat. subst.: Granito Trat. dep.: No manipulado No. bloque: 1 No. balanos reclutados: 12
Número Trt. substrato Trt. depredación Bloque No. balanos reclutados 1 Granito No manipulado 1 12 2 Pizarra No manipulado 1 10 3 Concreto No manipulado 1 8 4 Granito Control 2 14 5 Pizarra Control 2 10 6 Concreto Control 2 8 7 Granito Exclusión depredador 3 50 8 Pizarra Exclusión depredador 3 68 9 Concreto Exclusión depredador 3 39 . . . . . . . . . . . . . . . 120 Concreto Inclusión depredador 40 2 Figura 6.12. Ejemplo de un diseño split-plot. Los tres tratamientos de substratos (factor subparcela) están agrupados en bloques. El tratamiento de depredación (factor de parcela completo) se aplica a un bloque entero. La tabla contiene columnas para indicar los tratamientos substratos, tratamientos de depredación e identificación de bloque para cada una de las réplicas. Sólo se ilustra un subconjunto de los bloques en cada tratamiento de depredación. El diseño split-plot es similar a un diseño de bloque aleatorizado (Figura 6.6), pero en este caso un segundo factor de tratamiento es aplicado al bloque entero (= parcela). Trt. = tratamiento. Modificada de Gotelli y Ellison (2004).
312
A
B
C
D S
E
F
Figura 7.1. Comportamiento alimentario de 15 langostas en acuarios. A, B y C número de excursiones de alimentación por 12 horas; D, E y F distribuciones de frecuencia de tiempo invertido en la alimentación para todas las 15 langostas. A y D fueron muestreadas independientemente; B y E representan langostas con comportamiento positivamente correlacionados; C y F representan langostas con comportamiento negativamente correlacionados. Ver texto para mayor explicación. Modificada de Underwood (1997).
313
A
B
C
Figura 7.2. Efectos de la no independencia dentro de los tratamientos. Los datos representan valores de F muestreados en 200 experimentos de crecimiento en langostas en a 3 dietas con n 9 langostas por dieta. En cada caso la hipótesis nula es cierta; no hay diferencia entre las dietas. En A las langostas se alimentan independientemente; en B las langostas se alimentan de una forma correlacionada positivamente y en C de una forma correlacionada negativamente. Modificada de Underwood (1997).
314
A
B
C
D
Figura 7.3. Efecto de la correlación negativa en comparaciones de porcentajes de cubierta de dos especies. En cada caso los datos representan frecuencias de F en 1000 experimentos simulados con n 10 cuadratas. En A y C se muestrearon cuadratas independientes para cada especie (es decir se examinaron 20 cuadratas). En B y D el porcentaje de cubierta de las dos especies fue determinado en las mismas cuadratas. En A y B la cubierta promedio de cada especie es 50 por cientyo. En C y D la cubierta promedio de cada especie es 40 por ciento. Modificada de Underwood (1997).
315
Figura 7.4. Comparación de parcelas controles (C; no tocadas) y experimentales (E; especie presa 2 removida) para comprobar una hipótesis acerca de los efectos de la depredación sobre la especie 1. Hay ocho réplicas de cada tratamiento. En a, las réplicas están dispersas al azar a través del área de estudio, independientemente dentro y entre los tratamientos. En b, una réplica de cada tratamiento está colocada al lado de la otra (creyendo, erróneamente, que esto reduce la variabilidad). En ambos diagramas, las líneas rayadas indican parches de hábitat con diferentes tasas intrínsecas de depredación- los arreglos, límites y otros detalles son desconocidos al investigador. Tomada de Sparre y col. (1997).
316
A
B
C
D
Figura 7.5. Efecto de la correlación positiva entre los tratamientos. Los datos representan frecuencias de distribución de F de 1000 experimentos simulados para comparar el número de una especie presa que supervive en áreas donde otra presa es removida o dejada intacta; n = 8 parcelas para cada tratamiento. En A y B no hay efecto del tratamiento experimental sobre la supervivencia promedio. En C y D la supervivencia se reduce donde la presa alternativa es removida. En A y C las parcelas experimentales son muestreadas independientemente. En B y D las parcelas están cercanas unas de otras en pares (ver Figura 6.16). Modificada de Underwood (1997).
317
Figura 7.6. Ejemplos de problemas causados por heterogeneidad de las varianzas. Se muestran distribuciones de medias muestreadas de poblaciones para a, b y c: tres poblaciones con la misma media ( ) y varianza ( 2 ), repetidamente muestreadas con tamaño de muestra n . Se muestran los límites de confianza del 95 por ciento. En d, e y f se muestran las distribuciones de frecuencias de las medias de las muestras de tres 2 2 2 poblaciones con la misma media ( ) pero diferentes varianzas ( 1 , 2 , 3 ), con sus límites de confianza del 95 por ciento. Las áreas sombreadas indican las regiones en las cuales las medias muestreadas causarían el rechazo de la hipótesis nula que establece que no hay diferencia entre las medias (ver detalles en el texto). Tomada de Underwood (1997).
318
A
BB
Figura 7.7. Transformación raíz cuadrada ( X 1 ) de los datos. (A) Las varianzas y el número promedio de animales por cuadrata de muestras en diez sitios; (B) las varianzas y los promedios después de la transformación de los datos a X 1 . Modificada de Underwood (1997).
319
A
B
Figura 7.8. Transformación arcoseno de los datos. (A) Las varianzas y el promedio de cubierta de plantas (porcentaje) en cinco sitios; (B) las varianzas y los promedios luego de la transformación seno ( seno 1 X ). Modificada de Underwood (1997).
320
A
C
B
D
Figura 7.9. Posibles resultados de un experimento hipotético con tres tratamientos en un diseño ANOVA de dos vías. Las parcelas no manipuladas no se alteraron de ninguna forma, excepto por los efectos que ocurrieron durante el muestreo. Las parcelas controles no recibieron el tratamiento, pero pudieron recibir un tratamiento simulado para simular los efectos de la manipulación. Las parcelas tratamientos recibieron el tratamiento de interés y los efectos de la manipulación. La altura de cada barra representa la respuesta promedio para el grupo y la línea vertical indica una desviación estándar alrededor de la media. (A) La prueba del ANOVA no fue significativa, y las diferencias entre las medias de los grupos puede ser atribuida a simple error. (B-D) La prueba del ANOVA es siempre significativa, pero el patrón, y por ende, la interpretación difiere en cada caso. (B) La media para el tratamiento es elevada en comparación con el control y el no manipulado, indicando un verdadero efecto del tratamiento. (C) Tanto el grupo control como el grupo tratamiento son elevados en comparación con el no manipulado, indicando un efecto de la manipulación pero no efecto del tratamiento. (D) Existe evidencia de un efecto de la manipulación debido a que la media del grupo control excede la del grupo no manipulado, aunque el tratamiento biológico no fue aplicado. Sin embargo, más allá de este efecto de la manipulación, parece haber un efecto del tratamiento debido a que la media del grupo tratamiento es elevada en comparación a la media del grupo control. El punto aquí es que los resultados del ANOVA pudieran ser idénticos, pero la interpretación depende del patrón particular de las medias de los grupos. Tomado de Gotelli y Ellison (2004).
321
A
B
C
E
D
F
Figura 7.10. Posibles resultados para un experimento hipotético que comprueba los efectos del substrato y la depredación sobre el reclutamiento de balanos. Cada símbolo representa la media de una combinación de tratamientos. Los tratamientos de depredación están indicados en el eje X y los tratamientos substratos están indicados por las diferentes figuras geométricas (círculo = concreto, triangulo = pizarra, rectángulo = granito). Las barras verticales representan los errores o las desviaciones estándar (los cuales deben ser indicados en la leyenda de la figura). Cada panel representa el patrón asociado con un resultado estadístico particular. (A) Ni los tratamientos ni la interacción son significativos, y las medias de todas
322 las combinaciones de tratamientos son indistinguibles. (B) La depredación es significativa, pero el substrato y la interacción no lo son. En esta figura las medias de los tratamientos son mayores para la exclusión y menor para la inclusión, con un patrón similar para todos los substratos. (C) El substrato es significativo, pero el depredador y la interacción no lo son. No hay diferencias en las medias de los tratamientos depredación, pero el reclutamiento es siempre mayor en el granito y menor en el concreto, indistintamente del tratamiento depredación. (D) Tanto la depredación como el substrato son significativos, pero la interacción no lo es. Las medias dependen tanto de la depredación como del substrato, pero el efecto es estrictamente aditivo, y los perfiles de las medias son paralelos. € La interacción es significativa. Las medias de los tratamientos difieren significativamente, pero no existe un efecto aditivo simple ni de la depredación ni el substrato. El ranking de la media de los substratos depende de la depredación, y el ranking de la depredación depende del substrato. Los efectos principales pudieran no ser significativos en esta caso debido a que los promedios de los tratamientos a través del substrato o la depredación no necesariamente difieren significativamente. (F) La interacción es significativa, lo que significa que el efecto de la depredación depende del substrato y viceversa. A pesar de esta interacción, aún es posible hablar acerca de los efectos generales del substrato sobre el reclutamiento. Indistintamente de la depredación, el reclutamiento es siempre mayor en el granito y menor en el concreto. La interacción es estadísticamente significativa, pero los perfiles para las medias realmente no se cruzan. Tomado de Gotelli y Ellison (2004).
323
Figura 8.1. Relación lineal entre las variables X y Y . La línea se describe por la ecuación Y 0 1 X , donde 0 es el intercepto y 1 es la pendiente de la línea. El intercepto, 0 , es el valor predicho de la ecuación de regresión cuando X 0 . La pendiente de la línea, 1 , es el incremento en la variable Y asociado con una unidad de incremento en la variable X ( Y / X ). Si se conoce el valor de X , se puede predecir el valor de Y multiplicando X por la pendiente ( 1 ) y sumando el intercepto ( 0 ). Tomado de Gotelli y Ellison (2004).
324
Figura 8.2. Algunos modelos lineales pudieran aproximarse a funciones no lineales sobre un dominio limitado de la variable X . La interpolación dentro de estos límites pudiera ser aceptablemente preciso, aunque el modelo lineal (la línea recta) no describa la verdadera relación funcional entre Y y X (la línea curva). La extrapolación se haría más y más imprecisa a medida que el pronóstico se alejara del rango de los datos colectados. Una presunción muy importante de la regresión lineal es que la relación entre X y Y (o la transformación de estas variables) es lineal. Tomado de Gotelli y Ellison (2004).
325
Figura 8.3. Gráfica de riqueza de especies de plantas como una función del área de las Islas Galápagos usando los datos originales (columnas 2 y 3 del Cuadro 8.1). La línea muestra la mejor línea de regresión ajustada. Aunque se puede ajustar una regresión lineal a cualquier par de variables continuas, el ajuste lineal a estos datos no es bueno: hay demasiados datos extremos que representan islas pequeñas, y la pendiente de la línea es dominada por Isabela, la mayor isla en la base de datos. En muchos casos, una transformación matemática de la variable X , la variable Y o ambas, puede mejorar el ajuste a una regresión lineal. Tomado de Gotelli y Ellison (2004).
326
Figura 8.4. Gráfica del logaritmo de la riqueza de especies de plantas como una función del logaritmo del área de las Islas Galápagos (columnas 4 y 5 del Cuadro 8.1). La línea representa el mejor ajuste a una línea de regresión. Comparada con el ajuste lineal en la Figura 8.3, esta línea de regresión ajusta los datos considerablemente mejor: la mayor isla en la base de datos ya no parece un dato extremo, y la linealidad del ajuste es mucho mejor. El logaritmo usado es en base 10. Tomado de Gotelli y Ellison (2004).
327
Figura 8.5. La suma de cuadrados residual se halla sumando la desviación al cuadrado ( d i ) de cada observación de la línea de regresión ajustada. El parámetro de mínimos cuadrados estimado asegura que la línea de regresión ajustada minimiza esta suma de cuadrados residual. El símbolo + índica el punto promedio de los datos ( X , Y ). Esta línea de regresión describe la relación entre el logaritmo del área de las islas y el logaritmo de la riqueza de especies de plantas de las Islas Galápagos (datos del Cuadro 8.1). La Log (riqueza ) 1,320 Log (area ) * 0,331 ; ecuación de regresión es 2 r 0,584 . Tomado de Gotelli y Ellison (2004).
328
Figura 8.6. Línea de regresión (línea negra), intervalo de confidencia del 95 por ciento (líneas anaranjadas; las dos más cercanas a la línea de regresión) y intervalo de predicción de 95 por ciento (líneas rosadas; las dos más alejadas a la línea de regresión) para una regresión Log-Log del número de especies de plantas contra el área de las islas de las Islas Galápagos. El intervalo de confidencia describe la incertidumbre en los datos colectados, mientras que el intervalo de predicción se usa para evaluar nuevos datos no colectados aún.
329
Figura 8.7. Patrones hipotéticos de gráficos de residuales ( d i ) contra valores ajustados ( Yˆi ) en regresión lineal. (A) Distribución esperada de los residuales para un modelo lineal con una distribución normal de los errores. Si los datos ajustaran el modelo lineal, este es el patrón que se debería encontrar en los residuales. (B) Los residuales para un ajuste no lineal; aquí el modelo sobrestima sistemáticamente los valores reales de Y a medida que X incrementa. Una transformación matemática (p. ej., logarítmica, raíz cuadrada, o recíproca) pudiera rendir una relación más lineal. (C) Residuales para una relación cuadrática o polinomial. En este caso, los residuales positivos grandes ocurren para valores o muy pequeños o muy grandes de la variable X . Una transformación polinomial de la variable X ( X 2 o cualquiera potencia de X mayor de 2) pudiera rendir un ajuste lineal. (D) Residuales con heteroscedasticidad (varianza creciente). En este caso, los residuales no son consistentemente positivos o negativos. Una transformación logarítmica o raíz cuadrada pudiera corregir este problema. Las transformaciones no son una panacea en el análisis de regresión y no siempre resulta en una relación lineal. Tomado de Gotelli y Ellison (2004).
330
A
B
Figura 8.8. Gráficas de residuales para la relación especies de plantas y áreas de las islas en las Islas Galápagos. En una gráfica de residuales, el eje X es el valor predicho por la ecuación de regresión ( Yi ) y el eje Y representa los residuales, los cuales son la diferencia entre el valor observado y el valor ajustado. En un juego de datos que cumple las predicciones del modelo de regresión, la gráfica de los residuales debería ser una nube de puntos normalmente distribuidos centrados alrededor de un valor promedio 0 (ver Figura 8.7A). (A) Gráfica de residuales para la regresión de datos no transformados. Existen muchos residuales negativos a valores ajustados pequeños, y la distribución de los residuales no es normal. (B) Gráfica de residuales para la regresión de los mismos datos después de una transformación logarítmica de ambas variables. La transformación ha mejorado considerablemente la distribución de los residuales. Tomado de Gotelli y Ellison (2004).
331
A
B
Figura 8.9. Función influencia para la regresión lineal de la riqueza de especies de plantas de las Islas Galápagos. En una gráfica de la función influencia, cada punto representa la pendiente ( 1 ) y el intercepto ( 0 ) después de la eliminación de una observación de la base de datos (las flechas indican los puntos para los estimados de la pendiente y el intercepto para la base de datos completa). (A) En el modelo de regresión con los datos originales, la observación para la isla con mayor área (Isabela) tiene una influencia muy grande sobre la pendiente y el intercepto, generando el dato extremo en la parte inferior derecha de la gráfica. (B) La función influencia calculada para la línea de regresión ajustada a los datos transformados a Log . Después de la transformación logarítmica (Figura 8.4 y Figura 8.5) se nota una nube de puntos más homogénea en la función influencia. Aunque la pendiente y el intercepto cambiarán luego de la eliminación de cada observación, ningún punto individual tiene una influencia extrema sobre la pendiente y el intercepto. En esta base de datos, la transformación no sólo mejora el ajuste lineal de los datos, sino que también estabiliza los estimados de la pendiente y el intercepto, de modo que no son dominados por uno o dos puntos particulares. Tomado de Gotelli y Ellison (2004).
332
Figura 9.1. Histograma de los datos de las longitudes de la espina tibial de arañas linyfidas mostrados en el Cuadro 9.1 ( n 50 ) ilustrando la media aritmética, la mediana y el modo. La media (0,253 mm) está indicada por la flecha punteada, el modo (0,237 mm) por la flecha sólida y la mediana (0,248 mm) por la flecha rayada. Tomado de Gotelli y Ellison (2004).
333
Figura 9.2. Diagramas de barras que muestran la media aritmética para los datos de espinas tibiales de arañas linyfidas, junto con las barras de errores correspondientes a la desviación estándar de la media y al error estándar de la muestra. Mientras que la desviación estándar mide la variabilidad de las medidas individuales alrededor de la media, el error estándar mide la variabilidad del estimado de la media misma. El error estándar es igual a la desviación estándar dividida por la raíz cuadrada del tamaño de la muestra, de modo que éste siempre será menor que la desviación estándar, a menudo considerablemente menor. La leyenda de las figuras siempre deberá proveer los tamaños de la muestra, e indicar claramente si las barras de errores corresponden a la desviación estándar o al error estándar. Tomado de Gotelli y Ellison (2004).
334
Figura 9.3. Distribuciones continuas que ilustran el sesgo ( g1 ). El sesgo mide la extensión con la que la distribución es asimétrica, con una cola a la izquierda o a la derecha. La curva rayada es una distribución log-normal que tiene un sesgo positivo, con muchas más observaciones a la derecha de la media que a la izquierda, y un sesgo igual a 6,9. La curva sólida representa una muestra de 1000 observaciones de una variable normal aleatoria con idéntica media y desviación estándar que la distribución lognormal. Debido a que estos datos fueron tomados de una distribución normal asimétrica, tienen aproximadamente el mismo número de observaciones a cada lado de la media, y un sesgo cercano a 0. Tomado de Gotelli y Ellison (2004).
335
Figura 9.4. Distribuciones que ilustran el kurtosis ( g 2 ). El kurtosis mide la extensión con la cual la distribución tiene colas “gordas” o colas “delgadas” en comparación con la distribución normal estándar. Las distribuciones con colas “gordas” son leptocúrticas, y contienen relativamente más área en las colas y menos en el centro. Las distribuciones leptocúrticas tienen valores de g 2 positivos. Las distribuciones con colas “delgadas” son platicúrticas, y contienen relativamente menos área en las colas de la distribución y más en el centro. Las distribuciones platicúrticas tienen valores negativos de g 2 . La curva sólida representa una muestra de 1000 observaciones de una variable aleatoria normal con X 0 y 1 [ X ~ N (0,1)] ; su kurtosis es casi cero. La curva rayada es una muestra de 1000 observaciones de una distribución t con 3 grados de libertad. La distribución t es leptocúrtica y tiene kurtosis positiva ( g 2 6,05 en este ejemplo). Tomado de Gotelli y Ellison (2004).
336
Figura 9.5. Diagrama de caja (box plot) que ilustra los cuantiles de los datos de longitudes de la espina tibial de arañas linifydas ( n 50 ). Los valores con los cuales se construyó la caja están en la tabla inferior. Tomado de Gotelli y Ellison (2004).
337
Apéndices
338 Apéndice A. Tabla de áreas bajo la curva normal estándar. Los valores de la tabla que no se muestran en negrita representan la probabilidad de observar un valor menor o igual a Z. La cifra entera y el primer decimal de Z se buscan en la primera columna, y el segundo decimal en la primera línea horizontal.
P(Z z)
z
f (t ) dt
Segunda cifra decimal del valor de z z
0,00
0,01
0,02
0,03
0,04
0,05
0,06
0,07
0,08
0,09
0,0
0,5000
0,5040
0,5080
0,5120
0,5160
0,5199
0,5239 0,5279 0,5319
0,5359
0,1
0,5398
0,5438
0,5478
0,5517
0,5557
0,5596
0,5636 0,5675 0,5714
0,5753
0,2
0,5793
0,5832
0,5871
0,5910
0,5948
0,5987
0,6026 0,6064 0,6103
0,6141
0,3
0,6179
0,6217
0,6255
0,6293
0,6331
0,6368
0,6406 0,6443 0,6480
0,6517
0,4
0,6554
0,6591
0,6628
0,6664
0,6700
0,6736
0,6772 0,6808 0,6844
0,6879
0,5
0,6915
0,6950
0,6985
0,7019
0,7054
0,7088
0,7123 0,7157 0,7190
0,7224
0,6
0,7257
0,7291
0,7324
0,7357
0,7389
0,7422
0,7454 0,7486 0,7517
0,7549
0,7
0,7580
0,7611
0,7642
0,7673
0,7704
0,7734
0,7764 0,7794 0,7823
0,7852
0,8
0,7881
0,7910
0,7939
0,7967
0,7995
0,8023
0,8051 0,8078 0,8106
0,8133
0,9
0,8159
0,8186
0,8212
0,8238
0,8264
0,8289
0,8315 0,8340 0,8365
0,8389
1,0
0,8413
0,8438
0,8461
0,8485
0,8508
0,8531
0,8554 0,8577 0,8599
0,8621
1,1
0,8643
0,8665
0,8686
0,8708
0,8729
0,8749
0,8770 0,8790 0,8810
0,8830
1,2
0,8849
0,8869
0,8888
0,8907
0,8925
0,8944
0,8962 0,8980 0,8997
0,9015
339
1,3
0,9032
0,9049
0,9066
0,9082
0,9099
0,9115
0,9131 0,9147 0,9162
0,9177
1,4
0,9192
0,9207
0,9222
0,9236
0,9251
0,9265
0,9279 0,9292 0,9306
0,9319
1,5
0,9332
0,9345
0,9357
0,9370
0,9382
0,9394
0,9406 0,9418 0,9429
0,9441
1,6
0,9452
0,9463
0,9474
0,9484
0,9495
0,9505
0,9515 0,9525 0,9535
0,9545
1,7
0,9554
0,9564
0,9573
0,9582
0,9591
0,9599
0,9608 0,9616 0,9625
0,9633
1,8
0,9641
0,9649
0,9656
0,9664
0,9671
0,9678
0,9686 0,9693 0,9699
0,9706
1,9
0,9713
0,9719
0,9726
0,9732
0,9738
0,9744
0,9750 0,9756 0,9761
0,9767
2,0
0,9772
0,9778
0,9783
0,9788
0,9793
0,9798
0,9803 0,9808 0,9812
0,9817
2,1
0,9821
0,9826
0,9830
0,9834
0,9838
0,9842
0,9846 0,9850 0,9854
0,9857
2,2
0,9861
0,9864
0,9868
0,9871
0,9875
0,4878
0,9881 0,9884 0,9887
0,9890
2,3
0,9893
0,9896
0,9898
0,9901
0,9904
0,9906
0,9909 0,9911 0,9913
0,9916
2,4
0,9918
0,9920
0,9922
0,9925
0,9927
0,9929
0,9931 0,9932 0,9934
0,9936
2,5
0,9938
0,9940
0,9941
0,9943
0,9945
0,9946
0,9948 0,9949 0,9951
0,9952
2,6
0,9953
0,9955
0,9956
0,9957
0,9959
0,9960
0,9961 0,9962 0,9963
0,9964
2,7
0,9965
0,9966
0,9967
0,9968
0,9969
0,9970
0,9971 0,9972 0,9973
0,9974
2,8
0,9974
0,9975
0,9976
0,9977
0,9977
0,9978
0,9979 0,9979 0,9980
0,9981
2,9
0,9981
0,9982
0,9982
0,9983
0,9984
0,9984
0,9985 0,9985 0,9986
0,9986
3,0
0,9987
0,9987
0,9987
0,9988
0,9988
0,9989
0,9989 0,9989 0,9990
0,9990
3,1
0,9990
0,9991
0,9991
0,9991
0,9992
0,9992
0,9992 0,9992 0,9993
0,9993
3,2
0,9993
0,9993
0,9994
0,9994
0,9994
0,9994
0,9994 0,9995 0,9995
0,9995
3,3
0,9995
0,9995
0,9995
0,9996
0,9996
0,9996
0,9996 0,9996 0,9996
0,9997
3,4
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997
0,9997 0,9997 0,9997
0,9998
340 Apéndice B. Resultados producidos por SAS para el ejemplo del delfín rayado Stenella coeruleoalba. The SAS System
14:32 Friday, July 28, 2006
The UNIVARIATE Procedure Variable: MERCURIO Moments N 33 Sum Weights 33 Mean 252.545455 Sum Observations 8334 Std Deviation 137.915076 Variance 19020.5682 Skewness 0.35508879 Kurtosis 0.48277311 Uncorrected SS 2713372 Corrected SS 608658.182 Coeff Variation 54.6100013 Std Error Mean 24.0079331 Basic Statistical Measures Location
Variability
Mean 252.5455 Std Deviation 137.91508 Median 241.0000 Variance 19021 Mode . Range 578.00000 Interquartile Range 80.00000 Tests for Location: Mu0=0 Test
-Statistic-
-----p Value------
Student's t t 10.51925 Pr > |t| = |M| = |S| D 0.0472 Cramer-von Mises W-Sq 0.138549 Pr > W-Sq 0.0334 Anderson-Darling A-Sq 0.726554 Pr > A-Sq 0.0531 Quantiles (Definition 5) Quantile
Estimate
100% Max 580 99% 580 95% 540 90% 445 75% Q3 290 50% Median 241 The SAS System
14:32 Friday, July 28, 2006
The UNIVARIATE Procedure Variable: MERCURIO Quantiles (Definition 5) Quantile 25% Q1
Estimate 210
341 10% 5% 1% 0% Min
85 5 2 2
Extreme Observations ----Lowest----
----Highest---
Value
Value
2 5 10 85 101
Obs 24 32 28 3 27
406 445 481 540 580
Obs 12 4 17 15 22
Stem Leaf # 58 1 54 1 48 1 4 014 3 3 | 3 02 2 2 56688999 8 2 112222344 9 1 78 2 1 02 2 08 1 0 001 3 ----+----+----+----+ Multiply Stem.Leaf by 10**+2
The SAS System
Boxplot * * 0
0
| +--+--+ *-----* | | 0 0
14:32 Friday, July 28, 2006
The UNIVARIATE Procedure Variable: MERCURIO Normal Probability Plot 575+ *++++ | *++++ | *+++ | **++ | ++* | +++** | +****** | ******* | **+++ | **++ | ++* 25+ * +*++* +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
342
343 Apéndice C. Resultados del experimento de alimentación de langostas descrito en el texto e ilustrado en la Figura 7.1. Num. = número, exc. = excursión, alim. = alimentación, N = número de individuos, Long. = longitud, inv. = invertido, MS = suma de los cuadrados, trt. = tratamiento, S = varianza Num. exc. alim./langosta S N X Datos independientes (Figuras 7.1A y 7.1D) Correlación positiva (Figuras 7.1B y 7.1E) Correlación negativa (Figuras 7.1C y 7.1F)
Long. exc. alim. (min) Tiempo total alim./langosta X
S
N
X
S
N
10,40
1,97
15
20,56
8,62
156
214
1112
15
17,40
0,38
15
20,44
7,91
260
356
111
15
4,80
17,30
15
16,44
60,00
72
79
9575
15
Resultados de 200 experimentos simulados para comprobar la hipótesis nula que no hay diferencia entre tres dietas (n = 9 langostas/dieta), descritos en el texto e ilustrados en las figuras 7.2 y 7.3. Las medias y las varianzas son para nueve langostas; se tomaron tres muestras de cada una de las 200 simulaciones para representar las tres dietas para cada experimento. Tiempo inv. alimentación S ( N 600 ) X Datos independientes Correlación positiva Correlación negativa
199,2 340,9 100,2
879,0 162,0 6767,9
Proporción de F significativo a nivel de F promedio 1,09 6,21 0,06
MS entre trt. ( N 200 )
P 0,25
P 0,10
P 0,05
904,2 899,0 162,0
0,25 0,66 0,00
0,11 0,50 0,00
0,04 0,42 0,00
344 Apéndice D. No independencia entre los tratamientos: correlación negativa en la cubierta de dos especies de plantas. En (a) y (b) la cubierta promedio de cada especie es 50 por ciento; en (c) y (d) las cubiertas son 40 por ciento. En (a) y (c) los datos fueron independientes- las cubiertas se determinaron en diferentes cuadratas para cada especie. En (b) y (d) las cubiertas de las dos especies se estimaron en las mismas cuadratas. Cada situación se simuló 1000 veces con muestras de N 10 cuadratas. Las medias, las varianzas y los valores de F son valores promedios para las 1000 simulaciones. S = varianza. Cubierta especie A Cubierta especie B
Proporción de F significativa a nivel de
X
S
X
S
P 0,10
P 0,05
A B 0,5 (a) Independiente (b) Correlación negativa
F promedi o
50,04 49,89
122,41 123,89
50,01 50,02
123,50 123,80
1,19 2,64
0,10 0,25
0,06 0,18
A B 0,4 (c) Independiente (d) Correlación negativa
40,11 40,08
120,41 120,93
40,06 39,94
119,70 122,14
1,15 1,95
0,09 0,20
0,05 0,13
345 Apéndice E. No independencia entre los tratamientos: correlación positiva en el número de presas de la especie 1 que sobrevive en áreas experimentales (cuando las presas de la especie 2 son removidas) y áreas control (donde permanecen). En (a) y (b) no hay efecto por la remoción de la especie 2. En (c) y (d) la remoción de la especie 2 causó un incremento en la mortalidad y, por lo tanto, pocos individuos de la especie 1 sobrevivieron. En (a) y (c) las parcelas réplicas del control y el tratamiento se esparcieron independientemente. En (b) y (d) las parcelas se colocaron en pares. Cada situación se simuló 1000 veces con muestras de N 8 parcelas. Las medias, las varianzas y los valores de F son promedios de las 1000 simulaciones. La varianza entre los parches (Figura 7.4) fue 600; la varianza entre las réplicas dentro de los parches fue 100. N = número, Trt. = tratamiento, S = varianza. Control: N especie 1/parcela S X
Trt.: N especie 1/parcela S X
Sin efecto (a) Independiente (b) Correlación positiva
180,2 179,9
685,4 719,4
180,3 180,0
Mortalidad aumentada (c) Independiente (d) Correlación positiva
180,1 180,3
683,2 716,4
160,0 160,2
Proporción de F significativo a nivel de
F
P 0,10
P 0,05
702,9 714,1
1,19 0,19
0,100 0,002
0,05 0,00
719,2 720,5
3,96 3,10
0,640 0,370
0,31 0,18
Apéndice F. Ejemplo de la hipótesis extrínseca usando la hoja de cálculo MS Excel. A B C D E F G H I Esta hoja de cálculo ejecuta la prueba G de bondad de ajuste para hasta 20 categorías Coloque los valores observados en la columna A y las proporciones esperadas en la columna B Las proporciones observadas pueden ser los valores que usted desee, siempre y cuando la proporción sea la correcta Por ejemplo, si usted ha hecho un cruce genético con una proporción esperada 3:1, podría colocar 3 y 1, o 0,75 y 0,25 o 75 y 25 La columna C muestra los valores esperados en cada categoría, de acuerdo a la H 0 Los grados de libertad ( df ) se calculan de acuerdo a la H0; para una H0 extrínseca los df son simplemente el número de valores de la variable menos uno; mientras que para una H0 intrínseca, los df se calculan tomando el número de valores de la variable, sustrayéndole uno por cada parámetro estimado y luego sustrayéndole uno más Si está comprobando una H0 extrínseca, coloque los df en la celda D14; y en E14 si está comprobando una H0 intrínseca G 2 * [O * Ln (O / E )]
El resultado en la celda G14 es el valor de P para una prueba de dos colas El resultado en la celda H14 es el valor de P para una prueba de una cola Para más detalles vaya a http://udel.edu/~mcdonald/statgtestgof.html Valores obs. (O)
Prop. esper.
Valores esper. (E)
423 133
3 1
417 139
df
df
(H0e)
(H0i)
1
G
0,349
O*Ln(O/E)
(2 colas)
P
(1 cola)
0,555
0,277
6,043 -5,869
P
Apéndice G. Resultados producidos por SAS para el ejemplo de los pesos de ratones.
347
The SAS System
12:10 Saturday, February 10, 2007
The UNIVARIATE Procedure Variable: Peso Moments N 48 Sum Weights 48 Mean 13.1083333 Sum Observations 629.2 Std Deviation 0.71780793 Variance 0.51524823 Skewness 0.52396608 Kurtosis -0.4116847 Uncorrected SS 8271.98 Corrected SS 24.2166667 Coeff Variation 5.47596642 Std Error Mean 0.10360665 Basic Statistical Measures Location
Variability
Mean 13.10833 Std Deviation Median 12.95000 Variance Mode 12.50000 Range Interquartile Range
0.71781 0.51525 3.00000 1.20000
Tests for Location: Mu0=0 Test
-Statistic-
-----p Value------
Student's t t 126.5202 Pr > |t| = |M| = |S| D 0.1126 Cramer-von Mises W-Sq 0.127936 Pr > W-Sq 0.0463 Anderson-Darling A-Sq 0.758797 Pr > A-Sq 0.0460 Quantiles (Definition 5) Quantile
Estimate
100% Max 15.00 99% 15.00 95% 14.20 90% 14.10 75% Q3 13.70 50% Median 12.95 The SAS System
12:10 Saturday, February 10, 2007
The UNIVARIATE Procedure Variable: Peso Quantiles (Definition 5) Quantile
Estimate
25% Q1 10% 5% 1%
12.50 12.10 12.10 12.00
348 0% Min
12.00
Extreme Observations ----Lowest----
----Highest---
Value
Value
12.0 12.1 12.1 12.1 12.1
Obs 20 37 32 25 11
Obs
14.1 14.1 14.2 14.5 15.0
10 35 2 23 6
Stem Leaf # 150 0 1 148 146 144 0 1 142 0 1 140 00000 5 138 0000 4 136 0 1 134 0000 4 132 0000 4 130 000 3 128 0000000 7 126 0000 4 124 00000000 8 122 120 00000 5 ----+----+----+----+ Multiply Stem.Leaf by 10**-1
The SAS System
Boxplot | | | | | | | +-----+ | | | | | + | *-----* | | +-----+ | |
12:10 Saturday, February 10, 2007
The UNIVARIATE Procedure Variable: Peso Normal Probability Plot 15.1+ * | ++ | +++ 14.5+ *++ | *+ | ***+*+ 13.9+ ***+++ | *+++ | **+ 13.3+ **+ | +** | +*** 12.7+ +*** | ***+* * | +++ 12.1+ * * +*+ +----+----+----+----+----+----+----+----+----+----+ -2 -1 0 +1 +2
349
View more...
Comments