Estadistica.facil.con.hoja.de.calculo.pdf

July 27, 2017 | Author: Ronald Salazar Perez | Category: Probability Distribution, Variance, Statistics, Normal Distribution, Histogram
Share Embed Donate


Short Description

Download Estadistica.facil.con.hoja.de.calculo.pdf...

Description

   

 

Estadística fácil con hoja de  cálculo 

Alejandro Quintela del Río  Catedrático de la Universidad de A Coruña  Área de Estadística e Investigación Operativa   http://alejandroquintela.com 

                                      Autor: Alejandro Quintela del Río 1ª edición: Junio, 2015 ISBN: 978-1514341377

Editorial CreateSpace © Todos los derechos reservados http://alejandroquintela.com  

 

 

Introducción: Aprender estadística con la ayuda de una hoja de cálculo............ 7 Sobre la parte matemática del libro ................................................................. 8 Excel 2013: Nociones mínimas ......................................................................... 8 Uso de las plantillas de Excel .......................................................................... 11 Listado de plantillas ........................................................................................ 11 Estadística descriptiva uni y bidimensional ................................................ 12 Variables aleatorias .................................................................................... 12 Variables aleatorias discretas de interés .................................................... 13 Variables aleatorias continuas de interés................................................... 13 Intervalos de confianza ............................................................................... 14 Contrastes de hipótesis .............................................................................. 14 Otras plantillas ............................................................................................ 14 Capítulo 1: Estadística descriptiva ...................................................................... 15 Estadística descriptiva .................................................................................... 16 Breve introducción histórica ....................................................................... 16 Población y datos ............................................................................................ 16 Variables y atributos ....................................................................................... 16 Variables discretas y continuas....................................................................... 17 Distribuciones de frecuencias ......................................................................... 18 Representaciones gráficas .............................................................................. 20 Pictograma .................................................................................................. 20 Cartograma ................................................................................................. 21 Diagrama de barras..................................................................................... 22 Diagrama de Sectores (Tarta) ..................................................................... 22 Histograma.................................................................................................. 23 Área bajo el histograma de frecuencias. .................................................... 26 Medidas características de una variable ........................................................ 28 Medidas de posición o de tendencia central.............................................. 28 La media ...................................................................................................... 28 La mediana .................................................................................................. 31 La moda....................................................................................................... 34 Cuantiles ..................................................................................................... 35 Medidas de dispersión .................................................................................... 37 Pag. 1

La varianza y la desviación típica ................................................................ 37 Desigualdad de Tchebychev ....................................................................... 40 Otras medidas de dispersión. ..................................................................... 41 Medidas de forma........................................................................................... 43 Simetría ....................................................................................................... 43 Curtosis ....................................................................................................... 45 Transformaciones ........................................................................................... 46 Normalización o tipificación ....................................................................... 47 Análisis exploratorio de datos ........................................................................ 47 Diagrama de tallo y hojas (Stem & Leaf) .................................................... 48 Diagrama de caja (box-plot) ....................................................................... 49 Momentos de una variable estadística .......................................................... 50 Momentos respecto al origen .................................................................... 50 Momentos respecto a la media aritmética ................................................ 50 Datos en tabla de frecuencias .................................................................... 51 Problemas ....................................................................................................... 52 paradoja del promedio ............................................................................... 65 Capítulo 2: Estadística descriptiva bidimensional .............................................. 67 Distribución conjunta de caracteres ........................................................... 67 Distribuciones bidimensionales ...................................................................... 69 Distribuciones marginales y condicionadas................................................ 69 Momentos en distribuciones bidimensionales........................................... 71 Representaciones gráficas .............................................................................. 72 Representaciones 3D .................................................................................. 72 Diagrama de dispersión o nube de puntos................................................. 72 Dependencia e independencia estadística ................................................. 73 Regresión ........................................................................................................ 73 Centro de gravedad de la nube de puntos ................................................. 74 Covarianza. Correlación lineal .................................................................... 74 Coeficiente de correlación de Pearson ....................................................... 75 Ajuste y regresión bidimensional ................................................................... 77 Caso lineal ................................................................................................... 77 Notas históricas e interesantes .................................................................. 81 Problemas con la predicción....................................................................... 82 Otros ajustes ............................................................................................... 83 Pag. 2

Bondad del ajuste ....................................................................................... 84 Correlación no implica causalidad .............................................................. 87 Otros aspectos a tener en cuenta............................................................... 88 Problemas ....................................................................................................... 89 Curiosidades. Anscombe's quartet ............................................................. 95 Medidas de asociación entre atributos .......................................................... 96 Independencia ............................................................................................ 97 Medidas de asociación.................................................................................... 99 Q de Yule ..................................................................................................... 99 Coeficiente de contingencia de Pearson .................................................. 100 V de Cramer .............................................................................................. 100 Capítulo 3: Probabilidad ................................................................................... 103 Antecedentes históricos ............................................................................... 104 Probabilidad .................................................................................................. 105 Definiciones básicas .................................................................................. 106 Sucesos y conjuntos. diagramas de venn ..................................................... 107 Probabilidad .............................................................................................. 109 Propiedades de la Probabilidad .................................................................... 111 Probabilidades geométricas ..................................................................... 116 Probabilidad condicionada ....................................................................... 118 Teorema de las probabilidades totales .................................................... 124 Regla de Bayes .......................................................................................... 127 Problemas antiguos ...................................................................................... 130 Problemas curiosos ....................................................................................... 137 Capítulo 4: Variables aleatorias ........................................................................ 139 Variables aleatorias discretas ....................................................................... 140 Función de distribución ............................................................................ 141 Variables discretas infinitas numerables. ................................................. 143 Variables continuas................................................................................... 144 Función de densidad ................................................................................. 144 Esperanza de una variable aleatoria......................................................... 150 La varianza ................................................................................................ 150 Propiedades de la esperanza y de la varianza .......................................... 151 Mediana .................................................................................................... 152 Cuantil ....................................................................................................... 152 Pag. 3

Moda ......................................................................................................... 153 Otras medidas ........................................................................................... 153 Momentos................................................................................................. 154 Uso de Excel .................................................................................................. 156 Capítulo 5: Variables aleatorias discretas de interés ....................................... 163 Variable de Bernoulli .................................................................................... 163 Media y varianza de la variable de bernoulli ............................................ 164 Variable binomial .......................................................................................... 165 Media y varianza de la variable binomial ................................................. 165 Propiedad aditiva ...................................................................................... 165 Variable de Poisson....................................................................................... 166 Proceso de Poisson ................................................................................... 167 Media y varianza ....................................................................................... 168 Propiedad aditiva ...................................................................................... 169 Variable hipergeométrica ............................................................................. 171 Media y varianza ....................................................................................... 172 Variable binomial negativa ........................................................................... 173 Media y varianza ....................................................................................... 174 Plantilla tablas-distribuciones.xlsx ................................................................ 174 Problemas para estimular el intelecto.......................................................... 175 Hechos reales de interés interesantes ......................................................... 182 Capítulo 6: Variables aleatorias continuas de interés ...................................... 185 Variable uniforme continua .......................................................................... 185 Media y varianza ....................................................................................... 186 Variable exponencial .................................................................................... 187 Media y varianza ....................................................................................... 188 Variable normal ............................................................................................ 189 Media y varianza ....................................................................................... 190 Propiedades .............................................................................................. 190 Tipificación ................................................................................................ 192 Propiedad aditiva ...................................................................................... 193 Teorema central del límite ........................................................................... 194 Ejemplo real de interés: Putin contra Gauss ................................................ 197 Un poco de historia sobre Putin ............................................................... 198 Variable Chi-cuadrado .................................................................................. 200 Pag. 4

Variable 𝒕𝒕 de Student.................................................................................... 200 Variable F de Fisher-Snedecor ...................................................................... 202 resumen de Plantillas................................................................................ 203

Problemas ..................................................................................................... 204 Capítulo 7: Intervalos de confianza .................................................................. 209 Intervalos de confianza para variables aleatorias normales .................... 210 Intervalos para la comparación de poblaciones ........................................... 212 Intervalo de confianza para la diferencia de medias................................ 213 Intervalo de confianza para la razón de varianzas ................................... 214 Caso de muestras relacionadas o pareadas ................................................. 214 Intervalos para proporciones ....................................................................... 214 Intervalo para una proporción.................................................................. 214 Intervalo de confianza para la diferencia de proporciones ...................... 215 Problemas ..................................................................................................... 215 Capítulo 8: Contrastes de hipótesis .................................................................. 229 Test o contrastes de tipo paramétrico ......................................................... 231 Etapas en la realización de un contraste de hipótesis.............................. 232 Principales contrastes paramétricos ............................................................ 233 Contraste Para la media de una variable normal ..................................... 233 Para la varianza ......................................................................................... 234 Para la diferencia de medias..................................................................... 234 Para la razón de varianzas ........................................................................ 235 Para una proporción ................................................................................. 235 Para la diferencia de proporciones ........................................................... 235 Caso de dos muestras relacionadas (apareadas) ..................................... 236 Problemas ..................................................................................................... 236 Test de independencia de caracteres ........................................................... 248 Independencia .......................................................................................... 249 Contraste de homogeneidad .................................................................... 251 Referencias ....................................................................................................... 253 Índice alfabético................................................................................................ 254

Pag. 5

Estadística fácil con hoja de cálculo

El propósito de este texto es el habitual de un curso introductorio de probabilidad y estadística: enseñar estadística y probabilidad (qué raro). La diferencia estriba en que pretendemos ayudar al estudiante a “digerir” mejor los contenidos utilizando ayuda de una hoja de cálculo. Estas herramientas básicas consisten en la realización de cálculos matemáticos (estadísticos) y también de gráficos. Además, hemos diseñado un curso desde cero, y no pretendemos que el que estudie este manual sepa manejar una hoja de cálculo. Para ello, hemos construído una serie de plantillas, que consisten en unos ficheros propios de la hoja de cálculo, donde las fórmulas necesarias están ya introducidas. Así, el que las utiliza, básicamente, sólo ha de introducir los datos para que las cuentas y/o los gráficos se realicen por si solos. El texto también es útil para profesores, puesto que el uso de las plantillas permite, por un lado, la realización rápida de cálculos, sin tener que arrancar un paquete estadístico. Además, las gráficas y resultados pueden copiarse y pegarlas en las transparencias de clase, etc. Por otro lado, al igual que ocurre con mis dos libros anteriores, podrá reconocerse que no son libros “al uso”, y que si se quiere (otra cosas es que esto sea así) aquí se dispone de motivaciones diferentes para el alumnado de los clásicos enunciados de urnas con bolas y tornillos averiados. Obviamente, conocer algo la herramienta con la que vamos a trabajar no está de más. De todas formas, repetimos que la intención es partir de cero, así que las pocas nociones básicas Pag. 7

Estadística fácil con hoja de cálculo que se podrán necesitar para usar las plantillas se irán comentando a lo largo de los capítulos del libro, cada vez que se utilicen las mismas. Las plantillas se han diseñado con Excel 2013. En general, funcionan con versiones anteriores, salvo en ocasiones donde se usan fórmulas que no estaban introducidas en aquel momento. Lo mismo es aplicable a programas de software libre. Se han probado varias de las plantillas en LibreOffice y funcionan, y otras ya indican que dan errores con las fórmulas. De todas maneras, el uso de las plantillas es, básicamente, un apoyo para el estudio del libro. Con las plantillas se realizan los cálculos más rápido, y se hacen gráficas que se pueden usar para un trabajo, o un docente puede utilizar en un áula, etc. Si no se dispone de Excel 2013, sugerimos usar alguna licencia de evaluación gratuita durante el tiempo de estudio del manual, para poder explorar las posibilidades. Para quien no conozca en absoluto el Excel, sugerimos la visualización de cualquier video gratuito en Youtube o plataforma similar, y explorar así las múltiples posibilidades que el programa ofrece (de cálculo, de realización de gráficas, etc.). Algunas de las plantillas han sido realizadas por el autor. Otras, en cambio, corresponden a modificaciones de otras existentes, disponibles gratuitamente en la red, igual que las que utilizamos en el libro. La utilización de la mayoría de las plantillas puede entenderse también (aunque son muy simples de usar) con la ayuda de videos realizados por mí, que están en youtube, y a los que se puede acceder a través de mi página web: http://alejandroquintela.com/plantillas-excel/

SOBRE LA PARTE MATEMÁTICA DEL LIBRO En lo que se refiere a la teoría y los problemas, este libro se complementa con “El estadístico accidental” (Quintela, 2013), que trata de los mismos temas, aunque algunos de manera más profunda, y que consta también de capítulos de estimación y muestreo, que aquí, en cambio, no aparecen. Remitimos al lector a este texto y también a “Problemas estimulantes de probabilidad y estadística” (Quintela, 2013), que consta de problemas de enunciados “diferentes” a los clásicos en los cientos de miles de libros que existen. Ambos libros están disponibles en descarga gratuita, en formato pdf. Basta con entrar en mi página web http://alejandroquintela.com/libros para ver los enlaces. En la misma página existe un canal de videos de los diferentes temas. Se accede por http://alejandroquintela.com/aula-virtual. Algunos de los videos están en mi canal de Youtube, pero la mayoría están en Vimeo. EXCEL 2013: NOCIONES MÍNIMAS Excel es una aplicación distribuida por Microsoft Office para hojas de cálculo. Este programa está desarrollado y distribuido por Microsoft. Los archivos de Excel llevan un nombre y una extensión “.xlsx”. Cuando abrimos un archivo, que se denomina “libro de Excel”, inicialmente consta de una hoja, que son filas y columnas. Si se van a introducir datos, lo más común es usar una columna para una variable. En la Figura 1 vemos un trozo de una hoja de Excel en blanco, cuando arrancamos el programa. En la Figura 2 ampliamos la parte inferior izquierda de la pantalla, que nos indica que estamos en la Hoja 1, y si queremos crear más hojas pinchamos en el símbolo ⊕ que está a su derecho (hoja nueva). En cada hoja podemos introducir datos, hacer gráficos, incluso escribir e introducir imágenes… No es exclusivamente una pantalla para introducir datos, al estilo de paquetes estadísticos clásicos como, por ejemplo, el SPSS. El Excel permite hacer muchas más cosas que un paquete estadístico. Por el contrario, los procedimientos estadísticos que trae el programa por defecto (la herramienta llamada “Análisis de Datos”) son mucho menores. Ahora bien, las herramientas estadísticas son ampliables, a través de plantillas o de Add-ins, que son Pag. 8

Estadística fácil con hoja de cálculo como programas aparte realizados en Visual Basic, y de los que existen algunos de pago bastante completos.

Figura 2 Figura 1

Como breve introducción, para quien nunca ha utilizado Excel, podemos dar alguna indicación de la forma de trabajar, con sólo dos líneas de texto. Imaginemos que tenemos una variable estadística X con los datos 1, 3, 9, 12, 17, 34. Si queremos analizar estos datos los introducimos en una hoja en blanco, posicionándonos en una celda vacía (por ejemplo la correspondiente a la columna A y la fila 4, no tenemos por qué empezar arriba de todo), y vamos tecleando lo que queremos y dándole a ENTER para introducir los datos. En la Figura 3 vemos los datos introducidos. Si ahora queremos hacer un análisis estadístico descriptivo de estos datos, la opción “análisis de datos” debe estar activa. Es decir, en el menú principal, yendo al menú DATOS, debemos ver a la derecha la opción “Análisis de datos”. Si no lo vemos, debemos ir, a través del menú, a las opciones ARCHIVO-> OPCIONES-> COMPLEMENTOS. Abajo a la derecha aparece la opción de “Administrar Complementos de Excel” con una pestaña “Ir…”. Pinchamos en ella y marcamos la opción “Herramientas para análisis”, dándole posteriormente a ACEPTAR hasta volver a la hoja de cálculo (Figura 4). Figura 3

Figura 4

Ahora, simplemente con ir a DATOS->ANALISIS DE DATOS, podremos elegir la opción “Estadística Descriptiva” y luego seleccionar los datos (Figura 5). Pinchando con el ratón en Pag. 9

Estadística fácil con hoja de cálculo

Figura 5

donde indicamos con una flecha (“selección de datos”, Figura 5) nos aparece una ventana pequeña (Figura 6). Volvemos a pinchar con el ratón en el recuadro de la derecha, y volvemos a la hoja de datos, donde seleccionamos los datos que queremos analizar con el ratón (detalle de cómo hacerlo en Figura Figura 6 7).

Figura 7

Una vez seleccionados los datos, le damos a aceptar y nos salen los resultados (en este caso, en otra hoja) (Figura 8). Como vemos, muy sencillo. Obviamente, con solo mirar al menú ya nos damos cuenta de que existen miles y miles de cosas que podemos hacer (entre ellas poner bonitos los cuadros Pag. 10

Estadística fácil con hoja de cálculo de resultados para llevarlos a otro programa). Para tener idea de la cantidad de cosas que se pueden conseguir, lo mejor es mirar un manual de Excel o videos en la red.

Figura 8

USO DE LAS PLANTILLAS DE EXCEL La utilización de las plantillas es tan simple como abrir el fichero Excel (una plantilla es un fichero Excel), e introducir los datos (habitualmente he indicado con color azul las variables o datos de entrada, y en color amarillo los resultados). La hoja de cálculo rehace los cálculos que tiene implementados para obtener los resultados correspondientes. Nota: Los números con decimales hay que introducirlos con coma o punto para separar la parte decimal. Para saber cuál hay que usar, fijaos si los resultados llevan un símbolo u otro, y usad el mismo. Supongamos, por ejemplo, que nos interesa hacer cálculos o gráficas con la distribución exponencial. Abrimos la plantilla distribución-exponencial.xlsx y vemos que aparecen distintas gráficas y cálculos. Como parámetro de entrada, primero está, lógicamente, el valor de 𝜆𝜆. Si cambiamos el número que aparece, se recalculan el valor de la media y la varianza, y se dibujan de nuevo las funciones de densidad y distribución. Más abajo vemos que podemos calcular el área entre dos valores, a la derecha y a la izquierda de un valor, o calcular un cuantil dado un área (Figura 9). En amarillo aparecen la media y la varianza, lás probabilidades o los cuantiles. Básicamente, todas las plantillas funcionan de la misma forma. Por si acaso uno comete algún error escribiendo donde no debe, etc., y salen cosas incorrectas (o no sale nada), lo mejor es cerrar el fichero y volver a empezar. Recuérdese que si uno quiere guardar lo que haya hecho, debe ir al menú y guardar el archivo con un nombre diferente. A lo largo de los diferentes capítulos del libro, se irán describiendo las plantillas y el uso de las mismas. A continuación, dejamos un listado de las mismas y el capítulo al que pertenecen.

LISTADO DE PLANTILLAS

Pag. 11

Estadística fácil con hoja de cálculo

Figura 9

ESTADÍSTICA DESCRIPTIVA UNI Y BIDIMENSIONAL □ Resumen-medidas-estadisticas.xlsx. Calcula las medidas más típicas para una variable unidimensional: media aritmética, mediana, varianza, coeficiente de asimetría… □ Tabla-frecuencias.xlsx. Calcula las medidas más típicas para una variable unidimensional, pero agrupada en tabla de frecuencias. □ Barras-sectores.xlsx. Para una variable discreta o de atributos, realiza un diagrama de barras y un diagrama de sectores. □ Histograma.xlsx. Dibuja un histograma de una variable. □ Box-plot-2-variables.xlsx. Dibuja un diagrama de caja o box-plot de hasta dos variables. □ Línea-regresion.xlsx. Dibuja el diagrama de dispersión de dos variables, y calcula y dibuja la recta de regresión de 𝑌𝑌 sobre 𝑋𝑋. □ Tabla-doble-entrada.xlsx. Calcula las medidas estadísticas y las líneas de regresión para una variable bidimensional, cuando esta viene dada en formato de tabla de doble entrada. □ Tabla-contingencia.xlsx. Para una tabla de contingencia entre atributos, calcula algunas medidas de asociación, y realiza el test Chi-cuadrado de independencia.

VARIABLES ALEATORIAS Pag. 12

Estadística fácil con hoja de cálculo □ Momentos-variables-aleatorias-discretas.xlsx. Calcula la esperanza, desviación típica, varianza, coeficiente de variación, coeficiente de asimetría y de curtosis para una variable aleatoria discreta.

VARIABLES ALEATORIAS DISCRETAS DE INTERÉS □ Distribucion-binomial.xlsx. Calcula la esperanza y la varianza de una variable binomial. Muestra la función de masa de probabilidad y la función de distribución, y dibuja el gráfico de la primera de estas funciones. □ Distribucion-poisson.xlsx. Calcula la esperanza y la varianza de una variable de Poisson. Muestra la función de masa de probabilidad y la función de distribución, y dibuja el gráfico de la primera de estas funciones. □ Distribucion-binomial-negativa.xlsx. Calcula la esperanza y la varianza de una variable binomial negativa. Muestra la función de masa de probabilidad y la función de distribución, y dibuja el gráfico de la primera de estas funciones. □ Distribucion-hipergeometrica.xlsx. Calcula la esperanza y la varianza de una variable binomial. Muestra la función de masa de probabilidad y la función de distribución, y dibuja el gráfico de la primera de estas funciones. □ Tablas-distribuciones.xlsx. Para las variables discretas y continuas que se tratan en este libro, cálculo directo (sin gráficos) de probabilidades, función de densidad, distribución y cuantiles.

VARIABLES ALEATORIAS CONTINUAS DE INTERÉS □ Tablas-distribuciones.xlsx. Para las variables discretas y continuas que se tratan en este libro, cálculo directo (sin gráficos) de probabilidades, función de densidad, distribución y cuantiles. □ Normal-interactiva.xlsx. Permite ver, de forma interactiva (según movamos unos botones), como varia la campana de Gauss con respecto a una normal estandarizada, cuando cambiamos la media y/o la desviación típica. □ Normal-areas-barras-desplazamiento.xlsx. Permite ver, de forma interactiva, el cálculo de áreas y/o cuantiles en la distribución normal. □ Distribucion-normal.xlsx. Cálculo de áreas y cuantiles de la distribución normal. Gráficas asociadas. □ Distribucion-t-student.xlsx. Cálculo de áreas y cuantiles de la distribución t de Student. Gráficas asociadas. □ Distribucion-chi-cuadrado.xlsx. Cálculo de áreas y cuantiles de la distribución Chi-cuadrado. Gráficas asociadas. □ Distribucion-F.xlsx. Cálculo de áreas y cuantiles de la distribución F de Fisher-Snedecor. Gráficas asociadas.

Pag. 13

Estadística fácil con hoja de cálculo INTERVALOS DE CONFIANZA □ IC-media-varianza.xlsx. Intervalos de confianza para la media y la varianza (desviación típica) de datos que siguen una distribución normal. Los datos pueden escribirse directamente, o bien dar las medidas resumidas (media muestral, desviación típica muestral…). Este último caso ocurre muchas veces en los problemas de los textos, con lo cual no podrían calcularse los intervalos con un paquete estadístico. Esto mismo es aplicable a todas las plantillas que siguen. □ IC-diferencia-medias.xlsx. Intervalos de confianza para la diferencia de medias de dos muestras. Los datos pueden escribirse directamente, o bien dar las medidas resumidas. También se calcula el intervalo de confianza para la proporción de varianzas. □ IC-proporciones.xlsx. Intervalos de confianza para una proporción, o para la diferencia de proporciones.

CONTRASTES DE HIPÓTESIS □ Test-media.xlsx. Contraste de hipótesis para la media de una distribución normal. Los datos pueden escribirse directamente, o bien dar las medidas resumidas. □ Test-varianza.xlsx. Contraste de hipótesis para la varianza (desviación típica) de una distribución normal. □ Test-proporcion.xlsx. Contraste de hipótesis para una proporción. □ Test-2-proporciones.xlsx. Contraste de hipótesis para la diferencia de proporciones. □ Tabla-contingencia.xlsx. Contraste Chi-cuadrado para independencia.

OTRAS PLANTILLAS Como hemos comentado, algunas de las plantillas que usamos son modificaciones de otras. Hay muchas plantillas en la página web del libro de Aczel y Sounderpandian (ver bibliografía). Otros sitios web donde conseguir plantillas relacionadas con estadística y probabilidad son planillaexcel.com y excelnegocios.com.

Pag. 14

Estadística fácil con hoja de cálculo

En su acepción más conocida, la estadística se utiliza para resumir la información de un conjunto de datos, sea del tipo que sea. Es por ello que escuchamos tan a menudo frases como “el 90 por ciento de los españoles (varones) asegura que compra la revista Interviú por los reportajes de política”, “el 90 por ciento de los españoles afirman tener un coeficiente intelectual mayor que la media” o “un porcentaje altísimo de encuestados no cree en las encuestas”. Sin embargo, el sentido científico de la palabra se refiere a la rama de las matemáticas que se utiliza para estudiar poblaciones a partir de muestras. Lo que hoy se conoce como Ciencía Estadística es el resultado de la unión de dos disciplinas, diferenciadas en sus orígenes, y que evolucionaron de forma independiente, hasta que se agruparon en el siglo XIX: la Estadística Descriptiva y el Cálculo de Probabilidades. La primera, que como su propio nombre indica estudia la descripción de datos, se remonta a la antigüedad y surge por el interés de los gobernantes por el conocimiento de los recursos disponibles. Habitualmente, los gobernantes suelen creerse dotados de naturaleza divina e inteligencia sobrehumana, aunque necesiten siempre del poder de los ejercitos para recaudar el dinero de sus súbditos. Actualmente lo disfrazan de democracia, pero el afán recaudatorio de los gobiernos nunca ha cesado ni cesará. Por otra parte, el cálculo de probabilidades fue introducido en la segunda mitad del siglo XVII, y su origen fue la afición de la nobleza francesa por los juegos de azar. Sus primeros pasos corresponden a la resolución por Blaise Pascal (1623-1662) y Pierre Fermat (1607-1665) de Pag. 15

Estadística fácil con hoja de cálculo algunos problemas formulados por el caballero de Méré (1607-1684), relacionados con los juegos de dados. La integración de ambas líneas de pensamiento (estadística y probabilidad) dio lugar a una ciencia que estudia cómo obtener conclusiones de la investigación empírica mediante el uso de modelos probabilistas. En los capítulos correspondientes ampliaremos algo más esta reseña histórica. ESTADÍSTICA DESCRIPTIVA Este capítulo tiene por finalidad la descripción de un conjunto de datos, sin considerar que éstos puedan pertenecer a un colectivo más amplio, y sin la intención de proyectar los resultados que se obtengan al colectivo global; objeto esto último de lo que se conoce como Inferencia Estadística. BREVE INTRODUCCIÓN HISTÓRICA Los orígenes históricos de la Estadística descriptiva se encuentran en los procesos de recogida de datos, censos y registros sistemáticos, en una suerte de aritmética estatal para asistir al gobernante 1, que necesitaba conocer la riqueza y el número de sus súbditos con fines raras veces honorables. Quien se crea que el ministerio de Hacienda es un invento reciente está muy equivocado. Los primeros registros de riqueza y población que se conocen se deben a los egipcios. Ramsés II, en el 1400 a.C., realizó el primer censo conocido de las tierras de Egipto. Posteriormente, desde el siglo III a.C., en las civilizaciones china y romana se llevaron a cabo censos e inventarios de posesiones. Como modelo, podemos mencionar la primera película galardonada con once Oscar: Ben-Hur. Al principio de la película, nos cuentan como los romanos, invasores de Judea, exigen que los judios vayan a empadronarse a su lugar de nacimiento, con el fin de hacer un censo y cobrarles impuestos. María y José acuden a su aldea para ello, y en el camino nace Jesús de Nazaret. En España, este interés nació con la preocupación de los Reyes Católicos por mejorar el estado de las “Cosas Públicas” (administración del reino), estableciéndose el primer censo del que se tiene referencia en 1482 2.

POBLACIÓN Y DATOS Entendemos genéricamente por población el conjunto sobre el cual recaen las observaciones (puede ser una población de personas, de monos, de libros, de radiadores… ), o de la cual tomamos datos. Si tomamos un subconjunto de elementos de la población decimos que hemos tomado una muestra. Los datos constituyen la materia prima de la Estadística, estableciéndose distintas clasificaciones en función de la forma de los mismos. Se obtienen datos al realizar cualquier tipo de prueba, experimento, observación...

VARIABLES Y ATRIBUTOS

Estadista. Se desconoce si en la mejora de las cosas públicas la reina Isabel incluía su estado físico, después de estar un año sin lavarse (prometió no hacerlo hasta que se conquistara Granada). 1

2

Pag. 16

Estadística fácil con hoja de cálculo Una primera clasificación del tipo de datos procede del hecho de que las observaciones sean de tipo cualitativo (indican una cualidad) o cuantitativo (miden una cantidad). En el primero de los casos se tiene un atributo, y en el segundo una variable. Para hacer referencia genéricamente a una variable o a un atributo se utiliza el término carácter. Como ejemplos de atributos tenemos el color del pelo, raza, idioma de un grupo de personas, y como variables su estatura, peso, dinero que lleven en el bolsillo, etc. Si es necesario operar con un atributo, se le asignará a cada una de sus clases un valor numérico, con lo que se transforma en una variable. Esta asignación se hará de forma que los resultados que se obtengan al final del estudio sean fácilmente interpretables. Por ejemplo, si hay 3 idiomas posibles (ingles, francés y español) podemos usar 1, 2 y 3. Las variables estadísticas suelen representarse con letras mayúsculas: 𝑋𝑋, 𝑌𝑌, 𝑍𝑍, 𝑇𝑇 …. VARIABLES DISCRETAS Y CONTINUAS

Si las observaciones corresponden a cantidades, las variables pueden distinguirse entre discretas y continuas. Se dice que una variable es discreta cuando no puede tomar ningún valor entre dos consecutivos, y que es continua cuando puede tomar cualquier valor dentro de un intervalo. Ejemplos de variable discreta: número de empleados de una fábrica; número de hijos; número de cuentas ocultas en Suiza. Ejemplos de variable continua: estatura; peso; temperaturas registradas en un observatorio; tiempo en recorrer una distancia en una carrera; contenido de alcohol en un cubalibre; estatura; tiempo dándole el coñazo a una tía en la discoteca. En la práctica, todas las variables son discretas debido a la limitación de los aparatos de medida. Pensemos en el ejemplo del peso: hasta hace unos años, cuando uno se subía a una báscula, lo máximo solían ser dos o tres decimales: 50 kilos, 350 gramos… Desde hace tiempo existen básculas digitales con mucha mayor precision, que ofrecen un número mayor de decimales. De manera general, consideraremos que una variable continua toma valores en un intervalo (por ejemplo: el peso de un grupo de personas varía entre 40 y 100 kilos), y un dato podrá ser cualquier número entre esos dos, con los decimales que se quiera.De la misma forma, por insignificante que parezca la diferencia entre la llegada de dos corredores olímpicos a una meta, hoy en día no se producen empates, puesto que el tiempo se puede calcular con la precisión que se desee. De manera general, las variables continuas se elegirán, desde un punto de vista teórico, con toda la precisión que deseemos (decimales), de manera que siempre podamos escribir un valor que esté entre cualesquiera otros dos.

Pag. 17

Estadística fácil con hoja de cálculo DISTRIBUCIONES DE FRECUENCIAS La organización de los datos constituye la primera etapa de su tratamiento, pues facilita los cálculos posteriores y evita posibles confusiones. Realmente, la organización de la información tiene una raíz histórica y, actualmente, con el desarrollo de los medios informáticos, tiene menos importancia desde un punto de vista aplicado. Cuando no existían ordenadores, o ni siquiera calculadoras, si se disponía de un conjunto de datos, era necesario dotarlos de alguna estructura que permitiera resumirlos y comprenderlos de una forma más o menos sencilla. La organización va a depender del número de observaciones distintas que se tengan y de las veces que se repitan cada una de ellas. En base a lo anterior, se pueden estructurar los datos de tres maneras distintas: Tipo I: Cuando se tiene un número pequeño de observaciones casi todas distintas, éstas se darán sin más. EJEMPLO 1 La variable 𝑿𝑿 que toma los valores 𝟐𝟐, 𝟑𝟑, 𝟓𝟓, 𝟕𝟕, 𝟕𝟕, 𝟖𝟖, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏. Tipo II: Cuando se tiene un gran número de observaciones, pero muy pocas distintas, se pueden organizar en una tabla de frecuencias, es decir, cada uno de los valores acompañado de la frecuencia (también llamada frecuencia absoluta ) con la que aparece. Este es el tipo de tabla que acompaña a una variable discreta. EJEMPLO 2 La siguiente tabla

Valor Frecuencia 2 4 4 4 5 3 6 2 7 3 8 3 9 1 indica que el valor 2 se repite 4 veces, el valor 4 se repite 4 veces, etc.... Este es el formato con que suele representarse también una variable cualitativa, como el equipo de fútbol preferido por 10 personas de un bar: Equipo Real Madrid Alcorcón SuperDepor Celta

Frecuencia 2 1 6 1

Tipo III (variables continuas) En el caso de que haya muchas observaciones, la mayoría de ellas distintas, pueden disponerse agrupándolas en intervalos, e indicando el número de observaciones que caen dentro de cada intervalo. Este es el tipo de representación que corresponde a las variables continuas. Pag. 18

Estadística fácil con hoja de cálculo Para ello se elige un número 𝑎𝑎0 ≤ min(𝑋𝑋), y otro 𝑎𝑎𝑘𝑘 ≥ max(𝑋𝑋), y se divide el intervalo 𝑎𝑎0 − 𝑎𝑎𝑘𝑘 en 𝑘𝑘 intervalos (generalmente de igual longitud).

EJEMPLO 3 Supongamos que tenemos los datos de una variable 𝑿𝑿: 𝟐𝟐, 𝟑𝟑, 𝟒𝟒, 𝟒𝟒. 𝟓𝟓, 𝟒𝟒. 𝟓𝟓, 𝟓𝟓. 𝟔𝟔, 𝟓𝟓. 𝟕𝟕, 𝟓𝟓. 𝟖𝟖, 𝟔𝟔, 𝟔𝟔. 𝟏𝟏, 𝟔𝟔. 𝟓𝟓, 𝟕𝟕, 𝟕𝟕, 𝟕𝟕 , 𝟕𝟕. 𝟓𝟓, 𝟕𝟕. 𝟓𝟓, 𝟕𝟕. 𝟓𝟓, 𝟖𝟖. 𝟑𝟑, 𝟗𝟗, 𝟏𝟏𝟏𝟏. 𝟐𝟐, 𝟏𝟏𝟏𝟏. 𝟒𝟒, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏. 𝟏𝟏, 𝟏𝟏𝟏𝟏. 𝟓𝟓, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏 Una posible representación en intervalos es la siguiente: Intervalo Frecuencia [𝟐𝟐, 𝟒𝟒] 3 (𝟒𝟒, 𝟔𝟔]

6

(𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏]

6

(𝟔𝟔, 𝟖𝟖]

8

(𝟖𝟖, 𝟏𝟏𝟏𝟏]

2

(𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏]

1

Esta clasificación nos dice que en el intervalo [2,4] hay 3 observaciones, que en el (4,6] hay 6, etc... El indicar los intervalos de la forma (𝑎𝑎, 𝑏𝑏] indica que el dato 𝑎𝑎 no se cuenta en este intervalo, y sí se cuenta el dato 𝑏𝑏. En el primer caso hemos escrito [2,4] porque no hay más datos a la izquierda de 2. En cualquiera de los tres casos o tipos se tiene una distribución de frecuencias. A la variable que representa a la distribución se le llama genéricamente 𝑋𝑋; a cada uno de los valores que toma la variable se le denota por 𝑥𝑥𝑖𝑖 , y a la frecuencia con que se repite dicho valor por 𝑛𝑛𝑖𝑖 (frecuencia absoluta). Para evitar confusiones, puede ser aconsejable ordenar los valores de la variable de menor a mayor. Los valores ordenados de una distribución se representan, en ocasiones, con los subíndices entre paréntesis: 𝑥𝑥(1) , 𝑥𝑥(2) , ⋯ , 𝑥𝑥(𝑛𝑛) , donde 𝑥𝑥(i) < 𝑥𝑥(i+1). Para efectuar cálculos, sea cuál sea el tipo de distribución, se disponen los datos en forma de tabla (tabla de frecuencias): 𝒙𝒙𝒊𝒊

𝒙𝒙(𝟏𝟏) 𝒙𝒙(𝟐𝟐) 𝒙𝒙(𝟑𝟑) ⋮

𝒙𝒙(𝒓𝒓)

𝒏𝒏𝒊𝒊

𝑛𝑛1

𝑛𝑛2

𝑵𝑵𝒊𝒊

𝑁𝑁1 = 𝑛𝑛1

𝑁𝑁2 = 𝑛𝑛1 + 𝑛𝑛2

𝑛𝑛3

𝑁𝑁3 = 𝑛𝑛1 + 𝑛𝑛2 + 𝑛𝑛3

𝑛𝑛𝑟𝑟

𝑁𝑁𝑟𝑟 = 𝑛𝑛





𝒇𝒇𝒊𝒊 𝑛𝑛 𝑓𝑓1 = 1�𝑛𝑛 𝑛𝑛 𝑓𝑓1 = 2�𝑛𝑛 𝑛𝑛 𝑓𝑓1 = 3�𝑛𝑛

⋮ 𝑛𝑛 𝑓𝑓1 = 𝑟𝑟�𝑛𝑛

𝑭𝑭𝒊𝒊

𝐹𝐹1 = 𝑓𝑓1

𝐹𝐹2 = 𝑓𝑓1 + 𝑓𝑓2

𝐹𝐹3 = 𝑓𝑓1 + 𝑓𝑓2 + 𝑓𝑓3 𝐹𝐹𝑟𝑟 = 1

donde: • 𝑛𝑛 representa al número total de observaciones, y será igual a la suma ∑𝑟𝑟𝑖𝑖=1 𝑛𝑛𝑖𝑖 . 3 2F

3

La letra griega ∑ (sigma mayúscula) representa suma. ∑𝑟𝑟𝑖𝑖=1 𝑛𝑛𝑖𝑖 representa sumar todos los

Pag. 19

Estadística fácil con hoja de cálculo 𝑛𝑛

• 𝑓𝑓𝑖𝑖 es la frecuencia relativa, definida como 𝑛𝑛𝑖𝑖. Muchas veces se multiplica por 100 para indicar que es el tanto por ciento o porcentaje de veces que aparece el valor 𝑥𝑥𝑖𝑖 correspondiente. • 𝑁𝑁𝑖𝑖 es la frecuencia absoluta acumulada, que se obtiene como ∑𝑖𝑖𝑗𝑗=1 𝑛𝑛𝑗𝑗 . • 𝐹𝐹𝑖𝑖 es la frecuencia relativa acumulada, que viene dada por ∑𝑖𝑖𝑗𝑗=1 𝑓𝑓𝑗𝑗 . En la primera tabla del Ejemplo 2 tendríamos Valor (𝒙𝒙𝒊𝒊 ) 𝒏𝒏𝒊𝒊 2 4 4

4

7

3

5 6 8 9

3 2 3 1

𝒇𝒇𝒊𝒊 𝑭𝑭𝒊𝒊 4� = 0.2 (20%) 0.2 (20%) 20 4� = 0.2 (20%) 0.4 (40%) 8 20 3� = 0.15 (15%) 0.55 (55%) 11 20 2� = 0.1 (10%) 0.65 (65%) 13 20 3� = 0.15 (15%) 0.8 (80%) 16 20 3� = 0.15 (15%) 0.95 (95%) 19 20 1 (100%) 𝑛𝑛 = 20 1� = 0.05 (5%) 20 𝑵𝑵𝒊𝒊 4

Obsérvese que si la distribución es de tipo I, la tabla prácticamente no aporta información. Si la distribución es de tipo III, los valores xi corresponderán a las llamadas marcas de clase o puntos medios de los intervalos 4. tervalo

In

(𝒂𝒂𝒊𝒊−𝟏𝟏 , 𝒂𝒂𝒊𝒊 ]

clase

𝑥𝑥𝑖𝑖 =

Marca de

𝑎𝑎𝑖𝑖 + 𝑎𝑎𝑖𝑖+1 2

ecuencia absoluta

𝑛𝑛𝑖𝑖

Fr

Frec uencia absoluta acumulada

𝑁𝑁𝑖𝑖

ecuencia relativa

Fr

𝑓𝑓𝑖𝑖

Frecuencia relativa acumulada

𝑁𝑁𝑖𝑖

REPRESENTACIONES GRÁFICAS En función de la naturaleza de los datos y de la forma en que éstos se presenten, existen distintos tipos de representaciones. Ahora mostramos algunas de las más utilizadas. PICTOGRAMA Consiste en indicar el tamaño de cada categoría o atributo mediante un dibujo, tanto más grande a medida que la categoría se repite en más ocasiones 5, o bien con el mismo dibujo repetido un número mayor de veces. índices desde el 1 hasta el 𝑟𝑟: 𝑛𝑛1 + 𝑛𝑛2 + ⋯ + 𝑛𝑛𝑟𝑟 . 𝑎𝑎 +𝑎𝑎 4 Dado el intervalo (𝑎𝑎𝑖𝑖 , 𝑎𝑎𝑖𝑖+1 ], la marca de clase viene dada por 𝑥𝑥𝑖𝑖 = 𝑖𝑖 𝑖𝑖+1 5

2

En el año 1994 se creó la primera unidad de corrupción universal, que fue el Roldán (por Luis Roldán, primer director general de la guardia civil no militar, en el gobierno de Felipe González). Empezando por colarles un currículum falso a los de su partido, robó todo cuanto pudo y más aprovechando su posición: de los fondos

Pag. 20

Estadística fácil con hoja de cálculo

Suponemos que todo el mundo entiende lo que significa el gráfico. Este tipo de representación no suele aparecer en los programas estadísticos. Aunque, por ejemplo, el Excel tiene algún monigote implementado para hacerlos. Sin embargo, en función de los gustos de cada uno, lo mejor es usar un programa que maneje gráficos.

CARTOGRAMA Consiste en representar los datos o cifras sobre un mapa, para hacer comparaciones, como en el gráfico siguiente, donde comprobamos que España está, como siempre a la cabeza (Observatorio europeo del consumo de drogas, informe del 2014).

reservados, comisiones por constructoras de cuarteles, e incluso de la caja para huérfanos de la guardia civil. Su fuga y posterior aparición en Tailandia fue digna de las mejoras películas de Alfredo Landa. La revista Interviú consiguió fotos de él con calzoncillos del ratón Mickey en una fiesta con mujeres de dudosa reputación. A día de hoy no ha devuelto un euro. Curioso que también se llame Luis. Posteriormente se han hecho revisiones y se han definido medidas intermedias, como el gil, el julián-muñoz, los pequeños-nicolases 8habituales en trapicheos menores), etc. La conversión es 1 𝑏𝑏á𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 ≅ 2 𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟á𝑛𝑛

Pag. 21

Estadística fácil con hoja de cálculo

DIAGRAMA DE BARRAS Para representar una distribución del tipo II o una variable discreta, se suele utilizar un diagrama de barras, levantando sobre cada valor de la variable una barra, tanto más grande cuanto mayor es la frecuencia absoluta de la clase o valor correspondiente. Este tipo de diagramas se usa también para representar la frecuencia en el caso de atributos.

DIAGRAMA DE SECTORES (TARTA) Es equivalente al diagrama de barras, particionando un círculo o “tarta” en sectores proporcionales a la frecuencia de cada valor o atributo.

Tanto el diagrama de barras como el de sectores pueden realizarse por medio de la plantilla barras-sectores.xlsx, sin más que escribir los valores (cualitativos o cuantitativos) y las frecuencias (absolutas o relativas). Eso sí, debe tenerse en cuenta que, para una correcta representación del diagrama de sectores, las proporciones deberán sumar 100. En todo caso, hacer un diagrama de este tipo con Excel es muy fácil, incluso sin disponer de la plantilla. No hay más que llenar dos columnas con los datos: la primera con la variable y la segunda con las frecuencias. Se señalan con el botón izquierdo del ratón las dos columnas, y se

Pag. 22

Estadística fácil con hoja de cálculo va al menú: Insertar Gráfico de Columna agrupada, o Gráfico de Sectores. Lo vemos en la Figura 10.

Figura 10

HISTOGRAMA Si se dispone de una variable continua, la representación gráfica más utilizada es la que se conoce como histograma. La realización de un histograma de frecuencias (absoluta o relativa) consiste en clasificar los datos en intervalos, de la forma vista en lo que hemos denominado tipo III. Una vez que se tienen los intervalos, sobre cada uno de ellos se levanta un rectángulo de área o altura la frecuencia (absoluta o relativa).

Figura 11

En cualquier histograma, si todos los intervalos tienen la misma longitud, es equivalente considerar que la frecuencia es el área o la altura de un rectángulo, puesto que el dibujo es el Pag. 23

Estadística fácil con hoja de cálculo mismo, pero realizado en diferente escala. Lo que representa gráficamente el histograma es la concentración de los datos, o como se reparten los mismos a lo largo de los valores de la variable. Cuántos más datos hay en un intervalo, más alto será el rectángulo correspondiente (Figura 11). Antes hemos dicho que la clasificación de una variable en intervalos se realiza, generalmente, con intervalos de la misma longitud. Si los intervalos son de diferente longitud, la representación geométrica podría dar lugar a confusión, y por ello no suele utilizarse. Mención aparte merece la consideración del número de intervalos. El aspecto de un histograma (y por tanto el de la distribución de los datos) puede cambiar mucho dependiendo del número de intervalos que se utilice. Los programas estadísticos suelen utilizar alguna fórmula que depende del número 𝒏𝒏 de datos. Por ejemplo, por defecto, el software R utiliza la llamada fórmula de Sturges: 𝐥𝐥𝐥𝐥𝐥𝐥 𝟐𝟐 (𝒏𝒏) + 𝟏𝟏. Otros utilizan √𝒏𝒏. (este es el que usamos en la plantilla histograma.xlsx). EJEMPLO 4 En la imagen de la Ilustración 1 podemos observar el sueldo de los 30 ejecutivos mejor pagados en España durante 2013 (Fuente: El país, 09/05/2014).

Ilustración 1

Debido a que, según muchos ministros, la economía actual está liderando la economia europea, la crisis ha terminado, la gente es más feliz y llueve vino de rioja (además de que las palomas ya no hacen guarrerías que están enseñadas), vamos a suponer que el sueldo medio actual teórico es, más o menos, el medio entre estas 30 personas “cualesquiera”, es decir, 4.75 (millones de euros anuales). Vamos a realizar un histograma de frecuencias, para saber como andará nuestro sueldo cuando nos ofrezcan un trabajo de reponedor en cualquier superficie comercial de barrio.

Pag. 24

Estadística fácil con hoja de cálculo Abrimos la plantilla histograma.xlsx. Los datos se introducen en la columna “Datos” de color azul, acordándose de borrar los datos que sobren (si los hay de la vez anterior). La plantilla nos calcula el máximo, el mínimo y el número de datos. A partir del número de datos nos calcula la raíz cuadrada para ofrecernos una idea del número de intervalos, y del ancho de los mismos (Figura 12). A partir de estos datos, debemos cubrir las casillas de color verde bajo el histograma, indicando el mínimo 𝑎𝑎0 , el máximo 𝑎𝑎𝑘𝑘 y el ancho de los intervalos. En este caso hemos puesto 2, 8 y 1, respectivamente. La plantilla nos dibuja el histograma y realiza la clasificación por intervalos (Figura 13), indicándonos las frecuencias absolutas y relativas Figura 12 dentro de cada uno.

Figura 13

Suele resultar interesante comparar varios gráficos cambiando el número de intervalos para una serie de datos concreta. En la Figura 15 dibujamos la misma variable del Ejemplo 4, primero con un número grande de intervalos, y después con un número pequeño. Usando también en la comparación la Figura 13, puede apreciarse como, a medida que el número de intervalos aumenta (o lo que es lo mismo, el ancho de los intervalos disminuye) aumenta la variabilidad de la gráfica, resultando cada vez en una gráfica menos homogénea, y que puede distorsionar la información gráfica que proporcionan los datos.

Pag. 25

Estadística fácil con hoja de cálculo POLÍGONO DE FRECUENCIAS Consiste en unir los puntos medios de los rectángulos superiores en un histograma. Veamos el resultado, con los datos que estamos utilizando, en la Figura 14 (realizada con la misma plantilla histograma.xlsx).

Figura 15

Figura 14

El polígono, como vemos, parte del eje 𝑋𝑋 y regresa al eje 𝑋𝑋, simplemente marcando como origen y final una distancia de los extremos igual a la longitud de un intervalo dividida entre 2. Estas dos líneas finales, además de darle una mayor vistosidad al gráfico (lo estético no está reñido con la estadística), tiene un significado matemático que explicamos a continuación.

ÁREA BAJO EL HISTOGRAMA DE FRECUENCIAS.

Pag. 26

Estadística fácil con hoja de cálculo Pensemos en un histograma donde hemos considerado como área de cada rectángulo la frecuencia absoluta (número de datos) del intervalo correspondiente. El área encerrada entre el histograma y el eje horizontal sera 𝑛𝑛, número total de datos (simplemente sumamos el área de todos los rectángulos). Si en vez de utilizar la frecuencia absoluta usamos la relativa, el área de cada rectángulo será el porcentaje de datos que hay en el mismo. El área encerrada entonces por todo el histograma y el eje horizontal será igual a 1 (es el cien por cien de los datos). Análogamente, puede comprobarse que el área encerrada entre el polígono de frecuencias y el eje horizontal también vale 1 (sólo hay que pensar que, en el polígono de frecuencias, a cada rectángulo le restamos y sumamos el área de dos triángulos, que se van compensando a lo largo de la figura). El área total de valor uno es un hecho muy relevante a la hora de introducir, en el capítulo de variables aleatorias, el concepto de función de densidad.

Figura 16

Terminamos viendo un polígono de frecuencias de un caso real, pero donde la realidad brilla por su ausencia. Es un ejemplo claro de manipulación, pues no hay más que fijarse que el último dato del número de parados (4.442.711) es superior a uno anterior (4.100.073), pero en el gráfico hasta parece más bajo (caso verídico que salió en TVE-1, en enero 2015).

Pag. 27

Estadística fácil con hoja de cálculo A la derecha, John M. Keynes, quien decía en su carta a E. Rorhbath (29-XI-1939): "Cuando las estadísticas no tienen sentido, en general me parece más sabio preferir el sentido a las estadísticas". Como vemos, existen los troles fuera de forocoches (me refiero al periodista de TVE, no a Keynes).

MEDIDAS CARACTERÍSTICAS DE UNA VARIABLE Una vez organizados los datos en su correspondiente distribución de frecuencias, procedemos a definir una serie de medidas que resuman, de la mejor forma posible, la información existente en los mismos y que, “de alguna manera”, representen a la distribución en su conjunto. El interés consiste en dar un número reducido de valores que caracterizen bien, o lo mejor posible, el conjunto de datos, por grande que este sea. Hay tres tipos fundamentales: medidas de posición, medidas de dispersión y medidas de forma. MEDIDAS DE POSICIÓN O DE TENDENCIA CENTRAL De alguna manera, estas medidas “centralizan” la información, y por ello se llaman de tendencia central o promedios. Con ellas, se pretende también facilitar la comparación entre distintas variables. Nota: A partir de ahora trabajaremos con una variable 𝑿𝑿, con valores 𝒙𝒙𝟏𝟏 , . . . , 𝒙𝒙𝒏𝒏 , ordenados de menor a mayor, que pueden repetirse o no, y así incluimos todos los casos descritos. LA MEDIA La media es una medida de representación o de tendencia central que debe cumplir tres requisitos: 1. Para su obtención deben utilizarse todas las observaciones. 2. Debe ser un valor comprendido entre el menor y el mayor de los valores de la distribución. 3. Debe venir expresada en las mismas unidades que los datos (si 𝑋𝑋 representa kilos, la media también). Entre todas las funciones que verifican estas tres propiedades destaca la media aritmética, a partir de ahora simplemente media, que se define de la siguiente manera: 𝑥𝑥1 + 𝑥𝑥2 +. . . +𝑥𝑥𝑛𝑛 𝑥𝑥̅ = . 𝑛𝑛 EJEMPLO 5 La nota media de los exámenes de una asignatura, el tiempo medio de realización de los mismos, la estatura media, la ganancia media en comisiones ilegales, etc. La Media recortada a un nivel α es la media aritmética pero calculada quitando el α por ciento de los datos inferiores y superiores.

Pag. 28

Estadística fácil con hoja de cálculo Otra media que tiene interés práctico es la media ponderada. Consiste en asignar a cada valor 𝑥𝑥𝑖𝑖 un peso 𝑤𝑤𝑖𝑖 que depende de la importancia relativa de dicho valor, bajo algún criterio. Su expresión responde a: 𝑥𝑥1 ⋅ 𝑤𝑤1 + 𝑥𝑥2 ⋅ 𝑤𝑤2 +. . . +𝑥𝑥𝑛𝑛 ⋅ 𝑤𝑤𝑛𝑛 𝑥𝑥̅𝑝𝑝 = . 𝑤𝑤1 + 𝑤𝑤2 +. . . +𝑤𝑤𝑛𝑛 EJEMPLO 6 Para ganar una plaza de funcionario en una diputación, un aspirante debe ser evaluado en distintas pruebas: conocimientos, pertenencia al partido gobernante y aptitudes para el peloteo, cada una de ellas ponderada según su importancia o contribución en la nota final. Así, los pesos de cada apartado serán del 𝟑𝟑𝟑𝟑, 𝟓𝟓𝟓𝟓 y 𝟐𝟐𝟐𝟐 por ciento, respectivamente. Sabiendo que las notas obtenidas por un aspirante en cada prueba son 7, 3 y 5 respectivamente, ¿cuál es la nota global en la oposición? SOLUCIÓN. La media aritmética de las calificaciones, ponderada por los pesos de cada prueba, es 7 ⋅ 0.3 + 3 ⋅ 0.5 + 5 ⋅ 0.2 = 4.6 𝑥𝑥̅𝑝𝑝 = 0.3 + 0.5 + 0.2

Con el mismo esquema también se puede definir la media geométrica como: 𝑥𝑥̅𝑔𝑔 = 𝑟𝑟�𝑥𝑥1 ⋅ 𝑥𝑥2 ⋅ … ⋅ 𝑥𝑥𝑟𝑟 , que suele utilizarse, fundamentalmente, en economía (generalmente para promediar porcentajes).

EJEMPLO 7 En los 3 últimos años, el precio de cierto producto de primera necesidad ha subido un 𝟏𝟏𝟏𝟏%, un 𝟏𝟏𝟏𝟏% y un 𝟑𝟑𝟑𝟑%. ¿Cuánto ha subido en promedio? SOLUCIÓN. Nos referimos a qué mismo porcentaje tendría que haber subido cada año para obtener, al cabo de los tres años, el mismo valor que con estas subidas desiguales. Para obtener el precio del primer año (tras una subida del 10%), tenemos que multiplicar por 1.1 el precio inicial (𝑃𝑃 + 𝑃𝑃 × 10/100 = 𝑃𝑃 + 0.1 ∙ 𝑃𝑃 = 1.1 ∙ 𝑃𝑃). Al precio así obtenido tenemos que multiplicarlo por 1.18 (subida del 18%) para obtener el precio tras el segundo año. Y este último valor hemos de multiplicarlo por 1.30 (subida del 30%) para obtener el precio final. Entonces, si el precio inicial es P, el resultado final será: 𝑃𝑃 × 1.1 × 1.18 × 1.30 = 1.6874 ∙ 𝑃𝑃 Sin embargo, si consideramos la media aritmética de 10%, 18% y 30%, obtenemos un porcentaje del 19.33% (o multiplicar por 1.1933), pero si aplicamos esa subida del 19.33% cada año, el resultado que obtenemos será: 𝑃𝑃 × 1.1933 × 1.1933 × 1.1933 = 1.6992 ∙ 𝑃𝑃. En cambio, si calculamos la media geométrica de los tres porcentajes: 3 √1.1 ⋅ 1.18 ⋅ 1.3 = 1.1905. Podemos comprobar que 𝑃𝑃 × 1.1905 × 1.1905 × 1.1905 = 1.6873 ∙ 𝑃𝑃, con lo que el porcentaje promedio es la media geométrica de los porcentajes. Otra media es la llamada media armónica, que se define como 𝑛𝑛 𝑥𝑥̅𝑎𝑎 = . 1 1 1 + +. . . + 𝑥𝑥1 𝑥𝑥2 𝑥𝑥𝑛𝑛 EJEMPLO 8

Pag. 29

Estadística fácil con hoja de cálculo Un coche efectúa un recorrido de 100 km en dos sentidos. En un sentido a velocidad constante 60 km/h, y en el otro a velocidad constante 70 km/h. Calcular la velocidad media del recorrido total. SOLUCIÓN. La velocidad es el espacio entre el tiempo: 2𝑒𝑒 2 ⋅ 𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟𝑟 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 = . 𝑣𝑣 = 𝑡𝑡1 + 𝑡𝑡2 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 Como el tiempo que tardó en el primer sentido es 𝑡𝑡1 = 𝑒𝑒/𝑣𝑣1 = 𝑒𝑒/60, y el tiempo que tardó en el segundo sentido es 𝑡𝑡2 = 𝑒𝑒/𝑣𝑣2 = 𝑒𝑒/70, tenemos que 2 2𝑒𝑒 , 𝑣𝑣 = 𝑒𝑒 𝑒𝑒 = 1 1 + 70 + 60 60 70 que es la media armónica de las dos velocidades. Nota: La primera vez que se ve este resultado, suele resultar extraño que la media de dos velocidades no sea la velocidad media aritmética. De hecho, el valor que se obtiene calculando la media armónica de una serie de valores es siempre menor o igual que la media aritmética de los mismos. Básicamente, la media armónica se calcula para datos que vienen medidos en proporciones (km por hora, kilos por metro cuadrado, etc.).

CARACTERÍSTICAS DE LA MEDIA ARITMÉTICA Se analizan a continuación una serie de propiedades de la media (aritmética). 1. Si a cada observación de una variable 𝑿𝑿 se le suma una constante 𝒌𝒌, se tiene una nueva variable 𝒀𝒀 = 𝑿𝑿 + 𝒌𝒌 con media igual a la de 𝑿𝑿 más la constante 𝒌𝒌. (Figura 17)

2. Si se multiplica una variable 𝑿𝑿 por una constante 𝒌𝒌, la variable resultante 𝒀𝒀 = 𝒌𝒌𝒌𝒌 tendrá media igual a 𝒌𝒌 por la media de 𝑿𝑿.

Figura 17

Estas dos propiedades se pueden resumir en la siguiente: 𝑌𝑌 = 𝑎𝑎𝑎𝑎 + 𝑏𝑏 ⇒ 𝑦𝑦� = a𝑥𝑥̅ + 𝑏𝑏

EJEMPLO 9 � = 𝟐𝟐. Sea 𝑿𝑿 = 𝟏𝟏, 𝟐𝟐, 𝟑𝟑. 𝒙𝒙 Si le sumamos 𝟏𝟏𝟏𝟏 a 𝑿𝑿, tendremos 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏; la media es 𝟐𝟐 + 𝟏𝟏𝟏𝟏. Si multiplicamos 𝑿𝑿 por 4, tendremos los valores 𝟒𝟒, 𝟖𝟖, 𝟏𝟏𝟏𝟏, y la media es 𝟒𝟒 ⋅ 𝟐𝟐. Pag. 30

Estadística fácil con hoja de cálculo

3. La media aritmética se ve muy alterada por valores extremos de la variable. Supongamos, por ejemplo, que una variable toma los valores 𝑋𝑋 = 1,4,12. Su media es 𝑥𝑥̅ = 5.66. Si añadimos un nuevo valor, por ejemplo 100, ahora la media es 𝑥𝑥̅ = 29.25. Es decir, valores grandes de 𝑋𝑋 desplazan la media hacia la derecha. Lo mismo ocurre con valores pequeños de 𝑋𝑋, que desplazan la media hacia la izquierda.

En realidad, la media aritmética representa el centro de gravedad de la distribución de los datos (Figura 18). Si los datos son pesos, la media aritmética deja igual peso a un lado que al otro, por eso se desplazaría hacia los lados con valores extremos.

Figura 18

LA MEDIANA La mediana es un valor que, previa ordenación, deja la mitad de las observaciones a su izquierda y la otra mitad a su derecha. Es decir, el 50% de los datos son menores o iguales que la mediana, y el otro 50% mayores o iguales a ésta. Para su cálculo, y suponiendo que los valores están ordenados, se procede de la siguiente manera: • si hay un número impar de datos, la mediana es el elemento que se encuentra en el centro, es decir 𝑥𝑥�𝑛𝑛+1� . •

2

Si el número de datos fuera par habría dos elementos centrales, y la mediana se obtendría como la media de ambos, es decir: 𝑥𝑥�𝑛𝑛� + 𝑥𝑥�𝑛𝑛+1� 2 𝑀𝑀𝑀𝑀 = 2 . 2

EJEMPLO 10 Sea 𝑿𝑿 la variable que toma los valores 𝟏𝟏, 𝟐𝟐, 𝟑𝟑, 𝟒𝟒, 𝟓𝟓 (hay 𝒏𝒏 = 𝟓𝟓 datos). La mediana es 𝑴𝑴𝑴𝑴 = 𝒙𝒙�𝟓𝟓+𝟏𝟏� = 𝒙𝒙(𝟑𝟑) = 𝟑𝟑 (deja 2 valores a la izquierda y 2 a la derecha). 𝟐𝟐

Pag. 31

Estadística fácil con hoja de cálculo Si 𝑿𝑿 toma los valores 𝟏𝟏, 𝟐𝟐, 𝟐𝟐, 𝟑𝟑, 𝟒𝟒, 𝟓𝟓, ahora hay un número par de valores. En el medio tenemos los valores 𝒙𝒙�𝒏𝒏� = 𝒙𝒙(𝟑𝟑) = 𝟐𝟐 y 𝒙𝒙(𝟒𝟒) = 𝟑𝟑. La mediana es 𝑴𝑴𝑴𝑴 = (𝟐𝟐 + 𝟑𝟑)/𝟐𝟐 = 𝟐𝟐. 𝟓𝟓. 𝟐𝟐

EJEMPLO 11 Sea 𝑿𝑿 la variable que toma los valores 16,19,7,8,7,2,5,3,11,14. Calcular la mediana. SOLUCIÓN. Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. Como 𝑛𝑛 = 10 es un número par, la mediana será 𝑥𝑥�𝑛𝑛� + 𝑥𝑥�𝑛𝑛+1� 𝑥𝑥 + 𝑥𝑥 7+8 (5) (5+1) 2 𝑀𝑀𝑀𝑀 = 2 = = = 7.5. 2 2 2 Nota: Como todo en esta vida, conviene saber cómo se hacen las cosas, pero también está claro que si alguien nos las hace, mucho mejor. Si tenemos pocos datos, los cálculos son sencillos, pero se complican si hay muchos datos. Con cualquier programa de ordenador o página web no habrá más que dar la orden adecuada, con lo que tenemos que preocuparnos mucho más de saber el significado de la medida, que saber calcularla.

COMPARACIÓN ENTRE LA MEDIA ARITMÉTICA Y LA MEDIANA. La mediana se llama así porque está “en el medio”, mientras la media aritmética es el “valor medio”. Cuando un padre con tres hijas habla de ellas, se refiere a la mayor, la mediana y la pequeña. Si sus edades son, por ejemplo, 18, 15 y 3, obviamente la del medio no tiene como edad la media aritmética de las edades. Y esta hija siempre será la mediana, aunque pase el tiempo y los valores de sus edades vayan cambiando. La media aritmética supone una medida central de la variable que tiene en cuenta los valores de la misma. La mediana, en cambio, tiene en cuenta el número de datos. En el ejemplo 3, cuando 𝑋𝑋 = 1,4,12,100 frente a 𝑋𝑋 = 1,4,12, la media pasó de ser 5.66 a ser 29.25. La mediana, en cambio, si 𝑋𝑋 = 1,4,12, será 𝑀𝑀𝑀𝑀 = 4 y si 𝑋𝑋 = 1,4,12,100 será 𝑀𝑀𝑀𝑀 = (4 + 12)/2 = 8. Como vemos, la mediana es una medida “más robusta” (se ve poco afectada) frente a valores extremos de la variable. Ahora, si en vez del dato 100, lo cambiamos a 10000, la media es 2504.25 y la mediana sigue siendo 8.

Ilustración 2

Pag. 32

Estadística fácil con hoja de cálculo Vamos a ver un ejemplo de película. Hablamos de “Blancanieves y la leyenda del cazador (2012)”, en la cual no respetan demasiado el cuento, y, como vemos en la Ilustración 2, salen 8 enanos en vez de 7 (parece ser que el octavo es el padre de los otros). Consideremos que todos los enanitos miden 1 metro. La mediana de los 8 datos sería 1 m. Si añadimos a Blancanieves al grupo (1.65 m), la mediana sigue siendo 1. Si añadimos a la madrastra, sigue siendo 1. Y aún añadiendo al cazador, que es un dato bastante separado de los otros (1.92), tenemos en el conjunto total 11 datos. Por lo tanto, la mediana ocupará el lugar sexto (deja 5 datos a cada lado), y sigue siendo 1. Esta propiedad que verifica la mediana, de no dejarse afectar por datos extremos, se llama robustez. A la hora de hablar, por ejemplo, del sueldo promedio o renta “media” de un país, resulta evidente que debería indicarse la medida que se utiliza. Así, un sueldo medio dado por la mediana sería aquel tal que el 50 por ciento de la población tendría sueldo más bajo que la mediana, y el otro 50 por ciento un sueldo más alto que la mediana. En cambio, el sueldo “media aritmética” es el valor correspondiente a sumar todos los sueldos y dividir por el número de personas. Si existe poca gente con sueldos muy altos, el sueldo media aritmética puede ser alto, pero no será representativo del conjunto total de la población. Es otro ejemplo de la robustez de la mediana frente a la “no robustez” de la media aritmética. Si hay un porcentaje de personas no muy grande con sueldo muy elevado, provoca que la media aritmética sea también elevada.

Ilustración 3: Histograma de los salario en España en 2013 (datos del INE)

Blancanieves intentando enseñar la diferencia entre media y mediana a un político

Pag. 33

Estadística fácil con hoja de cálculo

LA MODA La moda (absoluta) de una distribución es el valor que más veces se repite (el valor con mayor frecuencia o más frecuente). Además de la moda absoluta, aquellos valores que tengan frecuencia mayor a la de los valores adyacentes serán modas relativas. Por ejemplo, si tenemos la variable 𝑋𝑋 que toma los valores 2,3,3,4,6,7,7,7,10, la moda absoluta es 7, puesto que es el valor que se repite más veces. Además, el valor 3 es una moda relativa, puesto que su frecuencia es 2, superior a la de los valores 2 y 4 (ambas iguales a 1). En la Figura 19 introducimos ahora la moda en el ejemplo de la Ilustración 1, sobre el salario bruto anual en España (2013). El salario más frecuente, o salario moda, fue todavía más bajo que el salario mediana. De nuevo hay que incidir en que, cuando se habla del salario medio, debe precisarse qué medida estadística se está utilizando. Quizá la medida más representativa en este caso es la moda, incluso preferible frente a la mediana.

Figura 19

Estas chicas han coincido así en la cafetería, no es cuestión de moda, aunque os lo parezca

Pag. 34

Estadística fácil con hoja de cálculo

Si las observaciones vienen agrupadas en intervalos, se hablará de intervalo modal (absoluto) e intervalos modales relativos. El intervalo modal es aquel que tiene mayor frecuencia (absoluta o relativa), o sea el más alto en el histograma. CUANTILES Se llama cuantil de orden 𝑝𝑝 (0 < 𝑝𝑝 < 100) a aquel valor que divide a la variable en dos partes, dejando a su izquierda (o inferiores a él) el 𝑝𝑝 por ciento de los datos (a su derecha el 100 − 𝑝𝑝 por ciento). Por ejemplo, si 𝑝𝑝 = 50, el cuantil de orden 50 corresponde a la mediana. Para calcularlo, haremos lo siguiente: 𝑝𝑝 Calculamos cuál es el 𝑝𝑝% de los datos= ⋅ 𝑛𝑛 = 𝑎𝑎. 100 Si el valor 𝑎𝑎 es un número no entero, el cuantil de orden 𝑝𝑝 será 𝑥𝑥([𝑎𝑎]+1) (donde [𝑎𝑎] representa la parte entera de 𝑎𝑎, es decir quitamos los decimales). Si el valor 𝑎𝑎 es un número entero, el cuantil se elige (𝑥𝑥(𝑎𝑎) + 𝑥𝑥(𝑎𝑎+1) )/2 (y todos tranquilos, que estas cuentas nos la hace el ordenador). De entre los cuantiles destacan los cuartiles, los deciles y los percentiles. Los cuartiles dividen a la distribución en cuatro partes iguales, los deciles en diez y los percentiles en cien. Habrá, por tanto, tres cuartiles (𝑄𝑄1 , 𝑄𝑄2 , 𝑄𝑄3 ), nueve deciles (𝐷𝐷1 , 𝐷𝐷2 , ⋯ , 𝐷𝐷9 ) y noventa y nueve percentiles (𝑃𝑃1 , 𝑃𝑃2 , ⋯ , 𝑃𝑃99 ). El segundo cuartil, el quinto decil y el quincuagésimo percentil coinciden con la mediana. Muchos textos llaman cuantiles y percentiles a los mismos valores. Realmente, un cuantil permite que el valor 𝑝𝑝 sea un número no entero (puede ser 21.45 por ejemplo). Como no suele interesar calcular cuantiles con valores de 𝑝𝑝 no enteros, en la práctica viene a ser lo mismo. Con la Figura 20 y la Figura 21 podemos comprobar que, como siempre, una imagen vale más que mil palabras.

Figura 20

EJEMPLO 12 Sea 𝑿𝑿 la variable que toma los valores 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏, 𝟕𝟕, 𝟖𝟖, 𝟕𝟕, 𝟐𝟐, 𝟓𝟓, 𝟑𝟑, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏. Calcular el percentil de orden 23 y el segundo decil. SOLUCIÓN. Pag. 35

Estadística fácil con hoja de cálculo Primero ordenamos los valores: 2,3,5,7,7,8,11,14,16,19. El percentil de orden 23 23 corresponde a ⋅ 10 = 2.3, luego 100 𝑃𝑃23 = 𝑥𝑥(2+1) = 𝑥𝑥(3) = 5. 2

El segundo decil corresponde a 10 ⋅ 10 = 2, luego 𝑥𝑥(2) + 𝑥𝑥(2+1) 3 + 5 = = 4. 𝐷𝐷2 = 2 2 Podemos comprobar que éste método de cálculo coincide con lo utilizado anteriormente 50 50 ⋅ 𝑛𝑛 = ⋅ 10 = 5, con lo que la mediana será para la mediana. Si 𝑝𝑝 = 50, calculamos 100 100 𝑥𝑥(5) + 𝑥𝑥(5+1) 7 + 8 𝑀𝑀𝑀𝑀 = = = 7.5. 2 2

Figura 21: un ejemplo de uso de los cuantiles o percentiles, para establecer los límites de riesgo, por arriba y por abajo.

CÁLCULO DE PERCENTILES CON UNA TABLA DE FRECUENCIAS Si se dispone de datos de tipo II (o una variable discreta), es decir, pocos datos que se repiten bastante, el cálculo de la mediana o de cualquier percentil es muy sencillo. Simplemente debemos tener la tabla de los valores, las frecuencias absolutas y las absolutas acumuladas. Valor (𝒙𝒙𝒊𝒊 ) 𝒏𝒏𝒊𝒊 𝟐𝟐 𝟒𝟒 𝟒𝟒 𝟒𝟒 𝟓𝟓 𝟑𝟑 𝟔𝟔 𝟐𝟐 𝟕𝟕 𝟑𝟑 𝟖𝟖 𝟑𝟑 𝟗𝟗 𝟏𝟏

𝑵𝑵𝒊𝒊 𝟒𝟒 𝟖𝟖 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝒏𝒏 = 𝟐𝟐𝟐𝟐

Si queremos calcular el percentil 𝑝𝑝 (𝑝𝑝 cualquier número entre 0 y 100), haremos 𝑝𝑝 ∙ 𝑛𝑛 = 𝑎𝑎 100 Pag. 36

Estadística fácil con hoja de cálculo Buscamos el valor 𝑎𝑎 en la columna de las frecuencias absolutas acumuladas 𝑁𝑁𝑖𝑖 . Si el valor 𝑎𝑎 esta entre 𝑁𝑁𝑖𝑖 y 𝑁𝑁𝑖𝑖+1 entonces el percentil 𝑝𝑝 sera igual a 𝑥𝑥𝑖𝑖+1 . Si el valor 𝑎𝑎 es exactamente igual a 𝑁𝑁𝑖𝑖 entonces el percentil 𝑝𝑝 será igual a 𝑥𝑥𝑖𝑖 + 𝑥𝑥𝑖𝑖+1 2 Por ejemplo, en la tabla de arriba, busquemos el percentil 23. Hacemos 23 20 = 𝑎𝑎 = 4.6 100 Vemos que el valor 4.6 está en la columna de las 𝑁𝑁𝑖𝑖 entre los valores 4 y 8. Por lo tanto, el percentil 23 es igual a 4 (el valor 𝑥𝑥𝑖𝑖 que corresponde al valor 𝑁𝑁𝑖𝑖 superior (8)). Busquemos ahora el percentil 80. 80 20 = 𝑎𝑎 = 16 100 Al coincidir el valor 𝑎𝑎 = 16 con un 𝑁𝑁𝑖𝑖 , automáticamente elegimos como percentil 80 a 7+8 = 7.5 2 MEDIDAS DE DISPERSIÓN

Las medidas de tendencia central reducen la información de una muestra a un único valor, pero, en algunos casos, este valor estará más próximo a la realidad de las observaciones que en otros. Por ejemplo, consideremos la variable 𝑋𝑋 = 0,50,100 y la variable 𝑌𝑌 = 49,51. Enseguida podemos ver que las medias aritméticas de ambas variables son iguales (50), pero también que la variable 𝑋𝑋 está más dispersa (o menos concentrada) que la variable 𝑌𝑌, de manera que la representatividad de 𝑦𝑦� es mayor que la de 𝑥𝑥̅ .

A continuación se estudian una serie de medidas que, por una parte, indicarán el nivel de concentración de los datos que se están analizando y, por otra, informarán sobre la bondad de los promedios calculados como representativos del conjunto de datos.

LA VARIANZA Y LA DESVIACIÓN TÍPICA Pag. 37

Estadística fácil con hoja de cálculo

La varianza y su raíz cuadrada positiva, la desviación típica, son las medidas de dispersión más importantes, estando íntimamente ligadas a la media como medida de representación de ésta. La varianza viene dada por la expresión: 𝑛𝑛 (𝑥𝑥1 − 𝑥𝑥̅ )2 + (𝑥𝑥2 − 𝑥𝑥̅ )2 +. . . +(𝑥𝑥𝑛𝑛 − 𝑥𝑥̅ )2 1 2 2 𝑆𝑆 = 𝜎𝜎 = = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 . 𝑛𝑛 𝑛𝑛 𝑖𝑖=1

Se utiliza esta fórmula por ser la media aritmética de la variable cuyos valores son (𝑥𝑥𝑖𝑖 − 2 𝑥𝑥̅ ) . Es decir, estamos considerando las distancias entre los datos y la media aritmética, y las promediamos (fijémonos en la Figura 22). Si las distancias entre los datos y la media, en general, son grandes, la media de estas distancias también lo será. Si las distancias entre los datos y la media, en general, son pequeñas, la media de las distancias también lo será. Ahora bien, las distancias 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ las elevamos al cuadrado para evitar que se compensen las distancias positivas y negativas (según que los datos 𝑥𝑥𝑖𝑖 estén a la izquierda de la media o a la derecha). Realmente, puede demostrarse que, si no lo hacemos, y considerásemos el promedio 1 𝑛𝑛 ∑ (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ ) como la varianza, esto no serviría para nada, ya que ese promedio es siempre 𝑛𝑛 𝑖𝑖=1 cero.

Figura 22

Debido a que la varianza viene expresada en las unidades de la variable, pero elevadas al cuadrado, se define la desviación típica como la raiz cuadrada con signo positivo de la varianza 𝑆𝑆 = +√𝑆𝑆 2. La desviación típica ya aparece expresada en las mismas unidades que la variable. DIVISIÓN POR N-1

En muchos programas estadísticos (como el R o el SPSS) la varianza se calcula dividiendo por 𝑛𝑛 − 1 en vez de por 𝑛𝑛. El excel llama a la varianza que hemos definido varianza poblacional 𝑛𝑛

1 𝑆𝑆 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 . 𝑛𝑛 − 1 2

𝑖𝑖=1

El motivo es de tipo teórico, puesto que si los datos son observaciones de una variable aleatoria (a definir en capítulos posteriores), este último valor representa mejor a la varianza teórica de la variable (no os preocupéis por entender este detalle en este preciso momento). En cualquier caso, si 𝑛𝑛 es un número relativamente grande, los valores que se obtienen diviendo entre 𝑛𝑛 o 𝑛𝑛 − 1 son prácticamente iguales. También, en muchas ocasiones, al valor 𝑆𝑆 = √𝑆𝑆 2 (donde se divide por 𝑛𝑛 − 1) se le llama desviación estándar. El excel llama a la varianza que hemos definido varianza poblacional, y a la división por 𝑛𝑛 − 1 varianza muestral. En las calculadoras que realizan cálculos estadísticos suele existir un Pag. 38

Estadística fácil con hoja de cálculo botón con el símbolo 𝑥𝑥𝑥𝑥𝑥𝑥 (o algo parecido), y otro botón con el símbolo 𝑥𝑥𝑥𝑥(𝑛𝑛 − 1), indicando que el primero calcula la varianza dividiendo por 𝑛𝑛, y el segundo dividiendo por 𝑛𝑛 − 1. La propia calculadora de Windows los tiene. SIGNIFICADO FÍSICO DE LA VARIANZA Igual que la media aritmética representa el centro de gravedad de la distribución de datos, la varianza, desde un punto de vista físico, representa el momento de inercia de la distribución respecto de un eje que pase por la media aritmética. El momento de inercia refleja la distribución de masa de un cuerpo o de un sistema de partículas en rotación, respecto a un eje de giro. Un bailarín de patinaje artístico tendrá más momento de inercia (mayor varianza) si extiende los brazos, girando más rápido si los contrae.  Energía de rotación (vía el coeficiente de inercia): patinadores con brazos extendidos (dispersos) o recogidos (poco dispersos)  Energía elástica: Muelles ‘estirados’ con respecto a su posición de equilibrio (dispersos) frente a muelles en posición cercana a su posición de equilibrio (poco dispersos)

“Huracan Bisbal”: minimizando la varianza al girar, y luego maximizándola al dar su famosa patada. Un fenómeno estadístico, y sin saberlo.

EJEMPLO 13 � = 𝒚𝒚 � = 𝟓𝟓𝟓𝟓. Calcular las varianzas. Para 𝑿𝑿 = 𝟎𝟎, 𝟓𝟓𝟓𝟓, 𝟏𝟏𝟏𝟏𝟏𝟏 e 𝒀𝒀 = 𝟒𝟒𝟒𝟒, 𝟓𝟓𝟓𝟓 tenemos que 𝒙𝒙

𝑆𝑆𝑋𝑋2 (𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑

(0 − 50)2 + (50 − 50)2 + (100 − 50)2 𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛) = = 1666.67 ⇒ 𝑆𝑆𝑋𝑋 = 40.82. 3

𝑆𝑆𝑋𝑋2 (𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑

(0 − 50)2 + (50 − 50)2 + (100 − 50)2 𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛 − 1) = = 2500 ⇒ 𝑆𝑆𝑋𝑋 = 50. 2

𝑆𝑆𝑌𝑌2 (𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛) =

(49 − 50)2 + (51 − 50)2 = 1 ⇒ 𝑆𝑆𝑌𝑌 = 1. 2

(49 − 50)2 + (51 − 50)2 = 2 ⇒ 𝑆𝑆𝑌𝑌 = 1.4142. 1 Como vemos, las medias aritméticas de las variables coinciden, pero la representatividad de la media es más alta en el caso de la variable 𝒀𝒀, porque los valores están mucho más próximos entre sí (y más próximos a la media), que en el caso de la variable 𝑿𝑿. El hecho de dividir por 𝒏𝒏 o por 𝒏𝒏 − 𝟏𝟏 tiene poca importancia cuando se trata de comparar la dispersión de 2 variables, puesto que el valor realmente no nos importa, sino que la dispersión de una variable sea mayor o menor que la otra. 𝑆𝑆𝑌𝑌2 (𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑝𝑝𝑝𝑝𝑝𝑝 𝑛𝑛 − 1) =

Pag. 39

Estadística fácil con hoja de cálculo

CARACTERÍSTICAS DE LA VARIANZA. 1. Si se le suma una constante a una variable, la varianza de la nueva variable no cambia (porque la distancia de los datos a la media sigue siendo la misma: (𝑥𝑥𝑖𝑖 + 𝑐𝑐) − (𝑥𝑥̅ + 𝑐𝑐) = 𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ 2. Si se multiplica una variable por una constante, la varianza de la nueva variable es igual a la de la antigua multiplicada por la constante al cuadrado: 𝑌𝑌 = 𝑘𝑘𝑘𝑘 ⇒ 𝑆𝑆𝑌𝑌2 = 𝑘𝑘 2 𝑆𝑆𝑋𝑋2 Al multiplicar los datos, multiplicamos la dispersión. Pensemos por ejemplo en 𝑋𝑋 = 10,20,30, e 𝑌𝑌 = 2𝑋𝑋 = 20,40,60. Hemos multiplicado por 2 la distancia entre los datos. Estas dos propiedades pueden resumirse en la siguiente expresión: Y = aX + b ⇒ SY2 = a2 SX2 (⇒ SY = aSX ) EJEMPLO 14 � = 𝟏𝟏𝟏𝟏 y desviación típica 𝑺𝑺𝑿𝑿 = 𝟕𝟕, la variable Dada la variable 𝑿𝑿 con media 𝒙𝒙 𝒀𝒀 = 𝟑𝟑𝟑𝟑 − 𝟒𝟒 tendrá de media y desviación típica: 𝑦𝑦� = 3𝑥𝑥̅ − 4 = 3 ⋅ 12 − 4 = 32 𝑆𝑆𝑌𝑌2 = 32 ⋅ 𝑆𝑆𝑋𝑋2 = 9 ⋅ 72 = 441 ⇒ 𝑆𝑆𝑌𝑌 = 21. DESIGUALDAD DE TCHEBYCHEV Esta desigualdad, formulada por el matemático ruso Pafnuti Lvóvich Chebyshov (1821 1894) (y cuyo apellido se ha escrito de todas las maneras imaginables excepto Chebyshov: aparece como Tchebychev, Tchebycheff, Schebyshev, y todas las variaciones que se nos ocurran) relaciona a la media y a la varianza y tiene la expresión: 1 𝑓𝑓(|𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ | ≤ 𝑎𝑎𝑎𝑎) ≥ 1 − 2 , 𝑎𝑎 > 1. 𝑎𝑎 (que quiere decir que la frecuencia relativa del número de datos que están alrededor de 1 la media 𝑎𝑎 veces la desviación típica es siempre mayor o igual que la cantidad 1 − 𝑎𝑎2 ). Esta desigualdad es una justificación teórica del caracter de medida de dispersión de la desviación típica 𝜎𝜎 o 𝑆𝑆. Veamos, supongamos 3 valores concretos del número 𝑎𝑎 (que tiene que ser mayor que 1); calculemos el valor de la derecha de la desigualdad, y pongamos lo que significa lo que está a la izquierda: 1 𝑎𝑎 = 2 1 − 2 = 0.75 𝑎𝑎 1 𝑎𝑎 = 3 1 − 2 = 0.88 𝑎𝑎 1 𝑎𝑎 = 4 1 − 2 = 0.9375 𝑎𝑎 𝑎𝑎 = 2 𝐸𝐸𝐸𝐸 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑥𝑥𝑖𝑖 𝑐𝑐𝑐𝑐𝑐𝑐 |𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ | ≤ 2𝑆𝑆 𝑒𝑒𝑒𝑒 ≥ 0.75. 𝑎𝑎 = 3 𝐸𝐸𝐸𝐸 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑥𝑥𝑖𝑖 𝑐𝑐𝑐𝑐𝑐𝑐 |𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ | ≤ 3𝑆𝑆 𝑒𝑒𝑒𝑒 ≥ 0.88. 𝑎𝑎 = 4 𝐸𝐸𝐸𝐸 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑑𝑑𝑑𝑑 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑥𝑥𝑖𝑖 𝑐𝑐𝑐𝑐𝑐𝑐 |𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ | ≤ 4𝑆𝑆 𝑒𝑒𝑒𝑒 ≥ 0.9375. Tengamos presente que los datos 𝑥𝑥𝑖𝑖 𝑐𝑐𝑐𝑐𝑐𝑐 |𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ | ≤ a𝑆𝑆 son los datos 𝑥𝑥𝑖𝑖 que están en el intervalo de centro 𝑥𝑥̅ y radio a𝑆𝑆, es decir (𝑥𝑥̅ − a𝑆𝑆, 𝑥𝑥̅ + a𝑆𝑆). Así, en un intervalo de centro la media y radio 2 veces la desviación típica (𝑎𝑎 = 2) se encuentran, al menos, el 75 por ciento de los datos. En un intervalo de centro la media y radio 3 veces la desviación típica (𝑎𝑎 = 3) se encuentran, al menos, el 88 por ciento de los datos. Pag. 40

Estadística fácil con hoja de cálculo En un intervalo de centro la media y radio 4 veces la desviación típica (𝑎𝑎 = 4) se encuentran, al menos, el 93.75 por ciento de los datos. Lo que vemos es que cualquier variable tiene que tener una agrupación de sus datos alrededor de la media conforme a esta desigualdad; es decir, los datos no pueden “hacer lo que les dé la gana”, han de estar concentrados alrededor de la media según estos porcentajes, que están relacionados con la desviación típica. En la siguiente imagen vemos un histograma con los valores 𝑥𝑥̅ ± 𝑆𝑆 y 𝑥𝑥̅ ± 2𝑆𝑆 marcados en el eje X. Según la desigualdad, en el intervalo de valores [𝑥𝑥̅ − 2𝑆𝑆, 𝑥𝑥̅ + 2𝑆𝑆] hay, COMO MÍNIMO, un 75 por ciento de los datos. Este número es un mínimo. En este histograma intuímos que hay bastante mayor porcentaje de datos, puesto que fuera de ese intervalo ya hay muy pocos datos.

EJEMPLO 15 �− Dada una distribución con media � 𝒙𝒙 = 𝟐𝟐𝟐𝟐 y desviación típica 𝑺𝑺 = 𝟒𝟒, el intervalo [𝒙𝒙 � + 𝟑𝟑𝟑𝟑] = [𝟏𝟏𝟏𝟏, 𝟑𝟑𝟑𝟑] garantiza la presencia en su interior de, al menos, el 𝟖𝟖𝟖𝟖. 𝟖𝟖𝟖𝟖% de los 𝟑𝟑𝟑𝟑, 𝒙𝒙 � − 𝟒𝟒𝟒𝟒, 𝒙𝒙 � + 𝟒𝟒𝟒𝟒] = [𝟗𝟗, 𝟒𝟒𝟒𝟒] garantiza la presencia en su interior de, al menos, datos. El intervalo [𝒙𝒙 el 93.75 por ciento de los datos. Esto nos sirve para poder catalogar datos como posibles errores de medición. Si obtuviésemos en la medición el valor, por ejemplo, x=115, está claro que se trataría de un error y habría que repetir la medición (que sería facil si la medición es, por ejemplo, una estatura, o viene de hacer una pregunta en una encuesta… Sin embargo, si la medición viene a través de un tacto rectal, la repetición de la medida suponemos que no será tan fácil).

OTRAS MEDIDAS DE DISPERSIÓN. RECORRIDO, AMPLITUD O RANGO. Se define como la diferencia entre el mayor y el menor de los valores. Tiene la ventaja de que es fácil de calcular, aunque cuando hay valores aislados en las puntas o extremos de la distribución, da una visión distorsionada de la dispersión de ésta. Pag. 41

Estadística fácil con hoja de cálculo Recorrido = 𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋) − 𝑀𝑀𝑀𝑀𝑀𝑀(𝑋𝑋). RECORRIDO INTERCUARTÍLICO. Viene dado por: 𝑅𝑅𝐼𝐼 = 𝑄𝑄3 − 𝑄𝑄1 . (𝑄𝑄3 , 𝑄𝑄1 ) son el tercer y primer cuartil, respectivamente. Es una medida adecuada para el caso en que se desee que determinadas observaciones extremas no intervengan. Como inconveniente principal, tiene que sólo intervienen el 50% de los valores centrales en su cálculo.

Las expresiones que se acaban de ver miden la dispersión de la distribución en términos absolutos (vienen expresadas en las unidades de la variable, sean kilos, euros, metros cúbicos...). Por eso, se llaman medidas de dispersión absolutas. Se precisa definir, a partir de ellas, otras que hagan posible la comparación entre diferentes variables, y que tengan en cuenta el tamaño de las observaciones. Estas últimas se llamarán medidas de dispersión relativas. Obsérvese que la variable 𝑋𝑋 formada por los elementos {0.1, 0.2, 0.3, 0.4, 0.5} y la variable 𝑌𝑌 = {1000.1, 1000.2, 1000.3, 1000.4, 1000.5} tienen la misma varianza (no necesitamos calcularlas: fijémonos que la segunda variable 𝑌𝑌 es una constante más la primera: 𝑌𝑌 = 1000 + 𝑋𝑋). Sin embargo, es evidente que, en el primero de los casos, los elementos están muy dispersos y, en el segundo, bastante concentrados. Para evitar estas situaciones se estudia la siguiente medida. COEFICIENTE DE VARIACIÓN. Se define como el cociente entre la desviación típica y el valor absoluto de la media. 𝑆𝑆 𝐶𝐶𝐶𝐶 = . |𝑥𝑥̅ | Se suele llamar, en ocasiones, coeficiente de variación de Pearson, por el matemático inglés Karl Pearson (1857 – 1936). Se trata de una medida adimensional (no tiene unidades), y permite comparar la dispersión de varias distribuciones. A mayor valor de 𝐶𝐶𝐶𝐶, menor representatividad de 𝑥𝑥̅ , y viceversa.

En general, se suele convenir en que valores de 𝐶𝐶𝐶𝐶 menores a 0.1 indican una alta concentración, entre 0.1 y 0.5 una concentración Selfie de Karl Pearson media, y valores superiores a 0.5 (o 1 según algunos libros) una alta dispersión y una media poco o nada representativa. Nota: si la media aritmética es cero, obviamente el coeficiente no puede calcularse. En el ejemplo comentado (donde 𝑿𝑿=𝟎𝟎. 𝟏𝟏, 𝟎𝟎. 𝟐𝟐, 𝟎𝟎. 𝟑𝟑, 𝟎𝟎. 𝟒𝟒, 𝟎𝟎. 𝟓𝟓 e 𝒀𝒀 = 1𝟎𝟎𝟎𝟎𝟎𝟎. 𝟏𝟏, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟐𝟐, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟑𝟑, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟒𝟒, 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟓𝟓) , tendríamos 𝑺𝑺𝑿𝑿 = 𝑺𝑺𝒀𝒀 = 𝟎𝟎. 𝟏𝟏𝟏𝟏, pero 𝟎𝟎. 𝟏𝟏𝟏𝟏 𝟎𝟎. 𝟏𝟏𝟏𝟏 = 𝟎𝟎. 𝟒𝟒𝟒𝟒 𝑦𝑦 𝑪𝑪𝑽𝑽𝒀𝒀 = = 𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎𝟎. 𝑪𝑪𝑽𝑽𝑿𝑿 = 𝟎𝟎. 𝟑𝟑 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏. 𝟑𝟑 Como vemos, las dos variables tienen la misma desviación típica, pero la media de la segunda variable es mucho más representativa.

Pag. 42

Estadística fácil con hoja de cálculo EJEMPLO 16 Consideremos dos variables 𝑿𝑿 e 𝒀𝒀, tales que 𝑿𝑿 viene expresada en metros e 𝒀𝒀 en centímetros, con medias y desviaciónes típicas: � = 𝟏𝟏𝟏𝟏 (= 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝒄𝒄𝒄𝒄); 𝑺𝑺𝑿𝑿 = 𝟐𝟐(= 𝟐𝟐𝟐𝟐𝟐𝟐𝒄𝒄𝒄𝒄). 𝒙𝒙 � = 𝟏𝟏𝟏𝟏 ; 𝑺𝑺𝒀𝒀 = 𝟑𝟑. 𝒚𝒚 A primera vista, la variable 𝑿𝑿 está menos dispersa que la variable 𝒀𝒀, si no atendemos a las unidades. Si las tenemos en cuenta, sería al reves. En cualquier caso, podría interesar comparar la dispersión de variables entre las que no sea posible la conversión de unidades. Es por ello que debemos utilizar para este caso medidas adimensionales, como el coeficiente de variación. Así, tendríamos que 2 3 𝐶𝐶𝑉𝑉𝑋𝑋 = = 0.2 ; 𝐶𝐶𝑉𝑉𝑌𝑌 = = 0.3. 10 10

RECORRIDO SEMIINTERCUARTÍLICO RESPECTO A LA MEDIANA. Viene dado por

𝑄𝑄3 − 𝑄𝑄1 𝑀𝑀𝑒𝑒 que, al igual que la anterior, es una medida adimensional, con las ventajas e inconvenientes mencionados para el recorrido intercuartílico. 𝑅𝑅𝑆𝑆𝑆𝑆 =

MEDIDAS DE FORMA Ahora nos fijaremos en la “forma” de la distribución. En primer lugar se examina la simetría y, a continuación, el apuntamiento.

SIMETRÍA Diremos que una distribución es simétrica respecto a un parámetro cuando los valores de la variable equidistantes de dicho parámetro tienen la misma frecuencia. La simetría suele referirse a la simetría respecto de la media aritmética, o respecto de la mediana.

Pag. 43

Estadística fácil con hoja de cálculo Una distribución o variable es simétrica si, gráficamente, levantamos un eje o línea vertical sobre la media (o mediana, según el caso) y el dibujo a ambos lados de dicho eje es idéntico. La mayor parte de las veces, aunque no se indique, la simetría se refiere a simetría respecto a la media. Si una distribución no es simétrica, entonces es asimétrica, y la asimetría puede presentarse: - a la derecha (asimetría positiva: cola de la distribución más larga a la derecha) - a la izquierda (asimetría negativa: cola de la distribución más larga a la izquierda).

Los coeficientes de simetría son valores numéricos que indican si la distribución es simétrica y, caso de no serlo, la tendencia o signo de su asimetría. Uno de los coeficientes de simetría más utilizados es el llamado primer coeficiente de Fisher: 𝑚𝑚3 𝑔𝑔1 = 3 𝑆𝑆 siendo 𝑚𝑚3 el momento respecto a la media de orden 3, es decir 𝑛𝑛 1 𝑚𝑚3 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )3 𝑛𝑛 𝑖𝑖=1

y 𝑆𝑆 la desviación típica. Como vemos, es una medida adimensional (tanto en el numerador como en el denominador las unidades de la variable aparecen elevadas al cubo, por lo que al efectuar la división no hay unidades), y esto nos permite comparar simetrías de distintas variables. Si una distribución es simétrica, 𝑔𝑔1 = 0. Si 𝑔𝑔1 < 0 entonces la distribución es asimétrica negativa. Si 𝑔𝑔1 > 0 entonces es asimétrica positiva. Cuando la distribución es simétrica, coinciden la media y la mediana. Si, además, la distribución tiene forma de campana 6, ambas son iguales a la moda. 6

Nos referimos a la campana de Gauss, de la que hablaremos en un momento.

Pag. 44

Estadística fácil con hoja de cálculo

Nota: Al igual que ocurría con la varianza, la fórmula del coeficiente de asimetría puede variar, por mótivos técnicos, dependiendo del programa estadístico que se utilice. Conviene siempre mirar el manual para tener clara la fórmula. En todo caso, los valores deben ser parecidos, y lo importante es el signo (positivo para asimetría a la derecha y negativo al contrario), que no debe depender del programa utilizado CURTOSIS Las medidas de curtosis tratan de estudiar la distribución de frecuencias en la zona central de la distribución. La mayor o menor concentración de frecuencias alrededor de la media dará lugar a una distribución más o menos apuntada. El grado de apuntamiento de una distribución (que sólo se examina en distribuciones simétricas o ligeramente asimétricas, y con un dibujo “parecido” al de una campana) se calcula a través del coeficiente de apuntamiento o de curtosis, para lo cual se compara con la distribución Normal, que se tratará en otro capítulo. Se puede adelantar, no obstante, que la distribución Normal tiene forma de campana (la llamada “Campana de Gauss”) y que su estructura “probabilística” viene dada por la función (𝑥𝑥−𝑥𝑥̅ )2 1 − 𝑓𝑓(𝑥𝑥) = 𝑒𝑒 2𝑆𝑆 2 𝑆𝑆√2𝜋𝜋 En esta fórmula, 𝑥𝑥̅ es la media de los datos y 𝑆𝑆 la desviación típica. La gráfica de esta función 𝑓𝑓 (simétrica con respecto al eje de centro 𝑥𝑥̅ y con puntos de inflexión o cambio de concavidad en 𝑥𝑥̅ − 𝑆𝑆 y 𝑥𝑥̅ + 𝑆𝑆) es la que aparece a continuación. Muchas veces se dice que una variable o distribución 𝑋𝑋 es más apuntada que la distribución Normal, o menos apuntada (o igual) que la distribución Normal.

Para estudiar el apuntamiento se dibuja el histograma de la variable junto con la gráfica de la función normal o campana de Gauss. De todas formas, al igual que en el caso de la simetría, existe un coeficiente numérico para medir la curtosis. El coeficiente de curtosis (segundo coeficiente de Fisher) toma la expresión: 𝑚𝑚4 𝑔𝑔2 = 4 − 3 𝑆𝑆 siendo 𝑚𝑚4 el momento respecto a la media de orden 4: Pag. 45

Estadística fácil con hoja de cálculo 𝑛𝑛

1 𝑚𝑚4 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )4 . 𝑛𝑛 𝑖𝑖=1

Como vemos, el coeficiente 𝑔𝑔2 es adimensional, con lo cual sirve para comparar la curtosis de diferentes variables. Cuando dicho coeficiente vale 0, coincide con el de la 𝑁𝑁(0,1), y se dice que la distribución es mesocúrtica (o que la variable tiene el mismo apuntamiento que la normal). Si es menor que 0, la distribución o variable correspondiente se dice que es platicúrtica (la variable es menos apuntada que la normal); y, si es mayor que 0, leptocúrtica (la variable es más apuntada que la normal). Las diferentes posibilidades aparecen reflejadas en el siguiente gráfico.

Figura 23

Básicamente, el cálculo de la curtosis de una variable se utiliza para establecer una comparación con la variable normal que tenga la misma media y desviación típica. El objetivo es analizar si podemos considerar que la variable en estudio es “aproximadamente normal”. En el capítulo de variables aleatorias se ampliará la información sobre las variables normales. Para un curso introductorio de estadística, como es nuestro caso, el tema de la curtosis tiene poca importancia. Repetimos que la curtosis sólo tiene interés medirla en distribuciones simétricas o ligeramente asimétricas, que “puedan parecerse” a la curva Normal o de Gauss. En la práctica, podemos encontrarnos con distribuciones cuyo histograma sea muy irregular y que, visualmente, sea de imposible comparación con dicha curva. En estos casos, el coeficiente de curtosis 𝑔𝑔2 puede calcularse, pero no tiene interés práctico.

Nota: De nuevo es necesario indicar que la fórmula exacta del coeficiente de curtosis puede variar según el programa utilizado, y puede ser alguna variación del coeficiente aquí definido, por motivos puramente teóricos. Igual que ocurría con el caso de la simetría, más que el valor nos interesa el signo.

TRANSFORMACIONES

Pag. 46

Estadística fácil con hoja de cálculo En ocasiones, la variable en estudio puede presentar muchas irregularidades, como asimetría acentuada, valores muy extremos, etc. En otras ocasiones, se necesita comparar la posición de dos valores pertenecientes a variables con características muy diferentes. En estos casos es recomendable efectuar una transformación que haga más regular la distribución y, por tanto, con mejores condiciones para su estudio. Tiene particular importancia la tipificación de una variable. NORMALIZACIÓN O TIPIFICACIÓN Dada una variable 𝑋𝑋 con media 𝑥𝑥̅ y desviación típica 𝑆𝑆, la tipificación consiste en realizar la siguiente transformación: 𝑋𝑋 − 𝑥𝑥̅ . 𝑍𝑍 = 𝑆𝑆 A la nueva variable 𝑍𝑍 se le llama variable normalizada o tipificada, y tiene media 0 y desviación típica 1. Los valores tipificados se convierten en datos adimensionales. Por todo lo anterior, la tipificación tiene la propiedad de hacer comparables valores individuales que pertenecen a distintas distribuciones, aún en el caso de que éstas vinieran expresadas en diferentes unidades.

es decir

EJEMPLO 17 � = 𝟐𝟐𝟐𝟐. 𝟓𝟓 y 𝑺𝑺𝑿𝑿 = 𝟏𝟏𝟏𝟏. 𝟑𝟑𝟑𝟑. Sea 𝑿𝑿 = {𝟑𝟑, 𝟏𝟏𝟏𝟏, 𝟏𝟏𝟏𝟏, 𝟐𝟐𝟐𝟐, 𝟐𝟐𝟐𝟐, 𝟓𝟓𝟓𝟓}. Obtenemos que 𝒙𝒙 La variable 𝒁𝒁 (tipificada de 𝑿𝑿) toma los valores 3 − 22.5 14 − 22.5 17 − 22.5 24 − 22.5 24 − 22.5 53 − 22.5 , , , , , � �, 15.37 15.37 15.37 15.37 15.37 15.37

𝑍𝑍 = {−1.35, −0.59, −0.30,0.1,0.1,2.12}. Se comprueba que Z� = 0 y 𝑆𝑆𝑍𝑍 = 1.

EJEMPLO 18 Eloísa trabaja en el Mercamona y gana 1000 euros al mes. En su categoría laboral, la retribución media y desviación típica vienen dadas por: 𝑥𝑥̅ = 800 y 𝑆𝑆 = 25. Por otro lado, Guillermo Collarte (diputado) realizó unas declaraciones en 2012 diciendo: “gano 5100 euros al mes y no llego a fin de mes”. Si el salario medio de los diputados es 5000 al mes y 𝑆𝑆 = 50, tanto uno como el otro ganan salarios por encima de la media. Si se quiere conocer cuál de los dos ocupa mejor posición relativa dentro de su categoría, hay que tipificar sus sueldos: 1000 − 800 = 8, 𝑍𝑍(𝐸𝐸𝐸𝐸𝐸𝐸í𝑠𝑠𝑠𝑠) = 25 mientras 5100 − 5000 = 2. 𝑍𝑍(𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑) = 50

En términos absolutos, el diputado gana más que Eloísa. Sin embargo, en relación al conjunto de los empleados de cada categoría, la empleada de Mercamona ocupa mejor posición. Es grandioso el espíritu de sacrificio de aquellos diputados que, ganando tan poco (según ellos) siguen en su puesto, sacrificándose por el país.

ANÁLISIS EXPLORATORIO DE DATOS

Pag. 47

Estadística fácil con hoja de cálculo El análisis exploratorio de datos está formado por un conjunto de técnicas estadísticas, fundamentalmente gráficas, que pretenden dar una visión simple e intuitiva de las principales características de la distribución en estudio. Puede ser un fin por sí mismo o, generalmente, una primera etapa de un estudio más completo. Como aspectos más destacables que abarca están los que se refieren a la forma de la distribución y a la detección de valores anómalos (datos extraños comparados con el conjunto). Evidentemente, las técnicas de representación gráfica que hemos visto constituyen parte del análisis exploratorio de datos.

DIAGRAMA DE TALLO Y HOJAS (STEM & LEAF) Es una representación semigráfica donde se muestra el rango y distribución de los datos, la simetría y si hay candidatos a valores atípicos (valores muy extremos o incluso errores). Su uso sólo es recomendable siempre que el número de datos no sea muy grande. Para construirlo basta separar en cada dato el último(s) dígito(s) de la derecha (que constituye la hoja) del bloque de cifras restantes (que formará el tallo). Este tipo de diagrama se popularizó en los años 80 a partir de la publicación del libro “Exploratory data analysis” del estadístico John Tukey (1915 - 2000), por su facilidad para hacerse a mano, o rápidamente con las computadoras de aquella época. Actualmente, dada la capacidad gráfica de los ordenadores, se utiliza poco. Vamos a realizar el diagrama de tallo y hojas para la siguiente variable: 24 17 10 14 19 21 25 41 12 24 10 34 34 45 59 51 78. En el diagrama de tallo y hojas se representa el primer dígito (en este caso. Se usarán uno o más digitos dependiendo de las cifras) de los datos a la izquierda de la barra de separación y el segundo a la derecha. 1‖ 002479 2‖ 1445 3‖ 44 4‖ 5 5‖ 19 7‖ 8 Es un diagrama “del estilo” de un histograma o diagrama de barras, pero colocado en horizontal. Cuenta además con la ventaja de tener los datos sobre la propia gráfica.

Ilustración 1

Pag. 48

Estadística fácil con hoja de cálculo Como curiosidad, en la Ilustración 1 podemos ver un diagrama de este tipo en una estación de tren japonesa (fuente: Wikipedia). En el diagrama de tallo y hojas se representan los dígitos de la hora a la izquierda (la columna en negro) y a la derecha los minutos. La mayor o menor frecuencia de paradas se deduce fácilmente de la longitud de las filas y es, además, my fácil ver en qué minutos de cada hora paran los autobuses, y hacer comparaciones.

DIAGRAMA DE CAJA (BOX-PLOT) Los diagramas de caja (box-plot) o diagramas de caja y bigotes (box-whisker) son representaciones gráficas sencillas que no necesitan un número elevado de valores para su construcción. Se utilizan para estudiar tanto la dispersión como la forma de una variable. Asimismo, son especialmente útiles para comparar distintas distribuciones entre sí. Como dice su nombre, constan de una caja, donde la misma representa el 50% central de la distribución (va de 𝑄𝑄1 o primer cuartil a 𝑄𝑄3 o tercer cuartil), y la línea situada en el interior de la caja es la mediana (Figura 24). En este gráfico, 𝑄𝑄1 recibe el nombre de “bisagra inferior” y 𝑄𝑄3 “bisagra superior”. Los extremos inferiores y superiores de los segmentos (también llamados bigotes) delimitan lo que se denomina como valores “normales”, y coinciden, respectivamente, con el mínimo y el máximo de los valores una vez excluidos los candidatos a valores anómalos. Los candidatos a valores anómalos se etiquetan como atípicos y coinciden con aquellas observaciones que se encuentran fuera del intervalo (𝐿𝐿𝐿𝐿, 𝐿𝐿𝐿𝐿), donde: 𝐿𝐿𝐿𝐿 = 𝑄𝑄1 − 1.5𝑅𝑅𝐼𝐼 𝐿𝐿𝐿𝐿 = 𝑄𝑄3 + 1.5𝑅𝑅𝐼𝐼 , es decir, a una distancia de 𝑄𝑄1 , por la izquierda, o de 𝑄𝑄3 , por la derecha, superior a una vez y media el recorrido intercuartílico (𝑅𝑅𝐼𝐼 = 𝑄𝑄3 − 𝑄𝑄1 ). En este caso se llaman atípicos de primer nivel. Cuando la distancia, por uno de los dos lados, es superior a tres recorridos intercuartílicos, el valor atípico se denomina de segundo nivel, o dato extremo. Los valores atípicos de primer y segundo nivel quedan normalmente identificados en el diagrama de cajas por símbolos diferenciados (𝛥𝛥, ♦, ⋅), debiendo considerarse la revisión de los mismos (pueden corresponder a mediciones mal efectuadas) para posible depuración antes del análisis de los datos. El resumen de las características observables en un diagrama de caja aparece en la Figura 24.

Figura 24 Pag. 49

Estadística fácil con hoja de cálculo

Dato anómalo: hay que revisar si se ha introducido por error, se ha observado mal, lo han hecho a propósito, etc. MOMENTOS DE UNA VARIABLE ESTADÍSTICA Los momentos son valores que permiten caracterizar a una distribución, siendo dos distribuciones tanto más parecidas cuanto mayor sea el número de momentos iguales o parecidos que posean. Fundamentalmente se trabaja con momentos respecto al origen y momentos respecto a la media aritmética (centrales). MOMENTOS RESPECTO AL ORIGEN Se define el momento respecto al origen de orden r como ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 0)𝑟𝑟 ∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖𝑟𝑟 𝑎𝑎𝑟𝑟 = = 𝑛𝑛 𝑛𝑛 Ejemplos: 𝑎𝑎0 = 1,

𝑎𝑎1 = 𝑥𝑥̅ ,

𝑎𝑎2 =

2 ∑𝑛𝑛 𝑖𝑖=1 𝑥𝑥𝑖𝑖

𝑛𝑛

MOMENTOS RESPECTO A LA MEDIA ARITMÉTICA Se define el momento respecto a la media de orden r como ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )𝑟𝑟 𝑚𝑚𝑟𝑟 = 𝑛𝑛 Pag. 50

Estadística fácil con hoja de cálculo

3

Ejemplos: 𝑚𝑚0 = 1,

𝑚𝑚1 = 0,

𝑚𝑚2 =

2 ∑𝑛𝑛 𝑖𝑖=1(𝑥𝑥𝑖𝑖 −𝑥𝑥̅ )

𝑛𝑛

=𝑆𝑆𝑥𝑥2 ,

𝑔𝑔1 =

𝑚𝑚3 , 𝑠𝑠3

𝑔𝑔2 =

𝑚𝑚4 𝑠𝑠4



Propiedad. Todos los momentos respecto a la media pueden calcularse en función de los momentos respecto al origen. Esta propiedad es de interés para hacer cuentas a mano. Si se hacen con un ordenador, no tiene interés. Vemos algunos ejemplos Momento respecto a la media

Momentos respecto al origen 𝑎𝑎2 − 𝑎𝑎12 𝑎𝑎3 − 3𝑎𝑎1 𝑎𝑎2 + 2𝑎𝑎12 𝑎𝑎4 − 4𝑎𝑎1 𝑎𝑎3 + 6𝑎𝑎12 𝑎𝑎2 − 3𝑎𝑎14

𝑚𝑚2 = 𝑚𝑚3 = 𝑚𝑚4 = DATOS EN TABLA DE FRECUENCIAS

Hasta el momento, hemos considerado que la(s) variables(s) considerada(s) tomaban 𝑛𝑛 valores que podían ser iguales o no. A partir de ello, definimos las fórmulas, como por ejemplo, la media aritmética: suma de todos los valores dividido por el número de datos. En ocasiones (fundamentalmente en problemas de los libros de texto), la variable aparecerá definida por su tabla de frecuencias (valores y frecuencias absolutas, o número de veces que aparece cada valor). Recordemos: 𝑿𝑿 𝒙𝒙𝟏𝟏 𝒙𝒙𝟐𝟐 𝒙𝒙𝟑𝟑

𝒏𝒏𝒊𝒊 𝑛𝑛1 𝑛𝑛2 𝑛𝑛3

⋮ 𝒙𝒙𝒌𝒌

donde 𝑛𝑛 = ∑𝑘𝑘𝑖𝑖=1 𝑛𝑛𝑖𝑖

⋮ 𝑛𝑛𝑘𝑘

Todas las medidas definidas pueden escribirse utilizando esta notación. Por ejemplo, la media aritmética la escribiríamos 𝑥𝑥1 + 𝑥𝑥2 + ⋯ + 𝑥𝑥𝑛𝑛 ∑𝑘𝑘𝑖𝑖=1 𝑥𝑥𝑖𝑖 ∙ 𝑛𝑛𝑖𝑖 𝑥𝑥̅ = = 𝑛𝑛 𝑛𝑛 o, si por ejemplo, en vez de darnos las frecuencias absolutas, nos dieran las relativas, sería 𝑘𝑘

𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 ∙ 𝑓𝑓𝑖𝑖 𝑖𝑖=1

La única diferencia es que, en lo visto hasta ahora, cada dato aparece una sola vez (su frecuencia absoluta 𝑛𝑛𝑖𝑖 siempre es uno). En el segundo caso, multiplicamos cada valor por el número de veces que aparece. Escribamos pues, las otras fórmulas vistas para el caso de una tabla de frecuencias: Media geométrica. 𝑛𝑛

𝑛𝑛

𝑛𝑛

𝑛𝑛

𝑥𝑥̅𝑔𝑔 = 𝑛𝑛�𝑥𝑥1 ⋅ 𝑥𝑥2 ⋅ … ⋅ 𝑥𝑥𝑛𝑛 = �𝑥𝑥1 1 ∙ 𝑥𝑥2 2 ∙ ⋯ ∙ 𝑥𝑥𝑘𝑘 𝑘𝑘

Media armónica.

Pag. 51

Estadística fácil con hoja de cálculo 𝑥𝑥̅𝑎𝑎 = Varianza.

𝑛𝑛 𝑛𝑛 = 𝑛𝑛 1 1 1 ∑𝑘𝑘𝑖𝑖=1 𝑖𝑖 𝑥𝑥𝑖𝑖 𝑥𝑥1 + 𝑥𝑥2 +. . . + 𝑥𝑥𝑛𝑛

𝑛𝑛

𝑘𝑘

𝑘𝑘

𝑖𝑖=1

𝑖𝑖=1

𝑖𝑖=1

1 1 1 𝑆𝑆 2 = 𝜎𝜎 2 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 ∙ 𝑛𝑛𝑖𝑖 = � 𝑥𝑥𝑖𝑖2 ∙ 𝑛𝑛𝑖𝑖 − (𝑥𝑥̅ )2 = 𝑎𝑎2 − 𝑎𝑎12 𝑛𝑛 𝑛𝑛 𝑛𝑛 Momentos respecto al origen. ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 0)𝑟𝑟 ∑𝑘𝑘𝑖𝑖=1 𝑥𝑥𝑖𝑖𝑟𝑟 ∙ 𝑛𝑛𝑖𝑖 𝑎𝑎𝑟𝑟 = = 𝑛𝑛 𝑛𝑛

Momentos respecto a la media. ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )𝑟𝑟 ∑𝑘𝑘𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )𝑟𝑟 ∙ 𝑛𝑛𝑖𝑖 𝑚𝑚𝑟𝑟 = = 𝑛𝑛 𝑛𝑛 PROBLEMAS PROBLEMA 1 Se desea hacer un estudio estadístico de la temperatura del agua del río Pío. Para esto es necesario tomar una muestra y calcular la media, mediana, desviación estándar, rango y coeficiente de variación. Se realizan 14 observaciones arrojando los siguientes resultados en grados centígrados: 2.11, 3.8, 4.0, 4.0, 3.1, 2.9, 2.5, 3.6, 2.0, 2.4, 2.8, 2.6, 2.9, 3.0. SOLUCIÓN. Cuando nos den un conjunto pequeño (o no tan pequeño) de datos, lo más práctico es ir a la plantilla resumen-medidas-estadisticas.xlsx e introducir los datos en la columna azul (Figura 25). El Excel calcula, como vemos, las principales medidas estadísticas de resumen de los datos. � = 𝟐𝟐. 𝟗𝟗𝟗𝟗, la mediana es 2.9, etc. Vemos que, por ejemplo, la media aritmética 𝒙𝒙

Figura 25

Para que esta plantilla funcione la opción “análisis de datos” debe estar activa. Es decir, en el menú principal, yendo al menú DATOS, debemos ver a la derecha la opción “Análisis de Pag. 52

Estadística fácil con hoja de cálculo datos”. Si no lo vemos, hemos comentado en la introducción el procedimiento a seguir para que aparezca.

PROBLEMA 2 Dos profesores (A y B) están interesados en estudiar los hábitos de sueño de los estudiantes en sus clases. Ambos profesores registran el tiempo (en minutos) que tardan en quedarse dormidos sus alumnos desde que empieza la clase. El gráfico muestra los boxplot de la variable citada para cada profesor.

a) ¿Cuál es el valor aproximado de las medidas de dispersión del tiempo del Profesor A? b) ¿Qué porcentaje de alumnos se queda dormido antes de los 15 minutos con el Profesor A? SOLUCIÓN. Las medidas de dispersión que podemos conocer a partir de un gráfico de caja y bigotes son el Rango y el Rango intercuartílico. (Para calcular la desviación estándar necesitamos todos los datos.) a) El Rango de la variable para el Profesor A es: máximo – mínimo = 21 – 9 = 12 minutos. El Rango intercuartílico es: tercer cuartil – primer cuartil = 17 – 14 = 3 minutos. b) El valor 15 corresponde al tercer cuartil, luego se quedan dormidos el 75 por ciento de los alumnos antes de los 15 minutos.

PROBLEMA 3 Pag. 53

Estadística fácil con hoja de cálculo Un país ficticio está compuesto por tres autonomías. La primera (Tacanyuna) tiene dos habitantes cuyas rentas personales son 30 y 25 (miles de euros). La segunda autonomía (Felicia) tiene tres habitantes con rentas de 45, 62 y 15. La tercera (Andamaría) tiene cinco habitantes con rentas de 38, 86, 43, 65 y 24. a) Calcular la renta per cápita de cada autonomía. b) Calcular la renta per cápita “promedio” de las autonomías (usar la media aritmética simple). c) Repetir el apartado anterior usando la media ponderada (piensa cuáles son los pesos). d) Calcular la renta per cápita de país y compararla con los resultados de b) y c). SOLUCIÓN. Autonomía Rentas Tacanyuna 30, 25 Felicia 45,62,15 Andamaría 38,86,43,64,24 a) La renta per cápita es la media de la renta en cada autonomía Autonomía Renta per cápita 30 + 25 Tacanyuna 𝑥𝑥̅ = = 27.5 2 Felicia 40.67 Andamaría 51 b) La renta per cápita promedio se calcula haciendo la media de las otras: 27.5 + 40.67 + 51 𝑥𝑥̅ = = 39.72 3 c) Ponderamos por el número de habitantes: 27.5 ∙ 2 + 40.67 ∙ 3 + 51 ∙ 5 = 43.201 𝑥𝑥̅ = 10 d) La renta per cápita de país es la media aritmética de todos los datos 30 + 25 + 45 + 62 + ⋯ + 24 = 43.2 𝑥𝑥̅ = 10

PROBLEMA 4 En el último pleno de la corporación municipal de Villapodre del Chorizo los concejales acuerdan subirse el sueldo un 800 por ciento a ellos mismos, y una propinilla a los funcionarios municipales, a costa de cerrar el centro geriátrico, la cocina económica y la casa de la cultura. La distribución de salarios queda: Sueldo en euros mensual neto Personas que lo cobran 100 los 3 conserjes 200 los 5 administrativos 30000 los 25 concejales 40000 los 6 asesores del alcalde 80000 el alcalde a) Teniendo en cuenta que el alcalde ganó las elecciones presentándose por el partido comunista revolucionario radical, parece claro que los sueldos no cumplen demasiado el ideario del partido. ¿Cuál es el sueldo que deberan cobrar para que fuese un reparto de tipo “ comunista” (todos cobran lo mismo)? b) ¿Qué sueldo cobran el 10% de los mejor pagados? c) Tras una denuncia de un sindicato, el tribunal supremo ordena que los asesores del alcalde no pueden ganar más dinero que lo que gane la mitad de la corporación y empleados municipales con los menores sueldos? Qué sueldo les van a dar? Pag. 54

Estadística fácil con hoja de cálculo d) El alcalde saca un bando por el que nombra funcionario al “gaitas”, el dueño del club local del farolillo rojo, y le asigna sueldo de 200.000 euros al mes (para ello se inventa un impuesto nuevo que grava el uso de papel higiénico) para que no se chive de las visitas que hace por la noche a su club. ¿Cómo varía el valor del apartado anterior? SOLUCIÓN. a) El sueldo total que se reparte es 100 ⋅ 3 + 200 ⋅ 5 + 3000 ⋅ 25 + 40000 ⋅ 6 + 80000 ⋅ 1 = 396.300 euros Para que todos cobren lo mismo hay que repartir ese sueldo entre el total: 3 + 5 + 25 + 6 + 1 = 40 396300 40

= 9907.5 b) Construimos la columna de frecuencias absolutas acumuladas: Sueldo 100 200 3000 40000 80000

ni

Ni

3 5 25 6 1

3 8 33 39 40 90

90

Para calcular este apartado, debemos calcular el percentil 90. Calculamos ⋅ 𝑁𝑁 = ⋅ 100 100 40 = 36. Buscamos este valor en la columna de los 𝑁𝑁𝑖𝑖 , que está entre 33 y 39. Así, el percentil 90 es 40.000. c) Ahora hay que calcular la mediana. Es como el apartado anterior, pero calculando 50 ⋅ 𝑁𝑁 = 20. Este valor en la columna de los 𝑁𝑁𝑖𝑖 está entre 8 y 33, por lo que la mediana es 3000. 100 d) Añadir un dato a la variable, por alto que sea, es difícil raro que cambie el valor de la mediana, puesto que la mediana es "robusta" ante valores extremos. De hecho, si añadimos el 50 dato 200.000 a la tabla, ahora habria 41 datos, y ⋅ 𝑁𝑁 = 20.5, que mantiene el valor de la 100 mediana en 3000.

PROBLEMA 5 Pag. 55

Estadística fácil con hoja de cálculo Después de hundirse un petrolero en las proximidades de la costa de la ciudad de A Coruña, se hizo un estudio de la concentración de petróleo en las aguas a lo largo de 150 puntos distribuidos por la costa gallega. Los resultados obtenidos, en mililitros por metro cúbico, fueron los siguientes: Concentración Frecuencia 3 en ml/m observada 15 24 25 36 35 20 45 20 75 50 a) La concentración media de petróleo. b) El nivel de concentración detectado por un mayor número de puntos costeros. c) Si clasificamos a un punto costero en el grupo en donde se encuentran el 50% de los menos contaminados, ¿cuál sera el tope de contaminación que podra tener?. d) Y si lo clasificamos en el grupo en el cual se encuentran el 25% de los más contaminados, ¿cuál sera la contaminación mínima que podra tener? SOLUCIÓN. a) La concentración media se refiere a la media aritmética 15 ⋅ 24 + 25 ⋅ 36 + 35 ⋅ 20 + 45 ⋅ 20 + 75 ⋅ 50 = 44.067𝑚𝑚𝑚𝑚/𝑚𝑚3 𝑥𝑥̅ = 24 + 36 + 20 + 20 + 50 b) Se refiere a la moda, que es el valor con mayor frecuencia absoluta: 75. c) Sera la mediana de los datos. Para calcularla construimos la tabla de frecuencias absolutas y absolutas acumuladas Concentración 𝒏𝒏𝒊𝒊 𝑵𝑵𝒊𝒊 3 en ml/m 15 24 24 25 36 60 35 20 80 45 20 100 75 50 150 50

Ahora calculamos ⋅ 150 = 75. Este valor, en la columna de los 𝑁𝑁𝑖𝑖 , está entre 60 y 100 80, por lo que la mediana es 35 75 d) Nos piden el tercer cuartil, o percentil 75. Hacemos ⋅ 150 = 112.5. Este valor, en 100 la columna de los 𝑁𝑁𝑖𝑖 , está entre 100 y 150, por lo que el tercer cuartil es 75. Nota: Para completar el problema “en bonito” queda bien hacer un diagrama de barras, que podemos hacerlo en un pis-pás con la plantilla barras-sectores.xlsx.

Pag. 56

Estadística fácil con hoja de cálculo

PROBLEMA 6 Para conocer la cantidad de jardineros que la universidad debera contratar para limpiar los jardines del campus después de las pruebas de selectividad, se analizan unas muestras elegidas al azar de los jardines (cada una recogida en un metro cuadrado) y se anota la cantidad de desperdicios que hay en cada zona, expresada en kgs. 10.87 9.01 22.5 12.35 17.39 31.05 17.19 16.74 20.33 19.32 23.18 25.15 49 20.3 2.38 13.55 9.33 22.72 10.96 25.9 27.66 9.74 18.65 9.31 6 17.41 24.86 15.34 23.34 22.81 17.86 30.72 32.6 8.96 32.71 15.86 Dibujar el histograma correspondiente. ¿Qué conclusiones se pueden obtener acerca de la dispersión y la forma de la distribución de los datos respecto a la limpieza de los futuros universitarios? SOLUCIÓN. Vamos a utilizar la plantilla histograma.xlsx para lo que su nombre indica. Copiamos los datos en la columna azul de la plantilla (recordad borrar los datos que puedan sobrar de la vez anterior que se usó la plantilla, si es el caso). El mínimo de los datos es 2.38 y el máximo 49. El cuadro de la parte de debajo de la plantilla nos sugiere un número de clases o intervalos cercano a 6, y el ancho de los intervalos próximo a 7.77. Elegimos entonces

Figura 26

como valor inicial para los intervalos del histograma el valor 2, como valor final 52 y un ancho de 10. La tabla de frecuencias (intervalos de clase) y el histograma son los de la Figura 26. Para calcular la dispersión, copiamos la columna de datos y la pegamos en la plantilla resumen-medidas-estadisticas.xlsx" Nos sale el resultado de la Figura 27. Según vemos, la dispersión tiene un valor de 9.11. El coeficiente de asimetría tiene un valor de 0.803, que es mayor que cero, lo que confirma la apreciación gráfica que nos da el histograma de que la distribución es más larga a la derecha (asimetría positiva). Si nos interesa comparar la distribución con la campana de Gauss, vemos que la curtosis es 1.69, por lo tanto es una distribución más apuntada que la normal. Pag. 57

Figura 27

Estadística fácil con hoja de cálculo Esto viene a decir que, en la parte central de la distribución, se presenta una mayor concentración de datos (algo que se ve claramente en el histograma). La cantidad de desperdicios es más amplia en los dos intervalos centrales del histograma. Básicamente, vemos que los universitarios del problema son bastante guarros.

Qué gusto da ver estudiar a la juventud universitaria, esas charlas de ciencia y filosofía al aire libre…

PROBLEMA 7 Las autoridades administrativas de un ministerio están interesadas en evaluar la calidad de 2 tipos de sistemas operativos para su posible implantación como sistema estándar en las oficinas de atención al público. Se consideran 2 zonas diferentes de la administración (funcionarios de ventanilla y jefes de sección). En cada zona se aplica un sistema operativo distinto, cargado solo con los últimos video juegos de Pipa 15 y Assasin’s world craft. En el cuadro siguiente se obtienen el número de puntos que cada persona de cada zona obtiene en ambos juegos zona 1 194 199 191 202 215 214 197 204 199 202 230 193 194 209 zona 2 158 161 143 174 220 156 156 156 198 161 188 139 147 116 Realizar un estudio comparativo de la calidad de los sistemas operativos (teniendo en cuenta que los funcionarios, cuantos más puntos ganan en los video-juegos, mejor consideran el sistema), utilizando resúmenes numéricos y diagramas de cajas. Estudiar la dispersión, la asimetra y el apuntamiento de ambas muestras. ¿Se puede considerar que ambas zonas de la administración son semejantes? SOLUCIÓN. Para realizar un diagrama de cajas o box-plot introducimos los datos de las dos variables en la plantilla box-plot-2-variables.xlsx. El resultado es el de la Figura 28. Observamos que la distribución de la Zona 1 está mucho más concentrada (menos dispersión) que la Zona 2. Igualmente podemos observar que la primera distribución posee menor recorrido que la segunda. En la parte central de la distribución (entre las bisagras), la zona 2 parece que tiene mayor asimetría. Comparando la asimetría a lo largo de toda la variable, no podemos saberlo, en principio. Introduciendo los datos en la plantilla resumen-medidas-descriptivas.xlsx obtenemos valores para confirmar nuestros pronósticos. Los resultados aparecen en la Figura 29. Vemos que la zona 2 tiene mayor desviación estándar y mayor rango, lo que significa mayor dispersión. El coeficiente de asimetría, en cambio, tiene diferente signo según la variable. Pag. 58

Estadística fácil con hoja de cálculo

Figura 28

Figura 29

Postdata: el que escribe este libro es funcionario.

PROBLEMA 8 En una clase hay 15 alumnos y 20 alumnas. El peso medio de los alumnos es 58.2 kg y el de las 20 alumnas 52.4 kg. Supongamos que las desviaciones típicas de los dos grupos son, Pag. 59

Estadística fácil con hoja de cálculo respectivamente, 3.1 kg y 5.1 kg. El peso de Borjita es 70 kg y el de Pilarita es 65 kg. ¿Cuál de ellos puede, dentro del grupo de alumnos de su sexo, considerarse más rellenito? SOLUCIÓN. Compararemos ambos pesos a través de los valores tipificados: Borjita: 𝑥𝑥 − 𝑥𝑥̅ 70 − 58.2 = = 3.806 𝑥𝑥̅ = 58.2, 𝜎𝜎 = 3.1, 𝑧𝑧 = 3.1 𝜎𝜎 Pilarita: 𝑥𝑥 − 𝑥𝑥̅ 65 − 52.4 = = 2.47 𝑥𝑥̅ = 52.4, 𝜎𝜎 = 5.1, 𝑧𝑧 = 5.1 𝜎𝜎 El peso de Borjita, dentro de su grupo, es mayor que el de Pilarita dentro del suyo.

PROBLEMA 9 En la siguiente variable 61.6 42.9 52.3 50.1 57.8 42.4 49.9 41.4 52.2 56.5 59.1 38.1 59.1 44.9 ¿cuánto vale el percentil 45? SOLUCIÓN. Cuando son pocos datos, lo más práctico y rápido es ir a la definición. Primero ordenamos los datos: 38.1 41.4 42.4 42.9 44.9 49.9 50.1 52.2 52.3 56.5 57.8 59.1 59.1 61.6 Luego calculamos 45 45 ∙ 𝑛𝑛 = ∙ 14 = 6.3 𝑎𝑎 = 100 100 Al ser 𝑎𝑎 un número no entero, el cuantil es 𝑥𝑥([6.3]+1) = 𝑥𝑥(7) =50.1 PROBLEMA 10 Relacionado con las pensiones de un determinado país está la “pirámide de población”, porque permite hacer estimaciones de cómo va a evolucionar la población activa, y la población en edad de percibir pensiones. A la derecha tenemos la pirámide de población española de 2012. a) ¿Cual es la edad media de los españoles? b) Calcular la moda, la mediana y el rango intercuartílico c) Comentar la forma de la distribución de la población d) ¿En qué percentil está usted situado? e) ¿En qué percentil está situada una persona que nació durante el “Baby Boom” (por ejemplo, 1975) 7

7

El “Baby Boom” hace referencia a una época de alto número de nacimientos. Lo escribimos por si alguno piensa que se refiere a niños explotando o cosas así, y es que sabemos que la ESO ha causado

Pag. 60

Estadística fácil con hoja de cálculo

SOLUCIÓN. Introducimos los datos de la pirámide en la plantilla tablasfrecuencias.xlsx. Como valores de 𝑥𝑥𝑖𝑖 introducimos los puntos medios de los intervalos de la pirámide, y como frecuencias el número de españoles en en ese rango de edad. El resultado lo tenemos en la Figura 30. Lo primero que observamos es que o falta algo o no sumaron bien en el Figura 30 periódico, porque hay una diferencia de 3 personas (a lo mejor andaban fugados; para el caso nos da lo mismo). a) La edad media es 40.13 b) La moda está entre 31 a 40 años. Para calcular la mediana, construimos la columna de frecuencias absolutas acumuladas: 𝒙𝒙𝒊𝒊 𝒏𝒏𝒊𝒊 𝑵𝑵𝒊𝒊 5 5161000 5161000 15 4412893 9573893 25 6377159 15951052 35 7960321 23911373 45 6999220 30910593 55 5435040 36345633 65 4256919 40602552 75 3431381 44033933 85 1691684 45725617 95 242018 45967635 50

50

Para calcular la mediana, hacemos: ⋅N= ⋅ 45967635 = 27770764. Este valor, 100 100 en la columna de los 𝑁𝑁𝑖𝑖 , está entre la cuarta y quinta fila, por lo que la mediana de edad es 45, o mejor dicho, el intervalo de edad entre 40 y 50. c) La forma es asimétrica positiva. Se ve en el gráfico y en el coeficiente de asimetría que nos da la tabla de la Figura 30, que es mayor que cero. La curtosis es negativa, por lo que es una distribución más aplastada que la distribución normal. d) Me preguntan en qué percentil estoy yo situado. Para responder a preguntas de este tipo, lo mejor es añadir a la tabla anterior una columna de porcentajes acumulados (frecuencias relativas acumuladas; añadimos una columna más para representar la misma en tanto por ciento). 𝒙𝒙𝒊𝒊

5 15 25 35 45 55

daños terribles.

Pag. 61

𝒏𝒏𝒊𝒊 5161000 4412893 6377159 7960321 6999220 5435040

𝑵𝑵𝒊𝒊 5161000 9573893 15951052 23911373 30910593 36345633

𝑭𝑭𝒊𝒊

0.112 0.208 0.347 0.520 0.672 0.791

𝑭𝑭𝒊𝒊

11% 21% 35% 52% 67% 79%

Estadística fácil con hoja de cálculo 65 4256919 40602552 0.883 88% 75 3431381 44033933 0.958 96% 85 1691684 45725617 0.995 99% 95 242018 45967635 1.000 100% Si, por ejemplo, mi edad es 26, vemos que el 26 es mayor que el 𝒙𝒙𝒊𝒊 = 𝟐𝟐𝟐𝟐, por lo que estaríamos en un percentil superior al 35 e inferior al 52. Si nuestra edad coincide exactamente con un valor 𝑥𝑥𝑖𝑖 , entonces miramos en la columna correspondiente el porcentaje que deja nuestra edad a la izquierda y ese es nuestro percentil exacto (por ejemplo, si la edad es 45, estaríamos en el percentil 67). e) Como la tabla de datos es de 2012, una persona que nació en 1975 tiene 37 años, luego es un percentil mayor o igual al 52. PROBLEMA 11 Se dispone del beneficio anual obtenido el pasado año por 38 empresas: Beneficio Nº (miles €) empresas 230-280 5 280-330 7 330-580 14 580-630 9 630-780 3 Se pide: a) Calcular el beneficio medio de estas 38 empresas. b) ¿Cuál es el beneficio mayor de la mitad de las empresas más modestas? c) Determinar el beneficio más frecuente. d) El 25% de las empresas más rentables ¿qué nivel de beneficios tienen? e) Estudiar la dispersión de esta distribución a partir del recorrido intercuartílico, desviación típica y coeficiente de variación de Pearson. Interpretar los resultados obtenidos. f) Estudiar la forma de esta distribución. Comentar el resultado. SOLUCIÓN. Primero añadimos una columna a la tabla, para indicar las marcas de clase o puntos medios de los intervalos Beneficio Marcas de clase Nº empresas (miles €) (𝒙𝒙𝒊𝒊 ) 230-280 255 5 280-330 305 7 330-580 455 14 580-630 605 9 630-780 705 3 Ahora introducimos las dos últimas columnas en la plantilla tablas-frecuencias.xlsx. En la Figura 31 vemos, a la izquierda, las dos columnas (fondo azul) donde introducimos los datos, y los resultados que nos da la plantilla, a la derecha. A partir de ellos podemos responder a las preguntas. a) El beneficio medio es 456315.8 euros.

Pag. 62

Estadística fácil con hoja de cálculo

Figura 31

b) Nos piden la mediana. Para ello hemos de construir la tabla de frecuencias acumuladas 𝒙𝒙𝒊𝒊 255 305 455 605 705

𝒏𝒏𝒊𝒊 5 7 14 9 3

𝑵𝑵𝒊𝒊

5 12 26 35 38

50

Ahora calculamos ⋅ 38 = 19. Este valor, en la columna de los 𝑁𝑁𝑖𝑖 , está entre 12 y 26, 100 por lo que la mediana es 455 (en miles de euros). c) El beneficio más frecuente es 455 (la moda), o el intervalo modal 330-580. 25 d) Ahora nos piden calcular el percentil 25. Calculamos ⋅ 38 = 9.5. Este valor, en la 100 columna de los 𝑁𝑁𝑖𝑖 , está entre 5 y 12, por lo que el percentil 25 es 305. e) La desviación típica y el coeficiente de variación los tenemos en la Figura 31. La desviación típica es 140.24 y el coeficiente de variación 0.30. Como el coeficiente de variación es menor que 1 diríamos que la media es representativa. Por otro lado, el recorrido intercuartílico es la diferencia entre el cuartil tercero y el primero, que son el percentil 75 y el 25 (calculado en el apartado anterior). El percentil 75 se calcula igual y da 605. Luego el recorrido intercuartílico es 605 − 305 = 300. f) La forma la estudiamos mediante la asimetría y la curtosis. El coeficiente de asimetría es 0.1 (por lo tanto es asimétrica positiva) y el coeficiente de curtosis es negativo (-1.11), por lo que la distribución es más aplastada que la normal. Comparando esta distribución con la normal, vemos que no es simétrica y es menos apuntada que la normal. PROBLEMA 12 Una empresa dedicada a la selección de personal ha realizado un examen entre varios aspirantes, puntuando de 0 a 50 el test psicotécnico, dando una calificación media de 28 y una varianza de 12. Se desea revisar el procedimiento de puntuación, acotando entre 20 y 100 puntos. ¿Cuál será la media y la varianza de las notas conseguidas por aquellos aspirantes? SOLUCIÓN. Pag. 63

Estadística fácil con hoja de cálculo Queremos hacer una transformación 𝑌𝑌 = 𝑎𝑎𝑎𝑎 + 𝑏𝑏. Para calcular a y b hacemos 20 = 𝑎𝑎 ∙ 0 + 𝑏𝑏, � 100 = 𝑎𝑎 ∙ 50 + 𝑏𝑏 Resolviendo, tenemos que b=20 y a =8/5. 30.72

8 5

8 5

8 2 5

De manera que 𝑌𝑌 = 𝑋𝑋 + 20, luego 𝑦𝑦� = ∙ 𝑥𝑥̅ + 20 = 64.8 y 𝜎𝜎𝑌𝑌2 = � � ∙ 𝜎𝜎𝑋𝑋2 =

PROBLEMA 13 Una cadena hotelera tiene cinco hoteles de diferente número de plazas cada uno. Los ingresos totales y el rendimiento por habitación de cada hotel son los siguientes: Hoteles Ingresos (euros) Rendimiento (euros/habitación) 1 20000 100 2 36000 90 3 25000 50 4 24000 80 5 18000 120 Determinar el rendimiento medio por habitación para el total de los hostales de la cadena. SOLUCIÓN. El rendimiento medio de la cadena será 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑅𝑅 = 𝑛𝑛ú𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 Para calcular el total de habitaciones tenemos que calcular el número de habitaciones en cada hotel, que será 𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼𝐼 𝐼𝐼𝐼𝐼𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔𝑔 𝑅𝑅𝑖𝑖 = ⇒ 𝐻𝐻𝑖𝑖 = 𝑛𝑛º 𝑑𝑑𝑑𝑑 ℎ𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 𝑅𝑅𝑖𝑖 Luego 20000 + 36000 + 25000 + 24000 + 18000 123000 = = 79.35 𝑅𝑅 = 20000 36000 25000 24000 18000 1550 + 90 + + 80 + 120 100 50 El rendimiento medio de la cadena es 79.35 euros por habitación, que es la media armónica de los rendimientos de cada hostal. PROBLEMA 14 A partir del siguiente histograma,

Pag. 64

Estadística fácil con hoja de cálculo responder a las siguientes cuestiones: a) ¿La mediana puede valor 40? b) ¿Cuál es el signo de la curtosis? c) ¿Es la distribución asimétrica negativa? SOLUCIÓN. a) En un histograma, la mediana debe dejar el 50% del área total a un lado y al otro. Aquí el área total es la suma de las áreas de los rectángulos que es 19+16+6+3+6=50. La mitad es 25. Como vemos, hasta el segundo rectángulo (incluido), hay de área 19 + 16, que es mayor que 25, luego la mediana será un valor inferior a 40. b) En principio, la curtosis se calcularía con los datos (que no tenemos). Ahora bien, si elegimos como representante de los intervalos de clase a su valor medio y trabajamos con ellos, tendremos la distribución con datos y frecuencias. (𝑥𝑥𝑖𝑖 , 𝑛𝑛𝑖𝑖 ) donde 𝑥𝑥𝑖𝑖 = 25,35,45,55,65 y 𝑛𝑛𝑖𝑖 = 19,16,6,3,6 respectivamente A partir de ellos, se pueden realizar cálculos de media, varianza, coeficiente de asimetría, curtosis, etc. Lo dejo para que lo hagáis vosotros y os divirtáis.

PROBLEMA 15 Fijémonos en los boxplot de la Figura siguiente, que representan la distribución de temperaturas diarias en 5 meses consecutivos en Chikitistán.

Decir cuál de estas opciones puede ser correcta (si es que hay alguna) a) el coeficiente de asimetría del mes 7 podría ser negativo. b) La distribución del mes 5 es mesocúrtica. c) la moda del mes 6 es su valor mínimo. SOLUCIÓN. Con el boxplot, la curtosis del mes 5 no puede conocerse, por lo que la respuesta b es incorrecta. La moda tampoco sale en un boxplot, por lo que la c es incorrecta. Para el mes 7, existen valores atípicos a la izquierda, con lo que parece que la distribución es más larga a la izquierda, por lo tanto podría tener coeficiente de asimetría negativo.

PARADOJA DEL PROMEDIO Pag. 65

Estadística fácil con hoja de cálculo PROBLEMA 16 Supongamos que en la primera mitad de la liga Cristiano Ronaldo tiene un promedio de 30 por ciento de goles en tiros a puerta. En la segunda mitad un promedio del 40 por ciento. 𝟎𝟎.𝟑𝟑+𝟎𝟎.𝟒𝟒 El promedio total = = 𝟎𝟎. 𝟑𝟑𝟑𝟑. 𝟐𝟐 En la primera mitad de la liga Mesi tiene un promedio de 29 por ciento de goles en tiros a puerta. En la segunda mitad un promedio del 39 por ciento. El promedio total = 𝟎𝟎.𝟐𝟐𝟐𝟐+𝟎𝟎𝟎𝟎𝟎𝟎 = 𝟎𝟎. 𝟑𝟑𝟑𝟑. 𝟐𝟐 Según esto vemos que Cristiano Ronaldo le gana a Mesi. Sin embargo, supongamos que en la primera mitad de la liga Cristiano Ronaldo tiró 200 veces y marcó 60 goles (promedio 0.3). En la segunda mitad tiró 100 veces y marcó 40 𝟔𝟔𝟔𝟔+𝟒𝟒𝟒𝟒 𝟏𝟏𝟏𝟏𝟏𝟏 (promedio 0.4). El promedio total = = = 𝟎𝟎. 𝟑𝟑𝟑𝟑 𝟑𝟑𝟑𝟑𝟑𝟑 𝟑𝟑𝟑𝟑𝟑𝟑 Ahora supongamos que, en la primera mitad de la liga Mesi tiró 100 veces y marcó 29 goles (promedio 0.29). En la segunda mitad tiró 200 veces y marcó 78 (promedio 0.39). El 𝟐𝟐𝟐𝟐+𝟕𝟕𝟕𝟕 𝟏𝟏𝟏𝟏𝟏𝟏 Promedio total = = = 𝟎𝟎. 𝟑𝟑𝟑𝟑𝟑𝟑 𝟑𝟑𝟑𝟑𝟑𝟑 𝟑𝟑𝟑𝟑𝟑𝟑 Según esta cuenta, Mesi le gana a Cristiano Ronaldo. ¿Qué sucede? SOLUCIÓN. Sucede que no se deben hacer promedios de promedios. El tamaño importa, en este caso el de la muestra elegida. Si nos dan dos promedios, debemos saber los datos exactos con qué se han calculado los mismos, para no cometer errores.

Pag. 66

Estadística fácil con hoja de cálculo

En el capítulo anterior se ha considerado el estudio de un único carácter o variable. Sin embargo, es frecuente estudiar conjuntamente varios caracteres y preguntarse si existe o no algún tipo de relación entre ellos. Este capítulo se dedica al estudio de la relación entre dos caracteres. Comenzamos con la organización y resumen de la información, siguiendo un esquema análogo al establecido en el capítulo anterior, y concluímos con el estudio de la relación entre ambos. Habitualmente, cuando se tiene una muestra de una población, si es posible y no resulta especialmente costoso, se observan varias variables y/o atributos (cuanta más información se pueda obtener, siempre es mejor). En un análisis de sangre, se miden varios niveles; si se elige una muestra de personas para una encuesta, normalmente se le realizan varias preguntas, etc. A continuación, resulta lógico cuestionarse sobre qué grado de relación o dependencia existe entre las variables analizadas: ¿hay relación entre la estatura y el peso?, ¿y entre el nivel de renta y el consumo (de drogas o no)?; ¿entre la estadística y las mentiras?, ¿la política y la corrupción?, ¿la ruina y los impuestos?, ¿la pesadez de una película y el número de premios en festivales europeos?... DISTRIBUCIÓN CONJUNTA DE CARACTERES Cuando el investigador está interesado en el estudio de dos caracteres de una población, se obtienen dos observaciones para cada individuo, que se recogen en forma de pares de valores. A partir de ahora, trabajaremos con un par de variables (𝑋𝑋, 𝑌𝑌) de interés, medidas en 𝑛𝑛 individuos. pág. 67

Estadística fácil con hoja de cálculo

En vez de disponer de 𝑛𝑛 valores, tendremos pares de valores {(𝑥𝑥1 , 𝑦𝑦1 ), . . . , (𝑥𝑥𝑛𝑛 , 𝑦𝑦𝑛𝑛 )} (que podrán repetirse o no). La variable (𝑋𝑋, 𝑌𝑌) es una variable estadística bidimensional. Si tuvieramos, en general, 𝑑𝑑 variables, la variable conjunta se llamaría 𝑑𝑑 −dimensional.

La manera habitual de n individuos trabajar con datos en cualquier programa estadístico es por medio de una tabla con columnas, donde cada columna representa una variable (Excel, R, SPSS, Statgraphics... )

pág. 68

Estadística fácil con hoja de cálculo

DISTRIBUCIONES BIDIMENSIONALES En ocasiones, la variable bidimensional (𝑋𝑋, 𝑌𝑌) viene representada por una tabla de frecuencias, análoga al caso unidimensional. La tabla de frecuencias de una variable unidimensional era una tabla con los datos y las frecuencias (número de veces que aparece cada valor). Ahora la tabla de frecuencias será una tabla de doble entrada, donde 𝒏𝒏𝒊𝒊𝒊𝒊 será la frecuencia absoluta del par (𝒙𝒙𝒊𝒊 , 𝒚𝒚𝒋𝒋 ).

𝑿𝑿

𝒙𝒙𝟏𝟏

𝒀𝒀

⋮ 𝒙𝒙𝒊𝒊 ⋮

𝒙𝒙𝒓𝒓

Frecuencia marginal de 𝒀𝒀

𝒚𝒚𝟏𝟏



⋮ 𝒏𝒏𝒊𝒊𝟏𝟏

⋱ ⋯

𝒏𝒏𝟏𝟏𝟏𝟏 ⋮

𝒏𝒏𝒓𝒓𝟏𝟏 𝒏𝒏⋅𝟏𝟏

𝒚𝒚𝒋𝒋



⋮ 𝒏𝒏𝒊𝒊𝒊𝒊

⋱ ⋯



𝒏𝒏𝟏𝟏𝒋𝒋





𝒏𝒏𝒓𝒓𝒓𝒓 𝒏𝒏⋅𝒋𝒋

⋯ ⋯

𝒚𝒚𝒔𝒔

Frecuencia marginal de 𝑿𝑿

⋮ 𝒏𝒏𝒊𝒊𝒊𝒊

⋮ 𝒏𝒏𝒊𝒊⋅



𝒏𝒏𝟏𝟏𝒔𝒔







𝒏𝒏𝒓𝒓𝒓𝒓 𝒏𝒏⋅𝒔𝒔

𝒏𝒏𝟏𝟏. ⋮

𝒏𝒏𝒓𝒓⋅ 𝒏𝒏

Si 𝑋𝑋 e Y son variables numéricas, la tabla se llama tabla de correlación. Si 𝑋𝑋 e 𝑌𝑌 son (uno o los dos) atributos, la tabla se llama tabla de contingencia. Las frecuencias marginales de las variables corresponden a la suma de las frecuencias por fila/columna de cada valor: 𝑠𝑠

𝑟𝑟

𝒏𝒏𝒊𝒊. = � 𝑛𝑛𝑖𝑖𝑖𝑖 ,

𝒏𝒏.𝒋𝒋 = � 𝑛𝑛𝑘𝑘𝑘𝑘

𝑘𝑘=1

𝑘𝑘=1

Así, (𝒙𝒙𝒊𝒊 , 𝒏𝒏𝒊𝒊. ) representa la distribución marginal de la variable X (valores de X junto con el número de veces que aparece cada valor. (𝒚𝒚𝒋𝒋 , 𝒏𝒏.𝒋𝒋 ) representa la distribución marginal de la variable Y. Lógicamente: 𝑟𝑟

𝑠𝑠

𝑖𝑖=1

𝑗𝑗=1

� 𝑛𝑛𝑖𝑖. = � 𝑛𝑛.𝑗𝑗 = 𝑛𝑛 DISTRIBUCIONES MARGINALES Y CONDICIONADAS Cuando se posee información previa de una de las variables en estudio, ésta puede modificar la información disponible de la otra. En particular, cuando se considera la distribución de una variable para un valor fijo de la otra se obtiene la distribución condicionada. Veámoslo a través de un ejemplo de una tabla de contingencia (atributos). Seleccionamos 200 personas y las distribuimos según el color de los ojos y el color del cabello, resultando la siguiente tabla de contingencia 4 𝑥𝑥 3: Ojos \ Cabello pág. 69

Moreno

Rubio

Castaño

Estadística fácil con hoja de cálculo

Negro

40

16

10

16

102

46

Marrón

32

Azul Verde

20

8

64

16

42

4

22

10

6

58 36

52

n=200

La tabla de frecuencias puede venir dada en frecuencias relativas, igual que en el caso de una variable unidimensional (cada frecuencia absoluta dividida por el número de datos totales), o en porcentajes. Ojos \ Cabello

Moreno

Rubio

Castaño

Marrón

40/200 32/200

0.08

0.04

0.32

0.05 (5%)

0.08 (8%)

0.08

0.21

0.51

0.23

Negro

Azul Verde

0.1

0.02 0.05

0.11 0.03 0.26

0.29 0.18 1

Las distribuciones marginales corresponden a las distribuciones unidimensionales de la variable 𝑋𝑋 y la variable 𝑌𝑌, por separado. La distribución marginal de X se construye cogiendo los valores de la variable 𝑋𝑋 y las frecuencias 𝑛𝑛𝑖𝑖. (columna de la derecha de la tabla). La distribución marginal de 𝑌𝑌 se construye cogiendo los valores de la variable Y y las frecuencias marginales 𝑛𝑛.𝑗𝑗 (o bien las frecuencias relativas o porcentajes, según nos interese).

Distribución Marginal variable 𝑿𝑿 Ojos

𝑛𝑛𝑖𝑖.

Negro 0.32 Marrón 0.29 Azul Verde

0.21 0.18

Distribución Marginal variable 𝒀𝒀 Cabello 𝑛𝑛.𝑗𝑗 Moreno 51% Rubio 23% Castaño 26% 100%

1

La distribución de una variable condicionada a un valor particular de la otra no es más que considerar los valores de la primera variable, pero solamente relacionándola con los valores pág. 70

Estadística fácil con hoja de cálculo

particulares de la segunda. Por ejemplo, construyamos la distribución de 𝑋𝑋 condicionada a un valor particular de 𝑌𝑌 (rubio) Ojos/Cabello=Rubio

𝒏𝒏𝒊𝒊|𝒋𝒋 (notación de frecuencia absoluta condicionada para el valor j de Y) 16 4 16 10 46

Negro Marrón Azul Verde

MOMENTOS EN DISTRIBUCIONES BIDIMENSIONALES MOMENTOS RESPECTO AL ORIGEN. Se define el momento respecto al origen de orden (r,s) como

𝑎𝑎𝑟𝑟𝑟𝑟

∑𝑛𝑛𝑖𝑖=1 𝑥𝑥𝑖𝑖𝑟𝑟 𝑦𝑦𝑖𝑖 𝑠𝑠 = 𝑛𝑛

∑𝑛𝑛 𝑥𝑥 2

2 ∑𝑛𝑛 𝑖𝑖=1 𝑦𝑦𝑖𝑖

Ejemplos: 𝑎𝑎00 = 1, 𝑎𝑎10 = 𝑥𝑥̅ , 𝑎𝑎10 = 𝑦𝑦� 𝑎𝑎20 = 𝑖𝑖=1𝑛𝑛 𝑖𝑖 , 𝑎𝑎02 = Si los datos vienen expresados en tabla de frecuencias las fórmulas son: ∑𝑟𝑟𝑖𝑖=1 ∑𝑠𝑠𝑗𝑗=1 𝑥𝑥𝑖𝑖𝑟𝑟 𝑦𝑦𝑗𝑗 𝑠𝑠 𝑛𝑛𝑖𝑖𝑖𝑖 𝑎𝑎𝑟𝑟𝑟𝑟 = 𝑁𝑁 ∑𝑠𝑠𝑗𝑗=1 𝑦𝑦𝑗𝑗 𝑛𝑛∙𝑗𝑗 ∑𝑟𝑟𝑖𝑖=1 𝑥𝑥𝑖𝑖 𝑛𝑛𝑖𝑖∙ 𝑎𝑎10 = 𝑥𝑥̅ = , 𝑎𝑎01 = 𝑦𝑦� = 𝑁𝑁 𝑁𝑁 ∑𝑠𝑠𝑗𝑗=1 𝑦𝑦𝑗𝑗2 𝑛𝑛∙𝑗𝑗 ∑𝑟𝑟𝑖𝑖=1 𝑥𝑥𝑖𝑖2 𝑛𝑛𝑖𝑖∙ , 𝑎𝑎02 = 𝑎𝑎20 = 𝑁𝑁 𝑁𝑁

𝑛𝑛

MOMENTOS CENTRALES O RESPECTO A LAS MEDIAS

Se define el momento respecto a la media de orden (r,s) como ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )𝑟𝑟 (𝑦𝑦𝑖𝑖 − 𝑦𝑦�)𝑠𝑠 𝑚𝑚𝑟𝑟𝑟𝑟 = 𝑛𝑛 Ejemplos: 𝑚𝑚00 = 1, 𝑚𝑚10 = 𝑚𝑚01 = 0, ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 ∑𝑛𝑛𝑖𝑖=1(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2 = 𝑆𝑆𝑥𝑥2 𝑚𝑚02 = = 𝑆𝑆𝑦𝑦2 𝑚𝑚20 = 𝑛𝑛 𝑛𝑛 ∑𝑛𝑛𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )1 (𝑦𝑦𝑖𝑖 − 𝑦𝑦�)1 𝑚𝑚11 = = 𝑆𝑆𝑥𝑥𝑥𝑥 (𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐) 𝑛𝑛 Si los datos vienen expresados en tabla de frecuencias: 𝑚𝑚𝑟𝑟𝑟𝑟 =

𝑚𝑚20 = pág. 71

∑𝑟𝑟𝑖𝑖=1 ∑𝑠𝑠𝑗𝑗=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )𝑟𝑟 (𝑦𝑦𝑖𝑖 − 𝑦𝑦�)𝑠𝑠 𝑛𝑛𝑖𝑖𝑖𝑖

∑𝑟𝑟𝑖𝑖=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 𝑛𝑛𝑖𝑖∙ = 𝑆𝑆𝑥𝑥2 𝑁𝑁

𝑁𝑁

𝑚𝑚02 =

∑𝑠𝑠𝑗𝑗=1(𝑦𝑦𝑗𝑗 − 𝑦𝑦�)2 𝑛𝑛∙𝑗𝑗 𝑁𝑁

= 𝑆𝑆𝑦𝑦2

Estadística fácil con hoja de cálculo

𝑚𝑚11 =

∑𝑟𝑟𝑖𝑖=1 ∑𝑠𝑠𝑗𝑗=1(𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )1 (𝑦𝑦𝑖𝑖 − 𝑦𝑦�)1 𝑛𝑛𝑖𝑖𝑖𝑖

REPRESENTACIONES GRÁFICAS

𝑁𝑁

= 𝑆𝑆𝑥𝑥𝑥𝑥

REPRESENTACIONES 3D Si ambas variables 𝑿𝑿 e 𝒀𝒀 son cuantitativas discretas, se puede realizar un diagrama de barras en tres dimensiones. Si ambas variables 𝑿𝑿 e 𝒀𝒀 son cuantitativas continuas, el histograma visto para una variable puede generalizarse para este caso, y obtener una representación tridimensional. En ambos casos se levanta una barra de altura la frecuencia (absoluta o relativa). Ahora, la barra, en vez de corresponder a un valor 𝒙𝒙𝒊𝒊 concreto, será del par (𝒙𝒙𝒊𝒊 , 𝒚𝒚𝒊𝒊 ) (esto para el diagrama de barras). En el caso del histograma 3d tendremos que la altura de la barra será proporcional al número de datos del rectángulo cuyos lados son [𝒂𝒂𝒊𝒊 , 𝒂𝒂𝒊𝒊+𝟏𝟏 ] × [𝒃𝒃𝒋𝒋 , 𝒃𝒃𝒋𝒋+𝟏𝟏 ] (en donde los intervalos [𝒂𝒂𝒊𝒊 , 𝒂𝒂𝒊𝒊+𝟏𝟏 ] corresponden a la clasificación de la variable 𝑿𝑿 en intervalos, y los [𝒃𝒃𝒋𝒋 , 𝒃𝒃𝒋𝒋+𝟏𝟏 ] a la clasificación de la variable 𝒀𝒀). El sentido de las gráficas es el mismo que en el caso unidimensional: cuantos más datos hay en una cuadrícula, se levanta un prisma rectangular más grande.

DIAGRAMA DE DISPERSIÓN O NUBE DE PUNTOS Si ambas variables 𝑋𝑋 e 𝑌𝑌 son numéricas, la representación de los pares (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ) en un plano recibe el nombre de nube de puntos o, también, diagrama de dispersión. En la Figura 32 dibujamos los valores correspondientes a las variables 𝑌𝑌=“muertes por cirrosis” frente a pág. 72

Estadística fácil con hoja de cálculo

𝑋𝑋=“consumo de alcohol (per cápita)” del fichero datos-consumo-alcohol.txt (fichero que contiene datos de varias poblaciones, consumo de vino y licores, y muerte por cirrosis. Obtenido de los libros de Spaeth y Brownlee. Se puede consultar más información en el fichero http://alejandroquintela.com/libro-excel/datos/informacion-datos-consumo-alcohol.txt).

DEPENDENCIA E INDEPENDENCIA ESTADÍSTICA Entre dos variables o atributos puede ocurrir que exista independencia, dependencia funcional (matemática) o dependencia estadística. Por ejemplo:  Altura y renta mensual de los trabajadores de Mercamona (independencia)  Minutos de llamadas y factura mensual (dependencia funcional o matemática)  Número de premios de una película en festivales y el sopor que provoca en espectadores normales (dependencia estadística).  Política y Corrupción (dependencia estadística) Intuitivamente, dos variables (o atributos) son independientes si los valores que toma una variable no están influenciados por los de la otra.

Figura 32

REGRESIÓN

pág. 73

Estadística fácil con hoja de cálculo

Cuando se estudian dos variables que no son estadísticamente independientes, interesa estudiar la relación entre ellas Por ejemplo, nos puede interesar estudiar la relación entre las variables • ¿estatura y peso? • ¿comida y colesterol? • ¿sexo y osteoporosis? CENTRO DE GRAVEDAD DE LA NUBE DE PUNTOS El punto que viene determinado por la media de 𝑋𝑋 y la media de 𝑌𝑌 constituye el centro de gravedad de la nube de puntos (punto más grueso y otro color en Figura 33). Como podemos observar en el diagrama de dispersión, cuando la variable 𝑋𝑋 (consumo de alcohol) crece, parece que también crece la variable 𝑌𝑌 (muerte por cirrosis). La verdad o no de tal relación es lo que pretendemos estudiar, así como la forma de medir matemáticamente la misma. COVARIANZA. CORRELACIÓN LINEAL La covarianza viene dada por la expresión 𝑛𝑛 1 𝑆𝑆𝑥𝑥𝑥𝑥 = 𝑚𝑚11 = � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�). 𝑛𝑛 𝑖𝑖=1

𝑆𝑆𝑥𝑥𝑥𝑥 es una medida simétrica (porque es igual a 𝑆𝑆𝑦𝑦𝑦𝑦 ) y se puede leer como la suma de los productos de las desviaciones de 𝑋𝑋 por las desviaciones de 𝑌𝑌 con respecto a sus respectivas medias. Si el signo de la desviación de 𝑋𝑋 coincide con la de 𝑌𝑌, como ocurre en el primer y tercer cuadrante (ver Figura 33), se genera un sumando positivo; y cuando el signo es distinto -segundo y cuarto cuadrante- la aportación a la covarianza es negativa. Veamos: • por primer cuadrante entendemos los puntos (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ) donde 𝑥𝑥𝑖𝑖 > 𝑥𝑥̅ e 𝑦𝑦𝑖𝑖 > 𝑦𝑦�. • Por tercer cuadrante los puntos (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ) donde 𝑥𝑥𝑖𝑖 < 𝑥𝑥̅ e 𝑦𝑦𝑖𝑖 < 𝑦𝑦�. • Por segundo cuadrante los puntos (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ) donde 𝑥𝑥𝑖𝑖 > 𝑥𝑥̅ e 𝑦𝑦𝑖𝑖 < 𝑦𝑦�, y • por cuarto cuadrante los puntos (𝑥𝑥𝑖𝑖 , 𝑦𝑦𝑖𝑖 ) donde 𝑥𝑥𝑖𝑖 < 𝑥𝑥̅ e 𝑦𝑦𝑖𝑖 > 𝑦𝑦�.

Entonces, en el primer y tercer cuadrante (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) siempre es un número mayor o igual a cero, en cambio en el segundo y cuarto cuadrante, (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )(𝑦𝑦𝑖𝑖 − 𝑦𝑦�) siempre es un número menor o igual a cero. Por lo tanto, la concentración de valores en los distintos cuadrantes determina el signo y el valor de 𝑆𝑆𝑥𝑥𝑥𝑥 . La covarianza mide, pues, la cantidad de relación lineal entre las variables y el sentido de ésta, de la forma:

𝑆𝑆𝑥𝑥𝑥𝑥 > 0, relación lineal positiva (si crece una variable, la otra también). 𝑆𝑆𝑥𝑥𝑥𝑥 < 0, relación lineal negativa (si crece una variable, la otra decrece). 𝑆𝑆𝑥𝑥𝑥𝑥 = 0, no hay relación lineal entre las variables. De la simple observación de la nube de puntos podemos deducir que existe una relación lineal positiva entre las dos variables. En la Figura 33 vemos que, si crece el consumo de alcohol, crece el porcentaje de fallecimientos. También vemos que esa relación podría venir caracterizada, matemáticamente, mediante una linea recta. Si calculamos la covarianza 𝑆𝑆𝑥𝑥𝑥𝑥 nos dará un número positivo (en este caso, 𝑺𝑺𝒙𝒙𝒙𝒙 = 𝟏𝟏𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎𝟎𝟎). De todas formas, el número que pág. 74

Estadística fácil con hoja de cálculo

Figura 33

resulte es de dificil interpretación, puesto que depende de las unidades en que vengan expresadas las variables. Es por ello que, en vez de trabajar con la covarianza, se trabaja con el llamado coeficiente de correlación (o coeficiente de correlación lineal de Pearson) (el mismo Pearson del que hablamos en el capítulo anterior, que no solía perderse ningún botellón estadístico). CARACTERÍSTICAS DE LA COVARIANZA. Si construimos 2 nuevas variables 𝒁𝒁 = 𝒂𝒂 + 𝒃𝒃𝒃𝒃, 𝑾𝑾 = 𝒄𝒄 + 𝒅𝒅𝒅𝒅, entonces: 𝐶𝐶𝐶𝐶𝐶𝐶(𝑍𝑍, 𝑊𝑊) = 𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏(𝑋𝑋, 𝑌𝑌). Como vemos, la covarianza no es una medida invariante ante cambios de escala (si ante cambios de origen o traslación de datos) COEFICIENTE DE CORRELACIÓN DE PEARSON

por

El coeficiente de correlación lineal o coeficiente de correlación de Pearson viene dado

𝑆𝑆𝑥𝑥𝑥𝑥 , 𝑆𝑆𝑥𝑥 𝑆𝑆𝑦𝑦 que es una medida adimensional, siempre toma valores en el intervalo [−𝟏𝟏, 𝟏𝟏] y tiene el signo de 𝑆𝑆𝑥𝑥𝑥𝑥 . Por lo tanto, se verifica: - cuando la relación lineal entre 𝑋𝑋 e 𝑌𝑌 es exacta y directa, es decir, todos los puntos se encuentran sobre una recta con pendiente positiva, 𝑟𝑟 vale 1. - cuando la relación lineal es exacta e inversa, es decir, todos los puntos se encuentran sobre una recta con pendiente negativa, 𝑟𝑟 vale −1. - los valores intermedios (0 < 𝑟𝑟 < 1 o −1 < 𝑟𝑟 < 0) darán lugar a que los puntos se aproximen más o menos a una recta que pasa por el medio de los mismos. cuando no hay relación lineal, 𝑟𝑟 vale 0.Este último caso se llama incorrelación, y se dice que las variables están incorreladas. Los distintos casos aparecen representados en la Figura 34. 𝜌𝜌 = 𝑟𝑟 =

pág. 75

Estadística fácil con hoja de cálculo

El coeficiente de correlación lineal r también verifica que es invariante ante cambios de escala y origen, es decir, si construimos 2 nuevas variables 𝒁𝒁 = 𝒂𝒂 + 𝒃𝒃𝒃𝒃, 𝑾𝑾 = 𝒄𝒄 + 𝒅𝒅𝒅𝒅, entonces:

𝑟𝑟(𝑍𝑍,𝑊𝑊) = 𝑟𝑟(𝑋𝑋,𝑌𝑌) .

Figura 34

Al cuadrado de 𝑟𝑟 se le llama coeficiente de determinación, y se le denota por 𝑟𝑟 2 . Lógicamente, se verifica 2

0 ≤ 𝑟𝑟 ≤ 1

y, cuánto más próximo esté 𝑟𝑟 2 a 1, mayor es la relación lineal existente entre las variables, y menor cuanto más próximo esté 𝑟𝑟 2 a 0. Se concluye este apartado indicando que la independencia implica incorrelación, pero el recíproco no siempre es cierto (recordemos que la incorrelación se refiere a ausencia de relación lineal. Dos variables pueden estar relacionadas muy fuertemente mediante una función diferente a una lineal, y la incorrelación puede ser cero). Un ejemplo lo tenemos en la variable que aparece en la Figura 35, donde las variables 𝑋𝑋 e 𝑌𝑌 están relacionadas por una función, pero si se calcula el valor de la correlación lineal 𝑟𝑟 da cero.

Figura 35

pág. 76

Estadística fácil con hoja de cálculo

AJUSTE Y REGRESIÓN BIDIMENSIONAL Considerada una serie estadística (𝑥𝑥1 , 𝑦𝑦1 ), … , (𝑥𝑥𝑛𝑛 , 𝑦𝑦𝑛𝑛 ), procedente de una distribución (𝑋𝑋, 𝑌𝑌), el problema que se denomina ajuste de una nube de puntos o regresión bidimensional consiste en encontrar alguna relación que exprese los valores de una variable en función de los de la otra. La cuestión será elegir la mejor función, y determinar los parámetros (fórmula) de la misma. Esta relación podrá ser utilizada, posteriormente, para hacer predicciones aproximadas; por ejemplo, para hacer previsiones de ventas a corto o medio plazo, estimar el volumen de cosecha en función de la lluvia caída, etc... La elección de la función particular que mejor se adapte a las variables es el primer problema que habrá que solventar. En un principio, la observación de la nube de puntos puede dar una idea de la evolución de los valores de la variable dependiente (a partir de ahora 𝑌𝑌) en función de los de la independiente (𝑋𝑋).

CASO LINEAL Sean (𝑥𝑥1 , 𝑦𝑦1 ), (𝑥𝑥2 , 𝑦𝑦2 ), ⋯ , (𝑥𝑥𝑛𝑛 , 𝑦𝑦𝑛𝑛 ) los valores observados, y supongamos que la nube de puntos nos indica que la función lineal (recta) puede ser una buena forma de “ajustar los datos”. Sea 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 la recta de ajuste de los valores de 𝑌𝑌 en función de los de 𝑋𝑋. Esta recta se llama recta de regresión, y sirve para “predecir”el valor de 𝑌𝑌 para un valor nuevo de la variable 𝑋𝑋. Consideremos otra vez el ejemplo de la sección anterior (𝑌𝑌 muertes por cirrosis, 𝑋𝑋 consumo de alcohol). En la nube de puntos intuímos que la línea recta podría ser un buen ajuste para los datos, y en la Figura 36 vemos un ejemplo de tres posibles rectas que se “acercan” a la nube de puntos (obviamente podríamos dibujar muchas más). Para calcular la “mejor recta” se utiliza el método de los mínimos cuadrados. Consiste en lo siguiente: para cada punto de la nube (𝑥𝑥𝑖𝑖, 𝑦𝑦𝑖𝑖 ) se considera el llamado residuo, que es la distancia entre dicho punto y su correspondiente en la recta, es decir (𝑥𝑥𝑖𝑖 , 𝑦𝑦�𝑖𝑖 ), donde 𝑦𝑦�𝑖𝑖 es el valor predicho por la ecuación de la recta (ver Figura 37). pág. 77

Estadística fácil con hoja de cálculo

Figura 36

Ahora se considera la función de dos variables que mide la suma de todos los residuos para todos los puntos de la nube, elevados al cuadrado para evitar que se compensen residuos positivos con negativos: 𝑛𝑛

𝑛𝑛

𝐹𝐹(𝑎𝑎, 𝑏𝑏) = � (𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 ) = � (𝑦𝑦𝑖𝑖 − (𝑎𝑎 + 𝑏𝑏𝑥𝑥𝑖𝑖 ))2 . 𝑖𝑖=1

2

𝑖𝑖=1

Los parámetros 𝑎𝑎 y 𝑏𝑏 de la recta se obtendrán como aquellos valores que minimizan la función 𝐹𝐹. Matemáticamente, para minimizar esta función hay que diferenciar respecto a los parámetros 𝑎𝑎 y 𝑏𝑏, y después igualar a cero. 𝜕𝜕𝜕𝜕(𝑎𝑎, 𝑏𝑏) = 0, 𝜕𝜕𝜕𝜕 𝜕𝜕𝐹𝐹(𝑎𝑎, 𝑏𝑏) =0 𝜕𝜕𝜕𝜕 Resulta un sistema de dos ecuaciones con dos incógnitas, que se resuelve y se obtiene 𝑆𝑆𝑥𝑥𝑥𝑥 𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅ , 𝑏𝑏 = 2 𝑆𝑆𝑥𝑥 Quedando la ecuación de la recta de regresión de 𝑌𝑌 sobre 𝑋𝑋 con una expresión fácil de recordar: 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 𝑆𝑆𝑥𝑥𝑥𝑥 𝑦𝑦 − 𝑦𝑦� = 2 (𝑥𝑥 − 𝑥𝑥̅ ) 𝑆𝑆𝑥𝑥 Análogamente, si cambiamos los papeles de la variable 𝑋𝑋 y la variable 𝑌𝑌, es decir nos interesa predecir la 𝑋𝑋 en función de la 𝑌𝑌, estaremos hablando de la regresión de 𝑿𝑿 sobre 𝒀𝒀 (por ejemplo, antes podíamos estar interesados en expresar el peso 𝑌𝑌 en función de la estatura 𝑋𝑋, y ahora podríamos querer expresar la estatura 𝑋𝑋 en función del peso 𝑌𝑌). La recta tendrá ahora la forma: 𝑥𝑥 = 𝑎𝑎1 + 𝑏𝑏1 𝑦𝑦 pág. 78

Estadística fácil con hoja de cálculo

Figura 37

De nuevo, para calcular los parámetros de la recta, minimizaremos los residuos al cuadrado. La función ahora será 1

𝐹𝐹(𝑎𝑎 , 𝑏𝑏

1)

𝑛𝑛

2

= � �𝑥𝑥𝑖𝑖 − (𝑎𝑎1 + 𝑏𝑏1 𝑦𝑦𝑖𝑖 )� 𝑖𝑖=1

y las expresiones que resultan son equivalentes a las anteriores, pero cambiando los papeles de 𝑋𝑋 y de 𝑌𝑌. 𝑆𝑆𝑥𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥̅ = 2 (𝑦𝑦 − 𝑦𝑦�) 𝑆𝑆𝑦𝑦 𝑆𝑆𝑥𝑥𝑥𝑥 𝑎𝑎1 = 𝑥𝑥̅ − 𝑏𝑏1 𝑦𝑦�, 𝑏𝑏1 = 2 . 𝑆𝑆𝑦𝑦

Nota: A veces una variable depende de otra, pero no a la inversa. Por ejemplo, un descenso de temperatura puede influir en un aumento del consumo eléctrico (por las estufas), pero un aumento del consumo eléctrico no influirá en el descenso de temperatura. De hecho, el aumento del consumo eléctrico podrá relacionarse tanto con un descenso de temperatura como con un aumento (si hace más calor, aumentará el uso del aire acondicionado).

EJEMPLO 19 Un determinado partido político se plantea el problema de hasta qué punto le pueden compensar los gastos de la campaña para las futuras elecciones, puesto que, como los candidatos son siempre los mismos, han de dedicar cada vez más dinero a cirugía estética, Photoshop y sobornos. En las últimas elecciones, los gastos y el número de diputados elegidos han sido: Gastos (× 𝟏𝟏𝟏𝟏𝟑𝟑 𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆𝒆) 1500 1750 3250 4000 5000

Diputados elegidos 30 40 40 60 80

El comité electoral del partido está estudiando la posibilidad de un presupuesto de propaganda de diez millones de euros. pág. 79

Estadística fácil con hoja de cálculo

a) ¿Cuál será el número de diputados que serían elegidos de ese partido de acuerdo con ese presupuesto, si la imagen del partido no varía respecto a las elecciones anteriores? b) ¿Con qué confianza se puede esperar ese resultado? c) ¿Cuál sería el porcentaje de causas diferentes a los gastos que influirían en las elecciones?

SOLUCIÓN. Para resolver problemas donde tengamos 2 variables, con los datos de cada una de ellas en una columna, lo más cómodo será utilizar la plantilla línea-regresión.xlsx, que nos va a dibujar el diagrama de dispersión, junto con la línea de regresión de 𝑌𝑌 sobre 𝑋𝑋 y el coeficiente de determinación. Ojo: si queremos calcular la recta de 𝑋𝑋 sobre 𝑌𝑌 habrá que abrir la plantilla otra vez y permutar las variables (donde metimos la 𝑋𝑋 ahora metemos la 𝑌𝑌, y vicevers Introducimos pues los datos en la plantilla. En la Figura 38 vemos el diagrama de dispersión, junto con la recta de regresión de 𝑌𝑌 sobre 𝑋𝑋, y el coeficiente de correlación lineal al cuadrado.

Figura 38

pág. 80

𝑦𝑦 = 0.0125𝑥𝑥 + 11.36 𝑟𝑟² = 0.8569

Estadística fácil con hoja de cálculo

a) Según la recta de regresión, el número de diputados estimado será 𝑦𝑦 = 0.0125 ∙ 10000 + 11.36 = 136.36, o sea entre 136 y 137 diputados. b) La confianza la da el coeficiente de determinación, que es un número entre 0 y 1, multiplicado por cien. Por lo tanto, la confianza de la aproximación lineal será de un 85,69 por ciento. c) 100 – 85.69 = 14.31 por ciento es el porcentaje de causas diferentes a los gastos.

NOTAS HISTÓRICAS E INTERESANTES El término "regresión" lo utilizó por primera vez Francis Galton, en el siglo XIX, para describir un fenómeno biológico. El fenómeno fue que las alturas de los descendientes de ancestros altos tienden a regresar hacia abajo, hacia un promedio normal (lo que se llama regresión hacia la media ).Para Galton, la regresión sólo tenía este significado biológico, pero su trabajo sería ampliado posteriormente por Udny Yule y Karl Pearson a un contexto estadístico más general. Francis Galton (primo lejano de Darwin) ha pasado a la historia de la ciencia por dos cuestiones fundamentales: primero por su conceptualización de un misterio matemático: la regresión hacia la media, para lo que necesitó del mejor estadístico de su época (Karl Pearson) y la otra una palabra de infame recuerdo para nosotros los europeos, la eugenesia, que tanto relacionamos con las aniquilaciones étnicas que llevó a cabo del III Reich. El fenómeno de la regresión a la media es fácilmente constatable científicamente con hechos como el del siguiente ejemplo, que fue el que motivo a Galton: la altura de los padres correlaciona linealmente con la estatura de los hijos, pero la estatura de los hijos tiende a la media. Es decir, el hijo de unos padres muy altos es muy probable que sea más bajo que ellos. Es mejor decir que existe una correlación entre su altura y la media de ambos padres. En realidad la correlación es el fenómeno oculto de la regresión a la media (que Galton llamaba regresión hacia la mediocridad. LA IMPORTANCIA DE LA REGRESIÓN A LA MEDIA EN ENTORNOS EDUCATIVOS Y MÉDICOS (Kahneman 2012) expone: “La regresión a la media se da en todas las circunstancias donde se dan medidas extremas y tiene consecuencias predictivas de mucho interés, por ejemplo en los rendimientos escolares, deportivos o en cualquier otra prestación donde los resultados pueden cuantificarse. Por ejemplo, si en un primer examen un niño saca un 10 y otro saca un 2, siendo la nota media de la clase un 5, es bastante posible que en un segundo examen el que sacó un 10 disminuya su nota mientras que el que sacó un 2 las aumente, pues las puntuaciones tienden a igualarse buscando la mediocridad (la media). Pero lo más interesante de esta cuestión es que esta regresión va a darse igual tanto si animamos o reprendemos al suspendido como si nos dedicamos a lisonjear al sobresaliente. Algo que va en contra de nuestras intuiciones pedagógicas. En ellas tendemos a “echar la bronca” a los que quedan por debajo de la media y a alabar los buenos rendimientos de los que se salen por arriba, sin caer en la cuenta de que nuestros esfuerzos no sirven de nada cuando estamos enfrentando puntuaciones extremas. Lo cual no quiere decir que la motivación, el apoyo o el empoderamiento no sean buenas estrategias pedagógicas, sino que solo sirven en las medianías y no en los casos extremos. pág. 81

Estadística fácil con hoja de cálculo

Y como tenemos tendencia a premiar a los buenos y a castigar a los malos estamos condenados a cosechar decepciones por parte de los buenos (y con los que somos mas agradables) y sorpresas agradables con aquellos con los que somos desagradables.”

PROBLEMAS CON LA PREDICCIÓN La predicción usando una recta de regresión tiene claros problemas. Uno es el de la extrapolación (salirnos de los límites del rango de valores analizado). Un ejemplo clásico es el de los récords humanos. En la siguiente figura aparece una gráfica de los récords mundiales en la competición de los 100 metros lisos (tiempo realizado frente al año de la carrera), junto con la recta de mínimos cuadrados (el valor que se obtiene para 𝑟𝑟 2 es 0.94). El fichero de datos, que puede bajarse de la web, es record-100-m.txt.

pág. 82

Estadística fácil con hoja de cálculo

Como sabemos, la marca mundial de los 100 metros lisos ha ido disminuyendo con el paso de los años. Si calculamos la recta de regresión que relacione 𝑋𝑋=“año” e 𝑌𝑌=“tiempo récord para recorrer los 100 metros”, podríamos predecir cual sería el año en que se llegaría a un tiempo de 0 segundos, o incluso un tiempo negativo. Es evidente que este tipo de previsiones no tiene sentido, puesto que los valores mínimos de 𝑌𝑌 para los años actuales parece muy difícil rebajarlos. En Internet pueden encontrarse estudios de cuál es la función más adecuada para el ajuste de estas variables, con el fin de obtener una posible predicción dentro de límites razonables.

OTROS AJUSTES A través del dibujo de la nube de puntos podemos, en muchas ocasiones, intuir que existirán mejores funciones que la línea recta (que es la más sencilla de todas) para explicar la variable 𝑌𝑌 en función de la variable 𝑋𝑋. El proceso de elegir la mejor función no tiene por qué ser sencillo ni simple. Debemos tener también en cuenta que quizá no haya una única variable 𝑋𝑋 influyendo en la variable 𝑌𝑌, sino que pueden existir diferentes variables explicativas 𝑋𝑋1 , 𝑋𝑋2 , . . . , 𝑋𝑋𝑘𝑘 que sean necesarias para poder establecer predicciones de la variable 𝑌𝑌 de interés. Si se dispone de una gráfica como la de la Figura 39, la nube de puntos no da la idea de ajustar una recta a la misma, sino una función más variable; un polinomio, tal vez, pero no es fácil de intuir a simple vista. La verdadera función, que es la que aparece en la figura, corresponde a un polinómio de grado 6. El problema de la regresión puede complicarse notablemente, y existen muchos textos con los procedimientos analíticos necesarios para una resolución completa, que se escapan totalmente del ámbito de este texto. Únicamente comentaremos que, utilizando el método de los mínimos cuadrados, se pueden ajustar muchos otros tipos de funciones a una nube de puntos, y también se pueden calcular coeficientes que nos midan la calidad del ajuste de la curva a los puntos (similares al coeficiente de determinación, que también suelen denotarse como 𝑅𝑅 2 y varían entre 0 y 1, siendo tanto mejor el ajuste cuanto más se aproxime 𝑅𝑅 2 a 1). A continuación, vemos algunos ejemplos, sólo a titulo de muestra. Para ampliar bastante más todos estos conceptos puede consultarse el texto de Draper y Smith, por poner un ejemplo.

Figura 39

pág. 83

Estadística fácil con hoja de cálculo

BONDAD DEL AJUSTE Recordemos que, para calcular la recta de regresión, minimizamos la función de residuos al cuadrado. Para una función general 𝑓𝑓 puede hacerse lo mismo (Figura 40): siendo

𝑛𝑛

𝑛𝑛

𝑖𝑖=1

𝑖𝑖=1

𝐹𝐹(𝑎𝑎, 𝑏𝑏) = � (𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2 = � �𝑦𝑦𝑖𝑖 − 𝑓𝑓(𝑥𝑥𝑖𝑖 ))�

2

𝑦𝑦𝑖𝑖 los valores observados de 𝑌𝑌, 𝑦𝑦�𝑖𝑖 los valores teóricos asignados en la regresión, 𝑒𝑒𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 los residuos.

Figura 40

Sus valores medios: La media de la serie observada

La media de los residuos

𝑛𝑛

1 �𝑦𝑦 = � 𝑦𝑦𝑖𝑖 𝑛𝑛 𝐼𝐼=1

𝑛𝑛

𝑛𝑛

1 1 𝑒𝑒̅ = � 𝑒𝑒𝑖𝑖 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 ) = 0 𝑛𝑛 𝑛𝑛 𝐼𝐼=1

La media de los valores teóricos 𝑛𝑛

𝑛𝑛

𝐼𝐼=1

1 1 𝑦𝑦�� = � 𝑦𝑦�𝑖𝑖 = �(𝑦𝑦𝑖𝑖 − 𝑒𝑒𝑖𝑖 ) = 𝑦𝑦� − 𝑒𝑒̅ = 𝑦𝑦� 𝑛𝑛 𝑛𝑛 𝐼𝐼=1

𝐼𝐼=1

Sus varianzas: Varianza total de los valores observados, que mide la variación de Y en la distribución marginal observada 𝑆𝑆𝑦𝑦2

𝑛𝑛

1 1 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�)2 = 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑛𝑛 𝐼𝐼=1

La varianza de los errores o residuos, que mide la variación entre los valores teóricos y los observados, es decir la dispersión que queda fuera de la recta de regresión. pág. 84

Estadística fácil con hoja de cálculo

𝑆𝑆𝑒𝑒2

𝑛𝑛

1 1 = �(𝑦𝑦𝑖𝑖 − 𝑦𝑦�𝑖𝑖 )2 = 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑛𝑛 𝐼𝐼=1

La varianza debido a la regresión o varianza de los valores teóricos, que recoge la dispersión de los valores de la regresión 𝑆𝑆𝑦𝑦2� =𝑆𝑆𝑅𝑅2

𝑛𝑛

1 1 = �(𝑦𝑦�𝑖𝑖 − 𝑦𝑦��)2 = 𝑆𝑆𝑆𝑆𝑆𝑆 𝑛𝑛 𝑛𝑛 𝐼𝐼=1

Si la función que se ha ajustado mediante la regresión pasa por todos los puntos, es decir, los residuos son todos nulos, el grado de dependencia entre las variables es el máximo posible. Por el contrario, cuanto más grandes sean los residuos, menor será la dependencia expresada por la función. Así, en general, para medir el grado de acierto de la utilización de la regresión, o para dar una medida de la bondad del ajuste, se define el coeficiente de determinación general 𝑹𝑹𝟐𝟐 que nos indicará el porcentaje de variabilidad de Y que queda explicado por la regresión. 𝑆𝑆𝑦𝑦2� 𝑆𝑆𝑆𝑆𝑆𝑆 2 𝑅𝑅 = 2 = 𝑆𝑆𝑦𝑦 𝑆𝑆𝑆𝑆𝑆𝑆 Se puede demostrar que este número siempre varía entre 0 y 1. Por lo tanto, multiplicado por 100, tendremos la confianza al aproximar la variable Y mediante la función 𝑓𝑓 que hayamos calculado por el método de los mínimos cuadrados. 0 ≤ 𝑅𝑅 2 ≤ 1 EJEMPLO 20 Con el éxito creciente de la franquicia “A todo gas (Fast & Furious)”, cantidades ingentes de idiotas se están lanzando a hacer carreras de coches e imitar lo que ven en las películas, creyendo que son escenas reales. Después del rodaje de la sexta película en las islas Canarias, un fisioterapeuta local está comprobando que su negocio crece día a día. A través de las variables 𝑿𝑿=“número de accidentados por hacer gansadas, que acuden a su clínica” e 𝒀𝒀=“ganancias en euros”, se está planteando contratar personal nuevo, puesto que las ganancias, lógicamente crecientes en función del número de lesionados, parecen no sólo regirse por una relación de tipo lineal creciente, sino incluso parabólica. Los datos que tiene en el ordenador, para cada una de las variables antes mencionadas, son: X Y X Y 2 612 35 13561 4 2256 36 14657 7 1665 39 13517 10 2830 41 15057 14 3386 43 17210 18 8096 45 15642 24 7056 47 17881 27 10381 50 18154 30 10982 53 24211 32 12037 55 30125 Comprobar si una relación de tipo parabólico entre las variables podría darle un mejor nivel de predicción de ganancias que una relación simplemente lineal. SOLUCIÓN. Puede verse en la Figura 41 la nube de puntos, junto con tres funcionadas ajustadas por mínimos cuadrados: pág. 85

Estadística fácil con hoja de cálculo

- una línea recta 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 - un polinomio de grado dos 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏 + 𝑐𝑐𝑥𝑥 2 - una función exponencial 𝑦𝑦 = 𝑎𝑎𝑒𝑒 𝑏𝑏∙𝑥𝑥 El ajuste de otro tipo de funciones se realiza también por mínimos cuadrados, y el cálculo del coeficiente de determinación 𝑅𝑅 2 (como medida de la bondad del ajuste) se realiza de la forma vista arriba:

𝑆𝑆𝑒𝑒2 𝑆𝑆𝑦𝑦2� 𝑅𝑅 = 1 − 2 = 2 , 𝑆𝑆𝑦𝑦 𝑆𝑆𝑦𝑦 2

esto es, corresponde a la varianza de los valores predichos por la ecuación que se ajuste dividido por la varianza de los valores originales de la variable Y. El Excel o cualquier otro paquete estadístico nos realiza el cálculo automáticamente, y la función que mejor se ajusta es la que tenga un coeficiente 𝑅𝑅 2 más próximo a 1.

Figura 41

El Excel permite realizar ajustes de las siguientes funciones: lineal, exponencial, logarítmica, potencial, polinómica y de media móvil. La manera de hacerlo es bien sencilla. Una vez que se ha realizado un gráfico de dispersión de 2 variables X e Y, se pincha con el botón izquierdo de ratón algún punto de la nube, con lo que se marcará esta . A continuación, dándole al botón derecho del ratón, aparecerán una serie de opciones, entre las que se encuentra “Agregar línea de tendencia… “. Aparecerá el menú correspondiente a la derecha, donde podremos seleccionar la opción que deseemos y decirle si queremos que la ecuación y el 𝑅𝑅 2 aparezca en el gráfico, etc. (Figura 42).

pág. 86

Estadística fácil con hoja de cálculo

Figura 42

CORRELACIÓN NO IMPLICA CAUSALIDAD EJEMPLO 3 En una capital española se fue anotando el número de habitantes que compraron un Ibad (variable 𝑿𝑿) y el número de incapacitados por enfermedad psiquiátrica grave (𝒀𝒀), durante una serie de meses. 𝑿𝑿 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟐𝟐𝟐𝟐𝟐𝟐𝟐𝟐 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑 𝟑𝟑𝟑𝟑𝟑𝟑𝟑𝟑 𝟒𝟒𝟒𝟒𝟒𝟒𝟒𝟒 𝟓𝟓𝟓𝟓𝟓𝟓𝟓𝟓 𝟔𝟔𝟔𝟔𝟔𝟔𝟔𝟔 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕 𝟕𝟕𝟕𝟕𝟕𝟕𝟕𝟕 𝒀𝒀 𝟖𝟖 𝟖𝟖 𝟗𝟗 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏 𝟑𝟑𝟑𝟑 𝟐𝟐𝟐𝟐 Calcular el coeficiente de determinación entre las dos variables en estudio, y explicar el resultado. SOLUCIÓN. Haciendo los cálculos, se obtiene que el coeficiente de determinación 𝑅𝑅 2 = 0.85. Se deja como ejercicio para el lector dibujar la nube de puntos y ver que se aprecia un buen ajuste por medio de una línea recta creciente, esto es, crece el número de Ibad, crece el número de enfermos. Resulta claro que se trata de dos variables con números inventados a propósito para que salga un valor alto de la correlación lineal. Evidentemente, puede ocurrir que se calcule este coeficiente para cualesquiera dos variables elegidas al azar y se obtenga un valor alto, pero quien haga un estudio debe preocuparse de seleccionar variables que tenga sentido relacionar entre sí.

pág. 87

Estadística fácil con hoja de cálculo

OTROS ASPECTOS A TENER EN CUENTA Algunos ejemplos tomados de la literatura estadística (resumidos en la wikipedia) dan idea de errores comunes y detalles que cualquier investigador debe considerar siempre que relacione dos variables. Los siguientes son ejemplos de conclusiones erróneas obtenidas de una mala interpretación de la correlación entre dos variables. - Dormir sin quitarse los zapatos tiene una alta correlación con despertarse con dolor de cabeza. Por lo tanto, el dormir con los zapatos puestos ocasiona levantarse con dolor de cabeza. Este resultado mezcla los conceptos de correlación y causalidad, porque concluye que dormir con los zapatos puestos provoca dolor de cabeza al levantarse. Hay un tercer factor que no se ha tenido en cuenta, que es que irse borracho a la cama provoca ambos efectos: no poder ni quitarse los zapatos y levantarse mareado. - Los niños pequeños que duermen con la luz encendida son mucho más propensos a desarrollar miopía en la edad adulta. Esta fue la conclusión de un estudio de la Universidad de Pennsylvania, publicado en 1999 en la revista Nature. Un estudio posterior de la Ohio State University refutó esta teoría, y encontró una fuerte relación entre la miopía de los padres y el desarrollo de la miopía infantil, advirtiendo que los padres miopes tenían más probabilidades de dejar una luz encendida en el dormitorio de sus hijos. De nuevo una tercera variable no tenida en cuenta (la miopia de los padres), causaba la alta correlación entre las otras dos variables relacionadas. - Cuando aumentan las ventas de helado, la tasa de muertes por ahogamiento también aumenta. Por lo tanto, el consumo de helado provoca ahogamiento. El helado se vende durante los meses de verano a un ritmo mucho mayor que en épocas más frías, y es durante estos meses de verano que las personas son más propensas a participar en actividades relacionadas con el agua, como la natación. El mayor porcentaje de muertes por ahogamiento es causado por una mayor exposición a las actividades acuáticas. - Desde 1950, tanto el nivel de dióxido de carbono (CO2) en la atmósfera como los niveles de obesidad han aumentado considerablemente. Por lo tanto, el CO2 atmosférico provoca la obesidad. Obviamente, en las ciudades que han mejorado su nivel de vida a partir de los años 50, se come más y se expulsa más CO2 a la atmósfera (coches, fábricas... ). - Con una disminución en el uso de sombreros, ha habido un aumento en el calentamiento global durante el mismo período. Por lo tanto, el calentamiento global es causado por personas que abandonan la práctica de usar sombreros. La explicación de este efecto sería muy parecida a la del ejemplo anterior.

pág. 88

Estadística fácil con hoja de cálculo

PROBLEMAS PROBLEMA 1 Como es bien sabido gracias a las películas que subvenciona el ministerio de cultura, los vampiros tienen un nivel de leucocitos en sangre que suele variar de cien mil en adelante (por milímetro cúbico). El ayudante de un famoso caza-vampiros está fabricando un líquido neutralizador para calmar la sed de los vampiros, de manera que les aumente el nivel de leucocitos y se estén tranquilos (ya que si tienen muchos leucocitos no tienen ganas de andar chupando cuellos). La fórmula de su invención es un famoso producto de cola mezclado con silicona líquida. En un experimento en su laboratorio con 5 vampiros voluntarios, se anota el incremento de leucocitos en sangre a partir de la cantidad de silicona que se mezcla con la cola: Miligramos silicona por litro 10 15 20 25 30 Leucocitos por mm3 140.300 150.000 165.000 175.000 200.000 Se pide: a) Establecer un modelo lineal que relacione las dos variables, estudiando la fiabilidad de dicho modelo. b) Como consecuencia de los resultados anteriores, el caza-vampiros decide añadir a las galletas 40.25 miligramos de silicona, que es lo que le ha sobrado de reparar un grifo. Realizar una predicción de los leucocitos. c) Si se desea que el número de leucocitos por mm3 de sangre sea de 160.000, ¿qué cantidad de silicona se debe añadir a un litro de cola? d) Si se aporta 2.75 miligramos de silicona a un litro de cola ¿cuál será el número de leucocitos estimado? Explicar cuál de las dos últimas predicciones merece mayor confianza. SOLUCIÓN. Introducimos los datos en la plantilla línea-regresion.xlsx, y obtenemos la Figura 43: La línea de regresión de leucocitos en función de la cantidad de silicona es 𝑦𝑦 =

Figura 43

2888𝑥𝑥 + 108300, con un coeficiente de determinación muy próximo a 1 (𝑟𝑟² = 0.9678), lo que quiere decir que la fiabilidad es muy alta. b) Si 𝑥𝑥 = 40.25, utilizando la línea de regresión, podemos predecir un valor 𝑦𝑦 = 224542 leucocitos. Hay que resaltar que esta predicción es una extrapolación (nos salimos de los valores con los que hemos calculado la recta), y ya hemos visto que este tipo de predicciones puede ser peligrosa (ver el ejemplo del record de los cien metros lisos). pág. 89

Estadística fácil con hoja de cálculo

c) Si se desea obtener 160.000 leucocitos, debemos calcular la recta de regresión de 𝑋𝑋 sobre 𝑌𝑌 (Figura 44), ya que ahora nos interesa predecir la cantidad de silicona en función de los leucocitos:

Figura 44

Como vemos en la gráfica, la recta tiene de fórmula 𝑦𝑦 = 0.0003𝑥𝑥 − 35.65. Por lo tanto, si 𝑥𝑥 = 160000 leucocitos, 𝑦𝑦 = 12.35 miligramos (ojo: fijémonos que en la Figura 44 hemos permutado las columnas X e Y). Como vemos también en la gráfica, el coeficiente de determinación lineal es el mismo de antes (𝑟𝑟² = 0.9678). d) Si aporta 2.75 gramos, los ingresos serán 𝑦𝑦 = 2888 ∙ 2.75 + 108300 = 116242 euros (hecho con la línea de regresión calculada en el apartado a) Lógicamente, la fiabilidad de las predicciones de los apartados c y d es la misma, si bien hemos de tener en cuenta lo dicho sobre la extrapolación. PROBLEMA 2 La siguiente tabla muestra las distribuciones de frecuencias de las puntuaciones finales de 100 estudiantes en matemáticas y física: Física Matemáticas 90-99 80-89 70-79 60-69 50-59

40-49

1 3

50-59

60-69

4 6

1 5 9 6

70-79 2 4 10 5 2

80-89 4 6 8 2

a) Número de alumnos que recibieron puntuación entre 70 y 79 en matemáticas y entre 80 y 89 en física. b) Porcentaje de estudiantes con puntuación en matemáticas inferior a 70. c) Porcentaje de que un estudiante obtenga 70 ó más puntos en física y menos de 80 en matemáticas. d) Porcentaje de estudiantes que aprobó al menos una de las dos asignaturas, suponiendo 60 la puntuación mínima para aprobar. e) Porcentaje de que un estudiante tenga aprobadas las dos asignaturas. pág. 90

Estadística fácil con hoja de cálculo

f) Porcentaje de que un estudiante, que sabemos que tiene aprobada las matemáticas, tenga aprobada también física. g) Porcentaje de estudiantes que tienen aprobada matemáticas de entre los que tienen aprobada física. h) Sobre qué puntuación en física tendrá un estudiante del que sabemos que ha obtenido 86 puntos en matemáticas. i) Da una medida de la exactitud del resultado obtenido en h). SOLUCIÓN. Cuando tengamos un ejercicio como este, donde los datos aparecen en una tabla de doble entrada, usaremos la plantilla tabla-doble-entrada.xlsx.

Una vez introducidos los datos, la plantilla nos ofrece diversas columnas de utilidad, así como los datos de medias, varianzas, covarianza y rectas de regresión. Las distribuciones marginales son: Distribución marginal de 𝑿𝑿 (física)

𝒙𝒙𝒊𝒊

95 85 75 65 55 45

𝒏𝒏𝒊𝒊.

Distribucion marginal de 𝒀𝒀 (matemáticas)

𝒚𝒚𝒋𝒋

6 11 23 21 17 12

45 55 65 75 85

𝒏𝒏.𝒋𝒋

7 15 25 23 20

a) 4 alumnos (es lo que pone la celda intersección de los valores 𝟕𝟕𝟕𝟕 − 𝟕𝟕𝟕𝟕 en matemáticas y 𝟖𝟖𝟖𝟖 − 𝟖𝟖𝟖𝟖 en física). 47 b) con nota en matemáticas inferior a 70 hay 7 + 15 + 25 = 47. El porcentaje es = 90 0.5222 = 52.22%. c) con nota 70 o más en física y menos de 80 en matemáticas estamos quedándonos con este trozo de la tabla: Física pág. 91

Matemáticas

Estadística fácil con hoja de cálculo

70-79 60-69 50-59

40-49

50-59

60-69

70-79

1 3

4 6

5 9 6

10 5 2

51

El total de alumnos es 51. El porcentaje es = 0.5666 = 56.66%. 90 Los apartados, d, e, f y g se hacen exactamente igual. h) Si un estudiante obtiene un 86 en física, según la recta de regresión 𝑌𝑌 sobre 𝑋𝑋, que es: 𝑦𝑦 = 0.618 ∙ 𝑥𝑥 + 27.073, estimamos 𝑦𝑦 para 𝑥𝑥 = 86: 𝑦𝑦 = 80.22 i) El coeficiente 𝑟𝑟 2 = 0.5186, quiere decir que hay un 51.86 por ciento de fiabilidad PROBLEMA 3 Una empresa del sector de la construcción realiza un estudio sobre las blasfemias pronunciadas por hora por los trabajadores, y la antigüedad en la empresa de los mismos: Blasfemias 10-12 12-14 14-16 16-18

Años de antigüedad 1 2 3 4 1 2 5 4 3 3 3 5 6

5

6

5 6 2

1 2 4

a) Un trabajador tiene una antigüedad de 4 años y 6 meses. Determina la cantidad de blasfemias que se espera que diga en una hora. c) Determina y comenta la fiabilidad del resultado anterior. d) El sueldo base mensual de un trabajador es de 3000 euros fijos menos 100 que se descuentan por el número medio de blasfemias a la hora. ¿Cuál es la media y la desviación típica del sueldo base? e) La paga extra es de 1200 euros más 100 euros por año de antigüedad. ¿Cuál es la covarianza y el coeficiente de correlación entre “sueldo base” y “paga extra”? SOLUCIÓN. En la Figura 45 dejamos una copia de pantalla de la tabla de doble entrada, introducida en la plantilla tabla-doble-entrada.xlsx, junto con los resultados que nos van a hacer falta.

Figura 45

a) Como vemos, la línea de regresión del número de blasfemias por hora en función de la antigüedad, que es la recta de regresión de 𝑋𝑋 sobre 𝑌𝑌, viene dada por 𝑋𝑋 = 0.541 ∙ 𝑌𝑌 + 6 12.203. Si un obrero tiene 4 años y 6 meses de antigüedad, entonces 𝑦𝑦 = 4 + = 4.5, por lo 12 que 𝑥𝑥 = 14.6375, es decir entre 14 y 15 blasfemias por hora. b) La fiabilidad la da 𝑟𝑟² = 0.3206. es decir el 32.06 por ciento. pág. 92

Estadística fácil con hoja de cálculo

c) El sueldo base mensual es 𝑍𝑍 = 3000 − 100𝑋𝑋, por lo que 𝑧𝑧̅ = 3000 − 100 ∙ 𝑥𝑥̅ = 3000 − 100 ∙ 14.19 = 1581 euros, y 𝑆𝑆𝑍𝑍 = 100 ∙ 𝑆𝑆𝑋𝑋 = 100 ∙ √2.347 = 153.19. d) La paga extra es 𝑃𝑃 = 1200 + 100𝑌𝑌. Nos piden la correlación entre 𝑍𝑍 y 𝑃𝑃, que es la misma que entre 𝑋𝑋 e 𝑌𝑌, puesto que el coeficiente de correlación lineal es invariante ante cambios de origen y de escala 𝑟𝑟𝑍𝑍,𝑃𝑃 = 𝑟𝑟𝑋𝑋,𝑌𝑌 = 0.56.

PREGUNTAS PUÑETERAS Estudia en cuáles de los siguientes casos los resultados ofrecidos son compatibles entre sí: a) 𝒓𝒓𝑿𝑿𝑿𝑿 = −𝟎𝟎. 𝟑𝟑; 𝒚𝒚 = 𝟒𝟒𝟒𝟒 + 𝟓𝟓. Según hemos visto, la recta de regresión de 𝑌𝑌 sobre 𝑋𝑋 tiene la expresión: 𝑆𝑆𝑥𝑥𝑥𝑥 𝑦𝑦 = 𝑎𝑎 + 𝑏𝑏𝑏𝑏, 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑 𝑎𝑎 = 𝑦𝑦� − 𝑏𝑏𝑥𝑥̅ , 𝑏𝑏 = 2 . 𝑆𝑆𝑥𝑥 Fijémonos que la pendiente de la recta es la covarianza dividida por la varianza de 𝑋𝑋. Como la varianza siempre es un número mayor o igual que cero, entonces el signo de 𝑏𝑏 (la pendiente de la recta) coincide con el signo de la covarianza, que a su vez coincide con el signo del coeficiente de correlación lineal, pues 𝑟𝑟 =

𝑆𝑆𝑥𝑥𝑥𝑥

𝑆𝑆𝑥𝑥 𝑆𝑆𝑦𝑦

.

Vemos pues que si 𝑟𝑟 = −0.3 (negativo), la pendiente de la recta 𝑌𝑌 sobre 𝑋𝑋 no puede ser 4 (mayor que cero) b) 𝑺𝑺𝑿𝑿𝑿𝑿 = 𝟏𝟏𝟏𝟏𝟏𝟏; 𝑺𝑺𝟐𝟐𝒀𝒀 = 𝟒𝟒𝟒𝟒𝟒𝟒; 𝑺𝑺𝑿𝑿 = 𝟓𝟓; 𝒓𝒓𝑿𝑿𝑿𝑿 = 𝟏𝟏 Como 𝑆𝑆𝑥𝑥𝑥𝑥 100 𝑟𝑟 = = = 1, 𝑆𝑆𝑥𝑥 𝑆𝑆𝑦𝑦 20 ∙ 5 los resultados son compatibles. c) 𝒚𝒚 = 𝟗𝟗𝟗𝟗 − 𝟒𝟒; 𝒓𝒓𝑿𝑿𝑿𝑿 = 𝟑𝟑 𝑟𝑟 y la pendiente de la recta tienen el mismo signo. Los resultados son compatibles. pág. 93

Estadística fácil con hoja de cálculo

d) La recta de regresión de 𝒀𝒀 sobre 𝑿𝑿 es 𝒚𝒚 = 𝟓𝟓𝟓𝟓 + 𝟖𝟖. La recta de regresión de 𝑿𝑿 sobre 𝒀𝒀 es 𝒙𝒙 = 𝟓𝟓𝟓𝟓 − 𝟒𝟒𝟒𝟒; 𝒓𝒓𝑿𝑿𝑿𝑿 = 𝟎𝟎. 𝟐𝟐. Para hacer este ejercicio, hay que saber que el coeficiente de correlación lineal coincide con la media geométrica de las pendientes de las rectas de regresión, esto es 𝑆𝑆𝑋𝑋𝑋𝑋 𝑆𝑆𝑋𝑋𝑋𝑋 𝑟𝑟𝑋𝑋𝑋𝑋 = �𝑏𝑏𝑌𝑌𝑌𝑌 ∙ 𝑏𝑏𝑋𝑋𝑋𝑋 = � 2 ∙ 2 𝑆𝑆𝑋𝑋 𝑆𝑆𝑌𝑌

Veamos si ocurre en este caso: �𝑏𝑏𝑋𝑋𝑋𝑋 ∙ 𝑏𝑏𝑋𝑋𝑋𝑋 = √5 ∙ 5 = 5 ≠ 0.2 Por lo tanto los resultados no son compatibles. � = 𝟏𝟏𝟏𝟏; 𝒚𝒚 � = 𝟏𝟏𝟏𝟏 e) 𝒙𝒙 = 𝟐𝟐𝟐𝟐 − 𝟖𝟖; 𝒙𝒙 = 𝒚𝒚 + 𝟒𝟒; 𝒙𝒙 Recordemos que las rectas de regresión pasan por el centro de gravedad de la nube de puntos, que es (x�, y� ). Por lo tanto, si resolvemos el sistema formado por las dos rectas de regresión, la solución, que es el punto de corte de las rectas, debería darnos (16,12) Al resolver el sistema x = 2y − 8; x = y + 4 obtenemos los valores 𝑥𝑥 = −8 e 𝑦𝑦 = −12, por lo que los resultados no son compatibles. f) La recta de regresión de 𝒀𝒀 sobre 𝑿𝑿 es: 𝒚𝒚 = 𝟒𝟒𝟒𝟒 + 𝟓𝟓, y el coeficiente de correlación es 𝒓𝒓𝑿𝑿𝑿𝑿 = −𝟎𝟎. 𝟑𝟑 Como en el apartado a), la pendiente de la recta y el coeficiente de correlación lineal tienen diferente signo, lo que no es posible. g) 𝑺𝑺𝑿𝑿𝑿𝑿 = 𝟏𝟏𝟏𝟏𝟏𝟏; 𝑺𝑺𝑿𝑿 = 𝟏𝟏𝟏𝟏; 𝒓𝒓𝟐𝟐 = 𝟏𝟏; 𝑺𝑺𝟐𝟐𝒀𝒀 = 𝟒𝟒𝟒𝟒𝟒𝟒. Calculamos 𝑆𝑆𝑥𝑥𝑥𝑥 100 1 𝑟𝑟 = = = ≠1 𝑆𝑆𝑥𝑥 𝑆𝑆𝑦𝑦 10 ∙ 20 2 Por lo tanto los resultados no son compatibles. h) Se calculan las rectas de regresión (de 𝒀𝒀 sobre 𝑿𝑿, y de 𝑿𝑿 sobre 𝒀𝒀), aunque no sabemos cuál es cuál, y tenemos: 𝒚𝒚 = 𝟓𝟓𝟓𝟓 + 𝟖𝟖; 𝒚𝒚 = (𝟏𝟏/𝟓𝟓)𝒙𝒙 + 𝟗𝟗; 𝒓𝒓𝑿𝑿𝑿𝑿 = 𝟎𝟎. 𝟐𝟐 Si suponemos que la primera recta que nos dan es la 𝒀𝒀 sobre 𝑿𝑿 y la segunda la 𝑿𝑿 sobre 𝒀𝒀, entonces despejamos la 𝑥𝑥 en esta última y queda: 𝑥𝑥 = 5𝑦𝑦 − 45 Hacemos como en el apartado d): �𝑏𝑏𝑋𝑋𝑋𝑋 ∙ 𝑏𝑏𝑋𝑋𝑋𝑋 = √5 ∙ 5 = 5, y los resultados no son compatibles. Si suponemos que la primera recta es la 𝑿𝑿 sobre 𝒀𝒀, despejamos 𝑥𝑥: 𝑥𝑥 = (1/5)𝑦𝑦 − (8/5). Ahora

1 1 1 �𝑏𝑏𝑋𝑋𝑋𝑋 ∙ 𝑏𝑏𝑋𝑋𝑋𝑋 = � ∙ = = 0.2, 5 5 5 y los resultados si son compatibles. i) La recta de regresión 𝒚𝒚 = 𝟐𝟐𝟐𝟐 + 𝟓𝟓 se ha calculado para estudiar la relación entre dos variables que cumplen: � = 𝟏𝟏; 𝒚𝒚 � = 𝟕𝟕 𝑺𝑺𝑿𝑿𝑿𝑿 = −𝟏𝟏; 𝑺𝑺𝟐𝟐𝑿𝑿 = 𝟎𝟎. 𝟓𝟓; 𝒙𝒙 Como la recta de regresión se puede calcular con la fórmula 𝑆𝑆𝑥𝑥𝑥𝑥 𝑦𝑦 − 𝑦𝑦� = 2 (𝑥𝑥 − 𝑥𝑥̅ ), 𝑆𝑆𝑥𝑥 sustituimos −1 (𝑥𝑥 − 1) 𝑦𝑦 − 7 = 0.5 que, haciendo cálculos, se obtiene 𝑦𝑦 = −2𝑥𝑥 + 9. No son compatibles. pág. 94

Estadística fácil con hoja de cálculo

j) Se ha realizado un estudio de regresión entre el porcentaje de horas que los adolescentes varones ven porno por internet y el resultado académico en la nueva asignatura de "educación religiosa-sexual para la ciudadanía". El coeficiente de determinación sale 0.95. Un chico que tiene decidido ser cura de mayor, y por tanto no consume porno en absoluto (ni tiene ordenador ni televisión), saca un 9.5 en la nota de la asignatura. ¿Puede ser esta nota coherente con el valor del coeficiente de determinación? Es posible, puesto que, a menor porno, mayor nota. Hay una relación lineal inversa entre las variables, por lo que el coeficiente de correlación lineal será negativo. Pero el coeficiente de determinación es este número elevado al cuadrado, que siempre es positivo, y en este caso podría ser alto. h) Si tenemos 2 conjuntos de datos bidimensionales (𝑿𝑿, 𝒀𝒀) y (𝑿𝑿′ , 𝒀𝒀′ ) que tienen las � , 𝑺𝑺𝑿𝑿 = 𝑺𝑺 ′ ), las mismas medias y � = 𝒙𝒙′ mismas medias y varianzas para las variables 𝑿𝑿 (𝒙𝒙 𝑿𝑿 varianzas para las variables 𝒀𝒀, el mismo coeficiente de correlación (𝒓𝒓𝑿𝑿𝑿𝑿 = 𝒓𝒓𝑿𝑿′ 𝒀𝒀′ ′ y la misma línea de regresión ¿Tienen los mismos datos? Para comprobar que no tienen que ser los mismos datos, veamos el siguiente apartado: CURIOSIDADES. ANSCOMBE'S QUARTET Los siguientes cuatro grupos de variables verifican (el que no lo crea que haga los cálculos):  Las medias de 𝑋𝑋 (de cada grupo) son iguales.  Las medias de 𝑌𝑌 (de cada grupo) son iguales.  Las varianzas de 𝑋𝑋 (de cada grupo) son iguales.  Las varianzas de 𝑌𝑌 (de cada grupo) son iguales.  Los coeficientes de correlación de todos los grupos son iguales  Las rectas de regresión de cada grupo son iguales A continuación de la tabla de datos vemos el diagrama de dispersión y la recta de regresión para cada grupo de datos, apreciando claramente que las nubes de puntos son diferentes pero las rectas de regresión iguales. Este conjunto de datos se llama el cuarteto de Anscombe. Fueron construídos en 1973 por Francis Anscombe para demostrar la importancia de representar gráficamente los datos antes de analizarlos, así como para ver los efectos de los datos atípicos sobre las propiedades estadísticas (ver Anscombe, F. (1973)).

Grupo I y x 10.0 8.04 8.0 6.95 13.0 7.58 9.0 8.81 11.0 8.33 14.0 9.96 6.0 7.24 4.0 4.26 12.0 10.84 7.0 4.82 5.0 5.68 pág. 95

Grupo II x y 10.0 9.14 8.0 8.14 13.0 8.74 9.0 8.77 11.0 9.26 14.0 8.10 6.0 6.13 4.0 3.10 12.0 9.13 7.0 7.26 5.0 4.74

Grupo III Grupo IV x y x y 10.0 7.46 8.0 6.58 8.0 6.77 8.0 5.76 13.0 12.74 8.0 7.71 9.0 7.11 8.0 8.84 11.0 7.81 8.0 8.47 14.0 8.84 8.0 7.04 6.0 6.08 8.0 5.25 4.0 5.39 19.0 12.50 12.0 8.15 8.0 5.56 7.0 6.42 8.0 7.91 5.0 5.73 8.0 6.89

Estadística fácil con hoja de cálculo

MEDIDAS DE ASOCIACIÓN ENTRE ATRIBUTOS Recordemos que, cuando las variables 𝑋𝑋 e 𝑌𝑌 son atributos, la tabla de frecuencias de doble entrada recibe el nombre de tabla de contingencia (𝑟𝑟 × 𝑠𝑠)

𝑿𝑿

𝒙𝒙𝟏𝟏

𝒀𝒀

⋮ 𝒙𝒙𝒊𝒊 ⋮

𝒙𝒙𝒓𝒓

Frecuencia marginal de 𝒀𝒀

𝒚𝒚𝟏𝟏



⋮ 𝒏𝒏𝒊𝒊𝟏𝟏

⋱ ⋯

𝒏𝒏𝟏𝟏𝟏𝟏 ⋮

𝒏𝒏𝒓𝒓𝟏𝟏 𝒏𝒏⋅𝟏𝟏

𝒚𝒚𝒋𝒋



⋮ 𝒏𝒏𝒊𝒊𝒊𝒊

⋱ ⋯



𝒏𝒏𝟏𝟏𝒋𝒋





⋯ ⋯

𝒏𝒏𝒓𝒓𝒓𝒓 𝒏𝒏⋅𝒋𝒋

𝒚𝒚𝒔𝒔

Frecuencia marginal de 𝑿𝑿

⋮ 𝒏𝒏𝒊𝒊𝒊𝒊

⋮ 𝒏𝒏𝒊𝒊⋅



𝒏𝒏𝟏𝟏𝒔𝒔







𝒏𝒏𝒓𝒓𝒓𝒓 𝒏𝒏⋅𝒔𝒔

𝒏𝒏𝟏𝟏. ⋮

𝒏𝒏𝒓𝒓⋅ 𝒏𝒏

En una tabla de contingencia, vamos a plantearnos: ¿Son independientes los atributos? En el caso de que no lo sean, ¿cuál es el grado de asociación? En este último caso, calcularemos la medida de asociación Q de Yule, el coeficiente de contingencia de Pearson y la V de Cramer. Son coeficientes que miden el grado de asociación pág. 96

Estadística fácil con hoja de cálculo

(fuerte, débil…) entre las variables, en el mismo sentido que lo hace el coeficiente de correlación lineal entre variables numéricas INDEPENDENCIA Formalmente, 𝑋𝑋 es independiente de 𝑌𝑌 si se verifica que: 𝑓𝑓𝑖𝑖|𝑗𝑗 = 𝑓𝑓𝑖𝑖⋅ ∀𝑖𝑖 = 1, ⋯ , 𝑟𝑟 𝑗𝑗 = 1,2, ⋯ , 𝑠𝑠 es decir, si las frecuencias condicionadas coinciden con las frecuencias marginales. De la misma forma se define la independencia de 𝑌𝑌 respecto de 𝑋𝑋. Otra forma de expresarlo es que 𝑋𝑋 e 𝑌𝑌 son independientes si el producto de las frecuencias relativas conjuntas coincide con el producto de las frecuencias relativas marginales: 𝑓𝑓𝑖𝑖𝑖𝑖 = 𝑓𝑓𝑖𝑖. × 𝑓𝑓.𝑗𝑗 ∀𝑖𝑖 = 1, ⋯ , 𝑟𝑟 𝑗𝑗 = 1,2, ⋯ , 𝑠𝑠. Ahora bien, se verifica: 𝑛𝑛𝑖𝑖𝑖𝑖 𝑛𝑛𝑖𝑖. 𝑛𝑛.𝑗𝑗 𝑛𝑛𝑖𝑖. × 𝑛𝑛.𝑗𝑗 = × ⇔ 𝑛𝑛𝑖𝑖𝑖𝑖 = , 𝑓𝑓𝑖𝑖𝑖𝑖 = 𝑓𝑓𝑖𝑖. × 𝑓𝑓.𝑗𝑗 ⇔ 𝑛𝑛 𝑛𝑛 𝑛𝑛 𝑛𝑛 Vemos entonces que otra definición equivalente de independencia podría ser esta última (que las frecuencias absolutas 𝑛𝑛𝑖𝑖𝑖𝑖 coincidan con el valor que aparece a su derecha en la última ecuación). A cada valor 𝑛𝑛𝑖𝑖. × 𝑛𝑛.𝑗𝑗 𝑒𝑒𝑖𝑖𝑖𝑖 = 𝑛𝑛 se le denomina frecuencia esperada (si las variables son independientes). Entonces, para que las dos variables sean independientes, tiene que ocurrir que las frecuencias esperadas coincidan siempre con las observadas, es decir 𝑒𝑒𝑖𝑖𝑖𝑖 = 𝑛𝑛𝑖𝑖𝑖𝑖 ∀𝑖𝑖 = 1, ⋯ , 𝑟𝑟 𝑗𝑗 = 1,2, ⋯ , 𝑠𝑠. EJEMPLO 21 El 10 de abril de 1912, el Titanic zarpaba del puerto de Southampton con destino a New York, ante la admiración de una muchedumbre de curiosos que contemplaban atónitos como aquella mole de acero se alejaba majestuosamente del puerto. Cinco días después los medios de comunicación de todo el mundo se hicieron eco de la increíble noticia: el barco más grande jamás construido yacía a casi cuatro mil metros de profundidad. La tabla siguiente muestra la distribución de pasajeros, según supervivencia y clase social: Sobrevive Primera clase 194 Segunda clase 119 Tercera clase 138 Total 451

No sobrevive 128 161 573 862

Total 322 280 711 1313

La representación gráfica de una tabla de contingencia corresponde a un diagrama de barras (Figura 47) en el cual se relacionan las clases de las dos variables. Esta tabla puede realizarse también en 3 dimensiones, que es más chachi piruli (Figura 46). En la tabla siguiente mostramos las frecuencias esperadas en caso de independencia. Vemos que la definición de independencia no se cumple, puesto que ya no se cumple para la primera celda. Para que las dos variables sean independientes, las frecuencias esperadas deben ser iguales a las observadas en todas las celdas de las tablas. Con tal de que ya no ocurra en una celda, las variables no son independientes. pág. 97

Estadística fácil con hoja de cálculo

Figura 47

Figura 46

pág. 98

Estadística fácil con hoja de cálculo

MEDIDAS DE ASOCIACIÓN Q DE YULE Este coeficiente se calcula únicamente para tablas de 2 filas y 2 columnas (mucho no se cansó el señor Yule): 𝒚𝒚𝟏𝟏 𝒚𝒚𝟐𝟐 𝒙𝒙𝟏𝟏 𝑛𝑛11 𝑛𝑛12 𝒙𝒙𝟐𝟐 𝑛𝑛21 𝑛𝑛22 El coeficiente se define como 𝑛𝑛11 𝑛𝑛22 − 𝑛𝑛12 𝑛𝑛21 𝑄𝑄 = 𝑛𝑛11 𝑛𝑛22 + 𝑛𝑛12 𝑛𝑛21 Este coeficiente siempre toma valores en el intervalo [−𝟏𝟏, 𝟏𝟏]. El valor 𝑄𝑄 = 0 implica independencia. pág. 99

Estadística fácil con hoja de cálculo

Un valor 𝑄𝑄 > 1 implica independencia positiva y 𝑄𝑄 < 1 negativa. El signo de 𝑄𝑄 solo tiene sentido cuando los atributos vienen en escala ordinal. COEFICIENTE DE CONTINGENCIA DE PEARSON Se calcula únicamente para tablas cuadradas (𝑟𝑟 = 𝑠𝑠). El origen es el estadístico 𝜒𝜒 2 (Chi-cuadrado) de Pearson (se detalla más en el último capítulo), cuya fórmula es (𝑛𝑛𝑖𝑖𝑖𝑖 − 𝑒𝑒𝑖𝑖𝑖𝑖 )2 2 𝜒𝜒 = � � 𝑒𝑒𝑖𝑖𝑖𝑖 donde

𝑖𝑖

𝑗𝑗

𝑛𝑛𝑖𝑖∙ × 𝑛𝑛∙𝑗𝑗 𝑛𝑛 A partir de este valor, el coeficiente de contingencia 𝐶𝐶 de Pearson se escribe 𝑒𝑒𝑖𝑖𝑖𝑖 =

𝜒𝜒 2 𝐶𝐶 = � 2 𝜒𝜒 + 𝑛𝑛

Si 𝐶𝐶 = 0 existe independencia. En las tablas cuadradas (𝑟𝑟 × 𝑟𝑟) se puede calcular la cota superior que es

𝑟𝑟 − 1 � . 𝑟𝑟 Se define entonces el Coeficiente de contingencia corregido como 𝐶𝐶 𝐶𝐶𝑐𝑐𝑐𝑐𝑐𝑐 = �𝑟𝑟 − 1 𝑟𝑟 que representa la discrepancia entre el estadístico obtenido y el máximo valor alcanzable para esa tabla. Ahora se verifica que 0 ≤ 𝐶𝐶𝑐𝑐𝑐𝑐𝑐𝑐 ≤ 1 V DE CRAMER

Este coeficiente puede calcularse para cualquier valor del número de filas y columnas. Se define como 𝑉𝑉 = �

𝜒𝜒 2 𝑛𝑛 ∙ 𝑚𝑚

donde 𝑚𝑚 = min{𝑟𝑟 − 1, 𝑠𝑠 − 1}. Se verifica 0 ≤ 𝑉𝑉 ≤ 1

Como ejemplo, vamos a introducir los datos del hundimiento del Titanic en la tabla de frecuencias observadas de la plantilla tabla-contingencia.xlsx. (Figura 48). La tabla que está justo debajo es la tabla de frecuencias esperadas (las que se obtendrían si las variables fuesen independientes). En este caso, la tabla de frecuencias esperadas es la que deberíamos tener si el sobrevivir o no fuese independiente de que el billete del pasajero fuese de primera, segunda o tercera clase. Los que hemos visto la película sabemos que estas variables no fueron independientes, porque los de tercera clase murieron como ratas. Esto es comprobable viendo que existen diferencias entre las celdas de cada tabla. pág. 100

Estadística fácil con hoja de cálculo

Figura 48

Realmente, la independencia entre variables es algo más compleja de cómo la estamos observando en este capítulo. Podrían existir algunas diferencias entre las frecuencias observadas y las esperadas, y dichas diferencias podrían deberse al azar (o no ser significativas desde un punto de vista estadístico). Este asunto se trata al final del libro en el capítulo de contrastes de hipótesis, en donde utilizaremos esta misma plantilla. En este caso, vemos que las medidas de asociación que hemos definido anteriormente son: - La 𝑄𝑄 no se calcula al no ser una tabla 2 × 2. - La 𝐶𝐶 de Pearson vale 0.34. - La 𝐶𝐶 corregida no se calcula al no ser una tabla cuadradada. - La 𝑉𝑉 de Cramer vale 0.36. La interpretación exacta de estos valores corresponde a textos de estadística no paramétrica, como por ejemplo Conover (1998).

PROBLEMA 4 En una facultad se quiere conocer si existe dependencia entre el número de estudiantes que repiten alguna asignatura y el sexo de los alumnos. Se toman datos y se construye la siguiente tabla.

pág. 101

Estadística fácil con hoja de cálculo

Practica sexo No practica sexo

Han repetido asignatura 1224 1319

alguna

No han repetido 270 252

¿Existe asociación entre repetir alguna asignatura y el sexo? SOLUCIÓN. Insertamos los datos en la plantilla tabla-contingencia.xlsx y obtenemos los resultados que siguen:

Figura 49

Observamos que los coeficientes 𝑄𝑄 de Yule, 𝐶𝐶 de Pearson, 𝐶𝐶 corregido y 𝑉𝑉 de Cramer son próximos a cero, lo que viene a significar que las variables consideradas son independientes. De hecho, el valor p-value 0.1478 que observamos en una celda (y que ahora no sabemos comprender) indicaría que se pueden considerar las variables independientes, a pesar de que las frecuencias esperadas no coincidan con las observadas (pero no existe una diferencia muy grande).

pág. 102

Estadística fácil con hoja de cálculo

Este capítulo es totalmente teórico, en el sentido exclusivo de que no se trabaja con plantillas de excel para facilitar las cosas. En un principio, mi intención era obviar este tema, por ese motivo. Sin embargo, todo libro de probabilidad y estadística que se precie tiene un capítulo dedicado a la probabilidad. Básicamente, todos los libros de la misma rama (matemáticas, ingeniería, medicina… ) tienen hasta casi las mismas palabras, porque no hay mucho que inventar sobre el tema. Si acaso, las diferencias estriban en los ejemplos y en los problemas. Los libros de economía traen problemas de probabilidad de ganancias en la bolsa, los de medicina de curar enfermedades, los de biología de animales que nadie conoce, etc. Sin embargo, y creo que no me equivocaré demasiado, y aun a pesar de que existen millones de libros de probabilidad que ni he mirado, dudo que exista alguno que base sus ejemplos y problemas en la biblia y en Jesucristo. Es este enfoque el que he pretendido que dominara en este libro, fundamentalmente por dos motivos: Cuando los libros introducen la probabilidad, empiezan hablando de los dados, y cuentan que el emperador Romano Claudio (que vivió cuando vivió Jesucristo) escribió un tratado de juego de dados. Una gran parte de nuestra juventud se ha alejado cada vez más de la cultura cristiana y es intención nuestra devolverla a la senda correcta, o al menos que la conozca un poco más. pág. 103

Estadística fácil con hoja de cálculo

ANTECEDENTES HISTÓRICOS La teoría matemática del cálculo de probabilidades se desarrolla a partir del siglo XVII, asociada a los juegos de azar. A fin de cuentas, la gran mayoría de los juegos lleva aparejado un sistema de apuestas alrededor del mismo. ¿O no es más divertido jugar con dinero que con garbanzos, o por el simple hecho de entretenerse? Por ello, siempre resulta muy conveniente tener alguna idea de la probabilidad de ganar, o de la probabilidad de que ocurra algún suceso favorable al jugador. Como comentábamos hace un momento, los libros de probabilidad suelen decir que la historia de la probabilidad es casi tan larga como la de la humanidad, puesto que la probabilidad está ligada a los juegos de azar, y estos son casi tan antiguos como el ser humano. Con este razonamiento tan simple, supongo que sería válido decir que la informática es tan antigua como la humanidad, puesto que comenzó básicamente con la segunda guerra mundial, y guerras hay desde sabe dios cuándo. Además, uno de los padres de la informática fue Alan Touring, que estaba bastante trillado el pobre, y gente trillada hay desde muy antiguo también (desde Caín que mató a su hermano, total para nada porque no existía aún el dinero y no podía robarle). En fin, vayamos a lo nuestro. Sumerios y asirios (señores de civilizaciones de esas antiguas de las que hablan en los documentales que todo el mundo ve) utilizaban un hueso extraído del talón de animales como ovejas, ciervos o caballos, denominado astrágalo o talus, que tallaban para que pudiese caer en cuatro posiciones distintas. Este es considerado el precursor de los dados. Asimismo, en las pirámides de Egipto se han encontrado pinturas que datan de la época de la primera dinastía (3.500 a.C.) en las que se muestran juegos de azar. Quien haya visto alguna de romanos (Ben-hur, Espartaco, Gladiador... ) ya sabe que eran muy aficionados a los juegos de azar (además de a barbaridades como crucificar gente, arrojar a los esclavos a las fieras... ). El emperador Claudio (10 a.C. - 54 d.C.) escribió un tratado sobre el juego de los dados. Pese a tener unas cuantas taras físicas (por ejemplo cojera, tartamudez, tics nerviosos o aerofagia), y ser señalado como tonto hasta por su madre, Claudio accedió al trono de emperador de una manera más o menos fortuita, tras el asesinato de su sobrino Calígula (que estaba más loco que cien cabras). Como gobernante, fue muy querido por el pueblo y se reveló como un gran político, gestor y estratega militar 8. La historia de la probabilidad comienza realmente en el siglo XVII, cuando Pierre Fermat (jurista y matemático; 1601 - 1665) y Blaise Pascal (matemático, físico, filósofo cristiano y escritor; 1623 - 1662) tratan de resolver algunos problemas relacionados con los juegos de azar. En aquella época vivió también Antoine Gombaud, escritor francés (1607 - 1684) que, a pesar 8

Fue célebre también su esposa Mesalina, por competir con la prostituta más famosa de Roma, para ver quién aguantaba con más hombres en una noche. Ganó Mesalina por goleada. pág. 104

Estadística fácil con hoja de cálculo

de no pertenecer a la nobleza, adoptó el título de Chevalier (Caballero) para asignárselo al personaje de sus diálogos que representaba sus propias opiniones (el caballero de Méré 9). Su interés por conocer cuál era la apuesta más favorable en los juegos de dados ocasionó una serie de cartas entre Blaise Pascal y Pierre de Fermat, que establecieron los fundamentos de la teoría moderna de la probabilidad. PROBABILIDAD La probabilidad toma su forma actual a partir de los años 30 del siglo XX, cuando Andrey Nicolaievich Kolmogorov (como está claro, era ruso; 1903 - 1987) establece con sus axiomas las bases matemáticas de la teoría de la probabilidad. Esta aparece en su famosa monografía Grundbegriffe der Wahrscheinlichkeitsrechnung (1933) (que corresponde a una publicación alemana, y por cuyo nombre se comprende que, a pesar de su importancia, no se convirtiera en un best-seller). Para introducir detalladamente la noción de probabilidad, vamos a hablar de dos tipos de experimentos. Consideraremos que un experimento es “un proceso por medio del cual se obtiene una observación”. Bajo este enfoque, podemos distinguir entre experimentos deterministas y aleatorios. Los primeros son aquellos que siempre que se repitan bajo condiciones análogas llevan al mismo resultado, por tanto este se puede predecir (Ejemplos: una reacción química en condiciones prefijadas de antemano; cualquier experimento físico que se realice en las mismas condiciones). Por el contrario, un experimento aleatorio es el que puede dar lugar a varios resultados conocidos previamente, sin que sea posible saber de antemano cuál de ellos se va a producir.

9

Así por las referencias, da la impresión de que el caballero de Méré fue un antecesor del pequeño Nicolás. pág. 105

Estadística fácil con hoja de cálculo

DEFINICIONES BÁSICAS El conjunto de los posibles resultados de un experimento aleatorio se llama espacio muestral. Se representa con la letra griega Ω.

EJEMPLOS: Experimento aleatorio: “lanzamiento de una moneda”. Posibles resultados = Espacio muestral Ω={cara, cruz}. Experimento aleatorio: “lanzamiento de un dado de tasca”. Posibles resultados = Espacio muestral Ω={1,2,3,4,5,6}. Experimento aleatorio: “número de amores de Mesalina en una noche de lujuria”. Ω={0,1,2,3,... }. Experimento aleatorio: “partido de futbol”. Ω={0-0, 0-1,1-0,1-1,... ,8-24,... }. Suceso elemental. Cada uno de los posibles resultados de un experimento aleatorio. En el ejemplo del lanzamiento de un dado, cualquiera de los números del 1 al 6 es un suceso elemental. Suceso Es un subconjunto del espacio muestral, 𝐴𝐴 ⊂ Ω. Se dice que ocurre un suceso si ocurre alguno de los sucesos elementales que lo componen. Ejemplo: en el lanzamiento de un dado, el suceso 𝐴𝐴=“salir número par”={2,4,6}. Suceso imposible. Es el suceso que no puede ocurrir nunca. Como conjunto, es el conjunto vacío ∅. Ejemplo: al lanzar un dado, ∅=“el resultado es 7, 8, o el número pi”.

NOTICIA BOMBA:

Un político es cogido infraganti al donar todo el dinero que cobraba en negro a Cáritas. Dos sucesos se llaman incompatibles si no pueden ocurrir simultaneamente (al lanzar un dado no puede salir un número par e impar a la vez). Dos sucesos son incompatibles si como conjuntos son disjuntos (𝐴𝐴 ∩ 𝐵𝐵 = ∅) (esta definición se extiende a más de dos sucesos o conjuntos). pág. 106

Estadística fácil con hoja de cálculo

SUCESOS Y CONJUNTOS. DIAGRAMAS DE VENN Como acabamos de ver, un suceso es un subconjunto del espacio total Ω. Las propiedades de los conjuntos se vieron en algún curso muy lejano en el colegio o instituto, pero conviene recordarlas, porque van a ser de gran utilidad para el cálculo de probabilidades.

Unión (de conjuntos o sucesos): 𝐴𝐴 ∪ 𝐵𝐵 es el conjunto o suceso formado por los elementos que están en 𝐴𝐴 ó están en 𝐵𝐵. en 𝐵𝐵.

Intersección: 𝐴𝐴 ∩ 𝐵𝐵 está formado por los elementos que están simultáneamente en 𝐴𝐴 y

pág. 107

Estadística fácil con hoja de cálculo

Diferencia: 𝐴𝐴 − 𝐵𝐵 está formado por los elementos de 𝐴𝐴 que NO están en B.

Complementario de un suceso 𝐴𝐴: se escribe 𝐴𝐴𝑐𝑐 o 𝐴𝐴̅. Es el suceso formado por todos los elementos del espacio total Ω que no están en 𝐴𝐴. Se verifica que 𝐴𝐴 ∩ 𝐴𝐴̅ = ∅ y 𝐴𝐴 ∪ 𝐴𝐴̅ = Ω. Podemos ver un gráfico de estas operaciones en la Figura 50.

Figura 50

La unión e intersección de sucesos o conjuntos cumplen las propiedades conmutativa y asociativa: 𝐴𝐴 ∪ 𝐵𝐵 = 𝐵𝐵 ∪ 𝐴𝐴, 𝐴𝐴 ∩ 𝐵𝐵 = 𝐵𝐵 ∩ 𝐴𝐴, 𝐴𝐴 ∪ (𝐵𝐵 ∩ 𝐶𝐶) = (𝐴𝐴 ∪ 𝐵𝐵) ∩ (𝐴𝐴 ∪ 𝐶𝐶), 𝐴𝐴 ∩ (𝐵𝐵 ∪ 𝐶𝐶) = (𝐴𝐴 ∩ 𝐵𝐵) ∪ (𝐴𝐴 ∩ 𝐶𝐶), y, obviamente, operaciones como la unión o intersección pueden generalizarse a más de dos sucesos o conjuntos. Quien tenga dudas, que lo verifique haciendo los dibujos como en la Figura 50 (siempre que se tengan dudas del resultado de operaciones con sucesos o conjuntos, se recomienda hacer los dibujos). EJEMPLO 22 Supongamos que se lanza un dado. Considerar los sucesos 𝑨𝑨=“salir número par” y 𝑩𝑩=“salir número mayor o igual a 3”. 𝑨𝑨 = {𝟐𝟐, 𝟒𝟒, 𝟔𝟔}, 𝑩𝑩 = {𝟑𝟑, 𝟒𝟒, 𝟓𝟓, 𝟔𝟔}. Vamos a calcular 𝑨𝑨 ∪ 𝑩𝑩, 𝑨𝑨 ∩ 𝑩𝑩, 𝑨𝑨 − 𝑩𝑩 y 𝑩𝑩 − 𝑨𝑨. 𝑨𝑨 ∪ 𝑩𝑩=“el resultado es par o mayor o igual a 3”= {𝟐𝟐, 𝟑𝟑, 𝟒𝟒, 𝟓𝟓, 𝟔𝟔}. 𝑨𝑨 ∩ 𝑩𝑩=“el resultado es par y mayor o igual a 3”= {𝟒𝟒, 𝟔𝟔}. 𝑨𝑨 − 𝑩𝑩=“el resultado es par pero no mayor o igual a 3”= {𝟐𝟐}. 𝑩𝑩 − 𝑨𝑨="el resultado es mayor o igual a 3 pero no par”= {𝟑𝟑, 𝟓𝟓}. pág. 108

Estadística fácil con hoja de cálculo

PROBABILIDAD Es una función que le asigna a cada suceso 𝐴𝐴 de un espacio muestral Ω un número llamado probabilidad de 𝐴𝐴, verificando: 1.-) Es un número entre 0 y 1. 0 ≤ 𝑃𝑃(𝐴𝐴) ≤ 1. 2.-) La probabilidad del espacio muestral es 1. 𝑃𝑃(Ω) = 1. 3.-) Si se consideran 𝑛𝑛 sucesos incompatibles (con intersección el vacío, 𝐴𝐴𝑖𝑖 ∩ 𝐴𝐴𝑗𝑗 = ∅, si 𝑖𝑖 ≠ 𝑗𝑗), la probabilidad de la unión es la suma de las probabilidades: 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ∪. . .∪ 𝐴𝐴𝑛𝑛 ) = 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐴𝐴2 )+. . . +𝑃𝑃(𝐴𝐴𝑛𝑛 ). Estas tres propiedades se llaman axiomas de Kolmogorov. Para entenderlas mejor, así como para entender las propiedades que daremos a continuación, conviene pensar en la probabilidad como la “medida” de un conjunto, siendo el total Ω el de mayor medida (mide 1), y cualquier otro suceso mide menos que el total y, como muy poco, 0. La tercera propiedad establece que si tenemos varios sucesos o conjuntos que no tienen intersección entre sí, la medida de la unión de todos es la suma de las medidas. En la Ilustración 2 vemos un ejemplo de espacio muestral: una fuente de croquetas. La fuente medirá (en este caso pesará) lo que sea, pero le asignamos medida o peso 1. Cualquier croqueta es un suceso que, lógicamente, pesa menos que el total. Un conjunto de croquetas como el que aparece en la foto no tiene intersección entre cada dos croquetas (no han salido pegadas, están en su punto), por lo que el peso total de un conjunto de croquetas será la suma del peso de las croquetas que lo componen.

Ilustración 2: Ejemplo de espacio muestral rico rico.

ASIGNACIÓN DE PROBABILIDADES pág. 109

Estadística fácil con hoja de cálculo

Hemos visto las propiedades que cumple la probabilidad. Ahora, cuando consideramos un experimento aleatorio, y los posibles sucesos que pueden ocurrir en el mismo, ¿cómo se sabe cuál es su probabilidad? Hay 3 maneras de asignar probabilidades a sucesos. 1.-) Asignación frecuentista. Consiste en tener en cuenta que, a medida que se repite un experimento aleatorio un número grande de veces, la frecuencia relativa de ocurrencia de cualquier suceso converge a un valor fijo. Es decir, si el experimento se repite 𝑛𝑛 veces (𝑛𝑛 muy grande), y 𝐴𝐴 es un suceso, entonces número de veces que ocurre 𝐴𝐴 𝑓𝑓𝑓𝑓(𝐴𝐴) = → 𝑃𝑃(𝐴𝐴). 𝑛𝑛 Pensemos en el lanzamiento de una moneda un número muy grande de veces. La frecuencia relativa de aparición del suceso 𝐴𝐴=“cara” tiende a 0.5. Igualmente, al lanzar un dado, la frecuencia relativa de aparición de un número tiende hacia 1/6. Este tipo de asignación es el que se utiliza para hablar de probabilidad de accidente de tráfico (tras haber obtenido muchos datos a lo largo de los años) o la probabilidad de que un medicamento cure una enfermedad (tras la observación de muchos casos).

2.-) Asignación equiprobable. Si el experimento aleatorio da lugar a un espacio muestral finito de 𝑛𝑛 elementos: Ω = {𝑤𝑤1 , 𝑤𝑤2 , . . . , 𝑤𝑤𝑛𝑛 } se le asigna a todos los sucesos elementales la misma probabilidad 1/𝑛𝑛. Entonces, cualquier suceso 𝐴𝐴 estará formado por 𝑘𝑘 sucesos elementales, y la probabilidad del suceso 𝐴𝐴 será 𝑘𝑘 casos favorables 𝑃𝑃(𝐴𝐴) = = 𝑛𝑛 casos posibles Esta fórmula es la conocida regla de Laplace. Esta tipo de asignación valdría, por citar un caso sencillo, cuando lanzamos un dado. La probabilidad de que, por ejemplo, salga un número par, es 3 entre 6 (casos favorables entre posibles). 3.-) Asignación subjetiva. pág. 110

Estadística fácil con hoja de cálculo

Cuando no es posible una asignación de las dos formas anteriores, será necesario asignar probabilidades a los sucesos de acuerdo con la experiencia de la persona que realice u observe el experimento (probabilidad de que llueva, de que se produzca un terremoto de cierta magnitud, de que una pareja se acabe casando, de que un matrimonio acabe con cuernos, de que un gordo feo pueda seducir a Natalie Portman...). PROPIEDADES DE LA PROBABILIDAD Hemos dicho que la probabilidad es una función que le asigna un número a un suceso, verificando 3 propiedades: 1) El número está entre 0 y 1. 2) La probabilidad del total es 1. 3) Si se consideran 𝑛𝑛 sucesos incompatibles (con intersección el vacío, 𝐴𝐴𝑖𝑖 ∩ 𝐴𝐴𝑗𝑗 = ∅, si 𝑖𝑖 ≠ 𝑗𝑗), la probabilidad de la unión es la suma de las probabilidades: 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ∪. . .∪ 𝐴𝐴𝑛𝑛 ) = 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐴𝐴2 )+. . . +𝑃𝑃(𝐴𝐴𝑛𝑛 ). Definiendo una probabilidad como la frecuencia relativa, o bien como casos favorables entre casos posibles, es fácil ver que estas 3 propiedades se cumplen. Pensemos, por ejemplo, en lo siguiente: Consideremos el conjunto de todos los cristianos. Consideremos el experimento aleatorio consistente en observar personas de ese conjunto. La probabilidad del total es 1. La probabilidad de que cualquier persona observada sea cristiana es 1. La probabilidad de que cualquier persona de ese conjunto sea budista es 0. Consideremos el conjunto de los católicos. La probabilidad de que una persona sea católica está entre 0 y 1, y la calcularíamos 𝑛𝑛º 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐ó𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑃𝑃(𝐴𝐴) = 𝑛𝑛º 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 Consideremos 𝐴𝐴1 =”ser católico” y 𝐴𝐴2 =”ser protestante”. Se verifica que 𝐴𝐴1 ∩ 𝐴𝐴2 = ∅, y 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ) representaría la probabilidad de “ser católico o protestante”, que se calcularía 𝑛𝑛º 𝑐𝑐𝑐𝑐𝑐𝑐ó𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 + 𝑛𝑛º 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ) = = 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐴𝐴2 ). 𝑛𝑛º 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 A partir de los axiomas de Kolmogorov, y teniendo en cuenta que un suceso es un conjunto 𝐴𝐴 ⊂ Ω, puede comprobarse que se verifican también las siguientes propiedades: P1) La probabilidad del complementario de un suceso es 1 menos la probabilidad de dicho suceso: 𝑃𝑃(𝐴𝐴̅) = 1 − 𝑃𝑃(𝐴𝐴) (ver el dibujo de la derecha en la Figura 50. P2) La probabilidad del suceso imposible ∅ es cero (porque es el complementario del total Ω). P3) Si 𝐴𝐴 ⊂ 𝐵𝐵 (siempre que ocurre 𝐴𝐴 ocurre 𝐵𝐵), entonces 𝑃𝑃(𝐴𝐴) ≤ 𝑃𝑃(𝐵𝐵). Por ejemplo, el suceso “ser anglicano” (𝐴𝐴) implica “ser protestante” (𝐵𝐵). Pero el conjunto 𝐵𝐵 es más grande que el 𝐴𝐴, puesto que hay varias divisiones entre las iglesias protestantes . Por lo tanto, la probabilidad de ser anglicano es menor o igual que la de ser protestante. P4) 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) (fijémonos que esto no es contradictorio con la propiedad 3. En dicha propiedad decimos que la probabilidad de la unión de sucesos es la suma de probabilidades, cuando las intersecciones 2 a 2 entre ellos es el vacío. Si la intersección no es el vacío, hay que restarle la probabilidad de la misma). Por ejemplo, A=”ser carpintero”, B=”ser natural de Nazaret”. Como hemos visto, los romanos hacían censos con el fin de cobrar impuestos. De esta forma, sabían en qué trabajaba cada uno. La probabilidad de ser carpintero dentro de la población judía es: 𝑛𝑛º 𝑐𝑐𝑐𝑐𝑐𝑐𝑝𝑝𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 𝑃𝑃(𝐴𝐴) = 𝑇𝑇 (𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝ó𝑛𝑛 𝑗𝑗𝑗𝑗𝑗𝑗í𝑎𝑎) pág. 111

Estadística fácil con hoja de cálculo

La probabilidad de ser de Nazaret 𝑛𝑛º 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 𝑃𝑃(𝐵𝐵) = 𝑇𝑇 La probabilidad 𝐴𝐴 ∪ 𝐵𝐵 (ser carpintero o de Nazaret) 𝑛𝑛º 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑜𝑜 𝑑𝑑𝑑𝑑 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = . 𝑇𝑇 El número de carpinteros o habitantes de Nazaret es la suma de carpinteros y de habitantes de Nazaret , pero habrá que descontar el número de carpinteros naturales de Nazaret, porque, de otro modo, los contamos dos veces (pensemos en Jesús de Nazaret). Recordemos que el objetivo de contar es para cobrar impuestos. Los romanos eran bastante bestias (porque eso de crucificar a la gente ya le vale), pero en el tema del dinero eran justos, así que no le iban a cobrar dos veces a la misma persona. Entonces 𝑛𝑛º 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 + 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛 𝑒𝑒𝑒𝑒 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 − 𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁𝑁 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = = 𝑇𝑇 = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵). Llegados a este punto, alguien puede pensar 10: “¿por qué no puedo considerar dos veces la misma persona?”. En caso de duda, id siempre al caso más sencillo. Supongamos que sólo hubiese un carpintero en toda Judea, y que además fuese de Nazaret (¿adivináis el nombre?). ¿Cuántas personas habría que cumplan un requisito u otro? Solo una, no 1+1 =2. Tendríamos que considerar 1 carpintero + 1 nacido en Judea – 1 carpintero nacido en Judea =1. Pongamos ahora otro ejemplo para ver que sucede si no tenemos en cuenta la intersección de los sucesos. Supongamos que la probabilidad de que llueva el sábado es 0.5, y la probabilidad de que llueva el domingo es 0.5. ¿Cuál es la probabilidad de que llueva el fin de semana? Si una piensa 𝑃𝑃(𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑒𝑒𝑒𝑒 𝑠𝑠á𝑏𝑏𝑏𝑏𝑏𝑏𝑏𝑏) + 𝑃𝑃(𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙𝑙 𝑒𝑒𝑒𝑒 𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑𝑑) = 0.5 + 0.5 = 1, lo que significaría que llueve seguro el fin de semana (y menos mal que no nos dicen que la probabilidad de que llueva el domingo es 0.9, por ejemplo, porque entonces la probabilidad saldría 1.8, y eso sería predecir una tormenta perfecta que ni la de George Clooney 11). Obviamente, tendrían que decirnos cual es la probabilidad de que llueva ambos días (intersección), que podría ser alta, para restársela a la suma de las probabilidades anteriores. Generalización a tres sucesos:

10

En mis años dando clases a alumnos de diferentes carreras, a veces hay gente que le suena raro lo de descontar la intersección cuando se considera la unión de dos conjuntos. Es normal si es la primera vez que se ven estas cosas. De todas maneras hay carreras (o grados, como se les llama desde que empezó el proceso de Bolonia que tantos males ha traído) donde las dificultades de comprender estas cosas lógicas son más altas que en otras, y mejor ahora me voy a quedar callado. 11 Que nadie piense en guarradas. “La tormenta perfecta” es una película de George Clooney. pág. 112

Estadística fácil con hoja de cálculo

𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) −𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶) − 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) +𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶) (véase la figura y recuérdese que probabilidad=medida). EJEMPLO 23 Jesús está dando un sermón en lo alto de la montaña. Abajo están esperando turno un grupo de enfermos para que los sane, y así no tener que hacer uso de la seguridad social de aquella época, que tenía listas de espera muy largas. El 70% de los enfermos tenían alguna tara, el 60% padecían del aparato digestivo y el 65% de los huesos. El 45% padecía de taras y del aparato digestivo, el 40% tenía taras y padecía de huesos, y el 50% del aparato digestivo y huesos. El 30% tenía las tres dolencias. ¿Cuál es la probabilidad de que el primer peregrino que se acerque a Jesus no tenga ninguna enfermedad? SOLUCIÓN. Denominemos los sucesos 𝐴𝐴=“tener una tara”, 𝐵𝐵=“padecer del aparato digestivo” y 𝐶𝐶=“padecer de los huesos”. Los datos que nos dan son: 𝑃𝑃(𝐴𝐴) = 0.7, 𝑃𝑃(𝐵𝐵) = 0.6, 𝑃𝑃(𝐶𝐶) = 0.65, 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0.45, 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶) = 0.4, 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) = 0.5 y 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶) = 0.3. El porcentaje (o la probabilidad) de que una persona no padezca ninguna de las enfermedades citadas es la probabilidad del complementario de tener alguna enfermedad, es decir, 1 menos la probabilidad de la unión de 𝐴𝐴, 𝐵𝐵 y 𝐶𝐶, y esta es: 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) − −𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶) − 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) + +𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶). Luego la probabilidad pedida es 1 − [0.7 + 0.6 + 0.65 − 0.45 − 0.4 − 0.5 + 0.3] = 1 − 0.9 = 0.1, es decir el 10 por ciento. El porcentaje de la gente que tiene algo es el 90 por ciento (no la suma de los porcentajes de 𝐴𝐴, 𝐵𝐵 y 𝐶𝐶, que daría más del cien por cien). Generalización a 𝑛𝑛 sucesos: 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ∪. . .∪ 𝐴𝐴𝑛𝑛 ) = 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐴𝐴2 )+. . . +𝑃𝑃(𝐴𝐴𝑛𝑛 ) − −𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) − 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴3 )−. . . −𝑃𝑃(𝐴𝐴𝑛𝑛−1 ∩ 𝐴𝐴𝑛𝑛 ) + +𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 )+. . . +𝑃𝑃(𝐴𝐴𝑛𝑛−2 ∩ 𝐴𝐴𝑛𝑛−1 ∩ 𝐴𝐴𝑛𝑛 ) − . .. +(−1)𝑛𝑛+1 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩. . .∩ 𝐴𝐴𝑛𝑛 ). P5) 𝑃𝑃(𝐴𝐴 − 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) (ver Figura 50).

- Además, al cumplirse las leyes de DeMorgan 12, que dicen: a) el complementario de la unión es la intersección de los complementarios: 𝐴𝐴1 ∪. . .∪ 𝐴𝐴𝑛𝑛 = 𝐴𝐴1̅ ∩. . .∩ 𝐴𝐴̅𝑛𝑛 , b) el complementario de la intersección es la unión de los complementarios: 𝐴𝐴1 ∩ 𝐴𝐴2 ∩. . .∩ 𝐴𝐴𝑛𝑛 = 𝐴𝐴1̅ ∪. . .∪ 𝐴𝐴̅𝑛𝑛 , podremos utilizar también que P6) 𝑃𝑃(𝐴𝐴1̅ ∩ … ∩ 𝐴𝐴̅𝑛𝑛 ) = 1 − 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ∪ … ∪ 𝐴𝐴𝑛𝑛 ) 12

Augustus De Morgan (1806 –1871), matemático británico que formuló el principio de inducción. No se conoce que tuviese relación con el pirata Morgan. pág. 113

Estadística fácil con hoja de cálculo

y

𝑃𝑃(𝐴𝐴1̅ ∪. . .∪ 𝐴𝐴̅𝑛𝑛 ) = 1 − 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩. . .∩ 𝐴𝐴𝑛𝑛 ).

EJEMPLO 24 𝑨𝑨𝟏𝟏 =”las aguas se convierten en sangre”, 𝑨𝑨𝟐𝟐 =”plaga de langostas”, 𝑨𝑨𝟑𝟑 =”úlceras y sarpullido”. Mejor no seguimos, que podemos llegar a diez (plagas de egipto). ¿A qué corresponde ����������������� 𝑨𝑨𝟏𝟏 ∪ 𝑨𝑨𝟐𝟐 ∪ 𝑨𝑨𝟑𝟑 ? La unión 𝐴𝐴1 ∪ 𝐴𝐴2 ∪ 𝐴𝐴3 es sufrir alguna de las plagas. El complementario es no sufrir ninguna de las 3, que sería lo mismo que no sufrir la primera, ni la segunda, ni la tercera: es decir, la intersección 𝐴𝐴1̅ ∩ 𝐴𝐴̅2 ∩ 𝐴𝐴̅3 . ¿A qué corresponde 𝑨𝑨𝟏𝟏 ∩ 𝑨𝑨𝟐𝟐 ∩ 𝑨𝑨𝟑𝟑 ? La intersección 𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 significa sufrir las tres plagas. El complementario está compuesto por todos los sucesos que no sean las tres plagas a la vez. Por ejemplo, sufrir la primera plaga y no las otras dos es un suceso que está dentro del complementario, o sufrir las dos primeras plagas pero no la tercera, o no sufrir ninguna... 𝐴𝐴1̅ ∪ 𝐴𝐴̅2 ∪ 𝐴𝐴̅3 sucede siempre que no sucedan las tres plagas a la vez, por lo tanto coincide con el complementario de la intersección de las 3 plagas o sucesos 𝐴𝐴𝑖𝑖 . Dejamos un resumen. Consejo: imprimir, agrandar y pegar en la puerta de la habitación en vez del poster de Justin Bieber/El Ché/Scarlett/Los Beatles/Pablo Iglesias/Rajoy... •𝑃𝑃(𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝛺𝛺) = 1 •𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠) es un número entre 0 y 1 • 𝑃𝑃(𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 ∅) = 0 • Si A está contenido en B, 𝑃𝑃(𝐴𝐴) ≤ 𝑃𝑃(𝐵𝐵) • 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑑𝑑𝑑𝑑 𝐴𝐴 𝐴𝐴̅) = 1 − 𝑃𝑃(𝐴𝐴) • 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵). 𝑆𝑆𝑖𝑖 𝐴𝐴 ∩ 𝐵𝐵 = ∅ entonces 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) • 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴𝐴) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶)– 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) + + 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶) y si la unión es de más se va complicando… • 𝑃𝑃(𝐴𝐴 − 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) ���������������������� • 𝑃𝑃(𝐴𝐴1̅ ∩ … ∩ 𝐴𝐴̅𝑛𝑛 ) = 1 − 𝑃𝑃(𝐴𝐴 1 ∪ 𝐴𝐴2 ∪ … ∪ 𝐴𝐴𝑛𝑛 ) ̅ ̅ ���������������������� • 𝑃𝑃(𝐴𝐴1 ∪. . .∪ 𝐴𝐴𝑛𝑛 ) = 1 − 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩. . .∩ 𝐴𝐴𝑛𝑛 ).

EJEMPLO 25 En el circus de Roma están los prisioneros esperando para ser devorados por Atila, el gran león africano. De los presos, 65 son cristianos, 80 son hombres y 25 son mujeres cristianas. ¿Cuál es la probabilidad de que el primero en salir a la arena sea un hombre? ¿Cuál es la probabilidad de que le toque a un hombre cristiano? pág. 114

Estadística fácil con hoja de cálculo

SOLUCIÓN. Denotamos los sucesos 𝐶𝐶=“cristiano”, 𝐻𝐻=“hombre”, 𝑀𝑀=“mujer”. Con los datos que nos dan podemos formar la tabla: � Totales 𝑪𝑪 𝑪𝑪 𝑯𝑯 𝑴𝑴

80

25

Totales 65

120

Ahora rellenamos los huecos

𝑯𝑯

𝑴𝑴

𝑪𝑪

40

� 𝑪𝑪

Totales

40

80

25 15

40

Totales 65 55

120

La probabilidad de que le toque a un hombre es casos favorables entre posibles: 𝑃𝑃(𝐻𝐻) = 80⁄120 = 2⁄3. La probabilidad de que le toque a un hombre cristiano es la probabilidad de la intersección 𝐻𝐻 ∩ 𝐶𝐶: 𝑃𝑃(𝐻𝐻 ∩ 𝐶𝐶) = 40/120 = 1/3. EJEMPLO 26 Tras salir victorioso de alguna guerra, el 70 por ciento de los generales romanos recibían un premio consistente en un baúl de oro, o un volquete de esclavas(os), si bien el 40 por ciento recibía ambas cosas. Si existía un 50 por ciento de generales que sólo admitían que les pagaran con oro, calcular la probabilidad de que, escogido al azar un general romano: a) sólo reciba oro, b) o bien reciba oro, o bien reciba esclavos(as), pero solamente una de las dos cosas c) el general sea un pringado y no reciba nada más que agradecimiento eterno del emperador. SOLUCIÓN. Definimos los sucesos 𝐴𝐴 =“recibir oro” y 𝐵𝐵 =“recibir esclavos”. El enunciado del problema nos da las probabilidades 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 0.7, 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0.4, 𝑃𝑃(𝐵𝐵�) = 0.5. A partir de estos datos, podemos obtener: 𝑃𝑃(𝐵𝐵) = 1 − 𝑃𝑃(𝐵𝐵�) = 0.5, y, como 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵), entonces 𝑃𝑃(𝐴𝐴) = 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) − 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0.7 − 0.5 + 0.4 = 0.6. Ahora podemos resolver los apartados. a) 𝑃𝑃(reciba oro Y no reciba esclavos)= 𝑃𝑃(𝐴𝐴 − 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0.6 − 0.4 = 0.2. b) 𝑃𝑃[(reciba oro Y no reciba esclavos) O (reciba esclavos Y no reciba oro)]= = 𝑃𝑃[(𝐴𝐴 − 𝐵𝐵) ∪ (𝐵𝐵 − 𝐴𝐴)] = = [𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)] + [𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)] = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − −2 ⋅ 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 0.6 + 0.5 − 2 ⋅ 0.4 = 0.3. c) 𝑃𝑃(no reciba oro Y no reciba esclavos) = 𝑃𝑃(𝐴𝐴̅ ∩ 𝐵𝐵�) = 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 1 − 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵) = 1 − 0.7 = 0.3. pág. 115

Estadística fácil con hoja de cálculo

Con una tabla seguro que es más fácil de hacer. Los datos que nos dan son: � Totales 𝑨𝑨 𝑨𝑨 𝑩𝑩 � 𝑩𝑩

0.4

0.5

Totales 1 Calculamos 𝑃𝑃(𝐴𝐴) mediante la fórmula de la probabilidad de la unión, puesto que nos dan 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵), y 𝑃𝑃(𝐵𝐵) = 1 − 𝑃𝑃(𝐵𝐵�) = 0.5. Como antes, 𝑃𝑃(𝐴𝐴) = 0.6. Con estos datos completamos la tabla 𝑩𝑩 � 𝑩𝑩

𝑨𝑨

� 𝑨𝑨

0.4 0.1 0.2

0.3

Totales 0.6 0.4

Totales 0.5 0.5 1

a) 𝑃𝑃(𝐴𝐴 − 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵), y estas dos últimas probabilidades están en la tabla. b) 𝑃𝑃[(𝐴𝐴 − 𝐵𝐵) ∪ (𝐵𝐵 − 𝐴𝐴)] = [𝑃𝑃(𝐴𝐴) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)] + [𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵)] = = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 2 ⋅ 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵), y, de nuevo, tenemos directamente estos datos en la tabla. c) 𝑃𝑃(𝐴𝐴̅ ∩ 𝐵𝐵�) = 0.3 está también en la tabla.

Las tablas, esa gran ayuda

PROBABILIDADES GEOMÉTRICAS La regla de Laplace puede aplicarse a ciertas situaciones donde aparecen sucesos asociados a conjuntos en el plano o en el espacio que podamos medir (longitud, área, volumen..). La probabilidad de un suceso 𝐴𝐴 será la medida de 𝐴𝐴 dividida por la medida del total. 𝑃𝑃(𝐴𝐴) =

𝑚𝑚(𝐴𝐴) 𝑚𝑚(𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇𝑇)

Supongamos que tenemos un huevo frito y, con los ojos vendados, dejamos caer el dedo. La probabilidad de que el dedo toque la yema (región A) viene dada por la probabilidad geométrica que acabamos de definir (suponemos que siempre tocamos el huevo al dejar caer el dedo). pág. 116

Estadística fácil con hoja de cálculo

EJEMPLO 27 Juan 8:4 Pero Jesús se fue al monte de los Olivos. Al amanecer se presentó de nuevo en el templo. Toda la gente se le acercó, y él se sentó a enseñarles. Los maestros de la ley y los fariseos llevaron entonces a una mujer sorprendida en adulterio, y poniéndola en medio del grupo le dijeron a Jesús: —Maestro, a esta mujer se le ha sorprendido en el acto mismo de adulterio. En la ley Moisés nos ordenó apedrear a tales mujeres. ¿Tú qué dices? Con esta pregunta le estaban tendiendo una trampa, para tener de qué acusarlo. Pero Jesús se inclinó y con el dedo comenzó a escribir en el suelo. Y como ellos lo acosaban a preguntas, Jesús se incorporó y les dijo: —Aquel de ustedes que esté libre de pecado, que tire la primera piedra. Entonces uno que estaba sordo (y además era medio tonto), mientras atendía a Jesús lanzó una piedra sin mirar. Suponiendo que la mujer estaba pegada a una pared de 5 metros de ancho por 3 de alto, ¿Cuál es la probabilidad de que le diera a la mujer, que pesaba 60 kilos y medía 155 cm? SOLUCIÓN. La fórmula de Mosteller, que todo el mundo conoce, detalla la superficie de un cuerpo humano en función de peso y altura, y es 𝑆𝑆 = �

𝑝𝑝𝑝𝑝𝑝𝑝𝑝𝑝 × 𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎𝑎 2 𝑚𝑚 3600

que, en este caso, da 1.607 𝑚𝑚2 . El espacio total del muro es alto por ancho, por lo tanto 15 metros cuadrados La probabilidad, por tanto, del suceso 𝐴𝐴=”acertar” será 1.607 = 0.107. 𝑃𝑃(𝐴𝐴) = 15

Marcos 10:25 Los discípulos se asombraron de sus palabras. Pero Jesús respondiendo de nuevo, les dijo: Hijos, ¡qué difícil es entrar en el reino de Dios! Es más fácil que un camello pase por el ojo de una aguja, que el que un rico entre en el reino de Dios.

pág. 117

Estadística fácil con hoja de cálculo

Según vemos en la Ilustración 3, la probabilidad de que un camello pase por el ojo de una aguja puede ser alta, dependiendo de lo que mida la aguja y su ojo. La probabilidad de que un rico entre el reino de los cielos puede ser pequeña si el rico es muy grande (esto suele suceder, al menos suelen estar gordos…) y la puerta del cielo es raquítica, pero eso habrá que esperar para comprobarlo, me temo. Ilustración 3

PROBABILIDAD CONDICIONADA En el año 18 d.C. Caifás fue nombrado sumo sacerdote del Sanedrín (tribunal supremo de los judíos, donde estaba su suegro Anás 13, pudiéndose comprobar así como el nepotismo existe desde tiempos inmemoriales). Por aquellos años, un habitante de Judea, si era detenido, podía ser acusado de delitos menores, siendo entonces llevado ante el Sanedrín (S). Si era acusado de blasfemia, podía ser llevado ante Herodes (H) para que decidiese si era o no crucificado. Ahora bien, recordemos que Judea había sido invadida por los romanos y estaba considerada una provincia de Roma. Como existía un movimiento independista bastante fuerte (cuyo lema principal era “Roma nos roba”), el detenido podía ser acusado de sedición ante el gobernador Pilatos (P), famoso por su extremada limpieza de las manos. En la siguiente tabla se ve la probabilidad de que el detenido acabara siendo ejecutado o no, según por quien fuese juzgado.

𝑫𝑫 (delito menor) 𝑩𝑩 (blasfemia) 𝑺𝑺 (sedición) Totales

𝑯𝑯 (hombres) 𝑴𝑴 (mujeres) Totales 75 70

250 395

25 30 50

105

100 100 300 500

Pilatos decide liberar a un preso de los 500. La probabilidad de que sea un hombre y esté acusado de sedición 250 𝑃𝑃(𝐻𝐻 ∩ 𝑆𝑆) = = 0.5. 500 Ahora Pilatos decide liberar a un hombre. En el primer caso, elegíamos al azar un preso, y queríamos que cumpliese dos condiciones: fuese hombre y estuviese acusado de sedición. En cambio, ahora elegimos un hombre (estamos buscando en un grupo más pequeño: los casos 13

Ver, por ejemplo, Jesucristo Superstar (1973) pág. 118

Estadística fácil con hoja de cálculo

posibles ahora son 395). La probabilidad pedida se escribe (probabilidad del suceso 𝑆𝑆 dado o condicionado a el suceso 𝐻𝐻): 250 . 𝑃𝑃(𝑆𝑆/𝐻𝐻) = 395 Y, como la probabilidad de que, al escoger un preso de la cárcel, al azar, sea un hombre, es 395 𝑃𝑃(𝐻𝐻) = , 500 Vemos que se verifica 250 395 250 = ⋅ , 500 500 395 o, lo que es lo mismo, 𝑃𝑃(𝑆𝑆 ∩ 𝐻𝐻) = 𝑃𝑃(𝐻𝐻) ⋅ 𝑃𝑃(𝑆𝑆/𝐻𝐻). De donde obtenemos que 𝑃𝑃(𝑆𝑆 ∩ 𝐻𝐻) . 𝑃𝑃(𝑆𝑆/𝐻𝐻) = 𝑃𝑃(𝐻𝐻)

Generalización: Dados 2 sucesos 𝐴𝐴1 y 𝐴𝐴2 (tales que 𝑃𝑃(𝐴𝐴1 ) ≠ 0, 𝑃𝑃(𝐴𝐴2 ) ≠ 0), la probabilidad condicionada se calcula como 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) 𝑃𝑃(𝐴𝐴1 /𝐴𝐴2 ) = y 𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 ) = . 𝑃𝑃(𝐴𝐴2 ) 𝑃𝑃(𝐴𝐴1 )

como

En consecuencia, vemos que la probabilidad de una intersección se puede obtener

𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) = 𝑃𝑃(𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 ) = 𝑃𝑃(𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴1 /𝐴𝐴2 )

(hasta ahora, en las propiedades vistas, sabíamos calcular la probabilidad de una unión; nunca habíamos visto como calcular la probabilidad de una intersección). Nota. Claramente, 𝑷𝑷(𝑨𝑨𝟏𝟏 ⁄𝑨𝑨𝟐𝟐 ) ≠ 𝑷𝑷(𝑨𝑨𝟐𝟐 ⁄𝑨𝑨𝟏𝟏 ). Hay un ejemplo clásico y muy clarificador. Sea S el suceso “tener dos brazos y dos piernas” y R el suceso “ser un mono”. Obviamente, 𝑷𝑷(𝑺𝑺/𝑹𝑹) = 𝟏𝟏, mientras que 𝑷𝑷(𝑹𝑹/𝑺𝑺) ≠ 𝟏𝟏.

PROPIEDADES DE LA PROBABILIDAD CONDICIONADA pág. 119

Estadística fácil con hoja de cálculo

La probabilidad condicionada verifica las mismas propiedades que hemos visto para la probabilidad, esto es, si 𝐵𝐵 es tal que 𝑃𝑃(𝐵𝐵) ≠ 0, entonces 𝑃𝑃(𝐴𝐴̅/𝐵𝐵) = 1 − 𝑃𝑃(𝐴𝐴/𝐵𝐵); si 𝐴𝐴1 ⊂ 𝐴𝐴2 , entonces 𝑃𝑃(𝐴𝐴1 /𝐵𝐵) ≤ 𝑃𝑃(𝐴𝐴2 /𝐵𝐵), etc. Si, por ejemplo, queremos calcular la probabilidad de que un hombre esté acusado de Delito menor (𝐷𝐷) o Blasfemia (𝐵𝐵), podemos calcularlo (teniendo en cuenta que el suceso 𝐷𝐷 ∪ 𝐵𝐵 es, en la tabla que estamos usando, el complementario de 𝑆𝑆) directamente mediante la fórmula de 𝑃𝑃(𝐴𝐴̅/𝐵𝐵) = 1 − 𝑃𝑃(𝐴𝐴/𝐵𝐵), esto es 250 145 𝑃𝑃[(𝐷𝐷 ∪ 𝐵𝐵)/𝐻𝐻] = 1 − 𝑃𝑃(𝑆𝑆/𝐻𝐻) = 1 − = . 395 395 La forma de calcularlo a partir de la tabla sería buscar, dentro de la columna de hombres, los casos que hay de Delitos menores (𝐷𝐷) o Blasfemia (𝐵𝐵), que son 75 + 70 = 145, y por tanto la probabilidad es 145/395. DIAGRAMA DE ÁRBOL

Los problemas de probabilidades condicionadas, en muchas ocasiones, son fáciles de plantear mediante lo que se denomina diagrama de árbol (Figura 51): A partir de la población total, distinguimos dos ramas (en el caso más simple, un suceso 𝐴𝐴 y su complementario; las probabilidades de ambos suman 1). A continuación, desde el suceso 𝐴𝐴 abrimos otras dos ramas, que corresponden a 𝐵𝐵/𝐴𝐴 y � 𝐵𝐵/𝐴𝐴 (de nuevo las probabilidades suman 1). Desde el suceso 𝐴𝐴̅ abrimos dos ramas 𝐵𝐵/𝐴𝐴̅ y 𝐵𝐵�/𝐴𝐴̅ (probabilidades sumando 1). Al terminar el árbol, tenemos a la derecha las intersecciones correspondientes de cada 2 sucesos, y como calcular las probabilidades.

Figura 51

EJEMPLO 28 El 12% de los legionarios de un campamento romano es de familia noble. El 25% de ellos sabe latín. a) ¿Qué tasa de legionarios del campamento es noble y sabe latin? ¿Qué tasa no lo sabe? SOLUCIÓN. Consideramos los sucesos 𝐴𝐴=“ser de familia noble”, 𝐵𝐵=“saber latín”. Tenemos que 𝑃𝑃(𝐴𝐴) = 0.12, 𝑃𝑃(𝐵𝐵/𝐴𝐴) = 0.25 (𝐵𝐵/𝐴𝐴 representa, dentro de los que son nobles, los que saben latín. Nos piden pág. 120

Estadística fácil con hoja de cálculo

a)𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵⁄𝐴𝐴) = 0.12 ∙ 0.25 = 0.03 = 3%. b) 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵�) = 𝑃𝑃(𝐴𝐴) ⋅ 𝑃𝑃(𝐵𝐵�/𝐴𝐴) = 𝑃𝑃(𝐴𝐴) ⋅ (1 − 𝑃𝑃(𝐵𝐵/𝐴𝐴)) = 0.12 ⋅ (1 − 0.25) = 0.09.

Si planteamos el diagrama de árbol para este caso, tendríamos el de la Figura 52. Dividiríamos primero en 2 ramas (ser noble o no) y luego 2 ramas para cada nodo (saber latín o no). Por la primera rama tenemos 𝑃𝑃(𝐴𝐴) y si continuamos de nuevo por la primera rama, multiplicamos por 𝑃𝑃(𝐵𝐵⁄𝐴𝐴) para obtener 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵).es decir el 9 por ciento. Para el apartado b), después de ir por la primera rama nos movemos por la segunda, y tenemos 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵�).

Figura 52

EJEMPLO 29 En las bodas de Caná, el 70% de los presentes eran mujeres. De ellas el 10% eran católicas. De los hombres, eran católicos el 20%. a) ¿Qué porcentaje de católicos había? b) Se elije a una persona al azar y es católica. ¿Cuál es la probabilidad de que sea un hombre? SOLUCIÓN. Dibujamos el diagrama de árbol (Figura 53):

Figura 53

a) El porcentaje de católicos es 𝑃𝑃(𝐶𝐶) = 𝑃𝑃(𝐶𝐶 ∩ 𝑀𝑀) + 𝑃𝑃(𝐶𝐶 ∩ 𝐻𝐻) = 0.1 ∙ 0.7 + 0.2 ∙ 0.3 = 0.07 + 0.06 = 0.13 = 13%. b) Nos piden 𝑃𝑃(𝐻𝐻⁄𝐶𝐶 ). Aplicamos la definición de probabilidad condicional: pág. 121

Estadística fácil con hoja de cálculo

𝑃𝑃(𝐶𝐶 ∩ 𝐻𝐻) 0.2 ∙ 0.3 = = 0.461. 𝑃𝑃(𝐶𝐶) 0.13 Ahora vamos a hacerlo mediante una tabla. Ponemos los datos que nos dan: � (No católico) Totales (%) 𝑪𝑪 (católico) 𝑪𝑪 𝑃𝑃(𝐻𝐻⁄𝐶𝐶 ) =

𝑯𝑯 (hombre) 0.2 ∙ 30 = 6 𝑴𝑴 (mujer)

Totales (%)

Rellenamos los huecos: 𝑯𝑯 (hombre) 𝑴𝑴 (mujer)

30

0.1 ∙ 70 = 7

70

100

� (No católico) Totales (%) 𝑪𝑪 (católico) 𝑪𝑪 6 7

24 63

Totales 13 87 Mirando a la tabla, contestamos: a) 𝑃𝑃(𝐶𝐶) = 0.13 𝑜𝑜 13% (Total de la Columna). b) 𝑃𝑃(𝐻𝐻⁄𝐶𝐶 ) =

𝑃𝑃(𝐶𝐶∩𝐻𝐻) , 𝑃𝑃(𝐶𝐶)

30 70

100

y estas probabilidades las miramos en la tabla:

𝑃𝑃(𝐻𝐻⁄𝐶𝐶 ) =

𝑃𝑃(𝐶𝐶 ∩ 𝐻𝐻) 0.06 = = 0.46 𝑃𝑃(𝐶𝐶) 0.13

REGLA DEL PRODUCTO Generalizando la fórmula vista para la intersección de dos sucesos: 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) = 𝑃𝑃(𝐴𝐴1 ) ∙ 𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 ), cuando consideramos la intersección de 𝑛𝑛 sucesos, su probabilidad se obtiene por la llamada regla del producto: 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩ … ∩ 𝐴𝐴𝑛𝑛 ) = = 𝑃𝑃(𝐴𝐴1 )𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 )𝑃𝑃(𝐴𝐴3 /𝐴𝐴1 ∩ 𝐴𝐴2 )𝑃𝑃(𝐴𝐴4 /𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 ) ⋅. . .⋅ 𝑃𝑃(𝐴𝐴𝑛𝑛 /𝐴𝐴1 ∩. . . 𝐴𝐴𝑛𝑛−1 ), que, como vemos, consiste en que la probabilidad de la intersección de 𝑛𝑛 sucesos se calcula multiplicando las probabilidades sucesivas, pero condicionando cada suceso a que ocurran todos los inmediatamente anteriores. EJEMPLO 30 En la última cena, Jesús le dijo a Pedro “esta noche, tú me negarás tres veces”. Jesús sabía que iba a haber una redada y que Pedro iba a poner pies en polvorosa, y después iba a negar cualquier relación con su maestro. Pedro, cada vez que lo paraban y le preguntaban por Jesús y él lo negaba, se iba arrepintiendo poco a poco de ser tan poco fiel. De esta forma, la probabilidad de que negara a Jesús era, en cada ocasión, un veinticinco por ciento menos que la vez anterior. ¿Cuál es la probabilidad de que hubiera llegado a negarlo cinco veces? SOLUCIÓN. Denotemos por 𝐴𝐴𝑖𝑖 =”negar a Jesús en la vez 𝑖𝑖”, para 𝑖𝑖 = 1,2,3, … La probabilidad 𝑃𝑃(𝐴𝐴𝑖𝑖 ) = 𝑃𝑃(𝐴𝐴𝑖𝑖−1 ) − 0.25 ∙ 𝑃𝑃(𝐴𝐴𝑖𝑖−1 ) = 0.75 ∙ 𝑃𝑃(𝐴𝐴𝑖𝑖−1 ). Nos piden 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩ … ∩ 𝐴𝐴5 ) = = 𝑃𝑃(𝐴𝐴1 ) ∙ 𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 ) ∙ 𝑃𝑃(𝐴𝐴3 /𝐴𝐴1 ∩ 𝐴𝐴2 ) ∙ 𝑃𝑃(𝐴𝐴4 /𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴5 /𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 ∩ 𝐴𝐴5 ) = pág. 122

Estadística fácil con hoja de cálculo

= 𝑃𝑃(𝐴𝐴1 ) ∙ �0.75 ∙ 𝑃𝑃(𝐴𝐴1 )� ∙ (0.75 ∙ 𝑃𝑃(𝐴𝐴1 )2 ) ∙ (0.75 ∙ 𝑃𝑃(𝐴𝐴1 )3 ) ∙ (0.75 ∙ 𝑃𝑃(𝐴𝐴1 )4 ) = = 0.7510 ∙ 𝑃𝑃(𝐴𝐴1 )11 = 0.05631 ∙ 𝑃𝑃(𝐴𝐴1 )11. Así pues, aunque la probabilidad de que Pedro negara a Jesús por primera vez fuese igual a 1 (tengamos en cuenta que los romanos eran más temidos en aquella época que los mossos de esquadra), la probabilidad de negarlo 5 veces ya se reduce a 0.05631, o sea 5.63 por ciento. INDEPENDENCIA DE SUCESOS 2 sucesos 𝐴𝐴1 y 𝐴𝐴2 son independientes si la ocurrencia de uno no influye en la ocurrencia del otro. Se verifica entonces que 𝑃𝑃(𝐴𝐴1 /𝐴𝐴2 ) = 𝑃𝑃(𝐴𝐴1 ) y 𝑃𝑃(𝐴𝐴2 /𝐴𝐴1 ) = 𝑃𝑃(𝐴𝐴2 ), es decir, que el que haya ocurrido uno no influye para nada en la ocurrencia del otro. Si 𝑛𝑛 sucesos son independientes, entonces la probabilidad de la intersección es el producto de las probabilidades: 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩. . .∩ 𝐴𝐴𝑛𝑛 ) = 𝑃𝑃(𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) ⋅. . .⋅ 𝑃𝑃(𝐴𝐴𝑛𝑛 ). Nota: Muchas veces hay confusión entre probabilidad condicionada y probabilidad de una intersección. Para no despistarse, piénsese en el aprobado condicionado: suspendes un examen parcial, y el profesor te lo aprueba, pero condicionado a aprobar el siguiente parcial. Llamemos 𝐴𝐴1 =“aprobar el primero” y 𝐴𝐴2 =“aprobar el segundo”. Si al aprobar el segundo te dan el aprobado del primero, 𝑃𝑃(𝐴𝐴1 /𝐴𝐴2 ) = 1. En cambio, calcular la probabilidad de la intersección 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) correspondería a preguntarnos, antes de hacer los exámenes, cuál es la probabilidad de aprobar los dos. Si el profesor no tiene en cuenta la nota del primero para el segundo (ni al revés), los sucesos serían independientes, y 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ) = 𝑃𝑃(𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴2 ). La probabilidad de una intersección supone calcular la probabilidad de que sucedan 2 cosas simultáneamente. La probabilidad condicionada supone que una de ellas ha ocurrido, la sabemos, y entonces calculamos la probabilidad de la otra (en función de lo que ha ocurrido).

EJEMPLO 31 Supongamos ahora que Pedro, en cada ocasión que le preguntan por Jesús (después de que reventara la cena la patrulla romana y Pedro saliera corriendo) Pedro lo niega o no tirando un sestercio al aire. Si sale la cara del emperador, niega a Jesús. En otro caso, se entrega. ¿Cuál es la probabilidad de que se entregara la cuarta vez que lo pararan? SOLUCIÓN. Si cada vez que lo paran, tira una moneda, ahora los sucesos 𝐴𝐴𝑖𝑖 =“negar a Jesús en la vez 𝑖𝑖” son independientes, con probabilidad siempre 0.5 pues Pedro tira un sestercio al aire. Por lo tanto, la probabilidad de no negar a Jesús en la cuarta ocasión es: ���4 ) = 𝑃𝑃(𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴 ���4 ) = 0.54 = 0.0625. 𝑃𝑃(𝐴𝐴1 ∩ 𝐴𝐴2 ∩ 𝐴𝐴3 ∩ 𝐴𝐴 pág. 123

Estadística fácil con hoja de cálculo

EJEMPLO 32 Supongamos que un tratamiento médico A cura a un enfermo de lepra con 𝑷𝑷(𝑨𝑨) = 𝟎𝟎. 𝟗𝟗. El enfermo lo toma, pero, por si acaso, a pesar de la alta probabilidad de curación, decide ir junto a Jesucristo para que le toque. ¿Cuál es la probabilidad de que se cure? SOLUCIÓN. 𝑃𝑃(𝐴𝐴) = 0.9 𝑃𝑃(𝐽𝐽) = 1 siendo 𝐽𝐽=”te cure Jesucristo”. 𝑃𝑃(𝐴𝐴𝐴𝐴𝐴𝐴) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵) = 0.9 + 1 − 0.9 ∙ 0.1 = 1.9 − 0.9 = 1.

TEOREMA DE LAS PROBABILIDADES TOTALES Un sistema completo de sucesos es un conjunto de sucesos 𝐴𝐴1 , 𝐴𝐴2 , . . . , 𝐴𝐴𝑛𝑛 que verifican: - Son sucesos incompatibles 2 a 2: 𝐴𝐴𝑖𝑖 ∩ 𝐴𝐴𝑗𝑗 = 𝜙𝜙 , si 𝑖𝑖 ≠ 𝑗𝑗. - La unión de todos es el total: 𝑛𝑛

� 𝐴𝐴𝑖𝑖 = Ω, 𝑖𝑖=1

y además, la probabilidad de cada uno de ellos es distinta de cero. Visualmente, un sistema completo de sucesos es una partición del espacio total Ω en conjuntos, todos disjuntos (no tienen intersección entre sí), y todos “midiendo algo” (tienen probabilidad diferente a cero). Supongamos que el espacio muestral Ω es una tarta, y la troceamos (dibujo de la izquierda de la Figura 54). El teorema de las probabilidades totales dice lo siguiente:

pág. 124

Estadística fácil con hoja de cálculo

Consideremos un sistema completo de sucesos, y sea 𝐵𝐵 otro suceso, 𝐵𝐵 ⊂ Ω, para el que se conocen las probabilidades 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑖𝑖 ) para todo 𝑖𝑖. Entonces, la probabilidad del suceso 𝐵𝐵 viene dada por: 𝑛𝑛

𝑃𝑃(𝐵𝐵) = � 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑖𝑖 )𝑃𝑃(𝐴𝐴𝑖𝑖 ). 𝑖𝑖=1

Demostración. La demostración es tan sencilla que conviene verla para seguir practicando con las probabilidades de los sucesos. 𝐵𝐵 ⊂ Ω podemos expresarlo como la unión 𝐵𝐵 = (𝐵𝐵 ∩ 𝐴𝐴1 ) ∪ (𝐵𝐵 ∩ 𝐴𝐴2 ) ∪. . .∪ (𝐵𝐵 ∩ 𝐴𝐴𝑛𝑛 ), es decir 𝐵𝐵 intersecado con cada uno de los sucesos 𝐴𝐴𝑖𝑖 (Figura 54):

Figura 54

Como puede verse facilmente en la Figura 54, dado que los 𝐴𝐴𝑖𝑖 son disjuntos, también lo son los conjuntos 𝐵𝐵 ∩ 𝐴𝐴𝑖𝑖 , luego podemos escribir: 𝑛𝑛

𝑃𝑃(𝐵𝐵) = � 𝑃𝑃(𝐵𝐵 ∩ 𝐴𝐴𝑖𝑖 ), 𝑖𝑖=1

y ahora, simplemente escribiendo la probabilidad de una intersección en función de las probabilidades condicionadas, tendremos que 𝑛𝑛

𝑃𝑃(𝐵𝐵) = � 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑖𝑖 ) ∙ 𝑃𝑃(𝐴𝐴𝑖𝑖 ). 𝑖𝑖=1

El resultado de este teorema también puede expresarse mediante un diagrama de árbol (Figura 55), que servirá para realizar problemas de fórma fácil. Fijémonos que ahora, desde el espacio total, abrimos una rama por cada suceso 𝐴𝐴𝑖𝑖 . Antes haciamos esto para un suceso y su complementario. Ahora lo hacemos para todos los sucesos 𝐴𝐴𝑖𝑖 cuyas probabilidades suman también 1 y tienen intersección disjunta. A partir de cada uno de los 𝐴𝐴𝑖𝑖 podemos abrir dos ramas: 𝐵𝐵/𝐴𝐴𝑖𝑖 y 𝐵𝐵�/𝐴𝐴𝑖𝑖 (probabilidades sumando 1). La probabilidad del suceso B se obtiene sumando todas las probabilidades de las intersecciones que están a la derecha del árbol: 𝑛𝑛

𝑃𝑃(𝐵𝐵) = � 𝑃𝑃(𝐵𝐵 ∩ 𝐴𝐴𝑖𝑖 ), 𝑖𝑖=1

pág. 125

Estadística fácil con hoja de cálculo

Figura 55

EJEMPLO 33 En una carpinteria de Judea, el volumen de producción semestral en cada una de sus secciones A (mesas de últimas cenas), B (tabernáculos) y C (cruces para los romanos) era de 500, 1000 y 2000 unidades, respectivamente. A la carpintería se acerca el centurión Máximo, pensando en hacer el encargo de una mesa para el salón. Teniendo en cuenta que el porcentaje de unidades defectuosas producidas en cada sección es del 1, 0.8 y 2 por ciento, respectivamente, calcular la probabilidad de que, eligiendo Máximo una unidad al azar para ver la calidad, no tenga ningún defecto. SOLUCIÓN. Denotemos por 𝐷𝐷=“unidad defectuosa”, 𝐴𝐴1 =“pertenecer a la sección A”, 𝐴𝐴2 =“pertenecer a la sección B” y 𝐴𝐴3 =“pertenecer a la sección C”. Al elegir una pieza de la carpintería, sólo hay 3 opciones, que son 𝐴𝐴1 , 𝐴𝐴2 y 𝐴𝐴3 . Además, si ocurre una no ocurre ninguna de las otras. Por lo tanto, se verifica que 𝐴𝐴1 ∪ 𝐴𝐴2 ∪ 𝐴𝐴3 = 𝛺𝛺 y son sucesos incompatibles. Tenemos entonces un sistema completo de sucesos. En la práctica, lo que hacemos es ver si 𝑷𝑷(𝑨𝑨𝟏𝟏 ) + 𝑷𝑷(𝑨𝑨𝟐𝟐 ) + 𝑷𝑷(𝑨𝑨𝟑𝟑 ) = 𝟏𝟏, y que los sucesos 𝑨𝑨𝒊𝒊 no puedan ocurrir simultaneamente. En este caso, 1000 2000 500 , 𝑃𝑃(𝐵𝐵) = , 𝑃𝑃(𝐶𝐶) = 𝑃𝑃(𝐴𝐴) = 3500 3500 3500 Además, sabemos que 𝑃𝑃(𝐷𝐷/𝐴𝐴1 ) = 0.01, 𝑃𝑃(𝐷𝐷/𝐴𝐴2 ) = 0.088 y 𝑃𝑃(𝐷𝐷⁄𝐴𝐴3 ) = 0.02. Entonces, la probabilidad de que una pieza elegida al azar sea defectuosa es, mediante el teorema de la probabilidad total 𝑃𝑃(𝐷𝐷) = 𝑃𝑃(𝐷𝐷⁄𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐷𝐷⁄𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + 𝑃𝑃(𝐷𝐷⁄𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) = 1000 2000 500 + 0.088 ⋅ + 0.02 ⋅ = 0.015. = 0.01 ⋅ 3500 3500 3500 Así pues, la probabilidad de que la pieza no sea defectuosa es 1 − 0.015 = 0.985.

pág. 126

Estadística fácil con hoja de cálculo

REGLA DE BAYES El llamado Teorema de Bayes 14 utiliza las mismas hipótesis o supuestos que el teorema de las probabilidades totales: Sea un sistema completo de sucesos 𝐴𝐴1 , 𝐴𝐴2 , . . . , 𝐴𝐴𝑛𝑛 , es decir: -Son sucesos incompatibles 2 a 2: 𝐴𝐴𝑖𝑖 ∩ 𝐴𝐴𝑗𝑗 = 𝜙𝜙 , si 𝑖𝑖 ≠ 𝑗𝑗. -La unión de todos es el total: 𝑛𝑛

� 𝐴𝐴𝑖𝑖 = Ω, 𝑖𝑖=1

y, además, la probabilidad de cada uno de ellos es distinta de cero. Sea 𝐵𝐵 un suceso para el que se conocen las probabilidades 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑖𝑖 ). Entonces, las probabilidades 𝑃𝑃(𝐴𝐴𝑗𝑗 /𝐵𝐵) se pueden obtener de la forma 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑗𝑗 ) ⋅ 𝑃𝑃(𝐴𝐴𝑗𝑗 ) 𝑃𝑃(𝐴𝐴𝑗𝑗 /𝐵𝐵) = 𝑛𝑛 , ∀𝑗𝑗 = 1, . . . , 𝑛𝑛. ∑𝑖𝑖=1 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑖𝑖 ) ⋅ 𝑃𝑃(𝐴𝐴𝑖𝑖 ) Esta fórmula es conocida como regla o fórmula de Bayes. La demostración también la escribimos, por ser muy simple: por la fórmula de la probabilidad condicionada, se tiene que 𝑃𝑃(𝐴𝐴𝑗𝑗 ∩ 𝐵𝐵) 𝑃𝑃(𝐴𝐴𝑗𝑗 /𝐵𝐵) = . 𝑃𝑃(𝐵𝐵) Ahora, para calcular 𝑃𝑃(𝐵𝐵), en el denominador, podemos usar la fórmula de la probabilidad total. En el numerador, la probabilidad la calculamos según la definición de la probabilidad de una intersección: 𝑃𝑃(𝐴𝐴𝑗𝑗 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴𝑗𝑗 ) ⋅ 𝑃𝑃(𝐵𝐵/𝐴𝐴𝑗𝑗 ), 14

Thomas Bayes (1777-1855). Se comenta que solía frecuentar una taberna, donde los que entraban por primera vez eran incordiados por un carota que les preguntaba: “¿Has visto a Thomas?” El cliente preguntaba: “¿Qué Thomas?” Y entonces el carota miraba al tabernero y decía: “Una cerveza, muchas gracias”. pág. 127

Estadística fácil con hoja de cálculo

y ya está listo el resultado. Nota: Las probabilidades 𝑷𝑷(𝑨𝑨𝒊𝒊 ) se conocen como probabilidades “a priori”, y las probabilidades 𝑷𝑷(𝑨𝑨𝒊𝒊 /𝑩𝑩) se denominan “a posteriori”, puesto que se obtienen posteriormente a que ha ocurrido el suceso 𝑩𝑩.

EJEMPLO 34 En el último ejercicio, supongamos que Marco Vinicio extrae para mirar una unidad que es defectuosa. Calcular que haya sido fabricada en la sección C. SOLUCIÓN. Nos dicen que se ha producido el suceso 𝐷𝐷. Tenemos que calcular la probabilidad condicionada 𝑃𝑃(𝐴𝐴3 ⁄𝐷𝐷 ). Por el teorema de Bayes: 𝑃𝑃(𝐷𝐷/𝐴𝐴3 ) =

𝑃𝑃(𝐷𝐷/𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) = 𝑃𝑃(𝐷𝐷/𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐷𝐷/𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + 𝑃𝑃(𝐷𝐷/𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 )

0.02 ⋅ 0.5714 0.0114 = = 0.76. 0.015 𝑃𝑃(𝐷𝐷) Como vemos, la probabilidad de que una pieza sea de la sección C es 𝑃𝑃(𝐴𝐴3 ) = 0.5714. Ahora bien, si la pieza es defectuosa, la probabilidad de que proceda de esa sección es mayor (0.76), ya que también es la que mayor número de piezas defectuosas produce. =

EJEMPLO 35 Los romanos sabían que iba a ser difícil detener a Jesús, puesto que sus discípulos nunca lo delatarían. Probando a comprarlos, estimaron que, con 30 monedas, la probabilidad pág. 128

Estadística fácil con hoja de cálculo

de que uno de los apóstoles lo delatara sólo ascendía a 0.01, exceptuando Pedro, que no lo delataría, y también Judas, que lo delataría con probabilidad 1. La patrulla romana entró en el restaurante donde cenaban pero, debido a que la gestión de la luz era ineficiente al ser del estado, se quedaron a oscuras, y sólo pudieron detener a uno de los apóstoles. ¿Cuál es la probabilidad de que delatara a Jesús? Después de preguntar, Jesús no fue delatado. ¿Cuál es la probabilidad de que el detenido fuese Pedro? SOLUCIÓN. Planteamos el diagrama de árbol para este problema. Llamamos 𝐵𝐵 al suceso “ser delatado”, y 𝐴𝐴𝑖𝑖 al suceso “la patrulla romana detiene al apóstol 𝑖𝑖”. Particularizamos 𝑖𝑖 = 1 para Pedro e 𝑖𝑖 = 2 para Judas, y tenemos que 𝑃𝑃(B⁄𝐴𝐴1 ) = 0, 𝑃𝑃(B/𝐴𝐴2 ) = 1, 𝑃𝑃(B/𝐴𝐴𝑖𝑖 ) = 0.01 𝑠𝑠𝑠𝑠 𝑖𝑖 = 3, … ,12. Además, 𝑃𝑃(𝐴𝐴𝑖𝑖 ) = 1/12, por lo que los 𝐴𝐴𝑖𝑖 forman un sistema completo de sucesos.

Por la fórmula de la probabilidad total, la probabilidad de que Jesús sea delatado es 𝑃𝑃(𝐵𝐵) = 𝑃𝑃(𝐵𝐵⁄𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐵𝐵⁄𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + ⋯ + 𝑃𝑃(𝐵𝐵/𝐴𝐴12 ) ⋅ 𝑃𝑃(𝐴𝐴12 ) = 1 1 1 1 1 +1∙ + 0.01 ∙ + ⋯ + 0.01 ∙ = 1.1 ∙ = 0.0916. =0∙ 12 12 12 12 12 Por la regla de Bayes, la probabilidad de que el detenido fuese Pedro, sabiendo que Jesús no fue delatado, es 𝑃𝑃(𝐵𝐵�/𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) 𝑃𝑃(𝐴𝐴1 /𝐵𝐵�) = 12 = ∑𝑖𝑖=1 𝑃𝑃(𝐵𝐵�/𝐴𝐴𝑖𝑖 ) ⋅ 𝑃𝑃(𝐴𝐴𝑖𝑖 ) 1 1 1 1 1 ∙ 12 1 ∙ 12 1 ∙ 12 1 ∙ 12 1 = = = = = = 0.0917. 12 − 1.1 10.9 𝑃𝑃(𝐵𝐵�) 1 − 𝑃𝑃(B) 1 − 1.1 ∙ 1 12 12 Como vemos, la probabilidad “a priori” de que fuese Pedro era 1/12 = 0.083. Una vez que Jesús no fue delatado, la probabilidad de que el interrogado fuese Pedro aumenta, pero no excesivamente, puesto que casi todos los apóstoles delatarían a Jesús con muy poca probabilidad.

pág. 129

Estadística fácil con hoja de cálculo

PROBLEMAS ANTIGUOS

PROBLEMA 5 Judá Ben-hur ha sido declarado culpable de intento de asesinato porque el tejado de su casa cayó accidentalmente sobre el tribuno Mesala. Mesala tenía tres opciones como castigo para su examigo de la infancia: crucificarlo, mandarlo a galeras o enviarlo al circo romano como comida para los leones. Las probabilidades de supervivencia eran 0, 0.01 y 0.001 respectivamente. ¿Cuál es la probabilidad de que Ben-hur salga con vida del injusto castigo? SOLUCIÓN. Denotemos por 𝐵𝐵=“sobrevivir”, 𝐴𝐴1 =“ser crucificado”, 𝐴𝐴2 =“ir a galeras” y 𝐴𝐴3 =“ir al circo”. Como vemos, hay 3 opciones, que son 𝐴𝐴1 , 𝐴𝐴2 y 𝐴𝐴3 . Además, si ocurre una no ocurre ninguna de las otras. Por lo tanto, se verifica que 𝐴𝐴1 ∪ 𝐴𝐴2 ∪ 𝐴𝐴3 = 𝛺𝛺 y son sucesos incompatibles. Tenemos entonces un sistema completo de sucesos. Recordad que lo que hacemos es ver si 𝑷𝑷(𝑨𝑨𝟏𝟏 ) + 𝑷𝑷(𝑨𝑨𝟐𝟐 ) + 𝑷𝑷(𝑨𝑨𝟑𝟑 ) = 𝟏𝟏, y que los sucesos 𝑨𝑨𝒊𝒊 no puedan ocurrir simultaneamente. Además, sabemos que 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) = 0, 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) = 0.01 y 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) = 0.001

Entonces, la probabilidad de que un preso salga con vida de semejante trance es 𝑃𝑃(𝐵𝐵) = 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) 1 1 1 = 0 ⋅ + 0.01 ⋅ + 0.001 ⋅ = 0.0036. 3 3 3 pág. 130

Estadística fácil con hoja de cálculo

PROBLEMA 6 En la primera Semana Santa de la historia, los herejes soldados romanos que vigilaban a Jesús en la cruz decidieron jugarse la sábana a los dados. Lanzaban 3 dados y ganaba el que mayor número consegua (sumando los tres dados). Como uno de los soldados, Montorus Bellacus, quería regalarle la sábana a su mujer por su cumpleaños, decidió cambiar, en su turno, los dados por unos propios en los que el 6 salía con probabilidad 1/2. Su jugada fue 16-6. El siguiente en tirar fue el soldado Monederus, quien, a pesar de la dificultad de superar la jugada, exclamó:"Montorus, no te tengo miedo", y lanzó los dados. Cuando los dados iban a caer al suelo, se oyó un gran trueno y la noche se impuso sobre el día. Se escuchó una voz "padre, perdónalos, porque no saben estadística". Aprovechando la oscuridad, el centurión Longinus escondió la sabana en su bolsa y se fue con ella. 15 ¿Cuál es la probabilidad de que Monederus le hubiese ganado a Montorus? SOLUCIÓN. Para ganarle a Montorus, tena que salir una combinación 𝑥𝑥 − 6 − 6, donde 𝑥𝑥 sea un 1 3 2

número mayor que 1. La opción 6-6-6 tiene probabilidad � � , y cada una de las otras 4 opciones 1 2

1

(en un dado trucado, el 6 sale con x-6-6 (con x=2,3,4 o 5) tiene probabilidad � � ⋅ 2 10 probabilidad 1/2, por lo tanto el resto de números del 1 al 5 salen con probabilidad 1/10). Ahora bien, para cada número x, podemos obtener, al lanzar los 3 dados: x-6-6 o 6-x-6 o 6-6-x, es decir hay 3 posibilidades. Por lo tanto, la probabilidad total será 1 3 1 2 1 � � +4⋅3⋅� � ⋅ = 0.425. 2 2 10 15

lo que le sucedió después se puede ver en la pelcula "La túnica sagrada". pág. 131

Estadística fácil con hoja de cálculo

PROBLEMA 7 Una hermandad sevillana está preocupada porque se moje la virgen en la procesión de semana santa. El instituto meteorológico les dice que la probabilidad de llover el jueves santo es 0.5, exáctamente igual que la probabilidad de que llueva el viernes santo y de que llueva el sábado santo. Teniendo en cuenta que esta hermandad saca a pasear a la virgen los 3 días ¿cuál es la probabilidad de que la virgen se moje? SOLUCIÓN. 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) − 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵) − 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐶𝐶) − 𝑃𝑃(𝐵𝐵) ∙ 𝑃𝑃(𝐶𝐶) + +𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵) ∙ 𝑃𝑃(𝐶𝐶) = =

1 1 1 1 1 1 1 1 1 + + −� ⋅ �−� ⋅ �−� ⋅ � 2 2 2 2 2 2 2 2 2 7 1 1 1 + � ⋅ ⋅ � = = 0.875 8 2 2 2

PROBLEMA 8 Cleopatra se acuesta con Marco Antonio el 30 por ciento de las veces, con Craso el 60 por ciento, y el 10 por ciento restante con alguno de los criados. La probabilidad de que se quede embarazada de Marco Antonio es 0.9, de Craso es 0.75 y de los criados 0.5. Tras la amenaza de su marido Cesar de mandarla ejecutar, Cleopatra promete dejarse de tonterías y no volver a serle infiel. Una noche, un criado observa a Cleopatra saliendo a escondidas de su habitación para ir a un cuarto oscuro. Tras una temporada, aparece embarazada. ¿Cuál es la probabilidad de que se hubiera acostado con Craso (sabiendo que el hijo no puede ser de Cesar, porque es estéril)? SOLUCIÓN. Definimos los sucesos: 𝐴𝐴1 =“acostarse con Marco Antonio”, pág. 132

Estadística fácil con hoja de cálculo

𝐴𝐴2 =“acostarse con Craso”, 𝐴𝐴3 =“acostarse con algún criado”, 𝐵𝐵=“quedarse embarazada”. Las probabilidades que sabemos son: 𝑃𝑃(𝐴𝐴1 ) = 0.3, 𝑃𝑃(𝐴𝐴2 ) = 0.6, 𝑃𝑃(𝐴𝐴3 ) = 0.1. Como vemos, las probabilidades suman 1, luego estos 3 sucesos (que además son incompatibles, porque el enunciado no habla para nada de camas triples) forman un sistema completo de sucesos. También sabemos que 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) = 0.9, 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) = 0.75, 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) = 0.5. Mesalina se ha quedado embarazada, y queremos calcular la probabilidad de que haya podido acostarse con Craso. Tenemos que calcular la probabilidad condicionada 𝑃𝑃(𝐴𝐴2 /𝐵𝐵). Por el teorema de Bayes: 𝑃𝑃(𝐴𝐴2 /𝐵𝐵) =

𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) = 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) =

0.75 ⋅ 0.6 = 0.584. 0.9 ⋅ 0.3 + 0.75 ⋅ 0.6 + 0.5 ⋅ 0.1

PROBLEMA 9 En el circo, el 50 por ciento son gladiadores, el 30 por ciento cristianos y el 20 por ciento presos comunes. Un 10 por ciento de los gladiadores sobrevivían a los juegos, mientras que tan solo sobrevivían un 0.5 por ciento de los cristianos y un 1 por ciento de los presos comunes. Demetrius iba paseando por la via apia cuando fue detenido al confundirlo un centurión con un antiguo enemigo. Tras recibir el típico tratamiento de moda en la época, llamado “tormento”, es enviado al circo. Allí le dicen al vigilante que lo introduzca en cualquiera de las tres mazmorras donde están separados gladiadores, cristianos y presos comunes. ¿Cuál es la probabilidad de que salga sano y salvo de los juegos de ese año? SOLUCIÓN.

Definimos los sucesos 𝐵𝐵=“salir sano y salvo”, 𝐴𝐴1 =“ir a la mazmorra de los gladiadores”, 𝐴𝐴2 =“ir a la mazmorra de los cristianos” y 𝐴𝐴3 =“ir a la mazmorra de los presos comunes”. Este es otro ejemplo donde los sucesos 𝐴𝐴𝑖𝑖 son incompatibles y la suma de probabilidades da uno. Por lo tanto, forman un sistema completo de sucesos. pág. 133

Estadística fácil con hoja de cálculo

Los datos que tenemos son: 𝑃𝑃(𝐴𝐴1 ) = 0.5, 𝑃𝑃(𝐴𝐴2 ) = 0.3, 𝑃𝑃(𝐴𝐴3 ) = 0.2. Por otro lado, 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) = 0.1, 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) = 0.005, 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) = 0.1. Entonces 𝑃𝑃(𝐵𝐵) = 𝑃𝑃(𝐵𝐵/𝐴𝐴1 ) ⋅ 𝑃𝑃(𝐴𝐴1 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴2 ) ⋅ 𝑃𝑃(𝐴𝐴2 ) + 𝑃𝑃(𝐵𝐵/𝐴𝐴3 ) ⋅ 𝑃𝑃(𝐴𝐴3 ) = = 0.1 ⋅ 0.5 + 0.005 ⋅ 0.3 + 0.1 ⋅ 0.2 = 0.0715. PROBLEMA 10 Todos conocemos la famosa frase “Roma no paga a traidores”, que dijo el cónsul Escipión, cuando fueron a pedir su dinero los traidores que mataron a Viriato mientras dormía. Por ello, después de que Judas traicionó a Jesús, los romanos lo estaban buscando para que devolviera las 30 monedas, pero Judas se había gastado 10 monedas en mujeres de mala vida. Las otras 20 se las había robado un griego aprovechando que dormía la mona. Como los griegos ya tenían fama por aquella época de no devolver las deudas, los romanos deciden considerar las tres estrategias más habituales en época de “pax romana” para recuperar sus 20 monedas: 𝑨𝑨, enviar matones a la casa del griego, para amenazarlo y escribir cosas en el portal, del estilo “paga la deuda, primer aviso”. Este tipo de estrategia conseguía su objetivo el 90 por ciento de las veces. 𝑩𝑩, enviarle unos testigos de Jehová para que lo volvieran loco, intentando que se convirtiese. Esta estrategia conseguía su objetivo el 60 por ciento de las veces. 𝑪𝑪, soltarle una serpiente venenosa traída directamente de Egipto. Esta última táctica funcionaba el 70 por ciento de las veces. El porcentaje de uso de cada método era: el 𝑨𝑨 el 50 por ciento, el 𝑩𝑩 el 35 por ciento y el 𝑪𝑪 el 15 por ciento de las veces. Finalmente, el griego devolvió las 20 monedas. ¿Cuál es la probabilidad de que le aplicaran el método 𝑨𝑨? SOLUCIÓN. Las probabilidades que nos dan, para cada uno de los tres métodos, son: 𝑃𝑃(𝐴𝐴) = 0.5, 𝑃𝑃(𝐵𝐵) = 0.35, 𝑃𝑃(𝐶𝐶) = 0.15. Como vemos, las probabilidades suman 1, luego estos 3 sucesos (que son incompatibles, entendiendo que no se aplican dos a la vez) forman un sistema completo de sucesos. También sabemos que las probabilidades de 𝐸𝐸=“éxito”, dependiendo del método empleado, son 𝑃𝑃(𝐸𝐸/𝐴𝐴) = 0.9, 𝑃𝑃(𝐸𝐸/𝐵𝐵) = 0.6, 𝑃𝑃(𝐸𝐸/𝐶𝐶) = 0.7. Nos piden 𝑃𝑃(𝐴𝐴/𝐸𝐸). Por el teorema de Bayes: 𝑃𝑃(𝐴𝐴/𝐸𝐸) =

𝑃𝑃(𝐸𝐸/𝐴𝐴) ⋅ 𝑃𝑃(𝐴𝐴) = 𝑃𝑃(𝐸𝐸/𝐴𝐴) ⋅ 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐸𝐸/𝐵𝐵) ⋅ 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐸𝐸/𝐶𝐶) ⋅ 𝑃𝑃(𝐶𝐶)

=

0.9 ⋅ 0.5 = 0.588. 0.9 ⋅ 0.5 + 0.6 ⋅ 0.35 + 0.7 ⋅ 0.15

PROBLEMA 11 Un noble romano acaba de recibir una herencia y desea invertir en esclavos griegos o en deuda de la península de Iberia. Solicita un informe a tres asesores para que se pronuncien de forma favorable o desfavorable a la compra. Por experiencias anteriores en operaciones similares, se sabe que los tres asesores tienen actitudes ante el riesgo diferente e independiente. Esta situación se refleja en las probabilidades de aconsejar la compra de pág. 134

Estadística fácil con hoja de cálculo

esclavos griegos, que son respectivamente 0.8, 0.5 y 0.3 (frente a comprar deuda de la península ibérica). Con esta información calcular: a) La probabilidad de que al menos uno de ellos aconseje la compra de esclavos griegos. b) La probabilidad de que ninguno de ellos aconseje comprar esclavos griegos. SOLUCIÓN: Se definen los siguientes sucesos: A= “ El asesor A aconseja la compra de esclavos griegos”. B=” El asesor B aconseja la compra de esclavos griegos”. C=” El asesor C aconseja la compra de esclavos griegos”. Las probabilidades son: 𝑃𝑃(𝐴𝐴) = 0.8, 𝑃𝑃(𝐵𝐵) = 0.5, 𝑃𝑃(𝐶𝐶) = 0.3 a) Con las definiciones anteriores, 𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶 representa el suceso “ al menos uno de los tres aconseja la compra de esclavos griegos”, cuya probabilidad se calcula utilizando: 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) − 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) − 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶) − 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) + 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶) Como los sucesos son mutuamente independientes, estas probabilidades son: 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵) = 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵) = 0.4 𝑃𝑃(𝐴𝐴 ∩ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐶𝐶) = 0.24 𝑃𝑃(𝐵𝐵 ∩ 𝐶𝐶) = 𝑃𝑃(𝐵𝐵) ∙ 𝑃𝑃(𝐶𝐶) = 0.15 𝑃𝑃(𝐴𝐴 ∩ 𝐵𝐵 ∩ 𝐶𝐶) = 𝑃𝑃(𝐴𝐴) ∙ 𝑃𝑃(𝐵𝐵) ∙ 𝑃𝑃(𝐶𝐶) = 0.12 Entonces 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 0.8 + 0.5 + 0.3 − 0.4 − 0.24 − 0.15 + 0.12 = 0.93 b) La probabilidad de que ninguno de los tres aconseje la compra es 𝑃𝑃(𝐴𝐴̅ ∩ 𝐵𝐵� ∩ 𝐶𝐶̅ ) = 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 1 − 𝑃𝑃(𝐴𝐴 ∪ 𝐵𝐵 ∪ 𝐶𝐶) = 1 − 0.93 = 0.07 PROBLEMA 12 El despertador de arena de Jesús no funciona muy bien, pues el 20% de las veces no suena. Cuando suena, Jesús llega tarde a trabajar el carpintero con probabilidad 0.2, pero si no suena, la probabilidad de que llegue tarde es 0.9. a) Determina la probabilidad de que llegue temprano. c) Jesús ha llegado tarde al trabajo. ¿Cuál es la probabilidad de que haya sonado el despertador SOLUCIÓN: Sean los sucesos 𝑆𝑆= “el despertador de Jesús suena” y 𝑇𝑇 = “Jesús llega tarde a trabajar”. Tenemos que 𝑃𝑃(𝑆𝑆) = 0.8, 𝑃𝑃(𝑇𝑇/𝑆𝑆) = 0.2 y 𝑃𝑃(𝑇𝑇/𝑆𝑆) = 0.9. a) La probabilidad de llegar tarde es 𝑃𝑃(𝑇𝑇) = 𝑃𝑃(𝑇𝑇/𝑆𝑆). 𝑃𝑃(𝑆𝑆) + 𝑃𝑃(𝑇𝑇/𝑆𝑆̅). 𝑃𝑃(𝑆𝑆̅) = 0.2. 0.8 + 0.9. 0.2 = 0.16 + 0.18 = 0.34. Entonces la probabilidad de que llegue temprano es 1 − 𝑃𝑃(𝑇𝑇) = 1 − 0.34 = 0.66 c) 𝑃𝑃(𝑆𝑆/𝑇𝑇) =

0.2 ⋅ 0.8 𝑃𝑃(𝑇𝑇/𝑆𝑆)𝑃𝑃(𝑆𝑆) = = 0.47 ̅ ̅ 0.34 𝑃𝑃(𝑇𝑇/𝑆𝑆) ∙ 𝑃𝑃(𝑆𝑆) + 𝑃𝑃(𝑇𝑇/𝑆𝑆) ∙ 𝑃𝑃(𝑆𝑆)

PROBLEMA 13 En una cierta familia noble romana, famosa por los matrimonios entre parientes próximos, el 40 por ciento son idiotas, y el 50 por ciento come papeles. Los estadistas han pág. 135

Estadística fácil con hoja de cálculo

comprobado que, cuando ven a uno comiendo papeles, la probabilidad de que sea idiota es 0.8. ¿Cuál es la probabilidad de que un idiota no coma papeles? SOLUCIÓN: 𝐼𝐼=“ ser idiota” , 𝐶𝐶=“ comer papeles” . Nos dicen que 𝑃𝑃(𝐼𝐼) = 0.4, 𝑃𝑃(𝐶𝐶) = 0.5 y 𝑃𝑃(𝐼𝐼/𝐶𝐶) = 0.8. Como 𝑃𝑃(𝐼𝐼/𝐶𝐶) = 𝑃𝑃(𝐼𝐼 ∩ 𝐶𝐶)/𝑃𝑃(𝐶𝐶), tenemos que 𝑃𝑃(𝐼𝐼 ∩ 𝐶𝐶) = 𝑃𝑃(𝐶𝐶) ∙ 𝑃𝑃(𝐼𝐼/𝐶𝐶) = 0.5 ⋅ 0.8 = 0.4. Nos piden 𝑃𝑃(𝐶𝐶̅ /𝐼𝐼). 𝑃𝑃(𝐶𝐶̅ ∩ 𝐼𝐼) 𝑃𝑃(𝐶𝐶̅ )𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ) (1 − 0.5) ⋅ 𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ) 𝑃𝑃(𝐶𝐶̅ /𝐼𝐼) = = = 𝑃𝑃(𝐼𝐼) 𝑃𝑃(𝐼𝐼) 0.4 Necesitamos calcular 𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ). 𝑃𝑃(𝐼𝐼 ̅ ∩ 𝐶𝐶̅ ) 𝑃𝑃(𝐼𝐼 ̅ ∩ 𝐶𝐶̅ ) 𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ) = 1 − 𝑃𝑃(𝐼𝐼 /̅ 𝐶𝐶̅ ) = 1 − =1− . 0.5 𝑃𝑃(𝐶𝐶̅ ) 𝑃𝑃(𝐼𝐼 ̅ ∩ 𝐶𝐶̅ ) podemos calcularlo como (leyes de Morgan): 𝑃𝑃(𝐼𝐼 ̅ ∩ 𝐶𝐶̅ ) = 𝑃𝑃�𝐼𝐼 ∪ 𝐶𝐶� = 1 − 𝑃𝑃(𝐼𝐼 ∪ 𝐶𝐶) = = 1 − [𝑃𝑃(𝐼𝐼) + 𝑃𝑃(𝐶𝐶) − 𝑃𝑃(𝐼𝐼 ∩ 𝐶𝐶)] = 1 − [0.4 + 0.5 − 0.4] = 0.5. 0.5 Obtenemos pues que 𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ) = 1 − = 0, con lo que 𝑃𝑃(𝐶𝐶̅ /𝐼𝐼) = 0. 0.5 También puede hacerse con la tabla (es mucho más facil) (igual que hacerlo con un diagrama de árbol) � (No come papeles) Totales (%) 𝑪𝑪 (come papeles) 𝑪𝑪 𝑰𝑰 (idiota) 𝑰𝑰� (no idiota)

0.8 ∙ 50 = 40

𝑰𝑰 (idiota) �𝑰𝑰 (no idiota)

40 10

40

Totales (%) 50 100 Rellenamos los huecos: � (No come papeles) Totales (%) 𝑪𝑪 (come papeles) 𝑪𝑪 0 50

Totales (%) 50 50 En la tabla vemos directamente que la probabilidad pedida es 𝑃𝑃(𝐼𝐼 ∩ 𝐶𝐶̅ ) 0 𝑃𝑃(𝐼𝐼/𝐶𝐶̅ ) = = ̅ 𝑃𝑃(𝐶𝐶 ) 𝑃𝑃(𝐶𝐶̅ )

pág. 136

40 60

100

Estadística fácil con hoja de cálculo

PROBLEMAS CURIOSOS Tomados prestados del libro de Paulos (1990) PROBLEMA 14 Supongamos que la probabilidad de un sueño profético sea de 1/10.000 (muy poco frecuente). Entendemos por sueño profético aquel donde alguien sueña con su tía y la ve muriendo en un accidente de coche, y efectivamente muere en accidente de coche, etc. En una población con 10 millones de personas adultas, ¿cuántas tendrán al menos un sueño profético al año? SOLUCIÓN Según suponemos en el enunciado (pueden hacerse las cuentas con otro número más pequeño si se quiere), la probabilidad de que un sueño no sea profético es muy grande: 9.999/10.000. Por consiguiente, la probabilidad de que una persona tenga al menos un sueño profético al cabo de un año es 1 − 𝑃𝑃(𝑛𝑛𝑛𝑛 𝑡𝑡𝑡𝑡𝑛𝑛𝑛𝑛𝑛𝑛 𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛) = 9999 365 =1−� � = 1 − 0.9999365 = 1 − 0.9641 = 0.0359. 10000 Supongamos una población con 10 millones de adultos. Cada uno de ellos tiene probabilidad 0.0359 de tener al menos un sueño profético al año. Es decir, el 3.59 por ciento de los adultos (que son 3.590.000 adultos) tendrán al menos un sueño profético al año.

pág. 137

Estadística fácil con hoja de cálculo

PROBLEMA 15 Supongamos las siguientes probabilidades: Probabilidad de no morir en un accidente de automóvil = 0.99 Probabilidad de no morir en un accidente doméstico = 0.98 Probabilidad de no morir de enfermedad pulmonar = 0.95 Probabilidad de no morir por causa de enfermedad mental = 0.90 Probabilidad de no morir por cáncer = 0.8 Probabilidad de no morir a causa del corazón = 0.75. ¿Cuál es la probabilidad de morir por alguna de esas causas (suponemos las causas independientes)? SOLUCIÓN. Como vemos, la probabilidad de morir por una concreta de esas causas es bastante pequeña. De hecho, la más grande es morir a causa del corazón, que es 0.75. Si llamamos 𝐴𝐴𝑖𝑖 =”morir de la causa 𝑖𝑖”, nos piden ���������������������� 𝑃𝑃(𝐴𝐴1 ∪ 𝐴𝐴2 ∪ … ∪ 𝐴𝐴6 ) = 1 − 𝑃𝑃(𝐴𝐴 1 ∪ 𝐴𝐴2 ∪ … ∪ 𝐴𝐴6 ) = 1 − [𝑃𝑃(𝐴𝐴1̅ ∩ 𝐴𝐴̅2 ∩ … ∩ 𝐴𝐴̅6 )] = = 1 − �𝑃𝑃(𝐴𝐴1̅ ) ∙ 𝑃𝑃(𝐴𝐴̅2 ) ∙ ⋯ ∙ 𝑃𝑃(𝐴𝐴̅6 )� = = 1 − (0.99 ∙ 0.98 ∙ 0.95 ∙ 0.9 ∙ 0.8 ∙ 0.75) = 1 − 0.4977 = 0.5023 Vemos que la probabilidad de morir por alguna de las causas es mayor que una entre dos.

pág. 138

Estadística fácil con hoja de cálculo

En ocasiones, es útil asociar un número a cada resultado de un experimento aleatorio. Por ejemplo: En el experimento aleatorio “lanzar una moneda 3 veces”, podemos considerar la variable 𝑋𝑋=“número de caras”. 𝑋𝑋 tomará los valores 0,1,2,3. En el experimento aleatorio “elegir un enfermo al azar de un hospital”, podemos considerar las variables 𝑋𝑋=“peso en kilos”, 𝑌𝑌=“estatura en metros”, 𝑍𝑍=“temperatura”... Una variable que asocia a cada resultado de un experimento aleatorio un número recibe el nombre de variable aleatoria. Definimos Rango o soporte de la variable aleatoria 𝑋𝑋 al conjunto de todos los posibles valores de la variable. En función de su rango, una variable aleatoria puede ser: Discreta: su rango es un conjunto finito o infinito numerable 16 de valores. 16

Un conjunto infinito numerable es aquel que tiene tantos elementos como el conjunto de los números naturales. Los números naturales son 1,2,3,... y hasta infinito. Entre cada 2 números consecutivos no hay ningún otro. Este conjunto se dice que es infinito pero numerable, por contraposición a otros conjuntos también con infinitos elementos, pero con diferente forma, como puede ser un intervalo de números reales: por ejemplo, [0,1]. Dentro de este intervalo están todos aquellos números entre el 0 y el 1, y con tantos decimales como queramos. Evidentemente hay infinitos números pág. 139

Estadística fácil con hoja de cálculo

Continua: : el rango es un intervalo de números reales. Ejemplo: la variable “Altura de personas”. Rango=[0,2.5]. Ejemplo: la variable “número de hijos de una pareja”. Rango={0,1,2,…}. Es un caso de una variable discreta que toma un conjunto infinito numerable de valores (porque no sabemos dónde termina el conjunto; otra cuestión es que la probabilidad de cada valor vaya paulatinamente disminuyendo, pero de eso hablaremos en breve). VARIABLES ALEATORIAS DISCRETAS Una variable aleatoria discreta 𝑋𝑋 está definida por los valores que toma y sus probabilidades, las cuales deberán sumar 1. 𝑿𝑿

𝑷𝑷(𝑿𝑿 = 𝒙𝒙𝒊𝒊 )

𝒙𝒙𝟏𝟏 𝑝𝑝1 𝒙𝒙𝟐𝟐 𝑝𝑝2 ⋮ ⋮ donde las probabilidades 𝑝𝑝1 +. . . +𝑝𝑝𝑘𝑘 = 1. Esta tabla se conoce como ley de probabilidad, distribución de probabilidad, función de probabilidad o función de masa de probabilidad. Gráficamente, se representa con un diagrama de barras (ver las Figura 56 y Figura 57). EJEMPLO 36 Cuando realizamos el experimento aleatorio “lanzar un dado”, podemos considerar la variable 𝑿𝑿=“𝟏𝟏 si el resultado es par, y 𝟎𝟎 si es impar”. Su ley de probabilidad es 𝑷𝑷(𝑿𝑿 = 𝒙𝒙𝒊𝒊 ) 𝑿𝑿 𝟎𝟎 𝟏𝟏

1/2 1/2

EJEMPLO 37 Cuando realizamos el experimento aleatorio “elegir un número al azar entre 𝟏𝟏 y 𝑵𝑵”, la variable aleatoria 𝑿𝑿=“valor que se observa” se llama variable uniforme discreta. Su función de probabilidad aparece dibujada en la Figura 56 (para 𝑵𝑵 = 𝟗𝟗). Esta variable es la correspondiente a cualquier juego o sorteo equiprobable, como jugar a la ruleta (sale un número entre 1 y 36), jugar a una lotería (sale un número entre los que se jueguen), etc.

Figura 56

también, pero entre cada dos podemos escribir tantos como queramos. pág. 140

Estadística fácil con hoja de cálculo

FUNCIÓN DE DISTRIBUCIÓN Es la función que asocia a un punto 𝑎𝑎 la probabilidad acumulada hasta ese punto: 𝐹𝐹(𝑎𝑎) = 𝑃𝑃(𝑋𝑋 ≤ 𝑎𝑎). En el caso de una variable discreta, 𝑖𝑖

𝐹𝐹(𝑎𝑎) = 𝑃𝑃(𝑋𝑋 = 𝑥𝑥1 ) + 𝑃𝑃(𝑋𝑋 = 𝑥𝑥2 ) + ⋯ + 𝑃𝑃(𝑋𝑋 = 𝑥𝑥𝑖𝑖 ) = � 𝑃𝑃(𝑋𝑋 = 𝑥𝑥𝑡𝑡 ), 𝑡𝑡=1

siendo todos los 𝑥𝑥𝑡𝑡 ≤ 𝑎𝑎, es decir, es la suma de las probabilidades de aquellos puntos menores o iguales al valor 𝑎𝑎.

En la Figura 57 podemos ver la ley de probabilidad y la función de distribución de una variable discreta 𝑋𝑋.

Figura 58 Figura 57

La función de distribución es, como vemos, una función escalonada que, en cada valor 𝑥𝑥𝑖𝑖 , aumenta el valor correspondiente de la probabilidad en ese punto (𝑝𝑝𝑖𝑖 ). Es, por lo tanto, una función no decreciente que siempre varía entre 0 y 1. Matemáticamente, la función de distribución para la variable 𝑋𝑋 general que aparece en la Figura 57 se escribe de la forma: pág. 141

Estadística fácil con hoja de cálculo

0 𝑠𝑠𝑠𝑠 𝑥𝑥 < 𝑥𝑥1 ⎧𝑝𝑝 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ [𝑥𝑥1 , 𝑥𝑥2 ) ⎪ 1 ⎪𝑝𝑝1 + 𝑝𝑝2 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ [𝑥𝑥2 , 𝑥𝑥3 ) 𝐹𝐹(𝑥𝑥) = ⋮ ⋮ ⎨𝑝𝑝 + 𝑝𝑝 +. . . +𝑝𝑝 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ [𝑥𝑥 , 𝑥𝑥 ) 1 2 𝑖𝑖 𝑖𝑖 𝑖𝑖+1 ⎪ ⋮ ⎪⋮ 𝑠𝑠𝑠𝑠 𝑥𝑥 ≥ 𝑥𝑥𝑘𝑘 ⎩1 donde, como vemos, en los puntos 𝑥𝑥𝑖𝑖 , en los que precisamente la función no es continua (hay un salto), a 𝐹𝐹(𝑥𝑥𝑖𝑖 ) se le asigna el valor inmediatamente superior; por eso escribimos 𝑝𝑝1 + 𝑝𝑝2 +. . . +𝑝𝑝𝑖𝑖 si 𝑥𝑥 ∈ [𝑥𝑥𝑖𝑖 , 𝑥𝑥𝑖𝑖+1 ). En el punto 𝑥𝑥𝑖𝑖+1 ya le damos el valor siguiente: 𝐹𝐹(𝑥𝑥𝑖𝑖+1 ) = 𝑝𝑝1 + 𝑝𝑝2 +. . . +𝑝𝑝𝑖𝑖 + 𝑝𝑝𝑖𝑖+1 = 𝐹𝐹(𝑥𝑥𝑖𝑖 ) + 𝑝𝑝𝑖𝑖+1 .

EJEMPLO 38 En las fiestas de Berlusconi se ha ido anotando el número de personas que se mete en la misma cama en el mismo momento. Las frecuencias observadas se presentan en la siguiente tabla: Nº de personas 2 3 4 5 6 7 8 Frecuencia relativa 0.01 0.08 0.25 0.32 0.28 0.05 0.01 Dado que el número de fiestas observado ha sido muy grande, podemos considerar las frecuencias relativas anteriores como probabilidades, disponiendo así de la distribución de la variable aleatoria 𝑿𝑿=“Número de personas en la misma cama”. a) Obtener y representar las funciones de masa de probabilidad y de distribución. b) Acaba de llegar a la mansión el Papa buscando a Berlusconi para darle un recado, pero Berlusconi está encamado. El Papa está mayor y le puede dar un infarto si ve más de cuatro personas en la misma cama. ¿Cuál es la probabilidad de que el Papa regrese sano y salvo al Vaticano? SOLUCIÓN. a) Construimos una columna sumando las probabilidades para obtener la función de distribución. 𝑿𝑿 𝑷𝑷(𝑿𝑿 = 𝒙𝒙𝒊𝒊 ) 𝑭𝑭 2 0.01 0.01 3 0.08 0.09 4 0.25 0.34 5 0.32 0.66 6 0.28 0.94 7 0.05 0.99 8 0.01 1

Para escribir de forma correcta la función de distribución únicamente hay que tener en cuenta las discontinuidades en los puntos de la variable 𝑋𝑋.

pág. 142

0 ⎧0.01 ⎪ 0.09 ⎪ 0.34 𝐹𝐹(𝑥𝑥) = ⎨0.66 ⎪0.94 ⎪0.99 ⎩1

𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠

𝑥𝑥 𝑥𝑥 𝑥𝑥 𝑥𝑥 𝑥𝑥 𝑥𝑥 𝑥𝑥 𝑥𝑥

4

Figura 66

Nota: como este tipo de ejercicios no pueden realizarse con Excel, no hacemos ninguno más. Podéis encontrar unos cuantos en cualquiera de mis otros dos libros. Igual que en el caso de variables estadísticas, para las variables aleatorias se pueden definir medidas de centralización, dispersión y forma. Las más utilizadas son el valor medio o esperanza (generalización de la media aritmética) y la varianza (o su raiz cuadrada la desviación típica). También podemos definir y calcular los mismos parámetros que hemos visto en variables estadísticas: mediana, cuartiles, moda, coeficiente de simetría, curtosis, etc., y el significado de pág. 149

Estadística fácil con hoja de cálculo

los mismos coincide con el definido en cada caso. Vamos a ver como se calculan los parámetros más utilizados.

ESPERANZA DE UNA VARIABLE ALEATORIA Es la generalización de la media aritmética. También se llama valor medio, valor esperado o esperanza matemática, y se representa por la letra griega 𝜇𝜇. Si 𝑋𝑋 es una variable aleatoria discreta (representada, de manera general, por una tabla de valores 𝑥𝑥𝑖𝑖 y probabilidades 𝑝𝑝𝑖𝑖 = 𝑃𝑃(𝑋𝑋 = 𝑥𝑥𝑖𝑖 )), la esperanza se calcula como la media aritmética de los valores, es decir la suma de los valores por sus probabilidades (las probabilidades serían las frecuencias relativas). 𝑘𝑘

𝜇𝜇 = 𝐸𝐸(𝑋𝑋) = � 𝑥𝑥𝑖𝑖 𝑝𝑝𝑖𝑖 . 𝑖𝑖=1

Recordemos que la media aritmética de una variable estadística se definió como 𝑥𝑥1 + 𝑥𝑥2 +. . . +𝑥𝑥𝑛𝑛 , 𝑥𝑥̅ = 𝑛𝑛 que, obviamente, sería equivalente a escribir 𝑛𝑛 𝑛𝑛 1 1 𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 = � 𝑥𝑥𝑖𝑖 ∙ , 𝑛𝑛 𝑛𝑛 𝑖𝑖=1

𝑖𝑖=1

es decir, sería la esperanza de una variable cuyos valores aparecen todos con la misma probabilidad 𝑝𝑝𝑖𝑖 = 1/𝑛𝑛. Si a una variable estadística la representamos por sus valores 𝑥𝑥𝑖𝑖 , y sus frecuencias relativas son 𝑓𝑓𝑖𝑖 = 𝑛𝑛𝑖𝑖 /𝑛𝑛, entonces la media aritmética se puede escribir como 𝑛𝑛

𝑥𝑥̅ = � 𝑥𝑥𝑖𝑖 𝑓𝑓𝑖𝑖 , 𝑖𝑖=1

es decir, suma de valores por frecuencias. En el caso de una variable aleatoria, las frecuencias se transforman en probabilidades (de ocurrencia). Por eso la esperanza es un valor medio “esperado”. Si 𝑋𝑋 es una variable aleatoria continua, la variable toma infinitos valores. Como vimos en la función de distribución, el equivalente continuo de la suma es la integral. La fórmula matemática incluye en este caso a la función de densidad: ∞

𝜇𝜇 = 𝐸𝐸(𝑋𝑋) = � 𝑥𝑥𝑥𝑥(𝑥𝑥)𝑑𝑑𝑑𝑑. −∞

Nota. Puede ocurrir, tanto en variables discretas como continuas, que el valor que se obtenga al calcular la esperanza sea un número que tiende a infinito. En este caso, se dice que la variable aleatoria no tiene esperanza. Si la variable aleatoria no tiene esperanza, tampoco tiene varianza. Más adelante veremos algún ejemplo.

LA VARIANZA Se representa 𝜎𝜎 2 = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋), y la desviación típica 𝜎𝜎 es la raiz cuadrada (con signo positivo) de la varianza. Igual que en el caso de variables estadísticas, mide la dispersión de la variable, y se calcula como la media de las desviaciones (elevadas al cuadrado) de los valores a su media: pág. 150

Estadística fácil con hoja de cálculo

𝜎𝜎 2 = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝐸𝐸[(𝑋𝑋 − 𝜇𝜇)2 ]. También puede calcularse como 𝜎𝜎 2 = E[𝑋𝑋 2 ] − 𝜇𝜇2 Si X es una variable discreta, la forma de hacer los cálculos será 𝑘𝑘

𝑘𝑘

𝜎𝜎 = � (𝑥𝑥𝑖𝑖 − 𝜇𝜇) 𝑝𝑝𝑖𝑖 = �� 𝑥𝑥𝑖𝑖2 𝑝𝑝𝑖𝑖 � − 𝜇𝜇2 . 2

2

𝑖𝑖=1

Si X es una variable continua, 2

𝑖𝑖=1



𝜎𝜎 = � (𝑥𝑥 − 𝜇𝜇)2 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑑𝑑, −∞

y que, igual que antes, puede calcularse como ∞

𝜎𝜎 2 = �� 𝑥𝑥 2 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑑𝑑� − 𝜇𝜇2 . −∞

EJEMPLO 41 Calcular la media o esperanza de la variable aleatoria del Ejemplo 38 (el de Berlusconi). SOLUCIÓN. Utilizando la fórmula, tenemos que sumar valores por probabilidades: 𝑘𝑘

𝜇𝜇 = 𝐸𝐸(𝑋𝑋) = � 𝑥𝑥𝑖𝑖 𝑝𝑝𝑖𝑖 = 𝑖𝑖=1

= 2 ⋅ 0.01 + 3 ⋅ 0.08 + 4 ⋅ 0.25 + 5 ⋅ 0.32 + 6 ⋅ 0.28 + 7 ⋅ 0.05 + 8 ⋅ 0.01 = 4.97. La varianza la calculamos mediante la fórmula 𝑘𝑘

𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = ��

𝑖𝑖=1

𝑥𝑥𝑖𝑖2 𝑝𝑝𝑖𝑖 � − 𝜇𝜇2 .

Como la media ya la hemos calculado, calculamos el primer término (que es igual que calcular la media de los valores al cuadrado): ∑𝑘𝑘𝑖𝑖=1 𝑥𝑥𝑖𝑖2 𝑝𝑝𝑖𝑖 = 22 ⋅ 0.01 + 32 ⋅ 0.08 + 42 ⋅ 0.25 + 52 ⋅ 0.32 + 62 ⋅ 0.28 + 72 ⋅ 0.05 + 82 ⋅ 0.01 = 25.93. Por lo tanto, la varianza 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 25.93 − 4.972 = 1.22.

PROPIEDADES DE LA ESPERANZA Y DE LA VARIANZA La media y la varianza de una variable aleatoria poseen las mismas características o propiedades vistas para las variables estadísticas unidimensionales, en la sección correspondiente . Concretamente, podemos resumir que si 𝑌𝑌 = 𝑎𝑎𝑎𝑎 + 𝑏𝑏, (donde 𝑎𝑎, 𝑏𝑏 son números cualesquiera) ⇒ ⇒ 𝐸𝐸(𝑌𝑌) = 𝑎𝑎𝑎𝑎(𝑋𝑋) + 𝑏𝑏 y 𝑉𝑉𝑉𝑉𝑉𝑉(𝑌𝑌) = 𝑎𝑎2 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋).

Además, tenemos que, si sumamos variables independientes (el valor de cualquier variable no depende de los valores de ninguna otra), la esperanza de la suma es la suma de esperanzas, e igual ocurre con la varianza: 𝐸𝐸(𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 ) = 𝐸𝐸(𝑋𝑋1 ) + 𝐸𝐸(𝑋𝑋2 )+. . . 𝐸𝐸(𝑋𝑋𝑛𝑛 ), 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 ) = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋1 ) + V𝑎𝑎𝑎𝑎(𝑋𝑋2 )+. . . 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋𝑛𝑛 ). pág. 151

Estadística fácil con hoja de cálculo

Una generalización de estas dos últimas fórmulas es el siguiente resultado: si tenemos 𝑋𝑋1 , . . . , 𝑋𝑋𝑛𝑛 𝑛𝑛 variables independientes, y 𝑛𝑛 números reales 𝑎𝑎1 , 𝑎𝑎2 , . . . , 𝑎𝑎𝑛𝑛 , entonces: 𝐸𝐸(𝑎𝑎1 𝑋𝑋1 + 𝑎𝑎2 𝑋𝑋2 +. . . +𝑎𝑎𝑛𝑛 𝑋𝑋𝑛𝑛 ) = 𝑎𝑎1 𝐸𝐸(𝑋𝑋1 ) + 𝑎𝑎2 𝐸𝐸(𝑋𝑋2 )+. . . 𝑎𝑎𝑛𝑛 𝐸𝐸(𝑋𝑋𝑛𝑛 ), 𝑉𝑉𝑉𝑉𝑉𝑉(𝑎𝑎1 𝑋𝑋1 + 𝑎𝑎2 𝑋𝑋2 + ⋯ + 𝑎𝑎𝑛𝑛 𝑋𝑋𝑛𝑛 ) = 𝑎𝑎12 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋1 ) + 𝑎𝑎22 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋2 )+. . . 𝑎𝑎𝑛𝑛2 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋𝑛𝑛 )

EJEMPLO 42 La variable 𝑿𝑿𝟏𝟏 mide el peso de las pizzas sencillas de la marca Parradellos, y tienen de media 500 gramos y varianza 5. La variable 𝑿𝑿𝟐𝟐 mide el peso de los yogures de la marca Dadonde, y tiene de media 120 gramos con varianza 2. Manuel y Manuela cenan todos los días una pizza doble y un yogur y medio. ¿Cuál es la media y varianza de la variable que mide el peso de la cena? SOLUCIÓN. El peso de la cena es 𝑌𝑌 = 2𝑋𝑋1 + 1.5𝑋𝑋2 . Por lo tanto 𝐸𝐸(𝑌𝑌) = 2 ⋅ 500 + 1.5 ⋅ 120 = 1180 gramos, y la varianza es 𝑉𝑉𝑉𝑉𝑉𝑉(𝑌𝑌) = 22 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋1 ) + 1. 52 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋2 ) = 4 ⋅ 5 + 2.25 ⋅ 2 = 24.50.

MEDIANA La mediana 𝑀𝑀𝑀𝑀 es el valor que deja a cada lado el 50 por ciento de la población (la probabilidad a cada lado es 0.5): 𝑃𝑃(𝑋𝑋 < 𝑀𝑀𝑀𝑀) ≤ 0.5 y 𝑃𝑃(𝑋𝑋 > 𝑀𝑀𝑀𝑀) ≥ 0.5 si 𝑋𝑋 es discreta, 𝑃𝑃(𝑋𝑋 ≤ 𝑀𝑀𝑀𝑀) = 0.5 si 𝑋𝑋 es continua. CUANTIL Es la generalización de la mediana. Dado un valor 𝑝𝑝, 0 < 𝑝𝑝 < 1, el cuantil 𝑥𝑥𝑝𝑝 es el punto que deja una probabilidad 𝑝𝑝 a su izquierda (Figura 67). 𝑃𝑃�𝑋𝑋 < 𝑥𝑥𝑝𝑝 � ≤ 𝑝𝑝 y 𝑃𝑃�𝑋𝑋 > 𝑥𝑥𝑝𝑝 � ≥ 1 − 𝑝𝑝 si 𝑋𝑋 es discreta, 𝑃𝑃�𝑋𝑋 ≤ 𝑥𝑥𝑝𝑝 � = 𝑝𝑝 si 𝑋𝑋 es continua. Al igual que en el primer capítulo, podemos definir: - los cuartiles, que dividen a la población en 4 partes iguales: 𝑄𝑄1 es el cuantil 𝑥𝑥0.25 , 𝑄𝑄2 es el cuantil 𝑥𝑥0.5 o Mediana, y 𝑄𝑄3 sería el cuantil 𝑥𝑥0.75 (Figura 68). - los deciles, que dividen a la población en 10 partes iguales. - los percentiles, que dividen a la población en 100 partes iguales.

pág. 152

Estadística fácil con hoja de cálculo

Figura 67:

cuantil 𝒙𝒙𝒑𝒑 , que deja a la izquierda área o

MODA La moda 𝑀𝑀𝑀𝑀 es el valor más probable o frecuente, es decir, el valor 𝑥𝑥𝑖𝑖 con mayor 𝑝𝑝𝑖𝑖 si 𝑋𝑋 es discreta (el valor que aparece con mayor probabilidad), o el valor que maximiza la función de densidad 𝑓𝑓 si 𝑋𝑋 es continua. La moda no tiene por qué ser única. En el caso de una única moda se dice que la distribución es unimodal, y con más modas multimodal. Un ejemplo lo vemos en la Figura 68. La variable que posee la función de densidad que vemos en la gráfica tiene 2 modas relativas (los valores que hacen máxima la función en ciertos intervalos, y una moda absoluta, señalada en el gráfico). En esta imagen incluímos también la posición de los cuartiles, o valores que dividen la variable en cuatro partes iguales según el área o probabilidad, que aparecen resaltados en el eje horizontal de la gráfica.

Figura 68

OTRAS MEDIDAS

pág. 153

Estadística fácil con hoja de cálculo

Como acabamos de ver, las medidas de posición se definen de la misma manera que en el caso de variables estadísticas. También hemos visto que, en el caso de variables discretas, la dispersión se puede calcular utilizando la varianza o desviación típica, teniendo el mismo significado. De la misma forma, se pueden definir el resto de medidas que veíamos en el primer capítulo: coeficiente de variación, rango, recorrido intercuartílico, así como el coeficiente de asimetría y el coeficiente de curtosis. El coeficiente de asimetría se define como: 𝐸𝐸(𝑋𝑋 3 ) 𝑔𝑔1 = 𝜎𝜎 3 y el coeficiente de curtosis como 𝐸𝐸(𝑋𝑋 4 ) 𝑔𝑔2 = − 3. 𝜎𝜎 4 Las esperanzas 𝐸𝐸(𝑋𝑋 3 ) y 𝐸𝐸(𝑋𝑋 4 ) se calculan de modo análogo a lo visto anteriormente. De manera general, podemos definir, como en el caso de las variables estadísticas, los momentos de una variable aleatoria.

MOMENTOS Los momentos de una variable aleatoria X son los valores esperados de ciertas funciones de X, 𝑔𝑔(𝑋𝑋). Si consideramos 𝑔𝑔(𝑋𝑋) = 𝑋𝑋 𝑟𝑟 tendremos los momentos respecto al origen 𝑎𝑎𝑟𝑟 = 𝐸𝐸(𝑋𝑋 𝑟𝑟 ) Si consideramos 𝑔𝑔(𝑋𝑋) = (𝑋𝑋 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚)𝑟𝑟 tendremos los momentos respecto a la media o momentos centrales 𝑚𝑚𝑟𝑟 = 𝐸𝐸((𝑋𝑋 − 𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚𝑚)𝑟𝑟 ) MOMENTOS RESPECTO AL ORIGEN Dependiendo de que la variable aleatoria sea discreta o continua, los momentos se calcularán de diferente manera. Así, si X es discreta:

Si 𝑋𝑋 es continua:

𝑎𝑎𝑟𝑟 = � 𝑥𝑥𝑖𝑖𝑟𝑟 𝑝𝑝𝑖𝑖 ∞

𝑖𝑖

𝑎𝑎𝑟𝑟 = � 𝑥𝑥 𝑟𝑟 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑑𝑑 −∞

Nota. Se verifica que, si existe el momento de orden r, también existe el momento de orden s, con cualquier 𝒔𝒔 ≤ 𝒓𝒓 MOMENTOS RESPECTO A LA MEDIA O MOMENTOS CENTRALES Llamando 𝜇𝜇 = 𝐸𝐸(𝑋𝑋), el momento central de orden 𝑟𝑟 se define 𝑚𝑚𝑟𝑟 = 𝐸𝐸[(𝑋𝑋 − 𝜇𝜇)𝑟𝑟 ] pág. 154

Estadística fácil con hoja de cálculo

De nuevo, en función de que la variable aleatoria sea discreta o continua, los momentos se calcularán de diferente manera. Así, si 𝑋𝑋 es discreta: 𝜇𝜇𝑟𝑟 = � (𝑥𝑥𝑖𝑖 − 𝜇𝜇)𝑟𝑟 𝑝𝑝𝑖𝑖 . 𝑖𝑖

Si 𝑋𝑋 es continua:



𝜇𝜇𝑟𝑟 = � (𝑥𝑥 − 𝜇𝜇)𝑟𝑟 𝑓𝑓(𝑥𝑥)𝑑𝑑𝑑𝑑. −∞

Nota. Cualquier momento respecto a la media, si existe, se puede calcular en función de los momentos respecto al origen. En la siguiente tabla podemos ver las relaciones existentes entre los momentos centrales y respecto al origen, de órdenes 2, 3 y 4. Existen relaciones de este tipo (cada vez se van embrollando más) para cualquier número.

Momento respecto a la media Momentos respecto al origen 𝜇𝜇2 = 𝐸𝐸((𝑋𝑋 − 𝜇𝜇)2 ) = 𝜇𝜇3 = 𝐸𝐸((𝑋𝑋 − 𝜇𝜇)3 ) = 𝜇𝜇4 = 𝐸𝐸((𝑋𝑋 − 𝜇𝜇)4 ) =

𝑎𝑎2 − 𝑎𝑎12 𝑎𝑎3 − 3𝑎𝑎1 𝑎𝑎2 + 2𝑎𝑎12 𝑎𝑎4 − 4𝑎𝑎1 𝑎𝑎3 + 6𝑎𝑎12 𝑎𝑎2 − 3𝑎𝑎14

EJEMPLO 43 En la ruleta francesa, la variable considerada sería

𝑋𝑋 0 1 ⋮ 37

En este caso, la media es

36

= � 𝑖𝑖 ∙ i=0

𝑃𝑃(𝑋𝑋 = 𝑥𝑥𝑖𝑖 ) 1/37 1/37 ⋮ 1/37

𝑘𝑘

𝜇𝜇 = 𝐸𝐸(𝑋𝑋) = � 𝑥𝑥𝑖𝑖 𝑝𝑝𝑖𝑖 = 𝑖𝑖=1

1 0 + 1 + ⋯ + 36 666 = = = 18. 37 37 37

Como podemos ver, la esperanza de la variable sería el valor medio esperado después de infinitos movimientos de la ruleta (o media aritmética de los valores que van saliendo). Desde un punto de vista práctico, no tiene mayor interés. pág. 155

Estadística fácil con hoja de cálculo

Tiene mucho más interés el considerar la variable 𝑋𝑋=”ganancia al apostar”. Cuando se apuesta 1 unidad a un número, se ganan 35 unidades con probabilidad 1/37 si sale ese número. Si no sale ese número, se pierde 1 (o se gana −1) con probabilidad 36/37. Sería una variable cuya ley de probabilidad viene dada por esta tabla 𝑃𝑃(𝑋𝑋 = 𝑥𝑥𝑖𝑖 ) 𝑋𝑋 35 1/37 −1 36/37

Si calculamos el valor medio: 1 36 1 𝜇𝜇 = 𝐸𝐸(𝑋𝑋) = 35 + (−1) = − . 37 37 37 Vemos que tiene valor medio (o ganancia media) negativa, es decir, que en muchas jugadas el jugador sale perdiendo (o la casa gana). Eso es debido a que existe el cero, al cual no se puede apostar, pero si sale, gana la casa. Si no existiera el cero, la media o esperanza es 0 (y eso se denomina juego equitativo).

USO DE EXCEL En este capítulo, utilizaremos la plantilla momentos-variables-aleatorias.xlsx para el cálculo de momentos de una variable aleatoria discreta. Como podemos intuir, esta plantilla no es más que una generalización de la llamada tabla-frecuencias.xlsx, que se ha utilziado en el capítulo primero, para calcular momentos en una variable estadística. Así, por ejemplo, si queremos calcular los momentos o medidas más comunes para la variable aleatoria vista en el Ejemplo 38 (el de Berlusconi), no hay más que meter los valores de la variable y sus probabilidades en la primera y segunda columna de la plantilla, respectivamente. A la derecha de la captura de pantalla tenemos los resultados:

pág. 156

Estadística fácil con hoja de cálculo

EJEMPLO 44 Rendimiento o retorno esperado de un activo (Piñeiro y de Llano, 2011): El rendimiento o retorno de una inversión se mide como la ganancia o pérdida de valor experimentada en un periodo de tiempo determinado. El retorno esperado tiene que ver con las expectativas que se tiene hacia el futuro, tomando en consideración los distintos escenarios de la economía: 𝑬𝑬(𝑹𝑹𝒊𝒊 ) = � 𝑹𝑹𝒊𝒊 𝑷𝑷𝒊𝒊

donde 𝑬𝑬(𝑹𝑹𝒊𝒊 ) representa la media o valor esperado del activo "𝒊𝒊"; 𝑹𝑹𝒊𝒊 es el rendimiento del activo "𝒊𝒊" y 𝑷𝑷𝒊𝒊 indica la probabilidad ocurrencia del rendimiento 𝑹𝑹𝒊𝒊 . La varianza de la inversión se define como: 𝝈𝝈𝟐𝟐 (𝑹𝑹𝒊𝒊 ) �(𝑹𝑹𝒊𝒊 − 𝑬𝑬𝑹𝑹𝒊𝒊 )𝑷𝑷𝒊𝒊

Supongamos tres estados posibles de la economía (excelente, bueno y malo), que se prevé que pueden suceder con probabilidad 0.3, 0.6 y 0.1, respectivamente. Supongamos que los rendimientos de 2 activos 1 y 2 vienen dados por la siguiente tabla Estado de la Probabilidad Rendimiento del activo Rendimiento del activo economía 1 2 Excelente 0.3 90 80 Bueno 0.6 75 60 Malo 0.1 40 50 Calcular el rendimiento esperado de cada activo y su varianza. Los rendimientos esperados son 𝐸𝐸(𝑅𝑅1 ) = 90 ∙ 0.3 + 75 ∙ 0.6 + 40 ∙ 0.1 = 76, 𝐸𝐸(𝑅𝑅2 ) = 80 ∙ 0.3 + 60 ∙ 0.6 + 50 ∙ 0.1 = 65.

Las varianzas (que miden la dispersión de los rendimientos frente a su media): Para el activo 1: 𝜎𝜎12 = �(𝑅𝑅1𝑖𝑖 − 𝐸𝐸(𝑅𝑅1 ))2 𝑝𝑝1𝑖𝑖 =

= (90 − 76) 2 ∙ 0.3 + (75 − 76)2 ∙ 0.6 + (40 − 76)2 ∙ 0.1 = 189 Para el activo 2: 𝜎𝜎22 = �(𝑅𝑅2𝑖𝑖 − 𝐸𝐸(𝑅𝑅2 ))2 𝑝𝑝2𝑖𝑖 = 105.

EJEMPLO 45 Se lleva a cabo un estudio comparativo de dos fármacos destinados a mantener un ritmo cardíaco constante en pacientes que se agotan cumpliendo sus deberes conyugales (motivo de un porcentaje muy elevado de roturas matrimoniales). Sea X ella variable aleatoria que mide el número de latidos por minuto registrado mediante la utilización del fármaco A e Y la que mide el número de latidos por minuto registrados con el fármaco B. Si las variables aleatorias X e Y tienen como funciones de probabilidad las que aparecen en la siguiente tabla 40 60 68 70 72 80 100 X,Y P(X = xi)

0.01

0.04

0.05

0.8

0.05

0.04

0.01

P(Y = yi)

0.4

0.05

0.04

0.02

0.04

0.05

0.4

pág. 157

Estadística fácil con hoja de cálculo

a) Hallar el ritmo cardíaco medio para cada fármaco. b) ¿Cuál de los dos fármacos provocará una mayor variación en el ritmo cardíaco de los pacientes? c) Decir si las distribuciones son simétricas o asimétricas. SOLUCIÓN. 𝜇𝜇1 = 𝐸𝐸(𝑋𝑋) = 40 · 0.01 + 60 · 0.04 + 68 · 0.05 + 70 · 0.8 + 72 · 0.05 + 80 · 0.04 + 100 · 0.01 = 70. 𝜇𝜇2 = 𝐸𝐸(𝑌𝑌)= 40 · 0.4 + 60 · 0.05 + 68 · 0.04 + 70 · 0.02 + 72 · 0.04 + 80 · 0.05 + 100 · 0.4 = 70 Vemos que el ritmo cardíaco medio es el mismo para cada fármaco. b) Debido a que las 2 variables tienen la misma media, la mayor variación la dará aquella que tenga mayor varianza. Para calcular la varianza, lo mejor es usar la fórmula 𝜎𝜎 2 = E[𝑋𝑋 2 ] − 𝜇𝜇2 E[𝑋𝑋 2 ]= 402 ·0.01+602 ·0.04+682 ·0.05+702 ·0.8+722 ·0.05+802 ·0.04+1002 ·0.01 = 4926.4 E[𝑌𝑌 2 ]= 402 ·0.4+602 ·0.05+682 ·0.04+702 ·0.02+722 ·0.04+802 ·0.05+1002 ·0.4 = 5630.3 Var(X) = E[𝑋𝑋 2 ]− 𝜇𝜇1 2 =4926.4 − 702 = 26.4 Var(Y ) = E[𝑌𝑌 2 ]−𝜇𝜇2 2 = 5630.3 − 702 = 730.3. El segundo fármaco es, por lo tanto, el que provoca mayor variación en el ritmo cardíaco. Si realizamos el ejercicio con Excel, introducimos los datos en las dos primeras columnas de la plantilla y obtenemos los resultados de la Figura 70 y la Figura 69.

Figura 70

Figura 69

Como vemos en los gráficos, el coeficiente de asimetría de ambas variables es cero, puesto que las dos son simétricas. Más ejemplos y problemas (con ejemplos de variables continuas, que aquí no hacemos ninguno puesto que con Excel no pueden realizarse) en cualquiera de mis otros dos libros mencionados. pág. 158

Estadística fácil con hoja de cálculo

pág. 159

Estadística fácil con hoja de cálculo

PUBLICIDAD Por motivos que todo el mundo podrá entender, y dado que los funcionarios hemos sido sometidos a recortes continuos de sueldo desde el año 2010, tenemos que financiarnos de la mejor forma que sepamos. Así que ahora tenemos que dedicar un par de páginas a publicidad. Disculpen las molestias y, si tiene usted un comercio, una zapatería, un chiringuito, o lo que sea, y quiere darse a conocer, póngase en contacto con el autor de este libro.

El placer de lo imposible intersecado con lo seguro. Matemáticos y ludópatas enfermizos, os esperamos. Visite Gausslandia. El mayor parque de atracciones mundial para vivir y disfrutar de la estadística y las probabilidades:  Mesas de cartas donde podrá jugar con o sin reemplazamiento, y quedarse con o sin dinero.  Ruletas que siguen distintas distribuciones, no sólo la uniforme: Poisson, Binomial…  Pruebe lo que es la regla de Laplace en toda su extensión: Salas de ruleta rusa en grupos de 6. pág. 160

Estadística fácil con hoja de cálculo

 Sala de Juegos J. Nash para grupos cooperativos.  Juegos novedosos donde podrá perder dinero pero nunca la esperanza. 

Habitaciones individuales, grupales y con intersección si se desea, con aire condicionado a priori (si usted quiere lo apaga), y mini-bar con nuestra especialidad, totalmente gratuita: el agua con gaus.

 Excursiones organizadas a los Bayes del entorno para recogida de datos. 

Elija la montaña rusa con la curva que prefiera (normal, chi-cuadrado, F…).

 Wifi en todas las salas, con R instalado en linux (nosotros siempre usamos el mejor software público y lo gestionamos de forma privada, que está demostrado que es más barato).  Desayuno completo con tartas redondas en donde usted elige los porcentajes por sector.  Té con hipótesis a las cinco, gratuito y de la potencia que desee.  Estadísticos robustos que harán las delicias de nuestras visitantes femeninas.  Y para los más pequeños, excursiones con R-Man y los X2 -men, que harán las delicias de los chavales con sus superpoderes estadísticos, convirtiendo todo lo que tocan en un p-valor.  Barajas de cartas de Black-Jack infinitas numerables, para que usted pueda contar las cartas si lo desea.  Cafeterías donde se puede fumar y coger cáncer, e incluso donde no se puede fumar pero si coger cáncer a posteriori. Calcule usted mismo la probabilidad de que eso ocurra con nuestras calculadoras gratuitas, y consulte un diagnóstico más preciso con nuestro especialista, el doctor Jaus.  Con la orquesta de George Bernard Dantzig en directo.

Clientes Premium: curso gratuito de cómo ganar a la lotería con Carlos Fabra. Al final del curso hará una demostración especial de cómo sacar la pirula y mear en la sede de Izquierda Unida. pág. 161

Estadística fácil con hoja de cálculo

En este capítulo veremos algunas variables aleatorias discretas notables, con nombre propio, por su interés específico para la resolución de problemas. VARIABLE DE BERNOULLI Supongamos un experimento aleatorio que admite sólo 2 posibles resultados: éxito (𝐴𝐴) o fracaso (𝐴𝐴̅), que ocurren con probabilidad 𝑝𝑝 = 𝑃𝑃(𝐴𝐴) y 𝑞𝑞 = 1 − 𝑝𝑝, respectivamente. Este tipo de experimento recibe el nombre de prueba de Bernoulli. Ejemplos de prueba de Bernoulli: lanzar una moneda. Hay dos posibles resultados. Un chico le pide a una chica una cita. Hay dos posibles resultados: éxito y fracaso.

pág. 163

Estadística fácil con hoja de cálculo

La variable aleatoria con función de probabilidad 𝑿𝑿 𝑷𝑷(𝑿𝑿 = 𝒙𝒙𝒊𝒊 ) 𝟎𝟎 𝑞𝑞 𝟏𝟏 𝑝𝑝

recibe el nombre de variable aleatoria de Bernoulli (se escribe 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵𝐵(𝑝𝑝)). Nota: cuando en matemáticas se escucha el nombre Bernoulli, no necesariamente se están refiriendo a la misma persona, pero sí a la misma familia. Los Bernoulli famosos fueron hasta nueve miembros de la misma familia, con contribuciones muy importantes a la matemática, la física y las artes (consultar la Wikipedia). Es decir, como los Jackson en la música, los Bernoulli en las matemáticas. Pero en España no somos menos (tenemos a los del Río, los de la Macarena):

MEDIA Y VARIANZA DE LA VARIABLE DE BERNOULLI Se obtiene fácilmente que

𝐸𝐸(𝑋𝑋) = 𝑝𝑝 y 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝑝𝑝𝑝𝑝. Veamos: 𝐸𝐸(𝑋𝑋) = 0 ⋅ 𝑞𝑞 + 1 ⋅ 𝑝𝑝 = 𝑝𝑝. 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝐸𝐸(𝑋𝑋 2 ) − 𝜇𝜇2 = (02 ⋅ 𝑞𝑞 + 12 ⋅ 𝑝𝑝) − 𝑝𝑝2 = 𝑝𝑝 − 𝑝𝑝2 = 𝑝𝑝 ⋅ (1 − 𝑝𝑝) = 𝑝𝑝 ⋅ 𝑞𝑞.

EJEMPLO 46 La variable que toma el valor cero si sale cara al lanzar una moneda, y uno en caso contrario. La variable que toma el valor cero si la chica no acepta una cita, y 1 si la acepta. EJEMPLO 47 Analizando una persona para saber si tiene una enfermedad. La variable toma el valor 𝟏𝟏 si tiene la enfermedad, 𝟎𝟎 en caso contrario. 𝒑𝒑 en este caso es la probabilidad de tener la enfermedad. Obviamente, a tener una enfermedad no se le llamaría coloquialmente “éxito”, pero suele denominarse así a aquel suceso en el que estemos interesados. pág. 164

Estadística fácil con hoja de cálculo

VARIABLE BINOMIAL Supongamos que se realizan 𝑛𝑛 experimentos de Bernoulli de manera sucesiva, siendo cada experimento o prueba independiente del anterior (por ejemplo, lanzar 𝑛𝑛 veces una moneda; analizar 𝑛𝑛 personas para saber si tienen o no una enfermedad). La Variable 𝑋𝑋 = “número de veces que ocurre el suceso 𝐴𝐴 en las 𝑛𝑛 pruebas” o “número de éxitos en 𝑛𝑛 pruebas” recibe el nombre de variable binomial de parámetros 𝑛𝑛 y 𝑝𝑝 (𝑝𝑝 = 𝑃𝑃(𝐴𝐴) = 𝑝𝑝(é𝑥𝑥𝑥𝑥𝑥𝑥𝑥𝑥 en 1 prueba)). Se escribe 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(𝑛𝑛, 𝑝𝑝). La variable 𝑋𝑋 puede tomar los valores 0,1,2, . . . 𝑛𝑛 (en 𝑛𝑛 pruebas puede haber desde 0 hasta 𝑛𝑛 éxitos) siendo la probabilidad con que los toma: 𝑛𝑛! 𝑛𝑛 𝑛𝑛 𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = � � 𝑝𝑝𝑘𝑘 𝑞𝑞𝑛𝑛−𝑘𝑘 , donde � � = , 𝑘𝑘 𝑘𝑘 𝑘𝑘! (𝑛𝑛 − 𝑘𝑘)! y recordemos que el factorial de un número 𝑛𝑛 es 𝑛𝑛! = 𝑛𝑛 ⋅ (𝑛𝑛 − 1) ⋅ (𝑛𝑛 − 2) ⋅. . .⋅ 3 ⋅ 2 ⋅ 1.

MEDIA Y VARIANZA DE LA VARIABLE BINOMIAL Puede demostrarse que la media y la varianza son: 𝐸𝐸(𝑋𝑋) = 𝑛𝑛𝑛𝑛 y 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝑛𝑛𝑛𝑛𝑛𝑛.

Nota: Es conveniente darse cuenta de que la variable Binomial es la suma de 𝑛𝑛 variables de Bernoulli, independientes, esto es: 𝑋𝑋 = 𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 ,

siendo 𝑋𝑋𝑖𝑖 la variable que mide si hay éxito en la prueba 𝑖𝑖. Claramente, la variable de Bernoulli es 𝑩𝑩𝑩𝑩(𝟏𝟏, 𝒑𝒑). Por ello, y por las propiedades de la media y la varianza que vimos en el capítulo anterior (la media de una suma es la suma de las medias, y la varianza es la suma de varianzas, refiriéndonos siempre a variables independientes), es trivial comprobar que, en efecto, la esperanza de una variable binomial es 𝑛𝑛𝑛𝑛 y su varianza es 𝑛𝑛𝑛𝑛𝑛𝑛, puesto que la esperanza de una Bernoulli es 𝑝𝑝 y su varianza es 𝑝𝑝𝑝𝑝. PROPIEDAD ADITIVA La Variable binomial es reproductiva respecto al parámetro 𝑛𝑛. Esto quiere decir que pág. 165

Estadística fácil con hoja de cálculo

Si 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(𝑛𝑛1 , 𝑝𝑝) e 𝑌𝑌 ∈ 𝐵𝐵𝐵𝐵(𝑛𝑛2 , 𝑝𝑝) son 2 variables independientes, la suma 𝑋𝑋 + 𝑌𝑌 ∈ 𝐵𝐵𝐵𝐵(𝑛𝑛1 + 𝑛𝑛2 , 𝑝𝑝) (esta propiedad es generalizable a un número finito de variables). EJEMPLO 48 En una población muy grande, el porcentaje de gente que anda con pies de plomo es del 90 por ciento. Un equipo de televisión del programa “Robando Actualidad”, capitaneado por Jualix de la Terna, va a hacer un programa para saber si es que esa población tiene miedo de algo o es simplemente una moda. Entrevistan a diez personas. ¿Cuál es la probabilidad de que al menos ocho anden con pies de plomo y no quieran responderle? SOLUCIÓN. La variable aleatoria 𝑋𝑋 =”personas de la muestra seleccionada que andan con pies de plomo” sigue una distribución binomial de parámetros n=10 y 𝑝𝑝 =0.9 (al decirnos que la población es muy grande, la probabilidad de elegir cada persona de la población es 0.9. Cada vez que se examina una persona, ocurre el suceso éxito “tiene pies de plomo” con independencia de que lo tenga cualquier otra persona examinada. Así, la variable “número de personas de la muestra seleccionada que anden con pies de plomo” es equivalente a “número de éxitos en n pruebas”, que es como se define una variable aleatoria binomial. 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(n, 𝑝𝑝), n = 10, 𝑝𝑝 = 0.9 Nos preguntan 𝑃𝑃(𝑋𝑋 ≥ 8) = 𝑃𝑃(𝑋𝑋 = 8) + 𝑃𝑃(𝑋𝑋 = 9) + 𝑃𝑃(𝑋𝑋 = 10). Vamos a calcular esta probabilidad utilizando la plantilla distribución-binomial.xlsx. Al abrir la plantilla, lo primero que hacemos es introducir los parámetros n y 𝑝𝑝 (a la izquierda), con lo cual la tabla de probabilidades y de función de distribución se recalcula (y se dibuja la función de masa de probabilidad correspondiente (Figura 71). Para calcular la probabilidad 𝑃𝑃(𝑋𝑋 ≥ 8) = 𝑃𝑃(𝑋𝑋 = 8) + 𝑃𝑃(𝑋𝑋 = 9) + 𝑃𝑃(𝑋𝑋 = 10) vemos que estas tres probabilidades están al final de la segunda columna en la tabla de probabilidades y que corresponden a 0.19371+0.38742+0.34868=0.92981, que puede calcularse también haciendo 𝑃𝑃(𝑋𝑋 ≥ 8) = 1 − 𝑃𝑃(𝑋𝑋 < 8) = 1 − 𝐹𝐹(7) = 1 − 0.07019.

Figura 71

VARIABLE DE POISSON

pág. 166

Estadística fácil con hoja de cálculo

Antes de definir esta variable, definimos lo que se entiende por proceso de Poisson.

PROCESO DE POISSON Es un experimento aleatorio que consiste en observar la aparición de sucesos puntuales sobre un soporte continuo (tiempo, longitud, superficie... ), de manera que: • El proceso sea estable, es decir, a largo plazo el número medio de sucesos (que denominaremos 𝜆𝜆) por unidad de medida es constante, • los sucesos ocurren aleatoriamente de forma independiente, • la probabilidad de que un solo resultado ocurra en un intervalo de medida muy corto o pequeño es la misma para todos los demás intervalos de igual tamaño, y es proporcional a la longitud del mismo o al tamaño de medida.

Figura 72: EJEMPLO DE UN PROCESO DE POISSON

Ejemplos: clientes que acuden a un mostrador por unidad de tiempo, llamadas por unidad de tiempo a una centralita, pelmazos por unidad de tiempo a una tia buena en una disco, defectos por metro de cable, baches por kilometro cuadrado de autopista... En un proceso de Poisson, la variable 𝑋𝑋=“número de sucesos ocurridos en un intervalo” se dice que sigue una distribución de Poisson de parámetro 𝝀𝝀. Se escribe 𝑋𝑋 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆). Su distribución de probabilidad es 𝜆𝜆𝑘𝑘 𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = 𝑒𝑒 −𝜆𝜆 , 𝑘𝑘 = 0,1,2, . .. 𝑘𝑘!

El número de valores 𝑘𝑘 puede llegar hasta infinito. Es un caso de una variable aleatoria discreta que toma un número infinito numerable de valores. Puede demostrarse que, en efecto, es siempre una ley de probabilidad, es decir las probabilidades suman 1, independientemente de cuánto valga 𝜆𝜆 (que tiene que ser mayor que cero). ∞ 𝜆𝜆𝑘𝑘 −𝜆𝜆 � 𝑒𝑒 =1 𝑘𝑘! 𝑘𝑘=0

pág. 167

Estadística fácil con hoja de cálculo

La variable de Poisson es también una generalización de la variable binomial. Supongamos que, en un experimento de Bernoulli, el suceso éxito 𝐴𝐴 tiene una probabilidad 𝑝𝑝 = 𝑃𝑃(𝐴𝐴) muy pequeña (se dice que 𝐴𝐴 es un suceso raro). Puede demostrarse que si 𝑋𝑋 es la variable 𝐵𝐵𝐵𝐵(𝑛𝑛, 𝑝𝑝), que mide el número de éxitos en 𝑛𝑛 pruebas, y 𝑛𝑛 tiende a infinito, 𝑋𝑋 puede aproximarse por una variable de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛. Por este motivo, la distribución de Poisson también es conocida como distribución de los “procesos raros”. 𝜆𝜆𝑘𝑘 𝑛𝑛 𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = � � 𝑝𝑝𝑘𝑘 𝑞𝑞 𝑛𝑛−𝑘𝑘 ⟶ 𝑒𝑒 −𝜆𝜆 con 𝜆𝜆 = 𝑛𝑛𝑛𝑛. 𝑘𝑘 si 𝑛𝑛→∞ 𝑘𝑘! En la práctica, no hay que suponer que se realizan muchísimas pruebas. Esta aproximación funciona bien si 𝑛𝑛 > 30 y 𝑝𝑝 < 0.1.

EJEMPLO 49 Supongamos una fábrica que produce elementos en serie (tornillos, radios, coches, muñecas hinchables…), siendo la probabilidad de producir un elemento defectuoso un número p muy pequeño (un suceso raro). Para realizar un control de calidad del proceso de fabricación, lo lógico es elegir una muestra de 𝒏𝒏 elementos, de forma independiente, y contar el número de elementos defectuosos. La variable 𝑿𝑿=”número de elementos defectuosos en una muestra de tamaño n” es una variable aleatoria binomial de parámetros 𝒏𝒏 y 𝒑𝒑. Si 𝒏𝒏 es grande y 𝒑𝒑 pequeño, podremos calcular las probabilidades (por ejemplo, de aparecer un número concreto de elementos defectuosos) a través de la variable de Poisson, que no utiliza números combinatorios (y que si n es grande puede hasta ser complicado hacer los cálculos con ordenador). MEDIA Y VARIANZA Se tiene que

pág. 168

𝐸𝐸(𝑋𝑋) = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝜆𝜆.

Estadística fácil con hoja de cálculo

PROPIEDAD ADITIVA Al igual que la variable binomial, la variable de Poisson es reproductiva respecto al parámetro 𝜆𝜆: Si 𝑋𝑋 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆1 ) e 𝑌𝑌 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆2 ) son 2 variables independientes, la suma 𝑋𝑋 + 𝑌𝑌 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆1 + 𝜆𝜆2 ) (y esto se puede generalizar a una suma finita de variables).

EJEMPLO 50 En los años 80 del siglo XX, la probabilidad de encontrar un político español valiente y con coraje era de 0.05 (hoy en día el número ha descendido prácticamente a cero). Si se considera una muestra de 350 diputados de aquella época, ¿cuál es la probabilidad de que, ante una patrulla de guardias civiles disparando al aire y gritando “¡al suelo, coño!”, haya 3 que no se tiren al suelo (Suárez, Gutiérrez Mellado y Carrillo)? SOLUCIÓN. Definimos 𝐴𝐴=“éxito” = “ser valiente”. 𝑝𝑝 = 𝑃𝑃(𝐴𝐴) = 0.05. 𝑋𝑋 =“número de éxitos en 350 pruebas” ∈ 𝐵𝐵𝐵𝐵(350,0.05). Tenemos que calcular la probabilidad de 𝑃𝑃(𝑋𝑋 = 3). Para esto, en principio, podemos utilizar la plantilla binomial, como en el ejemplo anterior. Ahora bien, en este caso, al ser 𝑛𝑛 > 30 y 𝑝𝑝 < 0.1, la variable 𝑋𝑋 se puede aproximar por una variable de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛 = 350 ⋅ 0.05 = 17.5. Abrimos entonces la plantilla distribución-poisson.xlsx, y cambiamos el parámetro del valor 𝜆𝜆 que esté puesto por 17.5. Como podemos observar, la probabilidad 𝑃𝑃(𝑋𝑋 = 3) nos da el mismo valor de antes (Figura 73). De hecho, hasta se puede calcular con alguna calculadora decente: 𝑃𝑃(𝑋𝑋 = 3) = 𝑒𝑒 −17.5 ⋅

17.53 3!

= 2.2429 ⋅ 10−5 o 0.000022429.

Con lo cual, queda demostrado que el golpe de Tejero estaba destinado al fracaso desde el principio, porque Tejero empezó teniendo muy mala suerte (como vemos era muy difícil que 3 tíos no se echaran al suelo, como realmente sucedió). Todos los hechos posteriores fueron consecuencia de la ley enunciada por un estadístico apellidado Murphy: “si algo puede ir mal, irá mal”.

Figura 73

pág. 169

Estadística fácil con hoja de cálculo

EJEMPLO 51 Supóngase que el número de promesas hechas realidad dichas por el presidente del gobierno sigue una distribución de Poisson de media 3 cada 50. Calcular la probabilidad de que los familiares de un trabajador de la construcción naval no tengan que preocuparse, luego de un mitin del presidente donde promete empleo a mansalva. SOLUCIÓN. 𝑋𝑋="número de promesas que se hacen realidad" sigue una distribución de Poisson de 3

media 3 de cada 50. Es decir 𝑋𝑋 ∈ 𝑃𝑃𝑜𝑜𝑜𝑜𝑜𝑜 � = 0.06� 50 Para saber si los familiares del trabajador tienen que preocuparse, calculamos la probabilidad de que el presidente diga al menos una promesa que se cumpla. Utilizando la plantilla de Excel para la distribución de Poisson, introducimos como valor de 𝜆𝜆 0.06. La función de masa de probabilidad que aparece termina en 2, es decir que la variable toma valores 0, 1 y 2, y el resto los toma con probabilidad cero o prácticamente cero.

.

Necesitamos calcular 𝑃𝑃(𝑋𝑋 > 1) = 𝑃𝑃(𝑋𝑋 = 2) = 0.0017

pág. 170

Estadística fácil con hoja de cálculo

VARIABLE HIPERGEOMÉTRICA Supongamos que tenemos una población de 𝑁𝑁 elementos, que se divide en dos clases: ̅ 𝐴𝐴 y 𝐴𝐴. El número de elementos de cada clase los denotamos como 𝑛𝑛𝐴𝐴 y 𝑛𝑛𝐴𝐴̅ . Lógicamente 𝑛𝑛𝐴𝐴 + 𝑛𝑛𝐴𝐴̅ = 𝑁𝑁. Supongamos que se extrae una muestra de tamaño 𝑛𝑛 de la población, sin reemplazamiento. La variable 𝑋𝑋 =“número de elementos de la clase 𝐴𝐴 en la muestra” se dice que sigue una distribución hipergeométrica de parámetros 𝑁𝑁, 𝑛𝑛𝐴𝐴 y 𝑛𝑛. Se escribe 𝑋𝑋 ∈ 𝐻𝐻(𝑁𝑁, 𝑛𝑛𝐴𝐴 , 𝑛𝑛) (si le llamamos “éxito” a obtener un elemento de la clase 𝐴𝐴, la variable 𝑋𝑋 nos mide el número de éxitos obtenidos en la muestra). NO se trata de una variable binomial, puesto que en la variable binomial las pruebas son independientes. Por lo tanto, en un experimento binomial lo que haríamos sería quitar de la población una muestra de tamaño 𝑛𝑛 con reemplazamiento; esto es, elegir un elemento de la población, ver si es de la clase 𝐴𝐴 o no lo es, devolverlo a la población, extraer otro elemento de la población, ver si es de la clase 𝐴𝐴. . ., y así sucesivamente hasta 𝑛𝑛 veces.

EJEMPLO 52 Supongamos una baraja de 𝑵𝑵 = 𝟒𝟒𝟒𝟒 cartas, donde consideramos dos clases: 𝑨𝑨, los oros � el resto de cartas, y extraemos de la baraja, por ejemplo, 𝒏𝒏 = 𝟓𝟓 cartas (hay 𝒏𝒏𝑨𝑨 =10 cartas), y 𝑨𝑨 (todas a la vez, no hay reemplazamiento). La variable 𝑿𝑿=“número de oros en 5 cartas” sería una variable hipergeométrica 𝑯𝑯(𝟒𝟒𝟒𝟒, 𝟏𝟏𝟏𝟏, 𝟓𝟓). En cambio, si sacamos una carta, comprobamos si es oro o no lo es y anotamos el resultado, devolvemos la carta a la baraja, y hacemos esto 5 veces, la variable 𝑿𝑿=“número de oros en 5 cartas ” sería una variable 𝑩𝑩𝑩𝑩 �𝟓𝟓, 𝒑𝒑 =

pág. 171

𝟏𝟏𝟏𝟏 �. 𝟒𝟒𝟒𝟒

Estadística fácil con hoja de cálculo

La ley de probabilidad de la variable hipergeométrica es de la forma 𝑛𝑛 𝑛𝑛 ̅ � 𝐴𝐴 � ∙ � 𝐴𝐴 � 𝑛𝑛 − 𝑘𝑘 , 𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = 𝑘𝑘 𝑁𝑁 � � 𝑛𝑛 donde 𝑘𝑘 varía desde max{0, 𝑛𝑛 + 𝑛𝑛𝐴𝐴 − 𝑁𝑁} hasta min{𝑛𝑛𝐴𝐴 , 𝑛𝑛}. No hay ninguna cosa rara en los posibles valores de la variable. Lógicamente, 𝑘𝑘 puede ser 0,1... pero está limitado por los tamaños de la población, el número de elementos de 𝐴𝐴, etc. Los valores mínimo y máximo son los que están escritos arriba. MEDIA Y VARIANZA Puede comprobarse que estos valores son, respectivamente, 𝑛𝑛 ⋅ 𝑛𝑛𝐴𝐴 𝑁𝑁 − 𝑛𝑛 𝑛𝑛 ⋅ 𝑛𝑛𝐴𝐴 𝑛𝑛𝐴𝐴 𝐸𝐸(𝑋𝑋) = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = ∙ ∙ �1 − �. 𝑁𝑁 𝑁𝑁 − 1 𝑁𝑁 𝑁𝑁 𝑛𝑛 Si se escribe 𝑝𝑝 = 𝑁𝑁𝐴𝐴 (𝑝𝑝 es la probabilidad de elegir un elemento de la clase 𝐴𝐴), y llamamos 𝑞𝑞 = 1 − 𝑝𝑝 (que equivaldría a elegir un elemento de la clase 𝐴𝐴̅), las fórmulas de la media y la varianza quedan de la forma: 𝑁𝑁 − 𝑛𝑛 𝐸𝐸(𝑋𝑋) = 𝑛𝑛𝑛𝑛, 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 𝑛𝑛𝑛𝑛𝑛𝑛 ∙ . 𝑁𝑁 − 1 Como vemos en las fórmulas escritas de esta manera, la media es la misma que la de la variable binomial, y la varianza es la de la binomial multiplicada por un factor. Esta coincidencia se debe a que la variable binomial puede considerarse un caso extremo de una variable hipergeométrica, cuando el tamaño de la población 𝑁𝑁 es infinito (muy grande). Si consideramos una población de tamaño infinito, sacar una muestra sin reemplazamiento es prácticamente lo mismo que sacarla con reemplazamiento. En la práctica, si 𝑁𝑁 es grande respecto a 𝑛𝑛, se pueden calcular las probabilidades de la hipergeométrica por medio de la distribución binomial. Esto es posible cuando 𝑛𝑛/𝑁𝑁 < 0.1. Esto se hacía más antes porque la distribución binomial estaba tabulada (las famosas tablas de los libros) pero la hipergeométrica no, lo cual conllevaba hacer cuentas con la calculadora; y en ocasiones ni con esta era posible. Hoy en día, usando plantillas como las que tenemos, no es necesario, salvo que tengamos valores muy grandes de 𝑁𝑁 y ni con plantilla ni con nada seamos capaces. EJEMPLO 53 Un opositor a registrador de la propiedad tiene que preparar cien temas. En el examen se sacan tres a sorteo, de los cuales deberá exponer uno. El opositor decide estudiar solamente la mitad y probar suerte. ¿Cuál es la probabilidad de que apruebe? SOLUCIÓN. Dividimos la población, de tamaño 𝑁𝑁 = 100, en 2 clases: los que ha estudiado el opositor (𝐴𝐴, con 𝑛𝑛𝐴𝐴 = 50) y los que no ha estudiado (𝐴𝐴̅, con 𝑛𝑛𝐴𝐴̅ = 50). La variable 𝑋𝑋=“número de temas que el opositor conoce, en la muestra de tamaño 3” sigue una distribución hipergeométrica de parámetros 𝑁𝑁 = 100, 𝑛𝑛𝐴𝐴 = 50, 𝑛𝑛 = 3. Con que se sepa uno de los temas, el opositor aprobará. Tenemos que calcular entonces 50 50 � �⋅� � 0 3 = 1 − 0.1212 = 0.8788. 𝑃𝑃(𝑋𝑋 ≥ 1) = 1 − P(X < 1) = 1 − 𝑃𝑃(𝑋𝑋 = 0) = 1 − 100 � � 3 Como vemos, la probabilidad de aprobar es alta. Hemos calculado la probabilidad 𝑃𝑃(𝑋𝑋 = 0) por medio de la plantilla distribucion-hipergeometrica.xlsx (Figura 74), en donde hemos introducido los parámetros de la variable y, según vemos, tenemos los distintos valores que puede tomar la variable junto con sus probabilidades. pág. 172

Estadística fácil con hoja de cálculo

Figura 74

VARIABLE BINOMIAL NEGATIVA Supongamos ahora que se realiza un experimento de Bernoulli (ese que sólo puede ser éxito o fracaso), hasta que se obtiene el éxito número 𝑟𝑟 (𝑟𝑟 ≥ 1). Definamos la variable 𝑋𝑋 = "número de fracasos antes del éxito 𝑟𝑟”. 𝑋𝑋 se dice que sigue una distribución Binomial Negativa de párametros 𝑟𝑟 y 𝑝𝑝. Se escribe 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(𝑟𝑟, 𝑝𝑝). Su ley de probabilidad es 𝑟𝑟 + 𝑘𝑘 − 1 𝑟𝑟 𝑘𝑘 𝑃𝑃(𝑋𝑋 = 𝑘𝑘) = � � 𝑝𝑝 𝑞𝑞 , 𝑘𝑘 = 0,1,2, … 𝑘𝑘 (𝑟𝑟 + 𝑘𝑘 + 1)! 𝑟𝑟 + 𝑘𝑘 − 1 𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠𝑠 � � = , 𝑘𝑘 (𝑟𝑟 − 1)! 𝑘𝑘! Según vemos, se trata de una variable aleatoria discreta, pero que toma un conjunto infinito numerable de valores. Puede comprobarse que se trata, en efecto, de una ley de probabilidad, es decir ∞

��

𝑘𝑘=0

𝑟𝑟 + 𝑘𝑘 − 1 𝑟𝑟 𝑘𝑘 � 𝑝𝑝 𝑞𝑞 = 1. 𝑘𝑘

La variable binomial negativa con 𝑟𝑟 = 1 recibe el nombre de variable aleatoria geométrica o de Pascal.

pág. 173

Estadística fácil con hoja de cálculo

MEDIA Y VARIANZA Se obtiene que 𝐸𝐸(𝑋𝑋) =

𝑟𝑟𝑟𝑟 𝑟𝑟𝑟𝑟 𝑦𝑦 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 2 . 𝑝𝑝 𝑝𝑝

EJEMPLO 54 Un hacker sube fotos secretas a la página Whiskyleaks en formato png. Como el servidor central es prestado por una ONG, no funciona bien y solo carga correctamente los documentos en la web en un 75 por ciento de los casos. El hacker quiere subir una primicia mundial, del Presidente del Gobierno dándole dinero a un pobre. ¿Cuál es la probabilidad de que el número de intentos fallidos sea mayor que 2, antes de que logre subir correctamente la foto? SOLUCIÓN. La variable X="número de fracasos antes de la primera foto correctamente subida" sigue una distribución binomial negativa de parámetros 1 y p=0.75 (o geométrica). Es decir, 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(1, 𝑝𝑝) Tenemos que calcular 𝑃𝑃(𝑋𝑋 > 2). 𝑃𝑃(𝑋𝑋 > 2) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 2) = 1 − 𝐹𝐹(2), siendo F la función de distribución de la variable. Utilizaremos en este caso la plantilla distribución-binomial-negativa.xlsx. Introducimos los parámetros necesarios en la tabla de la izquierda (𝑟𝑟 = 1 y 𝑝𝑝 = 0.75), y buscamos directamente el valor de la probabilidad acumulada en 2, que es 0.9844 (Figura 75). En consecuencia, 𝑃𝑃(𝑋𝑋 > 2) = 1 − 0.9844 = 0.0156.

Figura 75

PLANTILLA TABLAS-DISTRIBUCIONES.XLSX La función de probabilidad y de distribución de las variables que hemos visto, además de tener su propia plantilla, aparecen en la plantilla general tablas-distribuciones.xlsx. Con esta plantilla podemos calcular directamente la probabilidad, la distribución o la probabilidad entre dos valores concretos. En la Figura 76 vemos la parte correspondiente a las variables discretas.

pág. 174

Estadística fácil con hoja de cálculo

Figura 76

PROBLEMAS PARA ESTIMULAR EL INTELECTO PROBLEMA 17 Un presidente de gobierno se comunica con los demás miembros de su partido por medio de mensajes SMS. Para ahorrar, han contratado un operador telefónico algo cutre, y el servicio de SMS no siempre funciona bien, existiendo una probabilidad de 0.05 de transmitir incorrectamente un mensaje. Si el mensaje no se recibe correctamente, el tesorero debe volver a mandárselo. Supongamos que el tesorero le envía un mensaje pidiéndole ayuda urgente al presidente porque le está pegando un preferentista cabreado, y el presidente le contesta su mensaje tipo “Luis, se fuerte, mañana te llamo”. Calcular la probabilidad de que el tesorero le tenga que enviar el mensaje dos veces, y la probabilidad de que tenga que enviárselo más de dos veces. SOLUCIÓN. La variable X="número de mensajes incorrectos antes del primero correcto" sigue una distribución binomial negativa de parámetros 1 y p=0.95. En el primer caso, debemos calcular 𝑃𝑃(𝑋𝑋 = 1) (un fracaso antes del primer éxito, que corresponde a enviar el mensaje dos veces: la primera vez falla, la segunda llega bien). En el segundo caso, debemos calcular 𝑃𝑃(𝑋𝑋 > 1) = 𝑃𝑃(𝑋𝑋 ≥ 2) (el número de fracasos será mayor o igual a dos, con lo cual el mensaje se enviará más de dos veces seguro. Con la plantilla de la distribución hipergeométrica y los parámetros correspondientes (1 y p=0.95) vemos que (Figura 77) 𝑃𝑃(𝑋𝑋 = 1) = 0.0475. 𝑃𝑃(𝑋𝑋 > 1) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 1) = 1 − 𝐹𝐹(1) = 1 − 0.9975 = 0.0025. En ambos casos se podría haber hecho fácilmente sin plantilla, por medio de la fórmula. Por ejemplo 1+1−1 𝑃𝑃(𝑋𝑋 = 1) = � � 0.051 0.951 , 1 y, en el segundo caso, calculando 1 − [𝑃𝑃(𝑋𝑋 = 0) + 𝑃𝑃(𝑋𝑋 = 1)]. PROBLEMA 18

pág. 175

Estadística fácil con hoja de cálculo

Figura 77

Un internauta crea una web de porno esperando forrarse, pero comprueba que acaba registrando tan solo una media de 25 visitas cada hora. Calcular la probabilidad de que haya más de 10 visitas en los próximos 12 minutos (para que la publicidad que tiene insertada en la página le pague un céntimo de euro). SOLUCIÓN. La variable X=”número de visitas a la web cada hora” sigue una distribución de Poisson de media 25 por hora. Si consideramos la unidad de tiempo, en vez de la hora, los 12 minutos, tenemos que la variable Y=”número de visitas a la web cada 12 minutos” sigue una distribución 25 de Poisson de parámetro 𝜆𝜆 = = 5. 5 Entonces nos piden 𝑃𝑃(𝑌𝑌 > 10) = 1 − 𝑃𝑃(𝑌𝑌 ≤ 10) = 1 − 𝐹𝐹(10) = 1 − 0.9863 = 0.0137.

Figura 78

El valor de 𝐹𝐹(10) lo sacamos de la plantilla de la variable de Poisson, en la columna de la función de distribución, como podemos ver en la Figura 78. PROBLEMA 19 Una delegación de diez miembros de partidos de la casta se reúne con una delegación de doce sacerdotes y monjas para charlar de temas de actualidad. Terminada la reunión, se escoge una muestra de 6 personas para acudir a una tertulia televisiva. ¿Cuál es la probabilidad de que haya tantos miembros de la casta como personas castas? SOLUCIÓN. pág. 176

Estadística fácil con hoja de cálculo

Tenemos una población de tamaño 𝑁𝑁 = 10 + 12, con 2 clases: los de la casta, que son diez (𝐴𝐴, con 𝑛𝑛𝐴𝐴 = 10) y los castos (curas y monjas) (𝐴𝐴̅, con 𝑛𝑛𝐴𝐴̅ = 12). Del total se elige una muestra de 6. La variable 𝑋𝑋=“número de miembros de la casta en la muestra de tamaño 6” sigue una distribución hipergeométrica de parámetros 𝑁𝑁 = 22, 𝑛𝑛𝐴𝐴 = 10, 𝑛𝑛 = 6. Obviamente, daría igual considerar las clases 𝐴𝐴 y su complementaria al reves (primero los castos y luego la casta). Lo que queremos calcular es que, en la muestra de 6 personas, haya igual de castos que de miembros de la casta; por lo tanto, queremos calcular 𝑃𝑃(𝑋𝑋 = 3). Introduciendo los parámetros en la plantilla de la variable hipergeométrica obtenemos directamente la probabilidad, que es 0.3538 (Figura 79) Por la fórmula sería 10 12 � �⋅� � 3 3 = 0.3538. 𝑃𝑃(𝑋𝑋 = 3) = 22 � � Figura 79 6 PROBLEMA 20 De un informe presentado por una asociación de suegras, se desprende que solo el 1´8% de los hombres casados y el 5% de las mujeres casadas hablan bien de su suegra. Suponiendo que la población de gente casada se reparte equiprobablemente entre ambos sexos; a) ¿cuál es la probabilidad de que una persona elegida al azar en una encuesta hable bien de su suegra?; b) ¿qué proporción de esa gente corresponde a los hombres?; c) ¿cuál es la probabilidad de que entre 200 individuos elegidos al azar, haya al menos seis que hablen bien de la suegra?; d) ¿cuál es la probabilidad de que entre 20 personas que hablan bien de la suegra, más de la mitad sean hombres? SOLUCIÓN. Llamemos B=”hablar bien de la suegra”, H=”ser hombre casado”, M=”ser mujer casada”. Nos dicen que 𝑃𝑃(𝐵𝐵|𝐻𝐻) = 0.018, 𝑃𝑃(𝐵𝐵|𝑀𝑀) = 0.05, 𝑦𝑦 𝑃𝑃(𝑀𝑀) = 𝑃𝑃(𝐻𝐻) = 0.5. a) Nos piden la probabilidad del suceso B. Para calcularla aplicamos el teorema de la probabilidad total. 𝑃𝑃(𝐵𝐵) = 𝑃𝑃(𝐵𝐵|𝐻𝐻) ∙ 𝑃𝑃(𝐻𝐻) + 𝑃𝑃(𝐵𝐵|𝑀𝑀) ∙ 𝑃𝑃(𝑀𝑀) = 0.018 ∙ 0.5 + 0.05 ∙ 0.5 = 0.034. b) Ahora nos piden 𝑃𝑃(𝐻𝐻|𝐵𝐵). Utilizamos la fórmula de la probabilidad condicionada 𝑃𝑃(𝐻𝐻 ∩ 𝐵𝐵) 𝑃𝑃(𝐵𝐵|𝐻𝐻) ∙ 𝑃𝑃(𝐻𝐻) 0.015 ∙ 0.5 𝑃𝑃(𝐻𝐻|𝐵𝐵) = = = = 0.26. 𝑃𝑃(𝐵𝐵) 𝑃𝑃(𝐵𝐵) 0.034 c) Se eligen 200 individuos al azar. La variable 𝑋𝑋=”número de individuos que hablan bien de la suegra” sigue una distribución binomial 𝐵𝐵𝐵𝐵(200,0.034). Nos piden 𝑃𝑃(𝑋𝑋 ≥ 6) = 1 − 𝑃𝑃(𝑋𝑋 < 6) = 1 − 𝐹𝐹(5) = 1 − 0.32277 = 0.67723. (para el cálculo, vamos a la plantilla binomial e introducimos los datos n=200 y p=0.034). d) Ahora se eligen 20 personas que hablan bien de la suegra. En cada persona, observamos el suceso “éxito” o “ser hombre”. La probabilidad de ser hombre (hablando bien de la suegra) es 0.26, que es la probabilidad condicionada calculada en b. Entonces, la variable 𝑋𝑋=”número de hombres en esa muestra de 20” sigue una distribución 𝐵𝐵𝐵𝐵(20,0.26). La probabilidad de que más de la mitad sean hombres es 𝑃𝑃(𝑋𝑋 > 10) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 10) = 1 − 𝐹𝐹(10) = 1 − 0.99454 = 0.00546 (para el cálculo, introducimos los datos n=20 y p=0.26 en la plantilla tablas-distribuciones.xlsx).

pág. 177

Estadística fácil con hoja de cálculo

PROBLEMA 21 Con la clásica excusa “es un momentito”, una sexagenaria para el coche en el carril bus para sacar dinero de un cajero automático una media de cinco veces por semana, siendo la probabilidad de que le multen tan sólo de 0.3 porque hay pocos agentes de movilidad. a) ¿Cuál es la probabilidad de que en una semana no pare el coche en el carril bus? b) si en una semana ha parado el coche 3 veces en el carril bus, ¿cuál es la probabilidad de que haya tenido suerte y no le hayan multado? c) ¿qué porcentaje de semanas para en el carril bus más de 4 pero menos de 8 veces? SOLUCIÓN. La variable 𝑋𝑋=”número de veces que para en el carril bus” sigue una distribución de Poisson de media 5 (por semana) (son sucesos independientes que ocurren a lo largo del tiempo, en media constante). a) Nos piden P(X=0). Vamos a la plantilla de la variable de Poisson y miramos P(X=0)=0.0067. b) Si la probabilidad de que la multen es 0.3, la probabilidad de que pare el coche 3 veces y no le multen nunca es 0.73 = 0.343. c) Ahora nos piden 𝑃𝑃(4 < 𝑋𝑋 < 8) = 𝑃𝑃(𝑋𝑋 = 5) + 𝑃𝑃(𝑋𝑋 = 6) + 𝑃𝑃(𝑋𝑋 = 7) = = 0.1755 + 0.1462 + 0.1044 = 0.4261. Quiere esto decir que el porcentaje de semanas que aparca mal más de 4 pero menos de 8 veces es del 42.61 por ciento.

PROBLEMA 22 A Yonatan le caen los calzoncillos al patio cuando iba a tenderlos. Va a hablar con la señora del primero y le pide que le devuelva los cinco que le han caído a lo largo del mes. La señora del primero, que está harta de recoger todo tipo de inmundicia que le cae (o le tiran) desde el piso de Yonatan y del resto de vecinos, tiene una cesta con todos los calzoncillos: 5 son de Yonatan y 20 son de otros pisos. La señora, sin mirar, y con una pinza en la nariz, coge 5 al azar y se los da a Yonatan. ¿Cuál es la probabilidad de que al menos tres sean de él? SOLUCIÓN. El total de ropa que almacena la vecina tiene tamaño 𝑁𝑁 = 25. De ellos, los hay procedentes del piso de Yonatan: (clase 𝐴𝐴, con 𝑛𝑛𝐴𝐴 = 5) y de otros vecinos (clase 𝐴𝐴̅, con 𝑛𝑛𝐴𝐴̅ = pág. 178

Estadística fácil con hoja de cálculo

20). La variable 𝑋𝑋=“número de calzoncillos de Yonatan, en la muestra de tamaño 5” sigue una distribución hipergeométrica de parámetros 𝑁𝑁 = 25, 𝑛𝑛𝐴𝐴 = 5, 𝑛𝑛 = 5. La probabilidad de que al menos tres calzoncillos sean de Yonatan es 𝑃𝑃(𝑋𝑋 ≥ 3) = P(X = 3) + P(X = 4) + P(X = 5) = 20 20 5 20 5 5 � �⋅� � � �⋅� � � �⋅� � 0 = 0.0358 + 0.0019 + 0 = 0.0377. 3 2 1 5 4 = + + 25 25 25 � � � � � � 5 5 5 Estos valores los hemos mirado en la plantilla de la distribución hipergeométrica, sin más que introducir los parámetros correspondientes.

PROBLEMA 23 Se estima que el 60% de una población de consumidores prefiere una marca particular de pegamento para esnifar. ¿Cuál es la probabilidad, al entrevistar a un grupo de consumidores, de que se tenga que entrevistar exactamente a cinco personas, para encontrar el primer consumidor que prefiere dicha marca? SOLUCIÓN. Denotamos por suceso “éxito” a preferir esa marca particular de pegamento. La probabilidad p=p(éxito)=0.6. Vamos entrevistando personas hasta encontrar al primero con dicha preferencia. Definimos la variable X=”número de fracasos antes del primer éxito”. X sigue una distribución binomial negativa 𝐵𝐵𝐵𝐵(1, 𝑝𝑝). Nos preguntan 𝑃𝑃(𝑋𝑋 = 4) = 𝑞𝑞 4 ∙ 𝑝𝑝1 = 0.44 ∙ 0.61 = 0.01536. En este caso, es tan fácil que ni plantilla hemos necesitado. PROBLEMA 24 De un grupo de 20 alumnos de Ingeniería y 10 de Burrología se eligen 2 alumnos al azar para concursar en el "1,2,3, repetid curso otra vez". ¿Cuál es la probabilidad de que la pareja sea uno de cada carrera? SOLUCIÓN. Tenemos una población de tamaño 𝑁𝑁 = 30, formada por una clase 𝐴𝐴, con 𝑛𝑛𝐴𝐴 = 20 alumnos de Ingeniería, y otra clase 𝐴𝐴̅, con 𝑛𝑛𝐴𝐴̅ = 10 alumnos de Burrología. La variable 𝑋𝑋=“número de alumnos de Ingeniería, en una muestra de 2 personas” sigue una distribución hipergeométrica de parámetros 𝑁𝑁 = 30, 𝑛𝑛𝐴𝐴 = 20, 𝑛𝑛 = 2. La probabilidad de que en la muestra haya exactamente uno de Ingeniería (el otro alumno será de Burrología, necesariamente) es 20 10 � �⋅� � 1 1 = 0.4598. 𝑃𝑃(𝑋𝑋 = 1) = 30 � � 2 Como podemos ver a continuación, esto sale rápidamente a través de la plantilla tablasdistribuciones.xlsx, poniendo los parámetros adecuados:

PROBLEMA 25 En el último pais que ha ingresado en la desunión europea, Paradolandia, se padece una enfermedad que el BCE ha catalogado como rara, que es la de encontrar un trabajo digno. La probabilidad de poseer dicha enfermedad es muy baja, 𝒑𝒑 = 𝟏𝟏/𝟏𝟏𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎𝟎𝟎. Calcular la pág. 179

Estadística fácil con hoja de cálculo

probabilidad de que en una ciudad con 500.000 habitantes haya más de 3 desgraciados con dicha enfermedad. SOLUCIÓN. 1

Sea 𝑋𝑋=“ número de personas con esa enfermedad” . 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵 �500.000, �. 100.000 Dado que 𝑛𝑛 > 30 y 𝑝𝑝 < 0.1, 𝑋𝑋 se puede aproximar por una distribución de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛 = 5. Por lo tanto, 5𝑘𝑘

𝑃𝑃(𝑋𝑋 > 3) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 3) = 1 − ∑3𝑘𝑘=0 𝑒𝑒 −5 𝑘𝑘! = 1 − 0.265 = 0.735. Esta probabilidad se obtiene directamente en la plantilla tablas-distribuciones.xlsx, buscando en la distribución de poisson con párametro 5 y el valor 3, como vemos a continuación.

PROBLEMA 26 Las estadísticas indican que un vidente de TV acierta en decir quien ganará un partido de futbol una de cada tres veces. a) ¿Cuál es la probabilidad de que este vidente tenga que ser preguntado por 10 partidos antes de acertar por primera vez? b) ¿Cuál es la probabilidad que la primera vez que acierte sea antes de la décima pregunta? SOLUCIÓN. Como es evidente que el vidente (valga la redundancia) acierta por mero azar, cada vez que le preguntan contesta con independencia de lo que haya dicho la vez anterior. Esto es, estamos ante pruebas de Bernoulli. La Variable X=”número de fracasos antes del primer éxito” (en este caso “número de fallos antes de acertar por primera vez”) sigue una distribución binomial negativa 𝐵𝐵𝐵𝐵(1, 1⁄3) Entonces la probabilidad de que necesita exactamente 10 pruebas hasta lograr acertar por primera vez es 1 1 2 9

𝑃𝑃(𝑋𝑋 = 9) = �1+9−1 � �3� �3� =0.0867, 9 que lo podemos calcular en la plantilla tablas-distribuciones.xlsx (aproximamos 1/3 por 0.333):

b) La probabilidad de que se realice el primer acierto antes de la décima pregunta es que el número de fracasos antes del primer éxito sea menor o igual a 9. 𝑃𝑃(𝑋𝑋 ≤ 9) = 𝐹𝐹(9). pág. 180

Estadística fácil con hoja de cálculo

Precisamente, esto ya nos aparece en la Figura 80, que es 0.9826.

Figura 80

PROBLEMA 27 Un estudiante de informática presta servicios de contabilidad B a empresas y chorizos varios, por los que cobra 200 euros la hora. Las averías que se pueden producir en su ordenador, X, siguen una ley de Poisson de media 0.2 por hora, y el coste de reparar las X averías viene dado por 50𝑿𝑿𝟐𝟐 euros, más 30 de mantenimiento general por hora. Se pide: a/ Probabilidad de que en 5 horas de servicio no se hayan producido averías. b/ Beneficio esperado por hora de servicio. SOLUCIÓN. Sea X="averías en el ordenador por hora". 𝑋𝑋 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆 = 0.2). a) En 5 horas, el número de averías será 𝑌𝑌 = 5𝑋𝑋 ∈ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(5 ⋅ 0.2 = 1) 10

1

𝑃𝑃(𝑌𝑌 = 0) = 𝑒𝑒 −1 ⋅ = = 0.367 0! 𝑒𝑒 b) En una hora, el beneficio será 200 menos el coste de reparación, es decir 200 − [𝐸𝐸(50 ⋅ 𝑋𝑋 2 ) + 30] = 200 − [50 ⋅ 𝐸𝐸(𝑋𝑋 2 ) + 30] = 170 − 50𝐸𝐸(𝑋𝑋 2 ). Como 𝑋𝑋 es una variable de Poisson de media 𝜆𝜆 = 0.2, su varianza también es 0.2, luego 𝐸𝐸(𝑋𝑋 2 ) = 0.2 + (0.2)2 = 0.24. En consecuencia, el beneficio esperado por hora será 170 − 50 ⋅ 0.24 = 158 euros.

PROBLEMA 28 Inicialmente, Dios permitió salvar Sodoma y Gomorra de la destrucción si Abraham encontraba en ellas 50 hombres justos. Abraham, que era bueno regateando, logro descender ese número a 10, porque sabía que aquellas ciudades estaban llenas de gamberros. Abraham reunió a las 50 personas que estimó que podrían salvarse en la plaza del pueblo. Allí, lógicamente, estaba Lot, con su mujer y sus dos hijas. El problema es que Abraham, con la edad, no veía nada bien y, como sólo podía salvar a 10 personas, decidió elegirlas al azar de los 50 reunidos. ¿Cuál era la probabilidad de que en el grupo de los elegidos estuviera Lot con su familia? SOLUCIÓN. Tenemos una población de tamaño 𝑁𝑁 = 50, formada por una clase 𝐴𝐴 (los justos: Lot y su familia), con 𝑛𝑛𝐴𝐴 = 4, y otra clase 𝐴𝐴̅, con 𝑛𝑛𝐴𝐴̅ = 46. La variable 𝑋𝑋=“número de justos en una muestra de 10 personas” sigue una distribución hipergeométrica de parámetros 𝑁𝑁 = 50, 𝑛𝑛𝐴𝐴 = 4, 𝑛𝑛 = 10. La probabilidad de que en la muestra haya exactamente 4 de la clase A (la familia de Lot entera) es 4 46 � �⋅� � 0 = 1 = 0.0009. 𝑃𝑃(𝑋𝑋 = 4) = 4 50 50 � � � � 4 4 Como podemos ver a continuación, esto sale rápidamente a través de la plantilla tablasdistribuciones.xlsx, poniendo los parámetros adecuados.

pág. 181

Estadística fácil con hoja de cálculo

Nota. Para los que no se sepan el final de la historia bíblica, los ángeles que advirtieron a Lot y su familia que escaparan de Sodoma porque Dios iba a destruirla, les dijeron que no mirasen hacia atrás mientras escapaban. La mujer de Lot echó un vistazo y se quedó convertida en estatua de sal. Hoy día seguramente hubieran muerto todos mientras grababan la escena con sus móviles para subir los videos a Facebook.

PROBLEMA 29 La probabilidad de que un estudiante de ADE apruebe todas las asignaturas en primera convocatoria es de 0.001. Se seleccionan 2000 estudiantes de ADE de la unión europea para realizar un informe. ¿Cuál es la probabilidad de que hayan aprobado todas las asignaturas en primera convocatoria al menos una docena? Pista: “el que no sabe hace ADE, y si no hay más remedio, va a Magisterio” SOLUCIÓN. Sea 𝑋𝑋=“ número de estudiantes que aprueban en primera convocatoria, de un grupo de 2000”. 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(2000,0.001). Dado que 𝑛𝑛 > 30 y 𝑝𝑝 < 0.1, 𝑋𝑋 se puede aproximar por una distribución de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛 = 2000 ∙ 0.001 = 2. Por lo tanto, 𝑃𝑃(𝑋𝑋 ≥ 12) = 1 − 𝑃𝑃(𝑋𝑋 < 12) = 1 − 𝐹𝐹(11) = 1 − 1 = 0. Esta probabilidad se obtiene directamente en la plantilla tablas-distribuciones.xlsx, , como vemos a continuación. Quiere decir que conseguir una docena de estudiantes que aprueben todas las asignaturas en primera convocatoria es imposible.

HECHOS REALES DE INTERÉS INTERESANTES Los siguientes problemas están basados en el libro de Paulos (1990). PROBLEMA 30 “El efecto Jean Dixon”. John Paulos comenta en su libro que cualquier suceso, por extraño o raro que sea, se acaba produciendo, siempre que el experimento en el que puede producirse se realice un número grande de veces. El nombre de “efecto Jean Dixon” está relacionado con una vidente que, al realizar predicciones continuamente, la mayoría de las veces no acertaba, pero algunas sí, y estas últimas se encargaba de publicitarlas a los cuatro vientos, consiguiendo así fama como gran dotada en percepción extrasensorial. Supongamos que una persona tiene una probabilidad muy pequeña de predecir un suceso (accidente, muerte…). Realmente, todos podemos hacer una predicción relativa a que

pág. 182

Estadística fácil con hoja de cálculo

la próxima semana un avión caerá en algún sitio, alguien famoso morirá de accidente, etc. Supongamos que la probabilidad de acertar, por azar, es muy pequeña, por ejemplo 𝟏𝟏𝟏𝟏−𝟒𝟒 . Si, por ejemplo, tenemos un canal en youtube y todos los días hacemos una predicción, ¿cuál es la probabilidad de tener algún acierto al cabo de, por ejemplo, dos años? SOLUCIÓN. Sea 𝑋𝑋=“ número de aciertos en 2 años”=”número de aciertos de 365 × 2 predicciones”. 𝑋𝑋 ∈ 𝐵𝐵𝐵𝐵(730, 10−4 ). Dado que 𝑛𝑛 > 30 y 𝑝𝑝 < 0.1, 𝑋𝑋 se puede aproximar por una distribución de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛 = 730 ∙ 10−4 = 0.73. Por lo tanto, 𝑃𝑃(𝑋𝑋 ≥ 1) = 1 − 𝑃𝑃(𝑋𝑋 < 1) = 1 − 𝐹𝐹(0) = 1 − 0.4819 = 0.5181 Como vemos, la probabilidad de acertar anda por 1/2.

PROBLEMA 31 (Hecho real) En 1964 una mujer rubia peinada con una cola de caballo robó el bolso a otra mujer en Los Ángeles. La ladrona huyó a pie, pero posteriormente alguien la reconoció cuando montaba en un coche amarillo conducido por un negro con barba y bigote. Las investigaciones de la policía acabaron por encontrar a una mujer rubia con cola de caballo que regularmente frecuentaba la compañía de un negro de barba y bigote que tenía un coche amarillo. No había ninguna prueba fehaciente que relacionara a la pareja con el delito, ni testigos que pudieran identificar a ninguno de los dos. Se estaba de acuerdo, no obstante, en los hechos citados. El fiscal basó sus conclusiones en que, como la probabilidad de que tal pareja existiera era tan baja, la investigación de la policía tenía que haber dado con los verdaderos culpables. Asignó las siguientes probabilidades a las características en cuestión: coche amarillo: 𝟏𝟏/𝟏𝟏𝟏𝟏; hombre con bigote: 𝟏𝟏/𝟒𝟒; mujer con cola de caballo: 𝟏𝟏/𝟏𝟏𝟏𝟏; mujer rubia: 𝟏𝟏/𝟑𝟑; hombre negro con barba: 𝟏𝟏/𝟏𝟏𝟏𝟏; pareja interracial en un coche: 𝟏𝟏/𝟏𝟏. 𝟎𝟎𝟎𝟎𝟎𝟎. El fiscal arguyó que como estas características eran independientes, la probabilidad de que todas ellas concurrieran en una pareja elegida al azar había de ser: 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 𝟏𝟏 × × × × × = 𝟏𝟏𝟏𝟏 𝟒𝟒 𝟏𝟏𝟏𝟏 𝟑𝟑 𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏𝟏𝟏𝟏𝟏 𝟏𝟏𝟏𝟏. 𝟎𝟎𝟎𝟎𝟎𝟎. 𝟎𝟎𝟎𝟎𝟎𝟎 que es un número tan pequeño que la pareja tenía que ser culpable. El jurado les condenó. Los condenados recurrieron ante el Tribunal Supremo de California, que anuló la sentencia sobre la base de otro razonamiento probabilístico. El abogado defensor de la pareja arguyó que 1/12.000.000 no era la probabilidad que había que considerar. En una ciudad de las dimensiones de Los Ángeles, con unos 2.000.000 de parejas, no era tan improbable, sostenía, que hubiera más de una que reuniera todas las características mencionadas, dado que ya había por lo menos una pareja: la condenada. El Tribunal Supremo de California aceptó la argumentación del abogado y revocó la sentencia anterior. ¿Cómo se establecería la argumentación del abogado? SOLUCIÓN. En Los Ángeles se calcula que existían del orden de 2 ∙ 106 parejas. Una pareja con todas 1 1 las características físicas consideradas tiene una probabilidad 𝑝𝑝 = 12.000.000 = 12∙106 de encontrarse. Por lo tanto, el número de parejas de ese tipo (buscando entre todas las posibles parejas) sigue una distribución binomial:

pág. 183

Estadística fácil con hoja de cálculo

1 �. 12 ∙ 106 Dado que n es muy grande y p muy pequeño, la variable 𝑋𝑋 se puede aproximar por una 1 distribución de Poisson de parámetro 𝜆𝜆 = 𝑛𝑛𝑛𝑛 = 6 = 0.16. El abogado defensor consideró que debía calcularse la probabilidad de encontrar más de una pareja así, dado que, al menos, existía una (los detenidos) (y, según él, existiría alguna más puesto que sus defendidos no eran culpables). Lo que hay que calcular es 𝑃𝑃(𝑋𝑋 ≥ 2) 𝑃𝑃({𝑋𝑋 ≥ 2} ∩ {𝑋𝑋 ≥ 1}) 𝑃𝑃(𝑋𝑋 ≥ 2) 𝑃𝑃(𝑋𝑋 > 1) = = = = 𝑃𝑃(𝑋𝑋 ≥ 1) 𝑃𝑃(𝑋𝑋 ≥ 1) 𝑃𝑃(𝑋𝑋 ≥ 1) 1 − 𝑃𝑃(𝑋𝑋 < 2) 1 − 𝐹𝐹(1) 0.0115 = = = 0.077, = 1 − 𝑃𝑃(𝑋𝑋 < 1) 1 − 𝐹𝐹(0) 0.1479 𝑋𝑋 = "nº parejas de ese tipo" ∈ 𝐵𝐵𝐵𝐵 �2 ∙ 106 ,

Figura 81

que ya no es tan pequeña: está próxima al ocho por ciento, y permitía establecer una duda razonable de que los detenidos no fuesen culpables.

pág. 184

Estadística fácil con hoja de cálculo

Igual que existen variables discretas de interés como la binomial o la Poisson, veremos algunas variables continuas que merecen destacarse. VARIABLE UNIFORME CONTINUA Una variable aleatoria continua 𝑋𝑋 se dice que sigue una distribución uniforme entre dos valores 𝑎𝑎 y 𝑏𝑏 (se representa 𝑋𝑋 ∈ 𝑈𝑈(𝑎𝑎, 𝑏𝑏)) si su función de densidad tiene la expresión 1 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ [𝑎𝑎, 𝑏𝑏] 𝑓𝑓(𝑥𝑥) = �𝑏𝑏 − 𝑎𝑎 0 𝑠𝑠𝑠𝑠 𝑥𝑥 ∉ [𝑎𝑎, 𝑏𝑏] Su función de distribución es 0 𝑠𝑠𝑠𝑠 𝑥𝑥 < 𝑎𝑎 𝑥𝑥 − 𝑎𝑎 𝑠𝑠𝑠𝑠 𝑥𝑥 ∈ [𝑎𝑎, 𝑏𝑏] 𝐹𝐹(𝑥𝑥) = � 𝑏𝑏 − 𝑎𝑎 1 𝑠𝑠𝑠𝑠 𝑥𝑥 > 𝑏𝑏 pág. 185

Estadística fácil con hoja de cálculo

Las gráficas de las funciones de densidad y distribución pueden verse en la Figura 82 (gráficos de Wikipedia).

Figura 82

Esta variable es la generalización, al caso continuo, de la variable uniforme discreta (la que da a todos los valores la misma probabilidad). La variable uniforme reparte de manera continua y equivalente la probabilidad, es decir, intervalos de igual longitud (dentro de [𝑎𝑎, 𝑏𝑏]) tienen igual probabilidad. Recuérdese que, en las variables continuas, la probabilidad entre 2 puntos 𝑣𝑣1 y 𝑣𝑣2 es el área bajo la función de densidad. En este caso, el área sería el área de un rectángulo, es decir (Figura 83): 𝑣𝑣2 1 𝑃𝑃(𝑣𝑣1 < 𝑋𝑋 < 𝑣𝑣2 ) = � 𝑓𝑓(𝑡𝑡)𝑑𝑑𝑑𝑑 = (𝑣𝑣2 − 𝑣𝑣1 ) ⋅ , 𝑏𝑏 − 𝑎𝑎 𝑣𝑣1 y, según vemos en la figura, intervalos de igual longitud tienen igual área: 𝑐𝑐2 𝑑𝑑2 𝑑𝑑2 − 𝑑𝑑1 𝑐𝑐2 − 𝑐𝑐1 = . � 𝑓𝑓(𝑡𝑡)𝑑𝑑𝑑𝑑 = � 𝑓𝑓(𝑡𝑡)𝑑𝑑𝑑𝑑 = 𝑏𝑏 − 𝑎𝑎 𝑏𝑏 − 𝑎𝑎 𝑐𝑐1 𝑑𝑑1

Figura 83

MEDIA Y VARIANZA Sus parámetros media y varianza son: 𝑎𝑎 + 𝑏𝑏 (𝑏𝑏 − 𝑎𝑎)2 𝐸𝐸(𝑋𝑋) = 𝑦𝑦 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = . 2 12 pág. 186

Estadística fácil con hoja de cálculo

EJEMPLO 55 El contenido de yema de los canutos de yema que venden en la cafetería de la facultad sigue una distribución uniforme entre 𝟎𝟎. 𝟏𝟏 y 𝟎𝟎. 𝟓𝟓 gramos, según escriben en el plástico. Calcular la probabilidad de que el canuto del estudiante más gordo tenga más de la mitad de lo afirmado por la pastelería que hace los canutos. SOLUCIÓN. Tan simple como 0.5 1 0.25 1 𝑃𝑃(𝑋𝑋 > 0.25) = ∫0.25 𝑑𝑑𝑑𝑑 = (0.5 − 0.25) ⋅ = = 0.625 0.4

0.5−0.1

0.4

VARIABLE EXPONENCIAL Una variable continua 𝑋𝑋 se dice que sigue una distribución exponencial de parámetro 𝜆𝜆 > 0 si su función de densidad es

0 𝑓𝑓(𝑥𝑥) = � −𝜆𝜆𝑥𝑥 𝜆𝜆𝑒𝑒

Su función de distribución es

𝐹𝐹(𝑥𝑥) = �

0 1 − 𝑒𝑒 −𝜆𝜆𝑥𝑥

𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠

𝑥𝑥 < 0 𝑥𝑥 ≥ 0

𝑠𝑠𝑠𝑠 𝑠𝑠𝑠𝑠

𝑥𝑥 < 0 𝑥𝑥 ≥ 0

Se representa 𝑋𝑋 ∈ 𝐸𝐸𝐸𝐸𝐸𝐸(𝜆𝜆). Puede comprobarse que la función 𝑓𝑓 es una función de densidad (verifica las propiedades vistas) para cualquier valor de 𝜆𝜆 > 0, esto es, 𝑓𝑓(𝑥𝑥) ≥ 0 y la integral vale 1. La variable exponencial suele representar la duración o tiempo de supervivencia de un sistema biológico o mecánico (tiempo de duración de pilas, baterías, células; ojo, no seres humanos ni animales “normales” tipo perros, gatos, vacas, etc.), además de adaptarse bien a otras medidas, como la magnitud de los terremotos en una determinada zona, tiempos de espera (para ser atendidos en una tienda, una central telefónica, un sistema informático, etc). En la Figura 84 tenemos gráficas de la función de densidad y distribución, para algunos valores de 𝜆𝜆 (fuente: wikipedia): pág. 187

Estadística fácil con hoja de cálculo

Figura 84

MEDIA Y VARIANZA Se puede comprobar que son: 𝐸𝐸(𝑋𝑋) =

1 𝜆𝜆

y

𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) =

1 . 𝜆𝜆2

EJEMPLO 56 El tiempo que tiene que esperar una vicepresidenta de un parlamento a que su chófer personal la recoja sigue una distribución exponencial de media 5 minutos. ¿Cuál es la probabilidad de que tenga que esperar más de 7 minutos? SOLUCIÓN. 𝑇𝑇 = ”𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑑𝑑𝑑𝑑 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒” ∈ exp(1⁄5). La probabilidad que nos piden es 1

𝑃𝑃(𝑇𝑇 > 7) = 1 − 𝐹𝐹(7) = 1 − �1 − 𝑒𝑒 −5∙∙7 � = 0.2466.

La distribución exponencial la tenemos en la plantilla distribución-exponencial.xlsx, donde podemos calcular áreas y cuantiles. El resultado de este problema lo vemos en la Figura 85.

Figura 85

pág. 188

Estadística fácil con hoja de cálculo

VARIABLE NORMAL La madre de todas las variables. Una variable aleatoria continua 𝑋𝑋 sigue una distribución Normal de parámetros 𝜇𝜇 y 𝜎𝜎 (se escribe 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇, 𝜎𝜎)) si su función de densidad es

𝑓𝑓(𝑥𝑥) =

1

𝜎𝜎√2𝜋𝜋

(𝑥𝑥−𝜇𝜇)2 − 𝑒𝑒 2𝜎𝜎2 ,

𝑠𝑠𝑠𝑠 − ∞ < 𝑥𝑥 < ∞

Esta variable, cuando se consideran los valores 𝜇𝜇 = 0 y 𝜎𝜎 = 1, se llama Normal estándar o Normal tipificada. La función 𝑓𝑓 definida según esta fórmula tiene forma de campana, llamada la campana de Gauss (por Carl Friedrich Gauss; 1777 - 1855) . Es la distribución continua más importante, por la frecuencia con que aparece, y por sus propiedades teóricas. En 1783 Laplace la propuso para describir los errores accidentales en la medición de una magnitud física, por ejemplo en astronomía. La importancia de la distribución normal radica en que se ajusta a la medición de: • Caracteres morfológicos de individuos (personas, animales, plantas…) de una especie: Tallas, pesos, envergaduras, diámetros, perímetros… • Caracteres fisiológicos: efecto de una misma dosis de un fármaco, o de una misma cantidad de abono en la tierra… • Caracteres sociológicos: consumo de un cierto producto por un mismo grupo de individuos, puntuaciones de examen… • Caracteres psicológicos: cociente intelectual, grado de adaptación a un medio, propensión al crimen… • En general, cualquier característica que se obtenga como suma de muchos factores (teorema central del límite). Otras distribuciones, como la binomial o la de Poisson, se pueden aproximar por una distribución normal. La función de distribución no podemos escribirla, porque no fue capaz ni Gauss. 18 18

Para obtener la función de distribución sería necesario calcular la integral de la de función de densidad, que no tiene primitiva. Por eso se construyeron las famosas Tablas de la normal, que aparecen pág. 189

Estadística fácil con hoja de cálculo

MEDIA Y VARIANZA La media o esperanza corresponde al valor 𝜇𝜇 que aparece en la fórmula, y la desviación típica al valor 𝜎𝜎.

Figura 86

PROPIEDADES La función de densidad es simétrica respecto de la media 𝜇𝜇, es decir, áreas a la derecha y áreas a la izquierda (probabilidades) coinciden. En la Figura 86 y en la Figura 87 podemos

Figura 87: gráfica correspondiente a la plantilla normal-interactiva.xlsx

observar distintas funciones de densidad cambiando la desviación típica (a mayor desviación típica la curva se aplana; a menor desviación típica la curva es más puntiaguda en la media). Cambiar la media supone simplemente desplazar la curva a derecha o izquierda. Esto sucede porque el área bajo la curva siempre es igual a 1. en tantos y tantos libros de estadística. Hoy en día, igual que hacemos aquí, para calcular áreas o probabilidades asociadas a la distribución normal, se acude a alguna página web o software estadístico, que realizan aproximaciones de tipo numérico.

pág. 190

Estadística fácil con hoja de cálculo

Estas gráficas las hemos realizado con la plantilla normal-interactiva.xlsx, donde aparece fija la función de densidad de la normal estándar (𝑁𝑁(0,1)), y uno puede divertirse moviendo los valores de la desviación típica y/o la media, para ver como la curva se estira o se aplana (cambiando la desviación típica), o se desplaza paralelamente a lo largo del eje horizontal (cambiando la media). EJEMPLO 57 La nota de los estudiantes examinados por un profesor sigue una distribución normal de media 3.5 y desviación típica 2. Calcular la probabilidad de sacar notable. SOLUCIÓN. La variable 𝑋𝑋 = ”𝑛𝑛𝑛𝑛𝑛𝑛𝑛𝑛” sigue una distribución 𝑁𝑁(3.5, 2). Si entendemos como notable tener entre 7 y 9, queremos calcular 𝑃𝑃(7 < 𝑋𝑋 < 9). Acudimos a la plantilla tablas-distribución normal.xlsx, introducimos los valores 7 y 9 , y la plantilla nos dibuja la función de densidad y nos da el área entre los valores (Figura 88).

Figura 88

Disponemos también de la plantilla normal-areas-barras-desplazamiento.xlsx (sé que pude haberle puesto un título más corto, pero no me dio la gana), donde uno puede desplazar los valores de 𝑥𝑥 antes y después del cero, para ir viendo progresivamente las áreas existentes a uno y otro lado. En la Figura 89 aparece un ejemplo.

Figura 89: gráfica correspondiente a la plantilla normal-areas-barras-desplazamiento.xlsx

pág. 191

Estadística fácil con hoja de cálculo

Las áreas entre valores de 𝜇𝜇 − 𝑘𝑘𝜎𝜎 y 𝜇𝜇 + 𝑘𝑘𝜎𝜎 (𝑘𝑘 = 1,2,3) pueden verse en la Figura 90 (son siempre iguales, independientemente de los valores de 𝜇𝜇 y de 𝜎𝜎). Entre los valores 𝜇𝜇 -𝜎𝜎 y 𝜇𝜇 + 𝜎𝜎 se concentra el 68.2 por ciento de la distribución, y entre 𝜇𝜇 − 2𝜎𝜎 y 𝜇𝜇 + 2𝜎𝜎 se concentra el 95.4 por ciento. Esto hace que los valores 𝜇𝜇 − 2𝜎𝜎 y 𝜇𝜇 + 2𝜎𝜎 se consideren los valores máximos y mínimos comunes. Dicho de otro modo, los valores que están más alejados de la media dos veces la desviación típica son valores “raros” en la distribución (suelen llamarse límites 2-𝜎𝜎).

Figura 90

Ejemplos clásico de aplicación de estos límites es el de los análisis de sangre. Los médicos calculan el intervalo (𝜇𝜇 − 2𝜎𝜎, 𝜇𝜇 + 2𝜎𝜎), donde 𝜇𝜇 y 𝜎𝜎 son los valores media y desviación típica de la población general (calculados tras realizar un número muy grande de observaciones). Si el valor observado a un paciente no está dentro del intervalo de referencia correspondiente, es que ese valor sale fuera del 95.4 por ciento más “normal”. Por ejemplo, el nivel de colesterol, triglicéridos, hierro, azúcar… Otro ejemplo muy conocido es el del coeficiente de inteligencia. Los valores a la derecha del número 𝜇𝜇 + 2𝜎𝜎 corresponden a los coeficientes de los superdotados. Los valores a la izquierda del número 𝜇𝜇 − 2𝜎𝜎 a los coeficientes de los tertulianos de ciertos programas de TV. TIPIFICACIÓN

Sirve para comparar individuos diferentes obtenidos de sendas poblaciones normales. 𝑋𝑋−𝜇𝜇 Si 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇, 𝜎𝜎), entonces 𝑍𝑍 = ∈ 𝑁𝑁(0,1), es decir, 𝑍𝑍 es una variable normal tipificada o 𝜎𝜎 normal estándar. Las probabilidades asociadas a cualquier variable normal 𝑋𝑋 pueden calcularse a través de la normal tipificada: 𝑎𝑎 − 𝜇𝜇 𝑏𝑏 − 𝜇𝜇 𝑎𝑎 − 𝜇𝜇 𝑋𝑋 − 𝜇𝜇 𝑏𝑏 − 𝜇𝜇 < < � = 𝑃𝑃 � < 𝑍𝑍 < �. 𝑃𝑃(𝑎𝑎 < 𝑋𝑋 < 𝑏𝑏) = 𝑃𝑃 � 𝜎𝜎 𝜎𝜎 𝜎𝜎 𝜎𝜎 𝜎𝜎

EJEMPLO 58 Realizar el ejemplo anterior (probabilidad de sacar notable, pero ahora a través de una tipificación. SOLUCIÓN. La variable 𝑋𝑋 ∈ 𝑁𝑁(3.5, 2). pág. 192

Estadística fácil con hoja de cálculo 7−3.5

𝑋𝑋−3.5

9−3.5

𝑃𝑃(7 < 𝑋𝑋 < 9) = 𝑃𝑃 � < < � = 𝑃𝑃(1.75 < 𝑍𝑍 < 2.75) = 0.0371. 2 2 2 Si no tenemos interés en obtener la gráfica, podemos calcular esta probabilidad (y la distribución) directamente en tablas-distribuciones.xlsx:

PROPIEDAD ADITIVA Igual que vimos en otras variables, la variable normal es reproductiva: la suma de variables aleatorias normales independientes es otra variable aleatoria normal, con media la suma de las medias y varianza la suma de varianzas. Puede establecerse un resultado más general: sean 𝑿𝑿𝒊𝒊 ∈ 𝑵𝑵(𝝁𝝁𝒊𝒊 , 𝝈𝝈𝒊𝒊 ), y 𝒄𝒄𝒊𝒊 números reales, 𝒊𝒊 = 𝟏𝟏, . . . , 𝒏𝒏. Se verifica: 𝑛𝑛

𝑛𝑛

𝑛𝑛

𝑖𝑖=1

𝑖𝑖=1

𝑖𝑖=1

� 𝑐𝑐𝑖𝑖 𝑋𝑋𝑖𝑖 ∈ 𝑁𝑁 �� 𝑐𝑐𝑖𝑖 𝜇𝜇𝑖𝑖 , �� 𝑐𝑐𝑖𝑖2 𝜎𝜎𝑖𝑖2 �,

esto es, una combinación lineal de variables aleatorias normales es otra variable aleatoria normal, cuya media es la combinación lineal de las medias, y la varianza es la combinación lineal de las varianzas, pero con los términos 𝒄𝒄𝒊𝒊 elevados al cuadrado.

EJEMPLO 59 En España, en 2014, el precio medio de la heroína fue de 60 euros el gramo, y el de la metaanfetamina 80 euros el gramo. Suponiendo que el precio de ambas sustancias sigue una distribución normal, con desviación típica 5 y 10 euros, respectivamente, y que un tertuliano de televisión toma diariamente un “mix” de un gramo, formado por un 65 por ciento de heroína y un 35 por ciento de metanfetamina, calcular la probabilidad de que el precio no supere los 70 euros (que es lo que le roba al ciego de la esquina). SOLUCIÓN. Llamemos 𝑋𝑋1 =“precio del gramo de heroína”. Nos dicen que esta variable sigue una distribución normal 𝑁𝑁(60,5). Llamemos 𝑋𝑋2 =“precio del gramo de metaanfetamina”. Nos dicen que esta variable sigue una distribución normal 𝑁𝑁(80,10). Diariamente, el ministro gasta un dinero que será la mitad de la variable 𝑌𝑌 = 0.65 ∙ 𝑋𝑋1 + 0.35 ∙ 𝑋𝑋2 Esta variable, por ser una combinación de variables normales, también sigue una distribución normal. Para ver qué parámetros sigue, aplicamos la fórmula anterior. Aquí tenemos 𝑐𝑐1 = 0.65 y 𝑐𝑐2 = 0.35. Por lo tanto, la media será 0.65 ⋅ 𝜇𝜇1 + 0.35 ⋅ 𝜇𝜇2 y la varianza 0.652 ⋅ 𝜎𝜎12 + 0.352 ⋅ 𝜎𝜎22 de manera que 𝑌𝑌 ∈ 𝑁𝑁�0.65 ∙ 60 + 0.35 ∙ 80, √0.652 ⋅ 52 + 0.352 ⋅ 102 � ≡ 𝑁𝑁�67, √22.81� = 𝑁𝑁(67,4.77). La probabilidad solicitada es 𝑃𝑃(𝑌𝑌 < 70) = 0.7353. Esta probabilidad podemos calcularla tipificando y buscando en la tabla de una 𝑁𝑁(0,1), o directamente, en la tabla de la distribución normal (plantilla tablas-distribucion-normal.xlsx) Por ejemplo, tipificando sería 70 − 67 � = 𝑃𝑃(𝑍𝑍 < 0.628) = 0.735. 𝑃𝑃(𝑌𝑌 < 70) = 𝑃𝑃 �𝑍𝑍 < 4.77 pág. 193

Estadística fácil con hoja de cálculo

Gráficamente, podemos ver el resultado en la figura 2 de la plantilla citada (Figura 91).

Figura 91

TEOREMA CENTRAL DEL LÍMITE Este teorema dice, de manera esquemática, que, cuando sumamos un número grande de variables, la variable resultante sigue una distribución normal. De manera general, si 𝑋𝑋1 , 𝑋𝑋2 , . . . , 𝑋𝑋𝑛𝑛 son variables de media o esperanza 𝜇𝜇𝑖𝑖 = 𝐸𝐸(𝑋𝑋𝑖𝑖 ) y varianza 𝜎𝜎𝑖𝑖2 = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋𝑖𝑖 ), 𝑖𝑖 = 1, . . . , 𝑛𝑛, se verifica que la variable suma 𝑌𝑌 = 𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 (si 𝑛𝑛 es un número tendiendo a infinito) se puede aproximar por una variable normal, de media la suma de las medias y varianza la suma de varianzas (desviación típica = raiz de la suma de varianzas), es decir 𝑑𝑑

𝑛𝑛

𝑛𝑛

𝑖𝑖=1

𝑖𝑖=1

𝑌𝑌 = 𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 → 𝑁𝑁 �� 𝜇𝜇𝑖𝑖 , �� 𝜎𝜎𝑖𝑖2 �. Nota: En el caso de sumar variables aleatorias normales, la aproximación anterior no es tal, sino que es una distribución exacta, como hemos visto anteriormente. 𝒅𝒅

El simbolo → hace referencia a “convergencia en distribución”, que es una forma de convergencia de las sucesiones de variables aleatorias (igual que hay límites de sucesiones de números, también hay sucesiones de variables aleatorias, que las matemáticas ya sabéis que son muy raras). Este teorema (del que damos únicamente una idea general, sin establecer las hipótesis matemáticas reales) establece la importancia de la distribución normal. Su resultado es que, cuando se suma un número grande de variables aleatorias, la variable resultante es una variable con distribución aproximadamente igual a la distribución normal. Incluso, el término “número grande” (porque matemáticamente el teorema se establece cuando 𝑛𝑛 tiende a infinito) no lo es tanto, porque, en la práctica, con 𝑛𝑛 > 30 la aproximación ya proporciona buenas resultados. Además, el teorema es cierto independientemente de la distribución que sigan las variables que se sumen (no importa si son exponenciales, binomiales, etc.). Lo único que se necesita es saber su media y su varianza. pág. 194

Estadística fácil con hoja de cálculo

Es a causa de este teorema que muchas variables aleatorias como pesos, alturas, tallas, etc. siguen una distribución normal, porque cada una de ellas es suma de un gran número de variables aleatorias independientes. Por ejemplo: - La altura (peso…) de una persona es suma de muchos factores: hereditario, alimentación, tipo de vida... - El consumo de combustible (gas, electricidad...) por día de una compañía es suma de los consumos individuales de los usuarios. - Las fluctuaciones del mercado de acciones son suma de multitud de variables. - Los errores aleatorios, que se presentan en observaciones de pesos, distancias, o, en general, en la mayoría de medidas de algún aparato, son la suma de un número elevado de errores elementales, tales como corrientes de aire, vibraciones, errores de apreciación. El teorema también sirve cuando, en vez de sumar variables, se hace la media de ellas. Es decir, la media de variables aleatorias se puede aproximar también por una variable normal (por ello, los promedios anuales de temperatura, las notas promedio, etc. también suelen adaptarse a la distribución normal). 𝑑𝑑

𝑛𝑛

𝑛𝑛

𝑖𝑖=1

𝑖𝑖=1

𝑌𝑌 = 𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 → 𝑁𝑁 �𝑎𝑎 = � 𝜇𝜇𝑖𝑖 , 𝑏𝑏 = �� 𝜎𝜎𝑖𝑖2 � ⇒

𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 𝑑𝑑 𝑎𝑎 𝑏𝑏 → 𝑁𝑁( , ) 𝑛𝑛 𝑛𝑛 𝑛𝑛

Caso particular: Si todas las variables tienen la misma distribución, y por lo tanto la misma media y desviación típica 𝜇𝜇𝑖𝑖 = 𝐸𝐸(𝑋𝑋𝑖𝑖 ) = 𝜇𝜇 y varianza 𝜎𝜎𝑖𝑖2 = 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋𝑖𝑖 ) = 𝜎𝜎 2 , entonces 𝑑𝑑 𝑿𝑿𝟏𝟏 + 𝑿𝑿𝟐𝟐 +. . . +𝑿𝑿𝒏𝒏 𝑑𝑑 𝝈𝝈 �= 𝑌𝑌 = 𝑋𝑋1 + 𝑋𝑋2 +. . . +𝑋𝑋𝑛𝑛 → 𝑁𝑁 �𝑎𝑎 = 𝑛𝑛𝜇𝜇, 𝑏𝑏 = �𝑛𝑛𝜎𝜎 2 � ⇒ 𝒙𝒙 → 𝑵𝑵(𝝁𝝁, ) 𝒏𝒏 √𝒏𝒏

EJEMPLO 60 El programa “Crónicas marranas” pide a los espectadores que manden sms si prefieren que se recorte el dinero en sanidad antes que en la formula uno. A la centralita comienzan a llegar mensajes a ritmo de 3 por minuto. Calcular la probabilidad de que lleguen al menos 160 mensajes en una hora. SOLUCIÓN. X =“numero´de mensajes por minuto” ∈ Pois(3) (se adecua al proceso de Poisson) Y =“numero de mensajes en una hora” =X1 + ... + X60 ∈ Pois(3 · 60 = 180). Por ser una suma de variables, la distribución de Y puede aproximarse por una normal 𝑁𝑁(180, √180). Nos piden 𝑌𝑌−180 √180

𝑃𝑃(𝑌𝑌 ≥ 160) = 𝑃𝑃 �



160−180 � √180

= 𝑃𝑃�𝑍𝑍𝑁𝑁(0,1) ≥ −1.49� = 0.931.

Nota: cuando utilizamos el teorema central del límite, como este caso, para calcular una probabilidad por medio de la distribución normal, el resultado no es exacto, sino una aproximación. Lo que ocurre, es que esa aproximación, dependiendo de los casos, puede ser bastante precisa.

EJEMPLO 61 Supongamos que un tratamiento médico es eficaz (al cabo de un tiempo determinado), en una proporción del 80 por ciento. Un seguro médico paga más a una clínica

pág. 195

Estadística fácil con hoja de cálculo

si, por cada 300 asegurados que reciben el tratamiento, al menos se curan 260. ¿Cuál es la probabilidad de que esto suceda? SOLUCIÓN. Definamos la variable 𝑋𝑋 que toma los valores 0 si el paciente no se cura (al cabo de ese tiempo establecido), y 1 si se cura. 𝑋𝑋 es una variable de Bernoulli de parámetro 𝑝𝑝 = 0.8. Como hemos visto al principio del capítulo, una variable de Bernoulli tiene media 𝑝𝑝 y varianza 𝑝𝑝 ⋅ (1 − 𝑝𝑝), en este caso media 0.8 y varianza 0.8 ⋅ 0.2 = 0.16. Si consideramos la variable 𝑌𝑌 = 𝑋𝑋1 + ⋯ + 𝑋𝑋300 , 𝑌𝑌 mide el número de pacientes que se curan de 300 que acuden a la clínica. Usando el teorema central del límite, 𝑌𝑌 puede aproximarse por una distribución normal de media la suma de las medias y varianza la suma de varianzas, es decir 𝐸𝐸(𝑌𝑌) = 300 ⋅ 0.8 = 240 y 𝑉𝑉𝑉𝑉𝑉𝑉(𝑌𝑌) = 300 ⋅ 0.16 = 48 ⇒ 𝜎𝜎 = √48 = 6.92. Por lo tanto, podemos calcular la probabilidad 𝑃𝑃(𝑌𝑌 ≥ 260) usando la distribución 𝑁𝑁(240,6.92). Tipificando: 𝑌𝑌 − 240 260 − 240 𝑃𝑃(𝑌𝑌 ≥ 260) = 𝑃𝑃 � ≥ � = 𝑃𝑃(𝑍𝑍𝑁𝑁(0,1) ≥ 2.89) = 0.002, 6.92 6.92 que es una probabilidad muy pequeña. Los seguros siempre procuran hacer cálculos para pagar lo menos posible. Nota: Está claro que la variable 𝒀𝒀 del ejercicio anterior era una variable Binomial de párametros 𝒏𝒏 = 𝟑𝟑𝟑𝟑𝟑𝟑 y 𝒑𝒑 = 𝟎𝟎. 𝟖𝟖. En el capítulo de variables discretas vimos que una variable aleatoria binomial puede aproximarse también mediante una variable de Poisson. La diferencia con el teorema central del límite (que aproxima la binomial por la normal) es que la aproximación a la Poisson es cuando 𝒑𝒑 < 𝟎𝟎. 𝟏𝟏 (el suceso 𝑨𝑨 es un suceso raro). Si 𝒑𝒑 ≥ 𝟎𝟎. 𝟏𝟏 (como en este caso), la aproximación se hace mediante la normal. En este caso, el teorema central del límite se llama teorema de Moivre. De Moivre demostró el teorema de convergencia de una distribución binomial a la normal antes de que se demostrara el teorema central del límite que, como hemos visto, sirve para la suma de variables cualesquiera.

RESUMEN 𝐵𝐵𝐵𝐵(𝑛𝑛, 𝑝𝑝) ⟶ 𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆 = 𝑛𝑛𝑛𝑛) 𝑠𝑠𝑠𝑠 𝑛𝑛 > 30 𝑦𝑦 𝑝𝑝 < 0.1 𝐵𝐵𝐵𝐵(𝑛𝑛, 𝑝𝑝) ⟶ 𝑁𝑁 �𝑛𝑛𝑛𝑛, �𝑛𝑛𝑛𝑛(1 − 𝑝𝑝)� 𝑠𝑠𝑠𝑠 𝑛𝑛 > 30 𝑦𝑦 𝑝𝑝 > 0.1

𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃(𝜆𝜆) ⟶ 𝑁𝑁�𝜆𝜆, √𝜆𝜆� ( 𝑠𝑠𝑠𝑠 λ > 1000 la aproximación es muy buena) A partir de 𝜆𝜆 > 10 la aproximación empieza a funcionar bien. Y recordad que una hipergeométrica también se aproxima por una binomial si (𝑛𝑛⁄𝑁𝑁) < 0.1

pág. 196

Estadística fácil con hoja de cálculo

EJEMPLO REAL DE INTERÉS: PUTIN CONTRA GAUSS

Extraído parcialmente del blog: http://matemolivares.blogia.com/2011/121501-las-matematicas-no-enganan-gausstampoco..php En las siguientes gráficas se representa el polígono de frecuencias de la variable “participación electoral, en tanto por ciento, en una mesa electoral”. Es decir, en cada mesa electoral se anota el porcentaje de gente que acudió a votar, y luego se forma una tabla de frecuencias donde la frecuencia absoluta es el número de mesas electorales con un porcentaje de voto determinado. En la Figura 92 aparecen las gráficas correspondientes a las elecciones en México (2009), Polonia (2010), Bulgaria (2009) y Suecia (2010). Los polígonos de frecuencias son campanas de Gauss o se aproximan bastante. En todo caso, se podría apreciar alguna ligera asimetría por los extremos. Es decir, hay pocas mesas donde hay poca participación, un número alto de mesas

Figura 92

pág. 197

Estadística fácil con hoja de cálculo

electorales tienen una participación media, y hay pocas mesas con participación del 90-100 por cien (parece lo habitual, vaya). En la Figura 93 vemos el mismo polígono de frecuencias en las elecciones de Rusia (2010) (gráfico de la izquierda) y en las cuatro anteriores (gráfico de la derecha). Casualmente en Rusia hay muchas mesas electorales con participación altísima.

Figura 93

Protesta pública en Rusia donde vemos manifestantes mostrando los gráficos. Aquí no los ponen porque los políticos no pueden entenderlos.

UN POCO DE HISTORIA SOBRE PUTIN Cuando, en 1991, se desintegró la Unión Soviética, el presidente de Rusia era Boris Yeltsin (foto), famoso por dejar en quiebra las fábricas de vodka el día que murió, aparte de ser gran amigo de Bill Clinton. Al igual que otras repúblicas soviéticas que se independizaron, como

pág. 198

Estadística fácil con hoja de cálculo

Letonia, Estonia, etc., Chechenia intentó ser independiente y, dado que tiene petróleo y gas, no le dejaron, así que su parlamento decidió independizarse unilateralmente. Comenzó entonces la primera guerra por la independencia de Chechenia en 1994. Los chechenos opusieron una gran resistencia y, después de graves contratiempos del ejército ruso, en 1996 el general Aleksandr Lebed logró cerrar un acuerdo de paz que le dio una gran popularidad en Rusia. En 1998 Yeltsin se retiró a dormir la mona hasta el 2007 (año en que murió), conservado en una marmita de vodka. Vladimir Putin, que era primer ministro, asumió la presidencia (y se encargó de ir todos los días a mantener bien embalsamado en alcohol a Yeltsin). En 1999 se sucedieron explosiones en edificios de viviendas en Moscú y otras ciudades rusas, con gran número de bajas civiles. Se atribuyeron los atentados a los independentistas chechenos, aunque a día de hoy ni el propio Putin se molesta en discutir sobre quien dio realmente la orden de volar los edificios (¿alguna idea?). A partir de ese momento comenzó la segunda guerra chechena, con una nueva estrategia consistente en: - Destrozar todo a base de bombardeos masivos. - Cuando no quedaba prácticamente nada en pie, hacer entrar al ejército y detener a todos los hombres mayores de dieciocho años como sospechosos de terrorismo, para ser interrogados y mantenidos presos sin ser juzgados, hasta que se aburrieran. En el año 2000 se presentó a presidente de Rusia. Desde entonces, siempre ha ganado por abrumadora mayoría (hubo una etapa en la que dejó de ser presidente porque la ley rusa prohíbe enlazar tres mandatos, pero ya se ocupó de colocar a Dimitri Medvedev en el cargo, mientras él pasaba a ser primer ministro, para luego volver a ser presidente. Se sospecha que Medvedev es uno de los mejores inventos de la KGB, un robot lo más parecido a un humano que se ha inventado). Vladimir Putin, igual que una serie de políticos españoles han sido favorecidos con la suerte de ganar premios de lotería continuamente, ha visto como todos los políticos con aspiraciones y posibilidades a ser presidentes de Rusia han muerto, han tenido que escapar a la carrera del país o han entrado en la cárcel. También ha tenido la suerte de librarse de opositores, de periodistas entrometidos que no aceptan su forma de hacer política, etc. Citemos, por ejemplo: • Aleksandr Lebed, al que hemos mencionado antes, que se hizo famoso por haber logrado los acuerdos de paz de la primera guerra chechena, y aspirante a la presidencia, murió en accidente de helicóptero en 2002. • Mijail Jodorkovski, millonario y opositor político, acabó en la cárcel. Su petrolera, Yukos, fue embargada por el estado. • Boris Berezovski, millonario opositor, tuvo que escapar de Rusia antes de que le pasara algo raro. En Reino Unido se encontró con otros examigos de Putin. Entre ellos se encontraba Aleksandr Litvinenko, que murió envenenado con polonio radioactivo (como todo el mundo sabe, lo venden en cualquier supermercado). • La famosa periodista Anna Politkóvskaya, investigadora de crímenes contra los derechos humanos en la guerra de Chechenia, Murió tiroteada en el ascensor del edificio de su apartamento en Moscú el 7 de octubre de 2006. • El presidente de Ucrania durante 2005 a 2010, Víktor Yúshchenko, luego de un intento de asesinato en su contra a finales de 2004 durante su campaña electoral, sufrió de una notable

pág. 199

Estadística fácil con hoja de cálculo

desfiguración. Se confirmó que Yúschenko había sido envenenado con cantidades peligrosas de TCDD, la dioxina más potente y un contaminante en el Agente Naranja. • El último y sonado caso ha sido el de Borís Nemtsov, otro opositor a Putin con posibilidades de ser elegido presidente, que fue asesinado el 27 de febrero de 2015, casualmente por terroristas chechenos, y casualmente mientras paseaba con su novia por una zona aledaña al Kremlin donde hay cámaras de seguridad grabando continuamente, pero ese día estaban estropeadas.

VARIABLE CHI-CUADRADO Se escribe variable 𝜒𝜒 2 . El hecho de que su función de densidad dependa de un número entero positivo llamado “grados de libertad” hace que se hable de la distribución 𝜒𝜒𝑘𝑘2 con 𝑘𝑘 grados de libertad. Así, existe una variable para cada valor de 𝑘𝑘 mayor o igual a 1. Esta variable aparece cuando se suman 𝑘𝑘 variables aleatorias independientes con distribución 𝑁𝑁(0,1), elevadas al cuadrado. 𝜒𝜒𝑘𝑘2 = 𝑋𝑋12 + 𝑋𝑋22 +. . . +𝑋𝑋𝑘𝑘2 , con 𝑋𝑋𝑖𝑖 ∈ 𝑁𝑁(0,1). A continuación aparecen dibujadas varias funciones de densidad, dependiendo del número de grados de libertad 𝑘𝑘.

Figura 94

No reproducimos aquí la fórmula de la densidad por innecesaria. Quien esté interesado puede acudir, por ejemplo, a la wikipedia (igual que tampoco haremos en los dos casos siguientes, la distribución 𝑡𝑡 de Student y la distribución 𝐹𝐹). El interés de esta distribución radica en su uso para la construcción de intervalos de confianza y realización de contrastes de hipótesis. Quien necesite calcular áreas relacionadas con esta variable, dispone de la plantilla distribucionchi-cuadrado.xlsx. VARIABLE 𝒕𝒕 DE STUDENT

pág. 200

Estadística fácil con hoja de cálculo

La variable 𝑡𝑡 (o 𝑡𝑡 de Student) aparece a partir de la distribución normal y la Chi-cuadrado, puesto que si 𝑍𝑍 es una variable 𝑁𝑁(0,1), e 𝑌𝑌 es una variable aleatoria independiente de 𝑍𝑍, con distribución Chi-cuadrado con 𝑛𝑛 grados de libertad, entonces la variable 𝑍𝑍 𝑡𝑡𝑛𝑛 = �𝑌𝑌/𝑛𝑛 es una variable con distribución 𝑡𝑡 con 𝑛𝑛 grados de libertad. La distribución 𝑡𝑡 de Student (con 𝑛𝑛 grados de libertad) es una variable aleatoria cuya función de densidad también tiene forma de campana y es simétrica. Es, por lo tanto, muy parecida a la densidad de la variable 𝑁𝑁(0,1) (de hecho, la media o esperanza de cualquier variable 𝑡𝑡 de Student es cero). Sin embargo, tiene colas más pesadas que la campana de Gauss, lo que significa que el área o probabilidad en los extremos izquierdo y derecho de la curva es mayor que en el caso de la distribución normal. Estos hechos pueden visualizarse en la imagen de la función de densidad (tomada de wikipedia), donde se representan diferentes valores del parámetro 𝑛𝑛 (df en la gráfica, de “degree freedom”).

Figura 95

Hay que reseñar que, a medida que el número de grados de libertad aumenta, la curva se parece cada vez más a la campana de Gauss, lo cual sucede a partir de valores como 𝑛𝑛 = 40, siendo la coincidencia total para 𝑛𝑛 = ∞. El interés de esta variable es, igual que en el caso de la variable Chi-cuadrado, su aparición en la construcción de intervalos de confianza y realización de contrastes de hipótesis. La fórmula de la función de densidad de la variable 𝑡𝑡 fue publicada en 1908 por William Sealy Gosset (1876 - 1937), mientras trabajaba en la fábrica de cervezas Guinness, en Dublin. Existe la anécdota de que el origen del seudónimo “Student”, que fue el seudónimo utilizado por Gosset para escribir el artículo de investigación matemático donde define la variable, vino motivado porque la dirección de la fabrica impedía a los empleados la publicación de trabajos científicos. Quien necesite calcular áreas relacionadas con esta variable, dispone de la plantilla distribucion-t.xlsx. Sugerencia: jugar un poco calculando probabilidades en la t de Student con valores de los grados de libertad mayores que 30 y 40, y viendo las diferencias con respecto a la normal estándar.

pág. 201

Estadística fácil con hoja de cálculo

VARIABLE F DE FISHER-SNEDECOR La distribución 𝐹𝐹 es conocida habitualmente como la distribución F de Snedecor, o distribución F de Fisher-Snedecor, en honor a R.A. Fisher (1890 - 1962) y George W. Snedecor (1881 - 1974). Su función de densidad es bastante complicada, y depende de dos parámetros 𝑛𝑛1 y 𝑛𝑛2 que son sus grados de libertad. La utilidad de esta distribución es, de nuevo, la construcción de intervalos de confianza y realización de contrastes de hipótesis. La distribución 𝐹𝐹 aparece a través de la distribución Chi-cuadrado, puesto que si 𝑋𝑋 sigue una distribución 𝜒𝜒𝑛𝑛2 , e 𝑌𝑌 es otra 2 variable (independiente de 𝑋𝑋) con distribución 𝜒𝜒𝑚𝑚 , entonces la variable 𝑊𝑊 definida como 𝑋𝑋/𝑛𝑛 , 𝑊𝑊 = 𝑌𝑌/𝑚𝑚 sigue una distribución 𝐹𝐹 con 𝑛𝑛 y 𝑚𝑚 grados de libertad. A continuación, algunos casos concretos para la densidad (fuente: wikipedia). Como no podía ser menos, tenemos la plantilla F.xlsx para calcular áreas relacionadas con esta variable.

Figura 96

pág. 202

Estadística fácil con hoja de cálculo

RESUMEN DE PLANTILLAS Como hemos visto, disponemos de una plantilla para cada una de las variables continuas que hemos introducido (excepto para la uniforme, que es muy fácil), y también disponemos de la plantilla general tablas-distribuciones.xlsx, que es la más práctica si únicamente queremos calcular la densidad de probabilidad, la función de distribución o la probabilidad entre dos valores, sin realizar el dibujo del área correspondiente. En la Figura 97 vemos la parte de la plantilla para las variables continuas (donde también podemos calcular áreas para la distribución uniforme).

Figura 97

pág. 203

Estadística fácil con hoja de cálculo

PROBLEMAS PROBLEMA 32 Como era un gran amigo suyo, Juanca ha decidido ir de incógnito al funeral de Mandela. Allí, mientras bailaba en los actos de homenaje, se ha caído y roto el hueso palomo. Un cirujano de la prestigiosa clínica Septiembre (USA) le pone una prótesis experimental. La duración media de la prótesis es 10 años, pero sólo si el paciente no baila en absoluto durante el tiempo que la lleve. Como se sabe que la probabilidad de que Juanca aguante sin bailar mientras lleve la prótesis es tan sólo de 0.1, ¿cuál es la probabilidad de que la prótesis aguante más de 10 años? SOLUCIÓN. La variable X=“duración de la prótesis” sigue una distribución exponencial de parámetro 𝜆𝜆, valiendo 𝜆𝜆 el inverso de la media, que son 10 años (puesto que la esperanza de una exponencial es precisamente 1/𝜆𝜆). La probabilidad de que la duración sea mayor a 10 años es 𝑃𝑃(𝑋𝑋 > 10) = 1 − 𝑃𝑃(𝑋𝑋 ≤ 10) = 1 − 𝐹𝐹(10) = 1 − [1 − exp(−𝜆𝜆 ∙ 10)] = = exp(−1) =0.3679. Para que la prótesis aguante más de 10 años tiene que ocurrir que Juanca aguante sin bailar, y que la duración de la prótesis sea mayor a 10. Es decir, tienen que ocurrir ambos sucesos, que se supone que son independientes. Por lo tanto, la probabilidad de que ocurran ambos sucesos es el producto de las probabilidades: 𝑃𝑃(𝑋𝑋 > 10) ∙ 0.1 = 0.3679 ∙ 0.1 = 0.03679

PROBLEMA 33 En un parlamento de un país imaginario conviven tres partidos A, B y C. El 55% de los parlamentarios pertenece a la casta (perdón, al partido) A, el 20% a la casta B y el 25% a la casta C. Los cocientes intelectuales de los parlamentarios siguen distribuciones 𝑵𝑵(𝟕𝟕𝟕𝟕, 𝟏𝟏𝟏𝟏), 𝑵𝑵(𝟗𝟗𝟗𝟗, 𝟏𝟏𝟏𝟏) y 𝑵𝑵(𝟗𝟗𝟗𝟗, 𝟏𝟏𝟏𝟏), para A, B y C, respectivamente. a) Si elegimos al azar un parlamentario del partido A, ¿qué probabilidad habrá de que su coeficiente intelectual sea inferior a 64?. b) Hallar la probabilidad de que el primer parlamentario que nos encontremos tenga coeficiente intelectual superior a 64. c) Si el primer parlamentario que nos encontramos tiene coeficiente intelectual menor de 64, ¿qué probabilidad hay de que pertenezca al partido A? SOLUCIÓN. Llamemos 𝑋𝑋𝐴𝐴 =“coeficiente intelectual del partido A”. Nos dicen que esta variable sigue una distribución normal 𝑁𝑁(75,10). Análogamente tenemos que 𝑋𝑋𝐵𝐵 ∈ 𝑁𝑁(90,10) y 𝑋𝑋𝐶𝐶 ∈ 𝑁𝑁(95,15). a) Nos preguntan 𝑃𝑃(𝑋𝑋𝐴𝐴 < 64). pág. 204

Estadística fácil con hoja de cálculo

64 − 75 � = 𝑃𝑃(𝑍𝑍 < −1.1) = 0.1357. 10 b) Nos preguntan la probabilidad 𝑃𝑃(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖𝑖 > 64). Esta probabilidad depende de que el individuo que nos encontremos pertenezca al partido A, B o C. Para calcularla, tendremos que aplicar el teorema de las probabilidades totales (puesto que la suma de probabilidades 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝐶𝐶) = 1). 𝑃𝑃(𝐶𝐶𝐶𝐶 > 64) = 𝑃𝑃�𝐶𝐶𝐶𝐶 > 64�𝐴𝐴� ∙ 𝑃𝑃(𝐴𝐴) + 𝑃𝑃�𝐶𝐶𝐶𝐶 > 64�𝐵𝐵� ∙ 𝑃𝑃(𝐵𝐵) + 𝑃𝑃�𝐶𝐶𝐶𝐶 > 64�𝐶𝐶 � ∙ 𝑃𝑃(𝐶𝐶) = = 𝑃𝑃(𝑋𝑋𝐴𝐴 > 64) ∙ 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝑋𝑋𝐵𝐵 > 64) ∙ 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝑋𝑋𝐶𝐶 > 64) ∙ 𝑃𝑃(𝐶𝐶) = 64 − 75 64 − 90 64 − 95 = 𝑃𝑃 �𝑍𝑍 > � ∙ 𝑃𝑃(𝐴𝐴) + 𝑃𝑃 �𝑍𝑍 > � ∙ 𝑃𝑃(𝐵𝐵) + 𝑃𝑃 �𝑍𝑍 > � ∙ 𝑃𝑃(𝐶𝐶) = 10 10 1015 = 𝑃𝑃(𝑍𝑍 > −1.1) ∙ 𝑃𝑃(𝐴𝐴) + 𝑃𝑃(𝑍𝑍 > −2.6) ∙ 𝑃𝑃(𝐵𝐵) + 𝑃𝑃(𝑍𝑍 > −2.06) ∙ 𝑃𝑃(𝐶𝐶) = = 0.8643 ∙ 0.55 + 0.9953 ∙ 0.2 + 0.9803 ∙ 0.25 = 0.9195. c) Nos piden 𝑃𝑃(𝐴𝐴 ∩ {𝐶𝐶𝐶𝐶 < 64}) 𝑃𝑃(𝑋𝑋𝐴𝐴 < 64) ∙ 𝑃𝑃(𝐴𝐴) 0.1357 ∙ 0.55 = = = 0.9271. 𝑃𝑃�𝐴𝐴�𝐶𝐶𝐶𝐶 < 64� = 1 − 0.9195 𝑃𝑃(𝐶𝐶𝐶𝐶 < 64) 1 − 𝑃𝑃(𝐶𝐶𝐶𝐶 > 64) 𝑃𝑃(𝑋𝑋𝐴𝐴 < 64) = 𝑃𝑃 �𝑍𝑍 <

PROBLEMA 34 Zenón de Citium era un famoso filósofo que tardaba en comer un jabalí de media 12 minutos y desviación típica 3. ¿Cuál era la probabilidad de que tardase menos de 9 horas y media en comer 50 jabalies? SOLUCIÓN. La variable T=”tiempo que tarda Zenón en comer un jabalí” tiene media 12 y varianza 9. Por lo tanto, la variable que mide el tiempo en comer 50 jabalíes sigue, aproximadamente, una distribución normal de media 50 ∙ 12 y varianza 50 ∙ 9. Es, por lo tanto, aproximadamente 𝑁𝑁�600, √450� = 𝑁𝑁(600,21.21). La probabilidad pedida es 570 − 600 � = 𝑃𝑃(𝑍𝑍 < −1.41) = 0.0786 𝑃𝑃(𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡𝑡 < 570) = 𝑃𝑃 �𝑍𝑍 < 21.21 Podemos buscarlo directamente en la plantilla tablas-distribuciones.xlsx. PROBLEMA 35 El Empire State Building tiene 73 ascensores, que permiten llevar cada uno un peso variable uniforme entre 0 y 2000 kilos. ¿Cuál es la probabilidad de subir, en una sola tanda, una cantidad de personas cuyo peso sea equivalente al de King-Kong (130 toneladas)? SOLUCIÓN. El peso que soporta un ascensor sigue una distribución uniforme 𝑈𝑈(0,2) (en toneladas). (2−0)2

0+2

La media es = 1 y su varianza es 12 2 Los 73 ascensores soportan un peso total que, por el teorema central del límite, sigue, aproximadamente, una distribución 1 normal, de media 73 ∙ 1 y varianza 73 ∙ , luego es, aproximadamente,

𝑁𝑁(73,4.93). La probabilidad pedida es

𝑃𝑃(𝑃𝑃𝑃𝑃𝑃𝑃𝑃𝑃 > 130) = 𝑃𝑃 �𝑍𝑍 >

= 𝑃𝑃(𝑍𝑍 > 11.56) = 0. pág. 205

73 𝑁𝑁 �73, � � 3

130 − 73 �= 4.93

3

=

=

4 12

1 3

= .

Estadística fácil con hoja de cálculo

PROBLEMA 36 Un banco redondea hacia arriba los intereses de 20.000 hipotecas. Suponiendo que las partes fraccionarias de las hipotecas se distribuyen de forma continua y uniforme entre 0 y 1, ¿cuál es la probabilidad de que el banco, con ese mísero redondeo, gane más de un millón y medio de las antiguas pesetas, para que pueda el director del mismo dar una propina generosa la próxima vez que vaya a un bar? SOLUCIÓN. Supongamos que el interés por una hipoteca es, por ejemplo, 65437.23 euros. El banco lo que hace es redondear siempre al alza, es decir, cobra 65438 euros. Como esto lo hace con tal de que el interés supere un céntimo, el banco siempre gana una cantidad variable, con distribución uniforme entre 0 y 100 (céntimos de euro). Lo que gana el banco es la suma de los redondeos de 20.000 hipotecas. Llamando G a la variable ganancias 𝐺𝐺 = 𝐺𝐺1 + ⋯ 𝐺𝐺20000, donde 𝐺𝐺𝑖𝑖 sigue una distribución uniforme 𝑈𝑈(0,1 𝑒𝑒𝑒𝑒𝑒𝑒𝑒𝑒). Por lo tanto, la media es 0.5 y la varianza es 1/12. Por el teorema central del límite, 𝐺𝐺 sigue, aproximadamente, una distribución normal, de media 20000 ∙ 0.5 1 y varianza 20000 ∙ , o sea 12

𝑁𝑁�10000, √1666.66� o 𝑁𝑁(10000,40.82). La probabilidad pedida es 9000 − 10000 � 𝑃𝑃(𝐺𝐺 > 9000) = 𝑃𝑃 �𝑍𝑍 > 40.82 = 𝑃𝑃(𝑍𝑍 > −24.49) = 1.

PROBLEMA 37 La vicepresidenta de un parlamento está aprovechando que da un discurso el presidente del gobierno para jugar en su Tablet al Manolo-Crash. Este juego consiste, básicamente, en ir superando pruebas y aguantando tiempo, donde el tiempo de cada prueba es exponencial de media la mitad de la prueba anterior (la primera prueba tiene una duración media de 20 minutos, y consiste en resolver una ecuación de grado uno). ¿Cuál es la probabilidad de que la vicepresidenta supere la tercera prueba, sabiendo que consiste en hacer la o con un canuto, y esto a la vicepresidenta le suele llevar 8 minutos? SOLUCIÓN. El tiempo 𝑇𝑇𝑖𝑖 =”duración de la prueba 𝑖𝑖” sigue una distribución exponencial de parámetro 1 𝜆𝜆𝑖𝑖 = � � ∙ (2)𝑖𝑖−1 (ya que el párametro de la exponencial es la inversa de la media, luego 20 20 1 = . 𝐸𝐸(𝑇𝑇𝑖𝑖 ) = 𝑖𝑖−1 1 �20� ∙ (2)𝑖𝑖−1 (2) Como vemos, cada prueba el tiempo medio se reduce a la mitad. Nos piden 1 𝑃𝑃(𝑇𝑇𝑖𝑖 > 8) = 1 − 𝐹𝐹(8), siendo en este caso 𝜆𝜆4 = � � ∙ (2)4−1=0.4. 20

Metemos los datos en la plantilla de la exponencial y obtenemos 𝑃𝑃(𝑇𝑇𝑖𝑖 > 8) = 0.0408. pág. 206

Estadística fácil con hoja de cálculo

PROBLEMA MUY TÍPICO DE LOS EXÁMENES Iker Fernández, en su programa de televisión “cuanto temiento”, afirma que ha sido localizado por fin el hangar 18 del área 51, donde la CIA tiene ocultos los cuerpos de dos extraterrestres que vinieron a la tierra a participar en Eurovisión. Después de años de investigaciones, se ha descubierto que el peso de los extraterrestres sigue una distribución normal de parámetros desconocidos, y se sabe que 𝑷𝑷(𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 > 𝟐𝟐𝟐𝟐 𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌) = 𝟎𝟎. 𝟑𝟑, y 𝑷𝑷(𝒑𝒑𝒑𝒑𝒑𝒑𝒑𝒑 < 𝟐𝟐. 𝟓𝟓 𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌𝒌) = 𝟎𝟎. 𝟏𝟏. Calcular los parámetros de la citada distribución. SOLUCIÓN. Nos dicen que la variable 𝑋𝑋=”peso de los extraterrestres” ∈ 𝑁𝑁(𝜇𝜇, 𝜎𝜎), y que 𝑃𝑃(𝑋𝑋 > 20) = 0.3 𝑦𝑦 𝑃𝑃(𝑋𝑋 < 2.5) = 0.1 Tipificamos: 𝑋𝑋 − 𝜇𝜇, 2.5 − 𝜇𝜇 𝑋𝑋 − 𝜇𝜇, 20 − 𝜇𝜇 > � = 0.3 𝑦𝑦 𝑃𝑃 � < � = 0.1. 𝑃𝑃 � 𝜎𝜎 𝜎𝜎 𝜎𝜎 𝜎𝜎 Es decir 2.5 − 𝜇𝜇 20 − 𝜇𝜇 � = 0.7 𝑦𝑦 𝑃𝑃 �𝑍𝑍 < � = 0.1 𝑃𝑃 �𝑍𝑍 < 𝜎𝜎 𝜎𝜎 Buscando en las tablas de la distribución 𝑁𝑁(0,1) (o mejor en nuestra plantilla de la distribución normal) los cuantiles que verifican 𝑃𝑃(𝑍𝑍 < 𝑥𝑥1 ) = 0.7 y 𝑃𝑃(𝑍𝑍 < 𝑥𝑥2 ) = 0.1, obtenemos que 𝑥𝑥1 = 0.52 y 𝑥𝑥2 = −1.28.

pág. 207

Estadística fácil con hoja de cálculo

Por consiguiente,

obtiene

2.5 − 𝜇𝜇 20 − 𝜇𝜇 𝑦𝑦 − 1.28 = 𝜎𝜎 𝜎𝜎 Esto corresponde a un sistema de dos ecuaciones con dos incógnitas. Resolvemos y se 0.52 =

𝜇𝜇 = 14.94, 𝜎𝜎 = 9.72

Nota: cuando nos referimos a que este ejercicio es muy típico de exámenes, nos referimos a dar dos probabilidades y que pidan calcular 𝜇𝜇 y 𝜎𝜎, no nos referimos a que pongan problemas sobre extraterrestres.

pág. 208

Estadística fácil con hoja de cálculo

Un intervalo de confianza de nivel 𝛼𝛼 (donde 𝛼𝛼 es un número entre 0 y 1) para estimar un parámetro 𝜃𝜃 es un intervalo de valores (𝑎𝑎, 𝑏𝑏) que contiene al parámetro 𝜃𝜃 con probabilidad 1 − 𝛼𝛼, es decir 𝑃𝑃(𝜃𝜃 ∈ (𝑎𝑎, 𝑏𝑏)) = 1 − 𝛼𝛼. 𝛼𝛼 se llama nivel de significación. 1 − 𝛼𝛼 es el nivel de confianza. En general, 𝛼𝛼 es un número próximo a 0, con lo que 1 − 𝛼𝛼 está próximo a 1. Cojamos, por ejemplo, 𝛼𝛼 = 0.05. Que el parámetro 𝜃𝜃 esté en un intervalo con una confianza del 95% significa que, si dispusiéramos de todas las posibles muestras que pudiésemos extraer de la población, el 95% de ellas contendrían al parámetro, y habría un 5% de muestras que no lo contendrían (en vez de 95 léase (1 − 𝛼𝛼) ⋅ 100 para cualquier otro 𝛼𝛼). Los valores que, tradicionalmente, se suelen utilizar para el nivel de significación 𝛼𝛼 son 0.01,0.05 y 0.1. La manera general de construir, matemáticamente, un intervalo de confianza para un parámetro 𝜃𝜃, suele ser a través de un estadístico llamado pivote, con distribución conocida (como la normal, la 𝑡𝑡 de Student, la Chi-cuadrado o la 𝐹𝐹). Dicho estadístico pivote se utiliza también para realizar los contrastes de hipótesis para el parámetro 𝜃𝜃, que veremos en el siguiente capítulo. Los intervalos de confianza para un parámetro 𝜃𝜃 suelen tener la forma (𝜃𝜃� − 𝑣𝑣, 𝜃𝜃� + 𝑣𝑣), donde 𝜃𝜃� es un estimador de 𝜃𝜃 y 𝑣𝑣 es una cierta cantidad que depende del tamaño de la muestra y del nivel de significación 𝛼𝛼. Cuanto mayor sea el nivel de confianza 1 − 𝛼𝛼 que pretendamos, mayor longitud tendrá el intervalo. Análogamente, a menor nivel, menor longitud. Asimismo, cuanto mayor sea el tamaño de la muestra, menor será la longitud del intervalo. pág. 209

Estadística fácil con hoja de cálculo

Nota: si no se conoce nada acerca de lo que es un estadístico, o un estimador, o una muestra, consultar el libro “El estadístico accidental” (Quintela). INTERVALOS DE CONFIANZA PARA VARIABLES ALEATORIAS NORMALES Sea 𝑋𝑋 una variable aleatoria normal, que mide una característica de interés en una población, 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇, 𝜎𝜎). Exponemos, a continuación, cuáles son las fórmulas de los intervalos de confianza para los parámetros 𝜇𝜇 y 𝜎𝜎. Se parte de una muestra aleatoria simple (𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑛𝑛 ). INTERVALOS DE CONFIANZA PARA LA MEDIA 𝝁𝝁

Existen dos posibilidades para calcular un intervalo de confianza para el parámetro 𝜇𝜇: conocer la desviación típica o no conocerla. INTERVALO CONOCIENDO LA DESVIACIÓN TÍPICA 𝝈𝝈 El intervalo tiene la fórmula

�𝑥𝑥 − 𝑍𝑍𝛼𝛼/2

siendo

𝜎𝜎

√𝑛𝑛

, 𝑥𝑥 + 𝑍𝑍𝛼𝛼/2

𝜎𝜎

√𝑛𝑛

�,

𝑥𝑥1 +. . . +𝑥𝑥𝑛𝑛 𝑛𝑛 la media muestral, y 𝑍𝑍𝛼𝛼/2 el valor de una distribución 𝑁𝑁(0,1) que deja a su derecha 𝑥𝑥 =

es decir es el cuantil o valor que deja a la izquierda una probabilidad 1

𝛼𝛼 − . 2

𝛼𝛼 2

de área,

Este cuantil podemos calcularlo utilizando la plantilla distribucion-normal.xlsx, por medio de la cuarta gráfica que tenemos en la plantilla (Figura 98). En esta caso, hemos calculado el valor que deja a la derecha área 0.05 (o 0.1/2), que es 1.64. INTERVALO DESCONOCIENDO LA DESVIACIÓN TÍPICA

pág. 210

Estadística fácil con hoja de cálculo

Figura 98

Es muy dificil que, en un caso real, se tenga la información de cuál es la desviación típica teórica o verdadera σ de la población, por lo que el intervalo anterior no resulta, en la práctica, eficaz. Al desconocerse σ lo que se hace es estimarla a partir de una muestra, usando la cuasidesviación típica muestral. El intervalo que resulta utiliza la distribución 𝑡𝑡 de Student, vista en el capítulo anterior. El intervalo es

�𝑥𝑥 − 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2

𝑆𝑆̂𝑛𝑛−1 √𝑛𝑛

, 𝑥𝑥 + 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2

𝑆𝑆̂𝑛𝑛−1 √𝑛𝑛



siendo 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2 el valor de una 𝑡𝑡 de Student con 𝑛𝑛 − 1 grados de libertad que deja a la derecha 𝛼𝛼/2 de área (igual que en el caso anterior, es el cuantil que deja a la izquierda área o 𝛼𝛼 probabilidad 1 − , pero debemos buscar dicho valor en la densidad 𝑡𝑡 con 𝑛𝑛 − 1 grados de 2 libertad). 𝑆𝑆̂𝑛𝑛−1 es la cuasi-desviación típica muestral 𝑆𝑆̂𝑛𝑛−1

𝑛𝑛

1 =� � (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 𝑛𝑛 − 1 𝑖𝑖=1

Estos valores podemos buscarlos a partir de la plantilla distribucion-t-student.xlsx. En la Figura 99 vemos como calcular, en una 𝑡𝑡 de Student con 14 grados de libertad, el cuantil que deja a la derecha 0.05.

Figura 99

INTERVALO DE CONFIANZA PARA 𝝈𝝈 (PARA 𝝈𝝈𝟐𝟐 SIMPLEMENTE SE ELEVAN LOS VALORES AL CUADRADO)

pág. 211

Estadística fácil con hoja de cálculo

CONOCIENDO LA MEDIA 𝝁𝝁 La fórmula del intervalo es

∑𝑛𝑛𝑖𝑖=1 (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2 �� , 2 𝜒𝜒𝑛𝑛,𝛼𝛼/2

∑𝑛𝑛𝑖𝑖=1 (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2 �, � 2 𝜒𝜒𝑛𝑛,1−𝛼𝛼/2

2 siendo 𝜒𝜒𝑛𝑛,𝛼𝛼/2 el valor de una Chi-cuadrado, con 𝑛𝑛 grados de libertad, que deja a la derecha 𝛼𝛼/2 𝛼𝛼 de área (Figura 100), o cuantil que deja a su izquierda 1 − de área. 2 Estos valores podemos buscarlos en la plantilla distribucion-chi-cuadrado.xlsx. En la Figura 100 vemos como calcular, en una Chi-cuadrado con 12 grados de libertad, simultaneamente los valores que dejan a la izquierda y a la derecha 0.05/2 (0.05 en total) de área.

Figura 100

DESCONOCIENDO LA MEDIA Cuando la media teórica no se conoce, se estima mediante la media muestral. En este caso, la distribución Chi-cuadrado de referencia tiene un grado menos de libertad. El intervalo es: ∑𝑛𝑛 (𝑥𝑥𝑖𝑖 − 𝑥𝑥)2 �� 𝑖𝑖=12 , 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2

∑𝑛𝑛𝑖𝑖=1 (𝑥𝑥𝑖𝑖 − 𝑥𝑥)2 �, � 2 𝜒𝜒𝑛𝑛−1,1−𝛼𝛼/2

que puede escribirse en función de la varianza o cuasi-varianza muestral, del modo: 2 2 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 𝑛𝑛𝑆𝑆̂𝑛𝑛2 𝑛𝑛𝑆𝑆̂𝑛𝑛2 �� 2 ,� 2 � = �� 2 ,� 2 �, 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2 𝜒𝜒𝑛𝑛−1,1−𝛼𝛼/2 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2 𝜒𝜒𝑛𝑛−1,1−𝛼𝛼/2

2 siendo 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2 el valor de una Chi-cuadrado, con 𝑛𝑛 − 1 grados de libertad, que deja a la derecha 𝛼𝛼/2 de área. Evidentemente, los valores de la Chi-cuadrado se buscan en la misma plantilla que en el caso anterior.

Nota. Para calcular directamente los intervalos de confianza, no necesitamos usar las plantillas de las distribuciones citadas, puesto que los valores de los cuantiles mencionados los calcula ya directamente la propia plantilla. Más fácil, imposible. INTERVALOS PARA LA COMPARACIÓN DE POBLACIONES

pág. 212

Estadística fácil con hoja de cálculo

Ahora estamos interesados en comparar dos poblaciones o variables 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇𝑋𝑋 , 𝜎𝜎𝑋𝑋 ) e 𝑌𝑌 ∈ 𝑁𝑁(𝜇𝜇𝑌𝑌 , 𝜎𝜎𝑌𝑌 ), independientes, a través de dos muestras (𝑥𝑥1 , 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ) e (𝑦𝑦1 , 𝑦𝑦2 , . . . , 𝑦𝑦𝑚𝑚 ) (los tamaños de muestra no tienen por qué ser iguales). INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE MEDIAS Para dar un intervalo para 𝜇𝜇𝑋𝑋 − 𝜇𝜇𝑌𝑌 tenemos cuatro posibilidades. CONOCIENDO LAS DESVIACIONES TÍPICAS 𝝈𝝈𝑿𝑿 Y 𝝈𝝈𝒀𝒀 El intervalo es 𝜎𝜎𝑋𝑋2 𝜎𝜎𝑌𝑌2 �(𝑥𝑥 − 𝑦𝑦) ± 𝑍𝑍𝛼𝛼/2 � + �. 𝑛𝑛 𝑚𝑚

Podemos ver que este es un intervalo de la forma del usado para la media de una única muestra, pero ahora aparecen dos medias muestrales, dos tamaños muestrales y dos varianzas. DESCONOCIENDO LAS DESVIACIONES TÍPICAS PERO SUPONIENDO QUE SON IGUALES 2 2 1 1 + (𝑚𝑚 − 1)𝑆𝑆̂𝑚𝑚−1 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 �(𝑥𝑥 − 𝑦𝑦) ± 𝑡𝑡𝑛𝑛+𝑚𝑚−2,𝛼𝛼/2 � ⋅ � + �. 𝑛𝑛 + 𝑚𝑚 − 2 𝑛𝑛 𝑚𝑚

Si no conocemos la varianza (pero suponemos que las dos variables tienen la misma), entonces la estimamos. ¿Cómo? Pues mediante la muestra (𝑥𝑥1 , 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ) realizamos una 2 2 ; mediante la muestra (𝑦𝑦1 , 𝑦𝑦2 , . . . , 𝑦𝑦𝑚𝑚 ) realizamos una segunda estimación 𝑆𝑆̂𝑚𝑚−1 estimación 𝑆𝑆̂𝑛𝑛−1 y, a continuación, se toma la media ponderada (como ponderaciones usamos los tamaños muestrales): 2 2 + (𝑚𝑚 − 1)𝑆𝑆̂𝑚𝑚−1 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 . 𝑛𝑛 + 𝑚𝑚 − 2 Esta es una estimación de la varianza. Calculando la raíz cuadrada tenemos una estimación de la desviación típica. Ahora, en el intervalo de confianza, en vez de utilizar la variable 𝑍𝑍 o normal, utilizamos la 𝑡𝑡 de Student. DESCONOCIENDO LAS DESVIACIONES TÍPICAS Y SUPONIENDO QUE LOS TAMAÑOS DE LAS MUESTRAS SON GRANDES (𝒏𝒏, 𝒎𝒎 ≥ 𝟑𝟑𝟑𝟑) 2 2 𝑆𝑆̂𝑚𝑚−1 𝑆𝑆̂𝑛𝑛−1 � �(𝑥𝑥 − 𝑦𝑦) ± 𝑍𝑍𝛼𝛼/2 + � 𝑛𝑛 𝑚𝑚

Si los tamaños de muestra son grandes (y no se conocen las desviaciones típicas ni se puede suponer que sean iguales), entonces se aprovecha que la 𝑡𝑡 de Student se parece a la distribución normal, tanto más cuanto más grande es el número de grados de libertad. Por eso sale ahora un intervalo de confianza igual al del primer caso (donde conocíamos las varianzas), pero ahora no las conocemos y las sustituimos por sus estimaciones. DESCONOCIENDO LAS DESVIACIONES TÍPICAS Y SUPONIENDO QUE LOS TAMAÑOS DE LAS MUESTRAS SON PEQUEÑOS (𝒏𝒏, 𝒎𝒎 < 𝟑𝟑𝟑𝟑)

pág. 213

Estadística fácil con hoja de cálculo



siendo Δ el entero más próximo a

2 2 𝑆𝑆̂𝑚𝑚−1 𝑆𝑆̂𝑛𝑛−1 ⎞ + 𝑛𝑛 𝑚𝑚 ⎠

𝛼𝛼 � 𝑛𝑛+𝑚𝑚−2−Δ, 2

⎛(𝑥𝑥 − 𝑦𝑦) ± 𝑡𝑡

𝑆𝑆̂ 2 𝑆𝑆̂ 2 − (𝑛𝑛 − 1) 𝑚𝑚−1 � �(𝑚𝑚 − 1) 𝑛𝑛−1 𝑛𝑛 𝑚𝑚

2

2 2 2 𝑆𝑆̂ 2 𝑆𝑆̂𝑚𝑚−1 (𝑚𝑚 − 1) � 𝑛𝑛−1 + (𝑛𝑛 − 1) � � � 𝑛𝑛 𝑚𝑚

INTERVALO DE CONFIANZA PARA LA RAZÓN DE VARIANZAS El intervalo de confianza para la proporción o cociente de varianzas (𝜎𝜎𝑋𝑋2 /𝜎𝜎𝑌𝑌2 ) es 2 2 𝑆𝑆̂𝑚𝑚−1 𝑆𝑆̂𝑚𝑚−1 , 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1,𝛼𝛼/2 2 �, �𝐹𝐹𝑛𝑛−1,𝑚𝑚−1,1−𝛼𝛼/2 2 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑛𝑛−1 siendo 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1,𝛼𝛼/2 el valor de una F de Fisher-Snedecor, con 𝑛𝑛 − 1 y 𝑚𝑚 − 1 grados de libertad, 𝛼𝛼 que deja a la derecha 𝛼𝛼/2 de área (o sea el cuantil que deja a la izquierda 1 − 2 de área). Igual que en el caso de una única muestra, los cuantiles de de una distribución F de Fisher-Snedecor se pueden buscar en la plantilla distribución-F.xlsx, pero si queremos calcular los intervalos de confianza a través de dos muestras, no necesitaremos tampoco usarla.

CASO DE MUESTRAS RELACIONADAS O PAREADAS Puede darse el caso de que las muestras que tengamos no sean independientes, sino que estén relacionadas o pareadas (según los textos, aparece el término pareadas o apareadas). La diferencia entre muestras independientes o relacionadas es que, en el segundo caso, se dan dos mediciones de la misma o similar característica para cada individuo, o para dos individuos de idénticas características relevantes de la muestra. Por ejemplo, cuando observamos el peso de una serie de personas antes y después de realizar una dieta, o bien si de una serie de personas medimos las características peso y estatura, no podemos considerar que las muestras son independientes. En ambos casos tendríamos ejemplos de muestras apareadas. El tratamiento de este caso es muy sencillo. Si disponemos de dos muestras (deberán ser de igual tamaño) (𝑥𝑥1 , 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ) e (𝑦𝑦1 , 𝑦𝑦2 , . . . , 𝑦𝑦𝑛𝑛 ), de las variables 𝑋𝑋 ∈ 𝑁𝑁( 𝜇𝜇𝑋𝑋 , 𝜎𝜎𝑋𝑋 ) e 𝑌𝑌 ∈ 𝑁𝑁( 𝜇𝜇𝑌𝑌 , 𝜎𝜎𝑦𝑦 ), lo que haremos será trabajar con la variable de diferencias 𝐷𝐷 = 𝑌𝑌 − 𝑋𝑋 (o 𝑋𝑋 − 𝑌𝑌, es indiferente), y por tanto con una sola muestra (𝑑𝑑1 , 𝑑𝑑2 , . . . , 𝑑𝑑𝑛𝑛 ), donde 𝑑𝑑𝑖𝑖 = 𝑦𝑦𝑖𝑖 − 𝑥𝑥𝑖𝑖 . Lo que nos puede interesar será calcular intervalos de confianza o estimaciones de la media de la variable 𝐷𝐷 (o de su desviación típica). INTERVALOS PARA PROPORCIONES

INTERVALO PARA UNA PROPORCIÓN Supongamos que se mide una cierta característica 𝐴𝐴 en una población. Sea 𝑝𝑝 = 𝑃𝑃(𝐴𝐴) la proporción de elementos de la población con dicha característica. El parámetro 𝑝𝑝 se estima pág. 214

Estadística fácil con hoja de cálculo

puntualmente mediante la proporción muestral 𝑝𝑝̂ = (número de elementos con la carácterística 𝐴𝐴 en la muestra de tamaño 𝑛𝑛)/𝑛𝑛. El intervalo de confianza de nivel 𝛼𝛼 para el parámetro 𝑝𝑝 es de la forma 𝑝𝑝̂ (1 − 𝑝𝑝̂ ) �𝑝𝑝̂ ± 𝑍𝑍𝛼𝛼/2 � �, 𝑛𝑛

donde 𝑍𝑍𝛼𝛼/2 es el valor de una 𝑁𝑁(0,1) que deja a su derecha 𝛼𝛼/2 de área. INTERVALO DE CONFIANZA PARA LA DIFERENCIA DE PROPORCIONES Ahora suponemos dos poblaciones en donde se considera la misma característica 𝐴𝐴. 𝑝𝑝1 es la proporción de elementos con dicha característica en la primera población, y 𝑝𝑝2 es la proporción en la segunda población. Se toma una muestra de tamaño 𝑛𝑛1 de la primera población, y otra de tamaño 𝑛𝑛2 en la segunda, y se calculan las respectivas proporciones muestrales 𝑝𝑝̂1 y 𝑝𝑝̂2 . El intervalo de confianza para la diferencia 𝑝𝑝1 − 𝑝𝑝2 es 𝑝𝑝̂1 ⋅ (1 − 𝑝𝑝̂1 ) 𝑝𝑝̂2 ⋅ (1 − 𝑝𝑝̂2 ) �(𝑝𝑝̂1 − 𝑝𝑝̂ 2 ) ± 𝑍𝑍𝛼𝛼/2 ⋅ � + � 𝑛𝑛1 𝑛𝑛2

PROBLEMAS PROBLEMA 38 A través de los años, se sabe que los funcionarios de ventanilla tienen un rendimiento (horas) real en el trabajo cuya desviación típica es de 3. Para saber cómo están funcionando las nuevas medidas (recortes de salario, acoso laboral, ruido, cortes de luz, supresión de la calefacción, etc. ) del gobierno en el rendimiento medio, se ha realizado un estudio a 14 funcionarios a los que se les midió el rendimiento de trabajo de un dia cualquiera (rendimiento= horas ante el ordenador - horas mirando internet): (𝟑𝟑. 𝟐𝟐𝟐𝟐, 𝟒𝟒. 𝟓𝟓, 𝟏𝟏. 𝟐𝟐𝟐𝟐, 𝟐𝟐. 𝟓𝟓, 𝟓𝟓, 𝟐𝟐. 𝟓𝟓, 𝟑𝟑. 𝟓𝟓, 𝟐𝟐. 𝟑𝟑, 𝟓𝟓. 𝟐𝟐𝟐𝟐, 𝟑𝟑. 𝟏𝟏, 𝟏𝟏. 𝟖𝟖, 𝟐𝟐, 𝟑𝟑, 𝟒𝟒) Calcular un intervalo de confianza para el tiempo medio de rendimiento, al 90 por ciento de confianza. SOLUCIÓN. Como el intervalo de confianza para la media (cuando la desviación típica es conocida, que en este caso es 3) es 𝜎𝜎 𝜎𝜎 �𝑥𝑥̅ − 𝑍𝑍𝛼𝛼/2 ⋅ , 𝑥𝑥̅ + 𝑍𝑍𝛼𝛼/2 ⋅ �, √𝑛𝑛 √𝑛𝑛 tenemos que calcular 𝑥𝑥̅ = 3.139, 𝛼𝛼 = 1 − 0.9 = 0.1 ⇒ 𝑍𝑍𝛼𝛼/2 = 1.645, y el intervalo sale 3 3 , 3.139 + 1.645 ⋅ � = (1.82, 4.458) �3.139 − 1.645 ⋅ √14 √14 Como podemos observar en la Figura 101, este intervalo se realiza en la plantilla ICmedia-varianza.xlsx introduciendo los datos en la columna de la izquierda (acordándose de borrar los que puedan estar en la plantilla de usos anteriores), y automáticamente se obtienen los resultados de la media muestral, el valor de 𝑍𝑍𝛼𝛼/2 (indicando el valor de 𝛼𝛼, lógicamente), y el intervalo de confianza, sin necesidad de hacer ningún cálculo.

pág. 215

Estadística fácil con hoja de cálculo

Figura 101

PROBLEMA 39 En la imagen de la Ilustración 4 podemos observar el sueldo de los 30 ejecutivos mejor pagados en España durante 2013 (Fuente: El país, 09/05/2014). Estos datos ya los usamos en el Capítulo 1. De nuevo, vamos a suponer que el sueldo medio actual teórico es, más o menos, el medio entre estas 30 personas “cualesquiera” , es decir, 4.75 (millones de euros anuales). Calcular un intervalo de confianza para la desviación típica al 95 por ciento, de manera que podemos hacernos unas estimaciones para el próximo año de sueldos máximos y mnimos (media más menos 3 veces la desviación típica, suponiendo normalidad), cuando nos ofrezcan un trabajo de reponedor en cualquier superficie comercial de barrio. SOLUCIÓN. Como los datos muestrales son los que aparecen en la imagen, el intervalo de confianza para la desviación típica tiene la forma (conocemos la media 𝜇𝜇 = 4.75): ∑𝑛𝑛 (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2 ∑𝑛𝑛 (𝑥𝑥𝑖𝑖 − 𝜇𝜇)2 �� 𝑖𝑖=1 2 , � 𝑖𝑖=12 �, 𝜒𝜒𝑛𝑛,𝛼𝛼/2 𝜒𝜒𝑛𝑛,1−𝛼𝛼/2

2 siendo 𝜒𝜒𝑛𝑛,𝛼𝛼/2 el valor de una Chi-cuadrado con 𝑛𝑛 = 30 grados de libertad que deja a la derecha 2 2 2 𝛼𝛼/2 = (1 − 0.95)/2 = 0.025 de área. En este caso, 𝜒𝜒𝑛𝑛,𝛼𝛼/2 = 𝜒𝜒30,0.025 = 46.979 y 𝜒𝜒30,0.0975 = 16.791. El intervalo es

pág. 216

Estadística fácil con hoja de cálculo

Ilustración 4

62.226 62.226 �� ,� � = (1.150, 1.925). 46.979 16.791

En la Figura 102 vemos que, al introducir los datos en la primera columna de la plantilla IC-media-varianza.xlsx, y los datos de la media teórica y de 𝛼𝛼 (envueltos en círculos en la primera tabla), ya se obtienen directamente los valores que habría que calcular y el correspondiente intervalo de confianza (rodeados por círculos).

Figura 102

PROBLEMA 40 Para tratar de estimar la media de consumo por cliente, el dueño de un restaurante que acaba de abrir decide hacer una estimación a partir de sus primeros 49 clientes, pág. 217

Estadística fácil con hoja de cálculo

obteniéndose una media de gasto de 22.60 euros y una cuasi-desviación típica muestral de 2.50 euros. Con un coeficiente de confianza del 95%, calcular un intervalo de confianza para la media, y otro para la dispersión del gasto. SOLUCIÓN. El Intervalo de confianza para la media es (dado que no conocemos la desviación típica teórica) 𝑠𝑠̂𝑛𝑛−1 𝑠𝑠̂𝑛𝑛−1 , 𝑥𝑥̅ + 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2 �. �𝑥𝑥̅ − 𝑡𝑡𝑛𝑛−1,1−𝛼𝛼/2 √𝑛𝑛 √𝑛𝑛 En este caso, 𝑥𝑥̅ = 22.6, 𝑠𝑠̂𝑛𝑛−1 = 2.50 y 𝑡𝑡𝑛𝑛−1,1−𝛼𝛼/2 corresponde a 𝑡𝑡48,1−𝛼𝛼/2, = 2.011 (𝛼𝛼 =

0.05). El intervalo de confianza es (22.6 ± 2.0.11 ⋅

2.5

√49

) = (21.882, 23.318).

Para la desviación típica, el intervalo es (como no conocemos la media teórica): 2 2 (𝑛𝑛 − 1) ⋅ 𝑆𝑆̂𝑛𝑛−1 (𝑛𝑛 − 1) ⋅ 𝑆𝑆̂𝑛𝑛−1 �� , �, � 2 2 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2 𝜒𝜒𝑛𝑛−1,1−𝛼𝛼/2

2 2 2 2 donde 𝜒𝜒𝑛𝑛−1,𝛼𝛼/2 = 𝜒𝜒48, 0.05 = 69.023. 𝜒𝜒𝑛𝑛−1,1−,𝛼𝛼/2 = 𝜒𝜒 0.05 = 30.755, de forma que el 48,1− 2

intervalo para la dispersión queda

2

48 ⋅ 2. 52 48 ⋅ 2. 52 ,� � = (√4.346, √9.754) = (2.084,3.123). �� 69.023 30.755

Con la plantilla de Excel (Figura 103), únicamente introduciendo los datos que nos dan (en círculos en la columna de la izquierda), obtenemos los resultados que nos hacen falta y los intervalos (segunda y tercera columna).

Figura 103

Por sacar alguna conclusión, y suponiendo que esos 49 primeros clientes suponen una muestra aleatoria representativa del resto de clientes a lo largo del tiempo, si usamos los límites superiores de ambos intervalos, el dueño del restaurante podría esperarse (pensando en optimista) una media de gasto de 23.31 euros + dos o tres veces la desviación típica (3.12). Es decir, siendo muy

pág. 218

Estadística fácil con hoja de cálculo

optimista 23.31 + 3 ∙ 3.12 = 32.67 euros. O sea, que no se espere gran cosa el bueno del emprendedor, que lo mismo está muy mal el barrio por la crisis (o bien ha puesto el restaurante en un barrio de cutres). En caso de desesperación, siempre le quedará llamar a Chicote.

PROBLEMA 41 Las intervenciones de Hugo Chuávez en el programa “aló presidente” eran famosas por su duración. Aquí tenemos una muestra aleatoria de la duración (horas) de algunas de sus intervenciones: (𝟔𝟔. 𝟗𝟗, 𝟕𝟕. 𝟔𝟔, 𝟔𝟔. 𝟓𝟓, 𝟔𝟔. 𝟐𝟐, 𝟓𝟓. 𝟑𝟑, 𝟕𝟕. 𝟖𝟖, 𝟕𝟕, 𝟓𝟓. 𝟓𝟓, 𝟕𝟕. 𝟔𝟔, 𝟔𝟔. 𝟕𝟕, 𝟕𝟕. 𝟔𝟔, 𝟕𝟕. 𝟏𝟏, 𝟔𝟔, 𝟑𝟑, 𝟔𝟔. 𝟔𝟔, 𝟕𝟕. 𝟏𝟏, 𝟔𝟔. 𝟗𝟗, 𝟔𝟔, 𝟔𝟔. 𝟖𝟖, 𝟔𝟔. 𝟓𝟓, 𝟕𝟕. 𝟐𝟐, 𝟓𝟓. 𝟖𝟖, 𝟖𝟖. 𝟔𝟔, 𝟕𝟕. 𝟐𝟐, 𝟕𝟕. 𝟕𝟕) Calcular un intervalo de confianza para la media de horas de duración de los discursos, al 95 por ciento.

SOLUCIÓN. En este caso, tendríamos que calcular los datos necesarios para calcular un intervalo de confianza para la media (desconociendo la desviación típica teórica): 𝑠𝑠̂𝑛𝑛−1 𝑠𝑠̂𝑛𝑛−1 �𝑥𝑥̅ − 𝑡𝑡𝑛𝑛−1,1−𝛼𝛼/2 , 𝑥𝑥̅ + 𝑡𝑡𝑛𝑛−1,𝛼𝛼/2 �. √𝑛𝑛 √𝑛𝑛 Lo que hacemos es introducir los datos en la columna izquierda de la plantilla de Excel e indicar el nivel 𝛼𝛼 = 0.05, y ya va todo mucho más rápido (al menos más rápido que en un discurso de Chuávez).

Figura 104

pág. 219

Estadística fácil con hoja de cálculo

Según podemos ver en la Figura 104, el intervalo es (6.5392, 7.180) PROBLEMA 42 En un sanatorio psiquiátrico acaban de inventar un nuevo test para evaluar, ante la llegada de enfermos graves y peligrosos, si deben aplicarle terapia (electroshock) o aislarlo en una celda casi de por vida. Para ello, le van a preguntar cuántas veces ha sido capaz de ver “2001, una odisea del espacio” o “Memento” (cualquiera de las dos películas tiene los mismos efectos). Para discriminar qué número es grande, eligen una muestra aleatoria de enfermos del bloque de los gafapasta sin remedio, y anotan el número de veces que vieron alguna de las dos películas: (38, 25, 42, 21, 36, 55, 29, 44, 31, 40, 26, 34). Calculando intervalos de confianza para la media y la desviación típica, los médicos van a utilizar el extremo superior como valor alto para aplicar electroshock, y dos veces dicho valor para encerrar al enfermo. Para una confianza del 95 por ciento, ¿de qué valores hablamos? SOLUCIÓN. En la Figura 105 vemos el resultado de introducir en la plantilla la columna con los datos. La estimación de la desviación típica viene dada por la cuasi-desviación típica muestral 𝑠𝑠̂𝑛𝑛−1 = 9.51, y el intervalo de confianza para la desviación típica es (6.737,16.147).

Figura 105

Como el intervalo de confianza para la media es (29.04, 41.12), los médicos deciden poner los siguientes lmites: 41.12 + 16.147 = 57.26 (sobre 57 veces para aplicar electroshock) 41.12 + 2 ⋅ 16.147 = 73.41 (sobre 73 veces para aislamiento) PROBLEMA 43 Cuando, al poco tiempo de empezar la democracia en España, salió al mercado la revista Interviú, la gran mayoría de la gente decía que la compraba por la política, no por las mujeres desnudas. Hoy en día, dicha revista continúa en el mercado, y es habitual en las barberías de caballeros para amenizar las esperas. La empresa encuestadora Chisma-2 ha entrevistado a una muestra de 200 caballeros saliendo de la barbería, preguntándoles si leen el Interviú fundamentalmente por la política. 184 carotas (digo, caballeros) contestaron que sí. En base a estos datos, construir un intervalo de confianza (al 95 por ciento) para la proporción de mentirosos (que van a las peluqueras no mixtas) de este país. SOLUCIÓN.

pág. 220

Estadística fácil con hoja de cálculo

El intervalo de confianza para una proporción es

En este caso, 𝑝𝑝̂ =

184 200

𝑝𝑝̂ (1 − 𝑝𝑝̂ ) �. �𝑝𝑝̂ ± 𝑍𝑍𝛼𝛼/2 � 𝑛𝑛

= 0.92, 𝑍𝑍𝛼𝛼/2 = 1.96, 𝑛𝑛 = 200. El intervalo sale:

184 184 184 184 ⋅ (1 − 200) 184 ⋅ (1 − 200) 184 � � 200 200 − 1.96 ⋅ , + 1.96 ⋅ � � = (0.8824,0.9576), 200 200 200 200

es decir, el intervalo va del 88.24 al 95.76 por ciento. Para calcular el intervalo con poco esfuerzo, podemos usar la plantilla IC-proporciones.xlsx. Los datos que nos dan los introducimos en la primera tabla (en círculos), y los resultados aparecen en la segunda (Figura 106).

Figura 106

PROBLEMA 44 Con los datos del ejercicio anterior, se pretende repetir la experiencia para conseguir que la cota del error que se comete al estimar, por un intervalo de confianza, la proporción de gente que lee interviú, no precisamente por la poltica, no sea superior a 0,03, con un nivel de confianza del 99%. ¿Cuántas personas tendran que tomar, como mnimo, en la muestra? SOLUCIÓN. Con una probabilidad de 0.99, queremos que el error no exceda el 3 por ciento, es decir se requiere calcular 𝑛𝑛 tal que |𝑝𝑝 − 𝑝𝑝̂ | ≤ 0.05. Como 𝑝𝑝̂ (1 − 𝑝𝑝̂ ) |𝑝𝑝 − 𝑝𝑝̂ | ≤ 𝑍𝑍𝛼𝛼/2 � , 𝑛𝑛 tendremos que (si 1 − 𝛼𝛼 = 0.99 ⇒ 𝑍𝑍𝛼𝛼/2 = 2.64),

𝑝𝑝̂ (1 − 𝑝𝑝̂ ) 0.92(1 − 0.92) ≤ 0.03 ⇔ 2.64� ≤ 0.03 ⇔ 𝑍𝑍𝛼𝛼/2 � 𝑛𝑛 𝑛𝑛 ⇔ 𝑛𝑛 ≥

2.642 ⋅ 0.92 ⋅ 0.08 = 569.96. 0.0009

Por lo tanto, 𝑛𝑛 ha de ser mayor o igual a 570.

pág. 221

Estadística fácil con hoja de cálculo

PROBLEMA 45 Un grupo de estudiantes de ADE+Derecho Erasmus van a Roma. Un catedrático un poco cabroncete les ha mandado fotografiarse con un grupo de personas que supieran hablar romano (o latín, que el catedrático les ha dicho que era lo mismo). Tras buscar y buscar, logran encontrar a 10 personas que lo hablan (curas del vaticano que están de permiso). Dado que se pasaron toda la tarde y preguntaron a 3000 personas, calcular un intervalo de confianza al 95 por ciento para la cantidad de gente que habla romano en Roma (o de curas del vaticano que van sin sotana por Roma). SOLUCIÓN.

10 3000

El intervalo de confianza para una proporción es �𝑝𝑝̂ ± 𝑍𝑍𝛼𝛼/2 �

𝑝𝑝�(1−𝑝𝑝�) �. 𝑛𝑛

En este caso, 𝑝𝑝̂ =

= 0.0033. Introduciendo estos datos en la plantilla (con 𝛼𝛼 = 0.05), obtenemos la tabla de la Figura 107, donde vemos que el intervalo de confianza es (0.0013,0.0054), es decir va del 0.13 al 0.54 por ciento.

Figura 107

PROBLEMA 46 En Hollywood existe bastante confusión entre los actores Javier Bardem y Jeffrey Dean Morgan. Se elige por la calle aleatoriamente a 100 personas, y se les enseña una foto de Bardem, pidiéndoles que marquen una casilla según quien crean que es. 52 personas aciertan. Se hace lo mismo con otras 100 personas a las que se les enseña una foto de Jeffrey Dean Morgan, y sólo 53 personas aciertan. ¿Crees que a lo mejor son la misma persona?

pág. 222

Estadística fácil con hoja de cálculo

¿Quién es Quien?

SOLUCIÓN. Denotamos por 𝑝𝑝1 la proporción de gente que reconoce correctamente a Javier Bardem, y 𝑝𝑝2 el porcentaje de gente que reconoce correctamente a Jeffrey Dean Morgan. El intervalo de confianza para la diferencia 𝑝𝑝1 − 𝑝𝑝2 es �(𝑝𝑝̂1 − 𝑝𝑝̂2 ) ± 𝑍𝑍𝛼𝛼/2 �

𝑝𝑝�1 ∙(1−𝑝𝑝�1 ) 𝑝𝑝� ∙(1−𝑝𝑝�2 ) + 2 �. 𝑛𝑛1 𝑛𝑛2

Vamos a elegir un nivel de confianza del 95 por ciento, es decir 𝑍𝑍𝛼𝛼/2 = 1.96. Tenemos

que 𝑝𝑝̂1 =

52 , 100

𝑝𝑝̂2 =

53 , 𝑛𝑛 100 1

= 𝑛𝑛2 = 100. El intervalo de confianza es

52 52 53 53 52 53 �100 ∙ (1 − 100) 100 ∙ (1 − 100) − ) ± 1.96 + �( � = (−0.1484,0.1284). 100 100 100 100

Como vemos, la proporción de gente que reconoce correctamente a Bardem puede coincidir con la proporción de gente que reconoce correctamente a J.D. Morgan (puesto que el intervalo de confianza contiene al cero). O, lo que es lo mismo, la proporción de gente que se equivoca (creyéndose que es la otra persona) pueden coincidir. Si estuviésemos en un programa de Iker Jiménez, tendríamos que exigir un análisis de ADN a ambos actores. Como aquí no llegamos a eso, tendremos que fiarnos de lo que dicen los periódicos y creer que son personas distintas, porque tampoco me imagino a nadie que conozca en persona a los dos actores y que esté necesitado de leer este libro. PARECIDOS RAZONABLES

PROBLEMA 47

pág. 223

Estadística fácil con hoja de cálculo

Para que quede constancia de la popularidad del noble arte de cuchares dentro de la farándula nacional, aquí van los siguientes datos. En las plazas de España y Francia que celebraron corridas de toros en 1999 y 2000, se obtuvieron los siguientes resultados: Orejas Rabo Cuernos España 900 971 5588 Francia 51 120 145 (había un toro manco) En España se lidiaron 7250 toros y en Francia 334. Con estos datos, el ministro Wert logró hacer gala de la marca España ante los avergonzados franceses, que sólo supieron presentar cifras de mayor calidad educativa en la universidad y en la investigación. A la vista de estos datos, y con respecto a los cuernos, ¿es mayor o menor la proporción de cuernos por corrida en España o en Francia? Con respecto a los rabos franceses y españoles, ¿puede afirmarse que la proporción de rabos por corrida es mayor en España que en Francia? SOLUCIÓN. Llamemos 𝑝𝑝1 la proporción de cuernos por corrida en España, y 𝑝𝑝2 la proporción de 5585 145 cuernos en Francia.Tenemos que 𝑝𝑝̂1 = , 𝑝𝑝̂2 = . El intervalo de confianza para la 7250 334 diferencia 𝑝𝑝1 − 𝑝𝑝2 es 5585 5585 145 145 ⎛ 5585 145 �7250 ∙ (1 − 7250) 334 ∙ (1 − 334)⎞ = ⎜� − � ± 1.96 ∙ + ⎟ = (0.2822,0.3902), 334 7250 7250 334

⎝ ⎠ que puede calcularse directamente en la plantilla, según vemos en la Figura 108. Esto es, entre el 28.22 por ciento y el 39.02 por ciento de diferencia, nada menos. Con respecto a los rabos, llamando ahora 𝑝𝑝1 la proporción de rabos por corrida en 971 España, y 𝑝𝑝2 la proporción de rabos por corrida en Francia, tenemos que 𝑝𝑝̂1 = = 0.134, 7250

120

= 0.359. Introducimos estos datos en la plantilla y los resultados de la Figura 109 nos 𝑝𝑝̂2 = 334 proporcionan directamente el intervalo de confianza (−0.2774, −0.1733).

Figura 109

Figura 108

pág. 224

Estadística fácil con hoja de cálculo

Aquí observamos que la diferencia de proporciones es negativa, es decir, que aunque los españoles tenemos más rabos por corrida, en proporción nos ganan los franceses.

PROBLEMA 48 El número de fotos de famosas desnudas que consigue un Hacker a través de teléfonos Sifones se distribuye según una distribución N(300;𝝈𝝈𝒊𝒊 ), para 𝒊𝒊 = 𝟏𝟏, 𝟐𝟐, dependiendo de la versión de software de primer o segundo año. De teléfonos con software del primer año consigue hackear 10 teléfonos de sendas famosas, obteniendo el siguiente número de fotografías: 300, 290, 280, 307, 305, 295, 299, 305, 300, 307. Del segundo año hackea 12 teléfonos y consigue las siguientes fotos: 280, 300, 307, 290, 285, 295, 300, 260, 290, 300,304, 298. Hallar un intervalo del 90% para el cociente de varianzas. SOLUCIÓN. El intervalo de confianza para la razón de varianzas es 2 2 𝑆𝑆̂𝑚𝑚−1 𝑆𝑆̂𝑚𝑚−1 , 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1,𝛼𝛼/2 2 �. �𝐹𝐹𝑛𝑛−1,𝑚𝑚−1,1−𝛼𝛼/2 2 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑛𝑛−1 Aquí, 𝑛𝑛 = 10; 𝑚𝑚 = 12; 𝑆𝑆̂𝑛𝑛−1 = 8.561; 𝑆𝑆̂𝑚𝑚−1 = 12.894. Los valores de la distribución 𝐹𝐹 son 𝐹𝐹9,11,0.025 = 0.322; 𝐹𝐹 0.05 = 2.896. Por lo tanto, el intervalo de confianza es

9,11,1−

2

12.894 12.894 , 2.896 ⋅ � = (0.731,6.57). 8.561 8.561 En la Figura 110 tenemos los resultados al meter en la plantilla los datos de las dos variables (segundo cuadro en la segunda fila). �0.322 ⋅

pág. 225

Estadística fácil con hoja de cálculo

Figura 110

PROBLEMA 49 Con objeto de estudiar si una marca de lencería que se produce en fábricas del tercer mundo es menos abusiva que una marca de churros que produce en la misma región, se cuentan el número de accidentes mensuales en cada una de las fábricas. Fábrica 1

74

77

71

76

79

74

83

79

83

72

79

77

81

79

Fábrica 2

81

84

80

73

78

80

82

84

80

84

75

82

79

82

84

82

Calcular un intervalo de confianza para la diferencia de medias entre accidentes en la fábrica de lencería y la fábrica de churros, suponiendo que las varianzas de cada grupo son iguales. Usar 𝜶𝜶 = 𝟎𝟎. 𝟎𝟎𝟎𝟎. SOLUCIÓN. El intervalo de confianza para la diferencia de medias, suponiendo que las varianzas por grupos son iguales, es: 1 1 �(𝑥𝑥 − 𝑦𝑦) ± 𝑡𝑡𝑛𝑛+𝑚𝑚−2,𝛼𝛼 ∙ 𝑆𝑆̂𝑇𝑇 ∙ � + � =

= �(𝑥𝑥 − 𝑦𝑦) ± 𝑡𝑡𝑛𝑛+𝑚𝑚−2,𝛼𝛼/2 �

2

2

pág. 226

𝑚𝑚

2 +(𝑚𝑚−1)𝑆𝑆̂ 2 (𝑛𝑛−1)𝑆𝑆̂𝑛𝑛−1 1 𝑚𝑚−1 � 𝑛𝑛+𝑚𝑚−2 𝑛𝑛

Los resultados que se obtienen son: Grupo A: 𝑛𝑛 = 16, 𝑥𝑥 = 78.125, 𝑆𝑆̂𝑛𝑛−1 = 3.981 Grupo B: 𝑚𝑚 = 14, 𝑦𝑦 = 80.286, 𝑆𝑆̂𝑚𝑚−1 = 3.268. 𝑡𝑡𝑛𝑛+𝑚𝑚−2,𝛼𝛼/2 = 𝑡𝑡28,0.05 = 2.048. La desviación típica del total es:

𝑛𝑛

1

+ �. 𝑚𝑚

Estadística fácil con hoja de cálculo

15 ⋅ 3.9812 + 13 ⋅ 3.2682 1 1 𝑆𝑆̂𝑇𝑇 = � ⋅� + = 3.667 ⋅ 0.366 = 1.3421. 28 16 14

Haciendo los cálculos, el intervalo de confianza resulta: (−4.910,0.589). Como vemos, el intervalo de confianza para la diferencia de medias contiene al cero, con lo que, con esta muestra, no podemos afirmar que el número medio de accidentes sea diferente según la fábrica. PROBLEMA 50 Resolver el ejercicio anterior suponiendo que no sabemos que las desviaciones típicas teóricas sean iguales. SOLUCIÓN. Suponiendo que las varianzas (o desviaciones típicas) no son iguales, el intervalo de confianza es (dado que los tamaños de muestra son menores que 30): 2 𝑆𝑆̂𝑛𝑛−1 𝑛𝑛

�(𝑥𝑥 − 𝑦𝑦) ± 𝑡𝑡𝑛𝑛+𝑚𝑚−2−Δ,𝛼𝛼/2 �

+

2 𝑆𝑆̂𝑚𝑚−1 �, 𝑚𝑚

con Δ el entero más próximo a la fórmula monstruo (qué terrible es, dios mío...) 2 2 2 2 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑚𝑚−1 3.2682 3.9812 �(𝑚𝑚 − 1) 𝑛𝑛 − (𝑛𝑛 − 1) 𝑚𝑚 � �13 ⋅ � 16 � − 15 ⋅ � 14 �� = 2 2 = 0.0957. 2 2 2 2 3.9812 3.2682 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑚𝑚−1 13 ⋅ � 16 � + 15 ⋅ � 14 � (𝑚𝑚 − 1) � 𝑛𝑛 � + (𝑛𝑛 − 1) � 𝑚𝑚 �

Figura 111

que, como podemos ver, nos evitamos calcular, mirando en el resultado de la plantilla (Figura 111, columna cuarta), que aparece ampliada en la Figura 112. En consecuencia, Δ = 1, y el valor de 𝑡𝑡 es 𝑡𝑡28−1,0.025 = 2.048. Como 𝑆𝑆̂ 2 3.9812 3.2682 𝑆𝑆̂ 2 � 𝑛𝑛−1 + 𝑚𝑚−1 = � + = 1.3 𝑛𝑛 𝑚𝑚 16 14 que también nos la da la plantilla, igual que el intervalo final: (−4.873, 0.552).

Molan las plantillas, ¿verdad?

Figura 112

pág. 227

Estadística fácil con hoja de cálculo

Nota: La teoría de este capítulo está bastante más desarrollada en el libro “El estadístico accidental” (Quintela, 2013). Una hipótesis estadística es una afirmación que se hace sobre una o más características de una población (decir que la vida media de un televisor son tantas horas, que un determinado producto hace adelgazar, que a la gente le gusta mayoritariamente el morbo...). Un test o contraste de hipótesis es algún procedimiento para aceptar o rebatir dicha hipótesis o afirmación. Los contrastes pueden ser de tipo paramétrico o no paramétrico, según se refieran o no a parámetros de una población (a la media, a la varianza, a una proporción...).

pág. 229

Estadística fácil con hoja de cálculo

Una hipótesis paramétrica es una afirmación sobre una o más características (parámetros) de una población. Si dicha hipótesis especifica un único valor para el parámetro la llamaremos hipótesis simple. Ejemplo: la estatura media de los varones españoles mayores de 18 años es 1.77 m (𝜇𝜇 = 1.77). Si se especifica más de un valor para el parámetro la llamaremos hipótesis compuesta. Ejemplo: 𝜇𝜇 ≥ 1.75. Ejemplos de hipótesis no paramétricas: - Las notas de una asignatura son normales (la variable 𝑋𝑋=“nota” sigue una distribución normal). - Los resultados de un sorteo no son aleatorios (la variable 𝑋𝑋=“resultado” no sigue una distribución uniforme). El planteamiento de una hipótesis estadística (y su alternativa) es una primera forma de afrontar la llamada teoría estadística de la decisión. Así, por medio de un test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos alternativas. La manera de hacerlo será elegir una muestra lo suficientemente representativa de la población en estudio, y ver si los resultados que se obtienen son coherentes con la hipótesis formulada. Por ejemplo, cuando queremos comprobar si las notas de una asignatura siguen una distribución normal, una posible forma de tomar una decisión sería representar los resultados de un examen por medio de un histograma de frecuencias y chequear el parecido con la campana de Gauss., o también calcular la curtosis y ver si está próxima a cero. Lógicamente, al tomar una muestra siempre habrá desviaciones conforme a la base teórica que planteemos. Lo que habrá que estudiar es si esas desviaciones son fruto de la casualidad o no. La realización de un contraste implica la existencia de dos hipótesis: • Hipótesis nula. Se denota por 𝐻𝐻0 , y se asume como correcta. • Hipótesis alternativa. Se denota por 𝐻𝐻1 , y es la que pretendemos contrastar como opuesta a la hipótesis nula.

En ocasiones, la hipótesis nula se llama “de igualdad”, porque se presupone que es la hipótesis que cumple la población, y la alternativa ha de demostrar lo contrario. La hipótesis nula es la que el investigador asume como correcta, y se trabaja con el principio básico de que es cierta mientras los datos no prueben con gran certidumbre lo contrario. Ahora bien, tras realizar un test o contraste, la aceptación de 𝐻𝐻0 no implica que ésta haya sido probada al 100 por 100, sino que los datos no han proporcionado evidencia suficiente como para refutarla. En este sentido, la consideraremos neutra pero nunca totalmente probada. Es habitual poner como ejemplos de hipótesis nula y alternativa las siguientes: a) Una persona llega a un hospital. 𝐻𝐻0 : enfermo. 𝐻𝐻1 : no enfermo. b) Un acusado en un juicio. 𝐻𝐻0 : inocente. 𝐻𝐻1 : culpable. Obviamente, hemos indicado dos problemas que, generalmente, no se resuelven con ayuda de las matemáticas. Sin embargo, los ejemplos nos van a servir perfectamente para ilustrar los diferentes conceptos y técnicas de trabajo que tendremos que desarrollar en un análisis numérico - estadístico. Centrémonos en el caso b) y recordemos lo dicho un par de parráfos más arriba. La hipótesis nula (en este caso 𝐻𝐻0 : inocente) es cierta mientras no se pruebe lo contrario. Es el principio básico de la justicia en todo país civilizado. Está claro que para demostrar lo contrario hay que presentar un buen número de pruebas que la tiren por tierra. ¿Cómo se procede? Como todos sabemos, un jurado popular o profesional analiza las pruebas presentadas contra el acusado y toma una decisión. Las pruebas presentadas por el fiscal son las que muestran evidencia a favor de 𝐻𝐻1 : culpable. Serían el arma del crimen, las pág. 230

Estadística fácil con hoja de cálculo

huellas, los testigos, la cara de malo del sospechoso, los vecinos que siempre sospecharon de él porque les parecía raro, sus dudas, la autoinculpación en un primer interrogatorio (esto no suele contar si hay hematomas por el medio)... Por medio de un test o contraste de hipótesis, el investigador deberá tomar una decisión entre dos alternativas. La manera de hacerlo será elegir una muestra lo suficientemente representativa de la población en estudio, y ver si los resultados que se obtienen son coherentes con la hipótesis formulada. Cuando estamos realizando un contraste pueden darse las situaciones que vemos en la siguiente tabla

RECHAZO

𝐻𝐻0 𝐻𝐻1

REALIDAD 𝐻𝐻0 𝐻𝐻1 Error tipo I Decisión correcta Decisión Correcta Error tipo II

Denotamos por: 𝛼𝛼 =P(rechazar 𝐻𝐻0 siendo cierta)=P(Error tipo I). 𝛼𝛼 se llama nivel de significación del contraste. 𝛽𝛽 =P(aceptar 𝐻𝐻0 siendo falsa)=P(Error tipo II). 1-𝛽𝛽 = 𝑃𝑃(rechazar 𝐻𝐻0 siendo falsa) se llama Potencia del contraste probabilidad de acertar cuando rechazamos 𝐻𝐻0 ).

(mide la

TEST O CONTRASTES DE TIPO PARAMÉTRICO

Una hipótesis paramétrica es una afirmación sobre una o más características (parámetros) de una población. Si dicha hipótesis especifica un único valor para el parámetro la llamaremos hipótesis simple. Ejemplo: la estatura media de los varones españoles mayores de 18 años es 1.77 m (𝜇𝜇 = 1.77). Si se especifica más de un valor para el parámetro la llamaremos hipótesis compuesta. Ejemplo: 𝜇𝜇 ≥ 1.75. Un contraste es bilateral cuando tiene la forma 𝑯𝑯𝟎𝟎 : 𝜃𝜃 = 𝜃𝜃0 (Por 𝜃𝜃 nos referimos a un parámetro teórico y por 𝜃𝜃0 a un valor constante, un número) frente a 𝑯𝑯𝟏𝟏 : 𝜃𝜃 ≠ 𝜃𝜃0 . Un contraste unilateral es de la forma: 𝑯𝑯𝟎𝟎 : 𝜃𝜃 = 𝜃𝜃0 frente a 𝑯𝑯𝟏𝟏 : 𝜃𝜃 > 𝜃𝜃0 o bien 𝑯𝑯𝟎𝟎 : 𝜃𝜃 = 𝜃𝜃0 frente a 𝑯𝑯𝟏𝟏 : 𝜃𝜃 < 𝜃𝜃0 . EJEMPLOS: Con el mayor consumo de chucherías y comida basura, parece que el peso medio de los niños de 12 años ha aumentado. Contraste unilateral 𝐻𝐻0 : 𝜇𝜇 = 26 kg frente a 𝐻𝐻1 : 𝜇𝜇 > 26 El nuevo virus zombi ha provocado una alteración en el peso de los adultos. Contraste bilateral: 𝐻𝐻0 : 𝜇𝜇 = 60 kg frente a 𝐻𝐻1 : 𝜇𝜇 ≠ 60

pág. 231

Estadística fácil con hoja de cálculo

ETAPAS EN LA REALIZACIÓN DE UN CONTRASTE DE HIPÓTESIS 1.-) Especificar las hipótesis nula y alternativa. 2.-) Elegir un estadístico de contraste apropiado 𝑤𝑤 (para medir la discrepancia entre lo observado y lo teórico). Este estadístico tendrá una función de densidad determinada 3.-) Tomar una muestra (𝑥𝑥1 . 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ) y evaluar el estadístico del contraste bajo 𝐻𝐻0 , es decir 𝑤𝑤 � = 𝑑𝑑(𝑥𝑥1 . 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ; 𝐻𝐻0 ). 4.-) Concluir si la diferencia 𝑤𝑤 � es estadísticamente significativa (se rechaza 𝐻𝐻0 o no), según el p-valor del estadístico. Para ello podemos fijar un nivel de confianza 1 − 𝛼𝛼 determinado, y tomar una decisión en base al mismo. Nivel crítico o 𝒑𝒑 −valor: es la probabilidad de tener un valor del estadístico igual o mayor al observado cuando 𝐻𝐻0 es cierta. La regla de decisión, tras calcular el p-valor, es: Si p − valor > 𝛼𝛼 Si p − valor ≤ 𝛼𝛼

Si no se fija ningún 𝜶𝜶, la regla “general” es Si p − valor > 0.1 Si p − valor ≤ 0.1

aceptamos 𝐻𝐻0

rechazamos 𝐻𝐻0 aceptamos 𝐻𝐻0

rechazamos 𝐻𝐻0

De todos modos, si el p − valor está entre 0.1 y 0.2, es mejor ampliar la muestra. Nota: Rechazar una hipótesis no prueba que sea totalmente falsa. Podemos cometer un error de tipo I. (rechazamos que sea inocente, va a la cárcel, pero tal vez puede haber pruebas no consideradas… ) No rechazar una hipótesis no prueba que sea totalmente cierta. Podemos cometer un error de tipo II.

pág. 232

Estadística fácil con hoja de cálculo

PRINCIPALES CONTRASTES PARAMÉTRICOS Los contrastes paramétricos más utilizados se refieren a los mismos parámetros que se estudian en intervalos de confianza: la media y la desviación típica (o varianza) de una variable normal, la diferencia de medias de dos variables, la razón o proporción de varianzas, y los contrastes sobre una o dos proporciones de características de interés en una población. CONTRASTE PARA LA MEDIA DE UNA VARIABLE NORMAL La hipótesis nula para este contraste es 𝐻𝐻0 : 𝜇𝜇 = 𝜇𝜇0 SI SE CONOCE LA DESVIACIÓN TÍPICA 𝝈𝝈

El estadístico (y su distribución) es 𝑥𝑥 − 𝜇𝜇𝑜𝑜 ∈ 𝑁𝑁(0,1). 𝑤𝑤 = 𝜎𝜎/√𝑛𝑛 Como ya se comentó en el capítulo de intervalos de confianza, no es habitual conocer la desviación típica real de una población, por lo que, para realizar contrastes relativos a la media de una población normal, se utiliza casi exclusivamente el siguiente estadístico basado en la distribución 𝑡𝑡 de Student. SI NO SE CONOCE LA DESVIACIÓN TÍPICA En este caso, el estadístico para realizar el contraste es

pág. 233

Estadística fácil con hoja de cálculo

𝑤𝑤 =

𝑥𝑥 − 𝜇𝜇𝑜𝑜 ̂ 𝑆𝑆𝑛𝑛−1 /√𝑛𝑛



𝑡𝑡𝑛𝑛−1 .

PARA LA VARIANZA La hipótesis nula del contraste es 𝐻𝐻0 : 𝜎𝜎 2 = 𝜎𝜎02 SI SE CONOCE LA MEDIA 𝝁𝝁

En este caso, el estadístico para realizar el contraste es ∑ni=1 (xi − µ)2 ∈ χ2n . w= σ2o SI NO SE CONOCE LA MEDIA

En este caso, el estadístico para realizar el contraste es 2 ∑𝑛𝑛𝑖𝑖=1 (𝑥𝑥𝑖𝑖 − 𝑥𝑥̅ )2 𝑛𝑛𝑆𝑆̂𝑛𝑛2 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 2 𝑤𝑤 = 2 = = ∈ 𝜒𝜒𝑛𝑛−1 . 𝜎𝜎𝑜𝑜 𝜎𝜎𝑜𝑜2 𝜎𝜎𝑜𝑜2 Volvemos a señalar que, en la práctica, parece bastante irreal el conocer la media teórica de la población, con lo cual el estadístico a utilizar habitualmente es este último. PARA LA DIFERENCIA DE MEDIAS Suponemos 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇𝑋𝑋 , 𝜎𝜎𝑋𝑋 ) e 𝑌𝑌 ∈ 𝑁𝑁(𝜇𝜇𝑌𝑌 , 𝜎𝜎𝑌𝑌 ), y que tenemos dos muestras aleatorias simples (𝑥𝑥1 , 𝑥𝑥2 , . . . , 𝑥𝑥𝑛𝑛 ) e (𝑦𝑦1 , 𝑦𝑦2 , . . . , 𝑦𝑦𝑚𝑚 ) de las variables. Queremos contrastar 𝐻𝐻0 : 𝜇𝜇𝑋𝑋 = 𝜇𝜇𝑌𝑌 o 𝜇𝜇𝑋𝑋 − 𝜇𝜇𝑌𝑌 = 0. Los estadísticos para este contraste son los siguientes. CONOCIENDO LAS DESVIACIONES TÍPICAS (𝑥𝑥 − 𝑦𝑦) − (𝜇𝜇𝑋𝑋 − 𝜇𝜇𝑌𝑌 ) 𝑤𝑤 = 2 2 �𝜎𝜎𝑋𝑋 + 𝜎𝜎𝑌𝑌 𝑛𝑛 𝑚𝑚



𝑁𝑁(0,1).

DESCONOCIENDO LAS DESVIACIONES TÍPICAS PERO SUPONIÉNDOLAS IGUALES (x − y) − (µX − µY ) w= ∈ t n+m−2 . �2 �2 �(n − 1) ⋅ Sn−1 + (m − 1) ⋅ Sm−1 ⋅ �1 + 1 n+m−2 n m DESCONOCIENDO LAS DESVIACIONES TÍPICAS Y SUPUESTO QUE LOS TAMAÑOS DE LAS MUESTRAS SON GRANDES (𝒏𝒏, 𝒎𝒎 ≥ 𝟑𝟑𝟑𝟑)

pág. 234

Estadística fácil con hoja de cálculo

𝑤𝑤 =

(𝑥𝑥 − 𝑦𝑦) − (𝜇𝜇𝑋𝑋 − 𝜇𝜇𝑌𝑌 )

≈ 𝑁𝑁(0,1) 2 2 ̂𝑛𝑛−1 ̂𝑚𝑚−1 𝑆𝑆 𝑆𝑆 � 𝑛𝑛 + 𝑚𝑚 (el símbolo ≈ indica que la distribución, en lugar de ser exacta, es una aproximación). DESCONOCIENDO LAS DESVIACIONES TÍPICAS Y SUPUESTO QUE LOS TAMAÑOS DE LAS MUESTRAS SON PEQUEÑOS (𝒏𝒏, 𝒎𝒎 < 𝟑𝟑𝟑𝟑) (𝑥𝑥 − 𝑦𝑦) − (𝜇𝜇𝑋𝑋 − 𝜇𝜇𝑌𝑌 ) 𝑤𝑤 = ≈ 𝑡𝑡𝑛𝑛+𝑚𝑚−2−Δ , 2 2 ̂𝑛𝑛−1 ̂𝑚𝑚−1 𝑆𝑆 𝑆𝑆 � 𝑛𝑛 + 𝑚𝑚 siendo Δ el entero más próximo a 2 2 2 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑚𝑚−1 �(𝑚𝑚 − 1) ⋅ 𝑛𝑛 − (𝑛𝑛 − 1) ⋅ 𝑚𝑚 � 2 2. 2 2 𝑆𝑆̂𝑛𝑛−1 𝑆𝑆̂𝑚𝑚−1 (𝑚𝑚 − 1) � 𝑛𝑛 � + (𝑛𝑛 − 1) � 𝑚𝑚 � PARA LA RAZÓN DE VARIANZAS Para realizar el contraste

𝐻𝐻0 :

𝜎𝜎𝑌𝑌2

2 𝜎𝜎𝑋𝑋

= 𝑐𝑐𝑐𝑐𝑐𝑐,

el estadístico a utilizar es

2 𝑆𝑆̂𝑛𝑛−1 𝜎𝜎𝑌𝑌2 𝑤𝑤 = 2 ∈ 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1 . 𝑆𝑆̂𝑚𝑚−1 𝜎𝜎𝑋𝑋2 Este test nos sirve para saber si podemos considerar las varianzas de 2 variables 𝑋𝑋 e 𝑌𝑌 iguales o no, que es necesario para contrastar después la igualdad de las medias. Para ello,

tendremos que contrastar 𝐻𝐻0 :

𝜎𝜎𝑌𝑌2

2 𝜎𝜎𝑋𝑋

= 1 frente a 𝐻𝐻1 :

𝜎𝜎𝑌𝑌2

2 𝜎𝜎𝑋𝑋

≠ 1.

PARA UNA PROPORCIÓN Consideramos 𝑝𝑝 la proporción teórica de una característica en una población. Nos interesa realizar el contraste 𝐻𝐻0 : 𝑝𝑝 = 𝑝𝑝0 . En este caso, el estadístico a usar es 𝑝𝑝̂ − 𝑝𝑝0 𝑤𝑤 = ≈ 𝑁𝑁(0,1). 𝑝𝑝 (1 − 𝑝𝑝 ) 0 0 � 𝑛𝑛 PARA LA DIFERENCIA DE PROPORCIONES 𝐻𝐻0 : 𝑝𝑝1 = 𝑝𝑝2 o 𝑝𝑝1 − 𝑝𝑝2 = 0.

pág. 235

Estadística fácil con hoja de cálculo

𝑤𝑤 =

(𝑝𝑝̂1 − 𝑝𝑝̂2 ) − (𝑝𝑝1 − 𝑝𝑝2 )

𝑝𝑝̂ (1 − 𝑝𝑝̂1 ) 𝑝𝑝̂2 (1 − 𝑝𝑝̂ 2 ) � 1 + 𝑛𝑛1 𝑛𝑛2

≈ 𝑁𝑁(0,1).

CASO DE DOS MUESTRAS RELACIONADAS (APAREADAS) Por último, si suponemos 2 variables o poblaciones 𝑋𝑋 e 𝑌𝑌, 𝑋𝑋 ∈ 𝑁𝑁(𝜇𝜇𝑋𝑋 , 𝜎𝜎𝑋𝑋 ), 𝑌𝑌 ∈ 𝑁𝑁(𝜇𝜇𝑌𝑌 , 𝜎𝜎𝑌𝑌 ), pero dependientes (observaciones antes y después en los mismos individuos, etc.), estaremos en el caso de muestras o variables pareadas, que ya tratamos en el capítulo anterior. Igual que vimos allí, de la variable 𝑋𝑋 se escogerá una muestra (𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑛𝑛 ) y de 𝑌𝑌 otra muestra (𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑛𝑛 ) (los tamaños de las muestras han de ser iguales), y trabajaremos con la variable 𝐷𝐷 = 𝑌𝑌 − 𝑋𝑋 o 𝑋𝑋 − 𝑌𝑌, con lo que estaremos en la situación de análisis de una única muestra. PROBLEMAS

PROBLEMA 51 El Banco central de Hispanistán afirma, en su último informe trimestral, que la cotización de las acciones del banco Manguia se distribuye normalmente con desviación típica 800 euros. Un jubilado selecciona una muestra aleatoria de la cotización alcanzada en 100 días, obteniendo como cotización media 𝑥𝑥̅ =2100 euros. A partir de este valor, y dado que, como buen ahorrador, no se fía del banco, quiere contrastar la posibilidad de que la cotización media pueda ser 𝜇𝜇=2900 euros (media + desviación típica, que es el máximo que puede alcanzar una variable, según todo buen estadístico de barra de bar). SOLUCIÓN. Se trata de contrastar 𝐻𝐻0 : 𝜇𝜇 = 2900 frente a 𝐻𝐻1 : 𝜇𝜇 < 2900. Como nos dicen que la desviación típica es conocida e igual a 800, el estadístico a utilizar es 𝑥𝑥−𝜇𝜇𝑜𝑜 √𝑛𝑛

𝑤𝑤 = 𝜎𝜎/



𝑁𝑁(0,1).

En este caso, 2100−2900 𝑤𝑤 �= = −10. 800 √100

Para realizar el contraste de forma fácil, abrimos la plantilla test-media.xlsx e introducimos los datos en el tercer caso, que es el correspondiente a que no nos dan los datos de la muestra, solo los cálculos. En la siguiente gráfica vemos el resultado del estadístico (𝑤𝑤 �, que es -10) y como queda dicho valor muy a la izquierda de la curva normal, lo que significa que el área a la izquierda es cero (p-valor).

Figura 113

pág. 236

Estadística fácil con hoja de cálculo

Al ser el p-valor cero no podemos aceptar la hipótesis nula. El jubilado deberá aceptar que la cotización media no va a llegar a 2900, pero puede seguir pasando la tarde probando valores más pequeños en la hipótesis nula.

PROBLEMA 52 La federación de lucha sumo establece que la variable que mide el peso de los monitores es una variable normal con media 140 kilos y desviación típica igual a 15 kilos. Una delegación de 125 monitores van al congreso anual mundial de lucha sumo, y en el ritual del peso se obtiene una media de 135. ¿Se puede afirmar, con un nivel de significación del 5%, que los monitores han adelgazado? SOLUCIÓN. Se trata de contrastar 𝐻𝐻0 : 𝜇𝜇 = 140 frente a 𝐻𝐻1 : 𝜇𝜇 < 140. Como nos dicen que la desviación típica es conocida e igual a 15, el estadístico a utilizar es 𝑤𝑤 =

𝑥𝑥−𝜇𝜇𝑜𝑜 𝜎𝜎/√𝑛𝑛



𝑁𝑁(0,1).

En este caso, 135−140 𝑤𝑤 �= = −3.726. 15 √125

El contraste es igual que en el ejercicio anterior, y la plantilla a usar es la misma (testmedia.xlsx). El p-valor es prácticamente 0 (Figura 114). Como p es menor que 𝛼𝛼 = 0.05, no podemos aceptar la hipótesis nula, es decir que la federación debe reformar los valores de peso medio de los monitores (o alimentarlos mejor).

Figura 114

PROBLEMA 53 En un hilo de un conocido foro de coches, la mayoría de los participantes dicen que, al ir a repostar a una gasolinera, echan una media de 20 euros, independientemente de cómo esté pág. 237

Estadística fácil con hoja de cálculo

el precio de la gasolina. Con el fin de contrastar la hipótesis, en una gasolinera de Robonor se selecciona una muestra aleatoria de 30 conductores, obteniéndse una media de dinero gastado en repostar de 18.73 euros, y una varianza muestral 𝑠𝑠̂𝑛𝑛2 =16.202. Con estos datos, ¿se puede aceptar como cierto lo que se afirma en el foro? SOLUCIÓN. Vamos a contrastar 𝐻𝐻0 : 𝜇𝜇 = 20 frente a 𝐻𝐻1 : 𝜇𝜇 ≠ 20. Para la muestra que nos dan, los valores que se obtienen son: 𝑛𝑛 = 30, 𝑥𝑥̅ = 18.73, 𝑠𝑠̂𝑛𝑛2 = 16.202. A partir de la varianza muestral 𝑠𝑠̂𝑛𝑛2 , se puede obtener directamente la cuasi-varianza 2 a partir de la relación muestral 𝑠𝑠̂𝑛𝑛−1 𝑛𝑛 2 2 𝑛𝑛 ⋅ 𝑠𝑠̂𝑛𝑛2 = (𝑛𝑛 − 1) ⋅ 𝑠𝑠̂𝑛𝑛−1 ⇔ 𝑠𝑠̂𝑛𝑛−1 = ⋅ 𝑠𝑠̂𝑛𝑛2 𝑛𝑛−1 2 En este caso, 𝑠𝑠̂𝑛𝑛−1 = (30/29) ⋅ 16.202 = 16.761 ⇒ 𝑠𝑠̂𝑛𝑛−1 = 4.093, y el valor del estadístico del contraste es 𝑥𝑥−𝜇𝜇𝑜𝑜 𝑛𝑛−1 /√𝑛𝑛

𝑤𝑤 � = 𝑆𝑆̂

=

18.73−20 4.093/√30

= −1.699.

El p-valor, en este caso, es dos veces el área a la izquierda de −1.69, (por ser un test bilateral). Lo buscamos en una distribución 𝑡𝑡 con 29 grados de libertad, y es 0.099 (Figura 115). Para valores de 𝛼𝛼 iguales a 0.01 o 0.05 no se podría rechazar la hipótesis. En cambio, para un valor de 𝛼𝛼 igual a 0.1 no se aceptaría. Proponemos entonces tomar una muestra más grande para poder obtener un p-valor más concluyente, porque sabemos que en los foros de coches hay mucho trolero.

Figura 115

PROBLEMA 54

pág. 238

Estadística fácil con hoja de cálculo

El peso neto escurrido de un determinado tipo de conserva en lata es una varianza aleatoria distribuida normalmente. En el etiquetado de las latas se afirma que el peso neto medio escurrido es igual a 150 g. Un sindicalista cabreado entra en un supermercado, toma una muestra aleatoria de 15 latas y las pesa, obteniendo que la media es 148.234 y la desviación típica muestral 4.072. Al momento, empieza a gritar en medio del supermercado "¡delincuentes, delincuentes, nos roban a mano armada!". ¿Tiene derecho a armar la bronca el sindicalista? SOLUCIÓN. El sindicalista se cabrea porque el peso medio muestral ha salido más bajo que el que afirma la lata de conservas. Vamos a contrastar entonces 𝐻𝐻0 : 𝜇𝜇 = 150 frente a 𝐻𝐻1 : 𝜇𝜇 < 150. Para la muestra que ha tomado el sindicalista, los valores que se obtienen son: 𝑛𝑛 = 15, 𝑥𝑥̅ = 148.234, 𝑠𝑠̂𝑛𝑛 = 4.072. 2 podemos De la relación entre la varianza muestral 𝑠𝑠̂𝑛𝑛2 y la cuasi-varianza muestral 𝑠𝑠̂𝑛𝑛−1 obtener la cuasi-desviación típica 𝑛𝑛 𝑛𝑛−1

𝑠𝑠̂𝑛𝑛−1 = 𝑠𝑠̂𝑛𝑛 ⋅ �

15 14

= 4.072 ⋅ �

= 4.21

Entonces, el valor del estadístico del contraste es 𝑥𝑥−𝜇𝜇𝑜𝑜 𝑛𝑛−1 /√𝑛𝑛

𝑤𝑤 � = 𝑆𝑆̂

=

148.234−150 4.21 √15

= −1.62.

El p-valor será el área a la izquierda de este valor, en una distribución 𝑡𝑡 con 14 grados de libertad, que es 0.0633 (Figura 116, obtenida usando la misma plantilla que en los problemas anteriores). Ocurre que para valores de 𝛼𝛼 como 0.01 o 0.05 no se podría rechazar la hipótesis

Figura 116

nula, pero sí se podra rechazar para valores de 𝛼𝛼 como 0.1. O sea, que lo mejor será que el sindicalista tome una muestra más grande para tener una opción clara, antes de liarla.

pág. 239

Estadística fácil con hoja de cálculo

PROBLEMA 55 Dos candidatos a alcalde de diferentes ayuntamientos deciden realizar publicidad electoral regalando alcohol de garrafón en el botellón del viernes. Esa noche, en el primer ayuntamiento, de 35 accidentes de coche que se producen, 24 han sido debidos al alcohol de garrafón, mientras que en el segundo ayuntamiento, de 63 accidentes, 41 fueron debidos al alcohol. ¿Podemos concluir que utilizaron la misma gasolina para hacer la mezcla (el garrafón era precisamente gasolina con agua destilada)? SOLUCIÓN. Las proporciones muestrales de accidentes por alcohol son, en cada ayuntamiento, 𝑝𝑝̂1 = 24 41 y 𝑝𝑝̂2 = . 35 63 El contraste que se plantea es 𝐻𝐻0 : 𝑝𝑝1 = 𝑝𝑝2 frente a 𝐻𝐻1 : 𝑝𝑝1 ≠ 𝑝𝑝2 . 𝐻𝐻0 es lo mismo que 𝑝𝑝1 − 𝑝𝑝2 = 0. El estadístico para este contraste es (𝑝𝑝̂1 − 𝑝𝑝̂2 ) − (𝑝𝑝1 − 𝑝𝑝2 ) 𝑤𝑤 = , 𝑝𝑝̂1 (1 − 𝑝𝑝̂1 ) 𝑝𝑝̂2 (1 − 𝑝𝑝̂ 2 ) � + 𝑛𝑛1 𝑛𝑛2 que sigue, aproximadamente, una distribución 𝑁𝑁(0,1) cuando 𝐻𝐻0 es cierta. El valor del estadístico para las muestras observadas es: 24 41 24 41 ( − 63) − (𝑝𝑝1 − 𝑝𝑝2 ) ( − 63) − 0 35 35 𝑤𝑤 �= = = 0.353. 24 24 24 24 41 41 41 41 �35 ⋅ (1 − 35) 63 ⋅ (1 − 63) �35 ⋅ (1 − 35) 63 ⋅ (1 − 63) + + 63 63 35 35 En este caso, debemos utilizar la plantilla test-2-proporciones.xlsx. El p-valor es el doble del área a la derecha de 0.353 (Figura 117), que es 0.72. Por consiguiente, podemos concluir que los alcaldes fueron a la misma gasolinera (que les da comisión, por otro lado), para hacer las mezclas para repartir.

Figura 117

PROBLEMA 56 Un profesor africano, no precisamente de escuela, sinó de estos que mete papeles en los buzones, asegura en su publicidad, dirigida a mujeres con problemas para tener hijos, más pág. 240

Estadística fácil con hoja de cálculo

del 92% de embarazos tras la primera sesión. Con el fin de contrastar esta afirmación, el ministerio de santidad ha elegido aleatoriamente una muestra de 60 mujeres, de las que 42 quedan embarazadas tras la primera sesión. ¿Ponen en duda estos resultados la publicidad del profesor africano? SOLUCIÓN. Contrastamos 𝐻𝐻0 : “ la proporción es” , es decir 𝑝𝑝 ≤ 0.92 frente a 𝐻𝐻1 : 𝑝𝑝 > 0.92. El estadístico del contraste es 𝑤𝑤 =

𝑝𝑝�−𝑝𝑝

𝑝𝑝(1−𝑝𝑝) � 𝑛𝑛

que sigue, aproximadamente una distribución

𝑁𝑁(0,1) cuando 𝐻𝐻0 es cierta. 42 En este caso, 𝑝𝑝̂ = = 0.7, con lo que 60 0.7 − 0.92 𝑤𝑤 �= = −6.28. (1 0.92 ⋅ − 0.92) � 60 El p-valor es el área a la derecha de -6.28 en una 𝑁𝑁(0,1), que es 1, luego no rechazaríamos la hipótesis nula, es decir se rechazaría claramente la alternativa (𝑝𝑝 > 0.92, que es lo que afirma el profesor africano). Todos estos resultados los vemos en la Figura 118.

Figura 118

pág. 241

Estadística fácil con hoja de cálculo

PROBLEMA 57 Un control de calidad de una fábrica de preservativos considera averiada la máquina principal si la varianza del peso en aire de los preservativos inflados es mayor o igual que 0.02 g 2 , pues en ese caso podrían llegar a explotar. Se selecciona una muestra aleatoria de 30 preservativos resultando que su varianza es de 0.03 g 2 . Suponiendo que la población de preservativos inflados por la máquina es normal con media desconocida, chequear con nivel de significación del 5% si la máquina puede considerarse como averiada. SOLUCIÓN. Se quiere contrastar 𝐻𝐻0 : 𝜎𝜎 2 = 0.02 frente a 𝐻𝐻1 = 𝜎𝜎 2 > 0.02 El estadístico a utilizar es 2 (𝑛𝑛 − 1)𝑆𝑆̂𝑛𝑛−1 2 ∈ 𝜒𝜒𝑛𝑛−1 si 𝐻𝐻0 es cierta. 𝜎𝜎 2 En este caso, como nos dan la varianza muestral, �𝑆𝑆𝑛𝑛2 = 0.03, podemos calcular la cuasivarianza muestral mediante la fórmula 𝑛𝑛 2 𝑆𝑆̂𝑛𝑛−1 = 𝑆𝑆̂ 2 = 0.17622 , 𝑛𝑛 − 1 𝑛𝑛 o bien utilizar el cuadro para vagos que tenemos en la plantilla test-varianza.xlsx (Figura 119)

𝑤𝑤 =

Figura 119

Obtenemos

29 ⋅ 0. 17622 = 45.01. 0.02 Como vemos en la Figura 119, el p-valor es 0.0293, con lo que, salvo para un nivel del 1 o 2 por ciento, no aceptaríamos la hipótesis nula, con lo que mandaríamos a reparar la máquina, que con estas cosas no se juega. 𝑤𝑤 �=

PROBLEMA 58 Se suele decir que los hombres "se tiran una y cuentan veinte" (y no jugando al parchís, precisamente). Para comprobar la veracidad de esta afirmación, un grupo feminista realiza una encuesta anónima entre 12 hombres, usuarios habituales de cierto foro de internet, preguntando el número de mujeres (distintas, y las experiencias zoofílicas no cuentan) con las que han estado durante el último año. Los resultados han sido: 120, 80, 16, 230, 53, 95, 31, 18, 125, 162, 7, 38, 45, 6, 114, 92. Al mismo tiempo, se pregunta a 12 mujeres, del mismo rango de edad, con cuántos hombres han estado el último año y los resultados son: 2, 5, 7, 2, 1,1,0,5,4,3,3,6. SOLUCIÓN. Si llamamos 𝑌𝑌 =”número de veces que lo hacen los hombres”, y 𝑋𝑋=“número de veces que lo hacen las mujeres”, el grupo feminista quiere saber si es cierto que 𝑌𝑌 = 20𝑋𝑋. Como sabemos, al multiplicar una variable por una constante, la nueva variable tiene media y desviación típica la de la variable anterior multiplicada por la constante: pág. 242

Estadística fácil con hoja de cálculo

𝐸𝐸(𝑌𝑌) = 20𝐸𝐸(𝑋𝑋), 𝑉𝑉𝑉𝑉𝑉𝑉(𝑋𝑋) = 202 𝑉𝑉𝑉𝑉𝑉𝑉(𝑌𝑌) ⇔ 𝜎𝜎(𝑌𝑌) = 20𝜎𝜎(𝑋𝑋). En base a esto, podemos plantear el test 𝜎𝜎22 𝐻𝐻0 , 2 = 202 . 𝜎𝜎1 El estadístico para este contraste es 2 𝜎𝜎22 𝑆𝑆̂𝑛𝑛−1 ∈ 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1 si 𝐻𝐻0 es cierta. 𝑤𝑤 = 2 𝑆𝑆̂𝑚𝑚−1 𝜎𝜎12

2 2 En este caso, las cuasi-varianzas muestrales son 𝑆𝑆̂𝑛𝑛−1 = 3939.6 y 𝑆𝑆̂𝑚𝑚−1 = 4.75. El valor 3936.6 del estadístico para esta muestra es 𝑤𝑤 �= ⋅ 400 = 331755.7895, con lo que el p-valor es 4.75 0, como podemos ver en el resultado de la plantilla test-varianza.xlsx (Figura 120). Se rechaza entonces la hipótesis de que los hombres en vez de una cuentan veinte. Lo que parece claro, a la vista de las muestras, es que hay diferencia en las medias. Dejamos comprobar esto como ejercicio para el lector.

Figura 120

PROBLEMA 59 Un adolescente está probando dos programas para borrar porno del disco duro, ante una posible invasión de la intimidad de su habitación por parte de los padres. El tiempo de borrado puede suponerse normal, con desviaciones estándar 𝜎𝜎1 = 0.015 y 𝜎𝜎2 = 0.018. Se cree que ambos programas tienen un mismo tiempo de borrado. Para ello los prueba varias veces con diferentes tipos de archivos, anotando el tiempo que cada programa tarda en destruir (segundos) 10 gigas de porno del disco duro. A la vista de los resultados, ¿puede usarse cualquiera de los dos programas? Programa 1 Programa 2

16.03 16.02

16.04 15.97

16.05 15.96

16.05 16.01

16.02 15.99

16.01 16.03

15.96 16.04

15.98 16.02

16.02 16.01

15.99 16

SOLUCIÓN. Las varianzas teóricas se supone que son 𝜎𝜎12 = (0.015)2 = 0.000225 y 𝜎𝜎22 = (0.018)2 = 0.000324 Planteamos el contraste 𝐻𝐻0 : 𝜇𝜇𝑋𝑋 = 𝜇𝜇𝑌𝑌 frente a 𝐻𝐻1 : 𝜇𝜇𝑋𝑋 ≠ 𝜇𝜇𝑌𝑌 . El estadístico del contraste es

pág. 243

Estadística fácil con hoja de cálculo

𝑤𝑤 �=

(𝑥𝑥 − 𝑦𝑦) − (𝜇𝜇1 − 𝜇𝜇2 )

2 2 �𝜎𝜎1 + 𝜎𝜎2 𝑛𝑛 𝑚𝑚 que sigue una distribución 𝑁𝑁(0,1) si 𝐻𝐻0 es cierta. En este caso (16.015 − 16.005) − 0 𝑤𝑤 �= = 1.3496, 2 2 �(0.015) + (0.018) 10 10 Para este valor del estadístico, el p-valor que se obtiene es 0.1771, con lo que no se podría rechazar la hipótesis nula para niveles inferiores a 0.17, y considerariamos iguales los tiempos medios. Para este problema, tendremos que utilizar la plantilla de excel test-diferenciamedias.xlsx. Como vemos en la Figura 121, introducimos los datos de las muestras en las dos columnas de la izquierda, y utilizamos el test de la segunda tabla (varianzas conocidas), que nos da los resultados obtenidos arriba.

Figura 121

PROBLEMA 60 Los siguientes son tiempos de quemado (en minutos) de contenedores realizados por un gamberro, durante diez jornadas de lucha urbana (hasta que lo pilló la policia). Para poder aplicarle la eximente de enfermedad mental, sus abogados necesitan demostrar que utilizó el mismo líquido inflamable que usan los pirómanos de psiquiátrico, y para ello deben de probar que las dispersiones de contenedores quemados coinciden con las obtenidas de una muestra de un pirómano actualmente en el psiquiátrico penitenciario. Contenedores quemados gamberro Contenedores quemados pirómano

63 64

81 72

57 83

66 59

82

82

65

56

68 63

59 74

75 82

SOLUCIÓN. A partir de las dos muestras, hay que plantear un test de igualdad de varianzas: 𝜎𝜎 2

𝐻𝐻0 : 𝜎𝜎12 = 𝜎𝜎22 frente a 𝐻𝐻1 : 𝜎𝜎12 ≠ 𝜎𝜎22 . Bajo 𝐻𝐻0 , 𝜎𝜎22 = 1.

El estadístico para este contraste es 2 𝜎𝜎22 𝑆𝑆̂𝑛𝑛−1 ∈ 𝐹𝐹𝑛𝑛−1,𝑚𝑚−1 𝑤𝑤 = 2 𝑆𝑆̂𝑚𝑚−1 𝜎𝜎12 pág. 244

1

si 𝐻𝐻0 es cierta.

73 82

Estadística fácil con hoja de cálculo 2 2 En este caso, las cuasi-varianzas muestrales son 𝑆𝑆̂𝑛𝑛−1 = 88.71 y 𝑆𝑆̂𝑚𝑚−1 = 100.44. El valor del estadístico para esta muestra es 88.71 𝑤𝑤 �= ⋅ 1 = 0.8832. 100.44 El p-valor, en este caso, hay que buscarlo en la tabla de la distribución 𝐹𝐹 con 9 y 9 grados de libertad. Podríamos usar la plantilla distribucion-F.xlsx para buscar el área resultante. Ahora bien, todos estos resultados los tenemos en la plantilla para test de diferencia de medias (primer rectángulo), según vemos en la Figura 122. El p-valor es 0.8562, es decir que se aceptaría 𝐻𝐻0 casi sin ningún género de duda, con lo cual el gamberro podría salir a la calle a seguir haciendo de las suyas.

Figura 122

PROBLEMA 61 Para decidir la compra de ordenadores para los informáticos de una empresa, el jefe de la sección opta entre dos marcas. Para tomar la decisión, se mide lo que tardan en conectarse a los periódicos online más visitados por los informáticos. Marca Tiempo de conexión. Manzana 14 14.1 13.9 14 13.8 14.4 HdP 13.5 13.8 14 13.9 Suponiendo que las varianzas son iguales, ¿puede decirse que el tiempo de conexión es similar para ambas marcas de ordenador? SOLUCIÓN. Planteamos el test 𝐻𝐻0 : 𝜇𝜇𝑋𝑋 = 𝜇𝜇𝑌𝑌 frente a 𝐻𝐻1 : 𝜇𝜇𝑋𝑋 ≠ 𝜇𝜇𝑌𝑌 . Introducimos los datos en las dos primeras columnas de la plantilla. Debemos realizar un test para diferencia de medias, supuesto que las varianzas son desconocidas pero iguales. El recuadro correspondiente de la plantilla (Figura 123) nos da todos los resultados. A lo que nos interesa: valor del estadístico es 1.7 y el p-valor es 0.12. Entonces, con los niveles más habituales de 0.01,0.05 y 0.1 no se rechazaría la hipótesis nula (al menos Figura 123 con esta caca de muestras). pág. 245

Estadística fácil con hoja de cálculo

PROBLEMA 62 Un anestesista de la seguridad social, debido a los recortes en la anestesia para operaciones, ha decidido mezclar vino con dos compuestos de su invención. El rendimiento que consigue (ratio de la duración del colocón consiguiente comparado con el de anestesia normal) es el siguiente (probado en seis pacientes del hospital, y en otros tantos vecinos de su barriada) Rendimiento (%) Anestésico 1 (X) 24.2 26.6 25.7 24.8 25.9 26.5 Anestésico 2 (Y) 21 22.1 21.8 20.9 22.4 22 ¿Puede creerse que alguno de los dos anestésicos tiene un rendimiento medio mejor que el otro? SOLUCIÓN. En este caso, primero debemos comprobar si las varianzas pueden considerarse iguales o no. 𝐻𝐻0 : 𝜎𝜎12 = 𝜎𝜎22 frente a 𝐻𝐻1 : 𝜎𝜎12 ≠ 𝜎𝜎22 . Introduciendo los datos en la plantilla, vemos en el primer recuadro de la Figura 124 la columna que nos realiza este contraste. El valor del estadístico para este contraste es 2.39 y el p-valor es 0.35, con lo que no rechazamos la hipótesis de igualdad de varianzas. Bajo este supuesto, ahora realizamos el test para igualdad de medias, con varianzas desconocidas pero supuestas iguales. Debido a que 𝑥𝑥 = 25.61 y que 𝑦𝑦 = 21.7, nos planteamos un test del tipo 𝐻𝐻0 : 𝜇𝜇𝑋𝑋 = 𝜇𝜇𝑌𝑌 frente a 𝐻𝐻1 : 𝜇𝜇𝑋𝑋 < 𝜇𝜇𝑌𝑌 .

Figura 124

La realización del test está en la columna de la derecha de la Figura 124 (sólo hemos tenido que elegir el signo o dirección de la hipótesis alternativa del test). Vemos que el valor del estadístico es 8.48, y el p-valor es 0, con lo que rechazamos la hipótesis de igualdad de medias, siendo mejor por lo tanto el rendimiento del primer anestésico.

PROBLEMA 63 Un sargento de los Navi Seal desea comparar el proceso de montaje de un fusil ametrallador en condiciones normales frente a una situación de extrema gravedad. Para ello pág. 246

Estadística fácil con hoja de cálculo

selecciona ocho de sus mejores hombres y toma nota del tiempo que tardan en montar en fusil, en condiciones normales, y más tarde simulando que la unidad es atacada por un comando de políticos que no han salido elegidos y están desesperados buscando un cargo. Se seleccionaron ocho de los mejores hombres del pelotón, y se les pidió que montasen las armas en ambas situaciones. Los siguientes son los tiempos observados en segundos. SOLDADO 1 2 3 4 5 6 7 8 Tiempo normal 38 32 41 35 42 32 45 37 Tiempo extremo 30 32 34 37 35 26 38 32 SOLUCIÓN. Se quiere saber si el tiempo medio en situación extrema es inferior al de una situación normal, es decir 𝐻𝐻0 : 𝜇𝜇𝑋𝑋 = 𝜇𝜇𝑌𝑌 frente a 𝐻𝐻1 : 𝜇𝜇𝑋𝑋 > 𝜇𝜇𝑌𝑌 . En este caso, las muestras son dependientes (muestras relacionadas o apareadas), porque son los mismos soldados. Hay que calcular las diferencias entre los datos de una muestra y la otra: 𝑑𝑑 = (𝑑𝑑1 = 𝑥𝑥1 − 𝑦𝑦1 , … , 𝑑𝑑𝑛𝑛 = 𝑥𝑥𝑛𝑛 − 𝑦𝑦𝑛𝑛 ) = (8,0,7, −2,7,6,7,5), y ahora el contraste a realizar es 𝐻𝐻0 : 𝜇𝜇𝑑𝑑 = 0 frente a 𝐻𝐻1 : 𝜇𝜇𝑑𝑑 > 0. Esto es, simplemente un test para la media de una muestra, para el que utilizaremos la plantilla test-media.xlsx. El estadístico es 𝑑𝑑 − 𝜇𝜇𝑜𝑜 𝑤𝑤 �= 𝑆𝑆̂𝑛𝑛−1 /√𝑛𝑛 Para las muestras observadas, tenemos que 𝑑𝑑 = 4.75, 𝑆𝑆̂𝑛𝑛−1 = 3.69 y 𝜇𝜇𝑜𝑜 = 0 bajo 𝐻𝐻0 . En consecuencia, 4.75 = 3.63 𝑤𝑤 �= 3.69/√8 El p-valor del contraste es 0.99588 (Figura 125).

Figura 125

PROBLEMA 64 La asociación de defensa del espectador de televisión ha emitido una queja por la cantidad de minutos de anuncios en medio de los programas. Para ello, ha escogido una muestra aleatoria de 20 programas en cadenas de todo tipo y anotado el tiempo del primer bloque de anuncios (minutos): 6, 6.6, 6.5, 5.8, 7, 6.3, 6.2, 7.2, 5.7, 6.4, 6.5, 6.2, 6, 6.5, 7.2, 7.3, 7.6, 6.8, 6 Al espectador medio esta queja no le preocupa, más bien al contrario, puesto que está preocupado porque en alguna de esas treguas para ir al baño no le de tiempo a terminar la faena. ¿Podrá ir al baño tranquilo el espectador medio, con una confianza del 95 por ciento, si

pág. 247

Estadística fácil con hoja de cálculo

el tiempo medio de evacuación, según la O.M.S., para un homo-televisivus medio está tasado en 6.8 minutos? SOLUCIÓN. Hay que contrastar 𝐻𝐻0 : 𝜇𝜇 = 6.8 frente a 𝐻𝐻1 : 𝜇𝜇 < 6.8. Introduciendo los datos en la plantilla (Figura 126), vemos que el valor del estadístico es -2.15 y que el p-valor, que es el área a la izquierda, resulta 0.02. En este caso, se aceptará la hipótesis nula para valores pequeños de 𝛼𝛼 (0.01), pero, o bien se coge una muestra más grande para tomar una decisión con mayor precisión estadística, o, tal vez lo mejor será llevarse un televisor al retrete para no perder detalle del programa.

Figura 126

TEST DE INDEPENDENCIA DE CARACTERES Este test está directamente relacionado con lo visto en el capítulo 2 sobre tablas de contingencia y relación entre dos atributos. En el test o contraste de independencia, se desea decidir si las dos variables en una tabla de contingencia están o no asociadas. Este es un ejemplo de contraste no paramétrico, puesto que ahora en la hipótesis nula no hacemos referencia a ningún parámetro. Las hipótesis del test son las siguientes: 𝐻𝐻0 : Las variables en filas y columnas de la tabla son independientes 𝐻𝐻1 : Hay asociación o dependencia entre las filas y columnas de la tabla pág. 248

Estadística fácil con hoja de cálculo

Cuando tenemos un par de variables estadísticas cuyos valores son atributos, recordemos que representábamos dicho par mediante una tabla de contingencia. Con lo visto hasta ahora, podemos estudiar la dependencia o independencia entre las variables o atributos mediante un test de hipótesis que utiliza la variable Chi-cuadrado. Regresemos al ejemplo que vimos en el capítulo 2, sobre la tabla de muertos y supervivientes según el billete de primera, segunda o tercera clase, en el Titanic. Sobrevive Primera clase 194 Segunda clase 119 Tercera clase 138 Total 451

No sobrevive 128 161 573 862

Total 322 280 711 1313

Por medio de una gráfica de barras ya puede intuirse si hay dependencia o independencia entre las variables.

INDEPENDENCIA Formalmente, X es independiente de Y si se verifica que: 𝑓𝑓𝑖𝑖|𝑗𝑗 = 𝑓𝑓𝑖𝑖⋅ ∀𝑖𝑖 = 1, ⋯ , 𝑟𝑟 𝑗𝑗 = 1,2, ⋯ , 𝑠𝑠. es decir, si las frecuencias condicionadas coinciden con las frecuencias marginales. De la misma forma se define la independencia de Y respecto de X. También hemos visto en el capítulo 2 que otra forma de expresarlo es que X e Y son independientes si las frecuencias absolutas coinciden con las esperadas. 𝑒𝑒𝑖𝑖𝑖𝑖 = 𝑛𝑛𝑖𝑖𝑖𝑖 ∀𝑖𝑖 = 1, ⋯ , 𝑟𝑟 𝑗𝑗 = 1,2, ⋯ , 𝑠𝑠. Las 𝑒𝑒𝑖𝑖𝑖𝑖 (frecuencias esperadas) se calculan como 𝑛𝑛𝑖𝑖. × 𝑛𝑛.𝑗𝑗 𝑒𝑒𝑖𝑖𝑖𝑖 = 𝑛𝑛 Por ejemplo, el valor de la celda (1,1) se calcula como 322 × 451 110.6 = 1313 y se hace igual para cada celda de la tabla. La tabla de frecuencias esperadas será, entonces:

pág. 249

Estadística fácil con hoja de cálculo

Sobrevive No sobrevive Total Primera clase

110,6

211,4

322

Segunda clase 96,2 Tercera clase 244,2 Total 451

183,8 466,8 862

280 711 1313

CONTRASTE DE INDEPENDENCIA El estadístico que se usa es el Chi-cuadrado (porque usa la distribución Chi-cuadrado), y tiene la fórmula (𝑛𝑛𝑖𝑖𝑖𝑖 − 𝑒𝑒𝑖𝑖𝑖𝑖 )2 2 𝑤𝑤 = � � ~𝜒𝜒(𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑠𝑠−1)(𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐−1) 𝑒𝑒𝑖𝑖𝑖𝑖 𝑖𝑖

𝑗𝑗

Si hay independencia, las 𝑛𝑛𝑖𝑖𝑖𝑖 se parecerán a las 𝑒𝑒𝑖𝑖𝑖𝑖 y el valor 𝜒𝜒 2 será próximo a cero. Cuanto más alejado de cero el valor obtenido, mayor dependencia. Realizaremos el contraste basándonos en una distribución Chi-cuadrado con (𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓𝑓 − 1) 𝑥𝑥 (𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐𝑐 − 1) grados de libertad para calcular el p-valor.

En nuestro ejemplo: 𝜒𝜒 2 =174.4 y (m-1) x (n-1)=(3-1) x (2-1)=2. El p-valor lo podemos buscar, por ejemplo, en la plantilla distribución-chi-cuadrado.xlsx. Ahora bien, lo más cómodo es introducir los datos de la tabla en la plantilla tablacontingencia.xlsx, que usamos en el capítulo de variables bidimensionales, que nos dará directamente el valor del estadístico y el p-valor. En este caso el p-valor es casi cero (Figura 127).

Figura 127

pág. 250

Estadística fácil con hoja de cálculo

CORRECIÓN DE YATES En el caso de tener una tabla de sólo dos filas y dos columnas, el estadístico anterior se transforma, mediante lo que se conoce como corrección de Yates, en �(𝑛𝑛𝑖𝑖𝑖𝑖 − 𝑒𝑒𝑖𝑖𝑖𝑖 � − 0.5)2 𝜒𝜒 2 = � � 𝑒𝑒𝑖𝑖𝑖𝑖 𝑖𝑖

𝑗𝑗

PROBLEMA 65 Un investigador quiere estudiar si hay asociación entre la práctica deportiva y la sensación de bienestar. Para ello extrae una muestra aleatoria de 100 personas. Los datos aparecen a continuación. Sensación de Práctica deportiva Total Bienestar Sí no Sí 20 25 45 No 10 45 55 Total 30 70 100 Contrastar la hipótesis de independencia entre bienestar y práctica de deporte. SOLUCIÓN. Introducimos los datos en la tabla de doble entrada de la plantilla tablacontingencia.xlsx. En la Figura 128 tenemos los resultados. Vemos que el valor del estadístico es 𝜒𝜒 2 = 6.92 (que se ha calculado utilizando la corrección de Yates, al ser una tabla 2 × 2. El p-valor es 𝑝𝑝 = 0.0085. La decisión, con un p-valor tan bajo, es no aceptar la Figura 128 hipótesis de independencia.

CONTRASTE DE HOMOGENEIDAD Otro caso en que usamos una tabla de contingencia es aquél en que se dispone de una población 𝑋𝑋 clasificada en r subpoblaciones 𝑥𝑥1 , 𝑥𝑥2 , … , 𝑥𝑥𝑟𝑟 . En cada una de estas poblaciones se toma una muestra, y los individuos de la misma se clasifican según una variable Y que puede tomar m valores posibles 𝑦𝑦1 , 𝑦𝑦2 , … , 𝑦𝑦𝑚𝑚 . Sea 𝑝𝑝𝑖𝑖𝑖𝑖 la proporción de individuos que, en la población 𝑥𝑥𝑖𝑖 tiene como valor de 𝑌𝑌 = 𝑦𝑦𝑗𝑗 . Un contraste de homogeneidad es cuando se desean contrastar las dos hipótesis siguientes: • 𝐻𝐻0 : 𝑝𝑝1𝑗𝑗 = 𝑝𝑝2𝑗𝑗 = ⋯ = 𝑝𝑝𝑚𝑚𝑚𝑚 para todo 𝑗𝑗; dicho de otro modo, todas las subpoblaciones tienen idéntica distribución para la variable 𝑌𝑌. • 𝐻𝐻1 : algunas de estas proporciones son diferentes. Dicho de otro modo, la distribución de la variable Y en alguna de estas subpoblaciones es diferente. El principal objetivo de realizar este contraste es comprobar que las distribuciones de todas las subpoblaciones son iguales, o si hay alguna que difiere. Esto nos resulta práctico para pág. 251

Estadística fácil con hoja de cálculo

poder combinar los resultados de todas las subpoblaciones, pues es necesario asegurarse de que los datos de las distintas muestras que se pretende agrupar son homogéneos. PROBLEMA 66 Se desea saber si la distribución de los grupos sanguíneos es similar en los individuos de dos poblaciones. Para ello se elige una muestra aleatoria de cada una de ellas, obteniéndose los siguientes datos ¿Qué decisión se debe tomar? A B AB 0 Total Muestra 1 90 80 110 20 300 Muestra 2 200 180 240 30 650 Total 290 260 350 50 950 SOLUCIÓN. Los grados de libertad son: (𝑛𝑛 − 1) 𝑥𝑥 (𝑚𝑚 − 1) = 1 𝑥𝑥 3 = 3. El valor del estadístico es 𝜒𝜒 2 = 1.76. Mirando en la tabla Chi-cuadrado obtenemos que la probabilidad de obtener un valor 1.76 o mayor, con 3 grados de libertad, es 𝑝𝑝 = 0.62, que es muy alto, con lo que aceptaríamos la hipótesis de que las distribuciones de las subpoblaciones (grupos sanguíneos) no difieren.

Fin del libro

pág. 252

Estadística fácil con hoja de cálculo

17–21.

Aczel, A.D. y Sounderpandian, J. Complete busines statistics. McGraw-Hill. http://highered.mheducation.com/sites/0073373605/student_view0/index.html Anscombe, F. J. (1973). "Graphs in statistical analysis". The American Statistician 27 (1):

Brownlee, K. Statistical theory and methodology. Editorial Wiley. Conover, W.J. Practical nonparametric statistics. John Wiley & Sons Draper, N.R. y Smith, H. Applied regression analysis. John Wiley and Sons. Kahneman, D. Pensar rápido, pensar despacio. Editorial Debate. Gonick, L. y Smith, W. La estadística en cómic. Editorial Zendrera Zariquiey, Barcelona. IBM Corp. IBM SPSS Statistics for Windows, Version 23.0. Armonk, NY: IBM Corp. Microsoft. Excel 2013. https://support.office.com Montgomery, D. C. y Runger, G. C. Probabilidad y estadística aplicadas a la ingeniería. McGraw-Hill. Paulos, J. El hombre anumérico. El analfabetismo matemático y sus consecuencias. Editorial Tusquets. Peña Sánchez de Rivera, D. Fundamentos de estadística. Alianza Editorial. Piñeiro Sánchez, C. y de Llano Monelos, P. (2011). Finanzas empresariales. Teoría y modelos con hoja de cálculo. Editorial Andavira. Población Sáez, A. Las matemáticas en el cine. Proyecto Sur de Ediciones. Quintela del Río, A. Problemas estimulantes de probabilidad y estadística. Editorial Lulu.com. http://alejandroquintela.com/libros Quintela del Río, A. El estadístico accidental. Editorial Lulu.com. http://alejandroquintela.com/libros R Core Team (2015). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. http://www.R-project.org/ Spaeth, H. Mathematical algorithms for linear regression. Academic Press. Tukey, J. Exploratory data analysis. Editorial Pearson. Varios. Biblia, La. Antiguo y Nuevo Testamento.

pág. 253

Estadística fácil con hoja de cálculo

Aczel Amir, 14 Aditividad, 165 Anscombe Francis, 95 Apuntamiento, 45 Asimetría coeficiente de, 154 negativa o a la izquierda, 44 positiva o a la derecha, 44 Atributo, 17 Bayes teorema de, 127 Thomas, 127 Bernoulli prueba de, 163 variable de, 163 Biblia, 103 Binomial variable, 165 Binomial negativa variable, 173 Bisbal David, 39 Blancanieves, 33 Boxplot, 49 Cálculo de probabilidades, 15 Campana de Gauss, 45, 189 Carácter, 17 Cartograma, 21 Centro de gravedad, 31, 74 Chi-cuadrado, 250 variable, 200 Claudio, 103, 104 Coeficiente de contingencia corregido, 100 de correlación, 75 de determinación, 76 Coeficiente de contingencia, 100 Coeficiente de Fisher (primero), 44

pág. 254

(segundo), 45 Confianza nivel de, 209 Contraste bilateral, 231 Chi-cuadrado, 250 de independencia, 250 potencia del, 231 unilateral, 231 Correlación, 74 Covarianza, 74 Cramer, 96 Cuantil, 35 de una variable aleatoria, 152 Cuarteto de Anscombe, 95 Cuartil, 35, 152 Curtosis, 45 coeficiente de, 154 Darwin Charles, 81 Dato anómalo, 49, 50 atípico, 49 extremo, 49 Datos, 16 Decil, 35, 152 DeMorgan leyes de, 113 Densidad función de, 144 Desviación estándar, 38 Desviación típica, 38 de una variable aleatoria, 150 Diagrama de árbol, 120 de barras, 22, 72 tridimensional, 72

de caja, 49 de dispersión, 72 de sectores, 22 de tallo y hojas, 48 de tarta, 22

Estadística fácil con hoja de cálculo

Dispersión, 37 Distribución condicionada, 69 función de, 141 marginal, 69 Error tipo I, 231 Error tipo II, 231 Espacio muestral, 106 Esperanza matemática, 150 propiedades de, 151 Estadística descriptiva, 15 Estadístico del contraste, 232 Estadístico pivote, 209 Experimentos aleatorios, 105 deterministas, 105 Exponencial variable, 187 F variable, 202 Fermat Pierre, 15, 104 Fisher R.A., 202 Frecuencia absoluta, 19 absoluta acumulada, 20 esperada, 97 relativa, 20 relativa acumulada, 20 Frecuencias marginales, 69 Función de distribución, 148 Galton Francis, 81 Gauss Carl, 189 Geométrica variable, 173 Grados de libertad, 200, 201, 202 Hipergeométrica variable, 171 Hipótesis alternativa, 230

pág. 255

compuesta, 231 contraste de, 229 estadística, 229 no paramétrica, 230 nula, 230 paramétrica, 230 simple, 231 test de, 229 Histograma, 23 tridimensional, 72 homogeneidad contraste de, 251 Incorrelación, 75 independencia, 97 Inercia momento de, 39 Integral definida, 147 Intervalo de confianza, 209 Jesucristo, 103 Kahneman, 81 Kolmogorov Andrey, 105 axiomas de, 109 Laplace Pierre, 189 regla de, 110 Leptocúrtica, 46 Media aritmética, 28 armónica, 29 geométrica, 29 ponderada, 29 recortada, 28 Mediana, 31 de una variable aleatoria, 152 Medidas de asociación, 96, 99 Mere Chevalier de, 105 Méré, 16 Mesocúrtica, 46 Mínimos cuadrados, 77 Moda, 34 de una variable aleatoria, 153 Momento respecto a la media o central, 154 respecto al origen, 154

Estadística fácil con hoja de cálculo

Momentos, 154 centrales, 71 de una variable estadística, 50 en distribuciones bidimensionales, 71 respecto a la media o central, 50 respecto al origen, 50, 71 Mosteller, 117 Nivel crítico, 232 Normal variable, 189 Normal estandarizada variable, 189 Nube de puntos, 72 Pareadas muestras, 214, 236 Pascal Blaise, 15 Blaise, 104 variable de, 173 Pearson Karl, 42, 81, 96 Percentil, 35, 152 Pictograma, 20 Pilatos Poncio, 118 Platicúrtica, 46 Población, 16 Poisson proceso de, 167 variable de, 167 Potencia del contraste, 231 Predicción, 82 Probabilidad, 103 axiomas, 109 condicionada, 118 de una intersección, 119 ley, función, distribución de, 140 propiedades, 111 total, 124 Probabilidades asignación de, 110 geométricas, 116 Putin Vladimir, 197 p-valor, 232 Q de Yule, 96, 99 Recorrido, 41

pág. 256

Recorrido intercuartílico, 42 Recta de regresión, 77 Regla del producto, 122 Regresión, 73, 77 Regresión de X sobre Y, 78 Regresión hacia la media, 81 Representaciones 3D, 72 Representaciones gráficas, 72 Reproductividad, 165, 169 Robustez, 33 Significación nivel de, 209, 231 Simetría, 43 Snedecor G.W., 202 Student, 201 Sturges formula de, 24 Suceso, 106 complementario, 108 elemental, 106 imposible, 106 Sucesos incompatibles, 106 independientes, 123 propiedades, 107 T de Student variable, 201 Tabla de contingencia, 69, 96 de correlación, 69 de doble entrada, 69 de frecuencias, 19 Tabla de frecuencias, 18 Tchebychev desigualdad de, 40 Teorema central del límite, 194 Test de hipótesis, 229 no paramétrico, 229 paramétrico, 229 test de hipótesis etapas de, 232 Tipificación de variables aleatorias, 192

Estadística fácil con hoja de cálculo

Titanic, 97 Tukey John, 48 Uniforme variable, 185 V de Cramer, 100 Valor esperado, 150 Variable, 17 aleatoria, 139 aleatoria continua, 140, 144 aleatoria discreta, 139, 140 aleatoria discreta numerable, 143 continua, 18 discreta, 18 estadística bidimensional, 68 estadística continua, 17

pág. 257

estadística discreta, 17 tipificada, 47 variables pareadas, 236 Variables pareadas, 214 Varianza, 38 de una variable aleatoria, 150 propiedades de la, 151 Yates corrección de, 251 Yeltsin Boris, 198 Yule Q de, 96 Udny, 81

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF