Estadistica Aplicada Con Spss
Short Description
Download Estadistica Aplicada Con Spss...
Description
ESTADÍSTICA APLICADA (I) CON SPSS
Los derechos de autor de la versión digital e impresa protegidos por ley. El uso de alguna parte de este libro debe anotar esta fuente
MARIO BLACUTT MENDOZA 1
REVISADO HASTA PÁGINA 27
Los derechos de autor sobre esta obra en sus versiones digital e impresa están protegidos por ley
2
PREFACIO
Éste es el Primer Módulo de “Estadística Aplicada” de tres que conforman el curso total. Está dirigido, principalmente, a los profesionales, estudiantes y hombres de negocios que necesiten un instrumento valioso aplicable en todas las áreas del conocimiento. En particular, a economistas, administradores de empresas, psicólogos, sociólogos y, en general, a todas las personas que deseen contar con una disciplina expresada en una versión ágil y oportuna para recopilar, organizar, manipular e interpretar datos para convertirlos en información adecuada al proceso de tomar decisiones. En los primeros capítulos de esta primera versión analizaremos algunos conceptos fundamentales en la estructura de la disciplina estadística, para ir consolidando el uso de los mismos a medida que ingresemos en etapas más avanzadas. Este primer módulo, que es el básico, consta de 13 capítulos, cada uno estructurado de una manera que resultará muy asequible a todos los participantes. El método es muy sencillo: en cada capítulo se explicará, con los detalles necesarios, el significado de los conceptos estadísticos correspondientes a ese capítulo, la manera de usarlo, su utilidad y su interpretación. Todo esto, con la ayuda del programa estadístico SPSS, siglas en inglés de su nombre completo: Scientific Program for Social Sciences, que es el más conocido y usado de todos los paquetes estadísticos modernos. Así, haremos algo que generalmente requiere dos cursos diferentes: aprenderemos Estadística Aplicada, aprendiendo el SPSS. Todos los pasos mostrarán la conexión unitaria entre el aprendizaje de la Estadística y el uso de los programas del SPSS para resolver cada tipo de problemas. En la actualidad, las principales empresas terciarizan los trabajos de investigación de datos; para cumplir esa tarea, sólo necesitamos conocer la esencia de los conceptos estadísticos, operar el SPSS e interpretar sus resultados. Los otros módulos del curso completo, en sentido ascendente, son las siguientes: Estadística Intermedia, Estadística Media y Estadística Avanzada, las cuales se irán concatenando entre sí, a medida que los participantes lo requieran. La Metodología La parte teórica del curso ofrecerá los conceptos principales y desplegará algunos ejemplos muy sencillos para mostrar lo que hará la computadora por nosotros. Esto es, cuando le pidamos resultados sobre el análisis de datos reales. En virtud de que se trata de un curso de Estadística Aplicada orientado a resolver los problemas prácticos que se presentan todos los días, no habrá demostraciones matemáticas. Los cálculos y toda la operatividad serán realizados por el SPSS, cuyos programas sí han sido estructurados sobre la base de las fórmulas matemáticas requeridas. Por lo general, el aprendizaje de la estadística en los cursos universitarios se hace innecesariamente artificial y difícil, pues se asume que todos serán Estadísticos Teóricos. Las demostraciones teóricas de las fórmulas ocupan la mayor parte de los capítulos en los textos tradicionales y los participantes pierden el rumbo, confundiendo el concepto cualitativo con la el proceso de la demostración. 3
Este curso, en sus cuatro versiones, está diseñado para brindar al participante un instrumento ágil y operativo que le sirva para resolver problemas reales en entornos reales. De ahí el nombre: Estadística Aplicada (I) con el SPSS Los pasajes sobre la historia de la Estadística y los personajes vienen del estudio “Figures from the History of Probability and Statistics”, John Aldrich, University of Southampton, Southampton, UK. También he acudido a otros sitios e Internet para hacer que el material de este curso sea ameno y se complemente con datos de gran interés. Por último, me gustaría referirme al modo expositivo que caracteriza el desarrollo del curso; he tratado de que sea conciso y claro. He puesto especial énfasis en que nada esté por demás ni por de menos.
moldurasdelplata.com
4
GRANDES ESTADÍSTICOS Y MATEMÁTICOS EN LA HISTORIA Blaise Pascal (1623-1662) Fue un gran matemático como también afamado filósofo, educado por su padre el que, a su vez, también fue un notable matemático. La correspondencia espistolar con otro matemático de gran calibre, Fermat, dio lugar al tratamiento matemático las investigaciones sobre los índices de mortalidad, muy útiles a las compañías de seguro de nuestra época. También dieron origen a los primeros análisis sobre las probabilidades aplicadas a los juegos de azar, algunos de cuyos resultados fueron dados a conocer en la obra póstuma de Pascal Tratado del triángulo aritmético que tiene aplicaciones de la teoría de las probabilidades, con las que argumentó el problema “la ruina del jugador”, obra que es considerada como pionera del análisis moderno sobre el proceso de tomar decisiones, aunque los aportes no están en sus trabajos matemáticos sino en su obra Pensamientos, que son reflexiones sobre la religión.
1 CONCEPTOS FUNDAMENTALES Primer esbozo de la Historia de la Estadística Los eruditos, esos señores que tienen la mitad del conocimiento en sus bibliotecas y la otra mitad en sus cerebros, dicen que la Estadística surgió como un instrumento de análisis en Egipto, por el celo de las autoridades en conocer la población, la cantidad de tierra disponible, los repartos de esa tierra y la riqueza que poseían; pero, sobre todo, para obtener la información necesaria al cálculo de los impuestos. Los chinos ya conocían sobre la técnica de levantar censos y los griegos no se quedaban atrás. Los romanos asimilaron el conocimiento anterior al que le sumaron sus propios descubrimientos en la tarea periódica de levantar censos, en los que se incluía datos sobre las cabezas de ganado, los recursos naturales, como también, los matrimonios, nacimientos y defunciones. La Edad Media no trajo nada nuevo, pero el Renacimiento sí, fue una época en la que se dio gran importancia a las técnicas de recopilar, ordenas e interpretar datos, que es la médula de la Estadística. En la primera mitad del siglo XVI, los alemanes hicieron una recopilación sobre los recursos naturales, la población y otros similares. Por aquellas épocas había una creencia muy difundida en sentido de que en los años terminados en 7, el número de muertos era mucho mayor que en los demás. Gaspar Neumann, un científico de gran voluntad y conocimiento se dio a la tarea de revisar las partidas parroquiales para comparar el número de nacimientos y defunciones de decenas de años. Su investigación le permitió negar la fatídica sombra de los años terminados en 7. Como sucede con todo descubrimiento útil a la ciencia, los métodos usados por Neumann se expandieron. Un astrónomo inglés los leyó con gran atención, los interpretó debidamente y los 5
enriqueció con sus propias e ideas. Todo eso le permitió que el actual cometa Halley llevara su nombre. Además, usó de los métodos estadísticos para sentar las bases que sustentan la estructura de lo que ahora se denominan “Tablas de Mortalidad”, médula espinal de las compañías de seguros. En Grecia, la primera referencia con relación a la futura disciplina estadística podría ser la que se incluye en el Libro II de Tucidides sobre la Guerra del Peloponeso entre espartanos y atenienses. En el texto se anota conceptos propios de lo que ahora llamamos Muestreo. El problema, al parecer, fue el siguiente. El ejército debe asaltar una muralla y los jefes militares han decidido que es preciso contar con una torre móvil que permita a los soldados tomar la ciudadela, minimizando el riesgo. La tarea exige conocer la altura de la muralla. En un despliegue de observación científica, los sabios deciden estimar la altura de la muralla para calcular la altura de la torre. Saben que la muralla está construida con ladrillos de dimensiones iguales; por ello, solicitan que se envíe una pequeña partida de soldados para recopilar datos aproximados sobre la altura del bastión, contando, desde una prudente distancia, el número de ladrillos. Cumplida la misión, los soldados regresan para informar sobre sus observaciones. Pero surge un inconveniente: cada soldado da una cifra distinta del número de ladrillos que cree haber contado y muy pocos de ellos coinciden entre sí. Para resolver el problema, los sabios deciden tomar como indicador los datos que más se repiten en la visión de los soldados; esto es, convienen en usar una medida de tendencia central, que será analizada en esta obra, a la que se denomina la Moda (No; nada que ver con Christian Dior) Variable Es una magnitud que varía pero que puede ser medida, manipulada o controlada. Suelen estar relacionadas con otras variables y cambiar en concordancia. Desde esta óptica, las variables se clasifican en dependientes e independientes. Una variable será considerada Dependiente, en el marco de un estudio concreto, si su magnitud cambia debido a los cambios de otra u otras variables. Por ejemplo, el consumo es una variable que está relacionada al ingreso; si el ingreso aumenta, el consumo de un bien también aumentará Aunque todavía no podemos saber en cuánto; más adelante lo sabremos. Establecer en cuánto se modificará una variable dependiente como efecto del cambio de otra, es una de las más importantes fases de la Estadística. Es decir, su capacidad de pronóstico. En este caso, en la relación Ingreso-Consumo, el Ingreso sería la variable Independiente, pues cambia sin estar ligado al cambio de otra en el análisis concreto. Los modelos de simulación sirven para diseñar experimentos manipulando las variables independientes y determinar la reacción de la variable dependiente.
6
Después de varios intentos, el diseñador lo aplicará a un estudio concreto de la realidad, estudio que es monitoreado por los responsables. Tipos de variables Las variables se dividen en tres grandes grupos: Cuantitativas, Categóricas y de Intervalo. Variables cuantitativas Las conocemos como variables numéricas; este tipo de variables son las más comunes en los estudios estadísticos, pues varían en su magnitud. Variables categóricas Son las variables cualitativas y se dividen, a su vez, en dos grandes ramas: las variables nominales y las variables ordinales. Variables Nominales Son aquéllas que no pueden ser clasificadas ni en una magnitud cuantitativa ni en una magnitud de jerarquía. Por ejemplo, las categorías de género; varón, mujer, son variables de ese tipo. Variables Ordinales Las que aceptan una jerarquización de importancia. El grado de Educación de las personas, por ejemplo, es una variable nominal, puesto que puede ser calificado de acuerdo a un orden, v.g, descendente. Variables de intervalo Nos permiten expandir el radio de las variables numéricas. Ejemplo, el promedio del ingreso semanal de un grupo de estudiantes puede encontrarse entre $3 y 25, intervalo que a veces es más útil que el dato único que nos brinda la media. Relación de las variables Desde el punto de vista de la relación, hay tres clases de variables. Variables dependientes Lo dijimos ya, lo formalizamos ahora: son las que cambian debido a que otra variable o variables han cambiado, de acuerdo con un tipo de relación dada entre ambas. Variables Independientes Las que cambian sin depender del cambio de otras o también se las considera independientes si pueden ser manipuladas para un ejercicio de simulación. Una de las principales tareas del estadístico es determinar cuáles serán las variables independientes y cuáles las dependientes en el análisis que debe realizar. En otros capítulos veremos que una variable Y puede cambiar de magnitud si la variable X, cambia y, al mismo tiempo, ésta puede cambiar cuando cambia la primera 7
Variables neutras Son las que no están relacionadas con ninguna otra. Desde el punto de vista “espacial” las variables pueden ser Variables Discretas Las que entre dos valores aproximados entre sí, toman, a su vez, un número finito de valores; ejemplos: 4 personas, 5 asientos Variables Continuas Son las que en un intervalo dado pueden tomar un número de valores muy grande. Ejemplo, la hora, la temperatura, la distancia, la velocidad…. Hay dos requerimientos que la Estadística exige sobre la relación entre variables. Primero, que obedezcan a una teoría pre establecida o a una hipótesis racional y lógica Por otra parte, que el grado de relación entre ellas sea suficientemente sólido. Por ejemplo, puede suceder que los precios en España cambien en relación directa con los nacimientos de niñas en Corea; esta aparente relación no es aceptable. No lo es, puesto que no hay ninguna teoría científica que le otorgue su aval; en cambio la relación entre el consumo y el ingreso es una relación que proviene de alguna teoría. Una vez que aceptamos teóricamente la relación entre dos variables, nos toca establecer el grado en que ambas están relacionadas entre sí. El valor “p” Estima el grado en que la relación entre dos fenómenos es real y no se debe al azar. Cuantifica la probabilidad del error que cometemos al interpretar una relación. El Nivel de Significancia La cuantificación de la probabilidad del error está directamente relacionada con el grado de confianza que deseamos asegurar en cada caso. Por lo general aceptamos un error del 5% en el grado de relación de las variables. El valor p será el que determine si los resultados están o no dentro de ese margen. El 5%, que escribimos como 0.05, nos hace saber que de 100 casos observados, corremos el riesgo de que tomemos por ciertos 5 casos que son errados. El Nivel de Confianza Es el complemento del Nivel de Significación. Si el Nivel de Significación es del 5%, entonces el Nivel de Confianza será del 95%. El concepto del valor p se asentará a medida que lo vayamos usando. Todos estos datos son computados por el SPSS. La Muestra Más adelante formalizaremos la definición de lo que es una Muestra; mientras tanto, digamos que la Estadística se basa principalmente en los datos provenientes de muestras. 8
Las muestras son tomadas de lo que los estadísticos llaman Población. Podemos adelantar que mientras más numerosa es la muestra en la que trabajemos, más explícita se hará la relación o neutralidad de las variables. Veremos que los elementos de una población, de la que tomamos la muestra, están distribuidos de diferentes maneras, pero que habrá una que nos interesará en particular. Ese tipo de distribución se llama Distribución Normal, y es la que se apega más a la forma en que los sucesos, procesos y fenómenos se distribuyen en la realidad. Por otra parte, la Estadística se divide en dos grandes dimensiones: Estadística Descriptiva e Inferencia Estadística. La Estadística Descriptiva Usa gráficas, tablas y diagramas para conocer las características más importantes de los datos que nos interesan; es con el estudio de esta dimensión que empezamos el curso. Esta rama de la Estadística nos ilustra sobre las medidas denominadas de tendencia central, tales como: la media aritmética, la mediana, la moda. También se ocupa de mostrar las medidas de dispersión: la varianza, la desviación típica, las diferentes distribuciones de cada conjunto de datos… y otros parecidos. Muy pronto, cuando hayamos logrado consolidar los conceptos fundamentales de cada uno y el manipuleo del SPSS, nos haremos expertos en estos y otros temas Finalmente, terminaremos este primer curso con el tema de “test de hipótesis” material para el que se reserva la Inferencia Estadística. La Inferencia Estadística Es la rama que se ocupa de inferir las características de la población por medio del análisis de una muestra debidamente diseñada. Toda tarea estadística empieza con el lanzamiento de alguna hipótesis sobre algún aspecto de la realidad; la hipótesis debe ser verificada. La Estadística es la que hace de verificadora; los resultados que obtengamos de los datos decidirán si la hipótesis es o no aceptable. Ahora bien la primera actividad operativa es la recolección de datos. La Recolección de datos Si no hubiera una base de datos disponible, se diseñará una encuesta orientada a lograrlos, la primera lección en el SPSS se refiere a cómo diseñar y codificar una encuesta. Datos Constituyen la materia prima de las tareas referidas a la Estadística. 9
Información, Los datos por sí solos nada nos dicen Para que sean útiles es preciso que los agrupemos y sistematicemos de la manera adecuada; es decir, que los convirtamos en información. Las fuentes de datos pueden provenir de registros que tienen otras instituciones o de la recopilación directa que realizamos; en este caso, usamos la encuesta. La información así obtenida nos permitirá deducir aspectos relativos sobre las causas y los efectos de los fenómenos que deseamos analizar. También nos sirve para establecer tendencias sobre los comportamientos de las personas y de los procesos, pues nos orientan para obrar adecuadamente. Por ejemplo, supongamos que deseamos realizar un estudio sobre las preferencias del consumidor por nuestros productos y el comportamiento de la competencia. Para averiguar lo que sucede, debemos acudir a las técnicas estadísticas y deducir de los resultados las medidas que consideremos necesarias. El concepto de Población La Población es el total de los elementos potencialmente observables; v.g. el número de familias que existe en una ciudad determinada. El levantamiento de estos datos, los que cubren a todas las familias que viven en una ciudad, se realiza por medio del diseño y la ejecución de un censo. En la disciplina estadística muy raras veces se usa la Población, pues es muy difícil llegar a ella; además, es cara; más bien, usamos la Muestra. La Muestra Es una parte de la Población, la que, utilizando las técnicas que aprenderemos en este curso, representa adecuadamente todas las características que tiene la Población. El Tamaño Muestral Es el número de elementos que conforman una muestra. Los datos ordenados pueden ser representados gráficamente por barras, tortas o varias otras formas visuales que facilitan la percepción primera del análisis. Cuando ingresemos al tema de la distribución de frecuencias aprenderemos a elaborarlos, identificarlos, distinguirlos de los demás e interpretarlos. Hay varias maneras de lograr los datos que necesitamos en una muestra. Para nuestros fines usaremos la encuesta. La Encuesta Es la recopilación sistematizada de datos que logramos de una población determinada y que luego transformaremos en información útil. 10
En vez de enseñar primero el manejo del SPSS y luego empezar con los temas del curso, más bien iremos aprendiendo ambos sobre la marcha. Esto es, Aprenderemos haciendo. Prueba “a la vista” El gerente de la empresa quiere probar “a la vista” nuestros conocimientos sobre la elaboración de hojas de encuesta por métodos computarizados. Desconfiados como son los gerentes, el de nuestra empresa quiere estar seguro de que vamos a incluir diferentes clases de variables y sus significados. Aquí empezamos a explayarnos sobre la materia. Acudimos a nuestro irremplazable amigo, el SPSS, el que nos acompañará a lo largo de éste y los otros cursos y, claro, de otras pruebas “a la vista”. El gerente, al pedirnos que realicemos una tarea como ésa, nos da una gran oportunidad para explicarle, paso a paso, lo que estaremos haciendo para cumplirla. Diseño del Formulario de Encuesta Hacemos click en el nombre del programa, el que debe estar en la sección “archivos” con el nombre de IBM SPSS Statistics, versión 19. Al hacer el click, aparecerán dos archivos. Escogeremos el segundo de ellos: IBM SPSS Statistics 19. Luego de la espera, cuya duración dependerá de la potencia del equipo que se tiene, aparecerá una hoja de diálogo conformada por filas y columnas. En esa hoja habrá una pregunta en el lado izquierdo: ¿Qué desea hacer? En el lado derecho aparecerán cuatro opciones. En esta oportunidad, haremos click en la segunda opción: introducir los datos. Una vez escogida la opción, pulsamos Aceptar. De inmediato se muestra ante nosotros una hoja con celdas constituidas por columnas y filas; esa hoja se llama el Editor de Pantalla o Pantalla de Datos. En ella veremos que hay columnas y filas; en la parte superior de cada una de las columnas se lee la misma palabra: var, que es la abreviación de variable. Es una invitación para que pongamos los nombres de las variables deseadas; bajamos la vista y vemos que en la parte inferior izquierda de la hoja hay dos casillas Una, con la leyenda Vista de datos y la otra: Vista de Variables Nuestra primera tarea será poner nombres a las columnas. Cada columna representa alguna característica de la variable que deseamos analizar. Pulsemos Vista de Variables; el SPSS nos trasladará a una nueva pantalla.
11
Esta nueva hoja sí tiene nombres en las columnas, las que usaremos de inmediato Nuestra primera variable se llamará sexo para definir el género de las personas. En la primera casilla de la izquierda de Vista de Variables, anotamos la palabra sexo; las demás casillas horizontales de la misma fila se llenan por defecto. Recordemos que la variable sexo no es una variable cuantitativa, sino, cualitativa, El SPSS la va a codificar, asignando un número a cada uno de los dos sexos. Antes, vamos a darle al SPSS las características de la primera variables; llevamos el mouse a la primera, Numérico que está debajo de la segunda columna, Tipo. Al pulsar Numérico, aparece una pequeña fila de 3 puntos suspensivos. Pulsamos esa pequeña fila y se nos presente un cuadro de diálogo. Allí hay opciones para los tipos de variables que vamos a necesitar. En este caso, deseamos que la variable sexo. La variable sexo es cualitativa, pero se codifica por medio de un número, por lo tanto pulsamos el botón Numérico y aceptamos. La tercera columna de la pantalla dice Anchura. El rótulo nos indica cuán ancho ha de ser el espacio que ocupará el nombre de la variable sexo; por defecto aparece 8, pero nosotros queremos cambiar a 6. Pulsamos en 8 y se nos aparecen dos flechas. La de arriba para aumentar el ancho y la de abajo, para reducirlo. Como la palabra sexo es más corta, pulsamos la inferior, hasta que aparezca 6. Hacemos exactamente lo mismo para los decimales, con la diferencia de que no los necesitamos, presionamos hasta 0. Seguimos en la fila y llegamos a la casilla Etiqueta, la que debe ser explicada La palabra sexo, que ya consta en la primera casilla es una variable de trabajo, en cambio, el mismo nombre en la casilla bajo el rótulo Etiqueta es forma. Será el nombre que aparecerá cuando demos nuestro informe sobre los resultados de la encuesta; por eso tendrá que ser formal. En la casilla debajo de Etiqueta escribimos Sexo (la primera con mayúscula) Una vez realizada estas operaciones nos encontramos con la casilla Valores, que es en la que convertiremos la variable sexo, que es cualitativa, en una cuantitativa Antes, debemos decidir qué número vamos a asignar a cada sexo. Identificaremos al sexo femenino con el número 1 y al masculino, con el número 2. 12
Para convertir la variable cualitativa sexo en una variable cuantitativa, pulsamos el click en la casilla ninguna, que se encuentra debajo de la columna Valores. Aparecerán tres puntos suspensivos en fila. Hacemos click en ello; al hacerlo, veremos un cuadro de diálogo. En la casilla donde dice Valor inscribimos 1; en la casilla donde dice Etiqueta, registramos la palabra mujer; y pulsamos Añadir. En el cuadro inferior aparece “1 = mujer”; aceptamos. La casilla Valor aparece otra vez vacía. Inscribimos en ella el número 3, y en la casilla Etiqueta registramos la palabra hombre. Pulsamos Añadir y en el cuadro aparecerá “3 = Hombre”. Aceptamos. (Este aparente error tiene un fin, como veremos) El SPSS identificará con esos números el sexo de las personas encuestadas Vamos a la pantalla Vista de datos, pulsando la casilla, al pie de la hoja. La primera columna ya tiene un nombre: sexo; si queremos constatar el nombre que irá en el Informe Final, la apuntamos con el cursor por unos segundos. Aparecerá la palaba Sexo, con mayúscula, que es el nombre formal de la casilla. El gerente general quiere constatar las características de esa variable. Vamos a Vista de variables, que está al final de la hoja y le mostramos lo que nos pide; el nombre de la variable es sexo; el tipo es numérico La anchura es de 6 espacios y tiene 0 decimales Hacemos click en la siguiente casilla, lo que nos lleva al cuadro de diálogo que ya conocemos: el número 0 identifica a mujer y el 3 (¡!) se reserva para hombre. Pero nosotros habíamos decidido que el número codificado para hombre sería 1. Habrá necesidad de modificar el registro. Hacemos click en el dato “3 = hombre” en el cuadro inferior Se activará la casilla Eliminar; hacemos clic en ella, el dato equivocado se elimina y lo cambiamos por 1 siguiendo el mismo procedimiento usado para mujer. El gerente se percata de que sabemos identificar un error y rectificarlo. Ahora nos toca registrar las particularidades de la variable Edad. Este procedimiento es mucho más fácil, porque la Edad es una variable cuantitativa y discreta, no hay necesidad de hacer ninguna modificación. Vamos a la hoja Vista de variables; hacemos click en la casilla vacía debajo de sexo 13
Allí anotamos: edad; horizontalmente dejamos la palabra que ya está allí Numérico. Escogemos 4 y en la siguiente casilla anotamos 0 para el número de decimales En Etiqueta anotamos Edad en años cumplidos y dejamos Ninguna en la casilla de Valores puesto que la variable es cuantitativa y no necesita ser codificada. Ya tenemos registrada la segunda variable. Vamos a Vista de datos; pulsamos unos segundos con el cursor en la casilla edad y aparece el nombre formal, Edad en años cumplidos que irá en el informe final. La tercera variable de la encuesta virtual que estamos haciendo, será Estado Civil. Consideramos que hay 5 categorías: Soltero, Casado, Divorciado, Viudo, Conviviente. Cada una de estas variables, al igual que sexo, es cualitativa, por lo que realizamos las mismas operaciones que hicimos para sexo. Vamos a Vista de variables, pulsamos en la casilla que está debajo de edad; allí anotamos la siguiente palabra: estci, que es una abreviación de Estado Civil La razón por la que recurrimos a la abreviación se debe a que para ciertas operaciones, las variables de trabajo son modificadas por medio del aumento de letras. Vamos a suponer los cinco estados civiles siguientes, en ese orden: Soltero, casado, divorciado, viudo y conviviente La variable estci será numérica con 6 espacios, 2 decimales La Etiqueta: Estado Civil. Llegamos a Valores; pulsamos la casilla correspondiente donde dice Ninguna. Aparecen los tres puntos, hacemos clic y tenemos acceso al cuadro de diálogo. Tal como hicimos antes, en la casilla Valor escribimos 1 y en la casilla Etiqueta, registramos soltero, para luego pulsar Añadir y aceptar. Procedemos a llenar la casilla Valor con el número 2 y la casilla Etiqueta con la palabra casado; pulsamos Añadir y aceptamos. Seguimos con el mismo procedimiento, hasta que tengamos los 5 estados civiles debidamente registrados Ahora nos toca estructurar la variable idiomas. Observemos que la variable sexo nos permite una sola opción: mujer u hombre. La de estado civil también nos permite una sola opción de cinco posibles. En cambio, la variable idiomas nos brinda más de una opción, pues alguien puede hablar dos o hasta tres idiomas. 14
En razón de que tenemos más de una opción, cada idioma tendrá su columna por separado; es decir, ahora se trata realmente de cinco variables, no de una. Establezcamos los siguientes idiomas: Español, Inglés, Alemán y Francés. Empezamos con Español; esp, numérico, 8, 0, espanol (sin la ñ) Lo mismo para todos los demás idiomas. Ahora vamos a realizar una pequeña prueba para ver si el diseño de la hoja de encuesta que hemos estructurado es correcto; Vamos a la hoja de Vista de datos y llenamos cinco filas con datos supuestos; recordemos que cada fila es una hoja de encuesta con todos los datos solicitados. Así, llenamos la primera fila con los datos inventados, en el caso de las variables, como Idiomas, si alguien habla español se anota simplemente 1. Lo mismo para los demás, el hecho de que hable un idioma se registra con 1 Este “1” no significa que el idioma está codificado, más bien muestra que se lo habla. Registrados los datos supuestos, archivamos el ejercicio en el archivo que hemos abierto; en este caso el nombre del archivo que hemos habilitado es: Estadística aplicada I ejercicio 1.sav Ahora bien, una vez que el gerente ha visto que podemos usar el SPSS, nos confía la tarea de analizar las características principales del personal de la empresa. Esas características incluyen estimar el sexo, la edad la experiencia y las medidas De tendencia central: media aritmética de los sueldos, la mediana, la varianza… Añadimos la debida probabilidad de error; para hacer ese ejercicio acudiremos a un archivo de datos que viene adjunto con el paquete del SPSS. Todo eso lo hará la computadora. Pero nosotros tenemos que conocer los conceptos de lo que se nos pide y, claro, manipular los comandos e interpretar los resultados que el SPSS nos brinde. La Estadística no siempre ha recibido un aval de confianza por parte de algunos hombres conocidos en la historia Mark Twain, el autor de Tom Sawyer decía que había tres clases de mentirosos: los normales, los compulsivos y los estadísticos. Lenín mostraba su desdén por los estadísticos poniendo el siguiente ejemplo. Supongamos dos sobrevivientes en una isla; hay un solo pollo, el más fuerte se come el pollo entero y el más débil se muere de hambre, los estadísticos dirán que cada uno se comió medio pollo 15
elpuercoespin.com.ar
16
GRANDES ESTADÍSTICOS Y MATEMÁTICOS EN LA HISTORIA Christian Huygens (1629-1694) Fue otro gran matemático y, además, físico. Sus padres querían que fuera diplomático, pero él eligió la ciencia en la que tuvo la oportunidad de hacer significativos aportes en las áreas de la matemática, de la física y de la astronomía. Estuvo 14 años en la Academia de Ciencias de París. Escribió una obra titulada El Valor del azar en los juegos de fortuna. Gran parte de su obra está orientada a calcular el valor de las expectativas en un juego de azar. Este libro fue muy conocido en su época y estructuró la primera parte de la obra de otro gran matemático en la historia de la Estadística: Jakob Bernoulli. También conoció a Pascal y a Fermat.
2 MEDIDAS DE TENDENCIA CENTRAL La Estadística, como disciplina formal tiene sus bases entre los años 1650 y 1700, era de la Revolución Científica, con nombres ilustres como los que vemos en los retratos. Una Medida de Tendencia Central es el punto medio de una distribución de frecuencias. Ahora estudiaremos las características de las más importantes medidas con breves ejemplos manuales, haciendo uso del SPSS. La Media Aritmética La conocemos como el promedio de una serie de datos. Supongamos que deseamos saber el promedio de la edad de 6 personas que están en un consultorio médico, haciendo un tratamiento especial. Para sacar ese promedio, sumamos las edades de todos y cada uno; luego dividimos el resultado entre 6, que es el número de personas que nos interesa. Media aritmética = (40 + 34 +28 + 10 + 23 + 50)/6 = 30.83 La media aritmética o promedio de las edades de las seis personas es 30.83 años. Si queremos saber el ingreso promedio de 5 amigos que desean ir a tomar un café, preguntamos a cada uno cuanto tiene y luego hacemos lo mismo que en el caso anterior. 17
Los datos que obtenemos de los cinco son los siguientes: El El El El El
primer amigo tiene $4 segundo, $20 tercero, $12 cuarto, $9 quinto, $13
Media aritmética = (4 + 20 + 12 + 9 + 13)/5 = 11,60 El resultado dirá que, en promedio, cada uno tiene 11 dólares con 60 centavos, idependientemente de la suma que cada uno tenga en la realidad. Ese es el concepto fundamental de la media aritmética; luego veremos porqué es tan útil. No importa cuán pequeña o grande pueda ser el conjunto de datos que se nos presente, la media aritmética siempre tendrá la misma definición: Será la suma de todos los valores, dividida entre el número de casos. Usando símbolos, tendremos: X* = ΣXi/n X* es la media aritmética de la muestra que hemos tomado; Xi, representa a cada uno de los valores que serán sumados; n es el número de observaciones. La misteriosa Σ indica que todos los valores Xi deben ser sumados. Tomemos otro ejemplo cualquiera X* = (9 +7 + 7 + 6+ 4+ 4 + 2)/7 = 5.6 En este conjunto hay dos valores repetidos (el 7) pero eso no importa, el SPSS lo toma en cuenta como cualquiera de los demás valores. En los libros de Estadística se pone ejemplos sobre las formas de estimar la media aritmética cuando los datos están ordenados o están desordenados. Esto no tiene importancia para el SPSS; después, cuando ya sepamos desenvolvernos mejor, aprenderemos a usar los rangos. Ventajas y desventajas de la media aritmética Ventajas, un solo número representa a un conjunto de datos, concepto con el cual todos estamos familiarizados. Nos permite realizar comparaciones entre varios conjuntos de datos; por otra parte, cada conjunto de datos tiene una sola media. Desventajas; puede haber valores extremos que no son representativos del conjunto de los datos que estamos tomando en cuenta. Para probarlo, tomemos la media aritmética de los siguientes datos, los que representan los ingresos mensuales de 7 personas que trabajan en una empresa. 18
2400, 3200, 2580, 3260, 2500, 2840, 19000 La media aritmética sería: X* = (2400 + 3200 + 2580 + 3260 + 2500 + 2840 + 19000)/7 = 5111 Pero nos damos cuenta de que la media está muy sesgada por el ingreso de 19000 Hagamos la prueba, eliminemos el valor extremo de 19000, que es el sueldo del gerente general: 2400, 3200, 2580, 3260, 2500, 2840)/6 = 2796.67 Éste es un valor más representativo de los ingresos mensuales que perciben los empleados; en este caso, será más útil calcular la media anulando el valor extremo La Media Aritmética Ponderada El siguiente ejemplo es del libro “Estadística para Administradores” Levin y Rubin El costo por producto incluye diferentes grados de calificación de la mano de obra; si utilizamos la media aritmética simple, tendríamos que el salario promedio sería: X* = (5 + 7 + 9)/3 = $7 Este sería el costo en una jornada normal de 8 horas de trabajo Tabla 2.1 Tipos de trabajo y salarios Tipo de trabajo No calificado Semicalificado Calificado
Salario por hora
Sillas
Mesas
5 7 9
1 2 5
4 3 3
En la tabla 2.1 vemos que la producción de sillas toma 1 hora de trabajo no calificado; 2 horas de trabajo semicalificado y 5 horas de trabajo calificado Si estimamos el promedio salarial de $7 por hora sin ponderarlos, tendríamos: El costo de producir sillas: El costo de producir mesas:
7(1 + 2 + 5) = $56 7(4 + 3 + 3) = $70
Estos resultados no serían reales, puesto que el número de hs. de cada categoría de trabajo varía en la producción de cada item, y con ello, en el costo respectivo El costo promedio correcto de la producción de sillas resulta de la ponderación de del tipo de trabajo, pues cada uno tiene un salario diferente. La producción de sillas utiliza una combinación de los tres tipos de trabajo. 19
Una hora de trabajo no calificado, cuyo salario es de $5 por hora; dos horas de trabajo semicalificado y el salario de $7por hora; 5 horas de trabajo calificado, y un salario de 9 por hora; ahora sí, estimamos el costo correcto de sillas y mesas; es decir, el costo ponderado. El costo correcto de las sillas: El costo correcto de las mesas:
(5 x 1) + (7 x 2) + (9 x 5) = $64 (5 x 4) + (7 x 3) + (9 x 3) = $68
A continuación calcularemos el costo promedio por hora para la producción de las sillas y, aparte, para la producción de las mesas La fabricación de sillas tomó un total de 8 horas de trabajo (1+2+5) El costo promedio de las horas de trabajo usado en las sillas será 64/8 = 8 En el ejemplo de las mesas, como se invirtieron 10 horas de trabajo en su producción, el promedio salarial será: 68/10 = $6.8 por hora de trabajo. La distinción entre los conceptos de promedio simple y promedio ponderado es muy importante y requiere diferentes modos de estimarlos; el SPSS lo hace sin dificultad. La Media Geométrica Se usa, principalmente, para estimar los promedios de cantidades que cambian con el tiempo; tomemos el ejemplo de una cuenta de ahorro que paga intereses. Si dejamos el dinero depositado por algunos años, sin retirarlo, a una tasa de interés anual determinada, el depósito inicial se irá acumulando año tras año. El interés se irá sumando al capital cada año; cada nuevo monto sumará los intereses y así sucesivamente. Ejemplo: Interés compuesto Supongamos que al comienzo del año depositamos $ 1000 en una caja de ahorros que nos ofrece un interés anual de 10%. La condición es que el depósito continúe por 4 años seguidos sin hacer retiros. Deseamos saber la cantidad que recibiremos al final del cuarto año. Al final del primer año tendremos 1100; los 1000 originales más el 10%, que es $100; los 100 dólares de interés ganados en el primer año, se suman a los 1000 originales. Para el siguiente periodo nuestro depósito original se habrá convertido en $1100. Al final del segundo año, tendremos una ganancia del 10% de $1100, ya no de 1000. Nuestra cuenta acumulada a fines del segundo año será 1100 x 0.10 = 110, los que sumados a los 1100 que ya teníamos, nos dará un total de 1210 y así sucesivamente La fórmula concreta para estimar las tasas de interés compuesto en este caso particular, viene estructurada de la siguiente manera 20
Depósito original = 1000 Tasa de interés anual = 10% Número de años que dura el depósito sin retirar fondos = 4 Total del dinero que tendremos al final de cuarto año: 1000 (1+0,10)4 = 1000(1.1)4 Total = 1000(1,4641) = 1464.10 Los 1000 dólares originalmente depositados se han convertido en 1464.10. Este tipo de problemas se vuelven muy complicados cuando las cantidades y el número de años es mucho mayor, algo que no es ningún problema para el SPSS. Pero quedan todavía otros estadísticos de tendencia central, cuyos conceptos debemos conocer, distinguir e interpretar, antes de recurrir al SPSS. La Mediana Valor que está más al centro de un conjunto de datos ordenados de menor a mayor Conjunto de observaciones impar Registramos los siguientes datos que representan los ingresos semanales de 11 personas tomadas al azar como una muestra y los ordenemos de menor a mayor: 120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750 De acuerdo con la definición dada, la Mediana será $380, pues ese monto está exactamente al medio del conjunto de datos de la muestra. El número de observaciones nos indica que hay cinco a la izquierda de la Mediana y cinco a la derecha; esa simetría se debe a que el número total de observaciones es impar Conjunto de observaciones par Si agregamos un dato más a la muestra, v.g. 780, tendremos: 120, 140, 200, 240, 260, 380, 390, 450, 630, 700, 750, 780 El número de datos de la muestra es par (12) por lo que nos encontramos con dos datos centrales: 380 y 390, pero no podemos escoger uno de ellos arbitrariamente. Para calcular la Mediana calcularemos la media aritmética de los dos valores centrales, de la manera que hemos aprendido: (380 + 390)/2 = $385 El SPSS calculará inmediatamente la Mediana de series de cualquier tamaño y tipo. Ventajas de la Mediana La mediana no está influida por valores extremos, como está la media aritmética. La Moda Es el valor que más se repite en el conjunto de datos y que los griegos que deseaban fabricar una torre para desbaratar la ciudad sitiada utilizaron como indicador. 21
Tomemos los datos utilizados en la mediana, pero lo transformemos de tal manera que el valor 260 se repite tres veces; en ese caso la Moda será 260. 120, 140, 200, 240, 260, 260, 260, 380, 390, 450, 630, 700, 750, 780 La Moda se aplica en el caso de que haya varios valores repetidos en la muestra. Cuando lleguemos al capítulo de las distribuciones, usaremos una gráfica de distribución para comparar la media aritmética, la mediana y la moda, entre sí. Mientras tanto, diremos que no hay reglas generales que nos permitan escoger alguna de ellas; pero la media aritmética es la más utilizada. Tales son las medidas de tendencia central más importantes. Medidas de dispersión Vimos que las medidas de tendencia central identifican un valor que se acerca más al centro de una serie de datos o de elementos. Las medidas de dispersión nos muestran el grado en que se alejan del centro. La primera medida de dispersión, la más simple, es el rango El Rango Es la diferencia entre el valor más alto y el más pequeño de los datos. Acudamos otra vez a las serie de datos utilizados para calcular la Mediana: 120, 140, 200, 240, 260, 260, 380, 390, 450, 630, 700, 750, 780 El Rango será 780 – 120 = 660 El SPSS ordenará cualquier conjunto de datos que no estén ordenados. El Rango nos da una primera percepción sobre las diferencia extremas que median en una serie de datos, digamos, en un registro de salarios. Medidas de desviación promedio Calcula la desviación promedio entre los valores de una serie de datos y una medida de tendencia central; el SPSS las calcula; aquí nos interesa el concepto. La Varianza Es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística; la varianza de la muestra se representa por S2 Para aclarar el concepto, tomemos los siguientes datos: 2, 4, 6, 8, 10 La media aritmética será: (2 + 4 + 6 + 8 + 10)/5 = 30/5 = 6 Con ese dato, analicemos los valores originales El valor 2 se desvía en - 4 de la media aritmética (2 - 6 = - 4) El valor 4 se desvía en - 2 unidades: (4 - 6 = - 2) El valor 6 no se desvía de la media aritmética: (6 – 6 = 0) 22
El valor 8 sí se desvía en 2 (8 – 6 = 2) que es una desviación positiva. Lo mismo sucede con el valor de 10, su desviación positiva es 4 (10 – 4 = 6) Si deseáramos sacar la media aritmética de estas desviaciones nos encontraríamos que su valor sería 0, pues los valores positivos anularían a los negativos. Para eliminar este problema no tomamos en cuenta la desviación simple de cada observación con la media aritmética; más bien elevamos cada desviación al cuadrado Lo hacemos así, porque una cantidad elevada el cuadrado, ya sea positiva o negativa, siempre nos dará un resultado positivo, que es lo que se busca. La suma de los cuadrados de esas diferencias será dividida por el número de observaciones, que es 5, al que le restaremos 1. Así lo determinaron los grandes matemáticos. El denominador será 5 – 1 S2 = [(2 – 6)2 + (4 – 6)2 (6 – 6)2 + (8 – 6)2 + (10 – 6)2]]/(5 – 1) S2 = [(-4)2 + (-2)2 + (0)2 + (2)2 + (4)2]4 = [(16 + 4 + 4 + 16)]/4 = 40/4= 10 En consecuencia diremos que la varianza de la Muestra es 10. La Desviación Típica de la Muestra = s Para estimar la Varianza tuvimos que elevar las diferencias al cuadrado. Ahora hacemos la operación inversa y sacamos la raíz cuadrada de S2. De esa manera definimos la Desviación Típica de la Muestra = s s = raíz cuadrada de S2 (Raíz cuadrada de la Varianza) En este caso, s = raíz cuadrada de 10 = 3.16 El Coeficiente de Variación Es la relación entre la desviación típica y la media de la muestra: s/X* Las medidas de tendencia central y de dispersión son los estadísticos básicos de la Estadística; por supuesto, son también los más usados en todos los niveles. Este ejercicio complica cuando la muestra tiene, digamos, 20000 observaciones Pero, calcular una muestra para esos valores es una tarea rutinaria del SPSS. El Uso del SPSS Una vez definidas conceptualmente las medidas de tendencia central y las medidas de dispersión, vamos al SPSS para aprender cómo las obtenemos. Supongamos que deseamos saber las medidas de tendencia central y de dispersión de los sueldos actuales que reciben los empleados de la empresa. Abrimos el SPSS, pulsamos la tecla registrar datos del cuadro de diálogo. Una vez que tenemos el editor de datos, pulsamos archivo 23
Abrimos Employee data.sav del archivo que viene incluido en el SPSS 19. En la pantalla de datos colocamos el cursor en cada uno de los títulos de las columnas para saber en cual columna están los salarios actuales de los empleados Apuntamos el cursor en la columna salary, por unos segundos para ver el nombre formal y para instruir al SPSS que calcule los estadísticos deseados. Sin embargo, de entrada vemos que hay un problema. Los salarios están registrados con el signo $ = dólar; para calcular los indicadores que deseamos, tenemos que cambiar los datos al tipo Numérico. Vamos a Vista de Variables; encontramos la fila donde dice salary y su nombre formal es Current Salary, que es el que luego nos interesará El título de la segunda columna dice Tipo, debajo de ella los datos registrados tienen el signo $; hacemos doble click en la casilla que dice Dólar en la columna Tipo. Ingresamos al cuadro de diálogo y allí vemos que, la variable “salary” está expresada en Dólares; ponemos el cursor en el botón Numérico y aceptamos. Volvemos a Vista de datos y vemos que el signo Dólar ($) ha desaparecido. Ahora podemos instruirle al SPSS que nos calcule los indicadores que deseamos sobre la variable salary; en el menú superior pulsamos en Analizar. Se nos presentará un cuadro de opciones; pulsamos Estadísticos Descriptivos A la derecha aparecerá otro cuadro, del cual escogemos Descriptivos Se nos presentará un cuadro con las variables de Employee data.sa a la izquierda, de inmediato nos damos cuenta que las variables están registradas con sus nombres formales. También vemos un cuadro en blanco a la derecha. Pulsamos en Current salary en el cuadro de la izquierda y la flecha que apunta a ese cuadro; la variable Current Salary ya está en el cuadro blanco. Pulsamos options y en el cuadro que aparece, escogemos: Rango, Salario Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y Varianza Volvemos al anterior cuadro de diálogo. Allí pulsamos aceptar; se nos presentará el Editor con los datos; si el SPSS no nos lleva directamente al cuadro de resultados, lo hacemos manualmente. En el menú superior del Editor encontramos la casilla Ventana y hacemos click. Aparecen dos líneas.
24
Escogemos la primera que dice Resultados; así nos trasladamos hasta la hoja de resultados en la que vemos una pequeña tabla, la que se muestra a continuación. La trasladamos a esta página, simplemente copiándola de la hoja de resultados. Tabla 2.2 Estadísticos descriptivos N
Rango
Current Salary
474 119250
N válido (según lista)
474
Mínimo
Máximo
15750
135000
Media 34419,5 7
Desv. típ.
Varianza
17075,66 2,916E8 1
“N” significa el número de observaciones, en este caso nos dice que en la empresa hay 474 empleados y que el SPSS los ha tomado a todos. El Rango, es decir, la diferencia entre el salario mayor y el menor, es $473 El Salario Mínimo es $15740 al año; el máximo es $135000. La Media aritmética o el promedio de los salarios es $34419.57 La desviación típica es 17075.661 La Varianza registra un valor de 2,916E8, en notación científica. La notación científica se usa para ahorrar espacio; en este caso, el número 8 nos dice que después del 2 debe haber 8 dígitos, esto es: 29160000. A la izquierda de la hoja de resultados hay un menú que registra los rubros y la información que tenemos en la pantalla blanca. Una vez que un ejercicio haya sido terminado y debidamente archivado, hacemos click en alguno de los rubros de ese menú para borrar los resultados que ya no necesitemos. Nos encontramos en el Cuadro de Resultados, deseamos volver a la pantalla de datos. Para ello pulsamos Ventana en el menú superior y escogemos Employee data.save Supongamos que deseamos saber los mismos estadísticos pero para los salarios que los empleados ganaban al momento de ser contratados por la empresa; es decir, salbegin. Las operaciones serán las mismas que las que realizamos en el anterior ejercicio: lo primero que nos fijamos es que los registros tienen el signo del dólar ($) debemos anularlo. Vamos a la pantalla Vista de Variables para ubicar dónde está la variable que buscamos; está en la fila 7; la casilla de la derecha, bajo la columna Tipo registra la palabra Dólar. Pulsamos en la palabra Dólar; aparecen tres puntos suspensivos; pulsamos el mouse en esos puntos y en el cuadro de diálogo hacemos click en el botón Numérico; aceptamos.
25
Antes de salir de ese cuadro notamos que la Etiqueta de salbegin la registra con el nombre de Beginning Salary; tomamos nota de ello para la operación siguiente. Este es un buen momento para recurrir a un proceso más ágil. Vamos a usar el símbolo → para mostrar el encadenamiento de operaciones. Analizar → Estadísticos Descriptivos →Descriptivos En la parte izquierda de la pantalla blanca vemos la lista de variables completa, cada una escrita con el nombre formal Allí nos encontramos con que en el cuadro derecho aún está la variable Current Salary, la que habíamos analizado anteriormente; ahora debemos sacarla del cuadro blanco. Hacemos click en la variable Current Salary pulsamos la flecha, la que ahora indica la dirección opuesta, y la variable Current Salary vuelve al cuadro izquierdo. Pulsamos la columna en salbegin que tiene el nombre formal de Beginning Salary y luego la flecha de dirección y la introducimos en la pequeña pantalla blanca de la derecha. Hacemos click en Opciones y escogemos los estadísticos que nos interesan: Rango, Salario Mínimo, Salario Máximo, Media Aritmética, Desviación Típica y Varianza Continuar → Aceptar El SPSS nos lleva al cuadro de resultados al que copiamos para analizarlo aquí. La tabla de resultados estará estructurada del siguiente modo. Si comparamos los promedios entre los salarios actuales y los que se recibían al comienzo, veremos la diferencia: 34419 para los primeros y 17016 para los otros. Tabla 2.3 Estadísticos Descriptivos N
Rango
Mínimo
Máximo
Media
Desv. típ.
Varianza
Beginning Salary
474
70980
9000
79980
17016,09
7870,638
61946944,959
N válido
474
A medida que avancemos, podremos establecer si la diferencia de dos promedios es o no significativa, determinación que es muy útil en una investigación de tipo estadístico. Una vez terminado el ejercicio volvemos a Vista de Datos, vamos al menú para archivarlo con el nombre que ustedes deseen, en cada caso. Borrar información de la Pantalla de Resultados Cada vez que deseamos tener una nueva pantalla de resultados, borramos las que ya no necesitamos; llevando el cursor a la izquierda y pulsando el botón de Resultado. 26
El SPSS borrará todos los elementos que constan en la pantalla. Si se prefiere borrar de ítem en ítem, se ejecutará el mismo procedimiento. El Coeficiente de Variación Vimos que es la relación entre la desviación típica y la media de la muestra: s/X* Tomemos la desviación típica de la tabla de Begining salary que es 7870 y la media, 17016; el coeficiente de variación será 7870/17016 = 0,462 Con esto terminamos el análisis de las medidas de tendencia central y de las medidas de dispersión, tanto en su percepción conceptual como en la parte operativa. En fases ya más avanzadas veremos que estos conceptos son la base misma de la disciplina estadística, en todas sus ramas; por eso es importante tenerlos en mente.
GRANDES ESTADÍSTICOS Y MATEMÁTICOS EN LA HISTORIA Jakob (James) Bernoulli (1654-1705) Matemático Los eruditos nos hacen saber que ocho miembros de la familia Bernoulli tienen biografías separadas por sus contribuciones a la ciencia. De los ocho, ahora nos interesa, Jakob y luego Daniel, después de Moivre. Jakob estudió filosofía, pero aprendió matemáticas por su cuenta; inclusive, fue catedrático de matemáticas en la Universidad de Basel. Su obra más conocida, Ars Conjectandi, fue publicada después de su muerte y ejerció una gran influencia en esa época como lo es hasta ahora. Fue el primero en introducir los conceptos de combinaciones y permutaciones, temas que serán abarcados en esta obra. Usó los término A priori (antes de la experiencia) y a posteriori (después de la experiencia) para mostrar que si se conocen las probabilidades dadas por la experiencia, podemos afirmar a priori el resultado de un proceso, con un riesgo de error predeterminado. Por ejemplo, si arrojamos mil veces una moneda, la probabilidad de que salga cara o cruz se irá acercando a la probabilidad teórica del 50% para cada uno de los resultados. Aquí está implícita su teoría de la Ley de los grandes números, una de sus más conocidos aportes; es en esta dimensión en la que se concretan las probabilidades teóricas. El otro aporte, que también es usado al presente se refiere a un tipo de distribución conocida como la Distribución Binomial, el que será analizado en este capítulo, junto a otras clases de distribución
27
3 DISTRIBUCIÓN DE FRECUENCIAS Concepto Una distribución de frecuencias es una tabla en la que organizamos los datos dividiéndolos en Clases o grupos que describen alguna característica de los datos que usaremos. Si no dividimos los datos en grupos, entonces, cuando pidamos, v.g, las frecuencias de los salarios, el SPSS nos dará un cuadro con el salario de cada uno de los empleados. Si la fábrica tiene 2000 empleados, tendremos un cuadro de 2000 salarios. Sin embargo, cuando necesitamos las medidas de tendencia central o cualquier otra, el SPSS acudirá a los datos originales, no a los grupos. A no ser que, por alguna razón, necesitemos la media u otro estadístico de los grupos. Una distribución de frecuencias muestra el número de observaciones del conjunto de datos que caen en cada una de las clases en las que hemos dividido los datos originales. Para hacerlo, utilizaremos el SPSS y el archivo Employee data.sav vamos a construir el cuadro de frecuencias del salario actual (Current Salary) de los empleados de la empresa. Menú Principal → Transformar → Recodificar en distintas variables. Abierto ya el cuadro de diálogo vemos dos pantallas. La pantalla de la izquierda contiene todas las variables; escogemos Current Salary y la trasladamos a la pantalla de la derecha, haciendo click en la flecha de dirección. En la casilla, Current Salary ha cambiado a salary, que es el nombre que aparece al comienzo de la columna respectiva, mientras que Current Salary, es la etiqueta formal. En el cuadro aparece un signo de interrogación después de salary, eso significa que el SPSS nos pide dar un nuevo nombre a la variable que vamos a recodificar. En la parte derecha hay dos casillas: una que dice nombre y la otra etiqueta. Entramos a nombre y registramos el nombre que deseamos ponerle a la nueva variable: rsalary (Podría ser cualquier otro) En la casilla Etiqueta ponemos el nombre formal Salario Actual; pulsamos Cambiar La variable rsalary ocupa el lugar donde estaba el signo de interrogación. Así, hemos estructurado una nueva variable, rsalary, sobre la base de la variable salary. Desde este momento, el SPSS tratará a la nueva variable como independiente. 28
Pulsamos en la casilla de la parte inferior: Valores antiguos y nuevos; vemos un cuadro de diálogo; éste cuadro es el que nos ayudará a dividir nuestros datos en clases. Lo que vamos a hacer es codificar las clases, como codificamos la variable sexo Vamos a dividir los datos en cuatro clases; para ello pulsamos el botón que dice: rango, en la parte izquierda del cuadro; al hacerlo, se habilitarán dos casillas en blanco. En la primera registramos 15000 (el valor mínimo de los salarios) en la casilla de abajo, escribimos 45000; vamos a la parte superior derecha → valor y en la casilla anotamos 1. Click en Añadir y en la casilla inferior aparece 15000 trhu 45000 → 1. La primera de nuestras clases incluirán todos los valores desde 15000 hasta 45000. Otra vez vamos a la izquierda click → “rango” y anotamos 45001 en la casilla de abajo. Vamos a la casilla inferior, donde dice “hasta” y anotamos 75000. Nos trasladamos al lado derecho → “Valor”, anotamos 2 en la casilla respectiva → click en Añadir; en la pantalla inferior aparecerá un nuevo registro después del anterior. Esta vez con la leyenda que dice: 45001 thru 75000 → 2. Para la tercera clase; anotamos 75001 en la casilla rango y 105000 en la que dice thru Al lado derecho →valor, anotamos 3 → Añadir; la tercera clase aparece en la parte de abajo: 105001 thru 135000 anotamos 4 → Continuar Si el SPSS nos lleva a la pantalla de resultados, tendremos que salir de allí Nos vamos a Vista de Datos para ver que en la última columna de aparecerán los intervalos codificados 1, 2, 3 y 4, de acuerdo con los valores de cada rango salarial. Pero, lo que deseamos es que en la Pantalla de Datos aparezcan, textualmente, los intervalos, tales como 15000 – 45000 para todos los rangos que hemos recodificado. Vamos a Vista de Variables, ubicamos la variable rsalary En la columna Valores, aparece el rótulo Ninguna Click en los puntos y se nos abre un cuadro de diálogo. En la casilla Valor anotamos 1 y en la que dice Etiqueta registramos 15000 – 45000, pulsamos Añadir y esta primera clase aparece registrada en la pantalla Hacemos lo mismo con 45001 – 75000; seguimos dando los mismos intervalos anteriores Estamos recodificando la nueva variable “rsalary”, cuyo nombre formal Salario Actual incluimos en la casilla correspondiente a la columna Etiqueta. Continuamos del mismo modo, variando las clases de 75001 en 105000 hasta llegar a la última, la clase número que será 105001 – 135000 29
Aceptamos y en la pantalla de datos tendremos los intervalos, ya no como números 1, 2, 3, 4, cada uno de los cuales representaba un intervalo, sino como los intervalos reales La primera clase 15000 – 25000 ha sido registrada sin ninguna variación, pero la siguiente empieza con 25001, para no repetir el valor de 25000; lo mismo con las demás. Ahora nos corresponde saber cuántas observaciones hay en cada clase. Frecuencias En la pantalla de Vista de datos, vamos al menú superior y pulsamos Analizar; se abrirá el cuadro de opciones; de allí escogemos Estadísticos Descriptivos → Frecuencias. Se abre el cuadro en el que la lista de variables está a la izquierda. Hacemos click en la nueva variable RCurrent Salary y con la flecha de dirección la llevamos a la derecha; aceptamos. En la pantalla de Resultados aparece el cuadro de frecuencias con las clases respectivas; Es el cuadro que nos servirá para diseñar nuestra primera distribución de frecuencias. Estructurar una Distribución de Frecuencias El cuadro que aparece en la pantalla de resultados nos muestra el número total de casos, 474, y las clases salariales que habíamos estructurado. La clasificación de los salarios en clases, con los rangos determinados, nos permite saber cuántas personas hay en cada clase y graficar con mayor claridad los datos Hacemos click en el cuadro, pulsamos el botón derecho del mouse y escogemos copy, y posteamos en la presente página, para realizar las modificaciones necesarias. Tabla 3.1 Salario Actual
Válidos 15000 - 45000 45001 - 75000 75001 - 105000 105001-135000 Total
Frecuencia 391 66 15 2 474
Porcentaje 82,5 13,9 3,2 ,4 100,0
% acumu% válido 82,5 13,9 3,2 0,4 100,0
lado 82,5 96,4 99,6 100,0
Para formular el cuadro de distribución de frecuencias, reemplazamos el título “Porcentaje válido” por “Probabilidad” y anulamos la última columna, operando desde el Word. Hacemos click con el botón derecho del mouse → Delete Cells En las opciones click en Delete Entire Colum; ponemos el título “Distribución de Frecuencias de los salarios”; la tabla 3.1 queda estructurada.
30
El cuadro de probabilidad resulta de la división entre 100 de todos y cada uno de los datos que aparecen como porcentaje en la tabla anterior. Los datos de la nueva tabla se interpretan de la siguiente manera En la empresa hay 391 empleados que ganan un salario comprendido entre 15000 – 45000; lo que representa una porcentaje del 82.5%. La probabilidad de que escojamos a uno de ellos, de entre todos los empleados, es 0,825 La lectura de los datos del cuadro nos permite saber lo siguiente: Hay 66 empleados que perciben un salario comprendido entre 45001–75000 y constituyen el 13,9% del total; la probabilidad de que escojamos a uno de ellos es 0,139 Esos datos transformados quedan registrados en la tabla 3.2 Tabla 3.2 Distribución de Probabilidades de los Salarios Clase 15000 - 45000 45001 - 75000 75001 - 105000 105001 - 135000 Total
Frecuencia 391
Porcentaje 82,5
Probabilidad 0,825
66 15 2 474
13,9 3,2 ,4 100,0
0,139 0,032 0,004 100,0
El total de las probabilidades suma 1, tal como se ve en la tabla; cada probabilidad se obtiene dividiendo el porcentaje respectivo entre 100; para los decimales se usa la coma. Gráficas de las distribuciones de frecuencias: El Histograma Es una gráfica que consiste en una serie de rectángulos, el ancho de cada uno mide la distancia que existe entre las cantidades que estructuran una clase estratificada. La distancia vertical nos da los valores para esa clase. Para obtener el Histograma respectivo vamos al Menú Principal → Gráficas → Cuadros de diálogos antiguos → Histograma. Click en la casilla Títulos, que está en la parte superior derecha la casilla En la primera línea escribimos RCurrent Salary; en la segunda, Niveles Salariales Estratificados → Continuar → Aceptar El SPSS nos da la siguiente gráfica. La clase 1 (15000–45000) está representada por la base del primer rectángulo; la altura de cada rectángulo señala el número de frecuencias que se encuentran en ese intervalo. A la derecha se muestra la media, la desviación típica y el número total de empleados 31
El histograma es útil para el técnico, pero no es muy claro para los ejecutivos. Gráfica 3.1
Gráfica 3.1
El Histograma es de gran ayuda, especialmente cuando queremos comprobar si la distribución de una variable se aproxima a la distribución normal, tal como veremos después. Así, las clases simplemente están representadas por números, los que no dicen mucho cuando deseamos presentar un informe a los ejecutivos de la empresa. Para llevar un informe más claro a los ejecutivos, recurrimos a la gráfica de barras. El SPSS nos presenta varias opciones, las que serán utilizadas en su oportunidad Serán usadas a medida que aprendamos más de Estadística y el manejo del SPSS. Gráfica 3.2
32
Gráficas de barras y Pie Podemos lograr un resultado más completo en el Menú Gráficas – Generador de Gráficas Para obtener las barras de frecuencias, pulsamos Gráficas en el Menú Principal; elegimos Cuadros de diálogos antiguos → Barras → Simple → Definir → No. De Casos Introducimos RCurrent Salary en la casilla que dice Eje de Categorías En la parte superior derecha hacemos click en Títulos; allí escribimos: Current Salary en la Primera Línea y RCurrent Salary. Copiamos la gráfica y vemos que nos ha dado los intervalos y las frecuencias de cada uno anotando el intervalo concreto en cada caso; no sólo como categorías 1, 2, …. Si se quiere cambiar las características del gráfico: el color, la textura, la letra…hacemos doble click en la gráfica de barras; aparecerá un nuevo menú En este menú escogemos editar y allí elegimos la opción que nos parezca más adecuada. Gráfico de Sectores (Pie) La misma información podemos lograr con la gráfica de Sectores o Pie. Gráfica 3.3
Gráficas → Cuadros de diálogos antiguos → Sectores → Definir → definir sectores por Es a esa casilla que traemos la variable: RCurrent Salary →Títulos La gráfica que aparece en el cuadro de resultados muestra los datos que le habíamos pedido; la traemos a la presente página a través de Copy. Cambiamos lo que nos parezca, haciendo doble click en la torta del cuadro de resultados.
33
Con esto concluimos la primera parte del uso de gráficas; más adelante recurriremos a éstas y otras con diferentes significados y grados complementarios de utilidad Hagamos una breve pausa para observar cómo vamos aprendiendo Estadística y, al mismo tiempo, el uso del SPSS. Me pareció más conveniente este método de “aprender sobre la marcha” en vez de dar un curso completo de cada dimensión, una a la vez, por separado. Cuando terminemos el curso de Estadístico, en sus cuatro niveles, éste es el primero de ellos, habremos concluido también con el aprendizaje del SPSS.
GRANDES ESTADÍSTICOS Y MATEMÁTICOS EN LA HISTORIA Abraham de Moivre (1667-1754)
Fue a Inglaterra buscando refugio, pues era perseguido en Francia. Fue reconocido como un gran matemático y nom-brado miembro de la Sociedad Real, aunque nunca obtuvo un título académico.Había leído la obra de Huygen y su primer ensayo sobre Probabilidad fue publicado en 1711. Un año después publicaría “Un Método de calcular la Pro-babilidad de los Eventos en el Juego”. Su tercera obra apa-reció en 1933 con una definición sólida de Probabilidad. Obtuvo una aproximación normal a la distribución bino-mial, lo que constituye un gran adelanto en el Teorema del Límite Central, que analizaremos luego. Tambien diseñó la Distribución de Poisson. Sus innovaciones técnicas incluín las funciones de generación de probabilidad, principio que usó para encontrar la distribución de la suma de variables uniformes. De Moivre también escribió sobre la matemática referida a los seguros de vida, v.g, la función de sobreviven cia. Todhunter dijo de él, poniendo de relieve la contribución de De Moivre: “no habrá duda alguna que la Teoría de la Probabilidad debe más a él que a cualquier otro matemático, con la excepción de Laplace.
4 PROBABILIDAD Introducción Aunque para resolver todos los problemas que se nos presenten acudiremos al SPSS, sin embargo, es necesario conocer los conceptos de la clase de problemas a solucionar. Los principales precursores del cálculo de probabilidades fueron Jacob Bernoulli (1674-1705) Thoma Bayes (1702-1761) Joseph Lagrange (1736-1813) y Carl Friedrich Gauss. La teoría de la probabilidad es la base es la base de las investigaciones estadísticas en las investigaciones de las ciencias sociales y en la toma de decisiones.
34
En realidad, las llamadas “leyes” en las ciencias sociales no son sino tendencias estadísticas en el tiempo, las que pueden ser estimados con un grado de probabilidad. Conceptos básicos Probabilidad es la posibilidad cuantificada de que algo suceda. Evento: Uno más de los posibles resultados de hacer algo. Si lanzamos una moneda al aire, saldrá “cruz” o “cara”; cada resultado será un evento. Experimento, la actividad que produce un evento; en este caso, el lanzar la moneda. ¿Cuál será la probabilidad de que una moneda, al ser lanzada, caiga “cara”? será 0,5 Espacio muestral: al lanzar la moneda el espacio muestral es: {cara, cruz} Si dos eventos pueden ocurrir al mismo tiempo, serán eventos no son mutuamente excluyentes; si no pueden ocurrir simultáneamente, serán mutuamente excluyentes. La probabilidad de sacar una carta de un paquete de 52 cartas, será 1/52 La de sacar una reina será 4/52, pues existen cuatro reinas en el mazo. La de sacar un trébol será 13/52, pues hay 13 tréboles en un mazo. La probabilidad de sacar una carta roja es 26/52, dado que hay 26 cartas rojas. La probabilidad de sacar un “as” al lanzar un dado es 1/6, porque hay seis números y un solo “As”: del mismo modo con los otros números. Probabilidad Clásica La probabilidad de que un evento ocurra es definida del siguiente modo: E = Evento F = número de casos favorables T = el total de casos
E = F/(T)
En el ejemplo de las cartas, el número favorable de sacar una reina es 4 El total de casos es 52 En el caso de los dados, el número favorable de sacar un “as” es 1 El total de casos es 6. La probabilidad clásica es conocida también como probabilidad a priori. Se denominaría así, porque las probabilidades de los resultados puede ser conocidos de antemano, tal como sucede con los experimentos de las cartas o los dados. Frecuencia relativa de la presentación Es el porcentaje del resultado de casos favorables con relación al total de casos. Probabilidades subjetivas Se basan en las creencias de las personas que diseñan el experimento
35
La probabilidad subjetiva es útil cuando no hay antecedentes para establecer una probabilidad objetiva: ¿Cuál es la probabilidad de que un reactor atómico irradie radiactividad? Dado que no existe un antecedente, se recurrirá a las suposiciones y al sentido común. Los responsables de tomar decisiones en una empresa usan la subjetividad para los casos únicos que se presentan a diario en asuntos de mercado, precios, y otros similares. Reglas de la Probabilidad Los siguientes símbolos son los que se utilizan en el cálculo de probabilidades: P(A) = Es la probabilidad de que el evento A suceda. Si puede llevarse a cabo sólo un evento, la probabilidad será sencilla Este tipo de probabilidad es conocido como probabilidad marginal o incondicional. Si hay un sorteo para ganar un premio y el total de casos es 60, la probabilidad de que alguien saque el número premiado es 1/60 = 0,0167; sólo un participante podrá ganar. Eventos mutuamente excluyentes Hay casos en los que pueden realizarse dos eventos: uno o el otro; supongamos que hay 5 candidatos para un cargo público y que todos tienen los mismos méritos. Utilizaremos el concepto marginal de probabilidad: Diremos que la probabilidad de que uno de ellos sea elegido será 1/5. Pero si estamos interesados en saber la probabilidad de dos candidatos, la cosa cambia. Supongamos que tenemos interés en saber las probabilidades de que Juan o María ganen el concurso de méritos; en este caso tenemos dos eventos que se suman entre sí. La probabilidad de Juan es de 1/5 y la de María también es 1/5; entonces de probabilidad de que alguno de los dos sea elegido será 1/5 + 1/5 = 2/5 = 0,40 En el primer caso, el de que uno de los cinco gane, la probabilidad será P(A) = 1/5 = 0,20 En el segundo caso, la probabilidad se representará del siguiente modo: P(A o B) notación que nos indica la probabilidad de que uno de los dos gane el concurso. Para mostrar gráficamente lo que la suma de probabilidades significa, los teóricos recurren a los símbolos de los conjuntos en matemáticas. Esos símbolos son muy útiles en la tarea de comprender los teoremas Tomemos la siguiente tabla, del libro de Levin y Rubin, en la que se consignan datos sobre el número de hijos y sus probabilidades respectivas en una encuesta familiar. En el cuadro anterior tenemos una muestra que nos permitirá establecer las probabilidades de que una familia tenga un número determinado de hijos. 36
Ejemplo, la probabilidad de que una familia tenga 3 hijos es 0.25. La probabilidad de que una familia no tenga hijos es 0.05, mientras que la probabilidad de que una familia tenga 2 hijos será 0.30 y así sucesivamente. Ahora aplicaremos estos conceptos: deseamos saber la probabilidad de que una familia del pueblo donde se hizo la encuesta tenga 4 o más hijos. Nos damos cuenta de que ya no estamos hablando de un solo evento, sino de varios. Tabla 4.1 Número de hijos
0
Proporción de familias que tienen esa cantidad
0.05
1
2
3
0.10
0.30
0.25
4 0.15
5 0.10
6 o mas 0.05
Probabilidad de varios eventos Para plantear el problema recordamos que estamos hablando de varios eventos y que la simbología para representar esa condición es P(A o B) En el caso particular que nos interesa, esa expresión toma la forma numérica siguiente: P(4,5,6 o más) = P(4) + P(5) + P(6 o más) = 0.5 + 0.10 + 0.05 = 0.30 De inmediato interpretamos el resultado: la probabilidad de que una familia tenga 4, 5, 6 o más hijos es la suma de las probabilidades marginales de cada evento, esto es, 0.30 Ahora ingresamos a una situación que puede darse en muchas oportunidades. Supongamos que deseamos obtener un “diez” o un “trébol” de un mazo de 52 cartas. En este caso, debemos tener en cuenta que también podemos sacar un “diez de trébol”. Vemos que sacar un “diez” o un “trébol” no son eventos mutuamente excluyentes, debido a que hay la probabilidad conjunta de un diez y un trébol al mismo tiempo. En este tipo de problemas debemos ajustar la ecuación para evitar el conteo doble. De este modo tendremos: P(diez) + P(trébol) – P(diez y trébol) 4/52 + 13/52 – 1/52 = 16/52 = 4/13 Otro ejemplo; los empleados de la empresa han elegido a 5 de ellos para que los representen en el consejo de administración; los perfiles de los elegidos son: Hombre, edad 30 Hombre 32 Mujer 45 Mujer 20 Hombre 40 37
Una vez elegidos, los cinco deciden, a su vez, elegir un portavoz: ¿Cuál será la probabilidad de que la persona elegida sea mujer o tenga una edad por encima de 35 años? P(mujer o mayor a 35) = P(mujer) + P(mayor a 35) – P(mujer y mayor a 35) La probabilidad P(Mayor a 35 años) se refiere al total de todos, hombres y mujeres, que tienen más de 35 años; hay solamente dos casos de los cinco: 45 y 40. 2/5 + 2/5 – 1/5 = 3/5 = 0.60 Probabilidad bajo condiciones de independencia estadística En primer lugar, definiremos el concepto de “Independencia” Dos eventos son estadísticamente independientes entre sí cuando el evento o resultado de uno de ellos no tenga influencia en el resultado o evento del otro. Existen tres tipos de probabilidad independiente: Marginal, Conjunta, Condicional Probabilidades marginales en condiciones de independencia Vimos que una probabilidad es marginal o incondicional cuando es la representación simple de un evento; v.g el lanzamiento de una moneda normal. Ese “experimento” tendrá un evento: cara o cruz, con una probabilidad de 0,5 c/u. No importa cuántas veces lancemos la moneda, la probabilidad de que salga cara o cruz será la misma; cada lanzamiento es único y no tiene influencia sobre el próximo. Probabilidades conjuntas bajo condiciones de independencia estadística La probabilidad de dos o más eventos independientes que se presentan juntos es igual al el producto de sus probabilidades marginales. Representamos ese caso de la siguiente manera: P(AB) = P(A) x P(B) P(AB) = probabilidad de que ambos eventos se presenten juntos o probabilidad de A y B. P(A) = probabilidad marginal de que se presente el evento A. P(B) = probabilidad marginal de que se presente el evento B. Ejemplos ¿Cuál es la probabilidad cruz, cara y cruz, en ese orden, en tres lanzamientos consecutivos de una moneda? El resultado será: 0.5 x 0.5 x 0.5 = 0.125, debido a que la probabilidad de que salga a es independiente a la probabilidad de que salga B ¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden luego de tres lanzamientos consecutivos? La probabilidad será: 0.5 x 0.5 x 0.5 = 0.125. ¿Cuál es la probabilidad de obtener al menos dos caras en 3 lanzamientos consecutivos? Estamos ante el caso mixto de eventos mutuamente excluyentes. 38
Esas probabilidades son aditivas, es decir, resultan de la probabilidad de obtener una cara más la probabilidad de obtener otra cara Pero, tenemos un evento independiente. Para visualizar este proceso, tomemos la tabla 4.2 del texto de Levin y Rubin, en la que se descomponen las probabilidades posibles de los eventos del total del experimento. Denominaremos cara = H; cruz = T En la parte superior del cuadro se registra los tres lanzamientos de la moneda. En el primer lanzamiento los posibles resultados son o una cara (H1) o una cruz (T1) y la probabilidad para cada uno de estos resultados, tal como vimos es 0.5. 1 y 2 representan el primer y el segundo lanzamiento, en todos los casos. Lanzada la moneda por segunda vez, nos trasladamos a la columna “Dos lanzamientos”. Los resultados posibles son: el primer lanzamiento fue cara (H1) el segundo también (H2) Éste es un ejemplo de lo que hace la computadora con el SPSS; tomamos nota que los eventos del segundo lanzamiento están ligados a los eventos que resultaron en el primero. Tabla 4.2 Posibles Resultados Un lanzamiento Resultados Posibles Probabilidad H1 T1
0.5 0.5
Dos lanzamientos Resultados posibles
Probabilidad
H1, H2 H1, T2 T1, H2 T1, T2
0.25 0.25 0.25 0.25
Tres lanzamientos Resultados Posibles H1, H2, H3 H1, H2, T3 H1, T2, H3 H1, T2, T3 T1, H3, H3 T1, H2, T3 T1, T2, H3 T1, T2, T3
Probabilidad 0.125 0.125 0.125 0.125 0.125 0.125 0.125 0.125 1.000
El segundo evento posible en la columna del segundo lanzamiento es H1, T2, esto es: en el primer lanzamiento salió una cara (H1) y en el segundo lanzamiento salió una cruz (T”). El tercer evento muestra que en el primer lanzamiento se T1 y en el segundo, H2 El cuarto evento muestra que en el primer lanzamiento T1 y en el segundo, cara H2 Las probabilidades en cada caso son 0.25, que resultan de Cara = probabilidad de 0.5 Cruz = probabilidad de 0.5 39
La probabilidad, del primer evento del segundo lanzamiento H1, H2 es 0.5 x 0.5 = 0.25 Lo mismo con las demás probabilidades Los datos del tercer lanzamiento se registran de la misma forma; en el primer lanzamiento se obtuvo una cara (H1) en el segundo también (H2) y en el tercero, una cruz (T3) La probabilidad de este evento será 0.5 x 0.5 x 0.5 = 0,125 El mismo razonamiento para los siguientes eventos, hasta que agotamos todas las probabilidades posibles de los tres lanzamientos de la moneda. Ahora ya podemos responder a la pregunta que nos hicimos al iniciar este capítulo: ¿Cuál es la probabilidad de obtener cruz, cruz y cara, en ese orden, luego de tres lanzamientos? La pregunta ya nos hace saber que se trata de un experimento de tres lanzamientos En nuestra tabla vemos que los eventos que la pregunta exige son: T1, T2, H3 = 0.125 Estos ejercicios nos muestran lo que hace la computadora, en el programa SPSS, cuando le pedimos que calcule las probabilidades de un problema en el que estamos interesados. Probabilidades condicionales bajo independencia estadística Hasta ahora vimos dos clases de probabilidad: la probabilidad marginal (o incondicional) y la probabilidad conjunta; la primera representada por (PA) y la conjunta por P(AB) La Probabilidad Condicional que analizaremos ahora se representa por P(B/A) que muestra dos eventos: A, y B. De esta manera, la Probabilidad Condicional P(B/A) representa el caso en que el segundo evento B ocurre luego que el primero, A, ya ha tenido lugar. Es decir, nos dice cuál será la probabilidad del evento B una vez que el evento A ya ocurrió; observemos el proceso que sigue el SPSS. Antes de continuar, recordemos que para dos eventos independientes, A y B, la ocurrencia del evento A nada tiene que ver con el la ocurrencia del evento B. La probabilidad de lograr una cara en un segundo lanzamiento, después de que el primero dio un resultado, seguirá siendo 0.5, debido a que ambos eventos son independientes. A continuación diseñaremos una ayuda-memoria para eventos estadísticamente independientes; la probabilidad marginal, llamada también “incondicional” es (PA) Tabla 4.3 Probabilidades Condicionales Tipo de Probabilidad Marginal Conjunta Condicional
Símbolo P(A) P(AB) P(A/B)
40
Fórmula P(A) P(A) x P(B) P(B)
Probabilidad Condicional Bajo Dependencia Estadística Antes de proponer la definición formal, vayamos a un ejemplo ilustrativo. Hay una caja que contiene diez bolas de colores, distribuidas de la manera siguiente: Tres bolas son de color y tienen puntos Una es de color y tiene franjas Dos son grises y tienen puntos Cuatro son grises y tienen franjas Siguiendo a Levin y Rubin, hacemos un cuadro para visualizar las condiciones del problema; hay diez bolas, la probabilidad de sacar una cualquiera de ella es 1/10 = 0.10. Tabla 4.4 La distribución de las diez bolas Evento 1 2 3
Probabilidad del Evento 0.1 0.1 (De color y con puntos) 0,1
4
0.1 (De color y con franjas)
5 6
0.1 (Grises y con puntos) 0.1
7 8 9
0.1 0.1 (Grises y con franjas) 0.1
Supongamos que alguien saca una bola de color: ¿Cuál es la probabilidad de que tenga puntos? Simbólicamente, el problema puede representarse como P(D/C), es decir: ¿Cuál es la probabilidad de que la bola tenga puntos (D) dado que es de color (C)? (Vemos que D representa una bola con puntos, C, de color) Queremos saber la probabilidad de que, siendo la bola de color, que también tenga puntos; para ello, ignoramos las bolas grises, pues no cumplen con ninguna condición dada. Sólo tomaremos en cuenta las que restan. Hay cuatro bolas de color, tres de las cuales tienen puntos y la cuarta tiene franjas; con esa información sólo tenemos que encontrar las probabilidades sencillas. Ahora deseaos saber la probabilidad de que la bola tenga puntos y de que tenga franjas Para ello nos damos cuenta que el total de bolas que tienen color son 4 y las que tienen color y puntos son tres. 41
Por lo tanto, la probabilidad de una bola a color con puntos es P(D/C) = ¾ = 0.75 Por otro lado, si nos fijamos en la tabla 4.4 hay una sola bola de color y con franjas. Por lo tanto, la probabilidad de color con franjas es = ¼ = 0.25; ambas suman 1. En el próximo capítulo veremos la fórmula general sobre la probabilidad condicional Algunos ejemplos adicionales ¿Cuál es la probabilidad de que la bola tenga puntos, dado que es de color? Esta pregunta equivale: ¿Cuál es la probabilidad de que la bola sea de color y tenga puntos (son 3 casos de un total de 10) entre la probabilidad de que sea de color. Probabilidad de que la bola sea de color y tenga puntos = 3/10 = 0.3 Probabilidad de que la bola sea de color = 4/10 = 0 0.4 La probabilidad de que la bola tenga puntos, dado que es de color, es = 0.3/0.4 Continuamos los datos de la tabla 4.4 ¿Cuál es la probabilidad de que la bola tenga puntos, dado que es gris? Por otra parte, ¿Cuál la probabilidad de que la bola tenga franja, dado que es gris? Para la primera parte del problema, vemos en la tabla vemos que: La probabilidad de bolas grises con puntos = 2/10 = 1/5 = 0.20 La probabilidad de que sea gris es 6/10 = 3/5 = 0.60 La probabilidad de que la bola tenga puntos dado que es gris es = 0.20/0.60 = 0.33 En la segunda parte, de que la bola tenga franja es = 5/10 = 0.5 La probabilidad de una bola que tenga franja, dado que es gris es = 6/10 = 3/5 = 0.60 Probabilidades marginales bajo dependencia estadística Esta clase de probabilidades se calculan sumando las probabilidades de todos los eventos del experimento; v.g: calcular la probabilidad marginal del evento bola de color. Sumamos la probabilidad de los eventos en los que aparecen bolas de color. Volviendo a nuestra tabla, vemos que las bolas de color aparecen “bolas de color con puntos” y “bolas de color con franjas”; sumamos las dos probabilidades 3/10 + 1/10 = 4/10 = 0.4 La probabilidad de una bola gris resultará de la suma de “bolas grises con puntos” y “bolas grises con franjas” = 2/10 + 4/10 = 6/10 = 0.6 La Probabilidad Total A partir de las probabilidades del suceso A (de que llueva o de que haga buen tiempo) deducimos la probabilidad del suceso B (que ocurra un accidente automovilístico)
42
Supongamos que ha ocurrido el suceso B (un accidente) sobre la base de ese accidente se puede deducir las probabilidades del suceso A (¿estaba lloviendo o hacía buen tiempo?) La probabilidad del evento A encierra la probabilidad de varios sub eventos; ¿Llovía en el momento del accidente?; ¿Hacía buen tiempo? ¿Nevaba? ¿Había niebla? Ese nuevo concepto de probabilidad se denomina “Cálculo de probabilidades anteriores” y su planteamiento original se debe al conocido estadístico Thomas Bayes (1702–1761) Ya a principios del siglo XVIII la teoría de las probabilidades estaba madura, como para incursionar en otro tipo de modelos, diferentes al que hemos estudiado hasta ahora. El tipo de probabilidad estudiado se llama “Probabilidad Clásica” El tipo de probabilidad que estudiaremos ahora, se llama Probabilidad Baynesiana. El Teorema de Bayes añade nuevas exigencias a la teoría de probabilidades analizadas; v.g; supongamos que el suceso A es la probabilidad de que llueva o haga buen tiempo. Sobre ese escenario se establecerá la probabilidad de ocurrencia de un segundo suceso, B, digamos, que ocurra un accidente automovilístico. De la ocurrencia de B (accidente automovilístico) se establece la probabilidad A (lluvia, nieve o buen tiempo) este es el método que se llama el Teorema de Bayes. Ejemplo Se ha anunciado tres probabilidades sobre el tiempo para el fin de semana Probabilidad de que llueva = 0.50; Probabilidad de que nieve = 0.30; Probabilidad de niebla: = 0.20. La Oficina de tránsito vehicular tiene datos sobre las probabilidades de que ocurra un accidente automovilístico según los estados meteorológicos. Lluvia: probabilidad de accidente es = 0.10; Nieve: probabilidad de accidente es = 0.20; Niebla: probabilidad de accidente es = 0.05. Supongamos que ocurre un accidente y no sabemos si llovió, nevó o hubo niebla. Para calcular las probabilidades acudimos al Teorema de Bayes Las probabilidades dadas antes de conocer que ha ocurrido un accidente son "probabilidades a priori" (lluvia con el 60%, nieve con el 30% y niebla con el 10%) Una vez conocida la información de que ha ocurrido un accidente, las probabilidades del suceso son probabilidades condicionadas P (A/B) o "probabilidades a posteriori". La probabilidad de que en el momento del accidente lloviera es 0.41 0.50 x 0.10 = 0.05/0.12 = 0.41 (0.50 x 0.10) + (0.30 x 0.20) + (0.20 x 0.05)
43
Ahora veamos la probabilidad de que el accidente ocurrió mientras nevaba: 0.30 x 0.20 0.03/0.09 = 0.33 = (0.50 x 0.10) + (0.30 x 0.20) + (0.20 x 0.05)
La probabilidad de que el accidente ocurrió habiendo nevado es 0.33. Del mismo modo para la probabilidad de que hubiera niebla. En el numerador registramos la probabilidad de que nieve en el momento del accidente (0.20) por la probabilidad de que haya un accidente cuando hay niebla (0.05) En el denominador se pone la misma información que se usó para los otros dos casos. En capítulos más avanzados seguiremos analizando sobre la Probabilidad Baynesiana. Distribución de probabilidades En la tabla 3.2 del capítulo tercero vimos la distribución de frecuencias en la segunda columna de la tabla correspondiente a los salarios. En la siguiente de la tabla obtuvimos las probabilidades de cada rango de salarios Ahora vamos a estudiar las distintas distribuciones de probabilidades más usadas en la estadística. Aprehenderemos el concepto de cada una y luego iremos al SPSS. Construiremos la tabla que sugiere Levin y Rubin para registrar los posibles eventos que resultarían del lanzamiento de una moneda dos veces consecutivas. Tabla 4.5 Cuadro de probabilidad de lanzar una moneda dos veces consecutivas Primer lanzamiento
T T H H
Segundo lanzamiento 2 lanzamientos
No. De cruces en resultados posibles
T H H T
Probabilidad de los 4
2 1 0 1
0.5 x 0.5 = 0.25 0.5 x 0.5 = 0.25 0.5 x 0.5 = 0.25 0.5 x 0.5 = 0.25
“H” significa “cara” y “T” significa “cruz” y las probabilidades son teóricas, puesto que en la realidad puede que en dos lanzamientos los resultados sean diferentes. Tabla 4.6 Número de cruces (T)
Lanzamiento
0 1 2
(H, H) (TH + HT) (T,T)
44
Probabilidad del resultado 0.25 0.50 0.25
Pero, si lanzamos una moneda no alterada muchas veces, los resultados obtenidos se irán acercando cada vez más a las probabilidades teóricas. Deduciremos del anterior cuadro otro que registre la distribución de la probabilidad del número posible de cruces que se obtiene al lanzar dos veces una moneda. Representaremos gráficamente los resultados de la tabla 4.6, en la gráfica 4.1 Estamos interesados en mostrar la distribución de los resultados referidos a las cruces. Gráfica 4.1 Probabilidad
0.5
0.25
0
1
2
Número de Cruces
Para hacer eso, colocamos en el eje de las abscisas de un cuadrante el número teórico de cruces que observaríamos en dos lanzamientos de la moneda. En el eje de las ordenadas registramos la probabilidad de cada observación, de acuerdo con los datos de la tabla 4.6 recordemos que estas probabilidades, son teóricas. En la gráfica 4.1 reflejamos los datos que nos da la tabla 4.6; ambas, la tabla y la gráfica son dos formas de mostrar una distribución de probabilidades. En la tabla 4.7 registramos los datos de los pacientes atendidos diariamente, durante cien días en una clínica; vamos a convertir esos datos en una tabla de probabilidades Este ejercicio es útil para tener una imagen de lo que hace el SPSS en la computadora. Definamos algunos conceptos, antes de resolverlo. Variable Aleatoria Es la variable que toma diferentes valores como resultado de un experimento aleatorio; puede ser discreta o continua, de acuerdo con el número de valores que toma. Si toma sólo un número limitado de valores, será una Variable Aleatoria Discreta; si puede tomar cualquier valor dentro de un intervalo, será una Variable Aleatoria Continua. En la tabla 4.7 anotamos el número de pacientes mujeres atendidas diariamente en una clínica en los últimos cien días; esto es, una distribución de frecuencias. De inmediato, convertiremos los datos de las frecuencias en probabilidades; tabla 4.8. 45
En la columna izquierda registramos el número de pacientes que son atendidos diariamente en la clínica; en la derecha, se anotan las probabilidades para cada caso. Tabla 4.7 Frecuencia de pacientes atendidos En un hospital (Días) Número de Pacientes atendidos
Número de días que se Atendió
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
1 2 3 5 6 7 9 10 12 11 9 8 6 5 4 2 100
Tabla 4.8 Distribución de probabilidades Del número pacientes atendidos Pacientes atendidos 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
Probabilidad de que tome ese valor 0.01 0.02 0.03 0.05 0.06 0.07 0.09 0.10 0.12 0.11 0.09 0.08 0.06 0.05 0.04 0.02 1.00
Para deducir estas probabilidades, se ha dividido el número de días para cada número de pacientes de la tabla 4.7 entre cien, que es el número total de días registrados. La suma de las frecuencias del número de días anotados en la tabla 4.7 suma 100. Los datos convertidos en probabilidades en la tabla 4.8, suman en total 1. La suma de todas las probabilidades siempre es 1, en cualquier caso. Con los datos de la tabla 4.8 diseñamos una gráfica de distribución de probabilidad. Registramos en el eje de las abscisas el número diario de pacientes atendidas y en el eje de las ordenadas sus respectivas probabilidades. El gráfico 4.2 es para una distribución de probabilidades para variables discretas. No dejamos de notar que la longitud más larga corresponde a la probabilidad mayor de la distribución; también notamos la simetría de las longitudes a ambos lados. Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal para valores continuos, que es la que más a menudo usaremos en el SPSS, una vez que la definamos. La Curva Normal, lo dijimos ya, refleja la distribución normal de los datos y es la que los estadísticos tratan de encontrar para realizar sus análisis.
46
Cuando los datos originales no muestran una distribución normal, los estadísticos transforman los valores de la muestra por otros. Por ejemplo, pueden transformar los datos originales en sus logaritmos naturales y comprobar si la nueva distribución se acerca más a la normal que la anterior. Ese procedimiento será usado por nosotros en un apartado próximo. Mientras tanto, nos familiarizaremos con lo que significado de Valor Esperado. Gráfica 4.2 Distribución de Frecuencias de probabilidades
0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
Sobre esa simetría es que Gauss llegó a establecer la Distribución Normal para valores continuos, que es la que más a menudo usaremos en el SPSS, una vez que la definamos. La Curva Normal, lo dijimos ya, refleja la distribución normal de los datos y es la que los estadísticos tratan de encontrar para realizar sus análisis. Cuando los datos originales no muestran una distribución normal, los estadísticos transforman los valores de la muestra por otros. Por ejemplo, pueden transformar los datos originales en sus logaritmos naturales y comprobar si la nueva distribución se acerca más a la normal que la anterior. Ese procedimiento será usado por nosotros en un apartado próximo. Mientras tanto, nos familiarizaremos con lo que significado de Valor Esperado. Valor Esperado de una variable Aleatoria Discreta Se calcula, multiplicando cada valor que la variable pueda tomar, por la probabilidad de que ese valor se presente; al final, sumamos total de estos resultados parciales. Construiremos un cuadro del Valor Esperado de la variable discreta “Número de Pacientes”; con ese objeto, tomamos los valores de la tabla 4.7 y estructuramos la tabla 4.9. 47
El Valor Esperado de la Variable aleatoria “número de pacientes atendidos diariamente durante una muestra de cien días” es 108.20. Este resultado quiere decir que la clínica, en circunstancias normales, esperará atender un promedio de 108.20 pacientes por día. Tabla 4.9 Número Atendido
Probabilidad de que la variable aleatoria tome ese valor
Valor Esperado
(1)
(2)
(1) x (2)
100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
0.01 0.02 0.03 0.05 0.06 0.07 0.09 0.10 0.12 0.11 0.09 0.08 0.06 0.05 0.04 0.02
1.00 2.02 3.06 5.15 6.24 7.35 9.54 10.70 12.96 11.99 9.90 8.88 6.72 5.65 4.56 2.30 108.20
Otro ejemplo; en la tabla 4.10 anotamos la probabilidad para cada venta diaria de fruta La probabilidad de cada venta diaria se obtiene dividiendo el número de días que se vendió esa cantidad entre 100, que es el total de días que se observó los niveles de ventas. Definición de las clases de pérdidas Generalmente, las empresas que venden fruta sufren dos clases de pérdidas: Pérdidas de obsolescencia, por tener demasiada fruta en un día y botarla al día siguiente. Pérdidas de oportunidad, por no tener la suficiente fruta para atender a los clientes. Estas pérdidas se evitan cuando se tiene la cantidad precisa para atender la demanda. La tabla 4.11 muestra las pérdidas condicionales de nuestro frutero; allí se muestran tanto las pérdidas por la fruta no vendida en el día, como las pérdidas de oportunidad. Cada caja de fruta le cuesta al frutero $ 20; el frutero vende cada caja a $ 50. Cuando no hay pérdidas, el cuadro las registra con un 0.
48
Tabla 4.10 Ventas durante 100 días Ventas diarias
Números de días de venta
10 11 12 13
Probabilidad de venta de cada cantidad
15 20 40 25
0.15 2.02 0.40 0.25
100
1.00
Tabla 4.11 Pérdidas condicionales Posibles peticiones fruta
10 11 12 13
Posibles opciones de existencia 10 11 12 13 0 30 60 90
20 0 30 60
40 20 0 30
60 40 20 0
Todos los valores distintos de 0 representan las pérdidas de oportunidad por los pedidos no cumplidos; si en existencia hay sólo 10 cajas y solicitan 11, estará perdiendo $30. Tabla 4.11 Cálculo de pérdidas esperadas Posibles demanda
10 11 12 13
Pérdida Condicional
Probabilidad de demanda Pérdida esperada
0 30 60 90
0.15 0.20 0.40 0.25 1.00
0.00 6.00 24.00 22.50 52.50
La pérdida de $30 es porque se dejó de ganar $50, a los que se resta $20 que le costó Tal es el caso de la casilla de la segunda fila y la primera columna del cuadro. Si la demanda es de 13 cajas, pero sólo tiene 10, la pérdida por oportunidad será 90 La pérdida esperada resulta de multiplicar la “pérdida condicional”, por la “Probabilidad de la demanda” para ese día; en la primera fila vemos que no hubo pérdida Es la demanda y la disponibilidad de fruta fue de 10 cajones en cada caso. ¿Qué pasa si el frutero tiene una disponibilidad de 10 cajones pero la demanda es de 13? 49
La pérdida condicional será de $ 90 Si multiplicamos esos $ 90 por la probabilidad de que la demanda sea de 13 cajones, se obtendrá $ 22.50 de pérdida esperada; esto es: 90 x 0.25 = 22.50.
GRANDES ESTADÍSTICOS Y MATEMÁTICOS EN LA HISTORIA Daniel Bernoulli (1700-1782)
Sobrino de Jakob Bernoulli, educado en la Universidad de Basel, en la que su padre fue profesor. Originalmente, Daniel estudió medicina, pero su padre le enseño matemáticas lo que le permitió escribir seis ensayos sobre probabilidad, estadística y demografía. Su obra más conocida es “Exposición sobre una Nueva Teoría del Cálculo del Riesgo,” teoría que se basó en lo que se llamaba Expectativa Moral (Ahora: Utilidad Esperada) Con esa teoría ayudó a resolver un problema denominado La Paradoja de San Petersburgo, la que inquiría sobre la diferencia entre lo que ahora sería el Valor Esperado Matemático de un suceso y su valor “para mí”: el valor esperado sería infinito, pero del “valor para mí”, no. En un ensayo que obtuvo un premio en 1735, Bernoulli testó la distribución aleatoria de las órbitas de los planetas.
Carl Friedrich Gauss (1777-1855) Matemático y Físico; los eruditos dicen que Gauss es considerado como una de los más grandes matemáticos de todos los tiempos. La “Teoría de los Errores” es una de sus contribuciones a la Estadística. Estudió en la Universidad de Göttingen, que era el centro de los matemáticos en Alemania. Inicialmente, Gauss se interesó por la Economía, pero después se dedicó a la geodesia. Usó del Método de los Cuadrados Mínimos y fue el gran diseñador de los errores normales, que dieron lugar a la Curva de Gauss o Curva Normal, la que nosotros analizaremos en este capítulo. Esa Curva y la Teoría de los Errores fueron deducidas de la Media Aritmética. En asociación con Markov, proporcionó a la Estadística con otro de sus instrumentos más importantes: el Teorema Gauss-Markov, que se refiere a la Regresión Lineal y que aplicaremos cuando nos corresponda analizar ese tema. Ahora ingresaremos al análisis de una de las mayores contribuciones que Gauss hizo a la Estadística: La Distribución Normal. Esta distribución de probabilidades también es conocida con el nombre de la Campana de Gauss
50
5 DISTRIBUCIÓN DE PROBABILIDADES La Distribución Normal La Distribución Normal es la más importante de todas y la más usada en ciencias sociales; es una distribución continua, no discreta. Fu diseñada por Karla Gauss en el siglo XIX Por eso se llama también distribución de Gauss. La Distribución Normal tiene características útiles a muchas situaciones en las que es preciso decidir, tomando como base las muestras que se levantan de una población dada. Representa muy bien las distribuciones de fenómenos reales, incluyendo características humanas, tales como el peso, la altura, el coeficiente de inteligencia y otras. Con el objeto de mostrar el proceso de cómo se llega a la Curva de la Distribución Normal, reproduzcamos en la gráfica 5.1, la gráfica 4.2 del capítulo anterior Gráfica 5.1 Distribución de Probabilidad Normal 0.12 0.11 0.10 0.09 0.08 0.07 0.06 0.05 0.04 0.03 0.02 0.01 100 101 102 103 104 105 106 107 108 109 110 111 112 113 114 115
Ahora hagamos que los intervalos entre los valores de las probabilidades, registrados en las ordenadas y los intervalos del número de pacientes, se vuelvan infinitesimales. Es decir, que los valores de vuelvan continuos. La curva resultante será la Curva Normal que se muestra en la gráfica 5.2 51
De inmediato nos damos cuenta de que la superficie de la Curva Normal está conformada por la adición de todas las probabilidades de los resultados de un experimento. Precisamente, la tarea más importante de operar con la Curva Normal es encontrar la probabilidad de un resultando como efecto de un experimento. Figura 5.2 Una Curva Normal
a
Particularidades La Curva Normal tiene un solo pico; lo que significa que sólo tiene una moda, es unimodal; la Media la Mediana y la Moda, están en el mismo punto central, son iguales entre sí. En primer término veamos la simbología de los parámetros de la Curva Normal: σ representa el error típico de la curva normal X* representará la Media de la muestra; también se usa la X con una barra encima. Los extremos, izquierdo y derecho, se extienden y nunca tocan la línea base. La mayor densidad de frecuencias está en a Allí son iguales la Media, la Mediana y la oda. No hay una sola curva normal, sino una familia completa Para definir una curva normal, lo único que necesitamos es definir dos parámetros: La media = μ Error típico = σ Conociendo esos dos parámetros, se puede diseñar una curva de distribución normal. En esta serie de tres curvas normales, la de la izquierda tiene la desviación estándar más pequeña; la del medio, un poco mayor y la tercera tiene la mayor de todas Sin embargo, todas ellas tienen una Media = Mediana = Moda = 50 Área bajo la Curva Normal El área de cualquier curva normal es 1.00, independientemente de su media o desviación estándar; el cuerpo mismo de la curva es un conjunto completo de probabilidades. 52
Conociendo que La Curva Normal tiene una media y una desviación estándar, es posible derivan las siguientes características que singularizan a toda clase de curvas normales: Alrededor del 68% de los valores de una población normalmente distribuida se encuentra dentro de una desviación estándar de la media, tanto a la izquierda como a la derecha. Gráfica 5.2 Curvas normales
50
50
50
Alrededor del 95.5% de los valores de una población normalmente distribuida se encuentra dentro de dos errores típicos de la media, tanto a la izquierda como a la derecha. Alrededor del 99.7 de los valores de una población normalmente distribuida se encuentra dentro de tres errores típicos de la media, tanto a la izquierda como a la derecha. Gráfica 5.3 Áreas dentro de la Curva Normal
68% 16%
16%
En la gráfica 5.3 vemos que el 68% de los datos están en el centro; el resto, 32% se dividen en las dos alas de la izquierda y la derecha, cada una con el 16%. En la gráfica 5.4, el 95% de las observaciones están en el área central y el 5% restante se reparten en las alas de la izquierda y derecha, cada una con el 2.5% La distancia entre las verticales de esa curva es tres σ a la izquierda y tres σ a la derecha de las observaciones cuya distribución es normal. En este momento no tenemos aún una idea clara de lo que esto significa, pero a medida que avancemos iremos captando la lógica de la curva normal y el uso que vamos a darle.
53
Gráfica 5.4 El 95% de las observaciones
95%
Ejercicio 1 Asumamos que la Media Aritmética (la Media) de los ingresos mensuales de los alumnos que cursan la materia es de $ 200 y que el error típico es σ = 70. Deseamos estimar el valor a la derecha que diste un error típico de la media. Sabemos que la media es la que representa la mayor frecuencia de todas las observaciones; de acuerdo con las condiciones del problema, ese punto de máxima densidad es 200. En cada una de las colas, a partir de las verticales, se concentra el 2.5% del total de las Con esos datos podemos diseñar la Curva Normal que se muestra en la gráfica 5.5. Podemos hacerlo, porque ya sabemos que μ = 100 y σ = 00.
Gráfica 5.5
200 270
Ahora bien, el si la desviación estándar es σ = 70, entonces la observación a la derecha está a una distancia de una desviación estándar de la media, por eso su valor es 270. Ejercicio 2 Supongamos que diseñamos una curva normal cuya media es 80 y una desviación estándar de 10 y nos piden los valores que están a tres desviaciones estándar de la media. La gráfica 5.6 es la curva normal que tiene la media de 80 y la desviación estándar 10; el valor de la derecha es 110: se distancia de la media en tres desviaciones estándar. El valor de la izquierda es 50, pues se distancia 3 desviaciones estándar de la media
50
80 54
110
Uso de la tabla normal
homepages.mty.itesm.mx
55
Para tener los conceptos claros cuando utilicemos el SPSS, vamos a familiarizarnos con el uso de la Tabla de Distribución Normal. En la tabla anterior se representa el área bajo la curva normal entre la media y cualquier valor que asuma la variable aleatoria normalmente distribuida; tiene columnas y filas. En la primera columna anota los valores que toma la desviación estándar de la curva que usaremos para resolver un problema concreto; ese valor va de 0 hasta 3.9 que es el tope. Ejemplo, el valor 1 de esa columna significa que la desviación estándar de la curva es 1. Para esa desviación estándar, el área bajo la curva, es decir, la probabilidad de que algo ocurra es 0.3413. las demás columnas nos muestran los decimales de la desviación. El valor de las desviaciones estándar en la columna de la izquierda se representa por z. Utilicemos el proceso inverso; buscamos un valor cualquiera, digamos 0.3508; Ubicado ese valor en la tabla vemos que corresponde a una desviación estándar z = 1.04 Gráfica 5.7
-25
0
25
50
75
100
125
El valor z, que es el valor de cada desviación estándar se define z = (x – μ)/σ z = número de desviaciones estándar que hay entre el valor x que buscamos y la media de la distribución. x = valor de la variable aleatoria que buscamos μ = media de la distribución de la variable aleatoria σ = error típico de la distribución Vamos a poner algunos ejemplos, pues con la práctica se aprende mucho más rápido. Una vez que tengamos las ideas claras, en otro capítulo acudiremos al SPSS. Estos ejemplos nos permitirán visualizar el uso de la tabla de áreas bajo la curva normal Lo que debemos guardar en mente es que la curva está dividida en dos partes iguales. Ejercicio 1 Está en proceso un curso completo de Estadística.
56
¿Cuál es la probabilidad de que un participante elegido al azar se tome entre 500 y 650 horas para completarlo, dado que el tiempo promedio de aprendizaje es de 500 horas y se conoce que la desviación estándar es de 100 horas? Gráfica 5.9
500
650
Lo primero que anotamos son los estadísticos: La media μ = 500 y la desviación estándar, σ = 100 Se nos pide la probabilidad de que un alumno tome entre 500 y 650 horas para cubrir el curso; la probabilidad es P(500 a 650) Asumimos que la distribución de las horas de aprendizaje es normal, graficamos nuestra Curva de Distribución Normal. Para resolver el problema debemos estandarizar los datos con nuestra fórmula: z = (x – μ)/σ; z = (650 – 500)/100; 1.5 Convertimos la información en desviaciones estándar, lo que nos dice que la cantidad de horas = 650 está ubicada a una distancia de z = 1.5 desviaciones estándar de la media Recurrimos a la Tabla de Distribución Normal y buscamos en la columna de las z = 1.5 Como no hay más decimales, encontramos el valor que buscamos en la columna inmediata a su derecha (0.00) que es igual a 0.4332 Ésa es la probabilidad de que un participante elegido al azar emplee de 500 a 650 horas para terminar el curso es 0.4332. Con el SPSS Para comprobarlo vayamos al SPSS; en Vista de Variables anotamos esta; en Valores: 500 = a 650 = b Creamos las dos variables a y b y vamos al menú Transformar, anotamos b en la Variable de Destino, y en la pantalla de la derecha: CDF.NORMAL(650,500,100)-CDF.NORMAL(500,500,100) El resultado en la pantalla de vista de datos es 0.433193 57
Ejercicio 2 Con los mismos datos del anterior problema ¿Cuál es la probabilidad de que un participante, elegido al azar, se tome más de 700 horas en completar el programa? Tomamos nota de los estadísticos dados x = más de 700 horas; μ = 500; σ = 100 Diseñamos una curva normal; en ella debemos encontrar la P(más de 700) Gráfica 5.10
500
700
Lo que nos piden es encontrar la probabilidad a la derecha de 700 horas. Sabemos que μ = 500; x = más de 700; σ = 100 Convertimos nuestros datos en desviaciones estándar; z = (700 – 500)/100 = 2 Este dato nos dice que 700 horas está a 2 desviaciones estándar de la media que es 500. En la tabla encontramos que para 2 desviaciones estándar, la probabilidad es 0.4772. Pero el problema no se refiere a 700 horas, sino a más de 700 horas Es decir, no se refiere a la probabilidad que se encuentra entre 500 y 700, sino que se encuentra en más de 700 horas. En la gráfica 5.10 nos indica que lo que buscamos es la probabilidad a la derecha de 700. Sabemos que la mitad derecha, como la izquierda, tiene una probabilidad de 0.5 Sabemos que la probabilidad de 700 horas = 0.4772, realizamos la siguiente operación: Valor total de la mitad derecha de la curva = 0.5, menos la probabilidad de 700 = 0.4772 Así: 0.5000 – 0.4772 = 0.0228 es la P(más de 700 horas.) Con el SPSS Con las mismas variables, vamos a Vista de Datos y en Valores anotamos 500 = a 700 = b Con el mismo procedimiento que los anteriores vamos a Transformar, anotamos b en Variable de destino y en la pantalla grande: 1-CDF.NORMAL(700,500,100) El Resultado es 0.22750 58
Ejercicio 3 Con los mismos datos del problema original, se desea saber la probabilidad que a un participante le tome entre 550 y 650 horas aprender el curso total. Para empezar, nos damos cuenta de que es preciso calcular el valor de dos x; x1 y x2 Los datos son μ = 500; x1 = 550; x2 = 650; σ = 100 Primero calculamos el valor de cada x De inmediato notamos que el valor de 550 está a la derecha de la media = 500 Empezamos calculando el número de desviaciones estándar entre 550 y 500 z = (x – μ)/σ = (550-500)/100 = 0.5 Buscamos en la tabla el valor de 0.5 en la columna de las desviaciones estándar (z) Ese valor es 0.1915; ahora hacemos lo mismo con el cálculo tomando como x = 650. z= (650 – 500)/100 = 1.5 El valor para 1.5 desviaciones estándar en la tabla es 0.4332. El problema consiste en hallar la probabilidad entre 550 y 650 horas Esto representa hallar el área entre 550 y 650, tal como se ve en la siguiente curva, recordando que la media es 500 Para encontrar el valor que nos pide el problema, que es entre 550 y 650 horas, tomamos el área entre 650 y 500 y le restamos el área entre 550 y 500. Es decir, toamos el área A+B y le restamos el área A Lo que queda es el área B, que es el área que estamos buscando Gráfica 5.11
A
B
500 550 650
Área A + B = 0.4332 Área A = 0.1915 Área B = 0.2417 La probabilidad de que un participante necesite un tiempo entre 550 y 650 horas para vencer el curso completo de Estadística, es 0.2417 Resolviendo con el SPSS Vamos a Vista de Variables, creamos la variable esta, en valores asignamos. 59
a = 550 b = 650 Creamos las variables a y b variables y vamos a Vista de Datos→ Transformar; anotamos b en Variable de Destino Destinos y en la pantalla de la derecha registramos: CDF.NORMAL(650,500,100)-CDF.NORMAL(550,500,100) El resultado con 6 decimales será: 0.241730 Ejercicio 4 ¿Cuál es la probabilidad de que un participante escogido al azar se tome entre 420 y 570 horas para aprobar el curso? Diseñamos nuestra curva normal con las condiciones requeridas: El problema nos pide la suma de las probabilidades que se encuentran entre 420 y 500 más la que está entre 570 y 500; necesitamos áreas de las dos mitades de la curva. Es decir, sumar las áreas A + B Empezaremos calculando los valores de sus respectivas desviaciones estándar = z. z1 = (420-500)/100 = -0.80;
z2 = (570 – 500)/100 = 0.70
Las desviaciones estándar son -0.80 y 0.70 respectivamente; no tomamos en cuenta el signo negativo y más bien buscamos las probabilidades respectivas a cada z en la tabla. Gráfica 5.12
A
420
B
500
570
Las probabilidades son, respectivamente 0.2881 y 0.2580; sumamos estas probabilidades: 0.2881 + 0.2580 = 0.5461. La probabilidad de que un participante escogido al azar requiera entre 420 y 570 horas para aprender el curso de estadística es 0.5461. Con el SPSS En Vista de Variables, Valores: a 420 y b 570 Crear las dos variables y en la pantalla Vista de datos poner b debajo de esta 60
En Transformar, b en Variable de Destino y en la pantalla de la derecha CDF.NORMAL(570,500,100)-CDF.NORMAL(420,500,100) Resultado = 0.54618 Ejercicio 5 ¿Cuál es la probabilidad de que a un participante le toma más de 500 horas? En el problema se incluye el dato que el alumno puede tomar cualquier número de horas después de la media aritmética que, como hemos venido usando en todos los ejemplos, es de 500. Ya es fácil para nosotros deducir que lo que nos están pidiendo es la probabilidad total de la segunda mitad de la curva normal, esto es: 0.5000 Esa es también la probabilidad de que el participante le tome más de 500 horas. Lo que hicimos en los anteriores capítulos fue formarnos una idea de cómo se distribuyen las probabilidades de ocurrencia cuando las distribuciones son discretas. Pero la Curva Normal es una distribución de variables continuas. Hay más modelos teóricos de distribución de probabilidades que los estadísticos usan con gran frecuencia y no son continuas; esos modelos se encuentran en el SPSS. Para usarlos con propiedad, debemos captar muy bien el concepto de cada una. La Distribución Binomial Es una distribución de variables discretas; v.g, el lanzamiento de una moneda o una distribución en la que haya dos variables: cierto-no cierto, sí-no; éxito o fracaso Cada lanzamiento de la moneda tiene sólo dos resultados: cara o cruz; sí o no; esas probabilidad permanece fija en el tiempo y los intentos son estadísticamente independientes Las propiedades de una distribución binomial p = probabilidad de tener éxito; 0.5 q = 1 – p, es la probabilidad de fracaso; 0.5 r = número de éxitos deseados. n = número de intentos hechos. Reconocemos cuándo debemos utilizar una distribución binomial por el tipo de problema, recordando las características que tienen las variables que la estructuran. La Distribución Binomial y el SPSS Luego de haber captado el concepto respectivo, usemos el SPSS para resolver problemas relacionados con varios tipos de distribución de probabilidades. Ejercicio 1 Un agente de seguros vende pólizas a 5 individuos, todos de la misma edad. La probabilidad de que un individuo viva 30 años más es 3/5. 61
Desea estimar la probabilidad de que dentro de 30 años aún vivan: a) 4 individuos; b) como mucho 2 c) al menos 3 individuos; d) más de 1 y 4 como máximo. Solución Vamos a Vista de Variables y creamos la variable “vida”, numérico, 4 decimales En “valores” asignamos a = 4 (Se refiere a que estaos pidiendo la probabilidad de que 4 individuos vivan los 30 años siguientes, para lo que se ha estimado una probabilidad de 0.6) b = 2 (Nos Pide que se calcule la probabilidad de que por lo menos 2 individuos van a vivir los siguientes 30 años) c = (Nos pide estimar la probabilidad de que por lo menos 3 individuos vivan 30 años más) d = más de 1 y máximo 4 (nos pide la probabilidad de un en número de individuos que vivan 30 años más se encuentre entre 1 y 4) En la Pantalla de Variables también creamos las cuatro variables: a, b, c, d, sin especificar nada en la columna de “valores” pues ya lo hemos hecho Al analizar la opción a, nos damos cuenta de que se nos pide exactamente la probabilidad de 4 individuos, por lo que usaremos la opción PDF.BINOM En la pantalla de datos anotamos 4 debajo de la variable vida Menú Principal → Transformar→ anotamos a en la casilla Variable de Destino En la primera pantalla de la izquierda escogemos Todo En la de abajo aparece el menú de las funciones que tiene el SPSS en esa dimensión Escogemos Pdf.Binom En la pantalla, debajo del teclado, aparece una nota indicando las características de la distribución Pdf.Binom Pulsamos la flecha que indica hacia arriba y en la pantalla superior aparece PDF.BINOM (?,?,?) Reemplazamos la primera interrogación con 4, que es el número exacto de individuos cuya probabilidad de que vivan, los próximos 30 años, es la que deseamos estimar. La segunda interrogación, con 5, es el número de individuos que se ha escogido al azar para hacer el ejercicio La tercera interrogación, con 0.6; probabilidad de que un individuo viva 30 años más 62
Reemplazadas las interrogaciones aceptamos En la pantalla de datos vemos el resultado: 0.2592 La probabilidad de que un individuo viva 30 años más, a partir de la edad que tiene, es 0.6 y la probabilidad de que cuatro de ellos lleguen vivir los 30 años más es 0.2592 Ejercicio 2 Sobre los mismos 5 individuos escogidos y la misma probabilidad de 0.6, la opción b del problema nos pide estimar la probabilidad de que vivan a lo sumo 2 individuos. En este caso, como no nos están dando un dato exacto, sino variable, (a lo sumo 2) ya no usamos el Pdf.Binom, sino que del mismo menú vamos a Cdf.Binom En la pantalla de datos anotamos b En la Variable de Destino anotamos b (según los códigos que hemos dado en “valores”) Sustituimos las interrogaciones con: 2, 5, 0.6 respectivamente El resultado es 0.31744. Ejercicio 3 Ahora nos piden estimar la probabilidad de que por lo menos 3 individuos vivan 30 años más, manteniendo los cinco escogidos y la probabilidad de 0.6 En este caso, seguimos con la versión Cdf.Binom; anotamos 3 en la casilla Variable de Destino; pero hay algo más que debemos hacer: A diferencia del anterior problema, en el que nos pedía a lo sumo 2 individuos, ahora nos piden que por lo menos 3 individuos vivan 30 años más; el planteo es diferente Ahora se trata de estimar la probabilidad total menos la probabilidad de que vivan menos de 3, es decir, menos la probabilidad de que vivan uno o dos. En la pantalla de datos anotamos 3 debajo de vida Por eso es que resolvemos el problema con el siguiente planteamiento: 1–Cdf.Binom (2, 5, 0.6) Es decir, el total de la probabilidad menos la probabilidad de 2 individuos. Subimos la función Cdf.Binom, llenamos los interrogantes con 2,5,0.6 respectivamente y añadimos la expresión (1-) al comienzo En la pantalla deberá leerse 1-cdf.Binom (2, 5 ,0.6) Aceptamos En la Pantalla de Datos, en la columna c, aparece la probabilidad calculada: 0.68256 Ejercicio 4 La opción nos pide estimar la probabilidad de que el número de individuos entre 1 y 4 alcancen a vivir los próximos 30 años 63
(En realidad, nos piden la probabilidad de que vivan 2 y 3 individuos) Planteamos el problema de la siguiente manera: Cdf.Binom(4,5,0.6) – CdfF.Binom (1,5,0.6) En la pantalla de datos aparece la probabilidad debajo de la casilla d = 0.83520 Ejercicio 5 En una escuela, la directora toma como muestra a 5 alumnos escogidos al azar para estimar las probabilidades de que 0, 1, 2 y 3 alumnos lleguen tarde, sabiendo que la probabilidad de que un alumno llegue tarde es 0.4 Para empezar, vamos a la Pantalla de Variables y creamos una variable llamada tard En Valores anotamos: 0 1 2 3
= = = =
a b c d
Debajo de tard anotamos las variables a, b, c y de Estas variables aparecen en la pantalla Vista de Datos Si deseamos estimar la probabilidad de a, la escribimos debajo de tard en la pantalla de Vista de Datos; lo mismo haremos para estimar las demás opciones (b, c, d) En cada caso nos piden exactamente una cantidad dada de alumnos, por lo que recurriremos a la forma Pdf.Binom; en el menú Transformar anotamos a en la casilla Variable de destino Para estimar la probabilidad de que nadie falte anotamos: subimos la versión Pdf.Binom y reemplazamos las interrogantes con 0,5,0.4; en la pantalla aparecerá: F.BINOM(0,5,0.4) El resultado es 0.07776 Procedemos de la misma manera para cada uno de los casos que se nos pide. Ejercicio 6 Se nos pide estimar la probabilidad de que en tres lanzamientos de una moneda aparezcan dos caras En este caso, también nos piden un valor exacto, 2 caras, por lo que usaremos la versión Pdf.Binom, conociendo que la probabilidad de que salga una cara es 0.5 El resultado es 0,31250, es decir, la probabilidad de que luego de tres lanzamientos de una moneda, tengamos dos caras en cualquier orden es 0.37500 Ejercicio 7 Se quiere calcular tres tubos llenos de una sustancia química de una muestra de seis sabiendo que la probabilidad de lograr un tubo lleno es 0.8 64
En Lista de Variables anotamos tub, numérico, 0, en valores: 3 para a Abrimos también la variable a en la misma vista de variables También la anotamos debajo de la variable tub en la pantalla de datos Transformar, anotamos a en Variable de Destino Como nos piden exactamente 3 tubos acudimos a la función Pdf.Binom de la casilla respectiva; la subimos a la pantalla superior, llenamos los interrogantes con 3, 6, 0.8 Aceptamos; en la pantalla de datos tenemos la probabilidad 0.08192 La Distribución de Poisson Es otra de las distribuciones más usadas para resolver problemas con variables discretas; esta distribución debe su nombre a su creador, Denis Poisson (1781-1840). Hay varios tipos de problemas que requieren de esta distribución La distribución de llamadas telefónicas que llegan a una central, las llamadas que los pacientes internados en las clínicas hacen a las enfermeras. También debemos incluir el número de coches motorizados que llegan a un control de rodaje y otras; todos se refieren a procesos discretos con una o más ocurrencias. Así, el número cotidiano de llamadas a las enfermeras puede representarse por 1, 2, 3, 4,… lo mismo el de llegadas de vehículos a pagar rodaje. Podemos darnos cuenta de la diferencia entre distribución de Poisson y la Binomial: la segunda toma en cuenta dos evento: un sí y un no; la de Poisson incluye más opciones. Cálculo con el SPSS El proceso es igual al que empleamos en el cálculo de la distribución binomial. Se desea averiguar cuál es la probabilidad de que suceda 0 accidentes, 1 accidente y 2 accidentes en un día, en una calle donde el promedio es de 5 accidentes por día. Vamos a estimar la probabilidad de que el número de accidentes sea 0. En la pantalla de Vista de variables creamos una variable, even. En Valores asignamos: 0=a 1=b 2=c 3=d Tal como lo hicimos en las otras distribuciones; debajo de ella creamos la variable x0 En la pantalla Vista de datos, bajo la columna que dice even, anotamos: x0 Menú Principal → Transformar → Calcular variable: allí ingresamos la variable x0 con el objeto de estimar la probabilidad de que ese día haya cero número de accidentes. 65
En la parte inferior derecha hay un cuadro de funciones con un menú; pulsamos Todo. Del menú de funciones buscamos en esa lista la función Pdf-Poisson. Las características de la función Poisson aparecerán debajo del teclado; la subimos y en la pantalla aparece Pdf.Poison (?,?) Reemplazamos el primer interrogante con x0 y el segundo con 5 Aceptar la pregunta que nos hará el SPSS → OK. En la pantalla Vista de datos aparece el número 0,006738, que es la probabilidad de que se registren cero accidentes en una calle en la que el promedio de accidentes diario es 5. Si deseamos saber la probabilidad de que ocurra exactamente 1 accidente ese día en esa misma calle, repetimos el proceso; vamos a Vista de variables y creamos la variable x1. El número de decimales será 6Repetimos el anterior proceso, reemplazando las interrogantes con 1 y 5 respectivamente. En la pantalla de Vista de datos aparecerá 0.033690 que es la probabilidad de que ocurra exactamente un accidente en ese día en la calle cuyo promedio diario es de 5 accidentes. Repetimos el proceso para los demás casos; no olvidemos de registrar las variables creadas (x0, x1, x2, x3) en la Pantalla de Datos cada vez que deseamos estimar una de ellas.
66
GRANDES ESTADÍSTICOS Y MATEMÁTICOS DE LA HISTORIA
Pierre-Simon Laplace (1749-1827)
Matemático y físico (Mac Tutor References) Dedicó 50 años de su vida a escribió sobre Probabilidades. En 1774 Memoria sobre la Probabilidad de las causas, estableció el error en el análisis baynesiano. Su Teoría Analítica de la Probabilidad, escrita en 1812 fue lo máximo que se había escrito sobre Probabilidad en su tiempo. Laplace hizo grandes contribuciones, cuyos resultados se expresaron en el Teorema del Límite Central y desarrolló instrumentos como la función generadora de probabilidades y la función característica. El sistema utilizado fue el la Probabilidad Clásica. Aunque por un tiempo su trabajo fue olvidado, en 1998 se hizo justicia con él, pues Hald le dedicó 400 páginas
6 MUESTREO Y DISTRIBUCIONES DE MUESTRAS Introducción Por lo general, no se tiene datos sobre las poblaciones totales a las que se desea analizar La Estadístico depende, sobre todo, de las muestras que deriva de sus encuestas. Estas encuestas pueden estar en una base de datos de un país; ya sea el Instituto Nacional de Estadística o los bancos de datos sobre información específica Una muestra es sólo una porción del total, a la que llamamos Población, pero que refleja las características de la población de donde proviene. Población Es el total de elementos que conforman el universo sobre el cual realizaremos los análisis Muestra Es una porción escogida de la población.
67
Tipos de muestreos Las muestras pueden ser no aleatorias o aleatorias; en las aleatorias todos los elementos de la población tienen la misma probabilidad de ser escogidos para la muestra. Muestreo aleatorio En estos muestreos conocemos las probabilidades de que un elemento de la población s. Este tipo de muestreo acepta las siguientes clasificaciones. Muestreo Aleatorio Simple Para comprender este concepto, diremos que se puede derivar, no una, sino muchas muestras de una sola población, una tras otra. El muestreo aleatorio es el que establece que cada posible muestra tenga la misma probabilidad de ser seleccionada que cualquiera de las demás. Exige que cada elemento de la Población tenga la misma probabilidad que las demás de ser incluida en la muestra. Muestreo estratificado Se divide la población en grupos homogéneos y se pondera cada muestra, de acuerdo con el número de elementos que contiene con relación al total de las muestras. La estratificación por barrios o por manzanos de barrio es una manera muy utilizada. Fases del diseño de muestra Determinar qué es lo que se desea medir. Definir el tamaño de la muestra Realizar un pequeño plan piloto con las hojas de encuestas en la que se anotan las variables a ser analizadas. Introducción a las distribuciones de muestreo Se pueden sacar muchas muestras diferentes de una población. Supongamos que de una población extraemos varias muestras, una después de la otra, de manera tal que los elementos de la primera vuelven a la población y así con las demás. Supongamos que se trata de una muestra para estimar la altura de hombres tomados al azar de una población de 100 000 personas, la que puede ser considerada como infinita. Supongamos también que sacamos varias muestras del mismo tamaño de esa población. Al estimar la altura media y la desviación estándar de los hombres de cada muestra, nos daríamos cuenta de que serían diferentes de muestra a muestra. De esta manera llegamos a la siguiente conclusión: Una distribución de probabilidad de todas las medias posibles de las muestras es una distribución de las medias de la muestra. 68
Los valores estadísticos se conocen como distribución de muestras de la media. Descripción de las distribuciones de muestreo Ya lo vimos: cualquier distribución de probabilidad y, por lo tanto, cualquier distribución de muestreo puede ser descrita por su media y por su desviación estándar. Si sacáramos todas las muestras posibles de una población dada, las medias de cada muestra, al ser diferentes unas de las otras, estarían distribuidas de alguna manera. Esa distribución de las medias tendría, a su vez, una media y un erro típico propios, dado que se trata de una distribución, aunque sean una distribución de las medias. El error típico que usábamos hasta ahora, toma otro nombre cuando se refiere a la distribución de las medias del conjunto de muestras, se llama Error Típico de la Muestra. Otros programas utilizan el nombre “Error estándar de la media”, pero el SPSS designa a este estadístico como error típico de la media. El Teorema del Límite Central La media de la distribución de las medias de las muestras será igual a la media de la población, sin importar el tamaño de las muestras; esto da lugar a otra afirmación: A medida que el tamaño de las muestras crece, la distribución de las medias de las muestras se acerca a la distribución normal Por eso es que la muestra no tiene que ser muy grande con respecto a la población. El Teorema del Límite Central permite usar los estadísticos de una muestra para hacer inferencias sobre los estadísticos de la población. También se puede asegurar que en una muestra con más de 30 elementos, la distribución de la media que contiene la muestra, empieza a acercarse a la distribución normal. Por eso es que la primera de las acciones que realizamos al recibir una muestra en la pantalla del SPSS es constatar si su distribución es normal. Si no es, posiblemente tengamos que transformar la muestra. Conclusión Todo lo que hemos hecho hasta ahora ha sido recordar los principales conceptos que usa la estadística para analizar las muestras que logra de las diferentes poblaciones. Excepto en casos como los censos de población, vivienda, ingresos, todas las estimaciones sobre las estadísticas de una población se realizan utilizando la muestra. Continuaremos nuestro estudio aplicando el SPSS. Estadística descriptiva Lo dijimos ya, la Estadística se divide en dos grandes ramas:
69
La Estadística Descriptiva describe las propiedades de la muestras, incluyendo los valores, las tablas, las distribuciones, las gráficas y otros. La Inferencia Estadística infiere las características de la población a partir del análisis de los resultados que nos brinda la Estadística Descriptiva. Tipos de variables A modo de recordatorio, repetiremos lo que se estableció en el primer capítulo. Hay dos tipos principales de Variables: las categóricas y las de escala. Variables categóricas Son variables no numéricas, pero que pueden volverse numéricas en su caso. También se las conoce con el nombre de variables cualitativas. Las variables categóricas se dividen en nominales y ordinales. Variables nominales son aquéllas que no necesitan de un orden preestablecido, tal el Estado Civil: Soltero, casado…. En cambio las Variables Ordinales obedecen a un orden jerárquico de ordenación. Marital status, por ejemplo, es una variable categórica nominal, pues no es cuantitativa, sobre todo, no necesita una jerarquía de ordenación. Level of education no es una variable ordinal, dado que sigue un orden establecido. Ese orden está dado por la sucesión de los que no han asistido a un sistema formal de educación hasta los que han llegado a un nivel más allá de un grado universitario. Variables de Escala Son numéricos; también se llaman Variables Cuantitativas. Frecuencias Esta opción requiere de Statistics Base option. El proceso Frecuencias nos ofrece el despliegue de estadísticos y gráficas que nos son necesarias para describir los tipos de variables cuyos contenidos debemos interpretar. Es un buen lugar para que empecemos a familiarizarnos con los datos. Las gráficas pueden ser expresadas en valores absolutos o en porcentajes. Usar la opción Frecuencias para analizar variables nominales Traigamos el archivo contacts.save (Ver Sample Files para mayor información) El archivo tiene información sobre un equipo de vendedores de computadoras para las empresas que desarrollan software. En cada compañía, cada departamento dispone de representantes que tienen contacto primario; los contactos están categorizados como con las siguientes denominaciones: 70
Development, Computer Services, Finance, Other, Don’t Know Se desea comprobar si los departamentos cumplen con los objetivos. Usaremos Frecuencies para analizar la distribución de los departamentos. Analizar → Estadísticas Descriptivas → Frecuencias→ Departamento (como la unidad de análisis) → Gráficos→ gráfico de sectores → Continuar → OK en la caja de diálogo En la pantalla de resultados tenemos una tabla y un gráfico de “torta”; copiamos la tabla El total de frecuencias registradas es 70, de las cuales 8 son valores perdidos, lo que es equivalente al 11.4% del total de observaciones. La columna de frecuencias nos informa que 30 de los contactos se realizaron con el departamento de servicios de computadora. Tabla 6.1
Department
Válidos
Porcentaje
Porcentaje
Frecuencia
Porcentaje
válido
acumulado
Development
16
22,9
25,8
25,8
Computer ser-
30
42,9
48,4
74,2
13
18,6
21,0
95,2
Other
3
4,3
4,8
100,0
Total
62
88,6
100,0
8
11,4
70
100,0
vices Finance
Perdidos Don't know Total
Esto equivale al 42.9% del total de contactos y al 48.4% de los contactos del número de variables efectivamente tomadas en cuenta. Gráfico 6.1
71
La información que leemos en las tablas numéricas puede ser reflejada en gráficos. La “Torta” es una ayuda para tener una idea de las frecuencias relativas de cada categoría. Con las instrucciones anteriores, lo que hicimos fue concretar una tabla de datos y una gráfica de “torta” cuando hicimos click Gráfico de Sectores o Pie. Copiamos el gráfico “Pie” para apreciar los valores relativos de una forma más visual En la parte derecha del gráfico 6.1 se registra los sectores que tienen contactos con empresas clientes de la firma que ahora estamos analizando. Los respectivos porcentajes se muestran en las porciones a colores de la torta. Para obtener una nueva clase de gráfico, vayamos a la caja de Frecuencias, pulsemos en Gráficos, elegimos gráfico de barras → continuar En el cuadro de frecuencias→ Formato →valores descendente→ continuar → Aceptar Las barras se muestran de mayor a menor, para una mejor visualización. Además del departamento respectivo para cada contacto, también vemos el rango de las observaciones; para ello vamos otra vez a Frecuencias. Deseamos ver los rangos de la compañía para constatar si cumple con las metas. Gráfica 6.2
Resumen de rangos Para tener un resumen Analizar→> Estadísticas Descriptivas → Frecuencias→ Restablecer. Introducimos Company Rank (La que es una variable ordinal) en la pantalla de la derecha Click Gráficos → Gráficos de Barras → Continuar→ Forma → Valores descendentes→ Continuar → OK en la caja de diálogo de frecuencias. En la pantalla de resultados tenemos la tabla 6.2 72
Al igual que las anteriores, la que copiamos para su respectivo análisis; los resultados nos muestran que las variables ordinales también pueden ser analizadas de la misma manera y darnos información adecuada. Por ejemplo, podemos ver en la tabla que los contactos con los administradores jóvenes constituyen el 15.7% del total de los contactos. Pero, cuando estudiamos datos de tipo ordinal, el porcentaje acumulativo es más útil. La tabla, que al igual que las barras, ha sido ordenada por magnitudes descendentes nos lo muestra; para esta clase de análisis, la variable a estudiarse tiene que ser cuantitativa. Tabla 6.2
Company rank FrecuenVálidos
Perdidos Total
Porcentaje
Porcentaje
cia
Porcentaje
válido
acumulado
6
8,6
10,2
10,2
VP
13
18,6
22,0
32,2
Sr. manager
18
25,7
30,5
62,7
Jr. manager
11
15,7
18,6
81,4
Employee
11
15,7
18,6
100,0
Total
59
84,3
100,0
Don't know
11
15,7
70
100,0
Pres/CEO/CFO
La Gráfica 6.4 es el Histograma de la distribución de la variable Company Rank. En el eje base registra las cinco categorías que se muestran en la tabla 6.2. La Altura de cada barra del histograma consigna la frecuencia de cada categoría, es decir, la misma información que tenemos en la columna Frecuencia de la tabla 6.2 Gráfica 6.4
73
Frecuencias Para analizar esta opción usaremos la distribución de la variable Amout of Last Sale, que se encuentra en el archivo contacts.save, al que traemos a la pantalla de vista de datos Analizar → Estadística Descriptiva → Frecuencias → Amount of Last Sale → Vamos a llamar a varios estadísticos cuyo significado aún no conocemos; sin embargo, los iremos analizando uno por uno, cuando los tengamos en las tablas respectivas Una vez en la caja de diálogo de frecuencias: pulsamos Estadísticos y luego hacemos click en los siguientes botones: Cuartiles, Desviación Estándar, Mínimo, Máximo, Media, Mediana, Asimetría, Curtosis Continuar → Gráficos → Histogramas Aceptar Desactivamos la opción tablas de frecuencias → Aceptamos La Tabla 6.3 nos muestra los estadísticos acerca de la distribución de la variable que analizamos, en este caso, de la variable ventas; definamos cada uno de ellos. Tabla 6.3 Estadísticos Amount of last sale N
Válidos
70
Perdidos Media Mediana Moda Desv. típ. Varianza Asimetría Error típ. de asimetría Curtosis Error típ. de curtosis Rango Mínimo Máximo Percen25 tiles 50 75
0 55,4500 24,0000 8,00a 103,93940 10803,400 5,325 ,287 34,292 ,566 770,50 6,00 776,50 12,0000 24,0000 52,8750
a. Existen varias modas. Se mostrará la menor
El título del cuadro, Amount of Sales, se refiere al total de lo que se vendió el último día. N = 70 significa que se tomó en cuenta 70 valores de la muestra; no hay valores perdidos.
74
La Media, nos da el promedio de las ventas últimas en todos los departamentos de la firma; en este caso, nos dice que el promedio fue de $54. La Mediana, tal como ya la definimos en los primeros capítulos, es de $24; de inmediato notamos la diferencia que hay con la media, algo que analizaremos en unos momentos La Desviación Típica, $103.9394; nos muestra la dispersión media de las ventas Asimetría (También conocida como skewness o sesgo) Es un estadístico que describe la simetría de la distribución alrededor de la media. Si el sesgo es igual a cero, la distribución es simétrica (en este caso, es normal) Los siguientes gráficos ilustran el concepto de Asimetría. Si no existe una cola o sesgo, la asimetría tendrá un valor de cero. Si el sesgo lleva el signo positivo, entonces sabremos que la distribución tendrá una cola asimétrica hacia los valores negativos Esto querrá decir que los elementos de la muestra en general estarán sesgados hacia los valores que se agrupan más en los niveles bajos. Si el sesgo es negativo, la distribución tendrá una cola asimétrica hacia valores negativos; esto es, tiende a reunirse más a la derecha de la media, en los valores altos. La curva de una distribución asimétrica con skewness (sesgo o asimetría) negativa indica que los valores estarán más reunidos en niveles superiores a la media aritmética. Al centro, la curva muestra la Curva Normal, la asimetría tiene un valor de cero. A la derecha se muestra una curva asimétrica con skewness positiva, lo que nos indica que los valores tienden a reunirse en la zona de los valores menores a la media. Gráfica 6.5
El valor que nos da la tabla 6.2 para nuestro análisis sobre las ventas últimos es de 5.325; el error típico de la Asimetría es 0.287
75
Es un valor positivo, por lo tanto las ventas en general, en los departamentos, se reúnen en valores menores a la media, mostrando un desempeño no eficiente. Curtosis, es un estadístico que describe el grado de “punta” o “achatamiento” de la distribución de una variable con relación a la distribución normal. La gráfica 6.6 nos muestra el grado de curtosis de varias curvas como modelos. La curtosis positiva indica una distribución que perfila un gráfico “más en punta”, tal como vemos en la curva del centro, con relación a la normal; será Leptocúrtica. Una curtosis negativa indica una distribución relativamente más achatada, como la que vemos a la derecha; será Platicúrtica. En una distribución normal la curtosis es igual a 3; es sobre ese valor que se determina el nivel de Curtosis de una distribución En esta distribución, lo dijimos, la media, la mediana y la moda son iguales entre sí. Si el coeficiente es positivo, quiere decir que hay una mayor concentración de los datos en torno a la media. Si el coeficiente es negativo, la distribución se llama Platicúrtica y muestra que hay una menor concentración de datos en torno a la media; sería más achatada que la primera. El valor de la curtosis en la tabla es 34.2920, lo que indica que los valores están concentrados alrededor de la media aritmética. Gráfica 6.6
El uso del coeficiente de la Curtosis es muy importante para establecer el grado en el que la distribución de los valores se acerca o aleja de la curva normal. El Rango Es la diferencia entre el valor mínimo y máximo; el Mínimo es$6; el Máximo es 776.50 El Rango es 770.5 Percentiles Muestran cómo se agrupan los datos cuando se los ordena en orden ascendente tendiendo a que cada grupo tenga P% de observaciones. Por ejemplo, podemos dividir el número de elementos de una muestra en 99% grupos a los que identificamos con los siguientes símbolos: P1, P2,.. P99. 76
Cada grupo recibirá el nombre de percentil; el percentil P100 ya queda establecido. De esta manera, diremos que el 1% de los datos tienen un valor menor a P1 (No olvidemos que los grupos se forman de una serie de datos ordenados en sentido ascendente) El % de los datos tendrán un valor menor o igual a P% y el 70% de los datos serán menores o iguales a P70; por último, el 99% de los datos serán menores que P99. Vamos a poner un ejemplo concreto, en el próximo subtítulo relativo a los Cuartiles. Los Cuartiles Son los grupos más utilizados, dividen al total de los elementos en cuatro partes cada uno delos cuales tienen aproximadamente el mismo número de elementos. Cada Cuartil queda identificado como: Q1, Q2, y Q3 Q1, es el que tiene el primer 25% de observaciones del total, los cuales son menores a Q1 Q2 es el que tiene el 50% de las observaciones, cada uno es mejor que Q2 Q3 en el que el 75% de los datos son menores que Q3 Ejemplo Tomemos los siguientes valores ordenados en forma ascendente: 120, 140, 200, 240, 260, 380,450, 500, 630, 700, 750, 790, 800, 820, 910 Ahora bien, dividamos ese total de elementos en cuatro grupos, es decir en Cuartiles 120, 140, 200, 240, 260, 380, 450, 500, 630, 700, 750, 790, 800, 820, 910, 980 El primer Cuartil (Q1) es 240, pues todos los valores a su izquierda serán menores que él. El Segundo Cuartil (Q2) es 500, pues todos los valores a su izquierda son menores que él. Del mismo modo para los demás cuartiles El último Cuartil (Q4) es 980, todos los elementos tienen un valor menor que él Obsérvese que la Mediana, tal como la estudiamos en los primeros capítulos oscila entre 500 y 600, = 550, es decir, está incluida en el Segundo Cuartil Es importante tomar nota que el 50% de los datos centrales se encuentra entre Q1 y Q3 Los Deciles Dividen la distribución en 10 partes iguales (9 divisiones) y se representan como D1,..., D9, correspondientes al 10%,...,90%, al igual que los otros estadísticos descritos. El SPSS estima todos estos estadísticos, tal como vimos en la tabla 6.3 Volviendo al análisis de la tabla, notamos que la media, la mediana y la moda difieren en sus valores; lo que nos permite deducir que la distribución de la variable no es normal. La deducción se confirma al leer los estadísticos como la Asimetría y la Curtosis 77
El Histograma Ya tuvimos ocasión de familiarizarnos con el Histograma, que es una visualización gráfica de la distribución de la variable que deseamos analizar. Obsérvese que en el eje de las abscisas se registran los valores de las ventas y en el de las ordenadas la frecuencia en que esos valores se repiten. El histograma que vemos en el cuadro de resultados, comparado con la curva normal, nos muestra una distribución asimétrica con una cola derecha larga. Es decir, un sesgo o skewness positivo, lo que nos indica que los elementos están concentrado, preferentemente, en la zona de valores bajos, tal como nos indicaba la Asimetría También nos confirma una Curtosis elongada hacia arriba, con relación a la curva normal; lo que nos confirma que la distribución es Leptocúrtica, lo que ya vimos en la tabla. Los valores que nos da la tabla sobre las medidas de tendencia central, la Curtosis y la Asimetría muestran que la distribución de la variable Sales no es normal. El Histograma confirma la misma conclusión que los datos de la tabla; por lo tanto, debemos estar seguros de que la distribución de la variable sales no es normal. . No olvidemos que estamos interesados en que la distribución de la variable que analizamos se acerque a la curva normal. Como en este caso la distribución no es normal, recurrimos a la transformación de las variables, en otros que reflejen mejor las características de la muestra. Gráfica 6.7
Es decir, trataremos de transformar la variable de manera tal que su distribución se acerque más a la distribución normal 78
Transformación de variables En el siguiente paso veremos cómo se hace esa transformación. Primer, traemos a la pantalla de datos el archivo La Opción Transformación Para usar la opción Transformación, la variable debe ser de escala, es decir, cuantitativa. En este caso, parece adecuado transformar los valores en nuevos valores incluidos en una nueva variable que mostrará los logaritmos naturales de los valores originales. Vamos a transformar la variable Amount of last sales del archivo que estamos usando, esto es, de contacts.save Para transformar la variable de ventas escojamos del Menú principal la casilla Transformar → calcular variable (o compute variable) aparecerá un cuadro de diálogo En la parte superior izquierda del cuadro hay una casilla con el nombre “Variable de destino”, allí escribamos logsale que es nuestra nueva variable Es decir, allí se inscribirán los valores logaritmizados. A la derecha hay una pantalla con el título de expresión numérica Ahora bien, debajo de esa pantalla, a la izquierda, hay dos pantallas: la primera dice “grupo de funciones”, de las opciones pulsamos Todo. La pantalla que se encuentra debajo de la anterior tiene como título funciones y variables especiales; aparecen todas las funciones del SPSS, registradas por orden alfabético. Buscamos hacia abajo, hasta llegar a Ln; hacemos click y en la pantalla a la izquierda y debajo del teclado aparece una leyenda que explica cuál es la tarea de la función. Con la flecha de dirección hacia arriba, introducimos esa función en la pantalla “expresión numérica”; allí aparecerá la siguiente expresión: LN(?) El signo de interrogación nos pregunta cuál es la variable que deseamos logaritmizar. Del cuadro de la izquierda, donde están todas las variables elegimos Amount of last sales; con la flecha de dirección introducimos la variable entre los paréntesis; aceptamos. Vamos a la pantalla de Vista de datos y nos encontramos que los valores de la nueva variable logsale están registrados en la última columna de la pantalla. Observemos también que la nueva variable logsale ha quedado registrada en la pantalla Vista Variables; aumentamos los decimales a 6 En la columna Etiquetas ponemos Logaritmo de Ventas. De inmediato comprobaremos si la transformación de la variable sales ha mejorado con la transformación de sus valores en valores representados por sus logaritmos naturales. 79
Menú Principal → Descriptivos → Frecuencias Desplazamos la variable sales de la pantalla y la reemplazamos por la nueva Logaritmos de Ventas→ pulsamos los estadísticos deseados; También vemos que en la opción Gráficas, está pulsada la opción Histograma; aceptamos y una nueva tabla de datos y un nuevo histograma aparecen en la pantalla de resultados. La tabla de resultados es muy extensa para traerla. Pero, al leer los datos vemos que la media, la mediana y la moda están mucho más cerca entre sí, de lo que estaban antes de la transformación de la variable. También notamos que los valores de Curtosis y Asimetría se han reducido, mostrando que la distribución de la nueva variable logsale se acerca más a la distribución normal. Una revista al histograma confirma los datos numéricos de la tabla, pues el nuevo histograma se aproxima mucho más a la curva de la distribución normal. Obsérvese que sobreponiéndose a las barras del histograma se muestra una curva normal, que es la que hemos solicitado para compararla con el histograma. Otra vez podemos apreciar que la nueva distribución es más cercana a la normal. En resumen, hemos analizado las distribuciones de los contactos que se tiene con los encargados de las compañías para las que la firma produce hardware. Se ha analizado la variable de ventas y sus valores han sido transformados en logaritmos naturales, para que su distribución se acerque más a la distribución normal. Para ello, hemos utilizado la Opción Transformar, lo que ha permitido que los valores con los que se debe trabajar en adelante sean mucho más útiles que los anteriores. Gráfica 6.8
80
Al final del ejercicio sacaremos los antilogaritmos de los valores pronosticados, pero eso será cuando lleguemos al capítulo de Regresión.
GRANDES ESTADÍSTICOS Y MATEMÁTICOS DE LA HISTORIA Ludwig Boltzmann (1844-1906)
Físico teórico; en trabajo conjunto con Gibbs fue responsible de la transformación de la teoría probabilística de Maxwll en la mecánica estadísticas. Obtuvo su doctorado de la Universidad de Viena por su tesis sobre la teoría kinésica de los gases. La Mecánica Estadística requería soluciones a problemas de la teoría de las distribuciones y también generan problemas conceptuales. En 1878, Boltzmann nos dio la distribución χ2 para dos y tres grados de libertad; posteriormente, en 1881 estructuró la Distribución χ2 para n grados de libertad, ambas serán analizadas en capítulos venideros. La Enciclopedia Stanford incluye dos artículos muy importantes de Boltzmann: su trabajo sobre Física Estadística y la Filosofía de la Mecánica Estadística.
7
DIFERENTES PROBLEMAS Datos Cuantitativos Este capítulo será dedicado a identificar los gastos que los consumidores hacen en el rubro de telecomunicaciones; así estableceremos cuál de los servicios rinde mayor beneficio Para ello, tomaremos los datos de una compañía virtual de telecomunicaciones, que tiene una base de datos de los consumidores que incluye, entre otros: Información acerca de cuánto gasta un cliente en llamadas a larga distancia, llamadas libres, alquiler de equipo, carta de llamadas y servicio La información pertinente está en el archivo telco.sav del SPSS 19. Lo traemos a pantalla para analizar los datos por medio de la opción Descriptivos. Menú principal→ Analizar → > Estadísticos Descriptivos → Descriptivos... Pulsamos Long distance last month; Toll free last month, Equipment last month, Calling card last month, and Wireless last month → Aceptar La tabla 7.1 que aparece en el cuadro de resultados muestra los estadísticos sobre el gasto, los que serán comparados entre los gastos en cada servicio. 81
Pero, sobre los datos de la tabla es difícil distinguir cuáles servicios son más rentables. En promedio, los clientes gastan más en equipment rental, pero hay una gran escala de variación en las sumas gastadas. Los clientes de calling card service gastan un poco menos en promedio, que en equipment rental, pero hay menos variación en los valores que representan el gasto Se nos presenta un problema; los clientes no demandan todos los servicios, por lo que los vacíos respectivos se cuentan como valores “0” Tabla 7.1 Estadísticos Descriptivos
Solucionamos este problema ratificando el “0” a los valores faltantes (missing values) Long distance last month
N 1000
Mínimo ,90
Máximo 99,95
Media 11,7231
Desv. típ. 10,36349
Toll free last month Equipment last month
1000 1000
,00 ,00
173,00 77,70
13,2740 14,2198
16,90212 19,06854
Calling card last month
1000
,00
109,25
13,7810
14,08450
Wireless last month N válido (según lista)
1000 1000
,00
111,95
11,5839
19,71943
Para recodificar los “0” como missing values procedemos del siguiente modo: Transform → Recode Into Same Variables Nótese que vamos a recodificar en los mismos valores y no en diferentes valores como habíamos hecho hasta ahora. Seleccionamos: Long distance last month, Toll free last month, Equipment last month, Calling card last month, and Wireless last month como valores numéricos Click Viejos y Valores Nuevos → escribimos 0 en la casilla Valor Antiguo → System missing → Valor Nuevo 0 → Add → aparecerá (SYSMIS → 0 ) → Continuar → Aceptar Se verá en la pantalla de Vista de Datos, que los valores “0” aparecen en las columnas de las respectivas variables transformadas como valores missing (faltantes) No hay nueva columnas en la Vista de Datos, porque hemos recodificado esta vez en las mismas variables y no creando otras, al contrario de los casos anteriores. Analizaremos las variables así recodificadas usando la opción Estadísticos Descriptivos. Analizar → Descriptivos; → Opciones → Media, Mínimo, Máximo, desviación Típica→ Aceptar Cuando se toma en cuenta los “0” como variables perdidas, los resultados sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran notablemente. 82
Los datos nos muestran que los servicios Wireless y equipmente rental son los más rentables, los promedios de los gastos de los clientes son mayores que los de otros servicios. Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last month tiene la desviación típica menor (10.36349) tal como se ve en la tabla Los nuevos datos nos han dado una guía acerca de cuáles son los servicios que merecen una atención mayor en operaciones de marketing. Cuando se toma en cuenta los “0” como variables perdidas, los resultados sobre el gasto de los clientes en cada servicio son muy diferentes, esto es, mejoran notablemente. Los datos nos muestran que los servicios Wireless y equipmente rental son los más rentables; los promedios de los respectivos gastos de los clientes son mayores que los de otros servicios. Wireless produce el mayor beneficio (Media = 39.1348) y Long distance last month tiene la desviación típica menor (10.36349) Tabla 7.2 Estadísticos Descriptivos
Long distance last month Toll free last month Equipment last month Calling card last month Wireless last month N válido (según lista)
N
1000
Mínimo Máximo Media
Desv. típ.
,90
99,95
11,7231 10,36349
475 386 678
5,75 15,40 2,75
173,00 77,70 109,25
27,9453 13,82910 36,8389 10,39568 20,3260 12,62916
296 131
14,90
111,95
39,1348 15,32916
Los nuevos datos nos han dado una guía acerca de cuáles son los servicios que merecen una atención mayor en operaciones de marketing. Se puede encontrar clientes que gastan mucho más o mucho menos que otros clientes en cada servicio; eso lo conseguimos estandarizando los valores de las variables (z scores) Pero hay un problema, los valores z scores requieren que las distribuciones de las variables sean cercanas a la distribución normal, algo que las variables escogidas no cumplen. Tal como vimos los valores de los estadísticos asimetría y curtosis, son altos, lo que muestran que las distribuciones de las variables no son normales. Un remedio posible, debido a que todos los valores de las variables son positivos, es transformar las variables en sus logaritmos naturales y luego, estudiar los z scores. Recordemos que el ejercicio anterior que hicimos para logaritmizar las variables. Una vez que las tenemos en las columnas de la pantalla de Vista de datos procedemos.
83
Seguimos trabajando con los datos del archivo telco.sav Menú principal → Estadísticos descriptivos → Descriptivos Seleccionamos las variables desde Log-long distance hasta Log-wireless variables logaritmizadas → Save standardized values as variables, a la izquierda inferior del cuadro Aceptamos; los valores logaritmizados aparecen en las nuevas columnas de la pantalla de Vista de datos; también aparecen en la pantalla Vista de variables. Para tener una vista más completa sobre los estadísticos de las nuevas variables, en lo que se refiere a los nuevos valores de asimetría y curtosis, vamos al Menú principal. Allí pulsamos Estadísticos Descriptivos → Frecuencias Introducimos las variables logaritmizadas, luego de sacar las anteriores y pulsamos Estadísticos → escogemos los estadísticos de tendencia central y dispersión → aceptamos En la pantalla de Resultados vemos la tabla de valores y constatamos que la asimetría y la curtosis han disminuido con relación a los valores de las variables no logaritmizadas. Sin embargo, la variable Log toll-free tiene aún una curtosis apreciable debido a que un solo cliente gastó una suma mensual considerable en el último mes. Para analizar esta clase de valores inusuales debemos visualizar los z scores; antes, debemos familiarizarnos con el instrumento Boxplot (Diagramas de Caja) Diagrama de Caja (Boxplots) El Diagrama de Caja muestra indicadores sobre el grado de normalidad de la distribución de la variable; especialmente nos muestra la asimetría y la curtosis Gráfica 7.1 Diagrama de Caja
Analizaremos primeros sus características y luego como traerla del SPSS. En la gráfica 7.1 tenemos un diagrama de caja típico. 84
La caja está entre dos verticales que apuntan hacia arriba y hacia abajo respectivamente La longitud de esas verticales muestra el grado de asimetría de la distribución. Cada una de las líneas verticales, hacia arriba o hacia abajo, se llama Whisker. Si la distribución de los datos de la muestra fuera normal, ambos whiskers tendrían la misma longitud, pero eso sucede muy pocas veces. Si el whisker superior es más corto, la muestra tendrá una asimetría negativa, esto nos dirá que los elementos estarán más concentrados en los valores superiores a la Media. Si el whisker inferior es más corto, la asimetría será positiva, en cuyo caso sabremos que los elementos de la muestra están preferentemente concentrados en los valores inferiores. Cada whisker termina en una línea horizontal, la que marca sus límites. Las Cajas también nos proveen información de la curtosis de cada distribución. Una caja delgada muestra que una gran cantidad de valores están contenidos en un segmento muy pequeño de la muestra; una distribución con un pico más alargado Una caja inusualmente ancha significará lo contrario; los outliers, o valores extremos, están simbolizados por puntos, círculos o asteriscos más allá de los límites. Los valores extremos se desvían por encima o por debajo de los otros valores. La longitud de la caja nos ofrece un referente acerca de la variabilidad de la distribución de la muestra En la gráfica 7.1 que muestra un Diagrama de Caja típico, vemos letras que representan las características de la misma a es el valor máximo dentro de una distancia que no supere 1.5 veces el rango intercuartílico, el que ya sabemos, es Q3. Este espacio está conformado por el tercer cuartil más 1.5 veces el rango intercuartil. b es el tercer cuartil (Q3), también es el 75 percentil c es la mediana (Q2) o también el porcentil 50 d es el primer cuartile (Q1) o también es el percentil 25 e es el valor mínimo, a no ser que haya valores menores a 1.5 veces el rango intercuartílico debajo de Q1, en cuyo caso, será el primer cuartil menos 1.5 veces el rango intercuartil El estadístico Diagrama de Caja o Boxplot es uno de los más complejos para captar a pri-mera vista la estructura de la distribución. Por eso es que analizaremos con mayor detalle sus características; ellas nos permitirán conocer, a simple vista, la estructura de la distribución de los elementos de una muestra. 85
Algo que debemos recordar siempre al analizar una Caja de Diagrama: la línea del centro es la Mediana de la distribución que deseamos analizar. Gráfica 7.2 Diagrama de Caja mostrando centralidad
La Caja de la izquierda: una muestra de 20 valores con una mediana centrada en 7. La Caja de la derecha: una muestra de 20 valores cuya mediana está centrada en 12. Gráfica 7.3 La Caja como indicador de dispersión
La Caja de la izquierda: una muestra de 20 valores con una desviación típica de 1 y cuya mediana, representada por la línea gruesa del interior de la caja, está centrada en 10. La Caja de la derecha: una muestra de 20 valores con una mediana centrada en 10 y una desviación típica de 3. Obsérvese cómo la altura de la caja es menor cuando la desviación típica es sólo 1, a la izquierda y cómo la altura se hace mayor cuando la desviación típica es mayor, derecha Con las figuras (traídos de Internet, aunque no se pudo identificar al autor) las características y utilidad de la Caja de Diagrama se hacen cada vez más patentes.
86
En la siguiente página veremos diferentes cajas de Diagrama o boxplots como Indicadores de Curtosis
En esta caja, los 20 valores de la muestra tienen una distribución mesocúrtica. La línea gruesa, esto es, la Mediana, está cerca del centro y los whiskers son de igual longitud; se acerca a la Normal
En esta caja, también de 20 valores, la curva es achatada, platicúrtica, pues su mediana está en la parte inferior.
La distribución de 20 valores es lepocúrtica, la Mediana está en la parte superior de la Caja
Se denominan hinges a los valores que están incluidos en la caja misma. La Caja de Diagrama (Boxplot) como Indicador de Asimetría Las colas son los dos extremos, izquierdo y derecho, de una curva de distribución; en la curva normal, esas colas son asintóticas con relación al eje de las abscisas. La Asimetría se muestra a través de la diferencia de longitudes entre las colas, pues, si la distribución es asimétrica, una de ellas será más larga que la otra. La Curtosis ideal sería simétrica, como es la de la curva normal, cuyo diagrama de caja mostrará sus dos whiskers casi de la misma longitud. Las cajas que se diseñan en la gráfica 7.5, muestran las formas de asimetría de la distribución que representan en cada caso. 87
Gráficas 7.5 Representación de la Asimetría
En la caja de la izquierda, la muestra de 20 valores tiene una distribución de largas colas, lo que se expresa en la longitud de los whiskers. Cada longitud es mucho mayor que la altura de la caja Si la distribución se acercara a la normal, la longitud de cada whisker tendería a ser igual a la altura de la caja. En el segundo ejemplo, la longitud de los whiskers es menor a la altura de la caja, lo que nos indica que la curtosis es menor que en la caja de la izquierda. En la tercera figura, la distribución de la muestra tiene colas muy cortas y los whiskers están ausentes. Interpretación Mostradas la utilidad de la caja de diagramas, es preciso recordar que se debe evitar deducir conclusiones cuando las muestras son muy pequeñas, diez valores o menos. Por otra parte, es necesario tomar en cuenta los valores que no están en la caja ni en la longitud de los whiskers, los que son valores extremos. Por eso es que los whiskers realmente no muestran los valores mínimos y máximos de una muestra, sino los que están a una distancia “razonable” de la caja, abajo o arriba. Una muestra con gran asimetría y whiskers, con muchos valores inusuales al costad puede aparecer razonablemente simétrica en la caja. Pero el SPSS tiene sus controles sobre estos casos; los valores que son más de tres veces la longitud de la caja, arriba o abajo, reciben una anotación roja. Esos valores son identificados con asterix y entran como valores extremos Los valores que tienen entre 1.5 hasta 3 veces la longitud de la caja, arriba o abajo, tienen una anotación amarilla; son considerados como outliers.
88
Debemos recordar que las palabras outliers y extremes deben ser interpretadas en relación a la distribución de una curva normal. En todo caso, debemos tener en cuenta que los valores extremos son valores que están por arriba o por debajo de los valores outliers, no son sinónimos. Diagramas de Caja con el SPSS Ahora que estamos familiarizados con las características del Boxplot o Diagramas de Caja y la utilidad que nos presta, ya podemos reiniciar nuestro trabajo con el SPSS. Traemos el archivo telco.save a la pantalla de Vista de Datos. Empezamos con llamar al Diagrama de Caja Menú → Graphs → cuadros de diálogo antiguos → Diagrama de Caja → Resúmenes par distintas variables → Definir → introducir en la pantalla superior derecha las 5 variables: En la pantalla Vista de Datos, vemos que las variables que vamos a convocar tienen valores missing, es decir, valores que faltan. Para que la muestra sea más fidedigna, reemplazamos esos valores con 0, de tal manera que cada valor que tenga 0 significará que es un cliente que no ha solicitado ese servicio. Ya lo vimos anteriormente; para hacer esa operación vamos al Menú: Menú → Transformar → Recodificar en la misma variable → introducir las 6 variables seguidas, desde log distance hasta log income Vamos a Valores Antiguos y nuevos → poner cero en la casilla de la izquierda, valores antiguos → debajo de ella, pulsar perdidos en el sistema Poner el mismo 0 en Valores en la casilla derecha; en la parte superior de la pantalla de la derecha aparece el rótulo: Antinguo→Nuevo Pulsar Añadir, y en esa pantalla aparecerá la expresión SYSMIS →0 Los valores faltantes de las variables que necesitamos están reemplazadas por el valor 0 Lo comprobamos al examinar en las columnas de las variables respectivas, cómo los valores faltantes, fueron reemplazados con 0 en cada caso Una vez reemplazados los valores missing con el procedimiento anterior, nos ocupamos de los diagramas de caja para cada uno de los valores que han sido logaritmizados Menú → Gráficos → Cuadros de diálogo antiguos → Diagramas de Caja → Resúmenes para distintas variables → Defininir De la pantalla de la izquierda introducimos en la pantalla de la derecha las seis variables: desde log long distance hasta log income → opciones → excluir casos variable por variable continuar → aceptar.
89
En el cuadro de resultados aparecen las 6 Cajas de Diagramas (Boxplots) cada una representando, individualmente, a la variable correspondiente de las cinco que analizamos. En las cajas vemos, por ejemplo, que la variable Log-long distance hay valores extremos, como 200 y 207; lo mismo, en la variable Log-income. En los siguientes acápites veremos la utilidad de las cajas de diagrama, pero antes, es preciso que nos familiaricemos con el estadístico. Gráfica 7.6
Análisis de datos La exploración de los datos ayuda a determinar si las técnicas de la ciencia estadística que usamos son o no apropiadas; para eso disponemos del procedimiento Explore. El procedimiento Explore nos provee de resúmenes visuales y números de los datos, ya sea para todos los casos por separado o ya para grupos de casos. La variable dependiente a ser analizada debe ser una variable de escala. Las de grupo pueden ser nominales u ordinales. Con Explore podemos obtener los diagramas de caja, identificar los outliers, chequear los supuestos y las diferencias entre los grupos. Estadísticas descriptivas cruzando grupos Tomemos el siguiente ejemplo; las cosechas de maíz deben ser testadas para establecer si hay o no el elemento aflatoxin, un veneno cuya concentración varía entre las cosechas. Una firma que procesa granos ha recibido 8 diferentes cosechas, pero la distribución de aflatoxin, en partes por billón, debe ser estimada antes de que el maíz sea aceptado. 90
Este ejemplo usa el archivo aflatoxin.sav cuyos datos consisten en 16 muestras de cada una de las entrega de las ocho en que se han transado la operación. Menú principal → Analizar → Etadísticas Descriptivos → Explore → Aflatoxin PPB como la variable dependiente y Corn Yield como la variable de factor → Aceptar En la pantalla de resultados tenemos el cuadro general para las 8 entregas (Yields) y las 16 muestras que se ha elegido de cada una. Luego nos da la tabla con los estadísticos respectivos para cada una de las 8 entregas. Los cuadros son muy extensos para copiarlos, pero podemos analizarlos. Así mismo, nos despliega la distribución “Tallos y Hojas” la que será estudiado en el apartado próximo; finalmente nos diseña los diagramas de caja. De acuerdo con los términos del ejemplo, el límite establecido acepta como máxima una proporción de 20 unidades de aflatoxin por billón. Para interpretar los resultados, debemos obtener la tabla pivoteada, para lo cual activamos la tabla haciendo click en cualquier lugar dentro de sus límites. La tabla pivoteada nos muestra que, de acuerdo con la media, sólo las entregas 4, 7 y 8 caen por debajo de las 20 unidades por billón establecidos. También aparecen los Diagramas de Caja para cada una de las muestras, cuyo concepto ya fue analizado en el anterior acápite En este caso, los valores extremos merecen una atención especial. Ya lo dijimos, la línea gruesa dentro de una caja marca la Mediana de la distribución, que es también el percentil 50 de esa misma distribución. Ejemplo, la Mediana del nivel de aflatoxin en el grupo 1 es 21.50 por billón. Observemos que las medianas varían considerablemente entre los diagramas de caja. Sabemos la longitud de cada caja, no la de los whiskers, marcan el percentil 25 y el percentil 75 de cada distribución. Para el grupo 2, v.g, el valor inferior de la caja es de 24.75 y el valor superior 36.75. Recordemos que estos valores registran los que están incluidos en la caja misma (hinges) desde la base hasta la línea que cierra el rectángulo; aún no hablamos de los whiskers. Los whiskers aparecen encima y debajo de los límites de las cajas, es decir, por encima y debajo de los hinges; para el grupo 2 el valor mínimo es 22 y el máximo es 52. Los valores outliers, están identificados con la letra mayúscula “O”. El grupo 2 tiene un valor outlier de 68 y está etiquetado con 20 91
Esto nos dice que el elemento número 20 de la muestra tiene un valor de 68, es decir, un valor por encima de los demás; es un outlier. El grupo 5 tiene un valor outlier de 49, etiquetado con 71, lo que nos indica que el elemento número 71 de la muestra tiene un valor 49, que está por encima de los demás Las etiquetas representan al número de fila en la pantalla de dato; compruébese que en la fila 20, el valor del elemento es 68; lo mismo en la fila 71 para el valor outlier 49 Los valores extremos son identificados con asterisk (*) No hay valores extremos en estos datos. Se puede comparar los valores del diagrama de caja con los que muestra la Mediana en el cuadro de Estadísticos. El uso de Explore nos permitió crear una tabla que muestra los estadísticos, a través de los cuales nos enteramos que el nivel de alfatoxin no son seguros para 5 de los 8 grupos. Esto fue confirmado por los diagramas de caja; el procedimiento Explore ofrece muchas opciones que permiten una mirada de mayor detalle. Gráfico 7.7
De ese modo logramos una imagen más adecuada en cuanto a la forma cómo difieren los grupos, tanto entre sí, como de algún valor estadísticamente esperado. La identificación de valores atípicos, es decir, extremos para arriba o para abajo, es de gran ayuda cuando se trata de medir muestras no influidas por valores extremos Explorando los datos de las Muestras Ingresamos al concepto de “capa” (layer) el uso del estadístico “hojas y tallos y la manera de establecer el grado de cercanía o alejamiento de una distribución a la normal. 92
Siguiendo nuestra metodología, lo haremos por medio de ejemplos concretos. Una compañía manufacturera usa nitrido de plata para fabricar soportes de cerámica que deberán resistir temperaturas de 1500 grados centígrados o mayores. Se sabe que la distribución de una aleación estándar de resistencia al calor es normal; Sin embargo se prueba una nueva aleación “premiun” cuya distribución no es conocida. Se nos pide comparar los resultados y, en su caso, las diferencias sobre las características entre dos muestras logradas en la fábrica. Plantearemos un problema específico y una vez que tengamos los datos, los interpretaremos en detalle; para el problema usaremos la opción Explorar. Traemos el archivo ceramics.save Menú principal → Analizar → Estadísticos Descriptivos → Explore → Degrees Centigrade como la variable dependiente →Alloy (Aleación) como el factor variable y labrunid como etiqueta de casos. La Tabla 7.3incluye las variaciones de Alloy: Degrees Centigrade para Premiun y Estándar; la Variable Alloy sirve de capa (Layer) a las variables Premiun y Standard. Lo primero que nos llama la atención es el valor de las Medianas; ésta es mayor en el soporte Premiun, 1539,72, que en el soporte Standard, 1514,53. Por otro lado, en la tabla vemos que la media de calor del soporte Premiun, 1542 grados es mayor que la media del soporte Standard, 1514. Pero la simetría y la curtosis son menores en el soporte Standard. Esto nos sugiere que la distribución Standard tiende más a la Normal que la Premiun. Sobre todo, si vemos que la diferencia entre la Media y la Mediana, en Premiun, parece significativa; En el próximo capítulo aprenderemos a usar las Pruebas de Normalidad. Mientras tanto, analicemos los estadísticos que nos muestra la tabla de resultados. Para continuar el análisis necesitamos definir un nuevo concepto. Trimmed mean (Media recortada) Observemos que la tabla de estadísticos divididos por soporte Premiun y Standard del anterior capítulo incluye la Media Recortada (Trimmed mean) La Media Recortada deriva de la exclusión del 2.5% de los valores más bajos y el 2.5% de los valores más altos de cada muestra; eso es lo que significa el 5% escrito al lado. Lo hace así para omitir los valores extremos que podrían deformar la muestra. Si el valor de la Trimmed mean, excluido el 5% de los valores extremos, es muy diferente de la media, sabremos que nos encontraremos con valores outliers. 93
La Media recortada en el soporte Premium, 1541,28 es mayor que la de Standard 1514,73 lo que corrobora que el soporte Premiun tiene mayor resistencia al calor que el Standard. Tabla 7.3
Descriptivos Alloy Premium Degrees Centigrade
Estadístico Error típ. 1542,0787 ,61165
Media Intervalo de confianza para la media al 95%
Standard
Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis Media Intervalo de confianza para la media al 95%
Límite inferior Límite superior
Límite inferior Límite superior
Media recortada al 5% Mediana Varianza Desv. típ. Mínimo Máximo Rango Amplitud intercuartil Asimetría Curtosis
1540,8738 1543,2836 1541,2805 1539,7181 89,789 9,47569 1530,44 1591,04 60,61 11,51 1,439 3,036 1514,6564 1513,4350 1515,8779 1514,7302 1514,5317 92,269 9,60566 1488,30 1537,99 49,69 13,51 -,078 -,343
,157 ,313 ,62004
,157 ,313
La Pantalla de resultados también desplegó los Diagramas de Caja individuales para ambas aleaciones Premiun y Standard con sus respectivos outliers y valores extremos Estos datos apoyan lo que ya sabíamos por los anteriores indicadores: Los datos de la distribución referidos a la resistencia al calor del soporte Standard tienen una distribución más cercana a la norma, que las aleaciones del soporte Premiun. Los diagramas de caja también despliegan valores extremos y outliers mayores y menores, clasificados por Alloy (muestra) para ambos soportes Premiun y Standard Apreciamos que algunas veces, los soportes premium pueden soportar un grado más alto de calor que los soportes Standard y nunca bajan por debajo de 1530 grados centígrados. 94
Los diagramas de caja 7.8 nos sugieren que dada la presencia de outliers en el soporte Premiun es necesario comprobar si ambas muestras tienen la misma varianza. Gráfica 7.8 Boxplot
Ése es un aspecto cuyo estudio corresponde al capítulo Análisis de la Varianza ANOVA, el que será incluido con detalle en otro capítulo. Hojas y Tallos (Stem-and-Leaf Plot Por ahora, vayamos al nuevo Estadístico: Hojas y Tallos (Stem-and-leaf plots) opción que nos muestra los valores exactos de las observaciones individuales. No sólo de las medias o de otro tipo de estadísticos, sino de todos y cada uno de los valores individuales, algo que es de sumo interés, especialmente en los controles de calidad. Para visualizar mejor sus características, repitamos el ejercicio anterior. Traigamos el archivo ceramics.save Repitamos el proceso, incluyendo el click en pruebas de normalidad, pero en la opción gráficos del cuadro de diálogo de Explore, pulsemos la casilla Stem-and-Laf plots En la pantalla de Resultados aparecerá la siguiente información; dado que la segunda gráfica es más completa que la primera, empezaremos el análisis del soporte Standard. Interpretación de la gráfica Tallos y Hojas La columna izquierda registra las frecuencias de cada nivel de temperatura En total suman 240 valores, los que coinciden con el número que nos da el cuadro de Resumen del procesamiento de los casos Los datos de columna del medio, se llama Stem y los de la última columna, Leaf. 95
Escojamos, al azar, una fila, digamos la que muestra una frecuencia de 22.00 La columna de Stem registra 150 y la columna de Leaf los valores que completan el valor 150 de la columna Stem, empezando por 0. Estadístico Tallo y Hojas (Stem-and-Leaf Plot for batch= Standard) Frequency 2,00 2,00 12,00 22,00 35,00 54,00 43,00 32,00 22,00 15,00 1,00
Stem & Leaf 148. 149. 149. 150. 150. 151. 151. 152. 152. 153. 153.
88 44 566677788999 0001111122333333333444 55555555666667777777777777888888999 000000001111111111112222222333333333333333444444444444 5555556666666667777777777777778888899999999 00000000011111122223333333334444 5555555666667777888899 000000122223344 7
Si escogemos el primer “0” de Leaf y lo añadimos a150 de Stem, tendremos 1500; hay tres ceros en la columna Leaf, habrá 3 casos que soportan temperaturas de 1500 grados Escojamos ahora el valor de Stem de 151; hay, como en el caso anterior, dos frecuencias para ese valor, que son 54 y 43; elijamos el que tiene la frecuencia de 54. Si agregamos el primer 0 de la columna de Leaf al valor de 151,éste se convertirá en 1510; como hay ocho ceros en la columna Leaf, entonces habrá 8 observaciones de 1510. Ahora, en vez de completar el valor Stem de 151 con cada cero, haremos lo mismo, pero esta vez añadiendo al valor Stem el primer 1 de la columna Leaf. El valor Stem se convertirá en 1511; como hay doce valores “1”, entonces sabremos que habrá doce observaciones que representan soportes de 1511 grados centígrados. Hacemos lo mismo con los valores “2”, “3” y “4”, respectivamente; lo que nos dará 7 valores de 1512, 15 valores de 1513 y 12 valores de 1514 que soportan esas temperaturas. El valor de la primera columna a la izquierda, Frecuency, nos dice que en total hay 54 soportes que resisten temperaturas desde 1510 hasta 1514 grados centígrados. Los datos nos indican que los valores se concentran, principalmente, entre 1505 y 1519 grados, esto quiere decir que la mayor parte de los elementos de Standard soportan temperaturas entre 1505 y 1519 grados. Realizaremos el mismo análisis de los datos con la tabla Stem-and-Leaf para los soportes Premium. 96
Estadístico de Tallo y Hojas (Stem-and-Leaf Plot for batch= Premium) Frequency
Stem
24,00 153. 22,00 153. 26,00 153. 26,00 153. 24,00 153. 19,00 154. 25,00 154. 10,00 154. 12,00 154. 10,00 154. 8,00 155. 4,00 155. 6,00 155. 6,00 155. 6,00 155. 3,00 156. 3,00 156. 6,00 Extremes
&
Leaf
000000011111111111111111 2222222222333333333333 44444444445555555555555555 66666666666666777777777777 888888888888899999999999 0000000000111111111 2222222222222223333333333 4444455555 666666667777 8888999999 00111111 2223 445555 666667 888899 011 223 (>=1566)
El gráfico para Premium nos muestra, por ejemplo, que hay 24 observaciones que soportan desde 1538 hasta 1539 grados centígrados de calor. Habrá ocho muestras que soportan desde 1550 hasta 1551 grados centígrados de calor Aleluya: con esto hemos terminado la primera parte de este curso básico, es decir, hemos concluido el programa de los Estadísticos Descriptivos. La Estadística Descriptiva es el pivote central en el que descansan las otras ramas de nuestra disciplina; espero que la hayan asimilado muy bien, pues nos será muy útil. Con estos conocimientos adquiridos estamos listos para empezar con el segundo nivel del Curso, ESTADÍSTICA APLICADA INTERMEDIA CON SPSS que se inicia con Inferencia Estadística.
97
Este libro fue distribuido por cortesía de:
Para obtener tu propio acceso a lecturas y libros electrónicos ilimitados GRATIS hoy mismo, visita: http://espanol.Free-eBooks.net
Comparte este libro con todos y cada uno de tus amigos de forma automática, mediante la selección de cualquiera de las opciones de abajo:
Para mostrar tu agradecimiento al autor y ayudar a otros para tener agradables experiencias de lectura y encontrar información valiosa, estaremos muy agradecidos si "publicas un comentario para este libro aquí".
INFORMACIÓN DE LOS DERECHOS DEL AUTOR Free-eBooks.net respeta la propiedad intelectual de otros. Cuando los propietarios de los derechos de un libro envían su trabajo a Free-eBooks.net, nos están dando permiso para distribuir dicho material. A menos que se indique lo contrario en este libro, este permiso no se transmite a los demás. Por lo tanto, la redistribución de este libro sín el permiso del propietario de los derechos, puede constituir una infracción a las leyes de propiedad intelectual. Si usted cree que su trabajo se ha utilizado de una manera que constituya una violación a los derechos de autor, por favor, siga nuestras Recomendaciones y Procedimiento de Reclamos de Violación a Derechos de Autor como se ve en nuestras Condiciones de Servicio aquí:
http://espanol.free-ebooks.net/tos.html
View more...
Comments