Estadistica Escuela Preparatoria
Short Description
Download Estadistica Escuela Preparatoria...
Description
UNIVERSIDAD AUTÓNOMA DEL ESTADO DE MÉXICO uaem
ESTADÍSTICA, ESCUELA PREPARATORIA
ELABORARON LORENZO CONTRERAS GARDUÑO JOEL NÚÑEZ SALAZAR OCTAVIO RODRÍGUEZ MORENO Juan manuel gómez tagle f. Juan laredo santín
1998
ÍNDICE 1 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8
CONCEPTOS BÁSICOS CONCEPTO DE ESTADÍSTICA CLASIFICACIÓN Y CAMPO DE APLICACIÓN DE LA ESTADÍSTICA DATO ESTADÍSTICO POBLACIÓN Y MUESTRA VARIABLES Y SU CLASIFICACIÓN FUENTES DE ADQUISICIÓN DE DATOS SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN NIVELES O ESCALAS DE MEDICIÓN
11 13 14 15 16 17 19 20 22
2 2.1 2.2 2.3
REPRESENTACIÓN DE DATOS REPRESENTACIÓN TABULAR DE DATOS DISTRIBUCIÓN O TABLA DE FRECUENCIA SIMPLE DISTRIBUCIÓN DE FRECUENCIA FRECUENCIA ACUMULADA FRECUENCIA RELATIVA FRECUENCIA RELATIVA ACUMULADA REPRESENTACIÓN GRÁFICA GRÁFICA DE BARRAS HISTOGRAMA DE FRECUENCIAS POLÍGONO DE FRECUENCIA OJIVA CIRCULOGRAMA
31 33 33 44 44 45 46 47 48 50 53 56 58
3 3.2
MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE TENDENCIA CENTRAL MEDIA ARITMÉTICA MODA MEDIANA
83 90 90 98 102
4 4.1 4.2 4.3 4.4 4.5 4.6
MEDIDAS DE DISPERSIÓN RANGO DESVIACIÓN MEDIA VARIANZA DESVIACIÓN ESTÁNDAR O TÍPICA COEFICIENTE DE VARIACIÓN MEDIDAS DE SESGO
133 136 137 144 150 158 160
5 5.1 5.2 5.3 5.4 5.5
COVARIANZA Y CORRELACIÓN LINEAL DATOS BIVARIADOS DIAGRAMA DE DISPERSIÓN CENTRO DE GRAVEDAD O CENTROIDE COVARIANZA CORRELACIÓN LINEAL
183 186 187 188 191 197
6 6.1 6.2
RECTA DE REGRESIÓN RECTA DE REGRESIÓN APLICACIONES DE LA RECTA DE REGRESIÓN A SERIES DE TIEMPO
211 213 223
2.4
CONCEPTOS BÁSICOS
13
CONCEPTOS BÁSICOS La estadística, tuvo sus inicios en los grandes imperios de la antigüedad, los primeros antecedentes que se conocen para llevar un registro de sus pertenencias, son las tablillas de arcilla utilizadas por lo babilonios 5000 a.c. Más tarde las culturas realizaron registros de bienes, soldados esclavos etc., y más tarde implementaron los censos de población, Una de las primeras obras que se conocieron, fue donde se aplicaron las técnicas estadísticas descriptivas que explican la importancia de los censos. A mediados del siglo XVII la estadística tuvo un gran desarrollo cuantitativo, ya que en esa época, los imperios del viejo continente tenían la necesidad de llevar un buen control administrativo de sus actividades comerciales y bélicas, entre otras donde sus registros y operaciones consistían en números. Posteriormente se inicia el estudio de la probabilidad, que junto con la estadística permite estudiar problemas donde intervienen fenómenos aleatorios que no se pueden predecir. En la actualidad la estadística junto con el cálculo de probabilidades tienen una gran aplicación en todas las actividades que realiza el hombre, tales como: predicciones, censos, control de calidad, etc.
1.1 CONCEPTO DE ESTADÍSTICA: La Estadística, es un conjunto de técnicas que tienen por objeto recopilar, organizar, interpretar, analizar y representar datos para establecer conclusiones o para tomar decisiones en algunos problemas que se plantean.
CONCEPTOS BÁSICOS
14
1.2 CLASIFICACIÓN Y CAMPOS DE APLICACIÓN DE LA ESTADÍSTICA. La estadística para su estudio se divide en dos ramas:
Estadística Descriptiva--------------------Estadística Inferencial
ESTADISTICA DESCRIPTIVA O DEDUCTIVA La estadística deductiva o descriptiva, se ocupa de la recolección, clasificación y descripción de datos. Por ejemplo las estadísticas de un partido de futbol, el promedio de calificaciones del 5o semestre de los alumnos de esta preparatoria, el nivel de escolaridad de los empleados de una fábrica. etc. Los resultados que se obtienen en la estadística descriptiva, se presentan en cualquiera de las tres formas siguientes: a) tabular. Mediante una tabla, en la cual se encuentran los datos organizados y clasificados del objeto que se estudia. b) Gráfica. Mediante un diagrama en el cual se presentan de una manera objetiva los datos organizados en una figura ilustrativa. c) Medidas Estadísticas. Mediante números, los cuales se obtienen al aplicar un método o procedimiento de un conjunto de datos, por ejemplo; el promedio, la desviación estándar, etc. los cuales permiten comparar varios conjuntos de datos de diferentes poblaciones.
ESTADÍSTICA INFERENCIAL O INDUCTIVA. La estadística Inferencial o Inductiva, se ocupa de interpretar los resultados obtenidos con las técnicas descriptivas, para tomar decisiones en base a estos resultados. Por ejemplo: en base a las estadísticas de inflación registradas en los últimos meses en México, se espera que para este mes de marzo se vuelva a tener una inflación de un solo dígito.
CONCEPTOS BÁSICOS
15
APLICACIONES DE LA ESTADÍSTICA. La Estadística se utiliza en todas las áreas del conocimiento, ya sean humanísticas, técnicas, científicas, laborales, deportivas, etc. Esto es, actualmente resulta difícil indicar alguna área o ciencia que no utilice la Estadística. Para aplicar las técnicas estadísticas con eficiencia, se requiere por parte del investigador conocer ampliamente el área de estudio. Siendo más específicos, la estadística se aplica en la ingeniería, Medicina, Psicología, Economía, Geografía, Física, Química, Agronomía, Administración, Biología, Ecología, Antropología, Historia, Contaduría, Planeación, Política, etc., y aunque los problemas de cada área o ciencia son diferentes, las técnicas que se utilizan para el análisis estadístico son las mismas debidos a que se trabaja con datos numéricos. Al realizar un estudio estadístico sobre un determinado fenómeno, se inicia con la recopilación de información, la cual consiste en un conjunto de datos que generalmente se obtiene en forma desorganizada, y corresponde a la estadística organizarla y posteriormente su análisis para posteriormente interpretar los resultados. Antes de continuar con el estudio de la estadística descriptiva, se presentan algunos conceptos estadísticos que serán utilizados en este texto.
1.3 DATO ESTADÍSTICO. Un dato estadístico, es la característica medible o descrita mediante un valor o atributo de u elemento en estudio. Por ejemplo: Si se están estudiando las características de una persona, los datos que se pueden obtener son: su peso, edad, estatura, estado civil, escolaridad, etc. Si se realiza un estudio estadístico de la edad de un grupo de personas, los datos pueden ser 19, 35, 11, 18, 23, 15, etc. Si el estudio se realiza sobre el color de los carros que circulan en la ciudad de Toluca, algunos datos serían: verde, azul, negro, amarillo, rojo, negro, etc., si el estudio se realiza sobre el ingreso mensual de una familia, los datos obtenidos pueden ser: 1500, 1000, 1200, 4500, 3250, etc.
CONCEPTOS BÁSICOS
16
1.4 POBLACIÓN Y MUESTRA. Al realizar un estudio estadístico de un fenómeno determinado dependiendo del número de datos que se pretenden analizar resulta en ocasiones imposible o incosteable recolectar los datos de todos los elementos del grupo. Al conjunto formado por el total de los elementos en estudio se le llama población. A un subconjunto de una población estadística se le llama muestra. Una población puede ser finita o infinita. La población finita está formada por un número determinado de elementos. Por ejemplo: Una población formada por todos los motores fabricados en un mes en una industria automotriz. En la población infinita no se tiene determinado el número de elementos en estudio. Por ejemplo: los posibles sucesos (águila o sol) obtenidos al azar una moneda al aire. La información que se obtiene de una población es exacta, debido a que se consideran todos los elementos en estudio, mientras que en una muestra, la información recopilada puede resultar no muy exacta debido a que la muestra que se elige puede no ser representativa de la población. Para eficientar las medidas estadísticas que se pretenden obtener, es necesario aplicar técnicas estadísticas adecuadas para poder elegir muestras que sean representativas de la población. Existen varias razones por las cuales en la mayoría de los casos en que se realiza un estudio estadístico, este se aplica sobre una muestra y no sobre una población, las principales son: a) En ciertos casos, el estudio consiste en pruebas destructivas de laboratorio como por ejemplo: el probar en ciertos objetos o materiales su resistencia a la ruptura, al calor, a la humedad, etc. b) Resulta más económico estudiar los elementos de una muestra que sea representativa de la población, que toda la población, puesto que se tiene un ahorro en tiempo y dinero.
CONCEPTOS BÁSICOS
17
1.5 VARIABLES Y SU CLASIFICACIÓN Para la aplicación de los métodos estadísticos, es necesario representar los diversos tipos de datos que se tienen de una forma general utilizando variables. Una variable es la representación general de un conjunto de datos que tienen una misa característica. Las variables se asignan mediante una letra, las más comunes son x,y,z: Por ejemplo cuando se están estudiando varias características de un conjunto formado por varias personas, como son, su peso, estatura y sexo. Las variables se asignan de la siguiente manera: x
representa el peso del conjunto de elementos
y
representa la estatura del conjunto de elementos
z
representa el sexo del conjunto de elementos
Para identificar los diferentes valores de los elementos sobre una misma característica, a la variable se le asigna un subíndice que por lo común es la letra i, la cual va tomando o adquiriendo valores enteros positivos y consecutivos a partir de uno. Por ejemplo: si a cada persona del conjunto en el que se estudia el peso, la estatura y el sexo, se les asigna un número de identificación, se tiene: x1 y1 z23
representa el peso de la persona asignada con el número 1 representa la estatura de la persona asignada con el número 10 representa el sexo de la persona asignada con el número 23
x30, y30, z30representan el peso, estatura y sexo de la persona asignada con el número 30. Y en forma General, xi, yi, zi, representan el peso, estatura y sexo de la iésima persona.
CONCEPTOS BÁSICOS
18
CLASIFICACIÓN DE LAS VARIABLES Para el estudio de un proceso estadístico, las variables se clasifican en:
|cualitativas | Variables | |discretas |cuantitativas |continuas
LAS VARIABLES CUALITATIVAS: Son aquellas que describen cualidades o atributos del objeto de estudio. Por ejemplo; se puede asignar una variable cualitativa al color de automóviles, sexo de las personas, estado civil de las personas, escolaridad en personas mayores de 20 años, etc. LAS VARIABLES CUANTITATIVAS: Son las que se representan a través de un valor numérico, que en una recopilación de datos se obtiene mediante conteo o medición de la característica en estudio. Se clasifican en Discretas y continuas. LAS VARIABLES DISCRETAS: Son las que están asociadas a un proceso de conteo, es decir que sólo pueden tomar algunos valores de una escala de medición, por ejemplo en un salón de clases puede haber 32 o 33 alumnos, pero nunca 32.4 alumnos LAS VARIABLES CONTINUAS: Están asociadas a un proceso de medición y pueden adquirir cualquier valor en una escala de medición, esto es, que si se tienen dos valores dados, siempre puede existir otro valor intermedio, por ejemplo: un hombre puede medir 1.71 m y otro 1.72 m y un tercero un valor comprendido entre estos, tal como 1.714 m.
CONCEPTOS BÁSICOS
19
1.6 FUENTES DE ADQUISICIÓN DE DATOS. La adquisición de datos estadísticos, es el procedimiento empleado para recopilar la información que se va a analizar. Existen varias formas para obtener la información deseada, las más comunes son: a) Observación.- Consiste en recopilar información mediante la simple observación. Por ejemplo: Si se desea conocer cuál es el color de ropa más usual en el mes de diciembre en tu escuela preparatoria, una forma de adquirir la información es precisamente, observar el color de ropa que se utiliza durante varios días en ese mes de diciembre. b) Encuesta.- Consiste en recopilar información mediante cuestionarios y entrevistas. Por ejemplo: Al levantar un censo de población se utiliza la encuesta. c) Experimento.- Consiste en recopilar información mediante pruebas de laboratorio. Por ejemplo: Si se desea conocer el comportamiento de la resistencia a la ruptura de una mezcla de concreto, se prueban especímenes elaborados con esa mezcla y se anota su resistencia al momento de romperse. d) Investigación.- Consiste en recopilar información que ya se tiene concentrada o escrita, la cual se puede recopilar en bibliotecas, hemerotecas, mapotecas, videotecas, centros de cómputo, etc.
CONCEPTOS BÁSICOS
20
1.7 SELECCIÓN DE LA MUESTRA DE UNA POBLACIÓN. Se ha mencionado que al realizar un estudio estadístico sobre un problema determinado, los datos, en la mayoría de las veces se recopilan de una muestra y no de una población; los resultados obtenidos de una muestra sirven para estimar el comportamiento de una población. Para garantizar que una muestra sea representativa de la población, es necesario que la muestra se elija adecuadamente. No existe una forma general para seleccionar una muestra y que esta sea representativa de la población en un 100% por lo que se debe utilizar el método que más se apegue y que garantice la selección adecuada al problema que se está analizando. En este texto se presentan solo algunas formas que existen para seleccionar una muestra, corresponde al lector elegir cual es la que usará. a) Selección de una muestra mediante números aleatorios. Se llama muestra aleatoria, a la obtenida cuando todos los elementos que forman la población, tienen la misma probabilidad de ser elegidos para formar la muestra. Un procedimiento empleado para elegir los elementos de la población que formaran la muestra, es a través de una tabla de números aleatorios. Una tabla de números aleatorios, es un conjunto de números acomodados en renglones y columnas, los cuales se han seleccionado al azar o mediante algún procedimiento (estas tablas se encuentran al final de cualquier texto de probabilidad o estadística). Actualmente se puede construir una tabla de números aleatorios o bien obtenerlos directamente con la calculadora mediante la tecla RAN # que maneja la mayoría de las calculadoras. Si su calculadora no tiene esta tecla, consulte su manual y busque que tecla le proporciona los números aleatorios. Para seleccionar los elementos de la población primero se les asigna un número consecutivo a todos los elementos de la población. Por ejemplo: Si se desea seleccionar una muestra de 50 elementos, de una población de 500, se consideran de la tabla de números aleatorios, de una población de 500, se consideran de la tabla de números aleatorios o con la calculadora los primeros 50 números comprendidos entre 1 y 500, obteniéndose la muestra, la cual se forma por los elementos de la población que tengan el
CONCEPTOS BÁSICOS
21
mismo número que los seleccionados en la tabla o con la calculadora; los números que aparecen en la tabla o en la calculadora mayores de 500 se omiten.
b) Selección de una muestra mediante fórmulas. El número de elementos que contiene una muestra se obtiene mediante fórmulas, algunas de las utilizadas son las siguientes. 1)
Dónde: n N e
es el tamaño de la muestra que desea obtener. el número de elementos de la población. es el error máximo que se tiene con un intervalo de confianza del 95.44%
Por ejemplo, si se desea realizar un estudio para estimar la proporción de familias aficionadas a ver el futbol por televisión de una comunidad formada por aproximadamente 3000 familias y se desea tener un error de más menos 5%, la muestra se formará por:
n= 352.94
Es decir se debe considerar una muestra formada por 353 familias. Existen otras fórmulas para obtener el tamaño de la muestra, enseguida se mencionan dos. 2)
3)
CONCEPTOS BÁSICOS
22
c) Otros criterios: Existen otros criterios para seleccionar una muestra, como son: la estratificada, la no estratificada, por conglomerado, sistemática, etc.
1.8 NIVELES O ESCALAS DE MEDICIÓN En estadística cuando se realiza un estudio, se recopila información de una o más características de un elemento, mediante números, cualidades o atributos. Se categorizan en escalas o niveles de medición. Los valores obtenidos, dependiendo del tipo de dato que corresponda, pueden caer en alguna de las cuatro escalas de medición que existen, las cuales son: a) NOMINAL. Es cuando se asignan números a las cualidades o atributos del objeto de estudio, los cuales carecen de significado aritmético. Es decir, no se pueden sumar o restar. Como por ejemplo: Los números que portan los jugadores de futbol en sus camisetas, los números telefónicos, el valor obtenido al lanzar un dado, el número de licencia de manejo, el sexo de una persona puede ser hombre o mujer, el número de cuenta de los alumnos de la UAEM, etc. b) ORDINAL. Es cuando las categorías pueden ser ordenadas mediante algún criterio previamente establecido, por ejemplo un vaso puede ser grande, mediano o chico, un alumno en estadística puede ser bueno regular o malo, la edad de las personas se puede clasificar de 0-10, de 10-20, de 20-30, de 30-40 y más de 40. c) INTERVALAR. Es cuando se utiliza el cero como un valor arbitrario, por ejemplo, se desea comparar la estatura de Hugo, Paco y Luis, se procede de la siguiente manera: Se coloca Paco que es el más bajo recargado a la Pared y se pone una marca que coincide con su altura, aquí se asigna el cero como punto de referencia, se coloca Luis y se marca su estatura, luego se mide la diferencia entre marcas, suponiendo esta de 10 cm, lo cual significa que Luis es más alto que Paco con 10 cm y por último de coloca Hugo y resulta 30 cm más alto que Paco. Si se analizan las 2 diferencias que son 10 y 30 cm no significa que Luis mide la tercera parte de Hugo, sino que mide 20cm. menos. d) DE RAZÓN. Es la que utiliza el cero real, es decir cómo se trabaja en una recta numérica. Las escalas de razón al medirse establecen proporcionalidades, por ejemplo en el caso anterior si Paco mide 1.50 m. entonces Luis mide 1.60 m y Hugo 1.80 y se puede decir que Paco mide 1.50/1.80 = 5/6 de lo que mide Hugo.
Taro Yamane Estadística pag 379 Harla Zuwaylif Estadística General Aplicada pag 232 FEISA Johnson Robert. Estadística Elemental pag 17 GE Iberoamérica
REPRESENTACIÓN DE DATOS
33
2.1 REPRESENTACIÓN TABULAR DE DATOS. Cuando se efectúa un estudio estadístico en un determinado problema, por lo general los datos obtenidos en la recopilación ya sea de una muestra o de una población, no se pueden analizar o interpretar en su primera presentación, por lo común son un conjunto de datos escritos en una o más paginas sin presentar ningún orden. Al conjunto de datos obtenidos en la recopilación, se les conoce como datos no agrupados, una vez que se han recopilado los datos, el siguiente paso consiste en organizarlos, por ejemplo: los datos que aparecen en la fig 37 son un conjunto de datos no agrupados. Al conjunto de datos que se han organizado en vacías clases o categorías, se les llama datos agrupados. Por ejemplo: la tabla que aparece en la fig 38 corresponde a los datos ya agrupados, que se presentaron en el ejemplo anterior.
2.2 DISTRIBUCIÓN O TABLA DE FRECUENCIA SIMPLE Para agrupar u organizar un conjunto de datos, se construye una tabla llamada tabla de frecuencia o distribución de frecuencia simple. El primer paso para organizar los datos, consiste en identificar el tipo de datos que se tienen, los cuales pueden ser cualitativos o cuantitativos. Cuando los datos corresponden a valores cualitativos, se clasifican en varias clases o categorías, que corresponden a las cualidades, valores o atributos obtenidos de cada elemento, después se efectúa una tabulación, es decir se realiza un conteo de los elementos que pertenecen a cada clase o categoría. Para llevar un orden y no omitir algún valor, se asigna una columna para la tabulación y se coloca una marca para cada elemento de la muestra o población, donde corresponda a su categoría. Una vez terminada la tabulación se cuentan los elementos que contiene cada clase o categoría y se anota el valor en otra columna que se denomina frecuencia. Así, la frecuencia es el número de elementos que contiene cada clase o categoría en un conjunto de datos.
REPRESENTACIÓN DE DATOS
34
Ejemplo 1 Con los siguientes datos que corresponden al color de automóvil que se encuentran hoy en el estacionamiento de la escuela preparatoria, se construye una tabla de frecuencia simple. verde azul verde rojo gris café gris rojo negro negro azul azul rojo verde rosa blanco verde beige azul gris verde negro verde verde rosa rojo vino azul verde vino café verde anaranjado rojo rojo beige azul azul blanco negro negro azul negro rosa rojo rosa rojo beige azul gris anaranjado gris beige blanco beige azul gris rojo rosa anaranjado negro rojo rojo verde azul café verde rojo rojo café gris beige café gris negro anaranjado negro café negro rosa Con cada uno de estos atributos, se construye una clase y se coloca en una columna que corresponde a los colores. COLOR Verde Azul Rojo Gris Café Negro Rosa Blanco Beige Vino Anaranjado A continuación se realiza la tabulación, asignando cada uno de los colores a su clase correspondiente. COLOR Verde Azul Rojo Gris Café Negro Rosa Blanco
TABULACIÓN ||||| ||||| | ||||| ||||| | ||||| ||||| ||| ||||| ||| ||||| | ||||| ||||| ||||| | |||
REPRESENTACIÓN DE DATOS
Beige Vino Anaranjado
35
||||| | || ||||
Se obtiene la frecuencia de cada clase, contando el número de elementos que contiene cada clase, lo cual se muestra en la siguiente tabla de frecuencias simple. COLOR Verde Azul Rojo Gris Café Negro Rosa Blanco Beige Vino Anaranjado
TABULACIÓN FRECUENCIA ||||| ||||| | 11 ||||| ||||| | 11 ||||| ||||| ||| 13 ||||| ||| 8 ||||| | 6 ||||| ||||| 10 ||||| | 6 ||| 3 ||||| | 6 || 2 |||| 4
Cuando los datos que se tienen, corresponden a valores cuantitativos, estos se agrupan de la misma forma en varias clases o grupos, llamados intervalos, o también intervalos de clase, se tabula y se obtiene la frecuencia de cada intervalo. Cada intervalo contiene todos los elementos comprendidos entre sus extremos, incluyendo estos. A los extremos de un intervalo se les llama límites de clase. Cada intervalo tiene dos límites de clase llamados límite inferior y límite superior, los cuales corresponden a su extremo inicial y final de cada intervalo respectivamente. No existe un método general para determinar el número de intervalos que contiene una distribución de frecuencia, los expertos recomiendan que deben ser 6 ó más intervalos, pero menos que 16, esto es, la tabla debe contener de 6 a 15 intervalos Para construir una tabla, o distribución de frecuencias siempre se emplea el siguiente procedimiento: 1. Se determina el rango del conjunto de datos, mediante: Rango = Dato mayor - Dato menor
REPRESENTACIÓN DE DATOS
36
2. Se determina la variación que se presenta en los datos, esto es, la diferencia entre los datos diferentes más cercanos, por ejemplo; sí se tienen los datos 3, 8, 6, 5, 7, 7, 4, su variación es igual a uno. Para los datos 100, 110, 125, 135, 130, 120, 125 Para los datos 10, 90, 80, 60, 30, 40, 60, 50, 20 Para los datos 5.7, 8.1, 6.4, 7.6, 6.5, 9.2, 7.7, 5.6
su variación es 5. su variación es 10. su variación es 0.1
3. Toca al estudiante elegir el número de intervalos con los cuales desea trabajar o el tamaño que deben tener los intervalos que se van a formar, se puede optar cualquiera de los siguiente criterios. a) Cuando se asigna el número de intervalos, se obtiene el tamaño que tendrán los intervalos con la formula. Rango + variación Tamaño del intervalo = -------------------------Número de intervalos El tamaño obtenido, cuando no resulta entero, se puede aproximar a un número mayor que no cambie el número de intervalos y que su manejo sea más sencillo. b) Si se asigna el tamaño del intervalo, se obtiene el número de intervalos que va a contener la tabla, mediante la fórmula: Rango + variación Número de intervalos = --------------------------Tamaño del intervalo Si el resultado no es un número entero, se considera el entero siguiente para el número de intervalos. 4. Se construyen los intervalos con su respectivo tamaño. a) Si al obtener el número de intervalos o el tamaño de los siguientes los intervalos, resulto exacta la división, el límite inferior del primer intervalo coincide con el valor menor del conjunto de datos y el límite superior del último, debe coincidir con el dato mayor del conjunto de datos.
REPRESENTACIÓN DE DATOS
37
b) Si el tamaño o el número de intervalos, se aproximó a un valor mayor, el límite inferior del primer intervalo o el límite superior del último no necesariamente deben coincidir con el valor menor y mayor del conjunto de datos. 5. Una vez establecidos los intervalos se efectúa la tabulación. 6. Por último, se obtiene la frecuencia de cada intervalo de clase. Se ha utilizado el término, tamaño de un intervalo, el cual cuando se tienen los límites de clase, este se obtienen mediante: Tamaño del intervalo = límite superior - límite superior + variación La estadística, es un conjunto de técnicas que se aplican en todas las ciencias, áreas o actividades humanas, aunque los problemas que se resuelven en cada una son totalmente diferentes, las técnicas que se aplican son las mismas. Corresponde al lector asociar cada conjunto de datos con un problema en particular de un área determinada. Ejemplo 2. Para el conjunto de datos siguiente, construya la tabla de frecuencia, considere 10 intervalos. 65 45 42 50 45 45 40 52 65 60
39 78 48 30 60 52 60 48 70 92
32 65 54 75 40 65 46 75 60 38
92 23 87 75 92 47 70 86 70 45
76 65 65 72 91 50 30 85 30 60
54 34 51 35 41 50 60 82 25 78
87 56 40 52 75 50 23 45 75 73
Primero se obtiene el rango, esto es: Dato mayor 92 Dato menor 23 Rango = 69
43 87 46 50 38 48 85 57 65 57
54 54 65 40 42 51 85 57 65 57
23 68 60 53 56 60 84 53 66 55
56 87 28 40 38 61 53 26 63 53
34 56 55 30 54 58 80 58 60 60
REPRESENTACIÓN DE DATOS
38
Los datos son no agrupados y aumentan de uno en uno, por lo cual la variación es igual a 1. Como se deben distribuir en 10 intervalos, se determina ahora el tamaño que tendrá cada intervalo:
!"
#$% %&
' Por lo cual se tiene 10 intervalos de tamaño 7. El tamaño resulto entero, por lo que el límite inferior del primer intervalo se hace coincidir con el dato menor y a partir de aquí se construyen los 10 intervalos, observe que el límite superior del último intervalo coincide con el valor del mayor que es 92, se realiza la tabulación y se obtiene la frecuencia, (número de elementos que tiene cada intervalo), esto es. No. INTERVALO TABULACIÓN 1 23-29 ||||| | 2 30-36 ||||| ||| 3 37-43 ||||| ||||| ||| 4 44-50 ||||| ||||| |||||| | 5 51-57 ||||| ||||| |||||| ||||| || 6 58-64 ||||| ||||| |||||| 7 65-71 ||||| ||||| |||||| 8 72-78 ||||| ||||| 9 79-85 ||||| | 10 86-92 ||||| ||||
FRECUENCIA 6 8 13 16 22 15 15 10 6 9
Observe que al construir la tabla anterior, el límite superior de un intervalo, se obtuvo mediante. () *+, () - . / 0 1
REPRESENTACIÓN DE DATOS
39
Por ejemplo, el límite superior del intervalo uno que es igual a 29, se determinó como 23+7-1=29. El límite inferior del segundo intervalo se obtuvo sumando la variación a el límite superior del primer intervalo 29+1 Ejemplo 3. Construya la tabla de distribución de frecuencia simple, para el siguiente conjunto de datos, considere intervalos de tamaño 11. 5 47 4 8 14 14 94
14 77 12 91 25 45 8
52 52 7 95 18 32 10
86 56 9 86 35 38 60
59 69 25 34 69 38 67
74 91 13 43 92 40 66
71 14 81 45 85 57 65
42 45 24 51 84 36 63
45 57 37 22 41 52 72
43 78 45 27 52 53 51
56 86 53 30 56 23 46
Obteniendo el rango, se tiene: Valor mayor
95
Valor menor
4
–
Rango
91
La variación = 1
Se determina enseguida el número de intervalos. 2 *
3 !
2 *
$%% %%
2 * 4567
Aproximando al siguiente entero, se deben tener 9 intervalos de tamaño 11.
42 62 11 15 53 6 20
REPRESENTACIÓN DE DATOS
40
Como se aproximó el número de intervalos, el dato menor y el dato mayor no necesariamente deben coincidir con los límites del primero y del último intervalo. La elección del primer o último valor se debe efectuar de tal manera que los valores que se agreguen tengan sentido para el problema en estudio. Se debe tener cuidado que al construir la tala se tenga el número y tamaño de intervalos elegidos. En los cuales, el dato menor se debe encontrar dentro del primer intervalo y el dato mayor dentro del último intervalo. Para el ejemplo, se construir el primer intervalo con un límite inferior igual a 1 y a partir de aquí se obtiene la tabla de frecuencia simple. No. INTERVALO TABULACIÓN FRECUENCIA ||||||||| 1 1-11 9 |||||||||| 2 12-22 10 ||||||| 23-33 7 3 |||||||||||| 4 34-44 12 |||||||||||||||| 45-55 16 5 ||||||||||| 56-66 11 6 ||||||| 7 67-77 7 ||||||| 78-88 7 8 ||||| 9 89-99 5
Obsérvese que tanto en esta tabla como en la anterior, existen valores que no se consideran en ningún intervalo de clase (como son los valores comprendidos entre el límite superior y el límite inferior del siguiente intervalo) como es el caso de este último ejemplo de los datos 33.9 y 44.1
Si al conjunto de datos dl ejemplo anterior, se le agregan estos valores 33.9 y 44.1 por aproximación se hubiesen tabulado en el intervalo número 4. Pero si se tiene el valor 33.5 existe la duda de tabularlo en el intervalo 3 o en el intervalo 4.
Para resolver este problema se construyen los límites reales de clase, límites verdaderos de clase, o fronteras de clase.
Los límites reales de clase, son valores que evitan huecos entre un intervalo y el siguiente. Sus valores se obtienen como el punto medio del límite superior y el
REPRESENTACIÓN DE DATOS
41
límite inferior del siguiente intervalo, resultando que el límite real superior de un intervalo es igual que el límite real inferior del intervalo siguiente.
Ahora bien, al tabular un valor tal como el 33.5, se observa que este valor se encuentra en el intervalo 3 y en el intervalo 4, este texto utiliza el criterio de tabularlo en el primer intervalo en que aparece dicho dato, esto es, en el intervalo número 3. Ejemplo 4. Obtenga los límites reales de clase de la tabla del ejemplo 3. No. LÍMITES DE FRECUENCIA LÍMITES REALES CLASE DE CLASE 1-11 9 0.5-11.5 11 22 12-22 10 11.5-22.5 33 23-33 7 22.5-33.5 34-44 12 33.5-44.5 44 55 45-55 16 44.5-55.5 66 56-66 11 55.5-66.5 77 67-77 7 66.5-77.5 78-88 7 77.5-88.5 88 89-99 5 88.5-99.5 99
a) Observe que el límite real inferior del primer intervalo se determinó restando la mitad de la variación (que es |) al límite inferior, esto es: 1 – ½ (1) = 0.5 b) El límite real superior del último intervalo se determinó sumando la mitad de la variación al límite superior, esto es: 99 + ½ (1) = 99.5 En ocasiones, es necesario identificar los límites de clase o límites reales de clase inferior y/o superior, esto se muestra en la siguiente tabla:
REPRESENTACIÓN DE DATOS
.LÍMITES DE CLASE
FREC.
LÍMITES REALES DE CLASE
..LÍMITE INFERIOR
...LÍMITE SUPERIOR
42
LÍMITE REAL INFERIOR
LÍMITE REAL SUPERIOR
1 - 11 9 0.5 - 11.5 1 11 0.5 11.5 12 - 22 10 11.5 - 22.5 12 22 11.5 22.5 23 - 33 7 22.5 - 33.5 23 33 22.5 33.5 34 - 44 12 33.5 - 44.5 34 44 33.5 44.5 45 - 55 16 44.5 - 55.5 45 55 44.5 55.5 56 - 66 11 55.5 - 66.5 56 66 55.5 66.5 67 - 77 7 66.5 - 77.5 67 77 66.5 77.5 78 - 88 7 77.5 - 88.5 78 88 77.5 88.5 89 - 99 5 88.5 - 99.5 89 99 88.5 99.5 Cuando se tiene un conjunto de datos agrupados, dados por sus límites reales de clase, la variación vale cero. El tamaño de un intervalo se obtiene: ñ ( *+, / ( - Si se considera cualquier intervalo de la tabla anterior, por ejemplo, el tamaño del tercer intervalo es: Tamaño = 33.5 – 22.5 Observe que el tamaño no cambia como era de esperarse.
Ejemplo 5. En los siguientes conjuntos de datos se han determinados los límites reales a partir de los límites de clase. Intervalo Intervalo Real 1 - 10 0.5 - 10.5 11 - 20 10.5 - 20.5 21 - 30 20.5 - 30.5 31 - 40 30.5 - 40.5 41 - 50 40.5 - 50.5 51 - 60 50.5 - 60.5 61 - 70 60.5 - 70.5 71 - 80 70.5 - 80.5 81 - 90 80.5 - 90.5 91 - 100 90.5 - 100.5
Intervalo Intervalo Real 100 - 140 95 - 145 150 - 190 145 - 195 195 - 245 200 - 240 245 - 295 250 - 290 300 - 340 295 - 345 350 - 390 345 - 395 395 - 445 400 - 440 445 - 495 450 - 490 500 - 540 495 - 545 550 - 590 545 - 595
REPRESENTACIÓN DE DATOS
Intervalo 7.0 - 7.5 7.6 - 8.1 8.2 - 8.7 8.8 - 9.3 9.4 - 9.9 10.0 - 10.5 10.6 - 11.1 11.2 - 11.7
Intervalo Real 6.95 - 7.55 7.55 - 8.15 8.15 - 8.75 8.75 - 9.35 9.35 - 9.95 9.95 - 10.55 10.55 - 11.15 11.15 - 11.75
43
Intervalo Intervalo Real 40 - 46 39 - 47 48 - 54 47 - 55 56 - 62 55 - 63 64 - 70 63 - 71 72 - 78 71 - 79 80 - 86 79 - 87 88 - 94 87 - 95 96 - 102 95 - 103
MARCA DE CLASE La marca de clase es el punto medio de un intervalo, se representa por Mi y se obtiene con la expresión: límite interior + límite superior Marca de clase= --------------------------------------2 o bien límite real inferior + límite real superior Marca de clase = -------------------------------------------------2 Su valor es igual, debido a que se trata del mismo intervalo. Ejemplo 6 En los siguientes conjuntos de datos se ha obtenido la marca de clase: a)
INTERVALO 10-15 15-20 20-25 25-30 30-35 35-40 40-45 45-50 50-55
Mi 12.5 17.5 22.5 27.5 32.5 37.5 42.5 47.5 52.2
b) INTERVALO 1.00-1.09 1.10-1.19 1.20-1.29 1.30-1.39 1.40-1.49 1.50-1.59 1.60-1.69 1.70-1.79 1.80-1.89
Mi 1.045 1.145 1.245 1.345 1.445 1.545 1.645 1.745 1.845
REPRESENTACIÓN DE DATOS
44
2.3 DISTRIBUCIONES DE FRECUENCIA Además de la distribución de frecuencia simple que hasta el momento se ha estudiado, existen otras distribuciones de frecuencia que se utilizan en estadística, se presentan a continuación solo las más comunes.
FECUENCIA ACUMULADA. La frecuencia acumulada de un intervalo, se obtiene sumando la frecuencia de ese intervalo con la frecuencia de los intervalos anteriores. La frecuencia acumulada del último intervalo, corresponde al número total de datos. Se representan con la letra F.
Ejemplo 1 En los siguientes conjuntos de datos, se muestra la distribución de frecuencia acumulada. a) INTERVALO FREC. FRECUENCIA ACUMULADA 1000-2000 4 4 2000-3000 12 16 3000-4000 35 51 4000-5000 17 68 5000-6000 20 88 6000-7000 14 102 7000-8000 8 110
b) INTERVALO
FREC.
10-17 18-25 26-33 34-41 42-49 50-57 58-65
15 38 57 41 22 16 11
FRECUENCIA ACUMULADA 15 53 110 151 173 189 200
REPRESENTACIÓN DE DATOS
45
FRECUENCIA RELATIVA. La frecuencia relativa de un intervalo, se obtiene dividiendo la frecuencia del intervalo entre el número total de datos. La suma de todas las frecuencias relativas de un conjunto de datos es igual a uno. Si la frecuencia relativa de un intervalo se multiplica por 100 se llama frecuencia porcentual y su valor representa el porcentaje de datos que contiene cada intervalo.
Ejemplo 2 En el siguiente conjunto de datos, se muestra la distribución de frecuencia relativa. No.INTERVALO FRECUENCIA FRECUENCIA ________________________________RELATIVA___ 1 100-150 7 0.0368 2 150-200 23 0.1210 3 200-250 15 0.0789 4 250-300 38 0.2000 5 300-350 26 0.1368 6 350-400 34 0.1789 7 400-450 14 0.0736 8 450-500 20 0.1052 9 500-550 13 0.0684 ---------------------------------------------------------------------SUMAS 190 1.000
Como se observa, el intervalo 4 contiene el 20% del total de los datos.
REPRESENTACIÓN DE DATOS
46
FRECUENCIA RELATIVA ACUMULADA. Se obtiene dividiendo la frecuencia acumulada de cada intervalo, entre el número total de datos. La frecuencia relativa acumulada de un intervalo multiplicado por 100, se llama frecuencia porcentual acumulada de un intervalo y su valor representa el porcentaje acumulado de datos que se encuentran hasta un cierto intervalo.
Ahora se realiza un ejercicio de repaso en el cual, dado un conjunto de datos, se obtiene su marca de clase, la frecuencia acumulada, la frecuencia relativa y la frecuencia relativa acumulada.
Intervalo 100 - 108 109 - 117 118 - 126 127 - 135 136 - 144 145 - 153 154 - 162
Frec. 34 45 78 112 89 63 29
Marca Frecuencia Frecuencia de clase Acumulada Relativa 104 113 122 131 140 149 158
34 79 157 269 358 421 450
0.0756 0.1000 0.1733 0.2489 0.1978 0.1400 0.0644
Frecuencia Relativa Acumulada 0.0756 0.1756 0.3489 0.5978 0.7956 0.9356 1.0000
REPRESENTACIÓN DE DATOS
47
2.4 REPRESENTACIÓN GRÁFICA. Los datos obtenidos en una investigación estadística, una vez que se han agrupado, se pueden obtener algunas conclusiones directamente de la tabla de distribución de frecuencia, o bien, se puede representar mediante alguna gráfica, ya que su presentación por sí sola, muestra el comportamiento de los datos. Existen varias formas de representar las distribuciones de frecuencia, tales como: 1. 2. 3. 4. 5. 6. 7. 8. 9.
Histograma de frecuencia Polígono de frecuencia Gráfica de barras Gráfica de líneas Curvas Cartograma Pictograma Localización gráfica Tabla de valores
REPRESENTACIÓN DE DATOS
48
GRÁFICA DE BARRAS La gráfica de barras es un tipo de gráfica utilizado en estadística, consiste en una serie de rectángulos cuyas bases se encuentran sobre una base horizontal correspondiendo a cada uno de los intervalos o categorías de la distribución de frecuencias y su altura, marcada en un eje vertical, es proporcional a la frecuencia de cada intervalo o categoría.
Ejemplo 1
Construye la gráfica de barras para los siguientes conjuntos de datos. a)
INTERVALO 1-5 6-10 11-15 16-20 21-25 26-30 31-35 36-40
FRECUENCIA 15 12 13 8 11 7 6 10
Localizando los intervalos en el eje horizontaly marcando una escala para la frecuencia en el eje vertical.
16 14 12 10 FRECUENCIA 8 6 4 2 0 1-5
6-10
11-15
16-20 21-25 INTERVALO
26-30
31-35
36-40
REPRESENTACIÓN DE DATOS
49
Ahora se traza un intervalo para cada intervalo en los cuales su altura depende de la frecuencia. 16 14 12 FRECUENCIA
10 8 6 4 2 0 1-5
6-10
11-15
16-20
21-25
26-30
31-35
36-40
INTERVALO
Las líneas que aparecen en forma horizontal, se incluyeron para visualizar la altura de los rectángulos y de esta manera verificar o ver su frecuencia correspondiente. b)
CALIDAD Excelente Bueno Malo Regular Pésimo
FRECUENCIA 5 14 16 4 2
Ubicando cada una de las categorías en el eje horizontal y una escala en el eje vertical que corresponda a la frecuencia, se construye la gráfica de barras.
FRECUENCIA
16 14 12 10 8 6 4 2 0
14
16
5
Excelente
Bueno
Malo INTERVALO
4
2
Regular
Pésimo
REPRESENTACIÓN DE DATOS
50
En esta gráfica, se incluyeron los valores de la frecuencia de cada clase dentro de las barras, se recomienda realizar esta acción cuando es difícil identificar las alturas, sobre todo de los últimos rectángulos. HISTOGRAMA DE FRECUENCIA El histograma de frecuencia, se emplea para representar mediante una gráfica similar a la de barras, una distribución de frecuencia. La diferencia que tiene con la gráfica de barras, es que en el histograma de frecuencia, se localizan los límites reales de clase en el eje horizontal (en la gráfica de barras se localizan los límites de clase). Consiste en una serie de rectángulos que tienen sus bases sobre un eje horizontal (eje x), de longitud igual al tamaño de los intervalos de clase y su altura es proporcional a las frecuencias de clase.
Ejemplo 2 Trace el histograma de frecuencia para los siguientes conjuntos de datos. a)
INTERVALO 0-10 10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90
FRECUENCIA 9 11 7 14 16 12 8 8 6
Se localizan los intervalos sobre el eje horizontal señalado los límites reales de clase y una escala para la frecuencia sobre el eje vertical.
FRECUENCIA
REPRESENTACIÓN DE DATOS
51
18 16 14 12 10 8 6 4 2 0 0-10
10-20
20-30
30-40
40-50
50-60
60-70
70-80
80-90
INTERVALO
Ahora se trazan los rectángulos, obteniéndose el histograma de frecuencia.
FRECUENCIA
18 16 14 12 10 8 6 4 2 0 0-10
10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 INTERVALO
FRECUENCIA
En ocasiones la frecuencia de cada intervalo, se escribe en la parte superior de cada intervalo para visualizar mejor la frecuencia de cada inérvalo. 18 16 14 12 10 8 6 4 2 0
16 14 12
11 9
8
7
0-10
8 6
10-20 20-30 30-40 40-50 50-60 60-70 70-80 80-90 INTERVALO
INTERVALO 100-105 106-111 112-117 118-123
FRECUENCIA 5 12 20 14
REPRESENTACIÓN DE DATOS
b)
124-129 130-135 136-141
52
8 4 5
En este caso, primero see ob obtienen los límites reales de clase para cada intervalo rvalo. INTERVAL VALO 100-105 105 106-111 111 112-117 117 118-123 123 124-129 129 130-135 135 136-141 141
FRECUENCIA 5 12 20 14 8 4 5
LÍMITES REALES 99.5-105.5 105.5-111.5 111.5-117.5 117.5-123.4 123.5-129.5 129.5-135.5 135.5-141.5
Se localizan los lími límites reales de clase en el eje horizontal, una escala cala para la frecuencia en el eje vertical tical y se construye el histograma de frecuencia 20
20
14
15 12
10
8 5
5
5
0
4
99. 99.5
105.5
111.5
117.5
123.5
129.5
135.5
141.5
REPRESENTACIÓN DE DATOS
53
Como se observa rva en este histograma de frecuencia, cuando el primer intervalo se encuentra muy alejado del origen, se hace un corte en el eje horizontal, hor para que este primer interv tervalo no se encuentre muy alejado del origen Si en el eje vertica tical se localizan las frecuencias relativas, la gráfica ca sse llama histograma de frecuencia ia re relativa. 1
0
99. 99.5
105.5
111.5
117.5
123.5
129.5
135.5
141.5
POLÍGONO NO DE FRECUENCIA frecuencia, es una gráfica de línea que generalmente te sse traza El polígono de frecu sobre el histograma de frec frecuencia, representa la distribución de un conjunto to d de datos construida sobre sus marca arcas de clase. Se obtiene con el siguiente procedimient iento.
1. Se traza el histogram grama de frecuencia. tervalo antes y uno después del conjunto de datos atos con el 2. Se agrega el interv mismo tamaño y fre frecuencia cero. ervalo y se 3. Se localiza en el eeje horizontal las marcas de clase de cada interva proyectan estas a la parte superior de los rectángulos. as para unir estos puntos, obteniéndose el Polígo olígono de 4. Se trazan rectas Frecuencia.
REPRESENTACIÓN DE DATOS
54
FRECUENCIA
INTERVALO
Primero: Se constru struye el histograma de frecuencia y se agregan doss intervalos int con frecuencia cero y se ubican las marcas de clase en la parte superior rior de los rectángulos. ia se obtiene uniendo los puntos: El polígono de frecuencia frec En ocasiones, el polígono de frecuencia se representa sin el histograma de frecuencia. esentar el polígono de frecuencia es el siguiente: O bien la forma de represen
REPRESENTACIÓN DE DATOS
55
OJIVA La ojiva, es unaa ggráfica que se obtiene localizando en el eje ver vertical la frecuencia acumulada o fre frecuencia relativa acumulada. Se tienen dos tipos de ojivas en los cuales solo se agrega regan un solo intervalo con frecuencia cero en eje horiz orizontal.
OJIVA “O MAS” Es una gráfica en la cual al sse tiene las frecuencias acumuladas de todos los valores mayores o iguales que ell lím límite real inferior de cada intervalo.
Ejemplo 4 Trazar la ojiva “o o má más” para el siguiente conjunto de datos.
REPRESENTACIÓN DE DATOS
INTERVALO 20-30 30-40 40-50 50-60 60-70 70-80 80-90
56
FRECUENCIA 5 12 17 21 16 13 6
Primero se obtiene la tabla de frecuencia acumulada “o más” en la cual la frecuencia acumulada se va obteniendo del último el primer intervalo.
INTERVALO 20 o más 30 o mas 40 o más 50 o más 60 o más 70 o más 80 o más 90 o más
FRECUENCIA 5 12 17 21 16 13 6
FREC. ACUMULADA 90 85 73 56 35 19 6 0
Ahora traza la ojiva “o más” 100 90 80 FRECUENCIA 70 ACUMULADA 60 50 40 30 20 10 0 20 o más
30 o mas
40 o más
50 o 60 o más más INTERVALO
70 o más
80 o más
90 o más
REPRESENTACIÓN DE DATOS
57
OJIVA “MENOR QUE” La ojiva menor que, es una gráfica que se obtiene localizando el eje vertical de las frecuencias acumuladas hasta el límite real superior de cada intervalo. Ejemplo 5 Construya la ojiva para el siguiente conjunto de datos. INTERVALO
FRECUENCIA
20-30
5
30-40
12
40-50
17
50-60
21
60-70
16
70-80
13
80-90
6
Primero se obtiene la tabla de frecuencia acumulada “menor que” en la cual la frecuencia acumulada se obtiene a partir del primer intervalo de frecuencia cero que se agregó. INTERVALO
FRECUENCIA
Menor que 20
FREC. ACUMULADA 0
Menor que 30
5
5
Menor que 40
12
17
Menor que 50
17
34
Menor que 60
21
55
Menor que 70
16
71
Menor que 80
13
84
Menor que 90
6
90
Ahora se traza la ojiva “menor que”.
REPRESENTACIÓN DE DATOS
FRECUENCIA ACUMULADA
58
100 90 80 70 60 50 40 30 20 10 0 Menor que 20
Menor que 30
Menor que 40
Menor que 50
Menor que 60
Menor que 70
Menor que 80
Menor que 90
INTERVALO
CIRCULOGRAMA El circulograma, también llamada gráfica circular o de pastel, es una gráfica que consiste en un círculo, se utiliza para representar datos, que por lo general son cualitativos, a cada clase, categoría o atributo se le asigna una parte del círculo (Sector Circular) que corresponde al porcentaje que representa del total de los datos. Para construir un circulograma, se determina el porcentaje que representacada clase (frecuencia relativa porcentual) y se obtiene el valor de la magnitud del ángulo en grados de sector circular que le corresponde a cada clase, atributo o categoría en el círculo con la siguiente expresión:
Dónde:
f n
Es la frecuencia de un intervalo. Es el número total de datos.
REPRESENTACIÓN DE DATOS
59
Ejemplo 6 Construya el circulo culograma para el siguiente conjunto de datos COLOR Rojo Verde Azul Negro Blanco
FRECUENCIA 21 12 35 3 9
Determinado ell án ángulo central que tendrá cada color en su sec sector del circulograma y el porcentaje ntaje que representa. COLOR Rojo Verde Azul Negro Blanco TOTAL
FRECUENCIA 21 12 35 3 9 80
Ahora se traza el circulogram grama.
ÁNGULO 95° 54° 158° 14° 41° 360°
% 26.25 15.00 43.75 3.75 11.25 100.00
MEDIDAS DE TENDENCIA CENTRAL
90
3.2 MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central, también llamadas medidas de posición o medidas de centralización, indican mediante un valor o atributo la localización central de la distribución de frecuencia. Debido a que se pueden dar varias interpretaciones a lo que significa valor central de una distribución, se estudian tres medidas de tendencia central que son la media, la mediana y la moda. Cabe aclarar que estas medidas de posición, no son las únicas que existen. Las medidas de tendencia central, se estudian primero cuando se tiene un conjunto de datos no agrupado y después para un conjunto de datos agrupados. MEDIA ARITMÉTICA La media aritmética, también llamada media o promedio es una de las medias más utilizadas dentro de la estad,s-ca. Se denota por x. Media para datos no agrupados. Para un conjunto de n datos no agrupados x1, x2, x3, …………, xn la media aritmética, se define como la suma de todos los datos dividida entre el número de todos los datos, esto es:
o bien
Las unidades de la media aritmética, corresponden a las mismas unidades de las caracter,sticas de los mismos elementos. La principal aplicación que se obtiene de la media, es que significa, que todos los datos tuvieran el mismo valor y esto, lo hace representativo de todo el conjunto de datos.
MEDIDAS DE TENDENCIA CENTRAL
91
Media para datos agrupados. Cuando se tiene un conjunto de n datos, que se encuentran agrupados en una distribución de frecuencia, una aproximación de la media es:
o bien
Dónde: x.
Es el valor de la media.
k
Es el número de intervalos.
fi
Es la frecuencia del i-ésimo intervalo.
Mi
Es la marca de clase del i-ésimo intervalo.
n
Es el número de datos
El valor de la media, se obtiene en forma aproximada debido a que se considera que el valor de todos los datos de un intervalo es igual a la marca de clase, (la marca de clase es el punto medio de los l,mites de cada intervalo) y esto casi nunca se cumple.
MEDIDAS DE TENDENCIA CENTRAL
92
Observe que en este último caso en la fórmula ya no se incluyen los valores inicial y final del sub,ndicei que deben de ir abajo y arriba del s,mbolo Σ respectivamente, esta forma de escribir la suma, también es correcta, en este caso se asume que el valor inicial es el uno y el valor final, el último que aparece en el conjunto de datos.
MEDIA PONDERADA La media ponderada, es un caso particular y especial de la media de un conjunto de dato. Se aplica cuando un conjunto de datos se divide en varios subconjuntos, de los cuales cada uno tiene una media diferente. También se utiliza cuando se asignan varios pesos o ponderaciones a ciertos elementos. Su valor se obtiene con cualquiera de las siguientes expresiones:
Dónde: fi
Es el número de datos del subconjunto i.
x.i
Es la Media del subconjunto i.
pi
Es el peso o factor de ponderación.
xi
Es el valor asociado a la ponderación del i-ésimo valor.
n
Es el número total de datos (Σ fi )
MEDIDAS DE TENDENCIA CENTRAL
93
Ejemplo 5 En un poblado viven 5,000 habitantes, de los cuales 2,823 son mujeres con un promedio de edad de 18 años y el resto son hombres con un promedio de edad de 28 años. ¿Cuál es el promedio de edad de los habitantes de esa región? El conjunto de datos se ha dividido en 2 subconjuntos, en los cuales, la media se obtiene:
! "#!# $$#
%% &'( El promedio de edades de esta región es 22.3 años. Ejemplo 6 En la asignatura de estad,stica, el curso del año pasado se evaluó de la siguiente manera: Primer examen parcial Segundo examen parcial Trabajo de investigación estad,stica Cuaderno de ejercicios Asistencias
30% 30% 20% 15% 5%
Si al final del curso un alumno obtuvo el siguiente puntaje: Primer examen parcial Segundo examen parcial Trabajo de investigación estad,stica Cuaderno de ejercicios Asistencias ¿Cuál es su promedio final?
5.5 8.0 9.5 9.5 Todas (equivale a 10)
MEDIDAS DE TENDENCIA CENTRAL
Se tienen 5 elementos, la media se obtiene:
" #"! # ) #) ## ""
* +*'
94
MEDIDAS DE TENDENCIA CENTRAL
95
MODA La moda, también llamada modo, Es el valor que aparece con mayor frecuencia en un conjunto de datos. Se representa por, Existen casos en los que se tiene más de una moda, a los cuales se les llama multimodales y algunos no tiene moda, se les llama amodales. Moda para datos no agrupados. Cuando los datos no están agrupados, solo se busca el dato que aparece más veces y ese corresponde a la moda.
Ejemplo 7 Obtenga la moda en los siguientes conjuntos de datos. a)
4
3
7
2
5
6
2
3
5
7
6
3
4
3
El número que más se repite es el 3, por lo cual la moda es 3. b)
10
15
13
14
10
8
13
10
21
13
7
6
1
0
3
En este caso el 13 y 10 se repiten 3 veces, entonces el conjunto de datos es bimodal, sus modas son 10 y 13. c)
0.5 0.2 0.7 0.9 0.1 0.6 0.8 0.3 0.4 No se repite ningún valor, el conjunto es amodal Moda para datos agrupados.
Si el conjunto de datos se presenta en forma agrupada, esto es mediante una distribución o tabla de frecuencias, una forma aproximada de calcular el valor de la moda es utilizando la fórmula:
, - . /0
0
0
12
Valor aproximado de la moda
Aqu, se considera que el valor de la moda se encuentra en el intervalo de mayor frecuencia, puesto que al ser el intervalo que contiene más datos, existe una mayor probabilidad de que aqu, se repitan más valores.
MEDIDAS DE TENDENCIA CENTRAL
96
Dónde: L
Es el l,mite real inferior del intervalo que contiene a la moda.
∆1
Es la diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo anterior.
∆2
Es la diferencia entre la frecuencia del intervalo que contiene a la moda y la frecuencia del intervalo siguiente.
c
Es el tamaño del intervalo que contiene a la moda.
MEDIDAS M DE TENDENCIA CENTRAL
97
MEDIANA Para un conjunto unto de datos ordenados en forma ascendente ente o descendente, la medianaa es el valor central de los datos, se presenta por .
pa datos no agrupados Mediana para d es impar, la mediana es igual al valor que se a) Si el número dee datos encuentra en el centro c de la distribución una vez que estos se han ordenado en forma rma ascendente o descendente. da es par, la mediana es igual al promedio de los dos b) Si el número de datos datos que se encue cuentra en el centro de la distribución una vez quee estos es se han ordenado o en forma ascendente o descendente.
Ejemplo 9 En los siguientes casos asos se muestra como se obtiene el valor de la medi ediana para un conjunto de da datos no agrupados.
a)
4
13
12
7
17
4
8
7
17
19
13
14
25
8
23
Se tienen 15 datos, (número ero Impar de datos) al ordenarlos en forma ascendent dente. 4
4
7
7
8
8
12
13
13
14
17
17
19
23
25
El valor que se e encuentra en al centro de la distribución es el 13, que corresponde al valor de la m mediana, esto es la mediana = 13
b)
150 28 330 128 201 103
42 37
12 85
50 35
63 26
30 43
3 75
60 150 50 78
Se tienen 22 datos (Número ero par de datos) al ordenarlos en forma ascendente. te. 3 60
12 63
26 75
28 78
30 35 37 42 43 50 50 85 103 128 150 150 201 330
Los valores que se encuentran en el centro de la distribución son ell 50 y el 60, por lo cual la mediana na = 55
MEDIDAS DE TENDENCIA CENTRAL
98
c) Un alumno obtuvo las siguientes calificaciones en una materia cocurricular: MB B
B
R
R
E
B
¿Cuál es la calificación final?
En este caso la calificación final corresponde a la mediana, si se ordenan los datos, se tiene: R
R
B
B
B
MB E
El valor central es B (3 B), que correponde a la calificación final del alumno.
Mediana para datos agrupados Si el conjunto de datos, se presentan en forma agrupada, esto es mediante una distribución de frecuencias, la mediana se obtiene en forma aproximada con la siguiente fórmula:
3 - . /
4 56 7 89
12
Dónde:
L
Es el l,mite real inferior del intervalo que contiene a la mediana.
n
Es el número de datos.
Fa
Es la frecuencia acumulada del intervalo anterior al que contiene la mediana.
f˜x
Es la frecuencia del intervalo que contiene a la mediana.
c
Es el tamaño del intervalo que contiene a la mediana.
Lo primero que se debe obtener, es el intervalo en el cual se encuentra el valor de la mediana. Corresponde al dato que se encuentra en medio de la distribución, es decir, el dato número :4%.
MEDIDAS DE TENDENCIA CENTRAL
99
Existen distribuciones de frecuencia en los cuales al calcular la media, la mediana y la moda, se obtiene el mismo valor, esto es:
3 , La distribución de frecuencia que cumple con esta caracter,stica se llama distribución de frecuencia simétrica, y su gráfica (pol,gono de frecuencia suavizado) se llama curva normal o campana de Gauss, tiene la siguiente forma:
, 3
Para una distribución de frecuencia simétrica, la media, la mediana y la moda están relacionadas mediante:
, &3 %
MEDIDAS DE DISPERSIÓN
135
MEDIDAS DE DISPERSIÓN Una vez que se han calculado las medias de tendencia central para un conjunto de datos, es necesario contar con otra medida estadística, que indique un comportamiento adicional del conjunto de datos, puesto que la media, la mediana y la moda, solo indican valores centrales de la distribución. Las medidas que se estudian son las medidas de dispersión o también llamadas medidas de variación, las cuales indican que tan alejados o dispersos se encuentran los datos, con respecto a si mismos o con respecto a la media del conjunto de datos.
Para comprender la importancia que tienen las medidas de dispersión, se muestra el siguiente ejemplo, en la cual se aprecia claramente la necesidad de contar con otra medida diferente a la media, que nos indique como varían los datos. Suponga que lo invitan a una fiesta y le dicen que el promedio de edades de los asistentes será de 19 años, al imaginarse a las personas que se encontrará en la fiesta, por el promedio de edad indicado, seguramente le hará tomar la rápida decisión de asistir a dicha fiesta, pero se lleva a cabo la gran sorpresa de que en la fiesta, se encuentra una abuela de 75 años, el abuelo de 83 años, su hija de 26 y el yerno de 28 años, sus nietos de 2, 3 y 5 años y unos invitados de 2, 3, 4, 4, 5, y 6 años.
En este ejemplo, se ve claramente, que si se hubiera tenido más información de la variación de datos, la decisión de haber asistido a la fiesta, pudo haber sido diferente.
Las principales medidas de dispersión que se estudian en este texto, son el rango, la desviación media, la varianza y la desviación estándar o típica.
Las principales medidas de dispersión que se estudian en este texto, son el rango, la desviación, la varianza y la desviación estándar o típica.
MEDIDAS DE DISPERSIÓN
4.1
136
RANGO
Es la medida de dispersión más simple y se obtiene como la diferencia entre el valor máximo y mínimo del conjunto de datos, esto es:
Ejemplo 1 Determine el rango del siguiente conjunto de datos. 25 14 15
25 45 47
56 46 45
89 58 46
87 96 36
45 92 25
36 37 8
24 58 36
12 45 5
6 81 36
9 9 58
47 52 100
Aplicando la fórmula:
Esta medida de dispersión tiene aplicaciones muy limitadas, debido a que solamente considera valores extremos del conjunto de datos y no indica ningún comportamiento de valores intermedios del conjunto. También, el rango de una muestra depende de su tamaño, es decir, una muestra pequeña, el rango de muestra depende de su tamaño, es decir, una muestra pequeña, tiende a tener un rango más pequeño que una muestra grande. Por lo que no es conveniente utilizar el rango para comparar la variación entre dos o más grupos de datos.
La principal aplicación del rango se da en el control estadístico, en la calidad de producción.
MEDIDAS DE DISPERSIÓN
4.2
137
DESVIACIÓN MEDIA
En el promedio de los valores absolutos de las desviaciones de los datos con respecto a la media. Indica en promedio el número de unidades en que cada dato se encuentra alejado de la media. Desviación media para datos no agrupados Cuando se tiene un conjunto datos no agrupados, la desviación media se obtiene mediante:
Dónde: xi
es el valor del i-ésimo dato
x;
es la media del conjunto de datos
n
es el número total de datos
Ejemplo 1 Determine el valor de la desviación media para el siguiente conjunto de datos
a)
4
14
12
8
Primero se determina la media
12
6
16
8
MEDIDAS DE DISPERSIÓN
138
La desviación media es:
Este valor significa, que en promedio cada dato se encuentra 3.5 unidades alejado de la media. Se representa en el siguiente diagrama de dispersión x;
MEDIDAS DE DISPERSIÓN
b)
0.3
2.1
7.2
4.3
5.7
8.3
4.4
6.5
139
3.2
4.0
Determinando el valor de la media.
La desviación media es:
Este valor significa que en promedio cada datos de encuentra unidades alejado de la media.
1.86
Desviación media para datos agrupados Cuando el conjunto de datos se tiene agrupado en una tabla de distribución de frecuencia, la desviación media se obtiene en forma aproximada por:
Dónde:
fi Mi n
Es el valor de la frecuencia del i-ésimo intervalo Es el valor de la marca de clase del i-ésimo intervalo Es la media del conjunto de datos Es el número total de datos ( n = Σ fi )
Se utiliza la marca de clase Mi , por considerar que su valor es el representativo de los fi , datos que se encuentran en el intervalo i.
MEDIDAS DE DISPERSIÓN
Ejemplo 2 Determine la desviación media para el siguiente conjunto de datos. a) INTERVALO FRECUENCIA 10-20 2 20-30 11 30-40 19 40-50 21 50-60 35 60-70 30 70-80 28 80-90 20 90-100 13 El valor de la media se obtiene con la fórmula:
Agregando la columna Mi, en la tabla, se tiene: INTERVALO FRECUENCIA 10-20 2 20-30 11 30-40 19 40-50 21 50-60 35 60-70 30 70-80 28 80-90 20 90-100 13 Σ 179 El valor de la media es:
=
60.4749
Mi 15 25 35 45 55 65 75 85 95
140
MEDIDAS DE DISPERSIÓN
141
Se agrega por último la columna fi |Mi –x;|y la suma de esta INTERVALO FRECUENCIA 10-20 2 20-30 11 30-40 19 40-50 21 50-60 35 60-70 30 70-80 28 80-90 20 90-100 13 Σ 179
El valor de la desviación media es:
Mi 15 25 35 45 55 65 75 85 95
fi |Mi – x;| 90.950 390.223 484.022 324.972 191.620 135.754 406.704 490.503 448.827 2963.575
MEDIDAS DE DISPERSIÓN
142
b) INTERVALO FRECUENCIA 1.0-1.9 7 2.0-2.9 15 3.0-3.9 23 4.0-4.9 18 5.0-5.9 20 6.0-6.9 16 7.0-7.9 9
Agregando la columna de marca de clase para obtener el valor de la media. INTERVALO FRECUENCIA 1.0-1.9 7 2.0-2.9 15 3.0-3.9 23 4.0-4.9 18 5.0-5.9 20 6.0-6.9 16 7.0-7.9 9
El valor de la media es:
= 4.4963
Mi 1.45 2.45 3.45 4.45 5.45 6.45 7.45
MEDIDAS DE DISPERSIÓN
143
Ahora se agrega la última columna para obtener la desviación media. INTERVALO FRECUENCIA 1.0-1.9 7 2.0-2.9 15 3.0-3.9 23 4.0-4.9 18 5.0-5.9 20 6.0-6.9 16 7.0-7.9 9
El valor de la desviación media es:
= 1.42.42
Mi 1.45 2.45 3.45 4.45 5.45 6.45 7.45
fi |Mi – x;| 21.32 30.69 24.06 0.83 19.07 31.26 26.58
MEDIDAS DE DISPERSIÓN
144
4.3 VARIANZA La varianza se define como el promedio de los cuadrados de las desviaciones de los datos con respecto a la media. Su valor indica la forma en que están distribuidos los datos con respecto a la media. Se representa mediante σ2
Varianza para datos no agrupados Cuando se tiene un conjunto de datos no agrupados, la varianza se obtiene mediante:
Dónde: Es el conjunto del i-ésimo dato Es la media del conjunto de datos El número total de datos
n
Ejemplo 1 Determine el valor de la varianza para el siguiente conjunto de datos a)
12
25
8
15
5
18
26
14
9
10
Primero se determina la media.
La varianza es:
26
25
8
15
14
9
10
= 44.36
5 = 443.6
18
MEDIDAS DE DISPERSIÓN
b)
145
4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5
7.2
Determinando el valor de la media
7.2 +
4.5 + 12.7 +
54.6 +
25.6 +
32.9 +
19.1 +
47.2 + 36.5 =
240.3
La varianza es:
=
= 24.612
273.4666
Varianza para datos agrupados Cuando el conjunto de datos se tiene agrupado en una tabla de distribución de frecuencia, la varianza se obtiene en forma aproximada por:
Dónde: Mi
n
Es el valor de la frecuencia en el i-ésimo intervalo Es el valor de la marca de clase del i-ésimo intervalo Es la media del conjunto de datos Es el número total de datos (n = Σ fi)
Cuando se utiliza la marca de clase por considerar que su valor es el representativo de los datos que se encuentran en cada intervalo.
MEDIDAS DE DISPERSIÓN
146
Ejemplo 2 Determine la varianza para el siguiente conjunto de datos a)
INTERVALO FRECUENCIA 0-50 7 50-100 15 100-150 28 150-200 22 200-250 11 250-300 13 300-350 9 350-400 25 400-450 10 El valor de la media se obtiene con la fórmula:
Agregando la columna Mi INTERVALO FRECUENCIA 0-50 7 50-100 15 100-150 28 150-200 22 200-250 11 250-300 13 300-350 9 350-400 25 400-450 10
Mi 25 75 125 175 225 275 325 375 425
El valor de la media se obtiene con la fórmula:
(7X25)+ (15X75)+ (28X125)+ (22X175)+ (11X225)+ (13X275)+ (9X325)+ (25X375)+ (10X425) =
= 223.2143
31250
MEDIDAS DE DISPERSIÓN
147
Se agrega por último la columnafi (Mi – x;)2y la suma de esta. INTERVALO FRECUENCIA 0-50 7 50-100 15 100-150 28 150-200 22 200-250 11 250-300 13 300-350 9 350-400 25 400-450 10 140 El valor de la varianza es:
Mi 25 75 125 175 225 275 325 375 425
fi (Mi – x;)^2
275022 329512 270089 51142 35 34863 93243 575973 407175 2037054
MEDIDAS DE DISPERSIÓN
b)
INTERVALO FRECUENCIA 0-2 12 2-4 35 4-6 43 6-8 31 8-10 22 10-12 17 12-14 11 14-16 4 Σ 175 Agregando las columnas necesarias, el valor de la media es: INTERVALO FRECUENCIA 0-2 12 2-4 35 4-6 43 6-8 31 8-10 22 10-12 17 12-14 11 14-16 4 Σ 175
El valor de la media es:
= 6.4971
Mi 1 3 5 7 9 11 13 15
148
MEDIDAS DE DISPERSIÓN
149
Ahora se agregan la columna necesaria para obtener el valor de la varianza INTERVALO FRECUENCIA 0-2 12 2-4 35 4-6 43 6-8 31 8-10 22 10-12 17 12-14 11 14-16 4 Σ 175
Mi 1 3 5 7 9 11 13 15
fi (Mi – x;)^2
362.62 428.05 96.38 7.84 137.81 344.69 465.16 289.19 2131.75
El valor de la varianza es:
Existen otras fórmulas para obtener el valor de la varianza, las cuales solo se mencionan en el presente texto. Para datos no agrupados
Para datos agrupados
MEDIDAS DE DISPERSIÓN
150
4.4 DESVIACIÓN ESTANDAR O TÍPICA La desviación estándar de un conjunto de datos, se define como la raíz cuadrada de la varianza, se denota por “σ”. Tiene las mismas unidades que las de los datos originales. El valor de la desviación estándar se obtiene: Para los datos no agrupados
Para datos agrupados
Ejemplo 1 Determina la desviación estándar para los conjuntos de datos utilizados en la varianza del ejemplo 1.
Para datos no agrupados a) En el ejemplo con datos 12
25
8
15
5
La varianza resultó 44.36 La desviación estándar es:
18
26
14
9
10
MEDIDAS DE DISPERSIÓN
b) En el ejemplo con datos 7.2
4.5 12.7 54.6 25.6 32.9 19.1 47.2 36.5 La varianza resultó 273.46
La desviación estándar es:
Para datos agrupados, del ejemplo 2. a) En el ejemplo con datos INTERVALO FRECUENCIA 0-50 7 50-100 15 100-150 28 150-200 22 200-250 11 250-300 13 300-350 9 350-400 25 400-450 10 La varianza resultó
La desviación estándar es:
151
MEDIDAS DE DISPERSIÓN
b) En el ejemplo con datos INTERVALO FRECUENCIA 0-2 12 2-4 35 4-6 43 6-8 31 8-10 22 10-12 17 12-14 11 14-16 4
La varianza resultó
La desviación estándar es:
152
MEDIDAS DE DISPERSIÓN
153
INTERPRETACIÓN DE LA DESVIACIÓN ESTÁNDAR 1. Para distribuciones de frecuencia aproximadamente simétricas, el intervalo que tiene por límites,- - σ y,- + σ contiene aproximadamente el 68.27% del total de los datos o bien el 0.6827 del área bajo la curva normal, esto es:
68.27% σ
σ
σ
x;
σ
σ
σ
2. Para distribuciones de frecuencia aproximadamente simétricas, el intervalo que tiene por límites ,- - 2σ y ,- +2σcontiene aproximadamente el 95.45% del total de los datos o bien el 0.9545 del área bajo la curva normal, esto es:
95.45% σ
σ
σ
x;
σ
σ
σ
MEDIDAS DE DISPERSIÓN
154
3. Para distribuciones de frecuencia aproximadamente simétricas, el intervalo que tiene por límites ,- - 3σ y ,- +3σ contiene aproximadamenteel 99.73% del total de los datos o bien el 0.9973 del área bajo la curva normal, esto es:
99.73% σ
σ
σ
x;
σ
σ
σ
MEDIDAS DE DISPERSIÓN
155
Ejemplo 2 Obtenga el valor de la desviación estándar para el siguiente conjunto de datos, e interprete el resultado: INTERVALO FRECUENCIA 0-1 1 6-11 4 11-16 12 16-21 20 21-26 31 26-31 22 31-36 14 36-41 7 41-46 2
La desviación estándar se obtiene mediante
Agregando a la tabla las columnas necesarias para determinar la media INTERVALO FRECUENCIA 0-1 1 6-11 4 11-16 12 16-21 20 21-26 31 26-31 22 31-36 14 36-41 7 41-46 2 Σ 113
Mi 3.5 8.5 13.5 18.5 23.5 28.5 33.5 38.5 43.5
MEDIDAS DE DISPERSIÓN
156
El valor de la media es:
= 24.3407 Agregando la última columna se obtiene: INTERVALO FRECUENCIA 0-1 1 6-11 4 11-16 12 16-21 20 21-26 31 26-31 22 31-36 14 36-41 7 41-46 2 Σ 113
Mi 3.5 8.5 13.5 18.5 23.5 28.5 33.5 38.5 43.5
VARIANZA 434.3351 1003.7121 1410.2514 682.2774 21.9105 380.5936 1174.4968 1403.3989 734.1569 7245.1327
La desviación estándar se obtiene mediante
Este valor indica que el intervalo ,- - σ y ,- + σo sea, 24.34 – 8.007 y 24.34 + 8.007, esto es en el intervalo (16.333 ; 32.247) se encuentran aproximadamente el 68.27% del total de los datos.
MEDIDAS DE DISPERSIÓN
157
Como ejercicio determine el intervalo que contiene aproximadamente el 95.45% del total de los datos. Ejemplo 3
Si en un conjunto formado por 800 datos, su media es de 14.5 y su desviación estándar es de 6.5. Indique que intervalo contiene aproximadamente el 68.27% del total de los datos, cuantos datos se encuentran aproximadamente en este intervalo.
El 68.27% de los datos se encuentran en el intervalo ,- - σ y ,- + σ
Sustituyendo valores
14.5 – 6.5 y 14.5 + 6.5. Por lo cual el 68.27% del total de los datos se encuentran en el intervalo (8;21)
En este intervalo 8-21 se encuentran aproximadamente el 68.27% del total de los datos; esto es, 0.6827 X 800 = 546.16 que en forma aproximada significa 516 datos de los 800 se encuentran en el intervalo 8 – 21.
MEDIDAS DE DISPERSIÓN
158
4.5 COEFICIENTE DE VARIACIÓN El coeficiente de variación, también llamado coeficiente de dispersión, es una medida de variación relativa, se presenta en forma de porcentaje y su valor se obtiene mediante:
Dónde: V σ
Es el coeficiente de variación Es la desviación estándar del conjunto de datos Es la media del conjunto de datos
Su valor es útil y se emplea para comparar la variación que eiste entre diferentes distribuciones de frecuencia. Ejemplo 1 En una fiesta de Halloween, en Villa Jardín, el promedio de edades fue de 19 años y la desviación estándar de 2.5 años, mientras que en el salón Continental, el promedio de edades fue de 25 años y la desviación estándar de 4 años. ¿En cuál fiesta hubo menor variación de edades? El coeficiente de variación para los asistentes a Villa Jardín es:
El coeficiente de variación para los asistentes al salón Continental es:
Comparando los dos valores obtenidos para el coeficiente de variación se concluye que se presentó una menor variación de edades entre los asistentes a Villa Jardín.
MEDIDAS DE DISPERSIÓN
159
Ejemplo 2 Hugo y Paco que son hermanos y están en diferente año en la escuela preparatoria, discutían con su papá sobre quién había salido mejor en matemáticas, ya que les había prometido un auto último modelo al que obtuviera la mejor calificación y los dos sacaron 7.0 ¿A cuál de los dos hermanos le corresponde el automóvil? Como la discusión se estaba acalorando cada vez más y la mamá se estaba inclinando por uno de ellos, el padre que tenía altos conocimientos en estadística, resolvió este problema familiar utilizando el coeficiente de variación de la siguiente manera: Acudió a la escuela preparatoria donde estaban sus hijos y solicitó una copia de las calificaciones de todo el grupo y calculó el coeficiente de variación de cada uno.. Las calificaciones del grupo de Hugo que cursa Trigonometría fueron: 5 5.9 6.8 5.6
4 5.8 9.5 5.8
8 7 5.6 6.3
6 8.2 6.3 6.2
3.5 5.8 3.4 6.5
5.5 6.6 4.5 6.8
8 7.2 5.8 6.2
4 8.2 8 5.5
6 5.6 4.7 5.8
6.3 9.6 7.1 6.3
6.2 7.1 7.2 6.1
El promedio de calificaciones de este grupo fue de 6.26 La desviación estándar de las calificaciones del grupo fue de 1.36 Por lo tanto el coeficiente de variación para el grupo de Hugo es de 0.2174 Las calificaciones del grupo de Paco que cursa Cálculo Diferencial e Integral fueron: 7 9.2 9.7 9
8.5 4.8 4.2 8.5
6.9 5.7 7.5 8
8.3 8.6 7 9.5
7.6 9.3 8.8 7.5
9.2 7.5 6.6 6.5
8.2 7 5.5 8
5.6 6 6 7
7.2 9 9.5 9.3
8.2 8.2 8.5
8.3 5.8 7
El promedio de calificaciones de este grupo fue de 7.61 La desviación estándar de las calificaciones del grupo fue de 1.38 Por lo tanto el coeficiente de variación para el grupo de Paco es de 0.1814 De acuerdo a los resultados anteriores el auto le corresponde a Hugo.
MEDIDAS DE DISPERSIÓN
160
4.6 MEDIDAS DE SESGO El sesgo es el grado de asimetría de una distribución de frecuencia Las medidas estadísticas más utilizadas para obtener el sesgo son; la media, la mediana y la moda. Aunque existen otras medidas con las cuales se puede determinar qué tan sesgada se encuentra una distribución. En este texto, solo se utiliza la media, la mediana y la moda para calcular el sesgo. Una distribución de frecuencia simétrica, no tiene sesgo, lo cual equivale a decir que su sesgo es igual a cero. Se tiene una distribución simétrica, cuando en el conjunto de datos la media, la mediana y la moda, tiene el mismo valor. En forma gráfica, el conjunto de datos tiene la forma:
Una distribución de frecuencia se encuentra sesgada hacia la derecha, cuando tiene un sesgo positivo. En este caso, en el conjunto de datos, la media es mayor que la mediana y la moda. Gráficamente, el conjunto de datos tiene la forma:
MEDIDAS DE DISPERSIÓN
161
Una distribución de frecuencia se encuentra sesgada hacia la izquierda, cuando tiene un sesgo negativo. En este caso, en el conjunto de datos, la media es menor que la mediana y la moda. Gráficamente, el conjunto de datos tiene la forma:
En forma numérica, el sesgo se determina mediante dos valores, denominados coeficientes de sesgo de Pearson, siendo estos:
Primer coeficiente de sesgo de Pearson
Sesgo =
Segundo coeficiente de sesgo de Pearson
Sesgo =
MEDIDAS DE DISPERSIÓN
162
Ejemplo 1 Utilizando el primer coeficiente de Pearson, indique que tipo de sesgo presenta la siguiente distribución. INTERVALO FRECUENCIA 1-8 3 9-16 12 17-24 19 25-32 22 33-40 27 41-48 34 43 49-56 57-64 37 65-72 21 73-80 18 Agregando la columna de marca de clase para obtener la moda y la suma de la frecuencia para obtener la media se tiene: INTERVALO FRECUENCIA 1-8 3 9-16 12 17-24 19 25-32 22 33-40 27 41-48 34 49-56 43 57-64 37 65-72 21 73-80 18 Σ 236 El valor de la media es:
46.7648
Mi 4.5 12.5 20.5 28.5 36.5 44.5 52.5 60.5 68.5 76.5
MEDIDAS DE DISPERSIÓN
163
El valor de la moda es:
Agregando la columna para obtener la desviación estándar: INTERVALO FRECUENCIA 1-8 3 9-16 12 17-24 19 25-32 22 33-40 27 41-48 34 49-56 43 57-64 37 65-72 21 73-80 18 Σ 236
Mi 4.5 12.5 20.5 28.5 36.5 44.5 52.5 60.5 68.5 76.5
fi (Mi – ,-)^2
5309.10 13927.38 12911.07 7181.80 2736.73 145.38 1513.21 7181.93 10101.45 16126.86 77134.92
El primer coeficiente de sesgo de Pearson es: C.S = C.S. C.S = – 0.3724 Como se observa, se tiene un sesgo negativo, por lo tanto la curva se encuentra sesgada a la izquierda.
MEDIDAS DE DISPERSIÓN
164
Ejemplo 2 Utilizando el segundo coeficiente de Pearson, indique que tipo de sesgo presenta la siguiente distribución. INTERVALO FRECUENCIA 100-96 3 95-91 7 90-86 10 85-81 12 80-76 17 75-71 20 70-66 28 54 65-61 60-56 32 55-51 14 Agregando las columnas para obtener la media y la mediana. INTERVALO FRECUENCIA 100-96 3 95-91 7 90-86 10 85-81 12 80-76 17 75-71 20 70-66 28 54 65-61 60-56 32 55-51 14 Σ 197 El valor de la media es:
68.58
Mi 98 93 88 83 78 73 68 63 58 53
Fa 197 194 187 177 165 148 128 100 46 14
MEDIDAS DE DISPERSIÓN
165
El valor de la mediana es:
Agregando la columna para obtener la desviación estándar: INTERVALO FRECUENCIA 100-96 3 95-91 7 90-86 10 85-81 12 80-76 17 75-71 20 70-66 28 65-61 54 60-56 32 55-51 14 Σ 197
Mi 98 93 88 83 78 73 68 63 58 53
fi (Mi – x;)^2
2595.95 4173.07 3769.91 2493.94 1507.32 390.06 9.54 1683.63 3584.51 3399.95 23607.87
Fa 197 194 187 177 165 148 128 100 46 14
El primer coeficiente de sesgo de Pearson es: C.S = C.S. C.S =0.8831 Como se observa, se tiene un sesgo positivo, por lo tanto la curva se encuentra sesgada a la derecha.
COVARIANZA Y CORRELACIÓN LINEAL
185
COVARIANZA Y CORRELACIÓN LINEAL
Hasta el momento se han estudiado algunas técnicas estadísticas aplicables a una característica de un grupo de elementos que constituyen una muestra o población. Como ejemplo el promedio de edades de los habitantes de una región, el ingreso familiar, nivel de escolaridad de los habitantes de Toluca, etc. Sin embargo, se puede presentar el caso en el cual no sólo se estudió una sola característica de los elementos de la población, sino dos o más.
Al realizar una investigación estadística, resulta que en muchas ocasiones se obtienen varias características de un solo elemento de la población o muestra. También en ocasiones se hacen consultas en varias tablas previamente elaboradas y en ellas se relacionan algunas características de un mismo elemento, el ejemplo más común es aquél en el cual casi todas las personas han consultado tablas que relacionan el peso y la estatura según el sexo, y de esta forma tratar de ajustarse mediante alguna dieta o deporte al valor o rango deseado. En este ejemplo se están analizando tres características que son: el peso, la estatura y el sexo.
Así en estadística se pueden obtener resultados para una, dos, tres, cuatro o más características de un mismo elemento. En esta unidad se presenta el análisis de algunas técnicas estadísticas que se utilizan al estudiar dos características de un mismo elemento de la población o muestra.
COVARIANZA Y CORRELACIÓN LINEAL
186
5.1 DATOS BIVARIADOS Al conjunto de valores asignados a dos variables distintas obtenidas del mismo elemento de una población o muestra, se les denomina datos bivariados. Para una muestra o población formada por n elementos, las dos variables se presentan mediante un conjunto de pares ordenados de la forma.
Por ejemplo si la muestraestá formada por n personas, el conjunto de se pueden asociar a diferentes escolaridades de las n valores x1, x2, x3,…….., xn a las edades correspondientes de las mismas n personas y1,y2,y3,…….., yn personas. Más aun el par ordenado (x4, y4) representa la escolaridad y edad de la cuarta persona. A continuación se muestran algunos ejemplos de datos bivariados, es decir, el estudio de dos características del mismo elemento de una población o muestra. 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. Etc.
La relación de edad y presiónsanguínea de personas. Peso y estatura de varias personas. Frecuencia de fumar tabaco y afecciones pulmonares. Modelo de automóviles y su precio. Cociente intelectual y aprovechamiento de estudiantes. Publicidad y venta de algunos artículos. Tasa de criminalidad y desempleo para las ciudades más grandes del país. Lluvia y asistencia a los partidos de futbol de los potros de la UAEM, los viernes en el estadio de C.U. Escolaridad e ingreso mensual de los jefes de familia. Dureza del acero y su resistencia a la deformación en varias pruebas. Retraso y tiempo empleado en trasladarse a la preparatoria por los estudiantes. Densidad y contenido de hierro en minerales. Número de revoluciones por minuto y potencia de motores diésel. Número de cilindros de un motor y su consumo de magna sin. Peso de un bebé al nacer y días de embarazo de la madre. Edad y agudeza visual de las personas.
Como se puede observar existe un gran número de casos en los cuales se tiene un conjunto de datos bivariados- Para todos los casos a la primer característica se le asigna la variable x y la segunda característica la variable y.
COVARIANZA Y CORRELACIÓN LINEAL
187
5.2 DIAGRAMA DE DISPERSIÓN Un diagrama de dispersión, es la representación gráfica de todos los pares ordenados que forman los datos bivariados en un sistema coordenado rectangular.
Ejemplo 1 En la siguiente tabla se muestra el número de fallas y la calificación obtenida por 15 estudiantes de un plantel de escuela preparatoria.
Estudiante No. de faltas X Calificación Y
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 5 11 5 9 8 10 6 1 3 8
0
4
7
7
9
6 7.5 8 8.5 5 8 10 9 9.5 8 6.5 7.5 6
Para el cual se constituye su diagrama de dispersión
1 9
COVARIANZA Y CORRELACIÓN LINEAL
188
5.1 CENTRO DE GRAVEDAD O CENTROIDE El centro de gravedad o centroide, es el punto de equilibrio de un conjunto de datos en un diagrama de dispersión, sus coordenadas son: ( xD, yD), donde: xD Es la medida aritméEca del conjunto de los primeros elementos de los pares ordenados de los datos bivariados. Ejemplo 1 Determine el centro de gravedad del siguiente conjunto de datos. X Y
82 11
74 95 86 5 80 17
75 6
95 50
90 26
85 15
92 30
La media de los primeros elementos es:
xD = 85.307
La media de los segundos elementos es:
yD = 22.076
84 11
86 14
82 11
83 11
COVARIANZA Y CORRELACIÓN LINEAL
189
El centro de gravedad tiene coordenadas (85.307, 22.076), el cual se localiza en el diagrama de dispersión, se encuentra marcado como CG.
b) x y
5 5
4 -2
3 4
9 6
6 7 2.1 4.3
2 -6
1 4 6 8 3 4 1.5 3.2 7.8 4.6 -1.5 2.3
La media de los primeros y segundos elementos es:
xD = 4.769
yD = 2.407
COVARIANZA Y CORRELACIÓN LINEAL
190
El centro de gravedad, tiene coordenadas ( 4.769, 2.407 ), en el cual se localiza en su diagrama de dispersión, se encuentra marcado como CG.
CG
COVARIANZA Y CORRELACIÓN LINEAL
191
5.4 COVARIANZA
En medida de dispersión conjunta de las dos variables de un conjunto de datos bivariados. Indica si existe o no dependencia entre las dos variables.
Su valor se obtiene con la expresión.
Su valor puede resultar positivo, negativo o cero, debido a que se obtiene de un producto de dos diferencias.
a) La varianza resulta positiva, cuando los dos factores son del mismo signo, lo cual significa, que mientras el valor de una variable aumenta, el otro también aumenta. Por ejemplo: a mayor edad de una persona, es mayor su grado de conocimientos, representa una dependencia positiva entre variables. b) La covarianza en negativa, cuando uno de sus factores es negativo, lo cual significa, que mientras el valor de una variable aumenta, el otro disminuye. Por ejemplo: a mayor uso del vehículo es menor su valor, representa una dependencia negativa entre variables. c) La covarianza es igual a cero, cuando uno de los factores resulta cero, lo cual significa que no existe ninguna relación entre las variables.
Enseguida se muestran algunos diagramas de dispersión en los cuales se indica el signo de la covarianza, en ellos se puede apreciar la relación que existe entre las variables.
COVARIANZA Y CORRELACIÓN LINEAL
192
Ejemplo 1
Obtenga la covarianza para los siguientes conjuntos de datos.
a) x 2 6 4 5 7 5 9 13 8 3 5 2
y 10 3 7 7 4 6 2 1 5 6 8 9
La covarianza se obtiene con la expresión:
Primero se determina las dos medias aritméEcas, esto es xD H yD, se van , , el producto de estas y finalmente se agregando las columnas obtiene el valor de la covarianza.
Calculando el valor de las medias es:
xD = 5.75
yD = 5.66
COVARIANZA Y CORRELACIÓN LINEAL
193
Agregando la columna (xi - xD) y obteniendo sus valores correspondientes para cada elemento:
SUMAS
x 2 6 4 5 7 5 9 13 8 3 5 2 69
y 10 3 7 7 4 6 2 1 5 6 8 9 68
(xi - xD) -3-75 0.25 -1.75 -0.75 -1.25 -0.75 3.25 7.25 2.25 -2.75 -0.75 -3.75
Agregando la columna (yi - yD) y obteniendo sus valores para cada elemento:
SUMAS
x 2 6 4 5 7 5 9 13 8 3 5 2 69
y 10 3 7 7 4 6 2 1 5 6 8 9 68
(xi - xD) -3-75 0.25 -1.75 -0.75 -1.25 -0.75 3.25 7.25 2.25 -2.75 -0.75 -3.75
(yi - yD) 4.334 -2.666 1.334 1.334 -1.666 0.334 -3.666 -4.666 -0.666 0.334 2.334 3.334
COVARIANZA Y CORRELACIÓN LINEAL
194
Agregando la columna (xi - xD)(yi - yD), obteniendo sus valores para cada elemento y la suma de esta última columna:
SUMAS
x 2 6 4 5 7 5 9 13 8 3 5 2 69
y 10 3 7 7 4 6 2 1 5 6 8 9 68
(xi - xD) -3-75 0.25 -1.75 -0.75 -1.25 -0.75 3.25 7.25 2.25 -2.75 -0.75 -3.75
(yi - yD) 4.334 -2.666 1.334 1.334 -1.666 0.334 -3.666 -4.666 -0.666 0.334 2.334 3.334
(xi - xD)(yi - yD) -16.252 -0.666 -2.334 -1.000 -2.085 -0.250 -11.914 -33.826 -1.498 -0.918 -1.750 -12.502
Finalmente el valor de la covarianza es:
= 1/12 (-80.825) = -6.735
Interpretación: Como la covarianza resulto negativa, entonces cuando (x) crece (y) decrece, esto es, existe una dependencia negativa entre las dos variables.
COVARIANZA Y CORRELACIÓN LINEAL
195
b) x 2 15 12 6 8 14 9 2 5
Y 120 1500 1000 400 500 1600 1000 125 320
La covarianza se obtiene con la expresión:
Calculando el valor de las medias:
xD = 8.111
yD = 729.444
Se construye la tabla y se determina el valor de la covarianza x 2 15 12 6 8 14 9 2 5 SUMAS
73
Y 120 1500 1000 400 500 1600 1000 125 320 6565
(xi- x) -6.111 6.889 3.889 -2.111 -0.111 5.889 0.889 -6.111 -3.111
(yi- y) -609.444 770.556 270.556 -329.444 -229.444 870.556 270.556 -604.444 -409.444
(xi - x)(yi- y) 3724.383 5308.272 1052.160 695.494 25.494 5126.605 240.494 3693.827 1273.827 21140.556
COVARIANZA Y CORRELACIÓN LINEAL
196
El valor de la covarianza es:
= 1/9 (21140.556) = -2348.951.
Interpretación: Como la covarianza resulto positiva, significa que existe una dependencia positiva entre las dos variables, es decir, cuando (x) crece, (y) también crece.
El estudio de la covarianza, tiene la desventaja de que sus unidades carecen de sentido, ya que se obtienen como el producto de las unidades en que están expresadas las variables, por ejemplo, si las unidades de x son Kg y las de y son litros, las unidades de la covarianza resultan kg por litro lo cual no tiene ningún sentido práctico. Por esta razón es necesario incluir otra medida de dispersión que resuelve este problema, dicha medida se obtiene dividiendo la covarianza entre el producto de las desviaciones estándar de las dos variables. A esta medida de dispersión se le conoce como coeficiente de correlación.
COVARIANZA Y CORRELACIÓN LINEAL
197
5.5 CORRELACIÓN LINEAL Indica que tan estrecha es la relación entre dos variables. Para analizar la correlación que existe entre dos variables se utiliza el coeficiente de correlación.
COEFICIENTE DE CORRELACIÓN Es el número adimensional (no tiene unidades) que oscila entre -1 y 1; se obtiene con la expresión.
Dónde: Cov (x, y)
es la covarianza del conjunto de datos.
σx
es la desviación estándar de x
σy
es la desviación estándar de y
El coeficiente de correlación r, al igual que la covarianza, indica la posible correlación lineal que existe entre las variables, además que tan estrecha es esa dependencia o relación; como se muestra en seguida: a)
Si r es positivo, indica que la variable y aumenta al aumentar la variable x, es decir se tiene una correlación positiva.
b)
Si r es negativo, indica que la variable y disminuye o decrece al aumentar la variable x, es decir se tiene una correlación negativa.
c)
Si r es igual a cero, no existe ninguna relación entre las variables.
d)
Si r = 1 ór = -1 existe una dependencia lineal entre las dos variables, es decir en el diagrama de dispersión todos los puntos se encuentran sobre una línea recta.
e)
Si r esta próximo a cero se tiene una correlación débil.
f)
Si r esta próxima a 1 ó -1 se tiene una correlación fuerte.
COVARIANZA Y CORRELACIÓN LINEAL
198
Lo anterior ejemplifica los siguientes diagramas de dispersión.
r=1
r>0
r
View more...
Comments