Medidas de Variabilidad

September 7, 2017 | Author: Juan Carlos Rivas | Category: Statistical Dispersion, Standard Deviation, Skewness, Variance, Mean
Share Embed Donate


Short Description

Download Medidas de Variabilidad...

Description

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

MEDIDAS DE VARIABILIDAD (O DE DISPERSION) Las medidas de tendencia central: la media aritmética, la moda y la mediana, se muestran muy insuficientes para caracterizar un conjunto de datos. La demanda promedio por hora de un servicio de emergencia en un hospital, que podría situarse en 8 pacientes, es un indicador inadecuado ya que en una específica podría estarse requiriendo el servicio de uno ó dos pacientes, o en el otro extremo, de quince o más. Se hace necesario disponer de otros indicadores que reflejen la dispersión de los datos y que refuercen el análisis cuantitativo de la distribución. Estos descriptores son llamados “medidas de dispersión o variabilidad” Analizando la importancia de las medidas de dispersión se tienen los siguientes datos en dos muestras. Ejemplo Calcular la media aritmética, moda y mediana para cada una de las muestras y analizarlas. Muestra A: 15 20 25 25 25 30 35 Muestra B: 5 10 20 25 25 40 50 Solución Muestra A Muestra B

Media Aritmética 25 25

Mediana 25 25

Moda 25 25

Al presentar los valores en una línea recta, notamos sin embargo que si hay diferencias en la distribuciones.

Muestra A

0

10 20

30

40

50

0

10 20

30

40

50

Muestra B

1

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

En el ejemplo que se discute, es claro que la muestra B tiene mayores desvíos, por lo que debemos concluir que la muestra B tiene mayor dispersión. Dentro de las medidas de dispersión más comunes tenemos: rango o recorrido, varianza, desviación estándar, coeficiente de variación de variación, coeficiente de asimetría y curtosis, teorema de shevichev y la variable estandarizada. RANGO O RECORRIDO (R) El rango o recorrido de la variable no es más que: la diferencia entre el mayor valor observado menos el menor valor observado de la serie. Es decir: R = Valor máximo – valor mínimo. Esta fórmula es valida para serie simple como agrupada. El rango o recorrido es, por supuesto, la medida más gruesa de la variabilidad; sin embargo sería muy útil cuando un conjunto de datos tiene un recorrido muy pequeño, sus valores se encontraran más concentrados alrededor de su media. VARIANZA. La varianza de un conjunto de valores, se define como la suma de todos los cuadrados de los desvíos, dividida por en numero total de datos. La varianza no es una medida empleada en la Estadística Descriptiva. Una de las razones es el término cuadrático. Sin embargo la varianza se hace útil en la Estadística Inferencial: para criticar la bondad de ajuste de los estimadores, prueba de hipótesis, etc. Cuando los datos son poblacionales se emplea la notación: V(x) o σ 2 Cuando los datos son muestrales se emplea la notación: S 2 y suele llamarse Cuasi varianza. DESVIACION ESTANDAR O DESVIACION TIPICA. Es la raíz cuadrada de la varianza y mide la dispersión de los datos con respecto a la media. Las unidades de la desviación estándar es la misma de la unidad en estudio. Cuando los datos son poblacionales se emplea la notación: σ Cuando los datos son muestrales se emplea la notación: S Mientras más grandes son los desvíos entre cada dato y la media mas elevado es el valor de la desviación estándar, y es este sentido que se considera una medida de variabilidad. Ventajas de la desviación estándar: 1. Se utilizan todos los datos para su cálculo. 2. Guarda las mismas unidades de la variable en estudio. 3. Permite comparar distribuciones que tienen medias iguales o muy parecidas. Desventajas de la desviación estándar o desviación típica En las distribuciones asimétricas se ve muy afectadas por los valores extremos, por lo que se debe tener especial cuidado al momento de interpretarla. 2

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

Propiedades de la desviación estándar 1. Si a cada elemento de la muestra se le suma o resta una misma cantidad, la desviación estándar permanece inalterable. 2. Si a cada elemento de la muestra se multiplica por una misma cantidad, la desviación estándar queda multiplicada por esa cantidad. 3. Si la serie es constante, la desviación estándar es cero. Formulas a emplear. Serie Simple

Población

muestra Distribución frecuencia

de

Población

Muestra Serie Agrupada

Población

Muestra

Varianza ∑ ( ( )= =

=

(



( )= =



=

̅)

= (

( )= ∑

Desviación estandar − )



= (

− ) ∗

= (

= =

̅) ∗



=

(

− ) ∗

̅) ∗

= =

Coeficiente de Variación (Dispersión relativa) El coeficiente de variación mide el grado de representatividad de la media. Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V. =

=

∗ 100

∗ 100

en la muestra. en l población.

3

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

Cuando la media está muy próxima al cero afecta mucho al coeficiente, aumentando mucho su valor. Si la desviación estándar es cero el coeficiente de variación es cero.

Ventajas y desventajas del coeficiente de variación. 1. Facilita la comparación de dos series de diferentes unidades por ser adimensional. 2. No es muy plausible su utilidad en forma aislada. 3. No existe coeficiente de variación si la distribución tiene media cero. Interpretación del valor del coeficiente de variación. Posibles valores del coeficiente de variación De 0 a 10% De 10 a 20% De 20 a 30% De 30 a 40% De 40% o más

Grado en que la media es representativa Altamente representativa Bastante representativa Tiene representatividad Dudosa representatividad Carece de representatividad

Ejemplo de coeficiente de variabilidad 1. Dada una base de datos de jóvenes recién egresados de secundaria, se tomaron las variables de edad en años y peso en libras. Se calcularon sus respectivas medias y desviación estándar. Media aritmética 22.20 135.17

Edad (años) Peso (libras)

Desviación estándar 2.72 25.21

Calcular los respectivos coeficientes de variación y comparar. Solución. En la edad

=

En el peso

=

∗ 100 =

∗ 100 =

.

. .

.

∗ 100 = 12.20%

∗ 100 = 18.65%

Dada que la base de datos donde se obtuvieron estos resultados (jóvenes recién egresados de secundaria), el resultado es bastante lógico: indica que las edades son bastantes similares, por lo que no era de esperarse mucha dispersión, en cambio el peso está determinado por el régimen de dieta de cada quien. 2. La edad de los estudiantes regulares que acuden a un cierto curso en los turnos matutino y vespertino del nivel de licenciatura de cierta universidad se describe en las siguientes dos muestras: Matutino:

23

29

27

22

24

21

25

26

27

24

Vespertino:

27

34

29

28

30

34

35

28

30

29

4

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

Si la homogeneidad de la clase es un factor positivo en el aprendizaje, utilice una medida de variabilidad relativa para sugerir cual de los grupos será más fácil de enseñar. Solución Media aritmética 24.8 30.4

Matutino Vespertino

Desviación estándar 2.48 2.88

CV 10% 9.46%

REGLA EMPIRICA Y TEOREMA DE CHEVYSHEV Teorema de Chevyshev Nos permite inferir el porcentaje de elementos que deben quedar dentro de una cantidad específica de desviaciones estándar con respecto a la media; esta relación se aplica sin importar la forma de la distribución. Para cualquier grupo de observaciones (muestra o población), la proporción de los valores que se 2 encuentran dentro de k desviaciones estándar de la media es por lo menos 1 – 1/k ; donde k > 1 representa áreas. Para encontrar los límites simétricos que representan esta proporción de datos se aplica la fórmula:

Es decir El límite inferior es Li =



El límite superior es Lsup = Ejemplos 1.

+

Calcular área según el valor de k. a) Si k = 1.5

2.

±

b) Si k = 2

c) Si k = 3

Supongamos que las calificaciones del examen parcial de una muestra de 100 estudiantes en un curso de Estadística obtuvieron una nota promedio de 7.0 y una desviación estándar de 0.5. a) ¿Qué porcentaje de estudiantes obtuvieron entre 6 y 8 inclusive? b) ¿Cuántos estudiantes obtuvieron nota entre 6 y 8 inclusive?

REGLA EMPIRICA Una de las ventajas del teorema de Chevyshev es que se aplica a cualquier conjunto de datos, independiente de la forma de la distribución de los mismos. Sin embargo, en las aplicaciones prácticas se ha encontrado que muchos conjuntos de datos tienen una distribución en forma de campana como se muestra en la siguiente figura. Cuando se cree que los datos tienen aproximadamente esta distribución se puede aplicar la regla empírica para determinar el porcentaje de elementos que deben estar dentro de determinada cantidad de desviaciones estándar con respecto a la media aritmética.

5

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13 La regla empírica Para datos con distribución en forma de campana • • •

Aproximadamente el 68% de los elementos están a menos de una desviación de la media. Es decir ± 1 Aproximadamente el 95% de los elementos están a menos de dos desviación de la media. Es decir ± 2 Aproximadamente el 99% de los elementos están a menos de tres desviación de la media. Es decir ± 3

µ-3σ

µ-2σ

µ-1σ

µ

µ+1σ

µ+2σ

µ+3σ

68% 95% 99%

Medidas de asimetría Es una medida de forma de una distribución que permite identificar y describir la manera como los datos tiende a reunirse de acuerdo con la frecuencia con que se hallen dentro de la distribución. Permite identificar las características de la distribución de datos sin necesidad de generar el gráfico.

6

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

TIPOS DE ASIMETRÍA

La asimetría presenta las siguientes formas: Asimetría Negativa o a la Izquierda.- Se da cuando en una distribución la minoría de los datos está en la parte izquierda de la media. Este tipo de distribución presenta un alargamiento o sesgo hacia la izquierda, es decir, la distribución de los datos tiene a la izquierda una cola más larga que a la derecha. También se dice que una distribución es simétrica a la izquierda o tiene sesgo negativo cuando el valor de la media aritmética es menor que la mediana y éste valor de la mediana a su vez es menor que la moda, en símbolos < < Nota: Sesgo es el grado de asimetría de una distribución, es decir, cuánto se aparta de la simetría.

Simétrica.- Se da cuando en una distribución se distribuyen aproximadamente la misma cantidad de los datos a ambos lados de la media aritmética. No tiene alargamiento o sesgo. Se representa por una curva normal en forma de campana llamada campana de Gauss (matemático Alemán 1777-1855) o también conocida como de Laplace (1749-1827).También se dice que una distribución es simétrica cuando su media aritmética, su mediana y su moda son iguales, en símbolos = = Asimetría Positiva o a la Derecha.- Se da cuando en una distribución la minoría de los datos está en la parte derecha de la media aritmética. Este tipo de distribución presenta un alargamiento o sesgo hacia la derecha, es decir, la distribución de los datos tiene a la derecha una cola más larga que a la izquierda. Además cumple la siguiente relación: < < Empezando con la asimetría, es lógico pensar que si la distribución tiene moda única y es simétrica, entonces las tres medidas de centralización coinciden. Si no es simétrica, suele suceder la mediana esta comprendida entre la moda y la media aritmética. Medidas de simetría o asimetría. Miden la mayor o menor simetría de la distribución. Dos medidas de este tipo, son: Índice de simetría de Pearson: =

=

(

ó

é

á

O bien )

7

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13 Índice de Simetría de Fisher:

Población

Muestra

Serie Simple 1 ∑[ = ∗ =

1 ∑[ ∗

− ] − ]

Serie Agrupada 1 ∑[ = ∗ =

1 ∑[ ∗

− ] ∗ − ] ∗

Si la distribución es simétrica, ambos índices son iguales a cero, si es asimétrica a la derecha (positiva), ambos son positivos; y si es asimétrica a la izquierda (negativa), ambos índices son negativos.

8

Lic. Saúl Quintanilla Estadística I Grupo 04-06-13

Medidas de Curtosis

Esta medida determina el grado de concentración que presentan los valores en la región central de la distribución. Por medio del Coeficiente de Curtosis, podemos identificar si existe una gran concentración de valores (Leptocúrtica), una concentración normal (Mesocúrtica) ó una baja concentración (Platicúrtica). La curtosis es una estadística que nos indica el nivel de elevación (agudeza, picudez o apuntalamiento) de los datos en comparación a la curva Normal. Cuando hablamos de elevación de los datos me refiero a que tan altos son las barras en un histograma de frecuencias en comparación a la curva Normal. Fórmulas para calcular el coeficiente de curtosis (g 2) Serie Simple Población Muestra

=



= ∗

Serie Agrupada

∑[

]

∑[

]

−3

−3

=



= ∗

∑[

] ∗

∑[

] ∗

−3

−3

Hay varias fórmulas pero la más conocida y utilizada es Si g 2>0 decimos que los datos son leptocúrticos (más elevados que la curva Normal) Si g 2=0 decimos que los datos son mesocúrticos (igual de elevados que la curva Normal) Si g 2
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF