Práctica 2 - Estadística Descriptiva Bidimensional Bidimensional
Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)
Su distribución está prohibida | Descargado por Juan Martin (
[email protected]) (
[email protected])
PRÁCTICA 2 para entregar:
ESTADISTICA DESCRIPTIVA BIDIMENSIONAL Contenido: 1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de doble entrada 2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple 3. Covarianza y correlación 4. Diagramas de dispersión
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias de doble entrada
Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas), frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias condicionales (por filas o por columnas)
Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas
A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente encuesta: 1. SEXO (1- VARÓN 2- MUJER) 2. EDAD (en años) 3. MES DE NACIMIENTO (1 a 12) 4. ESTATURA (en centímetros) 5. PESO (En kgs) 6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE: 1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema. 7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9. 8. LUGAR DE RESIDENCIA DURANTE EL CURSO: 1- Hogar familiar 4. Pensión. 2- Colegio mayor o Residencia 5. Otra situación. 3- Piso con compañeros. 9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? 1- En tu coche 4. En un coche con un compañero. 2- En tu moto o bici. 5. Transporte público. 3- Andando. 10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? 11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE EN LA ESPAÑA ACTUAL? 1- Drogas 2- Paro juvenil 3- Terrorismo.
4. Desigualdad social. 5. Pérdida de valores morales.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se encuentra en el directorio habitual o en la red Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido necesario codificar dichas variables, agrupando los datos en intervalos, ya que STATGRAPHICS no realiza la tabulación automática para mas de dos variables cuantitativas .
Límite inferior
150 160 170 180
Límite superior
Nuevo valor
160 170 180 210
Límite inferior
150-160 160-170 170-180 180-210
Límite superior
40 60 70 80
Nuevo valor
60 70 80 99
40-60 60-70 70-80 80-99
Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD a) Construir una tabla de frecuencias de doble entrada que recoja las frecuencias conjuntas y marginales de las variables ALTCOD y PESOCOD . ¿Cómo se interpretan los valores de la celda (1,1)? ¿Y el total de la primera fila y de la primera columna? Statgraphics: Desplegar el menú Describir y el submenú Datos Categóricos , y elegir la opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias .
Tabla de Frecue ncias para ALTCOD por PES OCOD 40-60 60-70 70-80 150-160 160-170 170-180 180-200 Total por Columna
80-100
T ot al p or Fila
7
0
0
0
7
5,34%
0,00%
0,00%
0,00%
5,34%
28
8
2
0
38
21,37%
6,11%
1,53%
0,00%
29,01%
6
25
21
4
56
4,58%
19,08%
16,03%
3,05%
42,75%
1
9
13
7
30
0,76%
6,87%
9,92%
5,34%
22,90%
42
42
36
11
131
32,06%
32,06%
27,48%
8,40%
100,00%
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Son 7 personas del total (131) que cumplen que su peso está entre 40 y 60 kg y su estatura está entre 150 y 160 cm y que son el 5.34% del total de personas que hay. Total por fila es el total de personas que están agrupadas en los distintos grupos de estatura:
o
150-160 son 7 personas. 160-170 son 38 personas.
o
…
o
Total por columna es el total de personas que están agrupadas en los distintos grupos de peso:
o
40-60 son 42 personas. 60-70 son 42 personas.
o
…
o
b) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la variable PESO asociadas a los distintos tramos de la variable ALTURA . ¿Cómo se interpreta el nuevo valor de la celda (1,1)? Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar Porcentajes de Fila.
Tabla de Frecuencias para ALTCOD por PES OCOD 40-60 60-70 70-80 150-160
160-170
170-180
180-200
Total por Columna
80-100
Total p or Fila
7
0
0
0
7
5,34%
0,00%
0,00%
0,00%
5,34%
100,00%
0,00%
0,00%
0,00%
28
8
2
0
38
21,37%
6,11%
1,53%
0,00%
29,01%
73,68%
21,05%
5,26%
0,00%
6
25
21
4
56
4,58%
19,08%
16,03%
3,05%
42,75%
10,71%
44,64%
37,50%
7,14%
1
9
13
7
30
0,76%
6,87%
9,92%
5,34%
22,90%
3,33%
30,00%
43,33%
23,33%
42
42
36
11
131
32,06%
32,06%
27,48%
8,40%
100,00%
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
El nuevo valor representa el porcentaje de personas de ese grupo de peso referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 4060, que representan el 100% de las personas que miden entre 150-160.
c) Construir una tabla de frecuencias que recoja las frecuencias condicionales de la variable ALTURA asociadas a los distintos tramos de la variable PESO. ¿Cómo se interpreta el nuevo valor de la celda (1,1)? Statgraphics: Para obtener la distribución condicional de la variable columna (Y), pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar Porcentajes de Columna.
Tabla de Frecuencias para ALTCOD por PES OCOD 40-60 60-70 70-80
150-160
160-170
170-180
180-200
Total por Columna
80-100
Tot al p or Fila
7
0
0
0
7
5,34%
0,00%
0,00%
0,00%
5,34%
16,67%
0,00%
0,00%
0,00%
28
8
2
0
38
21,37%
6,11%
1,53%
0,00%
29,01%
66,67%
19,05%
5,56%
0,00%
6
25
21
4
56
4,58%
19,08%
16,03%
3,05%
42,75%
14,29%
59,52%
58,33%
36,36%
1
9
13
7
30
0,76%
6,87%
9,92%
5,34%
22,90%
2,38%
21,43%
36,11%
63,64%
42
42
36
11
131
32,06%
32,06%
27,48%
8,40%
100,00%
El nuevo valor representa el porcentaje de personas de ese grupo de altura referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 150160, que representan el 16.67% de las personas que pesan entre 40-60.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
d) Representar la distribución de frecuencias en un histograma tridimensional y cambiar la perspectiva del gráfico ¿Que ocurre con la interpretación? Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de gráfico rascacielos. Para cambiar la perspectiva, utilizar el botón de rotar
Gráfico Rascacielos para ALTCOD según PESOCOD
a i c n e u c e r f
30 25 20 15 10 5 0 150-160 80-100 160-170 70-80 170-180 60-70 PESOCOD ALTCOD 180-200 40-60
Ocurre que la interpretación va variando conforme vamos girando el gráfico, de una posición veremos las frecuencias referentes a la variable altura codificada y de otra a la variable peso codificado.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Ejercicio 1: Tabla de frecuencias para dos variables cualitativas.
a) La posible relación entre la opción política y el problema que se considera más importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble entrada que recoja las frecuencias conjuntas, marginales y condicionales de las variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida en la celda (3,1)? Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú Descripción y el submenú Datos cualitativos , y elegir la opción Tabulación cruzada . Pulsar el icono de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias . Para obtener frecuencias condicionales elegir en Opciones de Ventana Porcentajes por fila y Porcentajes por columna Tabla de Frecuencias para PROBCOD por POLITCOD CENTRO DERECHAS IZQUIERDAS
DES.SOCIAL
DROGAS
PARO
PERDIDA VALORES
TERRORISM O
Total por Columna
PASA
Total por Fila
1
3
13
10
27
0,81%
2,42%
10,48%
8,06%
21,77%
3,70%
11,11%
48,15%
37,04%
4,35%
8,82%
44,83%
26,32%
4
3
5
6
18
3,23%
2,42%
4,03%
4,84%
14,52%
22,22%
16,67%
27,78%
33,33%
17,39%
8,82%
17,24%
15,79%
8
3
7
11
29
6,45%
2,42%
5,65%
8,87%
23,39%
27,59%
10,34%
24,14%
37,93%
34,78%
8,82%
24,14%
28,95%
1
6
1
3
11
0,81%
4,84%
0,81%
2,42%
8,87%
9,09%
54,55%
9,09%
27,27%
4,35%
17,65%
3,45%
7,89%
9
19
3
8
39
7,26%
15,32%
2,42%
6,45%
31,45%
23,08%
48,72%
7,69%
20,51%
39,13%
55,88%
10,34%
21,05%
23
34
29
38
124
18,55%
27,42%
23,39%
30,65%
100,00%
La celda (3,1) representa el porcentaje, en este caso 3.70%, de personas que consideran que el problema es la desigualdad social y que da igual que sean de centro, derechas, izquierdas…(Porcentaje de fila).
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
b) Representar en diagramas de barras múltiples las frecuencias conjuntas, marginales y condicionales Statgraphics: Para obtener las representaciones gráficas, utilizar el botón de opciones gráficas del Statfolio. Elegir diagrama de barras y gráfico Mosaico. En el diagrama de barras seleccionar con el boton derecho Opciones de Ventana y luego seleccionar Agrupado para frecuencias conjuntas y Apilado para frecuencias marginales
Diagrama de Barras para PROBCOD según POLITCOD
20
POLITCOD CENTRO DERECHAS IZQUIERDAS PASA
16 a i c n e u c e r f
12 8 4 0 DES.SOCIAL DROGAS
PARO P ERDIDA VALORES TERRORISMO PROBCOD
Diagrama de Barras para PROBCOD según POLITCOD 40
POLITCOD CENTRO DERECHAS IZQUIERDAS PASA
30 a i c n e u c e r f
20
10
0 DES.SOCIAL DROGAS
PARO P ERDIDA VALORES TERRORISMO PROBCOD
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
c) ¿Existen diferencias en la opinión acerca de los problemas prioritarios según la opinión política? ¿Que gráfico ayuda mejor a realizar comparaciones? Sí, se nota una gran diferenciación y variabilidad aunque en algunos problemas coinciden bastante sean de la opinión política que sean. Me ha servido de gran ayuda el gráfico Mosaico apilado, ya que se pueden apreciar bien las elecciones de los usuarios de una forma comparativa a simple vista. d) ¿A que otro grupo político se parecen más los que se consideran de centro?¿Que les diferencia? Tienen bastante similitud con los que Pasan, ya que observando el Mosaico de barras agrupado se observan ciertas similitudes aunque no muchas. Les diferencia que no consideran como problemas una desigualdad social o una pérdida de valores. e) ¿Y los que pasan de política? ¿Que les diferencia? Que sus opiniones están más equilibradas, más repartidas, no se decantan tanto por unos problemas u otros, que es lo que pasa con los de una ideología política en concreto, sino que están más repartidas sus opiniones y menos concentradas. f) Representar la distribución condicional de TRANSPCOD según POLICOD en un Gráfico de Mosaico ¿Existe alguna relación entre el medio de transporte utiliz ado para venir a la universidad y la opinión política? Statgraphics: Utilizar el botón de opciones del Statfolio para cambiar de variables
Gráfico de Mosaico para POLITCOD según TRANSPCOD
CENTRO DERECHAS
TRANSPCOD ANDANDO COCHE COMPAÑER MOTO/BICI TRANSP.PU
IZQUIERDAS
PASA
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple
El estudio comparativo de una variable continua por subgrupos dentro de una muestra se plantea como un estudio de la distribución condicional de la variable continua considerada para los distintos valores de una variable discreta que indica la pertenencia a un grupo concreto. Ejercicio 3: Estudio de la distribución del peso por tramos de altura
a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD). Comentar los resultados. Statgraphics: Desplegar el menú Descripción , el submenú Datos Numéricos y seleccionar la opción Análisis subgrupos. Seleccionar como Datos la variable de la
que se quieren obtener los estadísticos, y como Códigos la variable que indica la pertenencia al grupo. Con el icono amarillo de subopciones seleccionar Resúmenes Estadísticos. Estadísticas de Resumen Datos /Variable: PESO Desviación
Coeficiente
Sesgo
ALTCOD
Recuento
Promedio
Estándar
de Variación
Mínimo
Máximo
150-160
7
50,7143
4,15188
8,1868%
45,0
56,0
11,0
-0,137982
160-170
38
56,6053
6,70433
11,844%
46,0
75,0
29,0
2,28593
170-180
56
70,4107
7,64146
10,8527%
56,0
90,0
34,0
1,05164
180-200
30
74,1667
7,68376
10,3601%
60,0
90,0
30,0
0,793403
Total
131
66,2137
10,6569
16,0947%
45,0
90,0
45,0
0,303203
Rango
Curtosis ALTCOD
Estandarizada
150-160
-0,944802
160-170
1,63407
170-180
0,0378084
180-200
-0,459484
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Estandarizado
b) confirmar los comentarios del apartado anterior realizando un gráfico de BoxWhisker múltiple Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de Gráfico de caja y bigotes
Gráfica de Caja y Bigotes
150-160
D O C T L A
160-170
170-180
180-200
45
55
65
75
85
95
PESO
c) Utilizar el gráfico de Box-Whisker para analizar si existe alguna relación entre el PESO y el medio de transporte utilizado para llegar a la universidad Comentar los resultados.
Gráfica de Caja y Bigotes
ANDANDO
COCHE
D O C P S COMPAÑERO N A R T
MOTO/BICI
TRANSP.PUBLICO
45
55
65
75
85
95
PESO
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Hay una caja a la que le falta 1 bigote, que significa que todos los del primer cuartil están concentrados y por eso no sale ningún bigote. Todo esto nos lleva a que puede que hayan distribuciones que no tengan bigotes. Lo único que se aprecia así que pueda parecer más llamativo es que, los que van en coche, suelen pesar o tienen un rango de peso más concentrado que el resto de opciones de transporte.
Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes
Los datos de viscosidad en centipoise de tres mezclas son: Mezcla 1 Mezcla 2 Mezcla 3 22.02
21.49
20.33
23.83
22.67
21.67
26.67
24.62
24.67
25.38
24.18
22.45
25.49
22.78
22.28
23.50
22.56
21.95
25.90
24.46
20.49
24.98
23.79
21.81
a) Si desearas comparar la distribución de la viscosidad en las tres mezclas mediante un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo con esta información 22,02 23,83 26,67 25,38 25,49 23,5 25,9 24,98 21,49 22,67 24,62 24,18 22,78 22,56 24,46 23,79 20,33
1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
21,67 24,67 22,45 22,28 21,95 20,49 21,81
3 3 3 3 3 3 3
b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas Gráfica de Caja y Bigotes
1
a l c z e 2 m n
3
20
22
24 Mezcla
26
28
b) Estudia la simetría en cada una de las mezclas En las 3 mezclas, las gráficas son asimétricas, no obstante, en la gráfica del motor 1 la gráfica es la más simétrica de las 3 que hay. c) ¿En que mezcla tiene mayor rango la viscosidad? La mezcla 1, pues lo podemos ver claramente en el gráfico puesto arriba al haber una menor concentración de datos con una gran variabilidad. d) ¿En qué mezcla tiene mayor recorrido intercuartílico la viscosidad? En la mezcla 1, puesto que el recorrido entre el primer y el tercer cuartil es superior a los otros dos recorridos de las otras dos mezclas.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
e) ¿En qué mezcla es mayor la mediana la viscosidad? En la mezcla 1, con una mediana de 25,18. f) ¿Hay algún valor anómalo? Sí, en el motor 3, con un valor de 24.67 centipoise.
3. Covarianza y correlación
La covarianza y la correlación son estadísticos bidimensionales que se utilizan para estudiar la relación existente entre dos variables continuas. En concreto permite observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es lineal. Ejercicio 5 Covarianza y correlación
a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz? Statgraphics: Desplegar el menú Descripción , el submenú Datos Numéricos y a continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de subopciones para seleccionar Covarianzas. Covarianzas
ALT URA PESO EDAD
ALTURA
PESO
EDAD
82,3711
71,6159
1,31439
(131)
(131)
(131)
71,6159
113,569
1,88244
(131)
(131)
(131)
1,31439
1,88244
2,7825
(131)
(131)
(131)
Se interpretan como varianzas las celdas que coinciden altura – altura, peso – peso y edad – edad y covarianzas las que no coinciden entre sí. Las covarianzas miden qué tanto varían las variables conjuntamente, y se utilizan para calcular las correlaciones momento producto de personas.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional? Statgraphics : Desplegar el menú Descripción , el submenú Datos Numéricos y a continuación el submenú Análisis Multidimensional y utilizar el icono amarillo de subopciones para seleccionar Correlaciones. Correlaciones
ALTURA ALTURA
PESO
EDAD
0,7404
0,0868
(131)
(131)
0,0000 PESO
EDAD
0,3241
0,7404
0,1059
(131)
(131)
0,0000
0,0868
0,1059
(131)
(131)
0,3241
0,2287
0,2287
Los valores son la correlación que existe entre las variables, quiere decir, cuanto mayor es el escalar, más correlación tiene, más fuerte es. Dos variables que tengan una correlación pobre significa que no tienen apenas relación y que no siguen un patrón definido, mientras que si tienen una gran correlación, significa que tienden a llevar un patrón que los relaciona entre sí. La mejor correlación es la de 0.7404 que está bastante bien que correlaciona altura y peso, lo cual parece que sigue bastante bien un patrón que los relaciona, por ejemplo, cuanto más alto más pesa.
4. Diagrama de dispersión
El diagrama de dispersión permite visualizar la relación entre dos variables continuas. En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.
Ejercicio 6: Diagrama de dispersión
a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo de relación hay entre las dos variables?
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
Statgraphics: Desplegar el menú Gráficos , el submenú Gráficos de Dispersión y la opción Gráfico X-Y.
Gráfico de PESO vs ALTURA
95 85
O S E P
75 65 55 45 150
160
170 180 ALTURA
190
200
Existe una gran dispersión, aunque se puede apreciar bastante bien la correlación que hemos obtenido anteriormente del 0.7404 y podríamos obtener una esti mación lineal de esta gráfica para obtenerla.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
b) Obtener el diagrama de dispersión indicando los puntos que corresponden a hombre y a mujer ¿Qué llama la atención? Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable, seleccionar con el botón derecho del ratón Opciones de Ventana y en el campo Código de Puntos introducir la variable diferenciadora (SEXCOD).
Gráfico de PESO vs ALTURA
95
SEXO 1 2
85
O S E P
75 65 55 45 150
160
170 180 ALTURA
190
200
Llama la atención que el sexo femenino no predomina en altura y, por lo tanto, en peso, en lo que sí predominan los hombres, de hecho, ambos sexos se encuentran muy muy bien agrupados, apenas se mezclan los valores de ambos.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])
c) Construir el diagrama de dispersión para la variable ALTURA en función de la EDAD ¿Existe alguna relación entre estas variables? ¿Por qué? Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para
seleccionar variable e indicar un filtro
Gráfico de EDAD vs ALTURA 34 31
D A D E
28 25 22 19 150
160
170 180 ALTURA
190
200
No hay apenas relación entre la edad y la altura puesto que su coeficiente de correlación es de 0.0868 y por tanto no existe una relación entre ambas variables que defina un patrón a seguir.
Su distribución está prohibida | Descargado por Juan Martin (
[email protected])