Practica 2 Estadistica Descriptiva Bidimensional

May 8, 2019 | Author: Jen | Category: Correlation And Dependence, Statistical Analysis, Política, Mathematics
Share Embed Donate


Short Description

U...

Description

Práctica 2 - Estadística Descriptiva Bidimensional Bidimensional

Estadística (ITI. 1,3,4) (Universitat Politecnica de Valencia)

Su distribución está prohibida | Descargado por Juan Martin ([email protected]) ([email protected])

PRÁCTICA 2 para entregar:

ESTADISTICA DESCRIPTIVA BIDIMENSIONAL Contenido: 1. Distribuciones de frecuencias bidimensionales. Tablas de frecuencias de doble entrada 2. Estudios por subgrupos: Diagramas de Box-Whisker múltiple 3. Covarianza y correlación 4. Diagramas de dispersión

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

1. Distribuciones de frecuencia bidimensionales: Tablas de frecuencias  de doble entrada

 Las tablas de frecuencia de doble entrada permiten estudiar la relación existente entre dos variables cuantitativas, dos variables cualitativas o una variable cuantitativa y una cualitativa. En ellas se incluyen frecuencias conjuntas (absolutas y relativas),  frecuencias marginales (absolutas y relativas) y opcionalmente frecuencias condicionales (por filas o por columnas)

 Ejercicio 1: Tabla de frecuencias para dos variables cuantitativas

 A los alumnos de un curso anterior se les ha pedido que cumplimenten la siguiente encuesta: 1. SEXO (1- VARÓN 2- MUJER) 2. EDAD (en años) 3. MES DE NACIMIENTO (1 a 12) 4. ESTATURA (en centímetros) 5. PESO (En kgs) 6. POLITICAMENTE TE CONSIDERAS UNA PERSONA DE: 1- Derechas. 2-Centro. 3- Izquierdas. 4- Pasas del tema. 7. ESCRIBE UN DIGITO AL AZAR DEL 1 AL 9. 8. LUGAR DE RESIDENCIA DURANTE EL CURSO: 1- Hogar familiar 4. Pensión. 2- Colegio mayor o Residencia 5. Otra situación. 3- Piso con compañeros. 9. ¿COMO VIENES HABITUALMENTE A LA UNIVERSIDAD? 1- En tu coche 4. En un coche con un compañero. 2- En tu moto o bici. 5. Transporte público. 3- Andando. 10. ¿CUNATOS MINUTOS HAS TARDADO HOY EN VENIR A LA UPV? 11. ¿CUAL DE LOS SIGUIENTES PROBLEMAS CONSIDERAS MAS IMPORTANTE EN LA ESPAÑA ACTUAL? 1- Drogas 2- Paro juvenil 3- Terrorismo.

4. Desigualdad social. 5. Pérdida de valores morales.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

 Los resultados obtenidos se han almacenado en el fichero PRACDESCBID que se encuentra en el directorio habitual o en la red Para construir la tabla de frecuencias de las variables ALTURA y PESO ha sido necesario codificar dichas variables, agrupando los datos en intervalos,  ya que STATGRAPHICS no realiza la tabulación automática para mas de dos variables cuantitativas .

 Límite inferior

150 160 170 180

Límite superior

Nuevo valor

160 170 180 210

 Límite inferior

150-160 160-170 170-180 180-210

Límite superior

40 60 70 80

Nuevo valor

60 70 80 99

40-60 60-70 70-80 80-99

 Las nuevas variables, ya codificadas se han denominado ALTCOD y PESOCOD a) Construir una tabla de frecuencias de doble entrada que recoja las  frecuencias  conjuntas y  marginales de las variables ALTCOD y PESOCOD . ¿Cómo se interpretan los valores de la celda (1,1)? ¿Y el total de la primera fila y de la  primera columna? Statgraphics: Desplegar el menú  Describir y el submenú  Datos Categóricos , y elegir la opción Tabulación Cruzada. Pulsar el icono de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias .

Tabla de Frecue ncias para ALTCOD por PES OCOD 40-60 60-70 70-80 150-160 160-170 170-180 180-200 Total por Columna

80-100

T ot al p or Fila

7

0

0

0

7

5,34%

0,00%

0,00%

0,00%

5,34%

28

8

2

0

38

21,37%

6,11%

1,53%

0,00%

29,01%

6

25

21

4

56

4,58%

19,08%

16,03%

3,05%

42,75%

1

9

13

7

30

0,76%

6,87%

9,92%

5,34%

22,90%

42

42

36

11

131

32,06%

32,06%

27,48%

8,40%

100,00%

Su distribución está prohibida | Descargado por Juan Martin ([email protected])





Son 7 personas del total (131) que cumplen que su peso está entre 40 y 60 kg y su estatura está entre 150 y 160 cm y que son el 5.34% del total de personas que hay. Total por fila es el total de personas que están agrupadas en los distintos grupos de estatura:

o

150-160 son 7 personas. 160-170 son 38 personas.

o



o



Total por columna es el total de personas que están agrupadas en los distintos grupos de peso:

o

40-60 son 42 personas. 60-70 son 42 personas.

o



o

b) Construir una tabla de frecuencias que recoja las  frecuencias condicionales de la variable PESO asociadas a los distintos tramos de la variable ALTURA . ¿Cómo se interpreta el nuevo valor de la celda (1,1)? Statgraphics: Para obtener la distribución condicional de la variable fila (X), pulsar con el botón derecho del ratón, elegir Opciones Ventana y a continuación seleccionar  Porcentajes de Fila.

Tabla de Frecuencias para ALTCOD por PES OCOD 40-60 60-70 70-80 150-160

160-170

170-180

180-200

Total por Columna

80-100

Total p or Fila

7

0

0

0

7

5,34%

0,00%

0,00%

0,00%

5,34%

100,00%

0,00%

0,00%

0,00%

28

8

2

0

38

21,37%

6,11%

1,53%

0,00%

29,01%

73,68%

21,05%

5,26%

0,00%

6

25

21

4

56

4,58%

19,08%

16,03%

3,05%

42,75%

10,71%

44,64%

37,50%

7,14%

1

9

13

7

30

0,76%

6,87%

9,92%

5,34%

22,90%

3,33%

30,00%

43,33%

23,33%

42

42

36

11

131

32,06%

32,06%

27,48%

8,40%

100,00%

Su distribución está prohibida | Descargado por Juan Martin ([email protected])



El nuevo valor representa el porcentaje de personas de ese grupo de peso referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 4060, que representan el 100% de las personas que miden entre 150-160.

c) Construir una tabla de frecuencias que recoja las  frecuencias condicionales de la variable  ALTURA asociadas a los distintos tramos de la variable PESO. ¿Cómo se interpreta el nuevo valor de la celda (1,1)? Statgraphics: Para obtener la distribución condicional de la variable columna (Y), pulsar con el botón derecho del ratón, elegir Opciones Ventana  y a continuación seleccionar  Porcentajes  de Columna.

Tabla de Frecuencias para ALTCOD por PES OCOD 40-60 60-70 70-80

150-160

160-170

170-180

180-200

Total por Columna



80-100

Tot al p or Fila

7

0

0

0

7

5,34%

0,00%

0,00%

0,00%

5,34%

16,67%

0,00%

0,00%

0,00%

28

8

2

0

38

21,37%

6,11%

1,53%

0,00%

29,01%

66,67%

19,05%

5,56%

0,00%

6

25

21

4

56

4,58%

19,08%

16,03%

3,05%

42,75%

14,29%

59,52%

58,33%

36,36%

1

9

13

7

30

0,76%

6,87%

9,92%

5,34%

22,90%

2,38%

21,43%

36,11%

63,64%

42

42

36

11

131

32,06%

32,06%

27,48%

8,40%

100,00%

El nuevo valor representa el porcentaje de personas de ese grupo de altura referente al total, por ejemplo, en la celda (1,1) hay 7 personas en el grupo 150160, que representan el 16.67% de las personas que pesan entre 40-60.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

d) Representar la distribución de frecuencias en un  histograma tridimensional  y cambiar la  perspectiva del gráfico ¿Que ocurre con la interpretación? Statgraphics: Utilizar el botón de  opciones gráficas del Statfolio y escoger la opción de  gráfico  rascacielos. Para cambiar la perspectiva, utilizar el  botón de rotar

Gráfico Rascacielos para ALTCOD según PESOCOD

     a         i      c       n      e       u       c       e       r        f

30 25 20 15 10 5 0 150-160 80-100 160-170 70-80 170-180 60-70   PESOCOD ALTCOD 180-200   40-60



Ocurre que la interpretación va variando conforme vamos girando el gráfico, de una posición veremos las frecuencias referentes a la variable altura codificada y de otra a la variable peso codificado.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

 Ejercicio 1: Tabla de frecuencias para dos variables cualitativas.

a) La posible relación entre la opción política y el problema que se considera más importante puede estudiarse a partir a una tabla de frecuencias cruzadas entre las diferentes categorías de ambas variables. Construir una tabla de frecuencias de doble entrada que recoja las frecuencias conjuntas, marginales y condicionales de las variables POLITCOD y PROBCOD. ¿Cómo interpretarías la información contenida en la celda (3,1)? Statgraphics: Cerrar el Statfolio y abrir uno nuevo. Desplegar el menú  Descripción y el submenú  Datos cualitativos , y elegir la opción Tabulación cruzada . Pulsar el icono de opciones en la barra del Statfolio y seleccionar la opción Tabla de Frecuencias . Para obtener frecuencias condicionales elegir en Opciones de Ventana  Porcentajes por  fila y Porcentajes por columna Tabla de Frecuencias para PROBCOD por POLITCOD CENTRO DERECHAS IZQUIERDAS

DES.SOCIAL

DROGAS

PARO

PERDIDA VALORES

TERRORISM O

Total por Columna



PASA

Total por Fila

1

3

13

10

27

0,81%

2,42%

10,48%

8,06%

21,77%

3,70%

11,11%

48,15%

37,04%

4,35%

8,82%

44,83%

26,32%

4

3

5

6

18

3,23%

2,42%

4,03%

4,84%

14,52%

22,22%

16,67%

27,78%

33,33%

17,39%

8,82%

17,24%

15,79%

8

3

7

11

29

6,45%

2,42%

5,65%

8,87%

23,39%

27,59%

10,34%

24,14%

37,93%

34,78%

8,82%

24,14%

28,95%

1

6

1

3

11

0,81%

4,84%

0,81%

2,42%

8,87%

9,09%

54,55%

9,09%

27,27%

4,35%

17,65%

3,45%

7,89%

9

19

3

8

39

7,26%

15,32%

2,42%

6,45%

31,45%

23,08%

48,72%

7,69%

20,51%

39,13%

55,88%

10,34%

21,05%

23

34

29

38

124

18,55%

27,42%

23,39%

30,65%

100,00%

 La celda (3,1) representa el porcentaje, en este caso 3.70%, de personas que consideran que el problema es la desigualdad social y que da igual que sean de centro, derechas, izquierdas…(Porcentaje de fila).

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

b) Representar en diagramas de barras múltiples las frecuencias conjuntas, marginales  y condicionales Statgraphics: Para obtener las representaciones gráficas, utilizar el botón de  opciones  gráficas del Statfolio. Elegir  diagrama de barras  y gráfico Mosaico. En el diagrama de barras seleccionar con el boton derecho Opciones de Ventana   y luego seleccionar  Agrupado para frecuencias conjuntas y  Apilado para frecuencias marginales

Diagrama de Barras para PROBCOD según POLITCOD

20

POLITCOD CENTRO DERECHAS IZQUIERDAS PASA

16     a       i     c      n     e      u      c      e     r       f

12 8 4 0 DES.SOCIAL DROGAS

PARO P ERDIDA VALORES TERRORISMO PROBCOD

Diagrama de Barras para PROBCOD según POLITCOD 40

POLITCOD CENTRO DERECHAS IZQUIERDAS PASA

30     a        i     c      n     e      u      c      e      r       f

20

10

0 DES.SOCIAL DROGAS

PARO P ERDIDA VALORES TERRORISMO PROBCOD

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

c) ¿Existen diferencias en la opinión acerca de los problemas prioritarios según la opinión política? ¿Que gráfico ayuda mejor a realizar comparaciones? Sí, se nota una gran diferenciación y variabilidad aunque en algunos problemas coinciden bastante sean de la opinión política que sean.  Me ha servido de gran ayuda el gráfico Mosaico apilado, ya que se pueden apreciar bien las elecciones de los usuarios de una forma comparativa a simple vista. d) ¿A que otro grupo político se parecen más los que se consideran de centro?¿Que les diferencia? Tienen bastante similitud con los que Pasan, ya que observando el Mosaico de barras agrupado se observan ciertas similitudes aunque no muchas.  Les diferencia que no consideran como problemas una desigualdad social o una  pérdida de valores. e) ¿Y los que pasan de política? ¿Que les diferencia? Que sus opiniones están más equilibradas, más repartidas, no se decantan tanto por unos problemas u otros, que es lo que pasa con los de una ideología política en concreto, sino que están más repartidas sus opiniones y menos concentradas.  f) Representar la distribución condicional de TRANSPCOD según POLICOD en un Gráfico de Mosaico ¿Existe alguna relación entre el medio de transporte utiliz ado para venir a la universidad y la opinión política? Statgraphics: Utilizar el botón de opciones del Statfolio para cambiar de variables

Gráfico de Mosaico para POLITCOD según TRANSPCOD

CENTRO DERECHAS

TRANSPCOD ANDANDO COCHE COMPAÑER MOTO/BICI TRANSP.PU

IZQUIERDAS

PASA

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

 2. Estudio por subgrupos: Diagrama de Box-Whisker múltiple

El estudio comparativo de una variable continua por subgrupos dentro de una muestra se plantea como un estudio de la distribución condicional de la variable continua considerada para los distintos valores de una variable discreta que indica la  pertenencia a un grupo concreto.  Ejercicio 3: Estudio de la distribución del peso por tramos de altura

a) Calcular el valor medio y la desviación típica de las distribuciones condicionales del PESO asociadas a los distintos tramos de la variable ALTURA (ALTCOD). Comentar los resultados. Statgraphics: Desplegar el menú  Descripción , el submenú  Datos Numéricos y seleccionar la opción  Análisis subgrupos. Seleccionar como Datos la variable de la

que se quieren obtener los estadísticos, y como Códigos la variable que indica la  pertenencia al grupo. Con el icono amarillo de subopciones seleccionar  Resúmenes  Estadísticos. Estadísticas de Resumen Datos /Variable: PESO  Desviación

Coeficiente

Sesgo

 ALTCOD

Recuento

Promedio

Estándar

de Variación

Mínimo

Máximo

150-160

7

50,7143

4,15188

8,1868%

45,0

56,0

11,0

-0,137982

160-170

38

56,6053

6,70433

11,844%

46,0

75,0

29,0

2,28593

170-180

56

70,4107

7,64146

10,8527%

56,0

90,0

34,0

1,05164

180-200

30

74,1667

7,68376

10,3601%

60,0

90,0

30,0

0,793403

Total

131

66,2137

10,6569

16,0947%

45,0

90,0

45,0

0,303203

  Rango

Curtosis  ALTCOD

Estandarizada

150-160

-0,944802

160-170

1,63407

170-180

0,0378084

180-200

-0,459484

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

Estandarizado

b) confirmar los comentarios del apartado anterior realizando un gráfico de BoxWhisker múltiple Statgraphics: Utilizar el botón de opciones gráficas del Statfolio y escoger la opción de Gráfico de caja y bigotes

Gráfica de Caja y Bigotes

150-160

      D       O        C        T       L       A

160-170

170-180

180-200

45

55

65

75

85

95

PESO

c) Utilizar el gráfico de Box-Whisker para analizar si existe alguna relación entre el PESO y el medio de transporte utilizado para llegar a la universidad Comentar los resultados.

Gráfica de Caja y Bigotes

ANDANDO

COCHE

      D       O        C        P       S  COMPAÑERO       N       A       R       T

MOTO/BICI

TRANSP.PUBLICO

45

55

65

75

85

95

PESO

Su distribución está prohibida | Descargado por Juan Martin ([email protected])



 Hay una caja a la que le falta 1 bigote, que significa que todos los del primer cuartil están concentrados y por eso no sale ningún bigote. Todo esto nos lleva a que puede que hayan distribuciones que no tengan bigotes.  Lo único que se aprecia así que pueda parecer más llamativo es que, los que van en coche, suelen pesar o tienen un rango de peso más concentrado que el resto de opciones de transporte.

 Ejercicio 4: Estudio comparativo de la viscosidad en tres mezclas diferentes

 Los datos de viscosidad en centipoise de tres mezclas son:  Mezcla 1 Mezcla 2 Mezcla 3 22.02

21.49

20.33

23.83

22.67

21.67

26.67 

24.62

24.67

25.38 

24.18

22.45

25.49

22.78

22.28

23.50

22.56

21.95

25.90

24.46

20.49

24.98 

23.79

21.81

a) Si desearas comparar la distribución de la viscosidad en las tres mezclas mediante un diagrama de Box-Whisker ¿Cómo introducirías los datos? Crea un fichero nuevo con esta información 22,02 23,83 26,67 25,38 25,49 23,5 25,9 24,98 21,49 22,67 24,62 24,18 22,78 22,56 24,46 23,79 20,33

1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 3

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

21,67 24,67 22,45 22,28 21,95 20,49 21,81

3 3 3 3 3 3 3

b) Obtener un diagrama de Box-Whisker múltiple para las 3 mezclas Gráfica de Caja y Bigotes

1

    a       l     c      z     e  2     m     n

3

20

22

24 Mezcla

26

28

b) Estudia la simetría en cada una de las mezclas En las 3 mezclas, las gráficas son asimétricas, no obstante, en la gráfica del motor 1 la gráfica es la más simétrica de las 3 que hay. c) ¿En que mezcla tiene mayor rango la viscosidad?  La mezcla 1, pues lo podemos ver claramente en el gráfico puesto arriba al haber una menor concentración de datos con una gran variabilidad. d) ¿En qué mezcla tiene mayor recorrido intercuartílico la viscosidad? En la mezcla 1, puesto que el recorrido entre el primer y el tercer cuartil es superior a los otros dos recorridos de las otras dos mezclas.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

e) ¿En qué mezcla es mayor la mediana la viscosidad? En la mezcla 1, con una mediana de 25,18.  f) ¿Hay algún valor anómalo? Sí, en el motor 3, con un valor de 24.67 centipoise.

 3. Covarianza y correlación

 La covarianza y la correlación son estadísticos bidimensionales que se utilizan para estudiar la relación existente entre dos variables continuas. En concreto permite observa, en el caso de que exista relación, si esta es directa o inversa y si es o no es lineal.  Ejercicio 5 Covarianza y correlación

a) Hallar la matriz de varianzas-covarianzas de las variables PESO, ALTURA y EDAD. ¿Qué interpretación puede darse a los valores que aparecen en la matriz? Statgraphics: Desplegar el menú  Descripción , el submenú  Datos Numéricos y a continuación el submenú  Análisis Multidimensional   y utilizar el icono amarillo de subopciones para seleccionar Covarianzas. Covarianzas

ALT URA PESO EDAD

ALTURA

PESO

EDAD

82,3711

71,6159

1,31439

(131)

(131)

(131)

71,6159

113,569

1,88244

(131)

(131)

(131)

1,31439

1,88244

2,7825

(131)

(131)

(131)

Se interpretan como varianzas las celdas que coinciden altura  –   altura, peso  –   peso y edad –  edad y covarianzas las que no coinciden entre sí.  Las covarianzas miden qué tanto varían las variables conjuntamente, y se utilizan para calcular las correlaciones momento producto de personas.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

b) Hallar la matriz de correlación de las variables PESO, ALTURA y EDAD ¿Qué interpretación puede darse a los valores que aparecen en esta matriz? ¿Es posible afirmar la existencia de asociación lineal entre algunas variables a nivel poblacional? Statgraphics : Desplegar el menú Descripción , el submenú Datos Numéricos  y a continuación el submenú Análisis Multidimensional  y utilizar el icono amarillo de subopciones para seleccionar Correlaciones. Correlaciones

ALTURA ALTURA

PESO

EDAD

0,7404

0,0868

(131)

(131)

0,0000 PESO

EDAD





 

0,3241

0,7404

0,1059

(131)

(131)

0,0000

 

0,0868

0,1059

(131)

(131)

0,3241

0,2287

0,2287

 Los valores son la correlación que existe entre las variables, quiere decir, cuanto mayor es el escalar, más correlación tiene, más fuerte es. Dos variables que tengan una correlación pobre significa que no tienen apenas relación y que no siguen un patrón definido, mientras que si tienen una gran correlación, significa que tienden a llevar un patrón que los relaciona entre sí.  La mejor correlación es la de 0.7404 que está bastante bien que correlaciona altura y peso, lo cual parece que sigue bastante bien un patrón que los relaciona, por ejemplo, cuanto más alto más pesa.

 4. Diagrama de dispersión

El diagrama de dispersión permite visualizar la relación entre dos variables continuas. En concreto, permite observar si la relación es directa o inversa y si es o no es lineal.

 Ejercicio 6: Diagrama de dispersión

a) Obtener el diagrama de dispersión para ALTURA en función de PESO. ¿Qué tipo de relación hay entre las dos variables?

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

Statgraphics: Desplegar el menú Gráficos , el submenú Gráficos de Dispersión  y la opción Gráfico X-Y.

Gráfico de PESO vs ALTURA

95 85

      O        S        E       P

75 65 55 45 150

160

170 180 ALTURA

190

200

Existe una gran dispersión, aunque se puede apreciar bastante bien la correlación que hemos obtenido anteriormente del 0.7404 y podríamos obtener una esti mación lineal de esta gráfica para obtenerla.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

b) Obtener el diagrama de dispersión indicando los puntos que corresponden a hombre  y a mujer ¿Qué llama la atención? Statgraphics: Para etiquetar los puntos del gráfico en función de una tercera variable, seleccionar con el botón derecho del ratón Opciones de Ventana  y en el campo Código  de Puntos introducir la variable diferenciadora (SEXCOD).

Gráfico de PESO vs ALTURA

95

SEXO 1 2

85

     O       S       E      P

75 65 55 45 150

160

170 180 ALTURA

190

200

 Llama la atención que el sexo femenino no predomina en altura y, por lo tanto, en peso, en lo que sí predominan los hombres, de hecho, ambos sexos se encuentran muy muy bien agrupados, apenas se mezclan los valores de ambos.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

c) Construir el diagrama de dispersión para la variable ALTURA en función de la EDAD ¿Existe alguna relación entre estas variables? ¿Por qué? Statgraphics: Para seleccionar parte de la muestra utilizar el botón del Statfolio para

seleccionar variable e indicar un filtro

Gráfico de EDAD vs ALTURA 34 31

      D       A       D       E

28 25 22 19 150

160

170 180 ALTURA

190

200

 No hay apenas relación entre la edad y la altura puesto que su coeficiente de correlación es de 0.0868 y por tanto no existe una relación entre ambas variables que defina un patrón a seguir.

Su distribución está prohibida | Descargado por Juan Martin ([email protected])

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF