SPSS LIBROdeESTADISTICA

July 27, 2017 | Author: P Italo Linares | Category: Sampling (Statistics), Spss, Histogram, Statistics, Decision Making
Share Embed Donate


Short Description

Download SPSS LIBROdeESTADISTICA...

Description

2009

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICA CON SPSS Este libro constituye un material de fácil comprensión de la estadística en la investigación científica orientada al campo educativo. 10

8

6

4

2

Std. Dev = 132,31 Mean = 428,7 N = 20,00

0 100,0

300,0 200,0

500,0 400,0

700,0 600,0

Gasto promedio mensual (s/.)

CERAPIO QUINTANILLA CÓNDOR ADOLFO CORTAVARRIA LINARES

UNIVERSIDAD NACIONAL DE HUANCAVELICA

ii

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICA CON SPSS

iii

ESTADÍSTICA APLICADA A LA INVESTIGACIÓN CIENTÍFICA Diseño y producción Cerapio Quintanilla C. Portada Kenny Quintanilla R.

D.R. © 2009 Colección Shara. Ninguna parte de este material electrónico puede ser comercializada, tampoco reproducida sin el permiso escrito a los autores. El uso de este material es exclusivo para fines académicos y científicos que deberá ser citado

ISBN

Versión electrónica.

Elaborado en Perú

Escuela de Post Grado Universidad Nacional de Huancavelica.

Colección Shara

iv

INDICE NOTA PRELIMINAR

vii

CAPITULO I 1. CONCEPTOS BÁSICOS DE LA ESTADÍSTICA Breve reseñan histórica de la Estadística. Objetivos de la Estadística. Población Variables Muestra Clasificación de la información. Presentación de información Diagrama de hojas y tallos Diagrama de cajas. Ejercicios.

1 1 2 2 3 5 7 14 27 28 29

CAPITULO II 2. MEDIDAS DE TENDENCIA CENTRAL POSICIÓN Medidas de posición. Media Aritmética. Mediana. Moda. Medidas de Dispersión Varianza. Desviación estándar Coeficiente de variación. Ejercicios. CAPITULO III 3. DOCIMASIA DE HIPÓTESIS. Hipótesis Estadística. Hipótesis Nula y Hipótesis Alterna. Prueba de una hipótesis estadística. Pruebas de Hipótesis Paramétricas. Pruebas de Hipótesis con la Distribución Z Pruebas de hipótesis t- student. Prueba de Hipótesis para la diferencia de proporciones.

Ejercicios. Coeficiente de Correlación y Regresión Lineal.

v

Y

DE

35 35 35 37 39 43 43 46 46 48 51 51 52 53 54 54 58 63 65 67

Diagramas de Dispersión. Regresión Lineal. Correlación. Ejercicios. Pruebas de Hipótesis No Paramétrica Pruebas de Hipótesis con Chi – Cuadrada. Prueba de Hipótesis de Wilcoxon. Prueba de Hipótesis con U de Mann Whitney. Prueba de Hipótesis de Kruskal Wallis. Prueba de Hipótesis de Friedman Ejercicios. CASOS DE ANALISIS ESTADÍSTICO BIBLIOGRAFIA. TABLAS.

vi

67 68 70 80 82 82 89 96 103 108 114 118 119 120

NOTA PRELIMINAR Este material fue inspirado por los alumnos de Matemática quienes en buscar lo accesible para su comprensión de la Estadística propusieron su elaboración. Porque hoy en día, la estadística es imprescindible en toda las ciencias de la naturaleza (física, química, biología, ingeniería y otras área afines) como en las ciencias humanas (economía, psicología, sociología, educación, etc.) y cobra un papel de importancia cada vez mayor. En el campo educativo no es ajeno a este fenómeno, más que nada en las investigaciones cuantitativas, así como en la toma de decisiones de los resultados que se obtienen en el quehacer educativo. Por otra parte, en nuestro medio existen publicaciones referentes al desarrollo de la estadística descriptiva e inferencial, utilizando métodos tradicionales hasta el uso de la tecnología (el uso de sofisticados software estadístico). Sin embargo, éstas no presentan una aplicación con ejemplos didácticos y el uso del software. Es por ello, los autores comprometidos con el quehacer educativo y la investigación educativa ponemos a los interesados el material sin perder la rigurosidad haciendo uso del software estadístico Statistical Package for the Social Science (SPSS), presentando ejemplos aplicativos al campo educativo y a la investigación educacional, desarrollados manualmente y contrastándose los resultados con el uso del software SPSS de manera didáctico y guiados paso a paso para su mejor comprensión. Para el adecuado proceso de aprendizaje del lector el libro ha sido dividido en tres capítulos, en cada capítulo el uso del SPSS se presenta para contrastar cada ejemplo propuesto, y su uso está guiado mediante la presentación de las ventanas respectivas. En el capítulo I, se presenta los conceptos fundamentales de la estadística descriptiva: tratamiento de los datos y sus presentaciones mediante tablas de frecuencia y gráficos. El capítulo II, aborda la parte de medidas de tendencia central (media, mediana y moda) y medidas de dispersión (varianza, desviación típica y coeficiente de variación). Y finalmente en el capítulo II, se desarrolla lo concerniente a la estadística inferencial, exclusivamente las pruebas de hipótesis. Sin embargo, la necesidad en el campo educativo ha permitido que presentemos los dos tipos de pruebas estadísticas: pruebas de hipótesis paramétricas y pruebas de hipótesis no paramétricas. Se ha dado mucho énfasis en las pruebas de hipótesis no paramétricas, porque éstas permiten al investigador desarrollar libremente sin importar los parámetros de la población, ya que muchos trabajos de investigación no se ajustan a los requisitos para el uso de las pruebas de hipótesis paramétricas.

vii

Es nuestro deseo que el esfuerzo invertido en la preparación de este libro, para que los investigadores en el campo de la educación tengan un beneficio personal y contribuyan en aras de la educación. Todas las sugerencias de los investigadores, estudiantes y lectores que nos ayuden a mejorar el contenido serán bienvenidas. Finalmente, nos resta expresar nuestra gratitud a todos quienes pusieron un grano de arena en la cristalización del libro, en especial a la Dra. Olga Pacovilca Alejo por sus sugerencias e interés en la publicación, a Jesús Huarcaya por su apoyo incondicional. También queremos agradecer a la Universidad Nacional de Huancavelica y la escuela de Post Grado por permitirnos realizar este trabajo fruto de nuestras experiencias en las aulas. Huancavelica, noviembre del 2009

Los autores.

ESTADISTICA “Lo especial de la Estadística para ser precisos, es su habilidad de cuantificar la incertidumbre. Esto

permite a los estadísticos hacer afirmaciones categóricas con una seguridad total sobre el nivel de incertidumbre” Tomado del Libro: LA ESTADÍSTICA EN COMIC. Larry Gonick. Woollcott Smith.

viii

CAPÍTULO 1 INTRODUCCIÓN AL SPSS En ésta primera parte es brindar al investigador los conceptos y procedimientos básicos para la utilización del software SPSS (Statistical Package for Social Science) bajo el entorno Windows. Se considera que el lector tiene instalado el software SPSS en su computadora personal, por lo que el usuario deberá seguir los pasos básicos, así como la barra de menús, las barras de herramientas y el uso de las ventanas (el editor de datos y el visor de los resultados). El programa por su especial cualidad, nos ofrece una amena forma de desarrollar la estadística y su aplicación para la toma de decisiones. Si bien es cierto que las versiones cada vez es mejor, para un trabajo de investigación en condiciones normales es suficiente una versión de SPSS 15, por tal motivo el texto está desarrollado con dicha versión (aunque en le mercado existe la nueva versión PASW). 1.1. Iniciar SPSS Para iniciar el trabajo con SPSS, debe hacer clic en el botón Inicio, luego hacer clic en programas y ubicar SPSS para Windows.

2

C. Quintanilla C. / A. Cortavarria L.

Luego parece la presentación del programa y al fondo la ventana de editor de datos.

Si hacemos clic en Cancelar pasaremos directamente a la ventana de editor de datos. Y si deseamos hacer clic en Aceptar debemos elegir ¿qué deseamos hacer?: ejecutar el tutorial, introducir datos, ejecutar una consulta creada anteriormente, etc. Una vez ejecutada esta acción pasará al editor de datos. 1.2. Pasos para la introducción de datos a) Introducción directa de datos Antes de ingresar los datos es necesario reconocer las partes básicas de la ventana de editor.

Columna de variables (var0001, var0002, var0003 … ) Fila de casos/individuos

Vista de matriz de datos

Vista de variables

Una vez recolectado los datos, se inicia introduciendo los datos en las columnas de variables determinado por Vista de datos. Si deseamos definir variables, debemos

Estadística Aplicada a la Investigación Científica

3

hacer clic en Vista de variables y especificar: nombre, tipo de variables, anchura, decimales, etiqueta, y otros atributos, tal como se muestra en la ventana.

b) Extrayendo un archivo de una carpeta La segunda forma de obtener datos es extrayendo un archivo de una carpeta determinada (del disco, USB, disquete)

1.3. Barra de Menú La barra de menú permite acceder a todas la funciones que considera SPSS. Cada venta posee su propia barra de menús. La se presenta a continuación.

4

C. Quintanilla C. / A. Cortavarria L.

Archivo: Permite abrir, cerrar, guardar e imprimir archivos. Edición: Permite cortar, copiar, insertar variables y pegar elementos; así como acceder a otras opciones. Ver: Muestra la barra de estado, permite personalizar la barra de herramienta. Transformar: Permite modificar datos, transponer variables, reemplazar valores perdidos, recodificar en las mismas variables y distintas variables, y otras. Analizar: Permite realizar distintos tipos de análisis estadístico para la elaboración de reportes de investigación y análisis de datos. Gráficos: Crea gráficos de barras, histogramas, gráficos interactivos, permite verificar cuadros de diálogos antiguos. Utilidades: Permite definir conjuntos, ejecutar procesos, editar menús, cambiar tipografías. Ayuda: permite encontrar temas específicos que ayuda y muestra la información acerca de los procedimientos y funciones de SPSS. 1.4. Barra de herramientas La barra de herramientas incorpora varias ventanas y que éstas contienen las funciones de trabajo.

Para identificar las acciones de cada una de ellas, deberá colocar el puntero en el icono correspondiente y ésta le indicará que acción realiza. 1.5. Ventanas En SPSS existen dos ventanas principales que son: Editor de datos y el Visor 1.5.1. Ventana de Editor de Datos Esta ventana muestra el contenido del fichero de datos. Permite crear nuevos datos o modificar los archivos existentes. Además está compuesto por dos vistas: Vista de datos y Vista de variables.

Estadística Aplicada a la Investigación Científica

5

1.5.2. Ventana de Visor En esta ventana se muestra los resultados estadísticos, tablas de frecuencias y gráficos que se generan. Para realizar informes de los resultados en Word, simplemente se selecciona y se hace una copia (copy) y se pega.

A partir de los siguientes capítulos se desarrollará la parte estadística y sus aplicaciones se realizaran con los ejemplos desarrollados de tal manera que se pueda comprobar con el programa SPSS.

6

C. Quintanilla C. / A. Cortavarria L.

CAPÍTULO II CONCEPTOS BÁSICOS DE ESTADÍSTICA 2.1.

Breve Reseña Histórica de la Estadística

El origen de la Estadística se remonta a la escritura de número, donde el hombre empezó a llevar cuentas mediante marcas de la caza que realizaba. En el Antiguo Testamento se encuentran varias relaciones de censos, la Biblia menciona el censo que Moisés levantó a instancias de Jehová. Por otro lado los gobiernos de Babilonia, Egipto y Roma reunían registros detallados de sus poblaciones, sus ejércitos y de sus recursos con fines de recabar impuestos. En la Edad Media, los gobiernos empezaron a asentar en documentos la propiedad del suelo; se sabe que en el año 762 d. de C., el Emperador Carlomagno solicitó descripciones pormenorizadas de las propiedades con que contaban las iglesias. Guillermo el Conquistador (1086), ordena la elaboración de un libro Domesday Book, que concierne a la propiedad, extensión y valor de las tierras de Inglaterra, cuyo documento fue la primera obra estadística de Inglaterra. Luego por los años 1654 el Caballero de Mèrsé propuso preguntas relacionado al lanzamiento de dados “En ocho lanzamientos sucesivos de un dado intenta un jugador de obtener un uno, pero el juego se interrumpe después de tres intentos fallidos. ¿En qué proporción ha de ser compensado el jugador?”; dando origen a una nueva teoría denominado “Probabilidad” que en la actualidad viene a ser parte de la Estadística. En 1705 Jacques Bernoullí escribe una teoría clásica de probabilidades, titulado Ars conjectandi (Arte de la conjetura), cuya obra fue publicado luego de ocho años de la muerte del autor. En el Imperio Incaico, aún cuando los pobladores no conocían la estadística como tal estaban familiarizados y llevaron registros de su población, terrenos y otras cuentas mediante los Quipus; así estuvieron familiarizados con datos e informes sobre aspectos demográficos y económicos. Por los años (1719 – 1772) el Alemán Godofredo de Achenwall fue el primer teórico de la Estadística que le dio el nombre de estadística, basándose en el origen etimológico “Status”. Sin embargo, según otras fuentes la palabra estadística procede del vocablo "estado" pues la función principal de que los gobiernos de los estados fue siempre establecer registros de población, nacimientos, defunciones, inventarios de la riqueza, etc., por lo que las personas entienden por estadística al conjunto de datos, tablas y gráficos que se suelen publicar en los

Estadística Aplicada a la Investigación Científica

7

periódicos. Pero, en la actualidad, se entiende por estadística el método que sirve para tomar decisiones, de ahí que se emplee en muchos estudios e investigaciones científicos. Definiciones. Definir tal como es la estadística es poco tedioso, porque muchos autores tienen diferentes apreciaciones con respecto a la estadística por el mismo hecho del avance tecnológico y científico. María José Marquez de Cantú (1991) dice: “Actualmente la Estadística es una rama de la matemática aplicada que colecciona, clasifica y evalúa o analiza datos como base para inferencias o conclusiones válidas, así como para tomar decisiones en base a ese análisis”1. Así mismo, Woolson R y Clarke W (2002) citan a Broadly : “estadística es el campo de estudio del método de la obtención de datos, resumen y realizar inferencias de los datos de grupos de individuos”2 Estas consideraciones, nos permiten decir que la Estadística es una ciencia que recopila información, evalúa y contribuye en la toma de decisiones ante situaciones de incertidumbre, justificándolo científicamente.

2.2.

OBJETIVOS DE LA ESTADÍSTICA a) Descripción de grandes colecciones de datos

La descripción se refiere a que los datos que vienen expresados en su forma natural deben ser clasificados y presentados sistemáticamente en cuadros o tablas como una primera reducción de datos. b) Análisis estadístico de datos experimentales y de los fenómenos observados. Toda investigación estadística incluye un problema de análisis, con el objeto de formarse un concepto de la población o universo y adoptar decisiones. c) Predicción o comportamiento de los fenómenos en el futuro. Este objetivo de predicción y previsión está implícito tanto en la descripción como en el análisis estadístico, puesto que en general interesa orientar la toma de decisiones con vigencia y efecto en futuro.

2.3.

POBLACIÓN

Es la totalidad de las unidades de observación (personas, objetos o eventos) con una determinada característica, además que puede ser medible o contable y que pueden ser cualitativo o cuantitativo, sobre los cuales se desean tomar una decisión. Si la característica observada es medible o contable, recibe el nombre de variable estadística continua o discreta. Las poblaciones pueden ser estudiadas en su totalidad si son pequeñas; pero en la práctica las poblaciones son grandes y en algunos casos infinitos EJEMPLO: a) Alumnos matriculados en COU en toda España. b) Los zancudos portadores del Dengue. 1

María José Marquez de Cantú. PROBABILIDAD Y ESTADISTICA Edit. McGrawHill. México – 1990. R. Woolson; W Clarke. STATISTICAL METHODS FOR THE ANALYSIS OF BIOMEDICAL DATA. John Wiley and Sons, INC., Publucation. New York – 2002. 2

8

C. Quintanilla C. / A. Cortavarria L.

c) El número de glóbulos rojos de una persona. d) El número de hijos de las familias en el Perú

2.4. VARIABLE Una variable (X) es un símbolo que representa una característica a estudiar en una población. Llamamos dato (x) al valor numérico (número o no) que la variable toma sobre un individuo concreto de la muestra. 2.4.1. Según su naturaleza. a) Variables cualitativas: son atributos susceptibles de ser expresado mediante palabras (ocupación, profesión, actividad económica, marcas de autos, sexo, estado civil, color, etc.), sólo se pueden contar y no son medibles. Se puede clasificar en variables cualitativo ordinal, ésta pero si se puede jerarquizar (profesión, cargos, instrucción, etc.); y variable cualitativo nominal, que no se puede jerarquizar (sexo, religión, color, etc.). b) Variables cuantitativas: son aquellas variables que se expresan numéricamente (ingresos, egresos, consumo de azúcar, edades, estatura, notas de los estudiantes, talla del calzado, etc.), estas unidades pueden ser medibles. Existen dos tipos de variables: variable cuantitativo continuo y variable cuantitativo discreto. b.1. Discreta

Son aquellas variables que se expresan en número enteros.

EJEMPLO: 

Número de hijos por familia en la ciudad de Huancavelica.



Número de estudiantes matriculados en la UNH.

b.2. Continua

Son aquellas variables que son expresados en decimales y que se puede tomar los valores dentro de un intervalo, es decir se expresan en números reales.

EJEMPLO: 

La medida de la temperatura: 15,8 ºC.



La estatura de algún estudiante de una Facultad: 1,72 m.



La masa de los estudiantes matriculados al curso de Estadística Bayesiana: 58 – 70  kg.

Es posible categorizar las variables cuantitativas en variables cualitativas, por EJEMPLO si las notas de los estudiantes en matemática tienen notas de 0 a 20, éstas podrían categorizarse de la siguiente manera: Tabla Nº 01 00 a 05

06 a 10

11 a 15

16 a 20

D

C

B

A

Pero se debe tener en cuenta, que al realizar esta operación se pierde el verdadero valor de la información. Por lo que se recomienda utilizar sólo en casos necesarios.

Estadística Aplicada a la Investigación Científica

9

Variables dicotómicas: son aquellas variables que sólo pueden tomar dos valores, (SI/NO); (0; 1). Esquema de la posición de las variables.

Discreta

VARIABLES

Continua

Ordinal CUALITATIVAS

DICOTOMICAS

CUANTITATIVAS

Nominal

2.4.2. Variables según su relación. a) Variables dependientes (VD - efecto). Son aquellas que se explican por otras variables, son los resultados o efectos respecto a los cuales existe una causa, motivo o razón. EJEMPLO El puntaje obtenido (VD) en el examen de Admisión; este resultado es probable que guarda relación con el coeficiente de Inteligencia. b) Variables Independientes (VI - Causa). Son las variables explicativas o predictivas, que influye sobre la variable dependiente. EJEMPLO El coeficiente de inteligencia influye en el resultado en el puntaje obtenido en el examen de Admisión. c) Variables Intervinientes (Causa). La variable interviniente es aquella que se afecta indirectamente condicionando los resultados de la variable dependiente, que muchas veces no se puede controlar durante la investigación. Ejemplo: El puntaje obtenido (VD) en el examen de Admisión, está en relación al coeficiente de Inteligencia (VI). La variable interviniente es la alimentación o el estrés, que influye en el verdadero resultado del examen.

10

C. Quintanilla C. / A. Cortavarria L.

2.4.3. Variable según su escala de medición. a) Variables Nominales Son aquellas variables que establecen categorías nominativas sin explicar orden entre ellas. EJEMPLO. Las variables que se caracterizan sin tener orden: sexo, estado civil, raza, credo, lugar de nacimiento. b) Variables Ordinales Son aquellas variables que se caracterizan por tener orden entre sus categorías. EJEMPLO. Las profesiones (porque se puede ordenar de acuerdo al nivel), grado de instrucción, orden de mérito, clases sociales. c) Variables de Intervalos. Son aquellas variables cuya característica son de expresar orden y grados de distancias iguales entre diversas categorías, funcionan por convención y tienen un cero relativo. EJEMPLO. La temperatura, la hora, las puntuaciones de 0 a 20, tablas con baremos, etc.

Vector observación El vector observación va ha depender del tipo de variables en estudio (Discreta, continuo, ordinal, nominal y dicotómico). EJEMPLO. El señor Eduardo Saldaña es el vector observación (V 1), cuyas variables en estudio son: masa = 62 kg; estatura = 1,63 m; profesión = Físico (F), estado civil = casado (C), lugar de procedencia = Trujillo (T). luego el vector es:

2.5.

62  1, 63   V1   F    C  T 

MUESTRA.

En la realidad es imposible calcular el verdadero valor de cualquier parámetro de una población infinita. En la mayor parte de los casos tampoco resulta práctico calcular el verdadero valor de cualquier parámetro de una población finita. Por lo que es necesario, realizar estimaciones a cerca de los parámetros de la población, a partir de una muestra representativa.

11

Estadística Aplicada a la Investigación Científica

DEFINICIÓN. La muestra es un subconjunto de elementos representativos pertenecientes a la población, tomado de tal manera que los resultados obtenidos en su estudio se pueden generalizar a la población de la cual se extrajo. Los elementos de la muestra deben de ser seleccionado de acuerdo a un plan o regla. Al respecto, R. Sierra Bravo dice: “De modo científico, se puede definir las muestras como una parte de un conjunto o población debidamente elegida, que se somete a una observación científica en representación del conjunto, con el propósito de obtener resultados válidos, también para el universo total investigado”.

La importancia del muestreo y la inferencia estadística se derivan del proceso de consecución de los datos que van a proporcionar la información deseada acerca de una población.

POBLACIÓN

MUESTRA

X1 Técnicas de muestreo

X2 X3

Toma de

Xj

decisión.

ESTADISTICA INFERENCIAL Unidad Estadística

Diagrama de relación entre población y muestra

DEFINICIÓN. Se denomina parámetro a la medida usada para describir las características de los elementos (X1, X2, X3, . . . XN ) de la población en estudio. Tabla Nº 02 a.

Media poblacional.



b.

Varianza poblacional

c. d.

Desviación estándar poblacional. Proporción poblacional

2 

e.

Tamaño poblacional

p N.

DEFINICIÓN. Se denomina estadísticas a las medidas de resumen que describen una característica de los elementos de la muestra. A partir de las estadísticas (estadígrafos) se estima los parámetros de la población.

12

C. Quintanilla C. / A. Cortavarria L.

Tabla Nº 03

2.6

a.

Media muestral

x

b.

Varianza muestral

c. d.

Desviación estándar. muestral Proporción muestral

sˆ 2 sˆ

e.

Tamaño muestral

CLASIFICACIÓN DE codificación y tabulación.

LA

P n.

INFORMACIÓN:

Recopilación,

Para iniciar el trabajo en Estadística Descriptiva necesariamente se requiere de un planificación, es decir que tipo de variable se va ha investigar, en que espacio se tiene que trabajar, cual es el objetivo de dicho trabajo, que necesito para realizar el trabajo. Una vez determinado el tipo de trabajo a realizar se continúa con los siguientes pasos.

Conclusión y/o interpretación

2.6.1. RECOPILACIÓN DE DATOS. La recopilación de datos es la parte principal para realizar un trabajo de investigación: existen tres (3) métodos para obtener información. a) Recurrir a fuentes ya (gubernamentales, industriales, investigaciones, reportes, etc.).

publicados resúmenes,

b) Diseñar un experimento similar para obtener información. c) Efectuar una encuesta.

13

Estadística Aplicada a la Investigación Científica

Tomemos un ejemplo del tercer caso, realizar una encuesta: EJEMPLO: Se desea encontrar información básica social de una persona, para tal efecto se usa un instrumento llamado ficha de encuesta.

FICHA DE ENCUESTA INSTRUCCIÓN: Complete y marca con una (X) la alternativa correcta de la información solicitada. 1. EDAD. _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (en años) 2. SEXO a) Varón

b) Mujer

3. ESTADO CIVIL a) Soltero

b) Casado

c) Divorciado

d) Viudo

4. GRADO DE INSTRUCCIÓN (concluido).. a) Universitario

b) Secundaria

c) Primaria

d) Analfabeto

5. SALARIO _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ (mensual en soles) 6. TIPO DE VIVIENDA. a) Ladrillo

b) Adobe

c) Tapial

d) No tiene

7. RELIGIÓN. a) Católico

b) Pentecostés

c) Otros

8. TIPO DE COLEGIO DONDE ESTUDIÓ. a) Público

b) Privado

c) Religioso

9. NÚMERO DE HERMANOS (Unidades) _ _ _ _ _ _ 10. PESO (kg)

_______

11. ESTATURA (m) _ _ _ _ _ _ _ 12. GASTO APROXIMADO MENSUAL (s/.) ------------Este instrumento debe de ejecutarse en una muestra, y cada rubro nos reporta la información de los encuestados.

14

C. Quintanilla C. / A. Cortavarria L.

Tratamiento de la información: se debe seguir los siguientes pasos una vez recogida la información:  clasificación y/o recodificación si es necesario.  recuento de frecuencias.  agrupación de los datos, en el caso que la variable aleatoria es continua o discreta y sea muy grande. 2.6.2. CLASIFICACIÓN DE DATOS Es la tabulación de la información mediante tablas de simple y doble entrada dependiendo de la relación de las variables. Luego, ésta nos permite presentar mediante tablas de frecuencias y gráficos. Sin embargo, es necesario contar con la tecnología, quien nos permite ahorrar tiempo en la clasificación, presentación y toda información necesaria que uno desee. 2.6.3. CODIFICACIÓN DE LA ENCUESTA La codificación está sujeto cómo se debe realizar el tratamiento estadístico; para nuestro propósito es necesario codificar para trabajar con el SPSS. Por ejemplo, la variable EDAD considerar su edad (años). Así, consideramos a las variables con sus respectivos códigos. X1: EDAD (en años) X2: SEXO (1: varón,

2: Mujer).

X3: ESTADO CIVIL 1: Soltero;

2: Casado;

3: Divorciado;

4 Viudo.

X4: GRADO DE INSTRUCCIÓN 0: Universitario

1: Secundaria 2: Primaria

3: Analfabeto.

X5: Salario (en soles) X6: TIPO DE VIVIENDA (1: Ladrillo

2: Adobe;

X7: RELIGIÓN (1: Católico;

3: Tapial;

2: Pentecostés;

3 Otros).

X8: TIPO DE COLEGIO DONDE ESTUDIÓ (1: Público;

2: Privado;

3: Religioso).

X9: NÚMERO DE HERMANOS (unidades). X10: PESO (kg). X11: ESTATURA (metros). X12: GASTO PROMEDIO MENSUAL (Nuevos Soles).

4: No tiene).

15

Estadística Aplicada a la Investigación Científica

Una vez realizado la encuesta y codificado se realiza el llenado del consolidado (consideremos una supuesta encuesta a 30 personas) cuyo cuadro muestra los resultados: LLENAR LA BASE DE DATOS (SPSS). ni 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

X1 33 18 40 22 24 54 34 44 32 20 19 25 23 26 35 38 42 38 33 31 37 26 28 30 36 34 46 45 36 29

X2 1 2 1 1 1 2 1 1 2 2 1 1 1 1 1 2 1 2 1 1 2 1 1 1 1 2 1 1 1 1

X3 1 2 2 1 2 1 2 4 3 2 1 2 2 2 3 2 2 2 2 2 1 2 2 2 1 2 2 2 2 2

X4 0 1 1 0 1 0 1 2 1 1 0 0 1 1 1 2 1 1 0 1 1 2 3 1 0 1 3 0 1 1

X5 2550 700 700 4500 900 1500 800 600 500 700 1800 4500 1200 1500 1500 700 4500 2500 1850 1850 500 500 500 1800 2800 700 1200 3500 1200 1800

Tabla Nº 04 X6 X7 1 3 4 1 3 1 4 1 2 1 4 2 2 3 2 2 2 1 4 1 4 3 1 1 4 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 1 3 3 3 1 1 1 4 1 2 3 3 1 1 1 1 1 1 1

X8 2 1 1 3 1 3 1 1 1 1 1 2 1 1 1 1 2 3 1 1 1 1 1 1 1 2 1 1

X9 3 6 8 2 5 7 4 6 5 7 5 2 4 4 6 5 8 4 5 3 5 6 6 3 5 6 7 3 4 6

X10 74 55 65 68 68 54 69 68 60 58 72 74 68 76 70 58 82 60 76 78 56 68 70 78 79 65 72 80 86 78

X11 1,75 1,6 1,62 1,73 1,68 1,6 1,7 1,68 1,65 1,6 1,74 1,76 1,6 1,68 1,69 1,55 1,78 1,55 1,74 1,8 1,58 1,68 1,72 1,76 1,82 1,6 1,68 1,72 1,75 1,7

X12 950 250 230 1230 320 450 220 180 158 230 520 1600 360 380 460 210 1580 540 350 540 210 120 160 340 820 190 430 860 360 420

Esta tabla se hace una copia y se pega en la venta de Vista de datos, como se muestra en la siguiente figura.

16

C. Quintanilla C. / A. Cortavarria L.

ENTORNO DE TRABAJO EN SPSS. Para iniciar la base de datos, debe abrir el programa SPSS, luego copiar la tabla de consolidado (tabla Nº 04) de la página anterior y pegar; quedando la tabla de la siguiente manera.

Una vez introducido la información es necesario recodificar (mediante números), asignar sus nombres de las variables. Para realizar dicha operación hacer clic en vista de variables y seguir la siguientes instrucciones.

Escribir el nombre de las variables.

En las variables expresadas en números condicionar los decimales. Ejemplo, en Edad se considera cero decimal; en Estatura debe considerar dos decimales.

En la columna Valores hacer clic, y aparece la ventana que se muestra en la siguiente página.

Estadística Aplicada a la Investigación Científica

17

Ingresar los valores numéricos asignados a las respuestas de las variables, y hacer clic en Añadir. Finalmente hacer clic en Aceptar.

En el ejemplo, tomemos para etiquetar la variable X7 de Relegión Se ingresa los códigos asignados a cada atributo de la variable.

Se escribe cada atributo de la variable. Luego pulsar Añadir para cada una de ellas hasta finalizar todas. Finalmente pulsar Aceptar.

Una vez finalizados las codificaciones de los atributos de las variables, en la ventana de Vista de variables debe quedar como la siguiente tabla.

Colocar los títulos de las variables en la columna de Etiqueta.

18

C. Quintanilla C. / A. Cortavarria L.

Una vez registrado en la Vista de variables los correspondientes ítems. Pulsar en la Vista de datos (data view), luego aparece la figura completa

Otra manera formal de ingresar los datos es colocando etiquetas, asignar los valores a cada característica de cada variable, en la Vista de variables, tal como se muestra en la tabla.

Luego hacer clic en Vista de variables, y ingresar la información de cada ficha (encuesta) una por una, hasta completar los 30 fichas encuestadas.

19

Estadística Aplicada a la Investigación Científica

2.7.

PRESENTACIÓN DE INFORMACIÓN

Tablas de distribución de frecuencia Cuando no se cuenta con el apoyo de la tecnología, también se puede clasificar los datos en cuadros o tablas de resumen de las observaciones originales.

2.7.1. DATOS DE VARIABLES DISCRETAS Es cuando las variables están expresadas por variables cualitativas o de variables cuantitativas con valor en números enteros. EJEMPLO. De la encuesta anterior se desea presentar la primera variable cualitativa de “edad” y queda de la siguiente manera: Tabla No. 05 EDADES DE PROFESORES DEL MAGISTERIO PERUANO

i. Características

Conteo

1 Adolescente

//

2 Joven

//// - ///

3 Adulto

//// - ////

Frecuencias absolutas 2 (ni) 8

Porcentaje % 10

10

40 50

Es cuando los valores de las variables cuantitativas se encuentran expresados en números enteros y reales, estos valores se suelen ordenar en forma ascendente en una tabla de frecuencia. Definición. Dada la variable X, consideramos una muestra de tamaño n que toma valores distintos, x1. x2 , x3 , . . .xk (si la variable es cuantitativa x1  x2  x3  . . .xk ). Frecuencia absoluta (ni ) de un valor xi: Es el número de veces que dicho valor aparece en la muestra, donde k

n i 1

i

 n1  n2  n3  ...  nk  n , donde n es tamaño muestral.

Considerando las variables definidas en la tabla de frecuencia, se puede definir las frecuencias acumuladas Frecuencia absoluta acumulada del valor i-ésimo es la suma de las frecuencias absolutas hasta dicho valor y se denota por Ni . Ni = n1 + n2 + n3 + . . .+ ni. Frecuencia relativa de un valor xi es el cociente de la frecuencia absoluta de xi entre el tamaño de la muestra (n), se representa por hi.

hi 

ni , se cumple n

k

h 1 i 1

i

Frecuencia relativa acumulada (Hi) del valor i-ésimo, es la suma de las frecuencias relativas hasta dicho valor.

20

C. Quintanilla C. / A. Cortavarria L.

Hi = h1 + h2 + h3 + . . .+ hi.

Hi 

Ni . n

Si las frecuencias relativas las multiplicamos por 100, obtenemos los porcentajes ( %) %i = (hi)100. EJEMPLO Sea las notas de un examen de Estadística Inferencial tomados a 50 estudiantes, cuyo resultado es en la escala vigesimal: 12 10 11 09 10

11 13 16 15 11 10 15 15

08 11 15 12 11

10 12 14 13 14 12 13 13

12 15 10 07 09

13 14 11 17 16 13 11 10

12 11 15 11 10

13 10 14 11 10 16

a) ¿Cuántos alumnos tiene notas aprobatorias? b) ¿Qué porcentaje de alumnos tienen notas desaprobatorias? SOLUCIÓN Luego ordenando, construimos la tabla de frecuencia, cuyo resultado es la siguiente tabla: Hallando el rango: R = 17 – 7 = 10  k = 10+1 = 11 intervalos.

i.

xi notas

Tarjas

(ni)

1

07

/

1

2

08

/

3

09

4

(Ni)

(hi) 0.02

1

1 + + 2

//

2

10

//// - ////

5

11

6

(Hi)

% 2

0.02

0.02 + + 0.04

4

0.04

0.08

4

9

13

0.18

0.26

18

//// - ////

10

23

0.20

0.46

20

12

//// - /

6

29

0.12

0.58

12

7

13

//// - //

7

36

0.14

0.72

14

8

14

////

4

40

0.08

0.80

8

9

15

//// - /

6

46

0.12

0.92

12

10

16

///

3

49

0.06

0.98

6

11

17

/

1

50

0.02

1.00

2

2

21

Estadística Aplicada a la Investigación Científica

a) Se consideran notas aprobatorias iguales o superiores a 11. Luego los aprobados son: 10+6+7+4+6+3+1 = 37 estudiantes. b) Consideramos desaprobados cuando la notas son inferiores a 11. Verificamos en el porcentaje (%), los desaprobados estarán entre las notas de 7 y 10. Desaprobados: 2% + 2% + 4% + 18% = 26%. IMPORTANTE:

Con respecto a notas, número de hijos y datos que contienen valores enteros de rangos pequeños, no es recomendable usar intervalo, porque se tiende a perder información.

TRABAJANDO CON EL SPSS.

Rotular con notas

Poner el Título en Etiqueta.

Luego para ingresar las notas del examen pulsar en Vista de Datos y luego ingresar los datos.

Ingresar en la columna las notas obtenidas.

22

C. Quintanilla C. / A. Cortavarria L.

Ingresar a Analizar ---> Estadística descriptiva --->Frecuencias …

Hacer clic en notas

Hacer clic para pasar a la casilla de variables y pulsar Aceptar.

El resultado se obtiene tal como se muestra en la tabla de frecuencia generada por SPSS. NOTAS DE EXAMEN DE ESTADÍSTICA

Válidos

7 8 9

Frecuencia 1

Porcentaje 2,0

Porcentaje válido 2,0

Porcentaje acumulado 2,0

1

2,0

2,0

4,0

10 11

2 9

4,0 18,0

4,0 18,0

8,0 26,0

10

20,0

20,0

46,0

12

6

12,0

12,0

58,0

13

7 4 6

14,0 8,0 12,0

14,0 8,0 12,0

72,0 80,0 92,0

3 1 50

6,0 2,0 100,0

6,0 2,0 100,0

98,0 100,0

14 15 16 17 Total

23

Estadística Aplicada a la Investigación Científica EJEMPLO

De nuestra encuesta realizada se tiene el número de hermanos, utilizando el SPSS y siguiendo la secuencia se puede realizar la operación. Abrir el archivo de SPSS con el nombre guardado (en nuestro caso se guardó con ENCUESTA DE SHARA 2009). Una vez abierto realizar la siguiente operación Ingresar a Análisis ---> Estadística Descriptiva --->Frecuencias …

Seleccionar número de hermanos y finalizar con OK

Y se tiene la figura del al ventana Visor.

Hacer clic en la tabla, y haciendo Ctrl+C se pude copiar y pasar a una hoja de Word.

Número de hermanos

Válidos

2 3 4 5 6 7 8 Total

Frecuencia 2

Porcentaje 6,7

Porcentaje válido 6,7

Porcentaje acumulado 6,7

4

13,3

13,3

20,0

5

16,7

16,7

36,7

7 7 3

23,3 23,3 10,0

23,3 23,3 10,0

60,0 83,3 93,3 100,0

2

6,7

6,7

30

100,0

100,0

24

C. Quintanilla C. / A. Cortavarria L.

2.7.2.

DATOS DE VARIABLES CONTINUAS

Tablas de frecuencia. Es aquella que se elabora para poder realizar las operaciones a partir de la clasificación de los datos. Existen dos tipos de tablas, una para datos no agrupados que vemos en el EJEMPLO anterior y otra para datos agrupados y en ésta última se considera los intervalos.

i

 Li – Ls 

1

L1 – L2

2

L2 – L3

.

Tarjas

Yi

(ni)

Ni

(hi)

Hi

%i



Y1

n1

N1 =n1

h1

H1=h1

%1



Y2

n2

N2

h2

H2

%2



.

.

.

.

.

.

.



.

.

.

.

.

.

.



.

.

.

.

.

.

k

Lk – Lk+1

Yk

nk

Nk

hk

Hk

%k

EJEMPLO.

Un investigador realiza un trabajo de investigación sobre puntuaciones de exámenes de admisión en la UNH, revisa las puntuaciones alcanzados por los ingresantes en 1996; donde las puntuaciones fueron de 0 a 100. El resultado de 80 ingresantes fue lo siguiente: 72 38 43 52 31

81 79 71 68 73

65 59 90 54 40

83 39 42 52 38

58 62 63 58 59

56 32 73 77 60

72 28 69 88 75

63 39 75 70 93

49 49 91 61 53

81 48 49 39 57

SOLUCIÓN

a) Hallando el rango o recorrido (R) .

R = xmáx – xmín xmáx: Valor máximo = 93, R = 93 – 28 = 65

xmín : valor mínimo = 28

56 65 67 74 61

60 72 76 68 65

83 81 72 29 70

89 58 60 36 79

60 45 40 49 37

52 52 58 62 46

25

Estadística Aplicada a la Investigación Científica

b) Número de intervalos (k). Como el número de datos es 80, es necesario agrupar en intervalos de clase (k), cuyo valor mínimo es 5 y su valor máximo es 20. Pero debemos tener en cuenta que al realizar intervalos se pierde información, por lo que se debe tener cuidado. 5 k  20 Para obtener el número adecuado de intervalo de clase (k), técnicamente se utilizan las formulas de Sturges y de Portugal.  FORMULA DE STURGES. k = 1+3,322.Log(n);

si n  50

 FORMULA DE PORTUGAL. k = 1,8914 + 3,991.Log(n);

si 50 < n  100.

k = 2,756 + 5,8154 Log(n);

si n > 100.

La formula de Portugal fue presentado en 1985 en el Simposium Departamental de Matemática – UNSA – Arequipa. De nuestro ejercicio, tenemos: n = 80, por lo que utilizaremos la formula de Portugal. k = 1,8914 + 3,991.Log(80); entonces

k = 9,486.

Luego redondeando al entero k = 10.

c) Amplitud de cada intervalo (A) Para encontrar la amplitud A se realiza la siguiente operación A= R / k. Si A no es exacta en el número de decimales de los datos, entonces, el número A se aproxima por exceso de manera que cubra por completo al rango: kA  R. Del EJEMPLO: si k = 10 y R = 65. La amplitud es A = (65)/10, entonces A = 6,5 redondeando al entero superior se tiene A = 7 y k = 10. Pero si multiplicamos k.A = (7)(10) = 70, sobra cinco (5), entonces esta sobra distribuimos en dos partes: 2 a la izquierda y 3 a la derecha, por ser la derecha generalmente abierta

26 2

28

93

96 3

26

C. Quintanilla C. / A. Cortavarria L.

d) Construcción de la tabla de frecuencia.

i.

 Li – Ls 

Yi

Tarjas

Frec. Abs.(ni)

Frec. Absol. Acumulada(Ni)

Frecuencia Relativa(hi)

Frec. Rel. Acumulada(Hi)

%

1

 26 – 33

29.5

////

4

2

 33 – 40

36.5

//// - //

7

+ + 11

4

0.0500

0.0500

5

0.0875

0.1375

8.75

3

 40 – 47

43.5

//// - /

6

17

0.0750

0.2125

7.5

4

 47 – 54

50.5

//// - ////

10

27

0.1250

0.3375

12.5

5

 54 – 61

57.5

////-////-////

14

41

0.1750

0.5125

17.5

6

 61 – 68

64.5

//// - ////

10

51

0.1250

0.6375

12.5

7

 68 – 75

71.5

//// -////-///

13

64

0.1625

0.8

16.25

8

 75 – 82

78.5

//// - ////

9

73

0.1125

0.9125

11.25

9

 82 – 89

85.5

///

3

76

0.0375

0.95

3.75

10

 89 – 96

92.5

////

4

80

0.0500

1

5

80

Suma =1

100%

Para Y1 = (Li+Ls)/2  Y1 = (26+33)/3 = 29,5; Y2 = (33+40)/3. . . TRABAJANDO CON EL SPSS. Veamos como se desarrollar la tabla de frecuencia con el SPSS, para ello se debe seguir la secuencia. Ingresar todos los datos de los puntajes obtenidos en el Examen de Admisión de 1996 en una hoja del SPSS, como se muestra en la figura adjunta.

En la primera columna ingresar las 80 puntuaciones obtenidas en el examen.

Hacer clic en Vista de variables

27

Estadística Aplicada a la Investigación Científica

Nombrar las puntuaciones. Escribir el Titulo en Etiqueta Luego regresar a Data View.

Ubicarse en el menú Transformar ---> Recodificar en distintas variables, luego aparece el cuadro de diálogo mostrado.

Se ha seleccionado Puntuación. Aquí se puede cambiar de nombres. Escribimos PUNTAJES.

Para ingresar los intervalos hacer clic en Valores antiguos y nuevos…

Hacer clic en Rango. En este espacio se codifica los intervalos. Hacer clic en (ancho). En este lugar cambiar por el número 7 para nuestro trabajo. Recordemos que se necesita el intervalo de amplitud 7.

28

C. Quintanilla C. / A. Cortavarria L.

Ingresar los límites inferiores y superiores. Re-escribir el intervalo con un guión. Luego pulsar Añadir. Así, ingresar sucesivamente hasta completar el ingreso de todos los intervalos. Pulsar Continuar.

Pulsar el botón Cambio. Finalmente pulsar el botón Aceptar. Y aparece en la 2da columna los intervalos.

Luego la tabla aparece con los intervalos en la segunda columna.

Se observa que los intervalos aparecen en la segunda columna.

Ingresar al menú Análisis ---> Estadística Descriptiva ---> Frecuencias …

29

Estadística Aplicada a la Investigación Científica

Seleccionar el que se renombró PUNTAJES y pasar a Variables. Si desea graficar histogramas y el diagrama circular, pulsar Gráficos… luego elegir gráfico de sectores y histogramas, y pulsar Continuar. Finalmente Aceptar.

El resultado se obtiene de manera fácil, cuyo resultado se ve en el siguiente gráfico Se muestra la tabla de frecuencias. Si desea pasar a su reporte, hacer Ctrl C, llevar la Word y pegar. Se tiene una inconveniencia. En la en la columna de frecuencia absoluta, NO se obtuvo el mismo resultado encontrado al realizar manualmente. ¿Por qué?, el SPSS, ha hecho los intervalos abiertos hacia la izquierda 33 – 40, mientras en nuestra tabla se tuvo el intervalo así: 33 – 40.

Para nuestro reporte, se hizo copia de la Figura anterior, luego se pasó a Word. PUNTAJES PUNTAJES

Frecuencia Válidos

26-33 33-40 40-47 47-54 54-61 61-68 68-75 75-82 82-89 89-96 Total

Porcentaje

Porcentaje válido

Porcentaje acumulado

4 9 4

5,0 11,3 5,0

5,0 11,3 5,0

5,0 16,3 21,3

11

13,8

13,8

35,0

15 10

18,8 12,5

18,8 12,5

53,8 66,3

13 7

16,3 8,8

16,3 8,8

82,5 91,3

4 3

5,0 3,8

5,0 3,8

96,3 100,0

80

100,0

100,0

30

C. Quintanilla C. / A. Cortavarria L.

En la misma figura anterior, se tiene el diagrama circular que pedimos, cuya grafica se pasa al reporte haciendo un clic en la figura y haciendo Ctrl C, luego pegar en la hoja Word. En el siguiente figura se muestra el resultado.

PUNTAJES 89-96 82-89 75-82

26-33

Muestra los intervalos para cada grupo.

33-40

40-47

68-75 47-54

Importante. Es mejor presentar las figuras en dos dimensiones, porque en tres dimensiones distorsiona su presentación visual y el lector puede equivocarse.

61-68 54-61

REPRESENTACIONES GRÁFICAS Para hacer más clara y evidente la información que nos dan las tablas se utilizan los gráficos, que pueden ser: 

Diagramas de barras ( datos cualitativos y cuantitativos de tipo discreto). En el eje “y” se pueden representar frecuencias absolutas o relativas. De la encuesta realizada, graficamos la variable ESTADO CIVIL. Ir Graficos luego eligir Interactivos y aparece Barras, luego de hacer clic aparece el gráfico de abajo y elegimos ESTADO CIVIL y OK (segunda figura).

Elegir ESTADO CIVIL. Luego pulsar Aceptar.

Luego se tiene la gráfica de barras.

31

Estadística Aplicada a la Investigación Científica

Las barras muestran f recuencias 20

Recuento

15

10

5

0 1

2

3

4

Estado Civil

Histogramas (datos cuantitativos de tipo continuo o discreto con un gran número de datos ) . El histograma consiste en levantar sobre cada intervalo un rectángulo. Ir Graficos  interactivos luego elegir histograma... luego aparece el cuadro de diálogo de histograma donde se elige edad, y Aceptar.

Elegir Puntuaciones y pasar a Variable. Y hacer clic en histograma y activar curva normal si desea que aparézcala curva. Finalmente Aceptar.

6

Recuento



4

2

0 20

30

40

Edad de los encuestados

50

32

C. Quintanilla C. / A. Cortavarria L.

Para regular el intervalo de frecuencias, una vez realizada la gráfica, realizar doble clic en la parte inferior del gráfico. Continuar con el doble clic hasta que aparezca Eje de la escala, donde el número de intervalo para divisores se debe modificar, así el número de marcas, luego cambiar en Intervalo 10 a 7, luego pulsar Aceptar.

Recuento

6

4

2

0 14

21

28

35

42

49

56

Edad de los encuestados



Polígono de frecuencias y diagrama de sectores ( diagrama de circular) Ir Graficos luego elegir Interactivo...  Sectores  simple y aparece el cuadro de Pie Charts luego trasladar tipo de vivienda a variables del gráfico de sectores y pulsamos Aceptar. Si se hace doble clic en la figura, se puede modificarlas característica de la variables y colocar los porcentajes. Los sectores muestran frecuencias Tipo de vivienda ladrillo adobe

23,33%

tapial no tiene no tiene 43,33% ladrillo tapial 13,33% adobe

20,00%

Existen una variedad de gráficos para su presentación, pero se tiene que tener cuidado en graficar, porque muchas veces realizamos gráficos que distorsiona la información.

Estadística Aplicada a la Investigación Científica

2.8.

33

DIAGRAMA DE HOJAS Y TALLOS.

Es una técnica para organizar datos sin perder la identidad de cada dato observado, como si ocurriera en una distribución de frecuencias por intervalos. Veamos en casos diferentes. Sean los números: 37, 4,5 y 2,36 Luego, el tallo será 3; 4; 23. Y las hojas serán: 7; 5 y 6. Los tallos ordenados son ubicados en forma vertical. Las hojas ordenadas de cada tallo son ubicadas horizontalmente. EJEMPLO. Sean los datos notas de Geometría. 12 10 11 13 10 11 13 16 15 11 18 11 15 12 11 10 12 14 13 14 12 15 10 07 10 13 14 11 17 16 12 11 15 11 10 13 10 14 11 10 10 12 13 16 15 13 11 10 15 13 a) Desarrolle un diagrama de tallo y hojas. b) ¿Cuántos alumnos tienen notas desaprobatorias? SOLUCIÓN. Utilicemos en este caso el número 7, no permite tomar el primer dígito como tallo, entonces tomaremos los números de dos dígitos como tallos y las hojas serán CEROS (0) tantas veces que se repiten. a) En los casos de 8 y 9 no tiene valores por lo que no tiene ningún valor (no se toma en cuenta). TALLO 7

HOJAS

FRECUENCIA

0

1

10

0000000000

10

11

0000000000

10

12

000000

6

13

00000000

8

14

0000

4

15

000000

6

16

000

3

17

0

1

18

0

1

8 9

34

C. Quintanilla C. / A. Cortavarria L.

Con los mismos resultados se obtuvo utilizando SPSS, y es el siguiente: NOTAS Stem-and-Leaf Plot Frequency Stem & Leaf 1,00 ,00 ,00 10,00 10,00 6,00 8,00 4,00 6,00 3,00 1,00 1,00 Stem width: Each leaf:

7 8 9 10 11 12 13 14 15 16 17 18

. . . . . . . . . . . .

0 0000000000 0000000000 000000 00000000 0000 000000 000 0 0

1,00 1 case(s)

b) La cantidad de alumnos desaprobados es 11. Se ha verificado la frecuencia de los datos 7 y 10. Para realizar los tallos y hojas con SPSS, siga las siguientes instrucciones. Ir a Analizar y luego a Estadística Descriptiva luego explorar seleccione la variable nota y envíe a Dependiente y finalmente Gráficos... --> tallos y hojas y continuar y finalmente Aceptar.

Estadística Aplicada a la Investigación Científica

35

Y se tiene el resultado. Salario mensual Stem-and-Leaf Plot Frequency ,00 12,00 3,00 8,00 ,00 3,00 ,00 1,00 3,00

Stem & 0 . 0 . 1 . 1 . 2 . 2 . 3 . 3 . Extremes

Stem width: Each leaf:

2.9.

Leaf 555567777789 222 55588888 558 5 (>=4500)

1000 1 case(s)

DIAGRAMA DE CAJAS.

Este diagrama de caja (box plots) describe y presenta directamente los cuartiles y las medianas, el diagrama de caja se encuentra entre el recorrido intercuartil que tiene como extremos P75 y P25 . En el gráfico se muestra los resultados del examen de Geometría, el gráfico se realizó con el SPSS. Ir a Analizar y a Estadística Descriptiva luego explore seleccione la variable Edad y envíe a Dependente y pulsar en Gráficos --> Niveles de factores juntas y continuar y pulsar Aceptar.

Dato máximo P75 =Q3

Mediana (Me)=P50=Q2 P25=Q1 Dato Mínimo

Edad de los encuestados

36

C. Quintanilla C. / A. Cortavarria L.

PRACTICA. I.

Utilizar el paquete estadístico SPSS, para realizar la clasificación de los ejercicios. (guiarse con el capítulo 1).

Se considera básica la información dada para que puede realizar los trabajos. 1. En los ítems, clasificar si las informaciones son variables cualitativas o cuantitativas, discretas o continuas. a) Número de partos en el Hospital de Huancavelica. b) El número de muertos en accidentes de transito en el 2003. c) Edad de los docentes de la Facultad de Educación. d) La temperatura de los niños de una escuela X. e) Tipos de procedencia de los alumnos de la Facultad de Educación. f) Religión que profesan los docentes de la UNH. g) Número de ingresantes a la UNH. h) Tipos de trastornos psicológicos de los alumnos de la U.N.H i)

Número de hijos por familia.

j)

El pH de la sangre.

k) Lugar de nacimiento. l)

Grado de instrucción de los padres.

m) Tasa de crecimiento demográfico. n) Número de habitaciones por vivienda. o) Las pulsaciones de corazón. p) Temperatura de las personas en grados Celsius. q) Número de glóbulos rojos. r) Grado de agresividad de las personas. s) Tiempo de servicios de los docentes en los centros educativos. t)

Número de desempleados en el magisterio peruano.

u) El número de viviendas de material rustica en el Perú. v) Las mariposas en la selva peruana. 2. Escribir en el paréntesis correspondiente si al caso propuesto se aplica la estadística descriptiva o Inferencial. a) La clasificación de las edades de los estudiantes de una sección de la Especialidad de Matemática y Física. (.............................) b) Se realizo un estudio de 100 alumnos de la UNH y se concluyo que el 40% de estudiantes proceden de otro lugar y el 60% son de Huancavelica. (........................................) c) Se aplico una encuesta a 200 profesores de los colegios y a partir de su análisis se llegó a la conclusión que el magisterio no está de acuerdo con el nuevo programa. (...............................)

II.

Utilizar el paquete estadístico SPSS, para desarrollar los ejercicios, de acuerdo lo descrito en la parte I.

37

Estadística Aplicada a la Investigación Científica

3. La siguiente información ha sido obtenida de la secretaría de la FED y corresponde a los resultados de la evaluación realizada a los profesores de esta facultad en el año 2003. B D A A A

C D A D C

B B A A D

C A E A E

B A A B A

A C C E A

B A D D B

B A E A A

A C B B B

B A C A A

D A C B C

B C E D D

B B A C A

a. Presentar la información dada mediante un cuadro de distribución de frecuencias. b. Que % de profesores obtuvieron calificación: A (Excelente), B(Muy bueno), C(Bueno), D(Regular) y E(Deficiente). c. Representar mediante una histograma, y diagrama circular (pastel). 4. Se tienen las notas de 48 alumnos en Estadística Bayesiana. 10 06 15 09

a. b. c. d. e.

11 10 13 10

12 08 14 11

14 14 11 11

08 15 13 11

05 10 09 12

09 12 12 10

14 16 10 11

07 08 13 09

11 16 06 11

08 15 08 14

11 15 10 14

Presentar en una tabla de frecuencia debidamente ordenados. Presentar mediante barras la frecuencia absoluta. Graficar la frecuencia relativa acumulada. ¿Qué cantidad alumnos obtuvieron a lo más notas a lo más de 10?. Presentar en un Diagrama de tallos y hojas lo datos.

5. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de Huancavelica, luego se obtuvo en 72 familias se encontró los siguientes datos: 2 4 4 5 3 1

0 3 5 8 6 7

5 3 6 4 2 5

8 9 6 10 8 7

9 3 5 6 4 7

2 0 1 8 9 5

5 4 3 6 7 5

6 4 7 7 8 6

1 8 7 3 5 9

6 2 5 8 2 6

13 3 9 8 5 8

6 8 5 8 9 6

Fuente: Encuesta 2003 – Huancavelica, Historia y CC SS. UNH.

a. b. c. d. e.

Clasificar los datos y presentarlos en una tabla de frecuencia. Presentar mediante Diagrama de tallos y hojas. ¿Cuántas familias tienen al menos 6 hijos?. ¿Qué porcentaje de familias tienen a lo más 4 hijos?. Presentar una gráfica mediante polígono de frecuencia.

6. A los ingresantes de Matemática y Física, se le ha sometido a una prueba de lenguaje con 100 preguntas, donde cada una vale 01 punto, siendo la calificación individual se presenta los resultados. 74 54 77 60 88

89 76 45 68 57

98 47 53 39 94

65 67 59 74 84

77 64 73 85 42

73 69 55 35 65

52 50 91 48 66

65 55 61 35 85

33 81 41 78 66

94 41 80 60 71

a. Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos. b. ¿Cuántos ingresantes tienen a lo más 80 puntos?. c. ¿ Cuántos ingresantes tienen al menos 50 puntos?.

38

C. Quintanilla C. / A. Cortavarria L. d. Presentar mediante la Diagrama de tallos y hojas. e. Presentar una gráfica mediante histogramas y polígonos de frecuencia el porcentaje.

7. Se toma un examen de 100 preguntas a 40 alumnos de Matemática y Física. El número de preguntas respondidas es: 61 74 70 77

a. b. c. d. e. f.

81 77 82 52

79 94 60 70

78 87 81 82

81 98 75 77

66 70 76 84

77 92 81 46

76 68 63 88

92 86 87 79

83 78 41 67

Clasificar los datos y presentarlos en una tabla de frecuencia de 5 intervalos. ¿Cuántos estudiantes tienen a lo más 60 puntos?. Presentar mediante Diagrama de tallos y hojas. ¿Qué porcentaje de estudiantes alcanzaron puntajes entre 40 y 70?. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta. Presentar Hi con una gráfica escalonada.

8. Se hizo una investigación sobre la permanencia de los estudiantes en años en la Universidad Nacional de Huancavelica. (considerando los que abandonan y las que culminan). 3.9 7.1 5.6 3.3 6.7 5.4 6.2 6.3 10.4 6.7 7.8

a. b. c. d. e. f.

5.8 5.5 5.2 4.1 6.8 5.8 2.6 5.9 6.8 5.1 5.0

4.2 5.8 6.1 9.1 4.7 5.8 6.9 4.0 6.4 7.7 5.8

5.6 9.4 7.2 2.5 6.3 7.4 6.9 8.6 8.2 4.0 5.5

5.4 6.0 3.5 5.7 5.6 5.3 2.6 9.3 5.2 2.3 3.9

7.5 5.6 3.7 5.9 10.6 5.8 6.8 7.4 3.0 9.7 8.4

6.6 5.0 3.1 6.5 5.0 5.8 7.5 6.3 8.5 4.8 5.7

9.8 5.4 2.0 5.3 6.1 6.0 5.2 8.6 5.1 9.2 4.5

6.9 7.8 5.8 7.5 6.6 4.8 9.2 8.8 5.2 8.1 8.2

4.3 5.6 6.0 5.4 6.1 3.8 6.5 7.5 4.5 4.2 3.7

Construir una tabla de frecuencia con 6 intervalos. ¿Cuántos estudiantes tienen a lo más 3,0 años?. ¿ Cuántos ingresantes tienen al menos 4,8 años?. ¿Qué cantidad de alumnos alcanzaron años entre 4,0 y 8,5?. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta. Presentar Hi con una gráfica escalonada.

9. Una firma de corredores de bolsa, publicó una lista de 600 acciones y que consideraba “Plenamente Apreciadas”; en la misma lista daban los precios en soles de estas acciones como son: 19.3 20.9 26.3 25.8 12.2 29.5

16.1 57.3 35.9 24.6 18.3 29.2

22.8 27.2 47.5 23.0 22.4 52.5

15.2 24.3 20.1 41.2 19.3 17.9

30.3 25.4 59.6 42.9 22.6 33.1

16.4 12.2 29.0 37.8 25.4 15.2

a. Construir una tabla de frecuencia. b. ¿Cuántos acciones tienen a lo más S/.42.5?.

10.8 18.3 34.5 15.6 26.3 16.3

17.7 22.4 25.4 19.0 23.5 15.6

51.9 19.3 19.3 42.5 40.2 48.7

67.7 22.4 15.6 23.8 45.2 15.0

35.2 24.5 42.7 38.6 28.8 36.4

39

Estadística Aplicada a la Investigación Científica

c. ¿ Cuántos acciones tienen al menos S/.20.5?. d. ¿Qué cantidad de acciones alcanzaron costos entre S/.24,0 y S/.51,5?. e. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta. f. Presentar Hi con una gráfica escalonada. 10. En una encuesta realizada a estudiantes del IV Ciclo de la Especialidad de Matemática y Física de la UNH sobre los ponderados acumulados al II Ciclo, se obtuvo los siguientes resultados 15.8 26.4 17.3 22.7 9.8 6.2 26.8 22.7 18.0 19.1 15.2 22.9 18.5 23.0 24.6 14.4 29.6 19.4 8.3 21.9 12.3 25.9 10.5 15.9 Fuente: Encuesta UNH.

a. b. c. d. e. f.

11.2 14.7 20.5 26.6 20.1 17.0 22.3 27.5 2004

23.9 24.8 18.7 13.9 9.0 13.2 17.5 26.1 12.8 28.6 17.6 23.7 11.0 20.9 15.5 19.4 16.7 10.7 20.4 21.4 19.2 21.6 16.9 19.0 16.2 18.0 7.7 13.5 23.5 14.5 20.8 24.3 22.5 24.6 18.4 18.1 13.3 11.8 19.3 20.0 25.7 31.8 18.1 17.9 9.4 24.1 20.1 28.5 – Huancavelica, Matemática Física.

Construir una tabla de frecuencia de 10 intervalos. Presentar mediante Diagrama de tallos y hojas. ¿ Cuántos estudiantes tienen al menos ponderado de 13?. ¿Qué porcentaje de estudiantes alcanzaron ponderados entre 11.0 y 23?. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta. Presentar Hi con una gráfica escalonada.

11. En un Complejo Hospitalario de la ciudad de Huancayo, se tomó muestra de los valores de proteína en sangre de 50 niños recién nacidos normales registrados en el período del 23 de enero al 28 de abril de 2004 cuyos resultados son las siguientes: 5.388 6.118 5.018 4.765 4.970

a. b. c. d.

III.

6.211 6.118 5.384 3.950 5.446

5.133 5.860 4.991 5.119 7.443

5.937 5.860 6.593 3.201 5.204

5.137 5.345 5.305 4.255 5.269

4.823 5.928 5.766 6.454 5.222

5.007 5.860 5.990 5.582 4.623

6.299 4.929 5.156 4.446 6.082

6.050 6.661 7.212 5.310 6.712

5.590 5.384 4.234 4.310 5.071

Construir una tabla de frecuencia de 7 intervalos. Presentar mediante Diagrama de tallos y hojas. Presentar una gráfica mediante histogramas y polígonos de frecuencia de ni. Presentar Ni y Hi con una gráfica escalonada.

Completar la información necesaria, usando la parte teórica necesaria.

12. La tabla muestra la distribución de ingreso familiar con intervalos de igual amplitud, correspondiente a 80 familias.

40

C. Quintanilla C. / A. Cortavarria L. i 1 2 3 4 5 a. b. c. d.

 intervalos  Yi 160         - 210 

(ni) Ni 48

(hi)

Hi

%

60 12.5 0,075

Reconstruir una tabla de frecuencia. ¿Qué porcentaje de familias ganan menos de 200 nuevos soles?. ¿Cuántos familias tienen al menos ingresos de S/.170?. ¿Qué cantidad de familias alcanzaron ingresos entre S/.175 y S/.195?.

13. Se tiene una tabla de frecuencia incompleta de variable continua que un investigador no concluyó, porque los datos fue de tamaño n = 3000. i 1 2 3 4 5 6

Yi  intervalos  1.35        9.35   

(ni) Ni

(hi) 0,1 2M/3 3M M/3 5M/3 M

Hi

%

a. Reconstruir una tabla de frecuencia. b. Representar mediante un histograma hi. 14. Completar la siguiente tabla de frecuencia, siendo ésta simétrica. Además se sabe que Cj = 3. i 1 2 3 4 5

 intervalos           

Yi

ni

Ni

hi

Hi

%

45 8

0.96

50 a. Reconstruir una tabla de frecuencia. b. ¿Qué porcentaje de valores se encuentran entre 40,5 y 49,5?. c. Presentar una gráfica mediante histogramas y polígonos de frecuencia de la frecuencia absoluta. d. Presentar Hi con una gráfica escalonada.

----------------------o0o----------------------

Estadística Aplicada a la Investigación Científica

41

CAPITULO III MEDIDAS DE TENDENCIA CENTRAL Y DE POSICIÓN. En esta etapa la estadística esta dedicada al estudio y análisis de las medidas descriptivas. Estas medidas se denominarán estadígrafos o estadísticas cuando se trata de la muestra, en cambio se denominarán parámetros cuando se trata de datos de la población. Es importante remarcar, que cuando se trabaja con los datos de la muestra, éstas serán de utilidad para su uso posterior en las pruebas de hipótesis. MEDIDAS DESCRIPTIVAS

DE POSICIÓN

Aritmético Tendencia Central

Promedios

Geométrico Armónico

Mediana Moda Quantiles

DE DISPERSIÓN

Recorrido intercuartílico Varianza Desviación estándar Desviación media

COEFICIENTES

De variación De asimetría De curtosis

En el desarrollo de ésta unidad se desarrollará los estadígrafos más importantes. 3.

MEDIDAS DE POSICIÓN

3.1.

MEDIA ARITMÉTICA.

La media aritmética se puede considerar como el punto de equilibrio de todas las observaciones o el centro de equilibrio de un objeto, es decir, el momento de todas las observaciones.

42

C. Quintanilla C. / A. Cortavarria L.

DEFINICIÓN.

La media aritmética es la suma de los valores observados de una variable X, dividido entre el número de observaciones.

a) Media aritmética de datos no agrupados La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en una muestra es el número: n

x

x1  x2  x3  ...  xn = n

x

i

i 1

n

EJEMPLO. Sean las notas de 12 alumnos de matemática obtenidas en la signatura de Geometría IV . Sección A

05 08 09 09 10 11 12 10 13 12 13 15

Luego el promedio

x=

05  08  09  09 10 11 12 10 13 12 13 15 12

x=

127 , 12

x = 10,583.

b) Media aritmética de datos agrupados La media de n valores x1. x2 , x3 , . . .xn , de la variable cuantitativa X , observados en una muestra muchas de ellas tienen los mismos valores, lo cual resulta que se tiene que agrupar en grupos de n1 , n2 , n3 , . . . ni, cuyo resultado respectivo de la media es: k

x n  x n  x n  ...  xi ni = x 1 1 2 2 3 3 n

xn

i i

i 1

n

EJEMPLO. Del ejemplo anterior, puntajes alcanzados en el examen de Admisión. i.

 Li – Ls 

Yi

Frec. Abs. (ni)

Yi ni

1

 26 – 33

29.5

4

118

2

 33 – 40

36.5

7

255.5

3

 40 – 47

43.5

6

261

4

 47 – 54

50.5

10

505

5

 54 – 61

57.5

14

805

6

 61 – 68

64.5

10

645

7

 68 – 75

71.5

13

929.5

8

 75 – 82

78.5

9

706.5

9

 82 – 89

85.5

3

256.5

10

 89 – 96

92.5

4

370

n = 80

y = (4852)/80

y = 60,65

k 10

 yn i 1

i

i

= 4 852

Estadística Aplicada a la Investigación Científica

43

PROPIEDADES. i) Si todos los valores observados x1 , x2 , x3 , . . . xn son iguales a una constante b, entonces M(x) = M(b) = b

EJEMPLO: sean las notas de Jorge 12, 12, 12, 12, 12. Entonces su media será: x = 12, la misma constante. ii) Si todos los valores observados x1 , x2 , x3 , . . . xn se le suma o resta una constante, el nuevo valor de cada observación transformado es yi  xi  b , luego la media es: y  M ( y)  M ( x)  b

iii) Si a cada uno de los valores observados x1 , x2 , x3 , . . . xn se le multiplica por una constante “a” diferente de cero (0), el nuevo valor de cada observación transformado es yi  axi , entonces la media aritmética es. y  M (y) =aM(x)

iv) Si realizamos en adjuntar las propiedades ii) y iii), ésta se transforma en funciones lineales especiales.

yi  axi  b Valores observados inicialmente

donde: a y b son constantes. Valores transformados

3.2.

MEDIANA.

En muchos casos la media aritmética no es una buena medida de tendencia central, por ejemplo las notas de 10, 12, 11, 13 y 20. En este caso, la nota de 20 distorsiona la información, resultaría la media de 13,2. Entonces, surge la necesidad de utilizar la mediana. Y cuyo valor sería de 12, una información al menos adecuada. La mediana es una medida que localiza el centro de las observaciones; es decir, distribuye en dos partes iguales las observaciones de una distribución. Para variables cuantitativas, es un número tal que al menos el 50% de los datos es menor o igual que la mediana y al menos el 50% mayor o igual. a) Para datos no tabulados  se ordenan en forma ascendente y luego se ubica el valor central. EJEMPLO Se tienen las notas de estudiantes de la especialidad de matemática. Sección A 12 10 9 12 8

5 12 11 13 9 15

44

C. Quintanilla C. / A. Cortavarria L.

Sección B 08 11 12 13 12 10 12 11 12 8 * Ordenamos los datos de la sección A: Sección A

5

8

9

9

10 11 12 12 12 13 15

50% de datos

Me = 11 50% de datos.

La mediana Me = 11, porque la cantidad de datos es impar. * Ordenamos los datos de la sección B: Sección B

8

8

10 11 11 12 12 12 12 13

50% de datos Me = 11,5

50% de datos.

En este caso como la cantidad de datos es par se tomó los dos datos centrales, entonces 11  12 Me = =11,5. 2 b) Para datos tabulados Si los valores de la variable están tabulados mediante una distribución de frecuencias por intervalos, la mediana se determina por:

n   2  Ni 1  Me  Li    Ai ; n i    

Se ubica el valor de en

N j 1 

n 2

n  Nj 2

EJEMPLO. Frec. Absol Acumulada(Ni)

Ubicamos el valor de

80  40 2

i.

 Li – Ls 

Yi

Frec. Abs. (ni)

1

 26 – 33

29.5

4

4

en

2

 33 – 40

36.5

7

11

encuentra entre 27 y 41.

3

 40 – 47

43.5

6

17

4

 47 – 54

50.5

10

27

5

 54 – 61

57.5

14

41

6

 61 – 68

64.5

10

51

7

 68 – 75

71.5

13

64

8

 75 – 82

78.5

9

73

9

 82 – 89

85.5

3

76

10

 89 – 96

92.5

4

80

n j = 14,

Luego la mediana es

Nj = 41,

Me = 54  (

Nj = 41

n j = 14

Nj-1 = 27.

40  27 )7 14

n  Nj 2

Nj-1 = 27

80

Ai = 33 – 26 = 7,

N j 1 



Me = 60,5

se

Estadística Aplicada a la Investigación Científica

45

Propiedades. La mediana es el punto para el que en la distancia euclídea media a los valores de la muestra es mínima, es decir, para cualquier a. k

 i 1

k

xi  Meni   xi  a ni i 1

Sólo tiene en cuenta la posición de los valores en la muestra y por otro lado tienen mucho mejor comportamiento que la media cuando hay observaciones anómalas. 3.3.

MODA.

Definición. La moda de una serie de datos es el valor Mo, que se define como el dato que más se repite. La moda no siempre existe, y si existe, no siempre es única. La moda sirve para señalar el valor que más se repite en una variable. La moda es el valor menos importante debido a su ambigüedad. a) Moda para un conjunto de datos de cantidad pequeña. EJEMPLO. Sean las notas de un grupo de niños de educación Inicial, en aprestamiento a las matemáticas: 12, 13, 11, 11, 10, 11, 12, 11 y 12. Solución. La moda es la nota 11, porque existen 4 niños que obtuvieron la nota de 11 y es la mayor cantidad que los demás notas. EJEMPLO. Se realiza una encuesta en el estudiantado de la Universidad, con referencia a la actitud (excelente (E), bueno (B), Regular (R), Deficiente (D)) de los estudiantes con respecto a sus profesores cuyos resultados son: R, D, E, B, D, B, B, D, D, D, R, R, E, R, D, D, R, D, R, D Solución. La moda es la letra “D”, porque, del encuestado se ha obtenido mayor cantidad de estudiantes que manifiestan que son deficientes la actitud de estudiante frente a sus profesores. b) Moda para datos de cantidades grandes y agrupadas. Para calcular la moda de n datos tabulados en k intervalos, se ubica al intervalo que tiene mayor frecuencia (intervalo modal). Luego se utiliza la formula.

 D1   Ai ; donde: Mo = Li    D1  D2 

D1= ni – ni-1. D2= ni – ni+1.

EJEMPLO. Sobre el estudio inicial del puntaje de ingresos a la Universidad Nac. De Hvca.

46

C. Quintanilla C. / A. Cortavarria L.

Solución Ubicamos el intervalo con mayor frecuencia absoluta, y es el I5 , donde n5 = 14. Luego se tiene: i 1 2 3 4 5 6 7 8 9 10

 Li – Ls   26  33  40  47  54  61  68  75  82  89

– 33  – 40  – 47  – 54  – 61  – 68  – 75  – 82  – 89  – 96 

Yi.

Fr. Abs (ni). 4 7 6 10 14 10 13 9 3 4 80

29,5 36,5 43,5 50,5 57,5 64,5 71,5 78,5 85,5 92,5

ni-1 = 10

ni = 14 ni+1 = 10

Li = 54

Reemplazando las diferencias D1= ni – ni-1. D2= ni – ni+1. D1= 14 – 10 = 4.

D2= 14 – 10 = 4.

Reemplazando en la ecuación,

 4  Mo = 54   7  4 4

Mo = 57,5

Importante. La formula de la moda sólo es aplicable en distribuciones con una sola frecuencia máxima.

A TRABAJAR CON EL SPPS. Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las figuras o abrir el archivo anterior. Ingresar los datos de los resultados del examen de admisión en la columna respectiva.

47

Estadística Aplicada a la Investigación Científica

Hacer clic en Análisis  Estadística Descriptiva y  Frecuencias….

Elegir la variable (puntajes de Admisión) y enviar a variables Luego pulsar Estadísticos.

en

Elegir las opciones que desea obtener (Media, mediana y moda). Elegir las medidas de dispersión. Y otros medidas que desea conocer. Finalmente pulsar Continuar.

Histograma

PUNTUACIONES DE EXAMEN DE ADMISIÓN N Válidos 80 Perdidos 0 Media 60,49 60,00 49(a) 16,036 257,139 65 28

Rango Mínimo Máximo Percentiles

8

Frecuencia

Mediana Moda Desv. típ. Varianza

10

6

4

2

93 25 50 75

49,00 60,00 72,00

Media =60,49 Desviación típica =16, 036 N =80

0 20

40

60

80

100

PUNTUACIONES DE EXAMEN DE ADMISIÓN

a Existen varias modas. Se mostrará el menor de los valores.

2

C. Quintanilla C. / A. Cortavarria L.

Observación.

Que la media es 60,49, lógicamente defiere de nuestra media que encontramos y es de 60,65. ¿Donde esta el error?. No existe error, lo que pasa es que la media que realizamos fue en un conjunto de datos sometidos a tablas de frecuencia y lógicamente se tiende a perder información. En cambio la máquina (SPSS), ha realizado operación sin intervalos y cuyo resultado es ese valor de 60,49. Por dicha razón se recomienda que no deba hacerse abuso del uso de las tablas de frecuencia.

MEDIDAS DE DISPERSIÓN Cuando las medidas de Posición no son suficientes para describir un conjunto de valores de alguna variable estadística, los promedios determinan el centro, pero no indican las dispersión o como están situados los datos respecto al centro. Las Medidas de dispersión o variabilidad son números que miden el grado de separación de los datos con respecto a un valor central, que generalmente es la media aritmética. Las principales medidas de dispersión son:  El rango o recorrido.  El recorrido intercuartílico.  La varianza.  La desviación estándar o desviación típica.  El coeficiente de variación. Por la naturaleza del curso, solamente las tres últimas desarrollaremos. 3.4.

VARIANZA

La varianza, es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa con respecto a su media aritmética. La varianza es pequeña, si el valor de las variables se concentra al alrededor de la media. En cambio, el valor de la varianza es grande si los valores de las variables se encuentran alejados del valor de la media. La varianza muestral se denota por sˆ2 y la varianza poblacional se denota por  2 , cuyas unidades de medidas se expresan en unidades de medición al cuadrado (m2, kg2, s/2, .. etc.). DEFINICIÓN. La varianza o variancia de una población finita de N elementos, se define como la media aritmética del cuadrado de las desviaciones de las observaciones con respecto a su media , y cuya ecuación es: N

2 

(x  ) i 1

2

i

N

DEFINICIÓN. La varianza o variancia de una población finita de n elementos de una variable X, se define media aritmética del cuadrado de las desviaciones de las observaciones con respecto a su media. Denotamos: n

s2 

 ( xi  x )2 i 1

n

k

s2 

 n (x  x) i 1

i

i

n

2

Estadística Aplicada a la Investigación Científica

3

Sin embargo, ésta sería un estimador sesgado de las varianza poblacional  2 , además da la impresión de que es la misma formula en la muestra y en la población. Es cierto, pero las medias x y  difieren y que raras veces pueden coincidir; Bessel realiza una corrección, luego la ecuación para la muestra es: n

sˆ 2 

(x  x) i 1

 n (x  x) i 1

Para datos no agrupados.

n 1

k

sˆ 2 

2

i

i

2

i

n 1

Para datos agrupados en k intervalos.

Realmente, estas ecuaciones si son estimadores insesgado de la varianza poblacional  (revisar en estimación puntual de parámetros) , por lo que trabajaremos con dicha ecuación. 2

Propiedades: i)

La varianza de un conjunto de observaciones x1 , x2 , x3 , . . . xn siempre es un número no negativo. V(x)  0

ii)

La varianza de una constante es cero (0). Significa que si las observaciones x1 = x2 = x3 = . . .= xn = b constante, entonces: V(b) = 0

iii)

Si a cada observación x1 , x2 , x3 , . . . xn se le adiciona una constante b > 0, la nueva varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = xi  b, coincide con el valor inicial. Por la propiedad ii). V(y) = V(x  b)  V(y) = V(x) V( b)  V(y) = V(x) 0. Por tanto, V(y) = V(x)

iv)

Si a cada observación x1 , x2 , x3 , . . . xn se le multiplica una constante b > 0, la nueva varianza del nuevo conjunto de valores y1 , y2 , y3 , . . . yn donde yi = axi, es igual a la varianza original multiplicado por el cuadrado de la constante. 2 V(y) = V(ax)  V(y) = a V(x)

v)

De las propiedades iii) y iv) se tiene: encontramos: porque V(b) = 0 V(y) = a2 V(x)

V(y) = V(ax  b),

luego desarrollando

4

C. Quintanilla C. / A. Cortavarria L.

EJEMPLO Sobre el trabajo de investigación de las puntuaciones de los ingresantes a la UNH. Hallar su varianza. Se sabe que la media es x = 60,65.

SOLUCIÓN. (ni)(y – y )2

 Li – Ls 

Yi

1

 26 – 33

29.5

4

790,3225

3 881,29

2

 33 – 40

36.5

7

583,2225

4 082,5575

3

 40 – 47

43.5

6

294,1225

1 764,7350

4

 47 – 54

50.5

10

103,0225

1 030,2250

5

 54 – 61

57.5

14

9,9225

138,9150

6

 61 – 68

64.5

10

14,8225

148,2250

7

 68 – 75

71.5

13

117,7225

1 530,3925

8

 75 – 82

78.5

9

318,6225

2 867,6025

9

 82 – 89

85.5

3

617,5225

1 852,5675

10

 89 – 96

92.5

4

1 014,4225

4 057,69

Como la suma de

(ni)(y – y )2 = 21354,2 la varianza es:

sˆ2 

(yi – y )2

i.

21354,2 = 270,306329 80  1

 sˆ2 = 270,30633

Frec.Abs.(ni)

n = 80

21 354,2

EJEMPLO. El Sindicato de Docentes del Magisterio peruano, mediante su reclamo logra obtener unos aumentos. Hasta antes realizar su pedido, el promedio de haberes de todo el magisterio era de s/.1150 nuevos soles y una varianza de S/.90 al cuadrado. El incremento obtenido fue de 20%, además una bonificación de S/. 100 nuevos soles por dedicación a la institución educativa. i) Después del reclamo ¿cuanto equivale el nuevo promedio?. ii) ¿Cuanto equivale el nuevo aumento más la bonificación?. iii) ¿Cuanto equivale la nueva varianza?. SOLUCIÓN. Sea el incremento el 20% de haber, entonces la ecuación es: y = ax + b  y = 0,2x + x + b luego la ecuación es:

y = 1.2x + b

i) Hallando la nueva media. M(y) = M(1.2x)  M(y) = 1,2M(x) . Prop.

Estadística Aplicada a la Investigación Científica

5

M(y) = 1,2(1 150) = 1 380. ii) Hallar media + la bonificación. M(y) = 1,2M(x) +M( b) M(y) = 1,2(1 150) +100  M(y) = 1480. iii) La nueva varianza: V(y) = V(1.2x + b)  V(y) = 1,22 V(x) +V( b) V(y) = 1,22 (90) +0  V(y) = 129,6. 3.5.

DESVIACIÓN ESTANDAR.

La desviación típica cuantifica el error que cometemos si representamos una muestra únicamente por su media. n

sˆ 

(x  x) i 1

n 1

k

sˆ 

n (y i 1

2

i

i

i

para datos no agrupados.

 y) 2

n 1

para datos agrupados en k intervalos.

Del EJEMPLO anterior sobre los puntajes de ingresantes a la UNH, se tiene: La varianza: sˆ2 = 270,30633 Luego la desviación típica es: sˆ  270,3063291 = 3.6.

16,44099538 .

COEFICIENTES DE VARIACIÓN

Las medidas de dispersión anteriores dependen de las unidades de medida, el coeficiente de variación es en cambio, una unidad de medida de dispersión relativa (adimensional).

CV 

Sˆ 100 x

Con el mismo ejercicio anterior tenemos:

CV 

16,441 100 = 27,12%. 60,65

Nota La obtención de las medidas de posición se ha detallado sus procedimientos con el SPSS, y se deja al lector seguir los pasos para encontrar la varianza y desviación estándar.

6

C. Quintanilla C. / A. Cortavarria L. A TRABAJAR CON EL SPPS.

Para usar la herramienta del SPSS, ingrese los datos en la primera columna, como se ha realizado las operaciones anteriores. Luego ingresar a Análisis, como se muestran las figuras. Hacer clic en Análisis  Estadística Descriptiva y  Frecuencias….

Elegir la variable (puntajes de Admisión) y enviar a variables Luego pulsar Estadísticos.

en

Elegir las opciones que desea obtener (Media, mediana y moda). Elegir las medidas de dispersión. Y otros medidas que desea conocer. Finalmente pulsar Continuar. Histograma

PUNTUACIONES DE EXAMEN DE ADMISIÓN N Válidos 80 Perdidos 0 Media 60,49 60,00 49(a) 16,036

Varianza

257,139 65 28

Rango Mínimo Máximo Percentiles

8

Frecuencia

Mediana Moda Desv. típ.

10

6

4

2

93 25 50

49,00 60,00

75

72,00

Media =60,49 Desviación típica =16, 036 N =80

0 20

40

60

80

PUNTUACIONES DE EXAMEN DE ADMISIÓN

100

2

C. Quintanilla C. / A. Cortavarria L.

EJERCICIOS. 1. Dos fabricantes de productos educativos “XY” anuncian que la vida promedio de sus productos es de 7 años, utilizándolas en condiciones normales en un laboratorio. Para ello, la UNH que desea adquirir, realiza una encuesta para determinar si es afirmativo la propuesta de los fabricantes, cuyo resultado son: FABRICANTE A: 8, 7, 5, 6, 7, 8, 5, 7, 6, 5, 9, 7, 8, 9, 6, 7, 9, 6, 7, 8 FABRICANTE B: 4, 5, 2, 3, 9, 7, 9, 7, 5, 7, 6, 6, 7, 8, 9, 8, 9, 6, 7, 7, 5. a. ¿Cuál vida promedio señaló cada fabricante?. b. Cuál de los materiales educativos representaría mejor duración. c. ¿Cuál de los fabricantes ofrece mejor homogenidad con respecto a la duración?. 2. La media mínima para aprobar el curso de Estadística Bayesiana es de 12 puntos. El estudiante presenta las notas de 12, 13, 11, 9, 8, 11, 10, 12 y 15. Si el alumno no aprueba, cuantos puntos se debe agregar a cada examen para aprobar?. Hallar la nueva varianza. 3. Se tiene los ponderados acumulados durante los cuatro 6 primeros ciclos de 50 estudiantes, tal como se muestra: 80 71 41 94 60 a. b. c. d. e.

57 74 65 84 77

65 52 33 85 35

81 50 35 64 74

47 54 68 45 77

53 59 73 55 91

41 61 55 78 48

69 85 67 39 60

76 89 88 94 65

42 73 66 66 98

Construir la tabla de frecuencia. Graficar ni, Ni, hi, y Hi. Hallar la media, mediana y moda. Hallar la varianza, desviación típica y coeficiente de variación. Hallar el Q1, Q3, D4, D8, C25, y M750.

4. Se tiene la siguiente tabla de frecuencias relativas respecto a 300 estudiantes de las especialidades de Matemática – Física y Historia y Ciencias Sociales, cuya distribución se encuentra de acuerdo a la edad. EDADES

hi

a. b. c. d.

18 - 21 0.15

21 - 24 0.25

24 - 27 0.35

27 - 30 0.15

30 - 33 0.10

Hallar la media, mediana y moda de las edades. Hallar la varianza, desviación típica y coeficiente de variación de las edades. Hallar el Q1, Q3, D4, D8, C25, y M750. A partir de que edad es el cuartel superior, y cuantos los conforman.

5. Dada la siguiente tabla de frecuencia incompleta sobre los diámetros de los lápices que utilizan los estudiantes, cuyas medidas generaron una media de 0,61. EDADES

0,20 – 0,40

0,40 – 0,60

0,60 – 0,80

0,80 – 1,00

hi

0.15

0.25

0.40

0.20

a. Completar la tabla de frecuencia y hallar la mediana y moda. b. Hallar la varianza, desviación típica y coeficiente de variación.

3

Estadística Aplicada a la Investigación Científica 6. Se tiene una muestra de los salarios de los docentes que trabajan en el sector educación: 560 608 655 668 698 684 658 729 733 679

613 575 727 613 648 712 608 733 749 569

57 3 613 654 697 665 725 658 733 682 676

775 557 614 765 656 583 805 753 592 620

626 376 685 727 658 733 667 759 693 650

750 622 738 576 763 554 809 744 555 756

635 696 659 754 655 732 681 666 677 623

551 675 628 682 793 557 680 652 635 587

643 686 757 819 650 814 668 736 673 636

604 593 802 647 643 560 718 653 634 598

a. Hallar la media, mediana y moda. b. Hallar el Q1, Q3, D5, D7, C25, y M750. c. Hallar la varianza, desviación típica y coeficiente de variación 7. En las últimas luchas reivindicativas se ha logrado un aumento, con las siguientes propuestas: PRIMERO: un aumento de 10% y una bonificación de S/.50 nuevos soles. SEGUNDO: un aumento de 106 nuevos soles. d. ¿Cuál de las propuestas debería de tomar como mejor alternativa, para el magisterio?. e. ¿Cuál de las alternativas no le conviene al Gobierno?. f. Si el Magisterio consta de 250 000 profesores, ¿Cuánto debe el Estado prever para los pagos después del aumento?. g. Hallar la media y la varianza después del aumento. 8. En la Especialidad de Matemática-Física son matriculados en el curso de Topología General, 24 estudiantes llevan el curso por primera vez, 6 llevan por segunda vez y 2 por tercera vez. Se sabe que 12 es el promedio de notas de los que llevan por primera vez y las notas de los que llevan por segunda vez en promedio es superior en un 15% de los que llevan por primera vez. calcular el promedio de notas de los que llevan el curso por tercera vez si la suma total de las notas es de 410. 9. En una prueba de inteligencia en un área rural se obtuvo los puntajes. La tabla incompleta se encuentra por error de la secretaria del Profesor Shara, que ahora requiere completar con los datos existentes. ( n = 50, cj = 20 puntos) k 1 2 3 4 5 a. b. c. d.

li

-

ls Yi

ni 10

Ni

23

Yi.ni. 300 400 350

17 110

1 100

Hallar la media, mediana y moda. Hallar el Q1, Q3, D2, D7.5, C25, y M750. Hallar la varianza, desviación típica y coeficiente de variación. ¿Cuántos estudiantes alcanzaron puntajes entre la media y la mediana?

10. La siguiente información ha sido obtenida de la secretaria de la FED y corresponde a los resultados de la evaluación realizada a los profesores en el año 2003.

4

C. Quintanilla C. / A. Cortavarria L. B D A A A

B A A B A

C D A D C

B B A A D

C A E A E

B A A B A

A C C E A

B A D D B

B A E A A

A C B B B

B A C A A

a. Hallar la moda. Si existe una escala de calificación como se muestra: CALIFICACIÓN E D C 0 a 04

ESCALA

04 a 08

08 a 12

D A C B C

B C E D D

B

B B A C A

A

12 a 16

16 a 20

b. Hallar la media, la mediana. c. La media encontrada convertir a la escala de cualidad y explicar el fenómeno. 11. Un estudiante de historia realiza estudio sobre número de hijos que tienen las familias de Huancavelica, luego se obtuvo en 96 familias los siguientes datos: 2 4 4 5 3 1 5 3

0 3 5 8 6 7 3 1

5 3 6 4 2 5 9 5

8 9 6 10 8 7 12 3

9 3 5 6 4 7 1 8

2 0 1 8 9 5 8 5

5 4 3 6 7 5 13 9

6 4 7 7 8 6 9 0

1 8 7 3 5 9 8 4

6 2 5 8 2 6 3 3

11 3 9 8 5 8 7 6

6 8 5 8 9 6 5 2

Fuente: Encuesta 2004 – Huancavelica, Historia y CC SS. UNH.

a. Hallar la media, mediana y moda. b. Hallar la varianza, desviación típica y coeficiente de variación. 12. En la Universidad Nacional de Huancavelica, el coeficiente de variación de sus 250 profesores es de 50%. Se realiza un reajuste de sueldos de acuerdo a Ley, todos los sueldos en S/. 1100 nuevos soles, ahora con un C.V. de 40%. Sin embargo la Universidad con una nueva política fija un sueldo mínimo de S/.3500 nuevos soles. Antes del reajuste habían 10 personas que ganaban S/.3000 en promedio y todos ellos ganaban menos de S/. 3200. Determinar la cantidad de dinero necesario para cubrir la mensualidad por parte de la Universidad luego del reajuste. 13. Una empresa aseguradora para S/ 30,000 en caso de accidente de carro y cobra una tasa de S/. 1,000. se sabe que la probabilidad de que un carro sufra un accidente en una determinada localidad es de 3%. Si se sabe que hay 100 carros asegurados, ¿Cuánto espera ganar por cada carro la aseguradora?. Rp. S/. 100. por c/u. 14. Sea X una variable aleatoria con función de densidad de probabilidad;

2x  ,.....0  x  3 f( x) 9 Cero en otros caso.  0.... Calcular la media: E ( x) 







xf ( x )dx .

Estadística Aplicada a la Investigación Científica

5

CAPITULO III

DOCIMASIA DE HIPÓTESIS Ideas básicas. En muchas situaciones estamos interesados en tomar una decisión de aceptar o rechazar una determinada afirmación basándonos en un conjunto de evidencias. Un ejemplo común es el caso en que un individuo esta siendo juzgado por un determinado delito. Con base en las evidencias (testimonios, fotografías, etc,), el Juez tendrá que determinar si es culpable o inocente el individuo. Podemos, entonces concluir que el Juez formula dos hipótesis: “HO : el individuo es inocente” y la alternativa “H A : el individuo es culpable. Con base a las evidencias presentadas, el Juez puede estar cometiendo un error, pues a pesar de las evidencias el individuo puede ser inocente. El mismo se daría a la aceptación de la Hipótesis Nula como verdadera. En ese caso, el Juez estaría considerando como inocente a un individuo culpable. Un problema más próximo del área de atención de la estadística ( a pesar de que la estadística a sido utilizada para resolver problemas jurídicos), es el problema de decidir sobre la eficacia o no de una cierta vacuna utilizada en el combate a una determinada enfermedad. Los investigadores formulan las hipótesis: H0 : La vacuna no es eficiente. HA : La vacuna es eficiente, En ese caso, un experimento es planeado en un grupo posiblemente grande de personas seleccionadas al azar recibe vacuna y el resto recibe una sustancia inócua. Con base en los resultados de ese experimento, los investigadores entonces decidirán por H 0 y HA . Nuevamente no está descartada los errores que hayan cometidos al considerarse, por ejemplo la vacuna eficiente ( que la H0 es falsa) cuando en realidad esta no es o es ( que la H0 es verdadera ), esto sería bastante perjudicial para la población. El estadístico involucrado en la investigación debe procurar utilizar técnicas que tengan una mínima probabilidad de cometer error. En este capítulo, el objetivo de la inferencia estadística se utilizará para probar la validez de una afirmación acerca del valor del parámetro de la población. La afirmación expresada generalmente se llama “Hipótesis”, a estos métodos se les denominan pruebas de hipótesis, contraste de hipótesis o docimasia de hipótesis. 3.1. HIPÓTESIS ESTADÍSTICA. Obviamente una hipótesis tautológica no requiere ninguna comprobación estadística, por EJEMPLO: “El viajará mañana o no”, no es ni falso ni cierto. En general, una hipótesis

6

C. Quintanilla C. / A. Cortavarria L.

es una explicación propuesta que puede o no ser cierta, por EJEMPLO: Shara me quiere, está afirmación puede ser cierta o falsa. Una hipótesis estadística es una afirmación cuantitativa acerca de una población. DEFINICIÓN. Llamamos hipótesis estadística a cualquier afirmación acerca de la distribución de probabilidades de una o más variables aleatorias. Denotamos por H0 (hipótesis Nula) la hipótesis de interés. En el caso que H 0 sea rechazada, aceptamos como verdadera la hipótesis alterna H1. 3.2. HIPÓTESIS NULA Y HIPÓTESIS ALTERNA DEFINICIÓN. Se llama hipótesis nula (H0 ), a la hipótesis que inicialmente es aceptada provisionalmente como verdadera y cuya validez será sometida a la comprobación experimental. Una vez ejecutado la parte experimental nos permitirá aceptarla o rechazarla. Nota:

Habitualmente la hipótesis alternativa representa la creencia que el investigador quiere probar.

DEFINICIÓN. Se llama hipótesis alterna (H1 o HA ), a la hipótesis que se acepta en caso de que la hipótesis nula haya sido rechazado. Su planteamiento es contrario a la hipótesis nula. El ejemplo nos muestra lo opuesto que son H0 y H1 , si se considera que es 0 el valor del parámetro  de una población cuya distribución se supone conocida, entonces las afirmaciones son: a. H0 :  = 0

y

H1 :   0 .

b. H0 :  = 0

y

H1 :  > 0 .

c. H0 :  = 0

y

H1 :  < 0 .

EJEMPLOS: Hipótesis científica Ho: El promedio promocional en la asignatura de estadística a final de cada ciclo es de 12,5. HA: El promedio promocional en la asignatura de estadística a final de cada ciclo es diferente a 12,5. Ho: En la enseñanza de Análisis Matemático asistido con software matemático, el rendimiento académico por los alumnos alcanza un promedio de 13. HA: En la enseñanza de Análisis Matemático asistido con software matemático, el rendimiento académico por los alumnos alcanza por lo menos un promedio de 13. Ho: Por lo menos el 90% de los estudiantes de tiempo completo usarán la biblioteca durante la semana de exámenes finales. HA: A lo menos el 90% de los estudiantes de tiempo completo usarán la biblioteca durante la semana de exámenes finales.

Hipótesis Estadística H0 :  =12,5. HA :   12,5

H0 :   13. HA :  >13.

H0 :   0,9. HA :  < 0,9.

7

Estadística Aplicada a la Investigación Científica

3.3. PRUEBA DE UNA HIPÓTESIS ESTADÍSTICA Para tomar decisiones estadísticas, se requieren dos hipótesis: Hipótesis nula y la Hipótesis alterna referidas a un parámetro  . La hipótesis nula H0 es la primera hipótesis que se plantea de manera que debe especificar el valor 0 del parámetro  en estudio. Por esta razón, algunos autores plantean las hipótesis nula H0:  = 0 y ésta debe de ser probado. Prueba de hipótesis nula H0 contra hipótesis alterna H1. Hipótesis Nula

Hipótesis Alterna

Direccionalidad Prueba bilateral de dos colas.

H0 :  E = 0

vs

H1 :  E  0 . 1   2

 2 0

Prueba unilateral de cola a la derecha. H0 :  E = 0

vs

H1 :  E > 0 . 1 

Prueba unilateral de cola a la izquierda. H0 :  E = 0

vs

H1 :  E < 0 . 1 

DEFINICIÓN. Se denomina nivel de significación de una prueba de hipótesis a la probabilidad de cometer un error de tipo I (probabilidad :  ). Verdadero

Ho Verdadera

Ho Falsa

Aceptar Ho.

Decisión correcta Probab: (1 – ).

Error tipo II. Aceptar Ho cuando en realidad es falso. Probab: .

Rechazar Ho.

Error tipo I. Rechazar Ho cuando en realidad es verdadero. Probab: .

Decisión correcta Probab: (1 – ).

Decisión

8

C. Quintanilla C. / A. Cortavarria L.

NIVEL DE SIGNFICANCIA.

El nivel de significación es fijado por el investigador, generalmente es  = 0.05 (5%), pero también se considera los valores  = 0.01 (1%) o  = 0.1 (10%). Es convencional usar el nivel de significancia del 5% en caso de investigaciones cuasiexperimentales y educativos donde es poco difícil controlar las variables; mientras que en un laboratorio es al 1%, donde se realiza el experimento con mayor precisión. IMPORTANTE:

Las pruebas de hipótesis sólo proporcionan evidencias evaluables y no razones absolutas o finales para la aceptación o rechazo de la hipótesis.

3.4. PRUEBAS DE HIPÓTESIS PARAMETRICAS. ¿Porque se denomina pruebas paramétricas?, es cuando se realiza una prueba de hipótesis y se conoce los supuestos medias (1 2 …) poblacionales, supuestas varianzas (  12 ,  22 …) poblacionales; es decir si se conoce los parámetros de la población. Además, no solamente sus media ni varianzas, sino dependiendo que parámetro que se tenga que probar, de la distribución de la población cuya función de densidad es f(x;). Cabe aclarar, cuando se realiza un trabajo de investigación generalmente no se conoce el tipo de distribución de la población de donde se extrae la muestra, tampoco sus parámetros de dicha población, pero lo asumimos los supuestos parámetros y tipo de distribución de la población como si fuese normal o aproximadamente normal y cometemos el craso error de utilizar estadísticos que no son correctos o adecuados para dicho tratamiento; por lo que se sugiere al investigador tener cuidado en el uso de los estadísticos. a. La distribución de la población es normal o aproximadamente normal. Se determina comparando , Me y Mo y la diferencia a lo más debe ser un punto. b. Poblaciones con varianzas homogéneas (homocedasticidad o dispersión similar). c. La variable principal de estudio es numérica. d. Selección de muestra es aleatoria. 3.4.1. Pruebas de hipótesis con la distribución Z. Sin lugar a duda, el modelo de mayor uso de todas las distribuciones continuas es la distribución normal, denominado también distribución gaussiana “(atribuido a C.F. Gauss, quien hizo primero referencia allá por los años 1809 en relación a la teoría de errores de medidas físicas; sin embargo, ya había sido descubierto por Moivre en 1733 como la forma limitante a la binomial. También fue conocida por Laplace en 1774 pero por un error histórico a sido acreditada a Gauss)”3. Definición. Una función de densidad de una variable aleatoria X, tiene una distribución normal y cuyos parámetros son su media  y desviación típica . Su función de densidad de probabilidad es:

3

Maria josé Marques de Cantu. PROBABILIDAD Y ESTADISTICA, Edit. McGraw Hill – México 1990. pp. 137.

9

Estadística Aplicada a la Investigación Científica

1  x    

  1 f ( x)  e 2  2

2

>0.

–∞< x Regression ---> Linear … y aparece la figura de abajo, una vez terminada la operación hacer clic en OK Seleccionar como muestra el EJEMPLO.

en el resultado se muestra el coeficiente de correlación encontrado en el ejercicio, el valor de r de Pearson fue de 0,945. Model Summary Model

R

R Square

Adjusted R Square 1 ,945 ,893 ,886 a Predictors: (Constant), HABILIDAD MENTAL

Std. Error of the Estimate ,99508

También encontramos los valores de los coeficientes de la regresión lineal para completar la ecuación Yc = a + bX , donde el valor de a y b son 4,134 y 0,295 respectivamente Coefficients

Unstandardiz Standardized t ed Coefficients Coefficients Model B Std. Error Beta 1 (Constant) 4,134 ,984 4,202 HABILIDAD ,295 ,027 ,945 10,827 MENTAL a Dependent Variable: EXAMEN DE MATEMÁTICA

Sig.

,001 ,000

Además la correlación ya se ha resuelto automáticamente, se muestra en el cuadro precedente. Recordemos la Hipótesis: Ho:  = 0

VS.

HA:  ≠ 0

32

C. Quintanilla C. / A. Cortavarria L.

Probamos la t de Student cuyo resultado es t = 10,827. Coefficients Unstandardiz Standardized t ed Coefficients Coefficients Model B Std. Error Beta 1 (Constant) 4,134 ,984 4,202 HABILIDAD ,295 ,027 ,945 10,827 MENTAL a Dependent Variable: EXAMEN DE MATEMÁTICA

Sig.

,001 ,000

El valor de t = 10,827, encontrado en la prueba de hipótesis del EJEMPLO 1.

Si deseamos hallar la ecuación de la regresión lineal y el cuadro respectivo de las dispersiones con los datos se deberá seguir los siguiente pasos:  Ir a Graph ---> Interactive --->Scaterplot… y aparece el cuadro. Seleccionar la variable dependiente e independiente y OK

y aparece la figura

 

EXAMEN DE MATEMÁTICA

iii)

17,50

EXAMEN DE MATEMÁTICA = 4,13 + 0,30 * habelida  R-Square = 0,89  

15,00  

12,50

  





10,00



20,00

30,00

40,00

HABILIDAD MENTAL

Linear Regression

Hacer doble Clic y debe aparecer el cuadro de llamada.

Estadística Aplicada a la Investigación Científica

Elegir NO COLOR y OK

Finalmente aparece el resultado: La ecuación de la Regresión Lineal

La recta y los puntos de dispersión.

33

34

C. Quintanilla C. / A. Cortavarria L.

EJERCICIOS 1. En un reporte de investigación realizada en 100 personas, se obtiene la variable X que corresponde al número de litros de bebidas alcohólicas consumidas, y la variable Y corresponde al número de accidentes de automóviles por cada 100 personas que ingieren bebidas alcohólicas. X Y

2 8

3 10

4 12

5 18

6 20

7 22

8 25

9 28

10 30

a. Calcule la ecuación de regresión de X sobre Y. b. Calcule el coeficiente de correlación. c. Pruebe con una hipótesis la correlación. 2. Un investigador en el área de matemática de la UNH obtiene la siguiente información con respecto a horas de estudio (X) para prepararse para el examen de matemáticas, y obtener la calificación en dicho examen (Y). X Y

a. b. b. c.

1 2 2 3 3 3,5 4 4 4,5 8 10 12 12 16 14 16 12 14

4,5 5 5,5 5,5 6 16 18 16 18 20

Calcule la ecuación de regresión de X sobre Y. Trace la gráfica (diagrama de dispersión). Calcule el coeficiente de correlación. Pruebe con una hipótesis la correlación.

3. Un grupo de 8 estudiantes que se preparan para un examen de admisión se sometieron a una prueba de habilidad mental (X), luego relacionaron con los puntajes obtenidos (Y). el resultado se tiene en le recuadro. No. 1 2 3 4 5 6 7 8

Félix Víctor Julio Max Ofelia Abel Norma Gaby

Habilidad Mental (X). 6 10 15 20 25 30 35 40

Examen de Admisión (Y). 15 18 25 32 36 40 45 55

a. Calcule la ecuación de regresión de X sobre Y. b. Trace la gráfica (diagrama de dispersión). c. Calcule el coeficiente de correlación. d. Pruebe con una hipótesis la correlación. 4. Un estudiante de matemática desea ver si existe correlación entre las notas obtenidas en las asignaturas de letras y las asignaturas de matemáticas. Matemática Letras a.

12 13 10 14 12 18 16 14 12 11

11 13

16 15 14 15

12 16

12 12

15 14

Calcule la correlación entre ambas asignaturas.

b. ¿Existe regresión lineal, se puede hallar su ecuación?, explique.

5. Se toma una muestra de 30 estudiantes de la especialidad de matemática, y se realiza una relación entre peso y estatura, cuyo resultado se presenta.

35

Estadística Aplicada a la Investigación Científica Alumno.

Estatura (m)

Peso (kg)

Alumno.

Estatura (m)

Peso (kg)

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15

1,63 1,73 1,55 1,85 1,75 1,64 1,54 1,65 1,58 1,83 1,70 1,51 1,64 1,50 1,70

65 70 54 85 70 68 60 60 50 78 90 56 68 45 69

16 17 18 19 20 21 22 23 24 25 26 27 28 29 30

1,68 1,56 1,85 1,70 1,69 1,58 1,70 1,67 1,62 1,80 1,55 1,58 1,70 1,76 1,50

65 58 89 68 70 54 73 65 66 86 58 64 74 80 60

a. Trace la gráfica (diagrama de dispersión). b. Halle la ecuación de la regresión si existe c. Calcule el coeficiente de correlación y. d. Pruebe con una hipótesis la correlación.

36

C. Quintanilla C. / A. Cortavarria L.

3.6. PRUEBAS DE HIPÓTESIS NO PARAMETRICA. A diferencia de las pruebas de hipótesis paramétricas que tienen significancia y incluye una lista de prerrequisitos, así como están basados en supuestos de que las poblaciones están distribuidos normalmente con parámetros media y varianza. En las pruebas de hipótesis No paramétricas, no interesa el tipo de distribución de la población, ni sus parámetros (no se hacen suposiciones), apenas se suponen la independencia de los datos. Sin embargo las pruebas no paramétricas tiene algunas desventajas como las siguientes: i) Existe perdida de información. ii) La potencia de estas pruebas es menor que la potencia de las pruebas paramétricas. iii) Tienden a ser conservadoras; es decir, que tienden a conducir a la aceptación de la hipótesis nula con más frecuencia de lo que se debería. iv) Es menos confiable. Sin embargo, es un buen instrumento para realizar los trabajos mientras los datos son más pequeños. En general, es verdad que cuanto menos se suponga, tanto menos puede inferirse de un conjunto de observaciones; pero también es verdad que cuanto menos se suponga, tanto más se amplia la aplicabilidad de nuestro método. Las principales que tenemos son: -

U de Mann – Whitney (para 2 muestras independientes). T de Wilcoxon (para 2 muestras dependientes). H de Kruskal –Wallis (para “K” muestras independientes). ANOVA de Friedman (para “K” muestras dependientes). Chi cuadrada (para “1 sola muestra). Existen muchas otras pruebas más que el lector podría investigar, pero en el curso sólo tomaremos las pruebas estadísticas citadas.

3.6.1. Pruebas de Hipótesis con Chi – Cuadrada. Cuando se realiza un trabajo de investigación en educación, a menudo se presentan situaciones donde es necesario verificar la hipótesis de investigación, y la más conocida es la chi – cuadrada (2), y en su forma general se llama pruebas concernientes de diferencias de k proporciones. Presentamos los arreglos correspondientes MUESTRA 1 MUESTRA 2 … MUESTRA k

EXITOS x1. x2. … xk.

FRACASOS n1 – x1 n2 – x2 … nk – xk

La chi cuadrada se puede manejar en forma paramétrica y no paramétrica; para los fines de este libro nos restringiremos a la forma no paramétrica. La prueba Chi cuadrada relativa a frecuencias. Es un método útil para probar la hipótesis relacionado a la diferencia entre conjunto de frecuencias observadas en una muestra y el conjunto correspondiente de frecuencias teóricas o esperadas. La ecuación correspondiente del estadístico es:

37

Estadística Aplicada a la Investigación Científica

2 =

(Oi  Ei )2  E i Oi :

Frecuencia observada de realización de un acontecimiento determinado.

Ei :

Frecuencia esperada o teórica.

Es necesario tomar en cuenta el grado de libertad (r), y se obtiene de la tabla de contingencia r = (f – 1)(k – 1). Donde: f : número de filas. k : número de columnas. Dado el nivel de significancia  para r grados de libertad, en la tabla el valor c = (12  ),r que viene a ser el punto crítico de la prueba. Regla de decisión: Si 2(cal) > c, se rechaza la hipótesis nula Ho, caso contrario se aceptará la hipótesis nula Ho.

1-  c Región crítica

EJEMPLO. Un estudiante de Ciencias Sociales preocupado en las elecciones realiza un seguimiento. Un partido XK asegura que el 85% de la población está a su favor. Por lo que el estudiante obtiene una muestra aleatoria de 2 500 ciudadanos; de ellos 1800 favorecen al partido XK. A la luz de los resultados, determinar si es falso lo que aseguran los representantes de XK. Usar nivel de significancia 1%. SOLUCIÓN. Hipótesis. Ho : p = 0,85 HA : p < 0,85 Calculando las frecuencias esperadas. frecuencias Observada (Oi) Esperada (Ei)

Favorecen 2050 2125

Actitud No favorecen 450 375

Se afirma que el 85% de los ciudadanos favorecen a XK, entonces: E1 = (85%)(2500) = 2 125 E2 = (15%)(2500) = 375. o

2500 – 2125 = 375.

Total 2500 2500

38

C. Quintanilla C. / A. Cortavarria L.

Calculando 2 =  cal

(2050  2125)2 (450  375) 2 ,   2125 375

2 = 17,65.  cal

El valor crítico al 1%. Se tiene k = 2 filas y c = 2 columnas, entonces r = (2-1)(2-1) = 1, 2 luego (12  ),r =  (0,99), r 1 = 6,64. (ver tabla de Chi cuadrada).

2 Cuando se compara ambos valores, el  cal = 17,65 calculado es mayor que de la tabla. Por tanto, rechazamos Ho. De aquí podemos concluir No es cierto lo que afirma XK.

Importante:

cuando se tiene un solo grado de libertad se puede aplicar una prueba de distribución normal.

EJEMPLO. Resolver el ejemplo anterior aplicando la distribución normal. SOLUCIÓN. Hipótesis. Ho : p = 0,85 HA : p < 0,85 La proporción muestra para n = 2500 es:

P

2050  0,82  Q  0,18 2500

Calculando z.

z

z

P p ; sustituyendo en pq n 0,82  0,85 = - 4,20. (0,85)(0,15) 2500

Región crítica para  = 0,01. (1 – ) = 1 – 0,01 = 0,99. Además nuestra hipótesis tiene una sola cola y a la izquierda. Entonces Z1- = Z0,99 = 2,33. (ver tabla de distribución z).

39

Estadística Aplicada a la Investigación Científica

Decisión.

1 

º

- 2,33

zk = - 4,20

Región de rechazo

Como zk = - 4,20 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis alterna HA. Tal como se muestra en la figura. Se concluye que, lo que afirma XK no es cierto. EJEMPLO. Determinar con base en los datos muestrales obtenidos que se presentan en la tabla, si la proporción verdadera de compradores que favorecen el Plumón M sobre el Plumón N es la misma en las tres ciudades. Considerar  = 0,05 (5%.).

Ciudades Ayacucho Huancayo Tacna

Actitud Favorecen al Favorecen al plumón M plumón N 232 168 260 240 197 203 689 611

SOLUCIÓN. Hipótesis. Ho : pA = pH = pT HA : pA ; pH ; pT no son todas iguales. Hallando las frecuencias esperadas. E11 = (689)(400)/1300 = 212. E21 = (689)(500)/1300 = 265. E31 = (689)(400)/1300 = 212. E12 = (611)(400)/1300 = 188 E22 = (611)(5000)/1300 = 235 E32 = (611)(400)/1300 = 188

Total 400 500 400 1300

40

C. Quintanilla C. / A. Cortavarria L.

Ciudades Ayacucho Huancayo Tacna

Actitud Favorecen al Favorecen al plumón M plumón N 232 212 168 188 260 265 240 235 197 212 203 188 689 611 E11 =212 E21 =265 E31 =212



2 cal

Total 400 500 400 1300 E12 =188 E22 =235 E32 =188

(232  212)2 (260  265)2 (197  212)2 =    212 265 212

(168  188)2 (240  235)2 (203  188)2   188 235 188 2 = 6,4733.  cal

Región crítica para  = 0,05. Se tiene k = 3 filas y c = 2 columnas, entonces r = (3-1)(2-1) = 2, 2 luego (12  ),r =  (0,95), r 1 = 5,99. (ver tabla de Chi cuadrada).

2 Como el valor de  cal = 6,4733 es mayor que el valor crítico 5,99 se rechaza la hipótesis nula. Es decir, las proporciones verdaderas de compradores que favorecen el Plumón M sobre el Plumón N en las tres ciudades no son las mismas.

Estadística Aplicada a la Investigación Científica

41

A TRABAJAR CON EL SPSS. Se inicia aperturando una nueva hoja de trabajo. Rotular los nombres y Títulos. Hacer clic en Data View.

Ingresar en la columna fila los números 1, 2 y 3, que representan a Ayacucho, Hunacayo y Tacna. Ingresar en la columna (columna) la opción de actitud con 1 y 2, combinando fila y columna. Ingresar los valores de la tabla, fila y columna. (frecuencia Observada).

Hacer clic en Values en CIUDADES DE VENTA y registrar la codificación. Ingresar la codificación de las ciudades como se muestra el ejemplo

Hacer clic en Values en MARCA DE PLUMONES y registrar la codificación Ingresar la codificación de la marca de los plumones como se muestra el ejemplo. Finalizar OK.

Una vez realizado toda la operación ir al menú Data ---> Weight Case … (ponderar casos) y aparece el cuadro de diálogo

42

C. Quintanilla C. / A. Cortavarria L.

Seleccionar frecuencia Observada y hacer clic en Weight cases by, como muestra el ejemplo. Finalizar OK.

Iniciar en el menú Analyze ---> Descriptive Statistic y ---> Crosstab… Seleccionar Ciudades de venta (fila). Seleccionar Marca de plumones (columna). Finalizar OK.

Hacer clic en Statistic… .

Pulsar el botón Statistic… luego seleccionar Chi square y contingency Coefficient y Continue. Pulsar el botón Cells… luego seleccionar Expected (frecuencia esperada), y continue y finalmente OK. Se obtiene la tabla incluido las frecuencias esperadas. CIUDADES DE VENTAS * MARCA DE PLUMONES Crosstabulation CIUDADES DE VENTAS

MARCA DE PLUMONES PLUMON M PLUMON N

AYACUCHO HUANCAYO TACNA Total

Total

232

168

400

212,0

188,0

400,0

260

240

500

265,0

235,0

500,0

197

203

400

212,0

188,0

400,0

689 689,0

611 611,0

1300 1300,0

Chi-Square Tests Value

df

Asymp. Sig. (2-sided) ,039

Pearson 6,473 2 Chi-Square N of Valid Cases 1300 a 0 cells (,0%) have expected count less than 5. The minimum expected count is 188,00. Symmetric Measures Value Approx. Sig. Nominal by Contingency ,070 ,039 Nominal Coefficient N of Valid Cases 1300 a Not assuming the null hypothesis. b Using the asymptotic standard error assuming the null hypothesis.

Estadística Aplicada a la Investigación Científica

43

Corrección de yates. La corrección fue propuesta en 1934, haciendo que las frecuencias observadas (discretas) se aproximen a una distribución continua, solo en casos de tablas de 2x2. Consideramos que si puede usar cuando la muestra es pequeña n < 50 , o algunas o todas las frecuencias de las celdas son menores que 5 se puede aplicar el Chi cuadrado corregida por Yates. 2 =  cal

n(ad  bc)  0,5n (a  b)(c  d )(a  c)(b  d )

si la tabla es de 2x2. a c a+c

b d b+d

a+b c+d

Con respecto a la corrección de Yates para tablas de 2x2 existe controversia entre autores. Por EJEMPLO, citado por Wayne W. Daniel (1994; 483) “Grizzle, Lancaster, Pearzon, y Placket han cuestionado su uso. El trabajo de Grizzle, en particular, ha reforzado el caso en contra el uso de ésta corrección, basándose en que, con demasiada frecuencia, conduce a una prueba demasiada conservadora; es decir, el uso de la corrección conduce con demasiada frecuencia al no rechazo de la hipótesis nula” 6. En general se ha convenido no se requiere corrección para tablas de contingencia mas grandes.

3.6.2. Pruebas de Hipótesis de Wilcoxon Esta prueba sirve para realizar la prueba de hipótesis cuando se trabaja con un sólo grupo; en este caso cuando se tiene una prueba de entrada y salida en un solo grupo, cuyo diseño de investigación es O1

X

O2 .

O1: Pre test. X: Aplicación de la variable. O2: Post Test. DEFINICIÓN. La prueba T de Wilcoxon considera la magnitud relativa, así como la dirección de las diferencias y da mayor peso al par que muestra una diferencia grande entre las dos condiciones. Para encontrar la suma de sus rangos, es necesario tomar los valores de los rangos de las pruebas de entrada y salida. Y multiplicar con el valor de la diferencia entre las dos pruebas del individuo. EJEMPLO, Se tiene las calificaciones de examen de Trigonometría, en un solo sección, para verificar si causa efecto el uso de cierto método a un nivel de significancia de 5% se propone la siguiente hipótesis: que si influye el nuevo método. 6

Wayne W. Daniel. BIOESTADISTICA, Edit UTEHA, México – 1994.

44

C. Quintanilla C. / A. Cortavarria L.

No.

Calificación

Nombres

01 02 03 04 05 06 07 08 09 10 11 12

César Hugo Wilder Ofelia Máx. Víctor Rocío. Shara Abel. Marcelino Rufino Teobaldo.

Entrada

Salida

10 08 12 11 12 09 13 12 11 10 12 09

12 13 13 11 14 08 14 13 10 11 14 12

SOLUCIÓN. Hallando el rango de la diferencia, se ordena en forma ascendente los valores de la diferencia sin considerar los signos: Orden

1

2

3

4

5

6

7

8

9

10

11

Diferencia

1

1

+1

+1

+1

+1

+2

+2

+2

+3

+5

Rango i), ii), iii), …

3,5

3,5

3,5

3,5

3,5

3,5

8

8

8

10

11

i)

Cuando existe el valor CERO (0), ésta no se considera. En este caso la alumna Ofelia tiene nota de 11 en prueba de entrada y nota de 11 en prueba de salida, lo que genera cero (0) en la diferencia.

ii)

Para hallar los rangos de 1 y +1, se suma los ordenes que les correspondes y luego se divide entre la cantidad de ordenes.

1 2  3  4  5  6  3,5 . 6 Luego su rango de 1 y +1 es 3,5. iii)

Para hallar los rangos de 2 y +2, se suman sus ordenes que son 4 y 5

789  8 . Luego el rangos de 2 y +2 es 8. 3 iv)

Como 3 y 5 son únicos, se considera su único orden, que es 10 y 11 en cada uno de ellos.

v)

Finalmente el valor encontrado en la fila de Rango, se multiplica con la diferencia encontrada en la columna 5.

45

Estadística Aplicada a la Investigación Científica

No. Nombres

Calificación

Entrada Salida 01 César 10 12 02 Hugo 08 13 03 Wilder 12 13 04 Ofelia 11 11 05 Máx. 12 14 06 Víctor 09 08 07 Rocío. 13 14 08 Shara 12 13 09 Abel. 11 10 10 Marcelino 10 11 11 Rufino 12 14 12 Teobaldo. 09 12

Diferencia +2 +5 +1 0 +2 1 +1 +1 1 +1 +2 +3

Calificación de salida Se multiplica el valor menos de entrada.

Rango de la diferencia +16 +55 +3,5 +16 3,5 +3,5 +3,5 3,5 +3,5 +16 30 T() = 7

obtenido del rango y la diferencia

Regla de decisión. Para contrastar la hipótesis de investigación es necesario probar la hipótesis nula. a) Se elige el valor de , y dependiendo si la prueba es de una cola o de dos colas se utiliza la tabla T de Wilcoxon. b) si la hipótesis nula fuese verdadera, se esperaría que los rangos estuvieran igualmente divididos entre valores positivos y negativos y la suma de sus rangos sean aproximadamente iguales. c) Se busca la suma de T() y T(+) en la columna del rango de la diferencia, y se elige el menor para obtener TC  T . d) Si se obtiene el TC  T  respectivo, se rechaza la hipótesis nula, y se acepta la hipótesis alterna; es decir que son diferentes. Del ejemplo anterior, se tiene que T() = 7, y como se requiere información de que el método influye significativamente, luego como la hipótesis es de dos colas, entonces T;n = T0,05;n=11 = 11, para n = 11, porque existe un valor cuyo resultado es cero (0). Luego probando se tiene TC  T    -7 11 , el cual correcto. Por tanto, se rechaza la hipótesis nula, y se acepta la hipótesis alterna; es decir, el método tuvo efecto. IMPORTANTE. Cuando n > 25, no podemos usar la tabla T de Wilcoxon. Sin embargo como la muestra es suficientemente grande se aproximan a una distribución normal (Z). a) La ecuación de la distribución Z:

46

C. Quintanilla C. / A. Cortavarria L.

Z=

T  E (T )

T

, donde T es T() o T(+) que es el menor.

b) Luego hallemos la media (valor esperado). E(T) =

n(n  1) 4

c) La desviación típica.

T 

n(n  1)(2n  1) 24

d) Luego la decisión toma los valores críticos para Z en la tabla de distribución normal., dependiendo si son de dos colas o de una sola cola. El ejemplo anterior. Ahora, desarrollaremos con la distribución Z (esto ocurre cuando n > 25). Sin embargo, nuestra muestra es pequeña n = 11, y cuando el SPSS realiza la operación la prueba de Wilcoxon desarrolla a través de la distribución Z, demostraremos como se desarrolla. Hallando su media, para ello los valores que resulten cero (0) en la diferencia no se consideran, en nuestro caso en al tabla tenemos 12 alumnos, pero la Estudiante Ofelia no será considerado por resultar cero (0). e) La media (valor esperado). E(T) =

11(11  1)  33 4

f) La desviación típica.

T 

11(11  1)(2(11)  1)  11, 25 24

g) Luego se utiliza la distribución Z: Z=

7  33  2,31 , donde T es T() . 11, 25

Como se propone la hipótesis de investigación que si influye el nuevo método al 5% de nivel de significancia, verificamos que la hipótesis tiene dos colas, la influencia puede ser negativo o positivo. Como nuestra hipótesis de investigación dice DIFIERE, significa que tiene dos colas. Entonces se tiene que distribuir  = 0,05 en dos partes. /2 = 0,025 

1- /2 = 0,975.

Luego Z1-/2 = Z0,975 = 1,96. Este valor encontramos en la tabla de la distribución Z.

Estadística Aplicada a la Investigación Científica

47

Decisión:

1   2

 2 -1,96

Región de rechazo Ho

0 Región de aceptación

zk = -2,31

1,96 Región de rechazo Ho

Como zk = - 2,31 y pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho) y se acepta la hipótesis alterna HA tal como se muestra en la figura. Por tanto, la enseñanza de la trigonometría con el método desarrollado es significativa.

48

C. Quintanilla C. / A. Cortavarria L. AHORA A TRABAJAR CON EL SPPSS.

Aperturar una hoja de trabajo en el SPSS. En la hoja de Vista de Variables, rotular lo que corresponde como el EJEMPLO. Completado la operación, hacer clic en Vista de Datos. .

En la hoja de Vista de Datos, aparece los Rotulos de NOMBRES, ENTRADA Y SALIDA . Ingresar los Nombres de los estudiantes en la columna. . Ingresar las notas de entrada y salida respectivamente. .

Una vez culminado el ingreso de datos, para realizar el contraste de Wilcoxon y comprobar la hipótesis, si hay diferencia significativa entre los rangos medios de los variables: Prueba de entrada de los alumnos y su respectiva Prueba de salida. Elegir: Analizar  Pruebas no paramétricas  2 muestras relacionadas. Tal como se muestra en el cuadro de diálogo.

49

Estadística Aplicada a la Investigación Científica

Hacer clic y seleccionar prueba de entrada, y la prueba de salida. Debe aparecer en Selecciones actuales variable 1 y variable 2. Hacer clic en el botón, y aparece tal como se muestra el cuadro de diálogo. Finalmente pulsar el botón Aceptar.

NOTA:

Con éste cuadro de diálogo se pueden hallar otras dos pruebas no paramétricas. La de Signo y la de McNemar.

En el siguiente cuadro se muestra el resultado. Rangos

PRUEBA DE SALIDA – PRUEBA DE ENTRADA

Rangos negativos Rangos positivos Empates Total

N

Rango promedio

Suma de rangos

2(a)

3,50

7,00

9(b)

6,56

59,00

1(c) 12

a PRUEBA DE SALIDA < PRUEBA DE ENTRADA b PRUEBA DE SALIDA > PRUEBA DE ENTRADA c PRUEBA DE SALIDA = PRUEBA DE ENTRADA

Estadísticos de contraste(b) PRUEBA DE SALIDA PRUEBA DE ENTRADA Z

-2,358(a)

Sig. asintót. (bilateral)

,018

a Basado en los rangos negativos. b Prueba de los rangos con signo de Wilcoxon

El contraste Z = -2,358(a) p 0,018 indica que existe diferencia significativa entre la prueba de entrada y prueba de salida en la asignatura de Trigonometría utilizando el nuevo método. NOTA: es importante aclarar que el valor calculado de manera manual en el ejemplo 1 es zk = 2,31, y no concuerda con el valor de contraste Z = -2,358(a) calculado con el SPSS. La razón es sencilla, porque trabajamos con n = 12 y forzamos pese que la cantidad de datos es menor que 25 (n < 25). !!!!que facil¡¡¡¡¡¡¡¡.

50

C. Quintanilla C. / A. Cortavarria L.

3.6.3. Pruebas de Hipótesis con U de Mann Whitney. La prueba U de Mann Whitney se usa para probar que si dos grupos independientes han sido tomados de la misma población; es decir, se parte de que la hipótesis nula Ho pruebe que las medias son iguales (Ho : 1 = 2 ), contra la alternativa H1 que son diferentes (H1 : 1  2 , prueba bilateral), o la hipótesis alternativa H1 de que uno de las medias de un grupo es mayor que la del otro (caso unilateral). Ésta prueba constituye una alternativa más útil ante la prueba paramétrica t de student, cuando el investigador no puede suponer los parámetros de la población y la rigurosidad para la utilización de dicha prueba. Cuyo diseño de investigación puede ser de acuerdo al trabajo realizado I.

X:

Comparación estática o comparación de grupos sólo después

X

O1. O2.

Aplicación de la variable experimental. O1: Grupo que recibe el tratamiento. O2: Grupo que no recibe el tratamiento. X:

II.

GE: O1

Dos grupos equivalentes o con grupo control no equivalente (grupo control no aleatorizado)

GC: O3

III. Dos muestras separadas y aplicados con tratamientos distintos

X

O2. O4.

X1

O1.

X2

O2.

Aplicación de la variable experimental. O1 O3 : Observación de entrada a cada grupo en forma simultánea. O2 O4 : Observación de salida a cada grupo en forma simultánea. GE: Grupo Experimental. GC: Grupo Control X1: Aplicación de la Variable 1 al grupo 1. X2: Aplicación de la Variable 2 al grupo 2. O1 O2 : Observación de salida a cada grupo en forma simultánea e independiente.

La estadística de Mann Whitney se denota con U. El valor de U se basa en la suma de rangos de cualquiera de las dos muestras, y se define como el menor de los dos valores de U1 y U2 de acuerdo a las ecuaciones: U1 = T1 

n1 (n1  1) 2

U2 = T2 

n2 (n2  1) 2

Donde: T1 = suma de los rangos de la primera muestra. T2 = suma de los rangos de la segunda muestra. n1 = tamaño de la primera muestra. n2 = tamaño de la segunda muestra. Decisión. Para el nivel de significación  y los tamaños n1 y n2 de las muestras en la tabla de valores de la U de Man Whitney, se encuentra el valor crítico U . se rechaza la hipótesis nula Ho si ocurre Uc  U . No se rechaza caso contrario.

Estadística Aplicada a la Investigación Científica

51

Importante: Para n1 >8 y n2 >8, Mann Whitney a demostrado que la distribución U se aproxima a la distribución normal, con Media: U =

n1n2 2

Varianza:  U2 =

y

n1n2 (n1  n2  1) 12

Por lo que se puede determinar la distribución Z. Z=

U  u

aproximadamente N(0;1).

U

EJEMPLO. Una profesora de Educación Inicial, realiza un trabajo de investigación que consiste en alimentar a dos grupos niños con dietas nutritivas que permitan desarrollar tanto en el peso como en el rendimiento. Por esta vez, muestra solamente el resultado del incremento del peso después de 15 días. La alimentación fue administrada bajo condiciones idénticas.

DIETA 1

12,0 14,9 10,7 13,2 14,5 14,7 15,1 11,8 13,5 14,0 10,1 18,4 14,3 16,3 10,2 23,6

DIETA 2

12,0 18,9 19,2 15,4 15,3 15,8 21,3 20,7 19,6 18,8 14,8 20,1 23,8 21,1 16,2 13,9

Probar la hipótesis nula de que las dos dietas son idénticas contra la hipótesis alternativa que la dieta 2 produce un mayor aumento de peso que la dieta 1. Usar nivel de significancia del 1% ( = 0,01). SOLUCIÓN. i) Hipótesis. H0 : d1 = d2

La aplicación de las dietas 1 y 2 tienen igual resultado en la ganancia de pesos.

HA : d1 < d2

Con la aplicación de la dieta 1 la ganancia de pesos es menor que la ganancia de pesos que con la dieta 2.

ii) Hallando los rangos. Para hallar los rangos se ordena los pesos de mayor a menos, se les asigna el orden correlativo en el mismo orden ascendente. En caso de existir repetición de números se suman el rango que les corresponde y se divide entre el número de veces que se repite los pesos (variables).

52

C. Quintanilla C. / A. Cortavarria L. Peso 10,1 10,2 10,7 11,8 12 12 13,2 13,5

Rango 1 2 3 4 5,5 5,5 7 8

Peso 13,9 14 14,3 14,5 14,7 14,8 14,9 15,1

Rango 9 10 11 12 13 14 15 16

Peso 15,3 15,4 15,8 16,2 16,3 18,4 18,8 18,9

Rango 17 18 19 20 21 22 23 24

Peso 19,2 19,6 20,1 20,7 21,1 21,3 23,6 23,8

Rango 25 26 27 28 29 30 31 32

Dieta 1

peso rango peso rango

12 5,5 13,5 8

14,9 10,7 13,2 14,5 14,7 15 3 7 12 13 14 10,1 18,4 14,3 16,3 10 1 22 11 21 SUMA DE RANGOS DIETA 1

Dieta 2

Una vez encontrado el rango se le otorga a cada uno de los pesos de los grupos aplicados con las dietas 1 y 2.

peso rango peso rango

12 5,5 19,6 26

18,9 19,2 15,4 15,3 15,8 24 25 18 17 19 18,8 14,8 20,1 23,8 21,1 23 14 27 32 29 SUMA DE RANGOS DIETA 2

iii). Hallando la media: U =

U =

21,3 30 16,2 20

11,8 4 23,6 31 (T1) 20,7 28 13,9 9 (T2)

75,5 106 181,5

166,5 180 346,5

n1n2 2

(16)(16) = 128 2

Varianza:  U2 =

 U2 =

15,1 16 10,2 2

n1n2 (n1  n2  1) 12

(16)(16)(16  16  1) = 704. 12

iv). Región crítica para  = 0,0 (1%). Como nuestra hipótesis alterna de investigación dice La dieta 1 tiene menor ganancia de peso, significa que tiene una cola a la izquierda. Si  = 0,01 

1-  = 0,99.

Luego Z1- = Z0,99 = 2,33. Este valor encontramos en la tabla de la distribución Z. v). Estadística de contraste. Como se desea saber sobre la dieta 1, tomamos para U el valor de U1.

Estadística Aplicada a la Investigación Científica

U = U1 = T1 

53

n1 (n1  1) 2

U = U1 = 181,5 

16(16 1)  U = U1 = 45,5 2

Ahora, se puede determinar la distribución Z, para n1 y n2 mayores que 8. Zk = Zk =

U  u

U

.

45,5 128 = – 3, 11. 704

vi). Decisión.

1  - 2,33 Región de aceptación de Ho. Región de rechazo Ho zk = –3,11

Como Zk = – 3,11 pertenece a la región de rechazo, se rechaza la hipótesis nula (Ho), y se acepta la hipótesis alterna. Existe Es cierto que la dieta 2 mejora en la ganancia de pesos.

54

C. Quintanilla C. / A. Cortavarria L.

AHORA A TRABAJAR CON EL SPSS. Iniciar una nueva hoja de trabajo en el SPSS, luego iniciar con el ingreso de los datos. Ingresar los pesos de ambos de ambos grupos ordenadamente. Asignar los códigos de las dietas. Con el número 1 a la dieta 1 y con el número 2 a la dieta 2. Hacer clic en Variable View.

Renombrar con pesos y dietas

Poner los Títulos en Label luego hacer clic en la fila 2 y la columna de Value.

Mediante valores (values), asignamos a determinados valores de las variables. En este caso, con: 1 a la variable dieta 1 y con 2 a la variable dieta2, de forma que cuando trabajamos con ellos nos aparecerá dieta 1 y dieta 2; al realizar cada rotulo hacer clic en Add y finalmente OK.

Finalmente aparece el cuadro.

Hacer clic

Se visualiza el rotulado anterior

55

Estadística Aplicada a la Investigación Científica

Ahora hacer clic en Analyze ---> No parametrics Test -- -> 2 Independent Sample… Pasar al espacio la variable de los pesos ganados Pasar al espacio de Grouping Variable el rotulado de dietas.

Hacer clic en Define Groups.

Asignar los valores de 1 y 2, quienes representan a Dieta 1 y Dieta 2. Finalmente Continue.

El resultado es la que se tiene a la vista. Ranks PESOS GANADOS

DIETAS APLICADAS

N 16

Mean Rank 11,34

Sum of Ranks 181,50

DIETA 1 DIETA 2

16

21,66

346,50

Total

32

Test Statistics PESOS GANADOS Mann-Whitney U Wilcoxon W Z Asymp. Sig. (2-tailed) Exact Sig. [2*(1-tailed Sig.)]

a Not corrected for ties. b Grouping Variable: DIETAS APLICADAS

45,500 181,500 -3,110 ,002 ,001

56

C. Quintanilla C. / A. Cortavarria L.

Importante: ¿Que hubiese pasado si trabajásemos con la hipótesis alterna que diga que la dieta 2 mejora en peso?. La prueba sería con cola a la derecha, y se trabajaría n (n  1) con la ecuación para hallar U y se tiene que utilizar U2 = T2  2 2 , 2 aplicando a la ecuación se tendría el valor de U y se tiene que utilizar U2 = 210,5. Y finalmente la estadística de contraste es:

210,5 128 = 3, 11. Resultado positivo, en este caso se hubiese 704 rechazado la hipótesis nula y aceptado la hipótesis alterna, el investigador tiene que tener cuidado. Zk =

Pero el SPSS, ha trabajado con el U1 = 45,5. Por tanto la computadora solamente utiliza la primera opción por lo que se debe de tener cuidado al desarrollar los ejercicios.

Estadística Aplicada a la Investigación Científica

57

ANÁLISIS DE VARIANZA

3.6.4. Pruebas de Hipótesis de Kruskal Wallis. Es la generalización de la prueba de U de Mann Whitney. Esta prueba trabaja con tres o más muestras independientes con el objeto de probar la hipótesis nula Ho que las muestras provienen de poblaciones iguales, contra la hipótesis alterna H1 que las muestras provienen de poblaciones diferentes. Cuyo diseño de investigación se muestra y que pueden ser exactamente iguales o similares.

Más de dos muestras separadas y aplicados con tratamientos distintos (X1 , X2 , X3 , …)

X1

O1.

X2

O2.

X3 . . .

O3.

X1: Aplicación del Variable 1 al grupo 1. X2: Aplicación del Variable 2 al grupo 2. X3: Aplicación del Variable 3 al grupo 3 O1 O2 O3 . . . : Observación de salida a cada grupo en forma simultánea e independiente.

El método es similar con la prueba de la U de Mann Whitney; es decir, asignamos el rango a cada observación, considerando todas las muestras en conjunto; se asigna rango 1 a la menor observación, 2 al que sigue, 3 al siguiente y asi sucesivamente, luego se suman los rangos para cada grupo (muestra). Para calcular la prueba H es la ecuación:

Rk2 R12 R22 R32 12 (    ...  )  3(n  1) Hc = n(n  1) n1 n2 n3 nk Donde: n  n1  n2  n3  ...  nk , tamaño de la muestra

R1 = Suma de rangos asignados a las observaciones de la muestra 1.

....

R2 = Suma de rangos asignados a las observaciones de la muestra 2. R

Rk = Suma de los rangos asignados a los nk observaciones de la muestra k – ésima. Kruskal Wallis llegó a la conclusión de que si la hipótesis nula era verdadera, y si cada muestra tenía al menos cinco observaciones, el estadístico H tenía una distribución de probabilidad aproximada por la distribución 2 con (k – 1) grados de libertad.

58

C. Quintanilla C. / A. Cortavarria L.

Para la toma de decisión para contrastar la hipótesis nula Ho, es contrastar si HC   con un nivel de significación  especificado aceptamos Ho; en caso contrario rechazamos. 2 1

EJEMPLO Un profesor diseñó cuatro diferentes métodos para el aprestamiento a las matemáticas en Educación Inicial. Los alumnos de la sección fueron divididos en 4 grupos independientes, a cada grupo se le aplicaron diferentes métodos, al 5% de nivel de significancia se desea saber si tiene efecto la aplicación de los métodos; cuyo resultado de los ponderados se presenta en la tabla:

METODOS

PONDERADOS

OBTENIDOS

METODO A 18,7 15,3 14,3 15,0 15,8 18,1 17,6 METODO B 11,6 12,4 10,8 16,1 13,8 13,4 METODO C 14,5 16,0 14,8 14,0 16,3 10,8 METODO D 17,2 17,2 17,7 13,3 16,1

SOLUCIÓN. Ordenamos el total de las observaciones y luego asignamos rangos a cada observación en la muestra conjunta y en seguida obtenemos las sumas de rangos para cada muestra. La ordenación puede realizarse con la ayuda de EXCEL y otorgarle los rangos. METODO A Pond. Rango 14,3 9 15 12 15,3 13 15,8 14 17,6 21 18,1 23 18,7 24 R1 = 116

METODO B Pond. Rango 10,8 1,5 11,6 3 12,4 4 13,4 6 13,8 7 16,1 16,5

METODO C Pond. Rango 10,8 1,5 14 8 14,5 10 14,8 11 16 15 16,3 18

METODO D Pond. Rango 13,3 5 16,1 16,5 17,2 19,5 17,2 19,5 17,7 22

R2 = 38

R3 = 63,5

R4 = 82,5

Ho:

Los cuatro métodos tienen igual resultado en el aprestamiento a las matemáticas.

HA:

Los cuatro métodos tienen diferentes resultados en el aprestamiento a las matemáticas.

Calculando Hc de la ecuación.

Estadística Aplicada a la Investigación Científica

Hc =

R2 R2 R2 R2 12 ( 1  2  3  4 )  3(n  1) n(n  1) n1 n2 n3 n4

Hc =

12 1162 382 63,52 82,52 (    )  3(24  1) 24(24  1) 7 6 6 5

59

Hc = 8.93 Decisión: 2 Encontremos el valor de 12 =  0,95 con r = k – 1 grados de libertad.

2 Luego r = 4 –1 = 3, verificamos en la tabla y  0,95 = 7,82. 2 Como Hc = 8,93 >  0,95 = 7,82 rechazamos la hipótesis nula y concluimos que con la aplicación de los métodos de aprestamientos se obtienen diferentes ponderaciones; es decir, tuvo efecto la aplicación de los métodos.

60

C. Quintanilla C. / A. Cortavarria L.

AHORA A TRABAJAR CON EL SPSS. Se apertura el SPSS una de trabajo. Luego introducimos los ponderados en la primera columna por orden de Métodos. Empezar ingresando los ponderados de las notas de los métodos A, B, C y D Ingresar 1 para el método A, 2 para el método B, 3 para el método C y 4 para el método D. Hacer Clic

Escribir notas y métodos, luego en Label escribir los titulos:Resultado de Examen y Métodos Aplicados

Hacer Clic

Luego aparece. Se da etiqueta a los métodos: 1 significa Método A, 2 significa Método B, 3 significa Método C y 4 significa Método D. Cada vez que se introduzca la etiqueta pulsar la tecla Añadir (ADD). Para terminar OK.

Ahora ingresar a Analyze ---> Noparametric Test ---> K independent Samples …, luego aparece la ventana

61

Estadística Aplicada a la Investigación Científica

Las notas pasar Test Varible List y Métodos a Grouping Variable,

Seleccionar Grouping Varible, y hacer clic en Define Range…

Ingresar los valores de los métodos etiquetados que son desde 1 al 4, se considera e 1 y el 4. Pulsar continue y finalmente OK.

El resultado sale a la vista. Ranks RESULTADO DE EXAMEN

METODOS APLICADOS METODO A METODO B METODO C METODO D Total

N

Mean Rank

7 6 6 5 24

16,57 6,33 10,58 16,50

Test Statistics RESULTADO DE EXAMEN Chi-Square 8,937 df 3 Asymp. Sig. ,030 a Kruskal Wallis Test b Grouping Variable: METODOS APLICADOS

El resultado obtenido al calcular con la formula de Krsukal Wallis.

62

C. Quintanilla C. / A. Cortavarria L.

3.6.5. Pruebas de Hipótesis de Análisis de Varianza en dos direcciones por rangos de Friedman. Es cuando se desean comparar varias muestras o grupos de puntajes aparejadas (a cada puntaje de un grupo le corresponde otro puntaje del otro grupo o otros grupos; también suele llamar grupos o muestras dependientes o correlacionadas), el apareamiento puede ser obtenido relacionando conjuntos con sujetos en una o más variables previas y aleatoriamente asignando a cada elemento del conjunto pareado varias condiciones diferentes o, si los mismos sujetos son elementos de cada grupo a comprobar, entonces los conjuntos pareados resultan adecuados. Importante:

Su uso es cuando no se cumplen los requisitos básicos para el uso de las pruebas paramétricas; es decir los puntajes de dichos grupos no se distribuyen normalmente y no hay homogeneidad de las varianzas.

La hipótesis nula de para el procedimiento de Friedman es que los efectos atribuidos a los tratamientos son los mismos (no existe diferencias entre tratamientos) y la hipótesis alterna es que si existe una diferencia entre los tratamientos.

Bloques o

Tratamiento

Sujetos

1

2

...

j

...

k

1

Y11

Y12

...

Y1j

...

Y1k

2

Y21

Y22

...

Y2j

...

Y2k

...

...

...

...

...

...

...

n

Yn1

Yn2

...

Ynj

...

Ynk

Al igual que en los otros procedimientos no paramétricos, la prueba de Friedman se basa en los rangos; para cada bloque (renglón) se asigna un rango a las observaciones comenzando con 1 y terminando con k. La estadística de Friedman está dada por:

 r2 

12  k 2    R j   3n(k  1) nk (k  1)  j 1 

EJEMPLO 1. En una Institución Educativa de Educación Especial, se solicitó a 9 fisioterapeutas que clasificaran tres (03) modelos de estimuladores eléctricos de bajo voltaje según su preferencia. Un rango de 1 indica la primera preferencia, rango de 2 indica la segunda preferencia y rango de 3 indica la tercera preferencia. Los resultados se tienen en la tabla No. 01.

63

Estadística Aplicada a la Investigación Científica

Tabla No.01. Rangos asignados por fisioterapeutas a tres modelos de estimuladores eléctricos de bajo voltaje Terapeuta

MODELOS A

B

C

1

1

2

3

2

1

2

3

3

1

2

3

4

2

1

3

5

1

3

2

6

3

1

2

7

1

2

3

8

2

1

3

9

2

1

3

Rj

14

15

25

Solución. Ho: No existe preferencia por los modelos. (Después de sumar los rangos por cada grupo, si la hipótesis es verdadera estas sumas serán iguales). HA:

Existe preferencia por los modelos. (Como los rangos de preferencia están de acuerdo al orden de rango, existe la preferencia por los modelos no por iguales). Consideremos al 5% de nivel de significancia (=0,05). Pero como los datos se encuentran en la tabla de Friedman, no es necesario el nivel de significancia. Luego tomamos los valores r = 9 (número de reglones-Bloques); y de columnas-Tratamientos).

r2 

k = 3 (número

12 142  152  252   3(9)(3  1)  9(3)(3  1)

r2  8, 22222 En la Tabla V de Friedman, se puede contrastar para r = 9 (k=3), que la probabilidad de obtener un valor de r2 = 8,22222 tan grande debido solo al azar y que es igual a 0,016. Por tanto se rechaza la hipótesis nula y concluye que los tres modelos no son igualmente preferidos con =0,050,016. Nota. Cuando los valores de “r” (filas) y “k” (columnas) exceden los valores de la Tabla V se puede usar los valores críticos de la Tabla III (Chí cuadrada r2 ) con k – 1 grados de libertad.

64

C. Quintanilla C. / A. Cortavarria L.

AHORA A TRABAJAR CON EL SPSS. Se apertura el SPSS y una de trabajo. Luego introducimos los ponderados en la primera columna por orden de Métodos Ingresar: Terapeuta Modelo A, Modelo B, Modelo C. Poner etiquetas. Hacer click en Valores Para le Modelo A..

Hacer clic en vista de variables.

Ingresar los valores y etiquetar “Añadir” luego “Aceptar. La misma operación para los modelos B y C.

Luego hacer clic en Vista de Datos y aparece la tabla:

Ingresar los valores de la Tabla No. 01. del Ejemplo No. 01. Terapeutas, 1, 2, 3, . . . ,9. Modelo A, Modelo B Modelo C

Una vez culminado para realizar el anova de Friedman elegir Analizar  Pruebas no paramétricas  k muestras relacionadas.

Hacer clic en k muestras seleccionadas.

a) Seleccionar y transferir cada una de las tres variables ( modelo A, modelo B y modelo C) a la sección “Contrastar Variables”.

65

Estadística Aplicada a la Investigación Científica

Pulsar el botón Estadísticos, marcar “Descriptivos” y pulsar continuar. Para finalizar pulsar el botón Aceptar

Los resultados se tienen en el cuadro que se presentan: Estadísticos descriptivos N

Media

Desviación típica

Mínimo

Máximo

MODELO A

9

1,6667

,70711

1,00

3,00

MODELO B

9

2,7778

,44096

2,00

3,00

MODELO C

9

1,5556

,72648

1,00

3,00

Analizando, se tiene que los modelos A y C tienen mejor preferencia, porque los rangos promedios los muestran así; se espera que el modelo C sea elegido por tener el mejor rango, y que el modelo B es el que tiene como tercera opción. Rangos

MODELO A MODELO B MODELO C

Rango promedio 1,67 2,78 1,56

La prueba de hipótesis, las diferencias entre los grupos se comprueba mediante la Tabla V de Friedman Estadísticos de contraste(a) N 9 Chi-cuadrado

8,222

gl Sig. asintót.

2 ,016 a Prueba de Friedman

El valor obtenido al calcular es

r2 = 8,22222 Comparando en la Tabla V se obtiene 0,016.

Por tanto se rechaza la hipótesis nula y se concluye que los tres modelos no son igualmente preferidos con =0,050,016 Ejemplo 2. Se desea saber si existen diferencias entre cinco tipos de entrenamiento. El criterio consiste en el rendimiento. Seis estudiantes se someten a cinco (5) tipos de entrenamiento y se mide su rendimiento en atención. Los resultados se tienen en la siguiente tabla.

66

C. Quintanilla C. / A. Cortavarria L. Tabla No 01 Estudiante Entre. 1

Entre. 2

Entre. 3

Entre. 4

Entre. 5

1

13

25

12

25

29

2

18

19

16

21

24

3

17

23

15

22

20

4

19

25

15

20

23

5

24

30

24

36

37

6

15

21

13

19

18

Solución. Utilizando el mismo procedimiento en el Ejemplo 1, apertura una nueva hoja de trabajo y hacer clic en Vista de Variables y completar tal como se muestra en la figura.

Hacer clic en Vista de datos y completar la información de la Tabla No. 01 del Ejemplo 2. Cuyo resultado se muestra en la siguiente figura:

Una vez culminado para realizar el anova de Friedman elegir Analizar  Pruebas no paramétricas  k muestras relacionadas. a. Seleccionar y transferir cada una de las tres variables (ENTREN1 a ENTREN5) a la sección “Contrastar Variables”.

67

Estadística Aplicada a la Investigación Científica b. Hacer clic en Estadísticos y marcar Descriptivos, y pulsar el botón continuar y finalmente pulsar el botón Aceptar.

El resultado se obtiene de la manera muy sencilla. Además con este cuadro se pueden hallar otras dos pruebas no paramétricas. La W de Kendall y la Q de Cochran.

Estadísticos descriptivos N

Media

Desviación típica

Mínimo

Máximo

ENTRENAMIENTO 2

6

23,8333

3,81663

19,00

30,00

ENTRENAMIENTO 3

6

15,8333

4,26224

12,00

24,00

ENTRENAMIENTO 4

6

23,8333

6,30608

19,00

36,00

ENTRENAMIENTO 1

6

18,5000

3,61939

13,00

24,00

ENTRENAMIENTO 5

6

24,3333

7,50111

18,00

37,00

Los rangos promedios de cada variable indican que los entrenamientos difieren, y el que tuvo mejor resultado en atención y fue el Entrenamiento 2, y que el entrenamiento 1 tuvo el peor resultado. En este caso, cuanto más alto es el puntaje, mayor será el rendimiento. Rangos Rango promedio ENTRENAMIENTO 1

2,42

ENTRENAMIENTO 2

4,08

ENTRENAMIENTO 3

1,08

ENTRENAMIENTO 4

3,75

ENTRENAMIENTO 5

3,67

La prueba de hipótesis (al nivel de significancia de  =0,05 (5%)). 2 La diferencia entre los grupos se comprueban mediante el estadístico Chi cuadrado 12   0,95 (4)= 9,49 de la Tabla III, y es menor que  r2 (4) = 15,119 calculado mediante el SPSS (comprobar realizando la operación manual, haciendo rangos de menor a mayor ). En este caso no se puede usar la tabla de Friedman por ser el valor de k = 6 mayor que k=4. Estadísticos de contraste(a) N 6 Chi-cuadrado gl Sig. asintót.

15,119 4 ,004

a Prueba de Friedman

Por lo que se concluye que existe diferencia significativas en atención entre los cinco grupos de entrenamiento. ¡¡¡¡¡¡Que

fácil!!!!!!!!!!.

C. Quintanilla C.

68

/ A. Cortavarria L.

EJERCICIOS. 1. Se entrevistaron a hombres y mujeres (muestras) para determinar si fumaban cigarrillos o no. Se encontró 15 varones son fumadores de 29 y que 20 mujeres fumaban de 30. Comprobar la hipótesis nula de que la frecuencia relativa de los varones fumadores es la misma que de las mujeres fumadoras. Dicha investigación se debe probar al 5% de nivel de significancia. 2. El siguiente cuadro refleja la reacción de una muestra aleatoria de 115 estudiantes de la UNH, frente a la expansión del programa de Bilingüe Intercultural a otras provincias según el nivel del curso.

Reacción A favor En contra Total

1er nivel 20 10 30

Nivel del curso 2do nivel 3er nivel 19 15 16 35 35 50

Total 54 61 115

Considerando al 5% de nivel de significancia, probar la hipótesis 3. Dos grupos de estudiantes (que recibieron clases regulares y los que recibieron clases por correspondencia) se presentaron a exámenes finales de Estadística. Se obtiene que 22 de los 30 que asistieron a recibieron en clases regulares aprobaron el examen, mientras tanto, 10 de los 28 que recibieron clases por correspondencia aprobaron el examen. Comprobar la hipótesis nula al 5% de nivel de significancia, que la frecuencia relativa de los alumnos que recibieron clases regulares y por correspondencia son iguales. 4. Se tiene el interés por conocer si la actitud de los ciudadanos del Perú respecto al diálogo entre el gobierno y el Grupo Armado es independiente de la ideología del partido a la cual pertenecen. Una encuesta aleatoria de 500 ciudadanos clasificados por afiliación a los partidos políticos dio los siguientes resultados: Actitud hacia el diálogo. A favor En contra Se abstienen Total

Observación según afiliación partidaria Otros Partidos APRA UN 35 80 50 45 60 80 20 60 70 100 200 200

Total 165 185 150 500

Considerando al 5% de nivel de significancia, probar la hipótesis de que la actitud de los ciudadanos con respecto al diálogo es independiente de la ideología partidista. 5. Un profesor de Historia realiza una investigación sobre los niveles de retención de palabras relacionados con la historia. Para ello elabora una prueba de entrada, y somete dicha prueba a 22 estudiantes de Historia y Ciencias Sociales. Luego aplica un método que ayuda a incrementar la capacidad de retención. Los resultados son: P E S

1 2 3 72 70 68 74 72 69

4 5 6 7 8 67 73 71 72 70 68 72 73 72 74

9 69 68

10 70 73

ALUMNOS 11 12 13 14 68 72 69 66 69 70 68 69

15 73 74

16 17 18 71 70 72 73 70 74

19 20 21 22 70 69 72 73 68 71 75 76

69

Estadística Aplicada a la Investigación Científica Probar la hipótesis de que el método recibido por los estudiantes ayuda a mejorar a retener las palabras relacionados a Historia. Considerar de 5% de significancia. Utilizar Prueba del Signo.

6. Se hizo experimento con 11 estudiantes seleccionados al azar, para ver si un entrenamiento previo, basado en la solución de rompecabezas (lógico matemático), contribuye para tener un mejor rendimiento en el aprendizaje de la teoría de conjuntos. Se aplicaron dos pruebas: una antes y otra después del entrenamiento. Los resultados se presentan a continuación. ALUMNOS 1 2 3 4 5 6 7 8 9 10 11 Entrada 10 11 11 08 12 12 12 12 14 13 15 Salida 12 12 14 11 13 15 12 15 12 14 18 Prueba

Por medio de la prueba del signo, determine si el entrenamiento previo ayuda a mejorar el aprendizaje de la teoría de conjuntos. Utilice un error de 5% (valor de alfa). a. Los ejercicios (1) y (2), desarrollar a través de la Prueba de Rangos señalados de Wilcoxon 7. Los estudiantes de Ciencias Sociales e Historia, realizan un estudio sobre las comidas nativas que nuestros antepasados utilizaron en sus dietas. Para ello realizan un experimento en la reducción de pesos a 20 señoritas subidas de peso durantes seis semanas. Los pesos antes y después del régimen se presentan a continuación. Ps E. S.

SEÑORITAS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 90 110 87 86 79 92 96 97 93 78 96 87 125 116 108 79 146 98 90 88 84 99 92 84 77 92 89 95 98 73 92 88 121 109 102 85 137 94 91 79

Utilizando la prueba de Wilcoxon, al 5% de significancia, determinar si la dieta de nuestros antepasados tuvo efecto. 8. El Director de una Centro Educativo asegura que los docentes a quienes se les dá un entrenamiento sobre relaciones humanas, y dan una impresión agradable entre sus alumnos. Para probar lo anterior se seleccionaron al azar 22 docentes, dividiéndose en dos grupos de 11 cada una. Al grupo experimental se dio un curso de relaciones humanas y trato en el salón de clases. Los resultados se presentan, de acuerdo a la tabla de calificación de 0 a 10.

Grupos Experimental Control

3 5

9 0

8 1

7 5

Calificaciones 3 9 7 4 2 2 0 6

9 2

8 6

7 5

Utilizando la Prueba de U de Mann – Whitney, verificar si el Director tiene razón. Utilice un nivel de significancia de alfa de 0.05. 9. Un psicólogo clínico (docente universitario) desea conocer la relación entre la agresividad y las diferencias sexuales, seleccionó un grupo de 12 niños y 12 niñas de seis años de edad. Las puntuaciones de agresividad exhibida durante las experiencias se presentan a continuación.

Grupo Niños 86 Niñas 55

69 40

72 22

PUNTUACIONES 65 110 65 115 46 141 58 16 8 9 16 26

104 40 50 37 22 15

C. Quintanilla C.

70

/ A. Cortavarria L.

A través de la Prueba de Mann Whitney, al 5% de nivel significancia, pruebe: a) Pruebe que la agresividad es la misma en ambos sexos. b) Pruebe que la agresividad en los varones es mayor que en las mujeres. 10. Se inyectaron tres grupos de personas que sufren de depresión con una nueva droga tranquilizante. Al grupo A se le inyectaron 0,5 mg; al grupo B 1,0 mg y al grupo C 1,2 mg. En el siguiente cuadro se muestran los tiempos que tardaron en dormirse. A B C

11 9 10

13 11 5

Tiempo (mínimo) 9 14 10 8 8 6

15 12 10

13 6

Utilizando la prueba H de Kruskal- Wallis, al 5% de nivel d significancia, probar que las diferencias en las dosificaciones tienen efecto real en los tiempos medios necesario para dormirse en las poblaciones de donde se producen. 11. Se quiere comprobar la efectividad de tres métodos para enseñar teoría de conjuntos. Para tal fin se tomaron al azar 24 estudiantes homogéneos, los cuales se dividieron en tres grupos. Después de 6 semanas de enseñar conjuntos con diferentes métodos, se aplicó el mismo examen a los tres grupos, cuyos resultados son.

METODOS Método A Método B Método C

88 95 89

92 80 93

74 77 81

Puntuación 68 76 69 72 71 67

80 76 92

89 83 78

70 66 64

Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 1% de nivel de significancia. 12. Suponga que tres tipos de estilos, A, B y C, se estudiarán por su legibilidad, y la calificación de legibilidad se registra en la tabla:

A B C

22 26 23

24 36 30

Tipos de estilo 21 17 37 37 29 26

26 33 31

25 32 -

Utilizando el método de Kruskal- Wallis, probar de que los tres métodos tienen igual efectividad para enseñar teoría de conjuntos, contra la alternativa de que son diferentes. Use el 5% de nivel de significancia.

13. Un fabricante de plumones para pizarras acrílicas, está interesado en determinar el efecto que tiene 3 ingredientes en la duración del plumón (en días). El fabricante asignó al azar cada uno de los tres ingredientes a 10 (diez) grupos de plumones en experimento, tal como se muestra en al tabla.

71

Estadística Aplicada a la Investigación Científica

Ingred. A B C

1

2

3

GRUPOS 4 5 6

14 18 18

10 18 16

14 18 18

12 20 20

10 16 20

16 14 16

7

8

9

10

12 16 17

12 16 18

10 16 18

12 18 20

Utilizando la prueba de Friedman, ¿tienen efectos distintos los ingredientes en la duración de los plumones?. 14. La UNH adquiere un lector óptico de marca SHAROX, esta máquina es capaz de leer marcas hechas con lápiz en una forma especial. Un fabricante de SHAROX cree que su producto puede operar igualmente bien en diversos entornos con temperatura y humedad diferentes. Para determinar si los datos de operación contradicen esta creencia, el fabricante pide a un laboratorio de pruebas industriales muy conocido que pruebe su producto. Se seleccionaron al azar cinco SHAROX de reciente producción y se operó con cada una de ellas en distintos entornos. Se registró el número de formas de cada una de ellas al procesar durante una hora, y se utilizó este dato como medida de eficiencia de operación del SHAROX. Utiliza la prueba de Friedman para determinar si hay pruebas de que las distribuciones de probabilidad de los números de formas procesadas por hora difieren en su ubicación para al menos dos de los entornos. Considere nivel de significancia  = 0,05. Máquina No 1 2 3 4 5

1 7633 7850 8175 7990 8055

2 7601 7820 8101 7932 8025

Entorno 3 4 7561 7500 8100 7802 8235 8111 7922 7910 8007 8001

5 7702 7904 8201 7900 8100

6 7600 7819 8102 7892 7991

C. Quintanilla C.

72

/ A. Cortavarria L.

CASOS MAS IMPORTANTES DE ANÁLISIS ESTADÍSTICO CASOS PARAMÉTRICO NO PARAMÉTRICO 1. Comprobar 2 medias de grupos independientes. “t” de Student para muestras Ejm. Puntaje de autoestima U de Mann - Whitney independientes. en dos aulas. 2. Comparar dos medias de dos grupo relacionados. “t” de Student para muestras T de Wilcoxon. Ejm. Media de rendimiento dependientes. académico antes y después. Análisis de varianza de 3. Comparar K medias de Análisis de varianza (anova) Kruskal – Wallis. grupos independientes. o prueba (F). 4. Para estudio de seguimiento comparar K medias de grupos relacionados. Ejm. Comparar X de rendimiento académico al inicio, medio y final de año. 5. Comparar dos proporciones de grupos relacionados. Ejm. Conocimiento: Sabe o no sabe; actitud: favorable o desfavorable. Favorito de candidatos. 6. Comparar K proporciones de grupos relacionados. 7. Relación de 2 variables cualitativas. Ejm. Sexo y autoestima. 8. Relación de 2 variables cuantitativas.

Análisis de varianza de Análisis de varianza de Friedman. mediciones repetidas. Se usa Se usa más en más en medicina. educación.

Distribución proporciones

Z

para

Análisis de Mc Nemar.

Análisis de Cochran. x2 de independencia. Coeficiente de correlación de Correlación Pearson Spearman.

de

73

Estadística Aplicada a la Investigación Científica

BIBLIOGRAFIA Freud, J., Miller, I. and Miller, M. (1999). Mathematical Statistical. USA, New Yersy: Printice Hall. Mostellery, F. and Rourke, K. (1973). Study Statistic: Nonparametric and Order Statistic. USA: Addisson Wesley. Fisher, R. (1921). On the Probable Error of a Coeffient of correlation Deduced from a small Sample. USA: Metron. Dickinson, J. (1971). Nonparametric Statistical Inference. USA: Mc Graw Hill Book Company. Marqués de Cantú, M. (1991). Probabilidad y estadística: Para ciencias Químico – Biológicas. México: Edit. McGraw – Hill. Woolson, R. And Clarke, W. (2002). Statistical Methods for the Analysis of Biomedical Data. USA: A John Wiley , INC., PUBLICATION Córdova, M. (2003). Estadística: Descriptiva y Inferencial. Perú: Edit. Moshera; 5ta edición. Gay, L. and Airasian, P. (2000). Educational Research: Competencies for Analysis and Application. USA: Printice Hall. 6th edition. Martel, P. y Diez, F. (1997). Probabilidad y Estadística en Medicina. España: Ediciones Dias de Santos. Gonick, L. y Smith, W. (1993). La Estadística en Comic. España: Edit. Zendreria Zariquiey. Levin, J. (1979). Fundamentos de Estadística en a Investigación Social. México: Edit. HARLA. Wayne, D. (1994). Bioestadística: Base para el análisis de las ciencias de la salud. México: UTEHA, NORIEGA EDITORES. Camacho, J. (2001). Estadística con SPSS para Windows. México: Edit. Alfaomega. Pérez, C. (2001). Técnicas Estadísticas con SPSS. España: Edit. Printice Hall. Eves, H. (1953). An Introduction to the History of Mathematics. USA: Rinehart and Winston, Inc. Hotelling, H. (1953). NEW LIGHT ON THE CORRELATION COEFFICIENT AND ITS TRANFORMS. Journal of the Statistical Society; Ser B, 15 (1953), 193 – 232.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF