Manual de Estadistica

September 27, 2017 | Author: julissa | Category: Level Of Measurement, Statistics, Measurement, Sampling (Statistics), Decision Making
Share Embed Donate


Short Description

Download Manual de Estadistica...

Description

MÓDULO AUTOINSTRUCTIVO DE APRENDIZAJE MÉTODOS ESTADÍSTICOS

PROGRAMA DE FORMACIÓN GENERAL EQUIPO DE MÉTODOS ESTADÍSTICOS 2012I

Métodos estadísticos

ÍNDICE

INTRODUCCIÓN INSTRUCCIONES PARA EL USO DEL MANUAL ESQUEMA GENERAL DE CONTENIDO PRIMERA UNIDAD: Estadística descriptiva 1. ESTADÍSTICA, VARIABLE Y ESCALA DE MEDICIÓN……………………………06 2. INVESTIGACIÓN ESTADÍSTICA, RECOLECCIÓN DE DATOS Y ORGANIZACIÓN Y PRESENTACIÓN DE DATOS………................................................................19 3. ORGANIZACIÓN Y PRESENTACIÓN DE DATOS CUANTITATIVOS…………...24 4. MEDIDAS DE TENDENCIA CENTRAL…………………………............................48 5. MEDIDAS DE DISPERSIÓN………………………………………………………...…61 SEGUNDA UNIDAD: Probabilidades e inferencia 6. PROBABILIDAD BÁSICA………………………………………………….…………..69 7. DISTRIBUCIONES IMPORTANTES……………………………………………..……81 8. TEORÍA DE MUESTREO……………………………………………………………...95 9. ESTIMACIÓN DE PARÁMETROS…………………………………………………..109 TERCERA UNIDAD: Estadística inferencial 10. PRUEBA DE HIPÓTESIS……………………………………………………………. 116 11. ANÁLISIS DE VARIANZA ………………………………………………………….. 147 12. REGRESIÓN LINEAL ………………………………………………………………. 153

UCV – Lima este

Página 2

Métodos estadísticos

INTRODUCCIÓN El presente módulo ha sido concebido como un material de consulta para el estudiante de la asignatura de Métodos estadísticos. El propósito de este producto es la exposición de información acerca de teoría estadística que le permita calcular indicadores que conlleven a tomar una decisión. El desarrollo de los temas se realizó en torno a las sesiones comprendidas en el sílabo del curso, considerando de manera pertinente, un nivel de complejidad creciente, sobr4e todo en los aspectos prácticos de cada tema. Además, cada capítulo tiene presenta una introducción, donde se explica, de manera general, los objetivos del temas; luego abarca el desarrollo del contenido y finalmente se plantean los ejemplos y problemas de aplicación práctica resueltas. En cuanto a la organización y presentación del contenido, el módulo se conforma de la siguiente manera: en la sesión uno se estudian los concepto de estadística, variable y escala de medición; en la sesión dos, investigación estadística, recolección de datos y la representación de una variable cualitativa con su respectiva gráfica; en la sesión tres, la organización y presentación de datos para variable cuantitativa; en la sesión cuatro, la medida de tendencia central; en la sesión cinco, la medida de dispersión; en la sesión seis, la probabilidad básica; en la sesión siete, distribuciones importantes; en la sesión ocho, teoría de muestreo; en la sesión nueve, estimación de parámetro; en la sesión 10, prueba de hipótesis; en la sesión 11, prueba chi cuadrado; en la sesión 12, análisis de varianza y en la sesión 13, análisis de regresión. Finalmente, los docentes de la experiencia curricular Métodos estadísticos esperamos que este módulo autoinstructivo de aprendizaje cumpla con su propósito y sea de gran importancia y beneficio para el estudiante.

UCV – Lima este

Página 3

Métodos estadísticos

INSTRUCCIONES PARA EL USO DEL TEXTO AUTOINSTRUCTIVO Estimado estudiante: El material que le presentamos ha sido elaborado exclusivamente para usted considerando que es un método alternativo de enseñanza-aprendizaje orientado a lograr las capacidades de esta experiencia curricular. Por ello, le solicitamos que tenga en cuenta las siguientes sugerencias para su tratamiento: 1.

Evite su reproducción parcial o total del texto como muestra de su respeto a la propiedad intelectual.

2. Lea con atención y aplique las técnicas de procesamiento de información a fin de lograr la comprensión del tema. 3. Realice las actividades como se indican. 4.

Utilice, de preferencia, lápiz para evitar borrones y trabajar con limpieza.

5. Realice todos los ejercicios propuestos, porque son importantes para su aprendizaje.

UCV – Lima este

Página 4

Métodos estadísticos

ESQUEMA GENERAL DEL CONTENIDO

MÉTODO ESTADÍSTICO

ESTADÍSTICA DESCRIPTIVA ESTADÍSTICA, VARIABLE Y ESCALA DE MEDICIÓN INVESTIGACIÓN ESTADÍSTICA, RECOLECCIÓN Y ORGANIZACIÓN Y PRESENTACIÓN DE DATOS PRESENTACIÓN DE DATOS

PROBABILIDADES E INFERENCIA

ESTADÍSTICA INFERENCIAL APLICADA

PROBABILIDAD BÁSICA

PRUEBA DE HIPÓTESIS

DISTRIBUCIONES IMPORTANTES

ANÁLISIS DE VARIANZA

TEORÍA DE MUESTREO

REGRESIÓN LINEAL

ESTIMACIÓN DE PARÁMETROS

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS CUANTITATIVOS MEDIDAS DE TENDENCIA CENTRAL MEDIDAS DE DISPERSIÓN

UCV – Lima este

Página 5

Métodos estadísticos

UNIDAD DIDÁCTICA 1: ESTADÍSTICA DESCRIPTIVA Capacidad: Aplica los conceptos básicos de la estadística orientados a la Investigación.

ESTADÍSTICA, VARIABLE Y ESCALA DE MEDICIÓN CONSIDERACIONES GENERALES 1. INTRODUCCIÓN Cuando se habla de estadística, se suele pensar en una relación de datos numéricos presentada de forma ordenada y sistemática. Esta idea es la consecuencia del concepto popular que existe sobre el término y que cada vez está más extendido debido a la influencia de nuestro entorno, ya que en estos días es casi imposible que cualquier medio de difusión, periódico, radio, televisión, etc. Nos aborde diariamente con cualquier tipo de información estadística sobre accidentes de tránsito, índices de crecimiento de población, turismo, tendencias políticas, etc. Solo cuando entramos en un mundo más específico como es el campo de la investigación de las Ciencias Sociales (Medicina, Biología, Psicología) empezamos a percibir que la Estadística se convierte en la única herramienta que permite obtener resultados, y por tanto, beneficios en cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad, no puedan ser abordadas desde la perspectiva de las leyes deterministas. Podríamos, desde un punto de vista más amplio, definir la estadística como la ciencia que estudia cómo debe emplearse la información y cómo dar una guía de acción en situaciones prácticas. 2. ORIGEN ETIMOLÓGICO Palabra griega Palabra latín Palabra alemán

UCV – Lima este

STATERA STATUS STAAT

Balanza Situación Estado

Página 6

Métodos estadísticos

3. HISTORIA Los orígenes de la estadística aunque son aún desconocidos y no se sabe con exactitud cuándo se comenzó a utilizar, la historia refleja que su usó es muy antiguo para el conteo de combatientes, para los impuestos, defunciones, estudio de recursos naturales, pero fueron los romanos, maestros de la organización política, quienes mejor supieron ocupar la estadística, cada cinco años realizaban un censo de la población, cuyos datos de nacimientos, defunciones y matrimonios eran esenciales para estudiar los avances del imperio y los recuentos de ganancias y las riquezas que dejaban las tierras. Su uso soportó las funciones tradicionales del gobierno central y del Estado, como llevar registros sobre la situación de la población: número de habitantes, número de nacimientos, número de defunciones, producción, impuestos y otros hechos contables y de control. Seguidamente los hechos más saltantes: Egipcios Datos de Administración Estatal Roma Registros tributarios Empadronamiento (Año 0) Árabes Censo Estadísticas sistematizadas (Edad Media) El Clero Recopilación, ordenamiento y estudio de datos demográficos Reyes Católicos Censo (siglo XVI) Censo del Marqués de la Ensenada 1748 Indias de Sevilla Estadísticas Económicas Imperio Incaico Registros demográficos y socio económicos mediante los Quipus Alemania Primera cátedra de Estadística 4. ETAPAS DE LA ESTADÍSTICA   

Escuela Alemana. Permitió la primera cátedra de estadística descriptiva con un enfoque de estado o administración. Escuela Inglesa. Cuantificó las leyes de los fenómenos sociales o políticos y aritméticos a la Estadística. Escuela Francesa. Introduce la teoría de las probabilidades.

5. PERSONAJES NOTABLES EN LA HISTORIA DE LA ESTADÍSTICA:       

Quetelet, estadístico Belga, aplicó estadística a la investigación de problemas sociales y educativos. Walker atribuye a Quetelet el desarrollo de la teoría estadística como método de investigación general en todas las ciencias de la observación. Francis Flton, ejerció mayor influencia en la introducción y empleo de la estadística en las ciencias sociales. Pearson, matemático, colaboró con Galton en el desarrollo de fórmulas de correlación y regresión. James Mc Keen Cattel, profundizó la Estadística con Galton y otros estadísticos. Thorndike, aplicó métodos estadísticos en la psicología y en la educación. R.A. Fisher, inglés que introdujo nuevas técnicas y métodos en el estudio de muestras.

UCV – Lima este

Página 7

Métodos estadísticos

  

Godofredo Achenwall, fue el primer gran teórico de la Estadística en lengua alemana y dio el nombre de Estadística (status). Blas Pascal, Escuela Probabilística. Francisco Galton y Karl Pearson, con la regresión y correlación

6. CULTURA ESTADÍSTICA Refiere a dos componentes interrelacionados: a) Capacidad para interpretar y evaluar críticamente la información estadística, los argumentos apoyados en datos que las personas pueden encontrar en diversos contextos, incluyendo los medios de comunicación, pero no limitándose a ellos. b) Capacidad para discutir o comunicar sus opiniones respecto a tales informaciones estadísticas cuando sea relevante” 7. DEFINICIÓN La Estadística se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, hallar regularidades y analizar los datos, siempre y cuando la variabilidad e incertidumbre sea una causa de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. La estadística se clasifica en estadística descriptiva y en estadística inferencial. Se denomina Estadística Descriptiva al conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, gráficas y el análisis mediante algunos cálculos. Se denomina Inferencia Estadística al conjunto de métodos con los que hacen la generalizaciones o la inferencia sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad conocida como probabilidad. 8. ¿POR QUÉ ESTUDIAR ESTADÍSTICA? La estadística, como la matemática, constituye uno de los idiomas esenciales para comunicarse en el mundo universal de la ciencia y la tecnología. La estadística permite comprender con mayor facilidad la bibliografía especializada. La mayoría de los libros, estudios e investigaciones especializada en economía, educación, sociología, medicina, psicología, etc., contienen resultados basados en el análisis estadístico. Sin lugar a dudas, aquellos profesionales que no conozcan estadística tendrán serias dificultades para ser expertos en sus respectivos campo científico. UCV – Lima este

Página 8

Métodos estadísticos

En las diversas áreas y especialidades de la formación profesional y científica, la estadística constituye una ciencia auxiliar y complementaria, que ofrece técnica, métodos, modelos y procedimientos para el análisis cuantitativo y cualitativo de los fenómenos y hechos que interesa estudiar a los profesionales. La estadística es una herramienta auxiliar de utilidad inmediata y practica en el trabajo profesional. Permite registrar hechos, calcular repeticiones, analizar datos, observaciones y calcular indicadores, así como también ayuda a cuantificar o dimensionar el comportamiento de los hechos y variables en una población determinada, realizar estimaciones y proyecciones. La estadística ayuda a desarrollar una investigación rigurosa, no es simplemente un conjunto de fórmulas, procedimientos y modelos. La estadística por la forma como está estructurada, operacionaliza los datos, ofrece fundamentos lógicos en lo que se sustenta la investigación básica y aplicada, de allí que la estadística constituye “la tecnología del método científico”. En toda investigación una vez formulado el problema, la tarea inmediata es el diseño del plan de análisis estadístico, antes de obtener los datos en las unidades de análisis. La estadística participa en la solución del problema, puesto que permite revelar la información vital para la solución de un problema práctico. Ayuda a conocer la característica de una población, cuyo resultado orienta la toma de decisiones. La estadística permite hacer inferencia acerca de una población a partir de datos obtenido de una muestra representativa. 9. OBJETIVO DE LA ESTADÍSTICA En términos generales los objetivos de la estadística pueden ser clasificados o agrupados en tres grandes grupos: descripción, análisis y predicción. 

Descripción de grandes colecciones de datos empíricos; reduciéndolos a un pequeño número de características que concentra la parte más importante y significativa de la información proporcionada por los datos. Este proceso se conoce con la denominación “Reducción de datos”. La descripción supone que los datos que viene expresados en su forma natural deben ser clasificados y presentados sistemáticamente en cuadros o tablas como una primera reducción de datos; sin embargo, la reducción de datos propiamente dicha se obtiene cuando el comportamiento y características de los datos se expresan por un conjunto de indicadores, medidas resumen o estadígrafos. El trabajo estadístico se inicia con el estudio del problema, la identificación de variables y la recolección de datos. Tanto la reducción como la

UCV – Lima este

Página 9

Métodos estadísticos

descripción de la información se estudia en el gran capítulo denominado “Estadística Descriptiva”. Es importante anotar que la descripción estadística de los fenómenos o hechos es el primer aspecto al cual se redujo la ciencia estadística durante mucho tiempo, aplicándose especialmente a los datos demográficos, sociales, económicos, etc. 

Análisis estadístico de datos experimentales y de los fenómenos observados. Toda investigación estadística incluye un problema de análisis de datos experimentales, con el objeto de formarse un concepto de una población o universo y adoptar decisiones. En este caso no es necesario observar toda la población si no que será suficiente elegir una muestra representativa. La preocupación del análisis estadístico es inferir propiedades para una población sobre la base de resultados muéstrales conocidos. Aquí se presentan varios problema que trata la estadística de hoy, como aquellos relacionados con el muestreo estadístico, la estimación estadística y el cálculo de probabilidades, las pruebas estadística, etc. Estos aspectos corresponden a la inferencia estadística.



Predicciones o comportamiento de los fenómenos en el futuro, lo cual constituye la máxima aspiración practica de toda ciencia. Este objetivo de predicción y previsión está implícito tanto en la descripción como en el análisis estadístico, puesto que en general interesa orientar la toma de decisiones con vigencia y efecto en el futuro. “El pasado puede ser evaluado, el presente descrito con cierta exactitud y el futuro puede ser previsto”, la predicción puede entenderse como la estimación de resultados en el futuro.

10. NOMENCLATURA ESTADÍSTICA Población, es el conjunto de elementos que contienen una o más característica observable de naturaleza cualitativa o cuantitativa que se pueden medir en ellos. Unidad estadística, viene hacer cada elemento de la población. Dato, es el resultado de medir una característica observable de una unidad estadística. Información, es el resultado que se obtiene al procesar un conjunto de datos. Muestra, se denomina muestra a una parte de la población seleccionada de acuerdo con un plan o regla, con el fin de obtener información acerca de la población de la cual proviene. Parámetro, se denomina parámetro a una medida descriptiva que resume una característica de la población, calculada a partir de los datos observados en toda la población. UCV – Lima este

Página 10

Métodos estadísticos

Estadígrafo, se denomina estadígrafo a una medida descriptiva que resume una característica de la muestra, calculada a partir de los datos observado en una muestra aleatoria. 11. ELEMENTOS BÁSICOS DE LA ESTADÍSTICA Después de la conceptualización de estadística y la precisión de sus objetivos, es fácil advertir que en el trabajo estadístico existen tres elementos básicos como son: unidad de análisis, las variables y los datos. 





Unidades de análisis, que pueden ser personas, instituciones, objetos, familia, animales y otras unidades más complejas. Estas unidades tienen una característica en común, en cuanto constituyen el objeto de estudio de una investigación. Las variables, dimensiones o características que se desea conocer en relación a las unidades de análisis, tales como la edad, ingresos, consumo de carne, lugar de nacimientos, ahorros, etc. las variables se definen e identifican en función de los objetivos del estudio. Los datos o valores que alcanzan las unidades en las variables estudiadas, son las respuestas o resultados que se obtienen cuando las unidades de análisis son preguntados. Habrá tantos datos como elementos tiene la población en estudio.

VARIABLE ESTADÍSTICA 1. DEFINICIÓN Se denomina variable estadística a una característica definida en la población por la tarea o investigación estadística, que puede tomar dos o más valores o modalidades. 2. ELEMENTOS DE UNA VARIABLE La identificación y definición de variables es la tarea más delicada de toda investigación y del trabajo estadístico. Téngase presente que las variables se deduce a partir de los objetivos de un estudio o investigación. En consecuencia, para tener éxito en la selección de variables, es recomendable distinguir los siguientes cinco elementos:  Nombre o denominación de la variable  Definición o conceptualización de la variable  Un conjunto de categoría o niveles, que es definida por el investigador. Las categoría no son única, lo mínimo es dos categorías y dependen de los objetivos de la investigación.  Procedimientos para categorizar o agrupar las unidades de análisis UCV – Lima este

Página 11

Métodos estadísticos



Algunas medidas de resumen o indicadores

3. CLASIFICACIÓN DE LA VARIABLE 3.1 VARIABLE CUALITATIVA Cuando expresa una cualidad, característica o atributo, tiene carácter cualitativo, sus datos se expresan mediante una palabra, es no numérico, y se clasifican en variables cualitativa nominal y variables cualitativa ordinal. a. Variable cualitativa nominal: Es aquella variable que permite clasificar a una unidad elemental en una sola categoría. Ejemplo 4  Lugar de nacimiento  Color de ojos  Partidos políticos b. Variable cualitativa ordinal: Es aquella variable que permite clasificar a una unidad elemental en una sola categoría, y a la vez expresa orden de jerarquía. Ejemplo 5  Clase social  Grado de estudio  Grado dentro del mando militar 3.2 VARIABLE CUANTITATIVA Cuando el valor de la variable se expresa por una cantidad, es de carácter numérico. El dato o valor puede resultar de la operación de contar o medir. Las variables cuantitativas pueden ser discretas o continuas. a. Variable cuantitativa discreta: Cuando el valor de la variable resulta de la operación de contar, su valor está representado solo por números naturales. Ejemplo 6  Números de hijo por familia  Número de accidentes por días  Número de trabajadores por empresa Variable cuantitativa continua: Es toda variable cuyo valor se obtiene por medición o comparación con una unidad o patrón de medida. Las variables continuas pueden tener cualquier valor dentro de su rango o recorrido, por tanto se expresa por cualquier número real.

UCV – Lima este

Página 12

Métodos estadísticos

Ejemplo 7  Áreas de parcelas  Ingreso monetario  Producción de maíz

ESCALA DE MEDICIÓN 1. INTRODUCCIÓN En estadística medir es observar el valor que toma una variable estadística en un elemento de la población, los valores de las variables, además de ser cualidad o cantidad, define niveles de medición de las unidades estadísticas, estos niveles de medición son denominado escalas. 2. DEFINICIÓN Se denomina escala de medición a los distinto niveles de valores que la variable estadística asigna a las unidades estadísticas en estudio. 3. ESCALA NOMINAL Se dice que los valores de una variable estadística están en el nivel de escala nominal si estos solo clasifican a las unidades estadística en iguales o diferentes. Los valores cualitativos son como etiquetas que la variables asigna a las unidades estadística haciéndolas iguales entre sí o diferentes. Si se asigna número a estos valores cualitativos no es posible realizar operaciones aritméticas. El método estadístico con datos obtenidos en escala nominal consiste básicamente en obtener el número de casos en cada modalidad y obtener la moda. 4. ESCALA ORDINAL Se dice que los valores de una variable estadística están en el nivel de escala ordinal si están en escala nominal y si además ordenan a las unidades estadística por la característica que se observa. Los valores cualitativos de una variable en escala ordinal son los resultados de un criterio para ordenar a las unidades estadística. Si se asignara números a tales valores, no es posible realizar operaciones aritmética, solo son válidas las relaciones de igualdad, de no igualdad y de orden.

UCV – Lima este

Página 13

Métodos estadísticos

El método estadístico con datos obtenidos en escala ordinal consiste básicamente en obtener el número de caso en cada categoría, así como, obtener la moda, la mediana y el coeficiente de correlación de rangos. 5. ESCALA DE INTERVALOS Una escala de intervalo es una escala ordinal que asigna a las unidades estadística valores numérico, que son mediciones realizadas con respecto a un cero arbitrario, este cero no es real o absoluto, pues no mide la ausencia total de la característica que se observa en la unidad estadística. Con los valores de una variable en escala de intervalo se puede comparar la diferencia de las mediciones de dos unidades estadística con otra diferencia. Con los valores de esta escala son validas pues, las relaciones de igualdad, de no igualdad y de orden. Además, son validas las operaciones de adición y sustracción entre valores de escala y la multiplicación y división entre la diferencia de dos valores de la escala. Pero, no es válida la multiplicación y división entre los valores mismos de la escala. Si una variable estadística tiene sus valores en escala de intervalo, entonces permanece invariante ante la transformación. 6. ESCALA DE RAZÓN La escala de razón o cociente es una escala de intervalo que asigna a las unidades estadística valores numéricos, que son mediciones realizadas con respecto a un cero real. Este cero significa ausencia total de la característica que se observa. Los valores de esta escala se obtienen en general, por mediciones que son conteos o mediciones continuas. Además, con los valores de una variable en escala de razón se puede comparar cuantas veces la medida de una unidad estadística es igual a la medida de otra unidad estadística. Con los valores de la variable en escala de razón son validas las relaciones de igualdad, de no igualdad, de orden y todas las operaciones matemáticas. Si una variable estadística tiene sus valores en escala de razón, entonces permanece invariante ante la transformación.

UCV – Lima este

Página 14

Métodos estadísticos

ACTIVIDADES 1

¿Qué es la estadística? _______________________________________________________ _______________________________________________________ ________________________________________________________________________ ________________________________________________________________________

2 ¿Qué es la inferencia estadística? ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ 3

¿Por qué estudiar estadística? ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________

1 ¿Cuál es la diferencia entre un dato e información? ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________ 5

¿Cómo se clasifican las variables? ________________________________________________________________________ ________________________________________________________________________ ________________________________________________________________________

UCV – Lima este

Página 15

Métodos estadísticos

GLOSARIO

Defina brevemente, con sus propias palabras, cada término de la lista.



Estadística………………………………………………………………………………….



Estadística descriptiva……………………………………………………………………



Estadística inferencial…………………………………………………………………….



Dato………………………………………………………………………………..……..



Variable……………………………………………………………………………………



Variable cualitativa…………………………………………………………………….…



Variable cuantitativa………………………………………………………………….…..



Información…………………………………………………………………………….….



Población………………………………………………………………………………….



Unidad de análisis…………………………………………………………………….….



Parámetro…………………………………………………………………………….……



Muestra……………………………………………………………………………….……



Estadígrafo…………………………………………………………………………….…..



Escala de razón…………………………………………………………………………...



Escala por intervalo…………………………………………………………….………..

UCV – Lima este

Página 16

Métodos estadísticos

AUTOEVALUACIÓN

1.

¿Qué escuela cuantifico las leyes del fenómeno social o político y aritmético a la estadística? a) Alemana b) Inglesa c) Francesa d) Todas

2.

¿Qué matemático colaboro con GALTON al desarrollo de la correlación de Pesaron? a) Walker c) Fisher b) Pesaron d) Todos

3.

¿Cuál es la parte de la estadística que se encarga de representar a un conjunto de dato mediante gráficos? a) Inferencia c) La muestra b) El parámetro d) La descriptiva

4.

¿Cuál es la máxima aspiración de toda ciencia? a) Sumar c) Restar b) Multiplicar d) Predecir

5.

¿Qué es una muestra? a) Es una parte de la población b) Es toda la población c) Es un número d) Es una información

6.

¿Qué es la unidad de análisis? a) Es dato b) Es un valor c) Es una información d) Es la mínima unida de la población

7.

¿Qué es información? a) Es un valor que resulta después de un proceso matemático b) Es una muestra c) Es una población d) Es una variable

Solución 1.- c

2.- b

UCV – Lima este

3.- d

4.- d

5. – a

6.- d

7.- a

Página 17

Métodos estadísticos

BIBLIOGRAFÍA

1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 18

Métodos estadísticos

INVESTIGACIÓN ESTADÍSTICA. RECOLECCIÓN Y ORGANIZACIÓN Y PRESENTACIÓN DE DATOS

INVESTIGACIÓN ESTADÍSTICA

1. INTRODUCCIÓN En esta sesión se estudiara las definiciones de investigación estadística, así como los procedimientos para elaborar una tabla de frecuencia y los gráficos respectivo para una variable cualitativa sea nominal u ordinal. 2. DEFINICIÓN La investigación es un proceso de producción de conocimiento científicos; es un proceso sistemático a través del cual se recogen datos e información de la realidad objetiva para dar respuesta a las interrogantes que se plantean. No hay investigación grande o pequeña, simplemente investigar es buscar respuesta para plantear soluciones. Cuando se aplica el método científico al estudio de los problemas económicos se habla de investigación económica, asimismo se tiene investigación educativa, investigación agropecuaria, etc. Toda investigación requiere de datos, sin datos no hay investigación, entonces surge la necesidad de definir métodos, análisis o tratamientos de datos, con el propósito de obtener algunas medidas o indicadores que expresen la dimensión o niveles de la variable estudiada, es decir, realizar la operacionalización de las variables. En este contexto la estadística surge como ciencia auxiliar de la investigación, que por su naturaleza, estructura y métodos en este proceso, el análisis estadístico también cumple con los diversos paso de la investigación. 3. OBJETIVO El objetivo de la investigación estadística es descubrir respuestas a determinada interrogantes a través de la aplicación de procedimientos científicos. El punto de partida de la investigación es la existencia de un problema que habrá que definir, examinar, valorar, y analizar críticamente, para luego formular y entender su solución.

UCV – Lima este

Página 19

Métodos estadísticos

4. ETAPAS La investigación estadística por su naturaleza, es fundamental de tipo descriptiva; se preocupa de la confiabilidad, validez y significación de los datos, de la muestras así como los métodos y técnica de recolección y análisis estadístico. La investigación estadística es un proceso donde se distinguen cinco etapas: a. Planteamiento o preparación           

Fundamento y compresión del estudio e identificación de las variables Determinación de objetivos Organización de las variables Precisión de los datos e información requerida identificación y evaluación de la fuente de información Identificación y análisis de estudios similares Determinación del ámbito de la investigación Preparación del plan para ejecutar la investigación Formación y capacitación del equipo de trabajo Elaboración del calendario de actividades Formulación del presupuesto y fuente de financiamientos

b. Recopilación de los datos La recopilación o recolección de datos es el momento en el cual el investigador se pone en contacto con los objetos o elementos sometidos a estudio, con el propósito de obtener los datos o respuesta a las variables analizadas. El método de recolección está asociado también con el tipo y naturaleza de la fuente de datos. c. Organización y presentación de datos Después de la recopilación de los datos, se procede a su organización, clasificación y tabulación, de modo que se facilite la presentación en tablas cuadros o gráficos. Como tarea previa a la investigación es indispensable realizar una evaluación, critica, corrección y ajuste de los datos, el propósito es superar las omisiones, inconsistencia y desechar las respuestas no significativas o erróneas. Téngase presente que la validez de sus resultados y conclusiones depende de gran medida de la fidelidad de los datos utilizados. No existen computadora que por sí, corrija los errores de recopilación.

UCV – Lima este

Página 20

Métodos estadísticos

Realizadas las correcciones o ajustes, se procede a la clasificación o establecimiento de categorías o intervalos, para la agrupación de los datos. Finalmente, se procede a la tabulación o procesamiento de los datos, de acuerdo a un plan de tabulaciones previamente definido. Los cuadros y tablas estadística como primera fase de la reducción de datos, facilita el cálculo de los indicadores con los cuales se inicia la descripción, análisis e interpretación de los datos, variables e información estadística. d. Análisis e interpretación de los datos En esta etapa se aplica los argumentos matemático y teóricos de la estadística. A través de métodos estadístico se calcula indicadores y medidas de resumen, se establecen relaciones entre variables, se estiman valores, se ejecuta pruebas estadísticas, etc., como elementos de referencia para la descripción, análisis e interpretación del comportamiento de los datos, hacer inferencia valida y obtener información de los elementos o unidades estudiadas. e. Formulación de conclusiones y preparación de informe En toda investigación debe analizarse el cumplimiento de los objetivos, en función de los resultados fundamentales, esta contrastación permite elaborar un resumen de los aspecto sustantivos, que luego se expresaran en forma de conclusiones y sugerencia orientadora en la toma de decisiones. 5. ELECCIÓN DE LAS UNIDADES ESTADÍSTICAS La elaboración de una buena estadística implica una definición correcta de las unidades que se van a considerar y una delimitación de la materia a investigar. Antes de iniciar la observación y las operaciones de recuentos, el estadístico debe tener una idea clara, tanto del conjunto que quiere estudiar como de los individuos o unidades que constituye dicho conjunto. La unidades estadística deben definirse cuidadosamente teniendo en cuenta los siguientes criterios:     

Debe ser sencilla, de modo que se puede caracterizar con facilidad, que los encargados de la recopilación no tengan duda en su identificación. Debe ser precisa, de modo que facilite su identificación y saber que observar. Fácilmente compresible y adaptada a los objetivos que se persiguen. Debe ser semejantes, de manera que sean aditivo Respetar las posibles definiciones oficiales o estatales.

UCV – Lima este

Página 21

Métodos estadísticos

RECOLECCIÓN DE DATOS

1. DEFINICIÓN La recopilación o colección de datos es el momento en el cual el investigador se pone en contacto con los objetos o elementos sometidos a estudio, con el propósito de obtener los datos o respuesta de las variables consideradas; a partir de estos datos se prepara la información estadística, se calcula medidas de resumen e indicadores para el análisis estadístico. Antes de recopilar o recoger datos, es importante analizar los objetivos del estudios, precisar las variables e identificar las fuentes de datos, a fin de definir qué datos hay que recopilar y cómo hacer esta tarea. La formulación del problema y del marco teórico, la definición de las hipótesis y de los objetivos de la investigación permite especificar los tipos de información y las variables que son requeridas. Realizada esta tarea, el investigador debe a continuación seleccionar y elaborar las técnicas e instrumentos para recolectar los datos. El trabajo de recolección de datos, en general se puede realizar mediante dos modalidades:  La técnica de investigación documental o bibliográfica  La técnica de trabajo de campo La fase de recolección de datos es uno de los puntos principales de la investigación, en consecuencia, debe dotarse de ciertas garantías para que los datos científicos puedan ser confiables y comparables, evitar las desviaciones y la falta de representatividad. 2. INFORMACIÓN ESTADÍSTICA La información estadística, como datos procesados de acuerdos a ciertos objetivos, es un medio que permite cuantificar aspecto de una realidad, de un fenómeno o problema determinado, en un momento o periodo dado y un ámbito concreto. A partir de la información estadística se puede describir y explicar esa realidad, así como inferir conclusiones para definir un plan de acción o desarrollo especifico. La información, en general, sirve para tomar decisiones.

UCV – Lima este

Página 22

Métodos estadísticos

3. FUENTES DE DATOS Las fuentes de datos es el lugar, la institución, las personas o elementos donde están o que poseen los datos que se necesitan para cada una de las variables o aspecto de la investigación o estudio. En     

general se puede disponer de cinco tipos de fuentes de datos: Las oficinas estadísticas Registros administrativos Documentos Encuesta o censos Los elementos o sujetos

Las tres primeras fuentes son de tipo administrativos y constituyen fuentes secundarias; por su parte, las dos últimas corresponde a la investigación estadística, ya que permiten obtener datos originales, intencionales y de primera mano, es decir constituye fuentes primarias. 4. TÉCNICA DE RECOLECCIÓN La técnica de recolección son diversas y depende de: la naturaleza del objeto de estudio, de las posibilidades de acceso o contacto con los elementos investigados, del tamaño de la población o muestra, de los recursos y de las oportunidades de obtener datos. Las técnicas también están asociadas al tipo y naturaleza de la fuente de datos. Entre las técnicas más frecuentes se tienen: a. La observación: La observación en el proceso de investigación es la acción de mirar con rigor, en forma sistemática y profunda, con los intereses de descubrir la importancia de aquellos que se observa. La observación es el método básico que se utiliza para adquirir información acerca del mundo que nos rodea, y por lo tanto, constituye la técnica primordial de la investigación científica. La observación puede tener lugar en situaciones autenticas de la vida ordinarias o también en el laboratorio. b. Los documentos: La técnica documental es un tipo de observación que recopila o busca sus datos en documentos, fuentes o graficas de todo tipo. c. La entrevista: La entrevista es una situación de interrelación o dialogo entre personas, es una técnica donde una persona llamada entrevistador, solicita al entrevistado, le proporcione algunos datos o información. El éxito de la entrevista como técnica de recolección, depende de la eficiencia del trabajo del entrevistador. d. La encuesta: La encuesta es una técnica de recolección de datos, donde se obtiene la información tal como se necesita, preparada con objetivos estadístico. Permite observar y registrar características en las unidades de análisis de una UCV – Lima este

Página 23

Métodos estadísticos

determinada población o muestra, delimitada en el tiempo y en el espacio. En toda encuesta se hace uso de un cuestionario, cuya respuesta se registra en el formulario o cédula. Cuando una encuesta está dirigida a la totalidad de elementos de una población, se llama censo; en tanto; cuando está dirigido a una parte representativa de la población, se llama encuesta por muestreo. 5. INSTRUMENTO DE MEDICIÓN a. El cuestionario: Este es un instrumento constituido por un conjunto de preguntas sistemáticamente elaboradas, que se formula al encuestado o entrevistado, con el propósito de obtener los datos de las variables consideradas en el estudio. Cuando las preguntas se organizan y se imprimen, se obtiene el formulario o cédula, que es el instrumento que se utiliza para registrar las respuestas.

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS (VARIABLE CUALITATIVA)

Cuando se realiza la recopilación de antecedentes con fines estadísticos, se obtiene una gran cantidad de datos, algunas veces estos están en su forma natural o empírica (fuente primarias) y otras ya están organizadas en tablas, cuadros y gráficos (fuentes secundarias). Los datos pueden estar incompletos, incorrectos, desordenados, pero en todos los casos constituye datos básicos para iniciar un estudio, conocer y analizar el comportamiento y las características de los elementos de una población. En el trabajo estadístico, siempre se dispone de muchos datos que, definitivamente tienen que ser clasificados, ordenados y presentados adecuadamente, de tal manera que facilite la compresión, descripción y análisis del fenómeno estudiado y obtener conclusiones válidas para la toma de decisiones. La organización y presentación de los datos estadísticos, supone realizar los siguientes pasos:

UCV – Lima este

Página 24

Métodos estadísticos

a. Evaluación y crítica: Consiste en inspeccionar la validez y confiabilidad de los datos, para corregir los errores y omisiones de acuerdo a ciertas reglas fijas. A partir de datos incorrectos no se pueden obtener buenos resultados. b. Codificación: Es una técnica mediante la cual los datos o respuestas se convierten en un número, símbolo o lenguaje que permita su procesamiento o tabulación electrónica. La codificación implica la definición de criterios de clasificación y de categorización de las variables con miras a formular el plan de tabulación. c. Clasificación: Consiste en establecer las categoría de las variables. d. Procesamiento o tabulación de datos: Es la contabilización o registro del número de casos en cada una de las categoría de la variables, de acuerdo al plan de tabulación previamente establecido. e. Presentación de los datos: Donde los resultados de la tabulación, una vez evaluados, se presenta en cuadros, tablas y gráficos. La presentación de datos implica tener la información estadística organizada para proceder al análisis e interpretación de los resultados y de los aspecto considerados de la población en estudio. En el trabajo estadístico, lo que se tiene disponible en un primer momento es un material numérico, producto de la observación o recopilación de datos, que son categorizados, ordenados, procesados y presentados en cuadros o gráficos; hay un proceso de resumen estadístico que se concreta con el cálculo de indicadores. Existen dos formas de presentar ordenadamente los datos estadísticos:  En forma tabular, como son los cuadros y tablas estadísticas  Mediante gráficos y diagramas 1. TABLA DE FRECUENCIA Son tablas de trabajos estadísticos, que presenta la distribución de un conjunto de elementos de acuerdo a las categorías de las variables, en ellas se observa la frecuencia o repeticiones de cada uno de los valores de la variables, que se obtienen después de realizar la operación de tabulación, la tabla presenta los diversos tipo de frecuencia a la vez se utiliza para organizar los datos y calcular algunos indicadores, medidas de resumen o estadígrafo. 2. PARTES PRINCIPALES DE UNA TABLA DE FRECUENCIA a. Número de cuadro, es el código o elemento de identificación que permite ubicar el cuadro en el interior de un documento. El número se anota junto UCV – Lima este

Página 25

Métodos estadísticos

con la palabra “cuadro”, por ejemplo “cuadro N 3.3”. Indica que es el tercer cuadro del capítulo tres. b. Título, es la descripción resumida del contenido del cuadro, la redacción del título debe ser breve, claro y completo de modo que se pueden deducir sin ambigüedad que tipo de información contiene el cuadro. c. Concepto o encabezamiento, es la descripción de las filas y columnas de un cuadro estadístico, el encabezamiento se ubica en la parte superior del cuerpo del cuadro. Índica las variables y sus categorías o intervalos, también puede indicar un periodo de tiempo. d. Cuerpo del cuadro, es el contenido numérico de los cuadros. Es la parte donde se colocan los datos correspondientes a la características o variables indicados en el encabezamiento o en los conceptos, es decir presenta la distribución de los elementos según la clasificación en categoría de las variables. e. Notas de pie o llamadas, se usa para algunos términos o siglas, y también para indicar que elementos están o no incluidos en algunos de los conceptos del cuadro. f. Fuentes, es la indicación al pie del cuadro, que sirve para nombrar la publicación, entidad, estudio o fuentes de donde se obtuvieron los datos utilizados para construir el cuadro. La identificación de la fuente permite, si fuera el caso, comprobar la información o para obtener información complementaria. Hay dos tipos de fuentes: primaria, cuando se obtiene directamente de la unidad de análisis o cuando se recurre a los propios formularios de una encuesta; secundaria, cuando se recurre a documentos, boletines o cuadros estadísticos publicados. g. Nota de unidad de medida, se escribe debajo del título original, se usa cuando se abrevia la escritura de las cifras y para expresar en que unidades están expresada la variables. h. Elaboración, es una indicación que se coloca debajo de la fuente y sirve para mencionar el responsable, que utilizando datos originales o de la fuente, elaboró el cuadro estadístico final; indicando la responsabilidad de la publicación del cuadro. 3. ELEMENTOS DE UNA TABLA DE FRECUENCIAS a. Valor de la variable o intervalo de clases: Resulta de la clasificación o categorización de variable.

UCV – Lima este

Página 26

Métodos estadísticos

b: Frecuencia absoluta: Es el número de veces que se repite un determinado valor de la variable; en el caso de los intervalos es el numero de observaciones comprendido en dicho intervalo; está representado por “fi” c. Frecuencia relativa: Es el cociente de la frecuencia absoluta entre el total de f hi  i datos, está representado por “hi “ n d. Frecuencia porcentual: Es la multiplicación de la frecuencia relativa por 100 pi  hi * 100% e. Frecuencia absoluta acumulada: Es el que resulta sucesivamente las frecuencias absoluta, se representa por “ FL”

de

acumular

k

Fk   f i  f 1  f 2  ......  f k i 1

f. Frecuencia relativa acumulada Es el que resulta de acumular o sumar sucesivamente las frecuencias relativas, se representa por “ Hi” k

H k   hi  h1  h2  ......  hk i 1

g. Frecuencia porcentual acumulada Es el que resulta de acumular o sumar sucesivamente las frecuencias porcentuales, se representa por “ Pi” k

Pk   pi  p1  p 2  ......  p k i 1

4. PROPIEDADES DE LAS FRECUENCIAS         

Las frecuencias absoluta y las frecuencias absoluta acumuladas son números enteros no negativos y no mayores que “n”. Las frecuencias relativa y las frecuencias relativa acumulada son valores que varían entre 0 a 1. Las frecuencias porcentuales y porcentuales acumuladas son número que varían de 0 a 100%. La suma de todas las frecuencias absoluta es igual al tamaño de la muestra. La suma de todas las frecuencias relativa es igual a la unidad. La suma de todas las frecuencias porcentuales es 100%. La última frecuencia absoluta acumulada es igual al tamaño de la muestra. La última frecuencia relativa acumulada es la unidad La última frecuencia porcentual acumulada es 100%

UCV – Lima este

Página 27

Métodos estadísticos

5. TABLA DE FRECUENCIA Y GRÁFICOS PARA VARIABLE CUALITATIVAS La tabla de frecuencia tiene la siguiente forma: C

f

h

p

C1

f1

h1

p1

C2

f2

h2

p2

C3

f3

h3

p3

C4

f4

h4

p4

La representación grafica de la distribución de frecuencia de variables cualitativa, se hace comúnmente por gráfica de barras y de sectores. EJEMPLO 1 En una entrevista a una muestra de 30 personas sobre su preferencia de bebidas gaseosa por los tres colores: negro(N), rojo(R) , blanco(B) se ha obtenido los siguiente resultados:

B

B

R

B

R

B

R

B

R

B

R

N

R

B

B

B

R

R

N

R

N

N

N

R

N

N

B

N

B

B

* Realizar el cuadro de frecuencia y los gráficos.

UCV – Lima este

Página 28

Métodos estadísticos

SOLUCIÓN TABLA DE DISTRIBUCIÓN DE FRECUENCIA DEL COLOR DE BEBIDA GASEOSA

f

h

p

BLANCO

12

0,40

40%

ROJO

10

0,33

33%

NEGRO

8

0,27

27%

COLOR DE BEBIDA

27%

40% 33%

BLANCO ROJO NEGRO

El 40% de encuestados tiene preferencia el color blanco como bebida gaseosa.

UCV – Lima este

Página 29

Métodos estadísticos

ACTIVIDADES 1. Al investigar el nivel socioeconómico en las modalidades: bajo (B), medio (M), alto (A) de 50 familia, se obtuvo los siguientes datos:

M

A

M

A

B

B

M

B

B

A

M

A

M

A

B

B

M

B

B

M

M

B

B

M

B

A

M

M

B

A

B

M

B

M

M

A

B

M

M

B

M

M

A

M

M

A

B

A

M

B

Construir la distribución de frecuencia y trazar su graficas. 2. El siguiente cuadro se tiene la clasificación de un grupo de pacientes que se le hizo un Depistaje de cáncer, “sí” indica que el paciente tiene cáncer, “no” indica que el paciente no tiene cáncer. Realizar el análisis descriptivo del conjunto de datos.

UCV – Lima este

si

no

si

no

no

si

si

no

si

si

si

no

no

si

no

no

si

no

no

si

no

si

si

no

no

si

no

no

no

no

Página 30

Métodos estadísticos

3. Un estudio de 50 embarazo proporcionó los siguientes datos sobre la Complicación del embarazo “sí” indica que sí hubo complicaciones, “no” indica que no hubo complicaciones, realizar la tabla de frecuencia y gráfico.

UCV – Lima este



no





no

no

no





no



no





no





no

no

no

no



no

no

no

no



no

no



no



no

no







no





no



no





no

no

no





Página 31

Métodos estadísticos

GLOSARIO

Defina brevemente, con sus propias palabras, cada término de la lista.



Operacionalización: ………………………………………………………………….



Fuente de datos: ………………………………………………………………………



Observación: …………………………………………………………………………..



Documento: ……………………………………………………………………………



Entrevista: ……………………………………………………………………………..



Encuesta: ………………………………………………………………………………



Cuestionario: ………………………………………………………………………….



Codificación: ………………………………………………………………………….



Tabla de frecuencia: …………………………………………………………………..



Frecuencia absoluta: …………………………………………………………………..



Frecuencia relativa: ……………………………………………………………………



Frecuencia porcentual: ………………………………………………………………..



Frecuencia absoluta acumulada: ……………………………………………………



Frecuencia relativa acumulada: ………………………………………………………



Frecuencia porcentual acumulada: ………………………………………………….

UCV – Lima este

Página 32

Métodos estadísticos

AUTOEVALUACIÓN 1. ¿Quién produce el conocimiento científico? a) El estadístico c) El investigador b) El matemático d) El encuestador 2.

¿Cuándo el investigador se pone en contacto con los objetos sometido a estudio se llama? a) Recopilación de información c) Estadística b) Población d) Muestra

3.

¿Cómo se llama la etapa donde se aplica los argumentos matemático y teórico de la estadística? a) Ciencias b) Análisis estadístico c) Frecuencia absoluta d) Frecuencia relativa

4. La acción de mirar con rigor se llama… a) Observación b) Información c) Diagnóstico d) Ninguna 5. La técnica que recopila o busca en fuente graficas se llama… a) Libro b) Cuestionario c) Documento d) Ninguna 6. La técnica que pone en interrelación a dos personas se llama… a) Entrevista b) Diálogo c) Visita d) Ninguna 7. La técnica mediante el cual la respuesta se convierte en número se llama… a) Frecuencia b) Porcentaje c) Relativa d) Codificación Solución 1 .- c

2 .- a

UCV – Lima este

3 .- b

4 .- a

5 .- c

6 .- a

7.- d

Página 33

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 34

Métodos estadísticos

ORGANIZACIÓN Y PRESENTACIÓN DE DATOS CUANTITATIVOS

1. INTRODUCCIÓN En esta sesión los alumno conocerán los procedimiento matemático que se debe seguir para elaborar una tabla de frecuencia y grafico para una variable cuantitativa. 2. TABLA DE FRECUENCIA CUANTITATIVA DISCRETAS

Y

GRÁFICOS

PARA

VARIABLE

La tabla de frecuencia tiene la siguiente forma:

X

f

h

p

F

H

P

x1

f1

h1

p1

F1

H1

P1

x2

f2

h2

p2

F2

H2

P2

x3

f3

h3

p3

F3

H3

P3

x4

f4

h4

p4

F4

H4

P4

La representación grafica más común de una distribución de frecuencias de variable cuantitativa discreta es del tipo bastón y el de escalera.

UCV – Lima este

Página 35

Métodos estadísticos

EJEMPLO 1 Construir la distribución de frecuencia y gráfico del número de hijos por familia en una muestra de 30 hogares, si se han observado los siguientes datos:

4

4

4

1

0

4

0

2

4

1

1

4

1

1

3

2

1

2

1

2

2

3

2

4

3

4

1

4

3

0

SOLUCIÓN X = número de hijo por familia X = 0, 1, 2, 3, 4 Frecuencia absoluta

f1  3

f2  8

f4  4

f3  6

f5  9

Frecuencia relativa

h1 

3i  0.10 30

h2 

8i  0.27 30

h4 

4i  0.13 30

h5 

9i  0.30 30

h3 

6  0.20 30

Frecuencia porcentual

p1  0.10 * 100%  10%

p 2  0.27 * 100%  27%

p3  0.20 * 100%  20%

p 4  0.13 * 100%  13%

p5  0.30 * 100%  30% UCV – Lima este

Página 36

Métodos estadísticos

Frecuencia absoluta acumulada k

F1   f i  3 i 1

k

F2   f i  3  8  11 i 1

k

F3   f i  3  8  6  17 i 1

k

F4   f i  3  8  6  4  21 i 1

k

F5   f i  3  8  6  4  9  30 i 1

Frecuencia relativa acumulada k

H 1   hi  0.10 i 1

k

H 2   hi  0.10  0.27  0.37 i 1

k

h3   hi  0.10  0.27  0.20  0.57 i 1

k

H 4   hi  0.10  0.27  0.20  0.13  0.70 i 1

UCV – Lima este

Página 37

Métodos estadísticos k

H 5   hi  0.10  0.27  0.20  0.13  0.30  1 i 1

Frecuencia relativa acumulada k

P1   p i  10% i 1

k

P2   p i  10%  27%  37% i 1

k

P3   p i  10%  27%  20%  57% i 1

k

P4   p i  10%  27%  20%  13%  70% i 1

k

P5   p i  10%  27%  20%  13%  30%  100% i 1

TABLA DE DISTRIBUCIÓN DE FRECUENCIA SEGÚN EL NÚMERO DE HIJO POR FAMILIA

x

f

h

p

F

H

P

0

3

0,10

10%

3

0,10

10%

1

8

0,27

27%

11

0,37

37%

2

6

0,20

20%

17

0,57

57%

3

4

0,13

13%

21

0,70

70%

4

9

0,30

30%

30

1,00

100%

UCV – Lima este

Página 38

Métodos estadísticos

1. TABLA DE CONTINUA

FRECUENCIA

PARA

VARIABLE

CUANTITATIVA

La tabla de frecuencia tiene la siguiente forma: R = RANGO = MAX – MIN K = NÚMERO DE INTERVALO = 1 + 3.3LOG(n) = A = AMPLITUD DEL INTERVALO = R/ K L = LÍMITES L  Li 1 X = MARCA DE CLASE = i 2 La tabla de frecuencia para una variable cuantitativa continua debe tener intervalos, marca de clases y todas las frecuencia tanto simple como acumulada.

LÍMITES X

f

h

p

F

H

P

L1 - L2

x1

f1

h1

p1

F1

H1

P1

L2 - L3

x2

f2

h2

p2

F2

H2

P2

L3 - L4

x3

f3

h3

p3

F3

H3

P3

L4 - L5

x4

f4

h4

p4

F4

H4

P4

La representación grafica más común de una distribución de frecuencias de variable cuantitativa continua es histograma de frecuencia, el polígono de frecuencia y la ojiva.

UCV – Lima este

Página 39

Métodos estadísticos

EJEMPLO 2 Construir la distribución de frecuencia de los ingresos quincenales de 50 personas si los datos recopilados son:

63

23

10

59

53

89

53

72

60

65

64

36

70

52

67

76

49

57

51

61

57

44

56

62

62

67

73

64

43

85

60

61

56

59

68

71

67

62

35

56

62

61

51

63

78

26

55

81

60

99

Realizar la tabla de frecuencia y gráficos. Solución R = RANGO = MAX – MIN = 99 – 10 = 89 K = NUMERO DE INTERVALO = 1 + 3.3LOG(n) = 1 +3.33log (50) = 6.67 = 7 A = AMPLITUD DEL INTERVALO = R/ K = 89 / 7 = 12.71 = 13 L = LIMITES

L1  MIN  10

L2  10  13  23

L3  23  13  36

L4  36  13  49

L5  49  13  62

L6  62  13  75

L7  75  13  88

L8  88  13  101

UCV – Lima este

Página 40

Métodos estadísticos

X = MARCA DE CLASE =

Li  Li 1 2

X1 

10  23  16.5 2

X2 

23  36  29.5 2

X3 

36  49  42.5 2

X4 

49  62  55.5 2

X5 

62  75  68.5 2

X6 

75  88  81.5 2

X7 

88  101  94.5 2

TABLA DE DISTRIBUCIÓN DE FRECUENCIA SEGÚN INGRESO QUINCENAL

X

f

h

p

F

H

P

10 A 23

16,5

1

0,02

2%

1

0,02

1%

23 A 36

29,5

3

0,06

6%

4

0,08

8%

36 A 49

42,5

3

0,06

6%

7

0,14

14%

49 A 62

55,5

20

0,40

40%

27

0,54

54%

62 A 75

68,5

17

0,34

34%

44

0,88

88%

75 A 88

81,5

4

0,08

8%

48

0,96

96%

88 A 101

94,5

2

0,04

4%

50

1,00

100%

INGRESO QUINCENAL 25 10 A 23

20

23 A 36 36 A 49

15

49 A 62

10

62 A 75 75 A 88

5

88 A 101

0 1

UCV – Lima este

Página 41

Métodos estadísticos

ACTIVIDADES 1. Al averiguar el número de hijos de 50 empleados que están registrado en los archivos de una empresa se obtuvo los siguientes datos:

3

1

3

1

4

2

0

5

3

2

4

1

4

1

5

2

0

5

3

3

4

0

4

4

4

3

2

1

4

3

1

0

3

4

5

1

1

1

4

4

0

1

0

2

3

0

5

3

1

5

Construir la distribución de frecuencia y trazar su gráfica. 2. Se realizó una encuesta a una muestra de padres de familias de una I.E., para averiguar el número de habitaciones que tienen sus respectivas viviendas y se obtuvieron los siguientes resultados:

5

8

6

6

8

4

6

8

6

4

7

5

5

7

6

4

7

6

6

3

3

2

1

6

1

4

5

8

5

5

4

3

4

2

3

2

Construir la distribución de frecuencia y trazar su gráfica.

UCV – Lima este

Página 42

Métodos estadísticos

3. La inversión anual, en miles de fueron:

dólares, de una muestra de 50 fábricas

11

15

36

25

17

39

19

75

101

125

27

18

29

33

20

30

37

79

105

129

28

41

33

22

10

26

27

82

109

138

34

12

27

31

25

46

24

85

112

140

14

18

26

35

24

23

31

90

116

142

Construir la distribución de frecuencia y trazar su gráfica.

4. A 50 trabajadores varones se le midió la puntuación de Hamilton. 17,9

18,4

12,3

11,2

11,2

30,2 21,3

25,1

15,3

26,8 22,7

11,2

15,8

15,1

14,7

12,5

12,3

25,3

8,3

22,3

12,2

24,6 16,2

15,9

25,2 32,3 26,3 26,3

15,8

26,4

18,2

22,7 22,4

14,3

20,1 33,2 24,3

20,5 21,9

13,4

15,5

12,1

20,3 30,1

21,3

28,9

35,2

23,1

29,3 34,2

Construir la distribución de frecuencia y trazar su gráfica.

UCV – Lima este

Página 43

Métodos estadísticos

5. El peso de 50 productos en kilogramos son:

35.6

31.1

30.1

30.5

33.5

27.9

31.6

28.7

31.3

30.5

29.3

28.1

33.2

24.9

30.6

31.5

33.7

30.5

26.8

35.1

22.5

32.1

27.9

29.9

28.6

34.2

28.5

31.2

28.7

30.1

34.2

27.5

29.5

30.4

30.3

32.7

29.8

28.7

31.3

29.6

20,5

21,9

13,4

15,5

28,9

12,1

20,3

30,1

29,3

34,2

Elaborar una distribución de frecuencia y su grafico respectivo.

6. A 50 sujetos se les midió la cantidad de alcohol consumido por semana, las cuales se muestras en el siguiente conjunto de datos.

0,05

3,11

5,64

7,83

8,65 10,45 12,36 12,36 17,89 18,36

1,51

4,23

5,98

7,88

9,54 10,78 12,54 15,56 17,89 18,59

2,53

4,56

6,36

7,99

9,63

11,23 12,89 14,58 18,23 19,56

3,23

4,89

6,54

8,52

9,52

11,45 13,25 15,89 18,25 19,85

3,24

5,23

6,87

8,35

10,12 11,56 13,45 16,63 18,45 19,56

Elaborar una distribución de frecuencia y su gráfico respectivo.

UCV – Lima este

Página 44

Métodos estadísticos

GLOSARIO

Defina brevemente, con sus propias palabras, cada término de la lista.



Encuesta: ……………………………………………………………………..……………



Cuestionario: ……………………………………………………………………………...



Codificación: ………………………………………………………………………………



Tabla de frecuencia: ……………………………………………………………………...



Frecuencia absoluta: ……………………………………………………………………...



Frecuencia relativa: ……………………………………………………………………….



Frecuencia porcentual: …………………………………………………………………...



Frecuencia absoluta acumulada: ………………………………………………………..



Frecuencia relativa acumulada: ………………………………………………………….



Frecuencia porcentual acumulada: ……………………………………………………..



Gráfico de la escalera: ……………………………………………………………………



Gráfico del bastón: ………………………………………………………………………



Gráfico del histograma: …………………………………………………………………



Polígono de frecuencia: ………………………………………………………………….

UCV – Lima este

Página 45

Métodos estadísticos

AUTOEVALUACIÓN 1. El consumo mensual de agua ( en metros cúbicos) de ochenta fábricas se tabuló en una distribución de frecuencia simétrica de 7 intervalos de amplitud iguales a tres. Siendo la marca de clase del cuarto intervalo igual a 19. si las frecuencias del primer y tercer intervalo son iguales a 5% y 15% del total respectivamente y si la quinta frecuencia acumulada es de 85% del total. Reconstruir la distribución de frecuencia y los gráficos respectivos. 2. Los tiempos de vida útil (en días) de un producto se tabularon en una distribución de frecuencia de 5 intervalos de igual amplitud con frecuencia relativa acumulada 0.10, 0.25, 0.55, 0.80, 1.00 . Determine la distribución de frecuencia absolutas si la tercera frecuencia absoluta acumulada es 11, si la segunda marca de clase es 10 y el límite inferior del cuarto intervalo es 16. 3. Los tiempo de vida útil de un tipo de batería, se tabuló en una distribución de frecuencia de 5 intervalos de igual amplitud con frecuencia relativa acumuladas: 0,10 , 0,25 , 0,55 , 0,80 , 1.00. determine la distribución de frecuencia absolutas si la tercera frecuencia absoluta acumulada es 11, si la segunda marca de clase es 6 y si el límite inferior del cuarto intervalo es 12. 4. La nota de un examen aplicado a obreros de una fábrica se tabuló en una distribución de frecuencia relativa de 3 intervalos de amplitud iguales a 5, la nota mínima es 5 y el 48% de las notas son menores que 12, y si el 80% de las notas son inferiores a 16. Reconstruir la distribución de frecuencia.

UCV – Lima este

Página 46

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p. 3. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 6. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p.

UCV – Lima este

Página 47

Métodos estadísticos

MEDIDAS DE TENDENCIA CENTRAL

1. INTRODUCCIÓN Son estadígrafos que describen la posición que ocupan una distribución de frecuencia alrededor de un valor de la variables. Los estadígrafos son valores que de manera condensada representa en un solo valor a una serie de datos y además describen resumidamente el conjunto de observaciones. Los estadígrafos de posición de uso más frecuente mediana, la moda, los deciles, cuartiles y percentiles.

son: la media, la

2. LA MEDIANA La mediana o valor mediano de una serie de valores observado es el numero que separa a la serie de datos ordenados en formas creciente en dos partes iguales. La mediana es una medida de posición que depende del número de datos observado y no de su valores de estos datos. 2.1 MEDIANA PARA DATOS NO TABULADOS Para calcular la mediana para datos no tabulados se obtiene bajo el siguiente criterio: Cuando “n” es impar

ME  X n 1 2

Ejemplo 1

2, 4, 5, 8, 10, 11, 13. ME  X n 1  X 7 1  X 4  8 2

Cuando “n” Ejemplo 2

es par

X n / 2   X n  2  / 2 2

1, 4, 5, 7, 13, 15, 16, 19 ME 

UCV – Lima este

ME 

2

X n / 2   X n  2  / 2 2



X 4  X 5 7  13   10 2 2 Página 48

Métodos estadísticos

2.2 MEDIANA PARA DATOS TABULADOS (sin intervalo) Si los valores de una variable discreta se tabulan en una distribución de frecuencia de la forma “dato frecuencia”, entonces la mediana será aquel valor de la variable que contenga a la primera frecuencia absoluta acumulada que supere o sea igual a n/2. Ejemplo 3 El número de hijos por familia se encuentra en la siguiente tabla hallar la mediana. El valor de la media es 2 porque es el valor de la variable que tiene a la primera frecuencia absoluta acumulada que supera a la mitad.

f

F

0

3

3

1

8

11

2

6

17

3

4

21

4

9

30

X

2.3 MEDIANA PARA DATOS TABULADOS (con intervalo) Si el valor de una variable discreta o continua se tabulan en una distribución de frecuencia por intervalos, la mediana se determina mediante la siguiente fórmula:  n    Fi 1   ME  Li  A 2  Fi  Fi 1      Ejemplo 4 Los ingresos quincenales de 50 personas están representados en la siguiente tabla hallar la mediana.

UCV – Lima este

Página 49

Métodos estadísticos

INTERVALOS

f

F

10

23

1

1

23

36

3

4

36

49

3

7

49

62

20

27

62

75

17

44

75

88

4

48

88 101

2

50

 n    Fi 1    49  13 25  7   55.32 ME  Li  A 2  Fi  Fi 1   44  7      El 50% de los ingresos quincenales son menores o iguales a 55.32

2.4 VENTAJA DE LA MEDIANA   

La suma de la diferencia de los datos respecto a su mediana es menor o igual que la suma de las diferencias de esos datos respecto a cualquier otro valor. La mediana, a diferencia de la media, depende del número de datos y no del valor de los datos. Por eso no está afectada de valores extremos. La mediana puede ser calculada para distribuciones de frecuencia con intervalos de diferente amplitud, siempre que se pueda determinar el límite inferior del intervalo de la mediana.

3. LA MODA La moda de una serie de datos es aquel valor que se repite con mayor frecuencia. Este promedio se usa cuando se requiere señalar el valor más común de una serie de datos. La moda es una medida menos importante que la mediana debido a su ambigüedad. La moda no siempre existe y si existe, no siempre es única. 3.1 MODA PARA DATOS NO TABULADOS Ejemplo 5 Sería el valor que se repite el mayor número de veces 5, 8, 8, 8, 8, 8, 8, 11, 15, 15, 15, 15, entonces la moda sería 8 .

UCV – Lima este

Página 50

Métodos estadísticos

3.2 MODA PARA DATOS TABULADO (sin intervalo) La moda sería aquel valor de la variable que tenga la frecuencia absoluta. Ejemplo 6 El número de hijos por familia se encuentra en la siguiente tabla hallar la moda.

X

f

0

3

1

8

2

6

3

4

4

9

El mayor número de familia tiene 4 hijos. 3.3 MODA PARA DATOS TABULADO (con intervalo) La moda para datos tabulado en tablas de frecuencia encuentra mediante la siguiente fórmula:  d1   MO  Li  A d  d 1 2  

con intervalo

se

Ejemplo 7 Los ingresos quincenales de 50 personas están representados en la siguiente tabla hallar la moda. INTERVALOS

f

10

23

1

23

36

3

36

49

3

49

62

20

62

75

17

75

88

4

88 101

2

 d1   17    49  13 MO  Li  A   60.55  17  3   d1  d 2  El ingreso quincenal más frecuente es 60.55 . UCV – Lima este

Página 51

Métodos estadísticos

4. MEDIA ARITMÉTICA La media aritmética se denomina simplemente media y comúnmente se le conoce como promedio, la media es el estadígrafo más importante; se define y calcula dividiendo la suma de los valores de la variables entre el número de observaciones o valores.  

La media que se obtiene a partir de “n” datos originales se denomina media aritmética simple. La media obtenida a partir de los datos agrupados en tabla de frecuencia se denomina media aritmética ponderada.

4.1 MEDIA ARITMÉTICA PARA DATOS NO TABULADOS La media aritmética para datos no tabulados se obtiene mediante la siguiente fórmula: n

x

___

x 

i

i 1

n

Ejemplo 8 Hallar la media de las siguientes edades: 15, 16, 18, 15, 25. n

___

x 

x

i

i 1

n



89  17.8 5

4.2 MEDIA ARITMÉTICA PARA DATOS TABULADOS (sin intervalos) La media aritmética para datos tabulados se obtiene mediante la siguiente fórmula: k

__

x 

 i 1

f i xi n

Ejemplo 9 Hallar el número promedio de hijos por familia.

UCV – Lima este

X

F

0

3

1

8

2

6

3

4

4

9

Página 52

Métodos estadísticos k

__

x 

Solución:

 i 1

f i xi n



71  2.36 30

4.3 MEDIA ARITMÉTICA PARA DATOS TABULADOS (con intervalos) La media aritmética para datos tabulados se obtiene mediante la siguiente fórmula: k

__

x 

f i 1

i

xi

n

Ejemplo 10 Los ingresos quincenales de 50 personas están representados en la siguiente tabla hallar el promedio. f

INTERVALOS 10

23

1

23

36

3

36

49

3

49

62

20

62

75

17

75

88

4

88 101

2

4.4 PROPIEDADES DE LA MEDIA ARITMÉTICA     

___

La suma total de n valores es igual “ x n ”. La media de una constante es igual a la misma constante. La media del producto de una constante por una variable, es igual al producto de la constante por la media de la variable. La media de la suma de dos variables, es igual a la suma de las medias de cada una de dichas variables. Si cada uno de los “n” valores de XI es trasformado en: YI = aXi + b, siendo “a” y “b” constante, entonces, la media de los “n” valores es: __



__

y  a x b La media aritmética de datos tabulados, se calcula también utilizando las frecuencia relativas.

UCV – Lima este

Página 53

Métodos estadísticos __

k

x   xi hi i 1



La media de una muestra es igual a la media ponderada de su sub. muestras donde los pesos son los tamaños respectivos. k

__

x

__

n x i 1 k

i

i

n i 1

i

NOTA  La media aritmética como estadígrafo de posición de una distribución proporciona una idea de la posición de los valores alrededor de la media.  La media es un valor promedio, por tanto no significa que todos los valores observados resultan ser iguales.  La media siempre está influenciada por los valores extremos, sean mayores o menores.  La media aritmética no divide en dos partes iguales a un conjunto de datos.

5. CUARTILES Los cuartiles son los estadígrafos que divide a un conjunto de datos en cuatro partes iguales y en total son tres cuartiles; se calcula utilizando la siguiente fórmula:  kn   Fi 1    k = 1, 2, 3 QK  Li  A 4  Fi  Fi 1      Ejemplo 11 Los ingresos quincenales de 50 personas están representados en la siguiente tabla. Hallar el primer cuartil.

INTERVALOS 10 23 23 36 36 49 49 62 62 75 75 88 88 101

UCV – Lima este

F 1 3 3 20 17 4 2

F 1 4 7 27 44 48 50

Página 54

Métodos estadísticos

 kn   Fi 1     36  13 12.5  7   39.58 Q K  Li  A 4  Fi  Fi 1   27  7     

El 25% de los ingresos quincenales son menores o iguales a 39.58 Ejemplo 12 Los ingresos quincenales de 50 personas están representados en la siguiente tabla. Hallar el tercer cuartil.

INTERVALOS

f

F

10

23

1

1

23

36

3

4

36

49

3

7

49

62

20

27

62

75

17

44

75

88

4

48

88 101

2

50

 3n   Fi 1     62  13 37.5  27   65.68 Q3  Li  A 4  Fi  Fi 1   44  7      El 75% de los ingresos quincenales son menores o iguales a 65.68

6. DECILES Es el estadígrafo que divide a un conjunto de datos en 10 partes iguales; se calcula mediante la siguiente fórmula:  kn   Fi 1    DK  Li  A 10  Fi  Fi 1     

Ejemplo 13 Los ingresos quincenales de 50 personas están representados en la siguiente tabla. Hallar el decil 8.

UCV – Lima este

Página 55

Métodos estadísticos

INTERVALOS

F

F

10

23

1

1

23

36

3

4

36

49

3

7

49

62

20

27

62

75

17

44

75

88

4

48

88 101

2

50

 kn   Fi 1     62  13 40  27   71.94 D K  Li  A 10  Fi  Fi 1   44  27     

El 80% de los ingresos quincenales son menores o iguales a 71.94 7. PERCENTILES Es el estadígrafo que divide a un conjunto de datos en 100 partes iguales  kn   Fi 1   100  PK  Li  A  Fi  Fi 1     

Ejemplo 14 Los ingresos quincenales de 50 personas están representados en la siguiente tabla. Hallar el percentil 35. INTERVALOS

UCV – Lima este

F

F

10

23

1

1

23

36

3

4

36

49

3

7

49

62

20

27

62

75

17

44

75

88

4

48

88 101

2

50 Página 56

Métodos estadísticos

 kn   Fi 1     49  16 17.5  7   55.83 PK  Li  A 100  Fi  Fi 1   27  7     

El 35% de los ingresos quincenales son menores o iguales a 55.93 soles.

ACTIVIDADES 1. La inversión anual, en miles de dólares, de una muestra de 50 fábrica en compra de insumo están distribuido en la siguiente tabla de frecuencia. Hallar las medidas de tendencia central. INTERVALOS

f

20 -

50

12

50 -

80

7

80 - 110

6

110 - 140

15

140 - 170

10

2. A 50 obreros varones se le midió la puntuación de Hamilton y se le representó en la siguiente tabla de frecuencia. Hallar las medidas de tendencia central.

UCV – Lima este

INTERVALOS

f

21,3 - 24,3

5

24,3 - 27,3

10

27,3 - 32,3

15

32,3 - 37,3

10

37,3 - 42,3

10

Página 57

Métodos estadísticos

3. Los costos de fabricación de 20 productos son los siguientes: 9,35

8,56

9,00

8,63

9,60

9,00

8,56

9,5

9,46

7,52

9,99

8,00

9,53

9,77

9,54

7,56

9,20

8,56

9,36

8,56

Si el precio de venta de cada producto es tres veces su costo de fabricación menos 5 soles. Calcular la utilidad media por producto. 4. El sueldo promedio de 200 empleados de una empresa es 400. Se propone dos alternativas de aumento: a) 75 soles a cada uno, b) 15% de su sueldo más 10 soles a cada uno. Si la clínica dispone a lo más de 94000 soles para pagar sueldos, ¿Cuál alternativa es la más conveniente? 5. De una central telefónica de una empresa salieron 70 llamadas de menos tres minutos, promediando 2.3 minutos, 40 llamadas de menos de minutos pero no menos de tres minutos, promediando 6.4 minutos, y llamadas de al menos 10 minutos, promediando 15 minutos. Calcular duración promedio de todas las llamadas.

UCV – Lima este

de 10 10 la

Página 58

Métodos estadísticos

GLOSARIO

Defina brevemente, con sus propias palabras, cada término de la lista. 

Mediana: …………………………………………………………………………….



Moda: ……………………………………………………………………………….



Media: ……………………………………………………………………………….



Percentiles: …………………………………………………………………………..



Cuartiles: ……………………………………………………………………………..



Deciles: ……………………………………………………………………………….



Asimetría positiva: …………………………………………………………………..



Asimétrica negativa: ………………………………………………………………..

AUTOEVALUACIÓN 1. Los egresos de una empresa varían de 3000 a 8000 soles distribuido en forma simétrica en cinco intervalos de igual amplitud, con el 15%, 20% y 30% de casos en el primer, segundo y tercer intervalo respectivamente. Calcule el egreso promedio 2. En un examen de estadística participaron tres grupos A, B y C con un total de 180 alumnos; habiendo obtenidos nota promedio general de 72 puntos. Los puntajes promedio de los grupos A y B fueron 75 y 62, y estaba constituido por 80 y 60 alumnos respectivamente. ¿Cuál es la nota promedio del grupo C? 3. En el control de calidad de 120 lotes de determinado producto, se observó el número de artículos defectuosos por lote, obteniendo los siguientes resultados: el 5% de los lotes no tiene artículos defectuoso, el 15% tiene un defectuoso, el 25% tiene 2 defectuosos, el 45% tiene 3 defectuosos y el resto contiene 4 defectuoso.

UCV – Lima este

Página 59

Métodos estadísticos

4. Cuatro fabricas A, B, C y D, producen un mismo tipo de objeto. La fábrica B produce el doble d C, la D 10% menos que la C y la A el 60% menos que la B. si los costos de producción por cada unidad del objeto de esta fábricas son respectivamente: 0.2, 0.3, 0.2 y 0.5, calcule el precio medio de venta si se sabe que la fábrica gana 20% por unidad vendida. 5. El sueldo medio de los obreros de una fábrica es de 286 dólares ¿Qué porcentaje de hombres y mujeres trabajan en la fábrica si su sueldo medio respectivo son 300 y 260 dólares?

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 60

Métodos estadísticos

MEDIDA DE DISPERSIÓN

1. INTRODUCCIÓN Las medidas de tendencia central no son suficientes para describir un conjunto de valores de alguna variable estadística. Los promedios determinan el centro, pero nada indica de cómo están situados los datos respecto al centro. En primer lugar, se necesita una medida de nivel de dispersión o la variabilidad de los datos con respecto a su centro con la finalidad de ampliar la descripción de los datos o de comparar dos o más serie de datos. En segundo lugar , se necesita una medida de grado o nivel de la asimetría o la deformación en ambos lados del centro de una serie de datos, con el fin de describir la forma de la distribución de los datos. Esta medida se denomina índice de asimetría. En tercer lugar, se necesita una medida que nos permita comparar el apuntamiento o curtosis de distribución simétrica con respecto a la distribución simétrica normal. Esta medida se denomina índice de apuntamiento o curtosi. 2. DEFINICIÓN Las medidas de dispersión o variabilidad son números que miden el grado de separación de los datos con respecto a un valor central, que generalmente es la media aritmética. Las principales medidas de dispersión son:     

El El La La El

rango rango intercuartil varianza desviación estándar coeficiente de variación

3. RANGO O RECORRIDO El rango o recorrido, de una serie de datos, es la diferencia entre sus valores máximo y mínimo. R = max – min El rango es una medida de dispersión muy fácilmente calculable, pero es muy inestable, ya que depende únicamente de los dos valores extremos. Su valor puede cambiar grandemente si se añade o elimina un solo dato. Por tanto su uso es muy limitado. UCV – Lima este

Página 61

Métodos estadísticos

4. RANGO INTERCUARTIL El rango intercuartil, es la diferencia entre sus cuartiles tercero y primero. RI = Q3 – Q1 El rango intercuartil es una medida que excluye el 25% más alto y el 25% más bajo, dando un rango dentro del cual se encuentra el 50% central de los datos observados y a diferencia del rango total no se encuentra afectada por los valores extremos. 5. LA VARIANZA La varianza, es una medida que cuantifica el grado de dispersión o de variación de los valores de una variable cuantitativa con respecto a la media aritmética. Si los valores tienden a concentrarse alrededor de su media, la varianza será pequeña. Si los valores tiende a distribuirse lejos de la media, la varianza será grande. La varianza es la media aritmética de los cuadrados de las diferencia de los datos con respecto a su media aritmética. a. La varianza para datos no tabulados n

2 

 ( xi  U ) 2 i 1

N

n



X i 1

2 i

N

2

U

Ejemplo 1 Hallar la varianza al siguiente conjunto de datos 5, 8, 12, 19, 14. b. La Varianza para datos tabulados (sin intervalo) n

  2

 i 1

fi (X i  U )2 N

n



 i 1

i

X i2 f i N

2

U

Ejemplo 2 Hallar la varianza de la tabla siguiente, que representa el número de hijos por familia. X f 0 3 1 8 2 6 3 4 4 9 UCV – Lima este

Página 62

Métodos estadísticos

c. La Varianza para datos tabulados (con intervalo) n

2 

 i 1

fi (X i  U )2 N

n



 i 1

i

X i2 f i N

2

U

Ejemplo 3 Los ingresos quincenales de 50 personas están representados en la siguiente tabla hallar la varianza. INTERVALOS

f

10

23

1

23

36

3

36

49

3

49

62

20

62

75

17

75

88

4

88 101

2

Propiedades de la varianza    

Para cualquier distribución la varianza es siempre una cantidad no negativa. Si el valor de las observaciones son todos iguales, entonces la varianza es cero. La varianza de una constante es cero. La varianza del producto de una constante por una variable, es igual al cuadrado de la constate por la varianza de la variable.  La varianza de la suma de una variable mas una constante, es igual a la varianza de la variable. 6. DESVIACIÓN ESTÁNDAR La desviación estándar es la raíz cuadrada positiva de la varianza    2 7. COEFICIENTE DE VARIACIÓN El coeficiente de variación es una medida de dispersión relativa, que se define como la desviación estándar dividido por la media aritmética. El coeficiente de variación es una medida muy útil para comparar la variabilidad de dos o más serie de datos que tenga distinta unidades de medidas o media aritmética diferente.

UCV – Lima este

Página 63

Métodos estadísticos

C.V 



* 100%

U

8. USO DE LAS MEDIDAS DE VARIACIÓN La varianza viene expresada en unidades cuadráticas en las que vienen expresado los datos. Las desviación estándar viene expresada en la misma unidades en las que viene expresados los datos. El coeficiente de variación viene expresada en números abstractos (suprimiendo las unidades en las que vienen expresado los datos) Si dos o más serie tienen medias aritméticas iguales y dispersiones diferentes entonces la serie de mayor variación es aquel que tiene mayor medida de dispersión. La serie de menor variación es aquella que tiene menor medida de dispersión. Si dos o más serie de datos, no tienen medias iguales o no tienen la misma unidades de medición, entonces la serie de mayor variación es aquella que tenga mayor coeficiente de variación. NOTA Las medidas de dispersión más usuales son: MUESTRA - POBLACIÓN  Rango

R

 Varianza

S

 Desviación estándar

S

R

2

2



DATOS SIN AGRUPAR N

2 

 X i 1

n

U 

2

i

S2 

N

 x

i

i 1

 x

2

n 1

DATOS AGRUPADOS K

2  UCV – Lima este

 X i 1

 U  . fi

k

2

i

N

S2 

 m i 1

 x  . fi 2

i

n 1 Página 64

Métodos estadísticos

ACTIVIDADES 1.

A 50 varones se le midió la puntuación de Hamilton y se le representó en la siguiente tabla de frecuencia, hallar las medidas de dispersión.

INTERVALOS

f

21,3 - 24,3

5

24,3 - 27,3

10

27,3 - 32,3

15

32,3 - 37,3

10

37,3 - 42,3

10

2. En un estudio se obtuvieron estas observaciones sobre el perímetro en centímetro de 100 mesa el cual está representado en la siguiente tabla, hallar las medidas de dispersión. INTERVALOS

f

10 - 20

20

20 - 30

30

30 - 40

10

40 - 50

15

50 - 60

25

3. A 50 sujetos se les midió la cantidad de alcohol consumido por semana, la cual se muestra en la siguiente tabla. Hallar las medidas de dispersión. El coeficiente intelectual de 40 obreros está distribuido en la siguiente tabla. Hallar las medidas de posición.

UCV – Lima este

INTERVALOS

f

0 - 4

5

4 - 8

10

8 - 12

5

12 - 16

15

16 - 20

15 Página 65

Métodos estadísticos

4. La siguiente tabla corresponde a la distribución de una muestra de empleados del Ministerio de Educación según su tiempo de servicios (años). Halle e intérprete: la media aritmética, la mediana y la moda y ubicar estos valores en el Histograma correspondiente. Tiempo de servicios [0 – 4> 4–8 8 – 12 12 – 16 16 – 20 20 – 24 24 – 28 28 - 32

Nº empleados 11 13 20 17 12 6 4 2

5. La inversión anual, en miles de dólares, de una muestra de 50 empresa están distribuido en la siguiente tabla de frecuencia. Hallar las medidas de dispersión. INTERVALOS

UCV – Lima este

f

20 -

50

12

50 -

80

7

80 - 110

6

110 - 140

15

140 - 170

10

Página 66

Métodos estadísticos

GLOSARIO

Defina brevemente, con sus propias palabras, cada término de la lista. 

Rango: …………………………………………………………………………………



Intercuartil: ……………………………………………………………………….……



Varianza: ……………………………………………………………………………….



Desviación estándar: ……………………………………………………………….…



Coeficiente de variación: …………………………………………………………….



Homogéneo: …………………………………………………………………………..



Heterogéneo: ………………………………………………………………………….

AUTOEVALUACIÓN 1. En un test aplicado a 100 personas se obtuvo la siguientes información: los puntajes se tabularon en una distribución de frecuencia simétrica de 5 intervalos de amplitud iguales, siendo el puntaje mínimo 40 y el máximo de 90. la frecuencia absoluta del intervalo central fue de 40 y del quinto de 10. calcular la varianza. 2. Una prueba de conocimiento, A se calificó sobre 20 puntos dando una media de 12 y una desviación estándar de 2 puntos. Mientras que una prueba de aptitud ,B se calificó sobre 100 puntos, dando una media de 70 y una desviación estándar de 5 ¿En cuál de las dos pruebas los puntajes son más homogéneos? 3. Los sueldo de 150 trabajadores de una empresa tiene un coeficiente variación del 5% en el mes de agosto. para el mes de septiembre hay aumento a cada trabajador el 20% de su sueldo más una bonificación 60$ y el coeficiente de variación baja a 4%. Calcular la media y desviación estándar de los sueldos del mes de agosto.

UCV – Lima este

de un de la

Página 67

Métodos estadísticos

4. La distribución de los sueldos de los empleados de dos empresa A y B se tabularon en tres intervalos de igual amplitud en cada caso, siendo las frecuencias absoluta del primero al tercero de 10, 30, 30 y de 30, 50, 20. respectivamente en A y B. Si los sueldos mínimo y máximo son de 50 y 200 en A, y de 60 y 240 en B. ¿En qué empresa los sueldo son más homogéneos?

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 68

Métodos estadísticos

UNIDAD DIDÁCTICA 2: PROBABILIDADES E INFERENCIA Capacidad de Unidad: Aplica probabilidades en situaciones reales y analiza resultados, teniendo en cuenta la teoría de probabilidad

PROBABILIDAD BÁSICA

1. EXPERIMENTO Es un proceso mediante el cual resultado de una observación.

se obtiene un

1.2 CLASIFICACIÓN DE EXPERIMENTOS Los experimentos se dividen en dos clases: 1.2.1 Experimento determinístico Es aquel experimento que está completamente determinado y puede describirse por una fórmula matemática llamado también modelo determinísticos. 1.2.2 Experimento no determinístico Es aquel resultados.

experimento donde no se puede predecir

con

exactitud

los

1.2.3 Experimento aleatorio Es todo proceso que consiste de la ejecución de un acto o prueba una o más veces, cuyo resultados en cada prueba depende del azar y en consecuencia no se puede predecir con certeza y cumple ciertas características:  Que sea repetible en igualdad de condiciones.  Que se pueda describir el conjunto de todos los resultados posibles aunque no se pueda asegurar un resultado en particular.  Si se repite un número grande de veces debe aparecer cierta regularidad estadística. Ejemplo E1: Lanzar E2: Lanzar E3: Lanzar E4: Medir

un dado una moneda tres veces una moneda tantas veces hasta que aparezca la primera cara la vida útil en horas de una marca de artefacto eléctrico

UCV – Lima este

Página 69

Métodos estadísticos

1.2.3.1. Clasificación de experimento aleatorio Los experimentos aleatorios se clasifican en: a. Experimento simple Es aquel experimento que está formado por un solo acto o prueba. Ejemplo  Lanzar un dado  Lanzar una moneda b. Experimento compuesto Un experimento se dice que es compuesto, si consiste de dos o más experimento simples. A la vez se clasifican en: 

Experimento unido por la “o” excluyente: Un experimento compuesto E, se dice que es una combinación de los experimento simples, E1 , E2 si, solo si el experimento E ocurre, cuando el experimento E1 o E2 ocurre pero no ambos. Ejemplo  Lanzar un dado o una moneda.  Extraer una ficha de la urna 1 o de la urna 2.



Experimento unido por la “y”: Un experimento compuesto E, se dice que es una combinación de los experimento simples, E1 , E2 si, solo si el experimento E ocurre, cuando el experimento E1 y E2 ocurre en forma simultáneas o consecutivas. Ejemplo  Lanzar un dado y una moneda simultáneamente.  Extraer dos fichas de una urna.

2. ESPACIO MUESTRAL:  Se denomina espacio muestral al conjunto que contiene todos los resultados posible de un experimento aleatorio. Cada resultado posible de un experimento aleatorio es un elemento del espacio muestral. A cada elemento del espacio muestral se denomina también punto muestral. Esto es, el espacio muestral se describe por:  =   /  es un punto muestral  Si el espacio muestral tiene un numero finitos de elementos es posible en listar a todos estos, y si el número de elementos es grande o infinito el espacio muestral se describirá mediante un enunciado o regla de correspondencia.

UCV – Lima este

Página 70

Métodos estadísticos

2.1 CLASIFICACIÓN DE LOS ESPACIOS MUESTRALES Por el número de elementos o puntos muéstrales, los espacios muéstrales se clasifican en:  Discreto finitos, consisten de un numero finito de elementos.  Discreto infinito, consiste de un número infinito numerable de elementos.  Continuos, consiste de un número infinito no numerable de elementos. Ejemplo  

Observar el lanzamiento de una moneda S1   cara , sello    c , s 



Observar el lanzamiento de un dado

 

S2 

 1,

2 , 3, 4 , 5 , 6 



Medir la duración de un equipo electrónico S3   t : t  0 



Contar el número de vehículos que pasan por un cruce en lapsos de un minuto



El lanzamiento de dos dados



Lanzamiento de un dado y una moneda

3. EVENTOS: A, B, C……..Z Se denomina evento a cualquier subconjunto de un espacio muestral. 3.1 CLASE DE EVENTOS Los eventos se clasifican en:  Eventos imposible, Ø es aquel que no tiene puntos muestrales, en consecuencia no ocurre nunca.  Eventos unitarios o elementales, w es aquel que contiene un solo punto muestral.  Eventos compuestos, es el que consiste de dos o más eventos.  Evento seguro o cierto,  es el mismo espacio muestral, ya que es el subconjunto que contiene a todos los eventos elementales. 1) E1 : Lanzamiento de una moneda. S1   cara , sello    c , s  Podremos plantear los siguientes eventos:

UCV – Lima este

A1: que salga cara

A1 = { c }

A2 : que salga sello

A2 = ______

Página 71

Métodos estadísticos

2) E2 :Lanzamiento de un dado

S2 

 1,

2 , 3, 4 , 5 , 6 

B1 : que salga número par

B1 = _______________________

B2 : que salga número impar

B2 = _______________________

B3 : que salga número 4 ò 5

B3 = _______________________

3.2 OPERACIONES CON EVENTOS a. Unión de eventos Se denomina unión de los eventos A y B, al evento A B que consiste de todos los puntos muéstrales que pertenecen al evento A o al evento B, o ambos. A  B = {w  / w A  w B} b. Intersección de eventos Se denomina intersección de los eventos A y B al eventos AB que consiste de todos los puntos muéstrales que son comunes al evento A y al evento B. A B = {w  / w A  w B}

c. Diferencia de evento La diferencia del evento A menos B es el evento A – B, que consiste de todos los puntos muéstrales que pertenecen al evento A y no pertenecen al evento B. A  B = {w  / w A  w  B} d. Complemento de un evento Si A está incluido en B entonces el complemento está formado por aquellos elementos que están fuera del conjunto A. AC = {w B / w A} e. Eventos disjuntos Dos eventos A y B son mutuamente excluyentes o disjuntos, si no tiene elementos en común, esto es si, A B = . 3.3 PROBABILIDAD DE UN EVENTO 3.3.1 Definición de probabilidad La probabilidad de un evento es la razón entre el número de casos favorables y el número total de casos posibles.

UCV – Lima este

Página 72

Métodos estadísticos

# de resultados favorables DEFINICIÓN DE PROBABILIDAD

Probabilidad de un evento =

# de resultados posibles

CLÁSICA

PA 

nA n

3.3.2 Axioma de probabilidad  0 ≤ P(A) ≤ 1 Para cada evento “A” en Ω 0 Sin probabilidad De ocurrir

0.5 Tan probable como improbable

1 Certeza de ocurrir

 P(Ω) = 1  Para cualquier numero finito k de eventos mutuamente excluyentes en Ω, entonces K  K P  Ai    PAi   i 1  i 1 3.4 TEOREMA  Si Ǿ es el evento imposible, entonces P(Ǿ) = 0  Para cada evento A, se cumple que P(AC) = 1 – P(A)  A y B son eventos tales que A esta dentro de B, entonces P(A) ≤ P(B)  Si A y B son dos eventos cualquiera en Ω entonces

P A  B  P( A)  P( B)  P( A  B)

 Si A, B y C son tres eventos cualquiera en Ω, entonces P( A  B  C)  P( A)  P( B)  P(C)  P( A  B)  P( A  C)  P( B  C)  P( A  B  C)

Ejemplo  Consideremos el lanzamiento de probabilidad de Obtener suma 7

un

dado dos

veces. Calcular

la

Ejemplo Se tiene el siguiente experimento aleatorio

UCV – Lima este

Página 73

Métodos estadísticos

E: Lanzamiento de dos monedas al aire. a) Calcule el espacio maestral b) Sea el evento A: salga solo una cara. Plantee el evento A, utilizando conjunto c) ¿Cuál es la probabilidad de que salga 1 cara? Ejemplo Hallar la probabilidad de sacar un “Rey” al extraer una carta de una baraja de 52 cartas Ejemplo Hallar la probabilidad de que en el lanzamiento de 3 monedas se obtenga resultados iguales Ejemplo Si se tira 4 monedas, una después de la otra. Halle el espacio muestral. Halle la probabilidad de que salgan 2 caras. Halle la probabilidad de que al menos salgan 2 caras. Halle la probabilidad de que a lo más salgan 2 caras. Ejemplo Si se extraen dos cartas de un mazo. Hallar la probabilidad de que salgan 2… a) Con reemplazamiento b) Sin reemplazamiento 4. PROBABILIDAD CONDICIONAL La probabilidad condicional es una parte de las probabilidades que se ocupa del análisis de aquellos experimentos aleatorios que se ejecutan en más de una etapa. Es decir, la probabilidad condicional estudia la relación de dos o más eventos, de tal manera que la probabilidad de ocurrencia de un evento depende de la ocurrencia o no del otro. 4.1 Definición de Probabilidad Condicional: Para dos eventos cualesquiera A y B en un espacio muestra S, tales que P(A) > 0 con 0, P(A) la probabilidad del evento B dado el evento A, se define por:

La definición de probabilidad condicional satisface los siguientes axiomas: a) b) c) d)

P(A

UCV – Lima este

Página 74

Métodos estadísticos

EJEMPLO Se lanzan dos dados. Si la suma ha sido 7, ¿cuál es la probabilidad de que alguno de los dados haya salido un tres? Sean los sucesos: A= "la suma de los puntos es siete" B = "en alguno de los dados ha salido un tres" El suceso B /A es salir en algún dado 3, si la suma ha sido 7. Observamos que esta situación ocurre en las parejas (3 , 4) y (4 , 3) . Por tanto, P (B / A) = 1 / 3 EJEMPLO Se tiene la siguiente información: Especialidad / Sexo

Varones

Mujeres

Total

Ciencias

42%

28%

70%

Letras

12%

18%

30%

Total

54%

46%

100%

Se definen los siguientes eventos: A : El estudiante elegido es de ciencias. B : El estudiante elegido es varón. Hallar: a) b) Solución: a) b) 5. PROBABILIDAD TOTAL El Teorema de la probabilidad total nos permite calcular la probabilidad de un suceso a partir de probabilidades condicionadas. Antes de introducir la fórmula pasaremos a explicar el concepto de Partición de un conjunto. Se llama partición a conjunto de sucesos Ai A1 U A2 U... U An = S y Ai Aj =

UCV – Lima este

(A 1 , A 2 , .. ., A n ) tales que

Página 75

Métodos estadísticos

Sea A1, A2, ...,An un sistema completo de sucesos tales que la probabilidad de cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales P(B/Ai), entonces la probabilidad del suceso B viene dada por la expresión:

Ejemplo Una compañía dedicada al transporte público explota tres líneas de una ciudad, de forma que el 60% de los autobuses cubre el servicio de la primero línea, el 30% cubre la segunda y el 10% cubre el servicio de la tercera línea. Se sabe que la probabilidad de que, diariamente, un autobús se averíe es del 2%, 4% y 1%, respectivamente, para cada línea. Determina la probabilidad de que, en un día, un autobús sufra una avería.

Solución:

El suceso "sufrir una avería" (Av) puede producirse en las tres líneas, (L1, L2, L3). Según el teorema de la probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, tenemos: P(Av) = P(L1) · P(Av/L1) + P(L2) · P(Av/L2) + P(L3) · P(Av/L3) = = 0.6 · 0.02 + 0.3 · 0.04 + 0.1 · 0.01 = = 0.012 + 0.012 + 0.001 = 0.025

Ejemplo 22 Una empresa del ramo de la alimentación elabora sus productos en cuatro factorías: F1, F2, F3 y F4. El porcentaje de producción total que se fabrica en cada factoría es del 40%, 30%, 20% y 10%, respectivamente, y además el porcentaje de envasado incorrecto en cada factoría es del 1%, 2%, 7% y 4%. Tomamos un producto de la empresa al azar. ¿Cuál es la probabilidad de que se encuentre defectuosamente envasado? UCV – Lima este

Página 76

Métodos estadísticos

Solución:

Llamando M = "el producto está defectuosamente envasado", se tiene que este producto puede proceder de cada una de las cuatro factorías y, por tanto, según el teorema de la probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, tenemos: P(M) = P(F1) · P(M/F1) + P(F2) · P(M/F2) + P(F3) · P(M/F3) + P(F4) · P(M/F4) = = 0.4 · 0.01 + 0.3 · 0.02 + 0.2 · 0.07 + 0.1 · 0.04 = = 0.004 + 0.006 + 0.014 + 0.004 = 0.028 6. TEOREMA DE BAYES El Teorema de Bayes, dentro de la teoría probabilística, proporciona la distribución de probabilidad condicional de un evento "A" dado otro evento "B" (probabilidad posteriori), en función de la distribución de probabilidad condicional del evento "B" dado "A" y de la distribución de probabilidad marginal del evento "A" (probabilidad simple o apriori). Teorema: Sea A1, A2, ...,An un sistema completo de sucesos, tales que la probabilidad de cada uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen las probabilidades condicionales P(B/Ai). Entonces la probabilidad P(Ai/B) viene dada por la expresión:

Ejemplo Tres máquinas, A, B y C, producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%.  Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa.  Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B.  ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa?

Solución:

Sea D= "la pieza es defectuosa" y N= "la pieza no es defectuosa". La información del problema puede expresarse en el diagrama de árbol adjunto. a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D), por la propiedad de la probabilidad total, P(D) = P(A) · P(D/A) + P(B) · P(D/B) + P(C) · P(D/C) = = 0.45 · 0.03 + 0.30 · 0.04 + 0.25 · 0.05 = 0.038

UCV – Lima este

Página 77

Métodos estadísticos

b. Debemos calcular P(B/D). Por el teorema de Bayes,

c. Calculamos P(A/D) y P(C/D), comparándolas con el valor de P(B/D) ya calculado. Aplicando el teorema de Bayes, obtenemos:

La máquina con mayor probabilidad de haber producido la pieza defectuosa es A. 6. EVENTOS INDEPENDIENTES El concepto de independencia es importante porque facilita el análisis de los datos estadísticos. Si no se tuviese este concepto, el análisis sería muy complejo y en algunos casos imposible de llevarse a cabo. Decimos que el par de eventos A,B son independientes sí y solo sí cualquiera de las siguientes expresiones son verdaderas. P(A\B) = P(A) P(B\A) = P(B) P(A

B) = P(A) . P(B)

UCV – Lima este

Página 78

Métodos estadísticos

EJERCICIOS PROPUESTOS

1- ¿Cuál es la probabilidad de obtener una “cara” o más si lanzamos al aire una

moneda tres veces consecutivas? ¿Cuál la de obtener dos o más “caras”?

2. Un experimento consiste en lanzar 4 monedas. Describa el espacio muestral del experimento. Luego describa el rango de valores del numero de caras y las veces que cada valor ocurre. 3. Una caja contiene 8 dulce de piña, 6 de naranjas y 4 de fresa. ¿Cuántos elementos tiene el espacio muestral que resulta de extraer al azar un dulce de cada sabor? 4. De 8 hombres y 7 mujeres ¿Cuántos comité de 10 miembros se puede formar si cada uno de ellos debe contener cuando menos 5 mujeres? 5. En una universidad se realiza un estudio para determinar qué relación existe, en cado de haberla, entre la habilidad matemática y el interés por las matemáticas. Se determinar la habilidad y el interés de 150 estudiantes, con los resultados siguientes:

Habilidad Escasa Promedio Mucho TOTAL

Escaso 40 15 5 60

Interés Promedio 8 17 10 35

Mucho 12 18 25 55

TOTAL 60 50 40 150

Si se escoge uno de los participantes en el estudio: 

¿Cuál es la probabilidad de escoger a una persona que tenga escaso interés en las matemáticas?



¿Cuál es la probabilidad de seleccionar a una persona con habilidad promedio?



¿Cuál es la probabilidad de que una persona tenga mucha habilidad para las matemáticas dado que manifieste mucho interés por esa disciplina? ¿De que la persona tenga mucho interés en las matemáticas dado que posee una habilidad promedio?

UCV – Lima este

Página 79

Métodos estadísticos

6. Un grupo de personas están distribuido de acuerdo a su género y lugar de procedencia de la siguiente manera: 130 son hombres, 110 son de la capital y 30 son mujeres y de provincia. Si se eligen dos personas al azar de este grupo calcule la probabilidad de que ambos sean hombres y de provincia. 7. Una urna contiene 20 fichas similares de las cuales 10 son rojas, 6 azules y 4 son verdes. Si se extraen 10 fichas al azar y a la vez calcule la probabilidad de que ocurran cinco rojas y 3 azules. 8. Una caja contiene 16 pernos de los cuales 8 no tienen defecto, 5 tiene defecto leves y 3 tiene defecto graves. Si se eligen 3 pernos al azar y de una sola vez, calcule la probabilidad de que los tres pernos no tengan defecto leve. 9. Si en el control de calidad de la producción de un articulo, la probabilidad de que se encuentre por lo menos ocho artículos defectuoso es 0.15 y de que se encuentren a lo más 4 artículos defectuoso es 0.50, ¿Cuál es la probabilidad de que se encuentre 5, 6, 7 artículos defectuoso en el control? 10. En una encuesta de opinión se encontró que el 25% de los electores votarían por el candidato E. de lo que no votarían por E el 20% son mujeres. Además, 7 de cada 10 electores son hombre. Si se elige un elector al azar y resulta mujer, ¿Cuál es la probabilidad de que no vote por E? 11. De los 80 objetos que tienen un lote recibido por un comerciante, 2 de cada 5 son del proveedor A y el resto del proveedor B. además, el 12.5% de objetos de cada proveedor tiene fallas. Si se inspecciona cuatro objetos del lote escogidos al azar a la vez, ¿Cuál es la probabilidad de que al menos uno tenga falla si tres son del lote B?

UCV – Lima este

Página 80

Métodos estadísticos

DISTRIBUCIONES IMPORTANTES

1. DISTRIBUCIÓN NORMAL Esta distribución es frecuentemente utilizada en las aplicaciones estadísticas. Su propio nombre indica su extendida utilización, justificada por la frecuencia o normalidad con la que ciertos fenómenos tienden a parecerse en su comportamiento a esta distribución. Muchas variables aleatorias continuas presentan una función de densidad cuya gráfica tiene forma de campana. Se dice que la variable aleatoria X es continua cuando toma valores reales desde el -∞ < x< ∞ y se dice que se distribuye normalmente con media µ y variancia σ2 . X ~ N (µ, σ2)

La distribución normal se utiliza como modelo para variables como el peso, la altura, la calificación en un examen, etc., es decir, en variables cuya distribución es simétrica respecto a un valor central (alrededor del cual toma valores con gran probabilidad) y apenas aparecen valores extremos. Si una variable aleatoria x tiene distribución normal suele representarse como N(µ,σ ) donde µ, es la media o valor esperado de la variable y σ= σx es la desviación típica de la variable, que son los dos parámetros que caracterizan la distribución normal. 2

En la distribución normal, la mayoría de la probabilidad se concentra en la zona central. UCV – Lima este

Página 81

Métodos estadísticos

1.1 Propiedades de la distribución normal: La distribución normal posee ciertas propiedades importantes que conviene destacar:  Tiene una única moda, que coincide con su media y su mediana.  La curva normal es asintótica al eje de abscisas. Por ello, cualquier valor entre y es teóricamente posible. El área total bajo la curva es, por tanto, igual a 1.  Es simétrica con respecto a su media.  La distancia entre la línea trazada en la media y el punto de inflexión de la curva es igual a una desviación típica.  El área bajo la curva comprendida entre los valores situados aproximadamente a dos desviaciones estándar de la media es igual a 0.95.  La forma de la campana de Gauss depende de los parámetros . 1.2 Distribución normal estándar La distribución normal estándar, o tipificada o reducida, es aquella que tiene por media el valor cero, μ =0, y por desviación típica la unidad, σ =1.

La probabilidad de la variable X dependerá del área del recinto sombreado en la figura. Y para calcularla utilizaremos una tabla. Tipificación de la variable Para poder utilizar la tabla tenemos que transformar la variable X que sigue una distribución N(μ, σ) en otra variable Z que siga una distribución N(0, 1).

Cálculo de probabilidades en distribuciones normales La tabla nos da las probabilidades de P(z ≤ k), siendo z la variable tipificada. Estas probabilidades nos dan la función de distribución Φ(k). Φ(k) = P(z ≤ k)

UCV – Lima este

Página 82

Métodos estadísticos



Búsqueda en la tabla de valor de k: Unidades y décimas en la columna de la izquierda. Céntesimas en la fila de arriba.

P(Z ≤ a)

P(Z > a) = 1 - P( Z ≤ a)

P(Z ≤ −a) = 1 − P(Z ≤ a)

P(Z > −a) = P(Z ≤ a)

UCV – Lima este

Página 83

Métodos estadísticos

P(a < Z ≤ b ) = P(Z ≤ b) − P (Z ≤ a)

P(−b < Z ≤ −a ) = P(a < Z ≤ b )

Ejemplos. 1) Determinar la probabilidad de cada una de las siguientes expresiones: a) P ( Z < 1.25 ) c) P (Z < 0 ) e) P ( -2.38 < Z < 0 ) g) P (1.55 < Z < 2.35)

b) P ( Z< -2.28) d) P ( 0 < Z < 2.5 ) f) P ( - 2.25 < Z < 2.25 ) h ) P ( Z > 2.43 )

2) En una población normalmente distribuida con media µ = 30 y variancia igual a 25 se pregunta: ¿Qué porcentaje del total de las observaciones estarán entre 20 y 35? 3) Se sabe que el peso medio de la población de un grupo de estudiantes es igual a 60 Kg., y su desviación estándar es igual a 3 kg. Halle la probabilidad de que el peso de un alumno este entre 55 y 65 kilogramos. 4) El peso de los atletas de pruebas de medio fondo sigue una distribución normal con media 64,3 kilos y desviación típica 2,3 kilos. Hallar un intervalo centrado alrededor de la media que contenga: a) l 68,3% de la población Solución.-

b) El 95,5% de la población Solución.-

c) El 99,7% de la población Solución.UCV – Lima este

Página 84

Métodos estadísticos

Ejemplo La longitud a que se puede estirar sin rotura un filamento de Nylon es una variable aleatoria con media 5000 pies y desviación estándar 5000. ¿Cuál es la probabilidad que la longitud promedio de 100 filamento este comprendido entre 4750 y 5500?

UCV – Lima este

Página 85

Métodos estadísticos

2. DISTRIBUCIÓN T STUDENT Sea Z una variable aleatoria normal con media 0 y varianza 1 sea, sea Y una variable aleatoria que tiene una distribución Chi - cuadrado con r grado de libertad, y si Y e Z son independiente, entonces la variable aleatoria.

T

Z Y /r

Se dice que tiene una distribución t – student, r grados de libertad.

PTr  a  p r = grado de libertad a = cuantil p = probabilidad Ejemplo a. Hallar la probabilidad P (T5< 2,571) = p Ejemplo b. Hallar el grado de libertad P (Tr< 1,812) = 0,95 Ejemplo c. Hallar el cuantil P (T8< a) = 0,95 2.1 TABLA DE LA DISTRIBUCIÓN t- Student c  t1, r La tabla da áreas 1 y valores , donde, P[T  c]  1   , y donde T tiene distribución t-Student con r grados de libertad.

UCV – Lima este

Página 86

Métodos estadísticos

1 r

0.75

0.80

0.85

0.90

0.95

0.975

0.99

0.995

1

1.000

1.376

1.963

3.078

6.314

12.706

31.821

63.657

2

0.816

1.061

1.386

1.886

2.920

4.303

6.965

9.925

3

0.765

0.978

1.250

1.638

2.353

3.182

4.541

5.841

4

0.741

0.941

1.190

1.533

2.132

2.776

3.747

4.604

5

0.727

0.920

1.156

1.476

2.015

2.571

3.365

4.032

6

0.718

0.906

1.134

1.440

1.943

2.447

3.143

3.707

7

0.711

0.896

1.119

1.415

1.895

2.365

2.998

3.499

8

0.706

0.889

1.108

1.397

1.860

2.306

2.896

3.355

9

0.703

0.883

1.100

1.383

1.833

2.262

2.821

3.250

10

0.700

0.879

1.093

1.372

1.812

2.228

2.764

3.169

11

0.697

0.876

1.088

1.363

1.796

2.201

2.718

3.106

12

0.695

0.873

1.083

1.356

1.782

2.179

2.681

3.055

13

0.694

0.870

1.079

1.350

1.771

2.160

2.650

3.012

14

0.692

0.868

1.076

1.345

1.761

2.145

2.624

2.977

15

0.691

0.866

1.074

1.341

1.753

2.131

2.602

2.947

16

0.690

0.865

1.071

1.337

1.746

2.120

2.583

2.921

17

0.689

0.863

1.069

1.333

1.740

2.110

2.567

2.898

18

0.688

0.862

1.067

1.330

1.734

2.101

2.552

2.878

19

0.688

0.861

1.066

1.328

1.729

2.093

2.539

2.861

20

0.687

0.860

1.064

1.325

1.725

2.086

2.528

2.845

21

0.686

0.859

1.063

1.323

1.721

2.080

2.518

2.831

22

0.686

0.858

1.061

1.321

1.717

2.074

2.508

2.819

23

0.685

0.858

1.060

1.319

1.714

2.069

2.500

2.807

24

0.685

0.857

1.059

1.318

1.711

2.064

2.492

2.797

25

0.684

0.856

1.058

1.316

1.708

2.060

2.485

2.787

26

0.684

0.856

1.058

1.315

1.706

2.056

2.479

2.779

27

0.684

0.855

1.057

1.314

1.703

2.052

2.473

2.771

28

0.683

0.855

1.056

1.313

1.701

2.048

2.467

2.763

29

0.683

0.854

1.055

1.311

1.699

2.045

2.462

2.756

30

0.683

0.854

1.055

1.310

1.697

2.042

2.457

2.750

40

0.681

0.851

1.050

1.303

1.684

2.021

2.423

2.704

60

0.679

0.848

1.046

1.296

1.671

2.000

2.390

2.660

120

0.677

0.845

1.041

1.289

1.658

1.980

2.358

2.617

0.674

0.842

1.036

1.282

1.645

1.960

2.326

2.576

UCV – Lima este

Página 87

Métodos estadísticos

2.1.1 DISTRIBUCIÓN CHI CUADRADO Sean Z1, Z2, ……Zr, variables aleatorias independientes normalmente, cada una con media 0 y varianza 1, la variable aleatoria X 2  Z 12  Z 22  ......Z r2

distribuidas

Se dice que e una variable aleatoria Chi - cuadrado con r grado de libertad P X2 a  p





r = grado de libertad a = cuantil p = probabilidad Ejemplo Hallar la probabilidad P (x24< 2,19) = p Ejemplo Hallar el grado de libertad P (x2r< 18,3) = 0,95 Ejemplo Hallar el cuantil P (x26< a) = 095

UCV – Lima este

Página 88

Métodos estadísticos

UCV – Lima este

Página 89

Métodos estadísticos

2.1.2 DISTRIBUCIÓN F DE FISHER Considerando dos muestras aleatorias independientes, de tamaño n1 y n2, extraídas de una población normal, el estadístico F será DEFINICIÓN Una variable F se define como el cociente entre dos variables ji-cuadrado divididas por sus correspondientes grados de libertad. CARACTERÍSTICAS  Una variable con distribución F es siempre positiva.  La distribución de la variable es asimétrica, pero su asimetría disminuye cuando aumentan los grados de libertad del numerador y denominador.  Hay una distribución F por cada par de grados de libertad.  Parámetros: Grados de libertad asociados al numerador y denominador

UCV – Lima este

Página 90

Métodos estadísticos

UCV – Lima este

Página 91

Métodos estadísticos

UCV – Lima este

Página 92

Métodos estadísticos

PROBLEMAS PROPUESTOS 1) El ingreso monetario mensual por hogar en una región se distribuye según el modelo de la probabilidad normal con media 600 y desviación estándar 100 dólares. ¿Qué porcentaje de hogares de la región tienen ingreso menores de 400? 2) La demanda diaria, en kilogramos, de un producto se distribuye según el modelo de la probabilidad normal con una media de 50 y una desviación estándar de 10. ¿Cuál es la probabilidad de que la demanda de un día cualquiera este entre los 46 y 54 kilogramos? 3) Los resultados de un examen de comportamiento agresivo aplicado a 400 adolescentes se distribuye según el modelo de la probabilidad normal con una media igual a 35 puntos. Obtenga la desviación estándar de la distribución si el 84.13% de los adolescentes obtiene al menos 30 puntos. 4) El ingreso monetario mensual por hogar en una comunidad se distribuye según el modelo de la probabilidad normal con una media de 400 y una desviación estándar de 50. todos los hogares que están en el décimo superior de los ingreso mensuales pagan una contribución de solidaridad, ¿a partir de que ingreso lo hacen? 5) Una pieza es considerada defectuosa y por lo tanto rechazada si su diámetro es mayor que 2.02 cm. O es menor que 1.98 cm. Suponga que los diámetros tienen distribución normal con media de 2 cm. Y desviación estándar de 0.01 cm. ¿Cuántas piezas de 10000 se espera que sean rechazadas? 6) Los pesos de los posible usuarios de un ascensor constituye una población cuya distribución normal con una media de 70 Kg. y una desviación estándar de 10 Kg. si el ascensor admite como peso máximo 585 kg. ¿Cuál es la probabilidad que el peso total de 10 usuarios supere ese peso máximo? 7) El tiempo, en minuto que demora un operario en ensamblar un objetos es una variable aleatoria X cuya distribución tiene una media de 30 y una desviación estándar de 2. el objeto totalmente terminado requiere un tiempo de x + 5 minutos. Si el operario tiene que entregar 36 objetos totalmente terminado, calcule la probabilidad de que emplee un tiempo total de al menos 20.5 horas. 8) Las llamadas que realiza un alumno por su teléfono celular duran en promedio tres minutos con una desviación estándar de 0.05 minutos. Si el costo por llamada tiene un valor fijo de 0.8 dólares más un costo variable

UCV – Lima este

Página 93

Métodos estadísticos

de 0.5 dólares por minuto, calcule la probabilidad de que el costo total de 36 llamadas sea mayor de 85 dólares. 9) Un supermercado produce pan especial cuyo peso X debe tener una media de 100 gramos y una desviación estándar de 5 gramos. Si el pan tiene más de 100 gramos, la diferencia del peso por cada pan tiene un costo en soles dados por: c = 0.0125x -1.00. Si se produce 200 panes por turno ¿Cuál es la probabilidad de que el costo total por la diferencia supere los 48 dólares? 10) La duración en meses de los focos que produce una compañía se distribuye según el modelo de la probabilidad normal. Si el 18.41% de estos focos duran menos de 8.2 meses y el 6.68% duran al menos 13 meses. Calcule la media y la varianza de la duración de los focos.

UCV – Lima este

Página 94

Métodos estadísticos

TEORÍA DE MUESTREO

1. ESTADÍSTICA Es la ciencia que se ocupa de los métodos y procedimientos para recoger, clasificar, resumir, y analizar datos, siempre y cuando la variabilidad e incertidumbre sea una causa de los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a la toma de decisiones y en su caso formular predicciones. 1.1 ESTADÍSTICA DESCRIPTIVA Es el conjunto de métodos estadísticos que se relacionan con el resumen y descripción de los datos, como tablas, graficas y el análisis mediante algunos cálculos. 1.2 INFERENCIA ESTADÍSTICA Es el conjunto de métodos con lo cual se hace la generalización sobre una población utilizando una muestra. La inferencia puede contener conclusiones que pueden no ser ciertas en forma absoluta, por lo que es necesario que estas sean dadas con una medida de confiabilidad, el cual se le conoce como probabilidad. 1.3 POBLACIÓN Es el conjunto de elementos que contienen una o más característica observable de naturaleza cualitativa o cuantitativa que se pueden medir en ellos. a. UNIDAD ELEMENTAL Viene a ser cada elemento de la población. b. UNIDAD DE ANÁLISIS Elemento del que hay que obtener la información.

UCV – Lima este

Página 95

Métodos estadísticos

1.4 VARIABLE Se denomina variable estadística a una característica definida en la población por la tarea o investigación estadística, que puede tomar dos o más valores o modalidades. 1.5 DATO Es el resultado de medir una característica observable de una unidad de análisis. 1.6 INFORMACIÓN Es el resultado que se obtiene al procesar un conjunto de datos. 1.7 PARÁMETRO Se denomina parámetro a una medida descriptiva que resume una característica, calculada a partir de los datos observados en toda la población. 1.8 MUESTRA Se denomina muestra a una parte de la población seleccionada de acuerdo con un plan o regla, con el fin de obtener información acerca de la población de la cual proviene. 1.9 ESTADÍGRAFO Se denomina estadígrafo a una medida descriptiva que resume una característica, calculada a partir de los datos observados en una muestra aleatoria. 1.10 ERROR DE ESTIMACIÓN Es la diferencia entre un estadístico y su parámetro correspondiente. Es una medida de la variabilidad de las estimaciones de muestras repetidas en torno al valor de la población, nos da una noción clara hasta dónde y con qué probabilidad una estimación basada en una muestra se aleja del valor que se hubiera obtenido por medio de un censo completo. Siempre se comete un error, pero la naturaleza de la investigación nos indicará hasta qué medida podemos cometerlo. 1.11 MUESTREO Evaluar el comportamiento de una o varias características o variables de una población sería muy costoso, por lo que la estadística nos brinda procedimientos para seleccionar a una parte de esa población y analizarla de tal forma que sus características coincidan con la población. El muestreo es la selección de una parte representativa de la población que permita estimar los parámetros de la población. UCV – Lima este

Página 96

Métodos estadísticos

1.11.1 VENTAJAS DEL EMPLEO DE MUESTRAS Hay muchas razones por las cuales el estudio de una muestra es preferible al de la totalidad de la población. Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de poblaciones infinitas o de poblaciones limitadas pero muy extensas, pues ningún investigador sería capaz de estudiarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba la acción de ciertos venenos en animales de experimentación. Pero aún en el caso en que se quiera estudiar una poblaci6n perfectamente limitada, debemos decidirnos por la muestra, pues su utilizaci6n tiene las siguientes ventajas: 

Ahorra tiempo, dinero y trabajo.



Permite una mayor exactitud en el estudio, pues los errores debidos al observador, al objeto observado y al método de observación, pueden disminuir y controlarse más efectivamente.

En efecto, como será menor el número de personas que intervengan en el estudio, será mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente; como se necesitarán menos instrumentos de investigación, éstos podrán vigilarse y calibrarse más cuidadosamente. 1.11.2 DESVENTAJAS DEL EMPLEO DE MUESTRAS La única desventaja del uso de muestras es el llamado error de muestreo, el cual sumado a los tres tipos de error antes mencionado, podría invalidar nuestro estudio. Este error de muestreo es una consecuencia de la variabilidad de las poblaciones. Como los individuos de una población son muy variables, los diferentes grupos o muestras que podemos formar con ellas diferirán también unas de otras y como nosotros estudiamos una muestra para generalizar luego a toda la población, los resultados serán algo distintos según la muestra que hayamos escogido. Esta diferencia entre el valor dado por la muestra y el verdadero valor de la población, constituye el error por muestreo. Ejemplo: Supongamos que una población de 4 personas tienen un capital de S/. 5 000, S/. 7 000, S/. 6 000 y S/. 10 000 soles respectivamente. El capital promedio de esta población es



5,000  7,000  6,000  10,000 = S/. 7 000 4

Si no se conociera dicho promedio y para averiguarlo se tomara una muestra de dos personas, digamos los 2 primeros (5 000, 7 000), concluiríamos que el capital promedio de cada persona de la población es S/. 6,000, cuando en realidad vemos UCV – Lima este

Página 97

Métodos estadísticos

que fue S/. 7 000, esta diferencia de S/. 1 000 entre el valor de la muestra y el valor de la población constituye el error por muestreo. La presencia del error por muestreo parecería indicar que el estudiar una muestra en vez de la población, es desfavorable y no ventajosa como hemos indicado. Sin embargo, conviene tener presente: - En primer lugar, que el error por muestreo suele ser mucho menos importante que los errores debidos al observador, al método de observación y a los individuos estudiados, y -en segundo lugar, que el error por muestreo puede medirse estadísticamente y en cierto modo, puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra. 1.11.3 USOS DEL MUESTREO El Muestreo es utilizado en diversos campos: a. Política: Las muestras de las opiniones de los votantes se usan para que los candidatos midan la opinión pública y el apoyo en las elecciones. b. Educación: Las muestras de las calificaciones de los exámenes de estudiantes se usan para determinar la eficiencia de una técnica o programa de enseñanza. c. Industria: La muestras de los productos de una línea de ensamble sirve para controlar la calidad. d. Medicina: Las muestras de medidas de azúcar en la sangre de pacientes diabéticos prueban la eficacia de una técnica o de un fármaco nuevo. e. Agricultura: Las muestras del maíz cosechado en una parcela proyectan en la producción los efectos de un fertilizante nuevo. f. Gobierno: Una muestra de opiniones de los votantes se usaría para determinar los criterios del público sobre cuestiones relacionadas con el bienestar y la seguridad nacional. 1.11.4 TABLA DE NÚMEROS ALEATORIOS Las Tablas de Números Aleatorios contienen los dígitos 0, 1, 2,..., 7, 8, 9. Tales dígitos se pueden leer individualmente o en grupos y en cualquier orden, en columnas hacia abajo, columnas hacia arriba, en fila, diagonalmente, etc., y es posible considerarlos como aleatorios. Las tablas se caracterizan por dos cosas que las hacen particularmente útiles para el muestreo al azar. Una característica es que los dígitos están ordenados de tal manera que la probabilidad de que aparezca cualquiera en un punto dado de una secuencia es igual a la probabilidad de que ocurra cualquier otro. La otra es que las combinaciones de dígitos tienen la misma probabilidad de ocurrir que las otras combinaciones de un UCV – Lima este

Página 98

Métodos estadísticos

número igual de dígitos. Estas dos condiciones satisfacen los requisitos necesarios para el muestreo aleatorio, establecidos anteriormente Existen métodos más eficaces para generar números aleatorios, en muchos de los cuales se utilizan calculadoras u otra clase de aparatos electrónicos. Las tablas elaboradas mediante estos métodos son verificadas completamente para asegurarse de que en realidad sean aleatorias. Sin embargo, el interés no radica en elaborar estas tablas, sino utilizarlas. Para utilizar una Tabla de Números Aleatorios:  Hacer una lista de los elementos de la población.  Numerar consecutivamente los elementos de la lista, empezando con el cero  Tomar los números de una Tabla de Números Aleatorios, de manera que la cantidad de dígitos de cada uno sea igual a la del último elemento numerado de su lista. De ese modo, si el último número fue 18, 56 ó 72, se deberá tomar un número de dos dígitos.  Omitir cualquier número que no corresponda con los números de la lista o que repita cifras seleccionadas anteriormente de la tabla. Continuar hasta obtener el número de observaciones deseado.  Utilizar dichos números aleatorios para identificar los elementos de la lista que se habrán de incluir en la muestra. Donald B. Owen, Handbook of Statistical Tables, Reading Mass:Addisson-Wesley, 1.962 3690 2492 7171 7720 6509 7549 2330 5733 4730 0813 6790 6858 1489 2669 3743 1901 4971 8280 6477 5289 4092 4223 6454 7632 7577 2816 9002 0772 2160 7236 0812 4195 5589 0830 8261 9232 5692 9870 3583 8997 1533 6466 8830 7271 3809 2080 3828 7880 0586 8482 7811 6807 3309 2729 1039 3382 7600 1077 4455 8806 1822 1669 7501 7227 0104 4141 1521 9104 5563 1392 8238 4882 8506 6348 4612 8252 1062 1757 0964 2983 2244 5086 0303 7423 3298 3979 2831 2257 1508 7642 0092 1629 0377 3590 2209 4839 6332 1490 3092 0935 5565 2315 8030 7651 5189 0075 9353 1921 UCV – Lima este

Página 99

Métodos estadísticos

2605 3973 8204 4143 2677 0034 8601 3340 8383 7277 9889 0390 5579 4620 5650 0210 2082 4664 5484 3900 3485 0741 9069 5920 4326 7704 6525 6905 7127 5933 1137 7583 6450 5658 7678 3444 8387 5323 3753 1859 6043 0294 5110 6340 9137 4094 4957 0163 9717 4118 4276 9465 8820 4127 4951 3781 5101 1815 7068 6379 7252 1086 8919 9047 0199 5068 7447 1664 9278 1708 3625 2864 7274 9512 0074 6677 8676 0222 3335 1976 1645 9192 4011 0255 5458 6942 8043 6201 1587 0972 0554 1690 6333 1931 9433 2661 8690 2313 6999 9231 5627 1815 7171 8036 1832 2031 6298 6073 3995 9677 7765 3194 3222 4191 2734 4469 8617 2402 6250 9362 7373 4757 1716 1942 0417 5921 5295 7385 5474 2123 7035 9983 5192 1840 6176 5177 1191 2106 3351 5057 0967 4538 1246 3374 7315 3365 7203 1231 0546 6612 1038 1425 2709 5775 7517 8974 3961 2183 5295 3096 8536 9442 5500 2276 6307 2346 1285 7000 5306 0414 3383 3251 8902 8843 2112 8567 8131 8116 5270 5994 4675 5 2192 0874 2897 0262 5092 5541 4014

1.11.5 DETERMINACIÓN DEL TAMAÑO DE LA MUESTRA

n

NZ 2 P(1  P) ( N  1) E 2  Z 2 P(1  P)

n

UCV – Lima este

NZ 2 ( N  1) E 2  Z 2

PARA LA PROPORCIÓN PARA LA MEDIA

Página 100

Métodos estadísticos

a. Métodos de muestreo probabilísticos: a.1 Muestreo aleatorio simple: Es la forma más común de obtener una muestra en la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitución una tabla de números aleatorios. Ejemplo Se tiene una población de 200 personas, determinar si se trabaja con toda la población o muestra; y si se trabaja con una muestra determinar el tamaño y escoger la muestra. a.2 Muestreo aleatorio sistemático: Es una técnica de muestreo que requiere de una selección aleatoria inicial de observaciones seguida de otra selección de observaciones obtenida usando algún sistema o regla. Ejemplo Se tiene una población de 400 personas, determinar si se trabaja con toda la población o muestra; y si se trabaja con una muestra determinar el tamaño escoger la muestra por muestro aleatorio sistemático. a.3 Muestreo aleatorio estratificado: Una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. En síntesis, requiere de separar a la población según grupos llamados estratos, y de elegir después una muestra aleatoria simple en cada estrato. La información de las muestras aleatorias simples de cada estrato constituiría entonces una muestra global. Ejemplo Para realizar un control de calidad para determinar en qué estado viene la caña se realiza un muestreo aleatorio simple, puesto que la caña puede provenir de tres tipos de proveedores.  Proveedor tipo A (estrato 1) la caña proviene de lotes de la misma finca.  Proveedor tipo B (estrato 2) la caña proviene de fincas de particulares en donde el ingenio ha prestado servicios  Proveedor tipo C (estrato 3) la caña proviene de fincas de particulares en donde el ingenio no ha tenido ningún servicio.

UCV – Lima este

Página 101

Métodos estadísticos

DATOS: ESTRATO

Ni

1

560

2

190

3

250

a.4 Muestreo aleatorio por área o conglomerado: Requiere de elegir una muestra aleatoria simple de unidades heterogéneas entre sí de la población llamadas conglomerados. Cada elemento de la población pertenece exactamente a un conglomerado, y los elementos dentro de cada conglomerado son usualmente heterogéneos o disímiles. Ejemplo: En el muestreo por conglomerados, éstos se forman para representar, tan fielmente como sea posible, a toda la población; entonces se usa una muestra aleatoria simple de conglomerados para estudiarla. Los estudios de instituciones sociales como iglesias, hospitales, escuelas y prisiones se realizan, generalmente, con base en el muestreo por conglomerados. Ejemplo Para un estudio que se realiza en un AA.HH el cual está formado por 20 manzanas escoger una muestra mediante muestreo aleatorio simple.

NÚMERO MANZANA

NÚMERO DE LOTE

NÚMERO MANZANA

NÚMERO DE LOTE

NÚMERO MANZANA

NÚMERO DE LOTE

NÚMERO MANZANA

NÚMERO DE LOTE

1

20

6

10

11

25

16

20

2

25

7

25

12

20

17

20

3

30

8

20

13

30

18

25

4

10

9

30

14

10

19

30

5

15

10

40

15

15

20

10

b. Métodos de muestreo no probabilísticos: b.1 Muestreo accidental.- Es un muestreo no probabilística donde el investigador elige a aquellos individuos que están a mano. Por ejemplo, un periodista que va por la calle preguntando a las personas que salen a su paso, sin atender ningún criterio especial de elección. No es probabilística porque aquellas personas que no pasan por ese sitio no tienen la posibilidad de entrar en la muestra. UCV – Lima este

Página 102

Métodos estadísticos

b.2 Muestreo por cuotas.- Se aplica en la última fase del muestreo, y consiste en facilitar al entrevistador el perfil de las personas que tiene que entrevistar dejando su criterio, la elección de las mismas, siempre y cuando cumplan con el perfil. b.3 Muestreo intencionado.- Se basa en una buena estrategia y el buen juicio del investigador. Se puede elegir las unidades del muestreo. Un caso frecuente es tomar elementos que se juzgan típicos o representativos de la población, y suponer que los errores en la selección se compensarán unos con otros. El problema que plantea es que sin una comprobación de otro tipo, no es posible saber si los casos típicos lo son en realidad, y tampoco se conoce como afecta a esos casos típicos los posibles cambios que se producen.

UCV – Lima este

Página 103

Métodos estadísticos

PROBLEMAS PROPUESTOS 1. Una cantidad, con frecuencia, de interés para una clínica es el porcentaje de pacientes retrasados para su vacunación. Algunas clínicas examinan cada registro para determinar el porcentaje; Sin embargo, en una clínica grande, la realización de un censo de los registros puede llevar mucho tiempo. Cullen (1994) realizó una muestra de los 580 niños a los que da servicio una clínica familiar, en Auckland para estimar la proporción de interés. Qué tamaño de muestra sería necesario con una muestra aleatoria simple (sin reemplazo) para estimar la proporción con el 95% de confianza y un margen de error de 0.10. 2. En un estudio, se desea determinar en qué proporción los niños de una región toman incaparina en el desayuno. Si se sabe que existen 1,500 niños y deseamos tener una precisión del 10 por ciento, con un nivel de significancia del 5%. ¿De qué tamaño debe de ser la muestra? 3. En un lote de frascos para medicina, con una población de 8000 unidades, se desea estimar la media de la capacidad en centímetros cúbicos de los mismos. A través de un pre muestreo de tamaño 35 se ha estimado que la desviación estándar es de 2 centímetros cúbicos. Si queremos tener una precisión 0.25 cms3, y un nivel de significancia del 5%. ¿De qué tamaño debe de ser la muestra? 4. Existe tres colegios de los cuales se quiere extraer una muestra, los colegio estas categorizado según estrato socio económico; del colegia A tiene 520 alumnos, el colegio B tiene 450 alumnos y el colegio C tiene 950 alumnos; determinar cuántos alumnos de cada colegio se tiene que escoger 5. La captura de eglefino de un barco de arrastre se desembarca en Aberdeen dividida en cuatro categorías de tamaños, que serán los cuatro estratos (datos tomados de Pope, 1956). Se hicieron muestras de cada categoría, y los resultados se pueden resumir del modo siguiente:

Categoría

UCV – Lima este

Ni

Pequeño

2 432

Pequeño-Mediano

1 656

Mediano

2 268

Grande

665

TOTAL

7 021

Página 104

Métodos estadísticos

6. El presidente de una fraternidad en el campus universitario desea tomar una muestra de las opiniones de 112 miembros respecto a las actividades urgentes para el otoño. a. ¿cuál es la población? _________________________________________________________ b. ¿Cuál es la mejor forma en qué debe tomarse la muestra? _________________________________________________________ 7. Se desea realizar una evaluación de los principales problemas detectados en el campus universitario: i. congestionamiento en los ascensores ii. pérdida de objetos personales iii. rendimiento de los alumnos. iv. Vocación profesional. Identifique la población y el tipo de muestreo que aplicaría. ¿Por qué? cada caso.

Responda en

i)

Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ____________________________________________________________

ii)

Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________

iii)

Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________ Población: ___________________________________________________ Tipo de muestreo: _____________________________________________ Porque: ____________________________________________________ ___________________________________________________________

iv)

8. El censo del 2007 se muestra que en Jauja el 11.5% de los residentes tienen más de 60 años. Para verificar un sistema de muestreo por teléfono se llaman a 200 residencias elegidas al azar. De los residentes contactados, 10.2% tenían más de 60 años. a) ¿11.5% es un parámetro o una estadística? b) ¿10.2% es un parámetro o una estadística?

UCV – Lima este

Página 105

Métodos estadísticos

9. En el año 2006 la Universidad Cesar Vallejo tiene 5 453 estudiantes, en la tabla se muestra un detalle de la composición. Necesitamos una muestra de tamaño n=20 de la población de estudiantes. Mujeres 2461 67 2528

Pregrado Postgrado Total

Hombres 2848 77 2925

Total 5309 144 5453

Elija muestras de tamaño 20 para 2 tipos de muestreo: a) Muestreo aleatorio simple b) Muestreo estratificado 10. Supongamos que necesitamos seleccionar a 4 integrantes del programa de televisión "Gana con la Estadística" de Abril del 2008. Calcule muestras de tamaño n=4 usando los distintos diseños muestrales (muestreo aleatorio simple y muestreo estratificado). En cada alternativa, use la tabla de números aleatorios, empiece en la fila 3 columna 3.

Mujeres

Hombres

Giovanna Santos

Carolina Soto

Jorge Molina

Gianina Ramos

Maura Rivera

Nelson Pachas

Bárbara Ascue

María Sobarzo

Leandro Martínez

Pam Lozano

Rosa Díaz

Joel Mauri

Jimena Pereira

Darío Juárez

Lía Gutiérrez

Dany Bellido

11. Suponga que nuestra población de interés es el comité de estudiantes de la UCV para efectos de colaboración con la universidad en agosto del 2008. Juan Pérez, Miguel Cornejo, Juana Olivares, Lucia Galán, Edwin Manrique, Angélica Mariño, Carlos Enciso, Julia Salinas, Manuela Enrico, Sonia Oquendo, Ángel Bravo, Luis Alba, Abel Vivar, Carla Espinosa, Marcelo Oyarte, Elba Aguilar, Ernesto Aguirre, Francisco Alama. a) Si nos interesa estudiar la proporción de mujeres en esta población. Elija una muestra aleatoria simple de tamaño n=4 de esta población. b) Indique cuál es el parámetro y el estadístico en (a) c) Elija una muestra estratificada por sexo de tamaño n=4 de esta población

UCV – Lima este

Página 106

Métodos estadísticos

12. La Facultad de Administración de la Universidad Cesar Vallejo, quiere saber acerca del ingreso promedio de sus estudiantes y para esto envía cartas a todos los Estudiantes desde su ingreso a la Universidad en el año 2006. En la Encuesta había sólo una pregunta: ¿Cuál es el ingreso promedio en su hogar? Aproximadamente 30% de los alumnos respondieron. Comente los posibles sesgos acerca del salario promedio de los estudiantes de Administración. ¿Cómo debe ser el ingreso promedio entre los que respondieron y los que no respondieron? 13. El titular de un diario dice: “Encuesta señala que aumentó el porcentaje de gente que chatea en el trabajo”. El artículo dio la siguiente información: “Se encuestaron al azar 227 personas que llamaron a la línea abierta 800-CHAT durante 6 semanas entre Febrero y Marzo. 92% de los que llamaron dijeron haber chateado alguna vez mientras trabajaban”. a) ¿Qué clase de muestreo se usó? b) ¿Cuál piensa usted que fue la población de la cual fue elegida esta muestra? c) ¿Piensa usted que el titular es correcto? 14. Una organización estudiantil quiere saber si a los estudiantes le interesa cambiar el horario de atención de la biblioteca. Selecciona al azar 100 estudiantes de primer año, 100 de segundo, y 100 estudiantes que egresarán este año. ¿Qué tipo de diseño muestral es éste? 15. Un profesor quiere investigar sobre el tiempo diario de estudio de 20 estudiantes de una clase.

Nombre

Número de horas

Nombre

Número de horas

Juan

2,3

María

2,9

Alicia

1,9

Fernanda

0,7

Pedro

2,0

Julio

0,8

Marcos

1,5

Rosa

1,0

Alberto

1,7

Fabián

1,3

Jorge

2,2

Ana

2,8

José

1,8

Laura

0,8

Carlos

1,9

Enrique

0,9

Miguel

1,9

Carmen

1,1

Victoria

1,6

Marcelo

1,2

UCV – Lima este

Página 107

Métodos estadísticos

En cada alternativa, use la tabla de números aleatorios, empiece en la fila 1 columna 1 y continúe seleccionando hacia la derecha. a) Elija una muestra aleatoria simple de tamaño n=4 de esta población. b) Calcule el Parámetro y el Estadístico en (a). c) Elija una muestra estratificada de tamaño n=4 de esta población d) Calcule el estadístico en (c) 16. Una compañía de marketing saca una muestra de la guía de teléfonos tomando 10 personas cuyos apellidos comiencen con letra A, 10 personas cuyos apellidos comiencen con la letra B, y así sucesivamente con cada letra del alfabeto, para una muestra total de 260 personas. a) ¿Qué clase de diseño muestral se usó aquí? b) ¿Tienen todos los que están en la guía de teléfonos igual probabilidad de ser elegidos en la muestra? c) No todos los residentes de la ciudad tiene teléfono, ¿qué clase de sesgo va a provocar este hecho? d) Se sabe que la distribución de la primera letra del apellido varía por etnicidad ¿Qué clase de sesgo va a provocar este hecho?

UCV – Lima este

Página 108

Métodos estadísticos

ESTIMACIÓN DE PARÁMETRO

1. INTRODUCCIÓN Al realizar una investigación estadística a menudo se sabe o se supone que la población definida por una variable aleatoria x, de la cual se selecciona una muestra aleatoria, tiene una forma funcional especifica cuyo parámetro se intenta determinar. Los método de inferencia estadística, básicamente, consisten en seleccionar una muestra aleatoria de la población en estudio y con la información que se obtenga de esta llegar a estimar el o los valores del parámetro desconocido. El método de estimación de parámetro puede ser puntual o por intervalos, en el primer caso, la estimación del parámetro es un numero. Mientras que en el segundo caso la estimaron del parámetro es un intervalo de los posible valores que puede tener. 2. ESTIMACIÓN PUNTUAL La estimación puntual es el valor numérico de un estimador, un buen estimador es aquel que se acerca al verdadero valor del parámetro. Ejemplo: De una población de 120 sueldos de Profesores de la Universidad X, se toma una muestra de 40 sueldos, y se calcula el sueldo promedio. Supongamos que el sueldo promedio es: S/. 690.00 soles, y al momento de concluir el trabajo podemos decir, que el sueldo promedio de los profesores de la universidad X, tienen un sueldo promedio de S/. 690.00. Quiere decir que el promedio poblacional µ, se ha estimado puntualmente por x = S/. 690.00 soles. 3. INTERVALO DE CONFIANZA La estimación por intervalo es la estimación del parámetro Ф dentro de un intervalo de extremo cerrado [a, b], donde los números a y b se obtiene a partir de la distribución de la estadística que estima puntualmente el parámetro y a partir de los valores de la muestra. Sea X1, X2…..Xn una muestra aleatoria de tamaño n escogida de una población f(x, Ф), cuyo valores experimentales respectivos son x1, x2…..xn , sea además, la __

expresión

  H(X , X 1

2 ,...X n )

es una estadística para estimar el parámetro Ф cuya __

distribución de probabilidad sea conocida y sea UCV – Lima este



el valor del parámetro, dado el Página 109

Métodos estadísticos

número 1   , y si a partir de la distribución de probabilidad del estimador se puede encontrar el estimador A y B tales que: PA    B  1   se dice entonces que el intervalo A, B es el intervalo del estimador de parámetro Ф con el grado de confianza de 1   *100%, o que tal intervalo contiene al parámetro Ф con probabilidad 1   Un nivel de confianza del 95%, implica que 95% de todas las muestras incluye al parámetro y solo un 5% de las muestras producirá un intervalo erróneo. Cuanto mayor es el nivel de confianza se estima que el valor del parámetro este dentro del intervalo. Ejemplo. El sueldo promedio de los profesores en la Universidad X, se encuentran entre S/. 650.00 y S./ 720.00 soles 4. INTERVALO PARA LA MEDIA POBLACIONAL Sabemos que:

Z

Pero también,

Ζ

X 

 X-µ σ n

Como no conocemos el parámetro µ y lo queremos estimar por medio de la media de la muestra, sólo se despejará µ de la formula anterior, quedando lo siguiente:

µ  X  Ζ 1-α/2

σ n

De esta fórmula se puede observar que tanto el tamaño de la muestra como el valor de Z se conocerán. Z se puede obtener de la tabla de la distribución normal a partir del nivel de confianza establecido. Pero en ocasiones la muestra es menor de 30 o se desconoce  por lo que en esos casos lo correcto es utilizar otra distribución llamada "t" de Student si la población de donde provienen los datos es normal.

µ  X  t (n - 1;1- α/2)

s n

Donde S la desviación estándar de la muestra y t es la distribución de la t de Student con n – 1 grados de libertad y nivel de confianza igual a 1 - /2 . Para el caso de tamaños de muestra grande se puede utilizar una estimación puntual de la desviación estándar, es decir igualar la desviación estándar de la muestra a la de la población (s=  ). UCV – Lima este

Página 110

Métodos estadísticos

El error de estimación despejando:

de µ será la diferencia absoluta entre x y µ, es decir

Error de estimación de µ=

µ - X  Ζ 1-α/2

σ n

Ejemplo: Se encuentra que en una dieta la concentración promedio de vitaminas a partir de una muestra de 36 mediciones en sitios diferentes del hospital es de 2.6 gramos por mililitro. Suponga que la desviación estándar de la concentración de vitaminas es 0.3. a) Señale la estimación puntual para µ. b) Encuentre el intervalo de confianza al 95% para la concentración media de vitaminas en las dietas de dicho hospital. c) Halle el error de estimación de µ para la pregunta b. d) Encuentre el intervalo de confianza al 99% para la concentración media de vitaminas en las dietas de dicho hospital. e) Halle el error de estimación de µ para la pregunta d. Solución: a) La estimación puntual para µ es: X µ, es decir µ= 2.6 gr/ml b) IC para la media poblacional se calcula:

µ  X  Ζ1- α/2

σ n

Reemplazando valores: c) El error de estimación de µ para la pregunta b. d) Calculando el Intervalo de confianza para la media µ a un nivel de confianza del 99% e) Calcule el error de estimación de µ Ejemplo: Una empresa eléctrica fabrica focos que tienen una duración aproximadamente distribuida de forma normal con una desviación estándar de 40 horas. Si una muestra de 32 focos tiene una duración promedio de 780 horas, encuentre un intervalo de confianza de 96% para la media de la población de todos los focos que produce esta empresa así también halle el error de estimación. Solución: µ  X  Ζ1- α/2

UCV – Lima este

σ n

Página 111

Métodos estadísticos

Ejemplo Una muestra aleatoria de 100 hogares de una ciudad, revela que el promedio de los ingresos mensuales es de 500 dólares. Obtenga un intervalo de confianza del 95% para la media de la población de los ingresos de todos los hogares de esa ciudad. Asuma que la desviación estándar poblacional es 100. Ejemplo Para confirmar el peso neto promedio de los frascos de conserva de palmito de la empresa agroindustrial “LA PALMA “ de Iquitos, cuya especificación es de 250 gramos, un estudiante de estadística aplicada selecciono una muestra de tamaño 10 de tales frascos y observo los siguiente peso netos en gramos: 250 251 249 248 256 252 248 256 256 254 Construya un intervalo de confianza del 96% Ejemplo Una muestra de 60 niñas de diez años de edad proporciono un peso medio de 40 Kg. y una desviación estándar de 4 Kg., respectivamente. Suponiendo que existe normalidad, encuentre los intervalos de confianza del 95% para la media poblacional

5. INTERVALO PARA LA PROPORCIÓN: P Una proporción es una razón de una parte con respecto a un todo y que generalmente pertenecen a un experimento aleatorio de tipo binomial, es decir con solo dos posibles respuestas. Sabemos que:

P  p pq n



Como no conocemos el parámetro p y lo queremos estimar por medio de la proporción de la muestra, sólo se despejará P de la formula anterior, quedando lo siguiente:

P  p  1 / 2

pq n

Error de estimación de P P – p= 1 / 2

pq n

Ejemplo Un fabricante de reproductores de discos compactos utiliza un conjunto de pruebas amplias para evaluar la función eléctrica de su producto. Todos los reproductores de discos compactos deben pasar todas las pruebas antes de venderse. Una muestra aleatoria de 500 reproductores tiene como resultado 15 que fallan en una o más UCV – Lima este

Página 112

Métodos estadísticos

pruebas. Encuentre un intervalo de confianza de 90% para la proporción de los reproductores de discos compactos de la población que no pasan todas las pruebas. Solución: n=500 p = 15/500 = 0.03 z(0.90) = 1.645 Se sabe con un nivel de confianza del 90% que la proporción de discos defectuosos que no pasan la prueba en esa población está entre: En un estudio de 300 accidentes de automóvil en una ciudad específica, 60 tuvieron consecuencias fatales. Con base en esta muestra, construya un intervalo del 90% de confianza para aproximar la proporción de todos los accidentes automovilísticos que en esa ciudad tienen consecuencias fatales. Solución: P= 60/300 = 0.20 Z(0.90) = 1.645 Ejemplo En instituto de opinión publica utilizo una muestra aleatoria de 600 lectores que acaban de emitir su voto, para realizar un proyección estadística de los resultados. Si el sondeo indica que 240 electores votaron a favor del candidato A, obtenga el intervalo de estimación del porcentaje de electores a favor A en toda la población con el nivel de confianza del 95%. 6. INTERVALO PARA LA VARIANZA

LI

=

(n  1) s 2

x

2



1 ; n 1 2

LS

=

(n  1) s 2 2

x

2

; n 1

Ejemplo Para estimar la variabilidad de los contenidos de un producto que una empresa comercializa en bolsa de 150 gramos. Un analista de métodos cuantitativos escogió una muestra aleatoria de 10 unidades del producto resultando los siguiente pesos en gramos: 150,5 150.7 148.1 150.4 149.3 151.2 150.9 149.2 150.3 149.3 Obtenga el intervalo de confianza del 95% para la varianza de los contenidos de todas las unidades del producto en mención. Supóngase que la población de estos contenidos se distribuye según el modelo de la probabilidad normal. UCV – Lima este

Página 113

Métodos estadísticos

PROBLEMAS PROPUESTOS

1) El tiempo en minuto que utiliza los clientes en sus distintas operaciones en un banco local es una variable aleatoria cuya distribución se supone normal con una desviación estándar de 3 minuto. Se han registrado los tiempos de las operaciones de 9 clientes del banco resultando una media igual a 9 minuto, ¿Cuánto es el nivel de confianza si la media poblacional se estima de 7 a 11? 2) Se asigna una tarea estadística a un grupo de estudiantes para hacer un estudio del contenido promedio de las latas de frutas en conserva de la agroindustria que afirma que los contenidos tiene distribución normal con media de 19 onzas y una desviación estándar de 2 onzas. ¿Qué tamaño mínimo de muestra debería escoger si quiere que la estimación tenga un error de 0.98 onzas con un nivel de confianza del 95%? 3) El ingreso mensual de cada una de las 500 microempresario de servicio constituye una población asimétrica cuya media se quiere determinar. Si una muestra al azar de 50 microempresario se obtuvo un ingreso mensual promedio de 1000 dólares con una desviación estándar de 80 dólares, obtenga un intervalo de confianza del 95%. 4) Para estimar la vida útil de un producto se escogió una muestra aleatoria de 9 unidades del producto resultando las siguientes vidas: 775 780 800 795 790 785 795 780 810 Estime la media de la población utilizando un intervalo de confianza del 95% 6) Un auditor escoge una muestra aleatoria de 10 cuentas por cobrar de una compañía las cuales fueron: 730 759 725 740 754 745 75. 756 780 810 Estime la media de la población utilizando un intervalo de confianza del 95% 7) En un estudio socioeconómico se tomo una muestra aleatoria de 100 comerciantes informales y se encontró entre otros datos que solo el 30% de ellos tienen ingresos superiores a 800 dólares por mes, obtenga el intervalo de confianza de la proporción de todos los comerciantes con ingresos superiores a 800 dólares al 95% de nivel de confianza. 8) Un productor afirma que es el 5% el porcentaje de unidades defectuosa que resulta del total de su producción. Si una muestra aleatoria de 100 unidades de la producción se encontraron 10 unidades defectuosas. Es aceptable la afirmación del productor con un 95% de nivel de confianza.

UCV – Lima este

Página 114

Métodos estadísticos

9) La oficina de planificación familiar de cierta región del país quiere estimar el porcentaje de familia con más de 4 hijos en las zonas rurales. Si se escogió una muestra de 385 familias y en ellas se encontró que 320 tiene más de 4 hijos, estime el porcentaje de familias con más de 4 hijos en toda la región aplicando un intervalo de confianza del 98%. 10) Una empresa cambiara su proceso actual de producción, cuya desviación estándar de los tiempos empleados para procesar cada pieza es de 9 segundo, si solo hay prueba que el nuevo proceso es más estable en cuanto a variabilidad. Si una muestra aleatoria de los tiempos empleados para producir 13 piezas con el nuevo proceso ha dado una desviación estándar de 6 segundos, con un nivel de confianza del 95% ¿debería la empresa cambiarse al nuevo proceso de producción?

UCV – Lima este

Página 115

Métodos estadísticos

UNIDAD DIDÁCTICA 3: ESTADÍSTICA INFERENCIAL APLICADA Capacidades: Aplica los conceptos básicos de la estadística orientados a la Investigación. Aplica el modelo de regresión lineal y técnicas de muestreo en su trabajo de investigación. Determina si dos variables son independientes a través de la prueba de Chi Cuadrado y realiza el análisis de varianza.

PRUEBA DE HIPÓTESIS

1. INTRODUCCIÓN El objetivo de este tema es exponer los métodos estadístico básicos que se aplican para tomar decisiones sobre la conjetura que se hace acerca del valor numérico del parámetro de una población en estudio y que es sometida a comprobación experimental con el propósito de determinar si los resultados de una muestra aleatoria extraída de esa población contradicen o no en forma significativa tal afirmación.

2. HIPÓTESIS ESTADÍSTICA Se denomina hipótesis estadística a cualquier afirmación o conjetura que se hace acerca de la distribución de una o más poblaciones. La afirmación o conjetura se puede referirse bien a la forma o tipo de distribución de probabilidad de la población o bien referirse al valor o valores de uno o más parámetro de la distribución conocida su forma. La hipótesis estadística consiste en suponer que los parámetros, que define a la población, toma determinado valores numéricos. 3. HIPÓTESIS NULA Y ALTERNATIVA Se denomina hipótesis nula y se representa por H0 a la hipótesis que es aceptada provisionalmente como verdadera y cuya validez será sometida a comprobación experimental. Toda hipótesis nula va acompañada de una

UCV – Lima este

Página 116

Métodos estadísticos

hipótesis alterna que es lo contrario de la hipótesis nula. La hipótesis alterna se representa por H1. 4. PRUEBA DE UNA HIPÓTESIS ESTADÍSTICA La prueba de una hipótesis estadística es un proceso que nos conduce a tomar la decisión de aceptar o rechazar la hipótesis nula, en contraposición a la alterna y en base a los resultados de una muestra aleatoria seleccionada de la población en estudio. 5. TIPOS DE PRUEBAS DE HIPÓTESIS El tipo de prueba depende básicamente de la hipótesis alterna, se puede encontrar pruebas de una cola donde la hipótesis alterna es unilateral y pruebas de dos colas donde la alterna es bilateral. 6. REGIÓN RECHAZO nula.

Es la región que contiene los valores para los cuales se rechaza la hipótesis

7. REGIÓN DE ACEPTACIÓN nula.

Es la región que contiene los valores para los cuales no se rechaza la hipótesis

8. DECISIÓN Si el valor del estadígrafo cae dentro de la región de rechazo entonces se rechaza la hipótesis nula. 9. PROCEDIMIENTO PARA REALIZAR UNA PRUEBA DE HIPÓTESIS El procedimiento que se recomienda utilizar para pruebas de hipótesis con parámetro  se resume en los siguientes pasos: Paso 1: Formular la hipótesis nula H0 y la hipótesis alternativa H1 apropiada

Prueba de una Cola H0:  = 0 H1:   0

UCV – Lima este

Prueba de dos Colas H0:  = 0 H1:  > 0

H0:  = 0 H1:  < 0

Página 117

Métodos estadísticos

Paso 2: Seleccionar  = Nivel de significación Paso 3: Establecer el estadígrafo apropiado a usar en la prueba y hallar D = valor del estadígrafo Paso 4: Establecer la región crítica y de aceptación para el estadígrafo. Recuerde que la región crítica debe ser construida en base al valor significante fijada en el paso 2 Prueba de una Cola

Prueba de dos Colas R.C = < D ,  > R.C = < - , D >

R.C = < - , - D / 2 > U < D /2 ,  >

Paso 5: Si D pertenece a la región crítica, entonces se rechaza la hipótesis nula.

10. PRUEBAS DE HIPÓTESIS DE LA MEDIA CON VARIANZA CONOCIDA

Prueba de una Cola

Fijar , donde

Prueba de dos Colas

Fijar , donde

1

Fijar , donde

1

Ejemplo 1 Un proceso automático llena latas de palmito. Si el peso medio de las latas llenas es 400 gramos se afirma que el proceso está controlado, en caso contrario, el proceso no está controlado. En el proceso de enlatado se ha determinado que los pesos de las latas llenas tienen una desviación estándar de 20 gramos. Si una muestra aleatoria de 100 latas llenas de palmito ha dado el peso medio de 395 gramos, ¿se podría concluir que el proceso está fuera de control al nivel de significación 5%?

UCV – Lima este

Página 118

Métodos estadísticos

Solución: Sea : peso de las latas llenas de palmito 1.

Hipótesis: (El proceso está controlado) (El proceso está fuera de control)

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

Decisión: El valor -2.5 pertenece a la región crítica, por lo que se debe rechazar Finalmente, con un riesgo de 5% se concluye que el proceso de enlatado de palmito no está controlado.

Ejemplo 2 Al estudiar si conviene o no una sucursal en la ciudad de Ucayali, la gerencia de una tienda comercial de Lima, establece el siguiente criterio para tomar una decisión: abrir la sucursal sólo si el ingreso promedio familiar mensual en dicha ciudad es no menos de $500 y no abrirla en caso contrario. Si una muestra aleatoria de 100 ingresos familiares de esa ciudad ha dado una media de $480. ¿Cuál es la decisión a tomar al nivel de significación del 5%? Solución: Sea : ingresos familiares mensuales de los pobladores de Tarapoto.

1.

Hipótesis: (Se abre la sucursal) (No se abre la sucursal)

2.

Nivel del significación:

UCV – Lima este

Página 119

Métodos estadísticos 3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es: .

5.

Decisión: El valor -2.5 pertenece a la región crítica, por lo que se debe rechazar Finalmente, con un riesgo de 5% se concluye no debe abrirse la sucursal en Ucayali.

Ejemplo 3 Ante un reclamo sobre el tiempo de realización de una tarea, los empleados de una compañía sostienen que en promedio ellos completan la tarea en a lo más 13 minutos. Si usted es el gerente de la compañía, ¿qué conclusión obtiene si para una muestra de 400 tareas se obtiene un promedio de tiempo de finalización de 14 minutos? Se sabe, por información de trabajos similares, que los tiempos de ejecución de la tarea tiene una distribución normal con desviación estándar de 10 minutos. Usar el nivel de significancia . Solución: Sea : tiempo de realización de una tarea

1.

Hipótesis: compañía) compañía)

2.

(El tiempo de realización de la tarea no amerita un reclamo de la (El tiempo de realización de la tarea amerita un reclamo de la

Nivel del significación:

UCV – Lima este

Página 120

Métodos estadísticos 3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

.

Decisión: El valor 2 pertenece a la región crítica, por lo que se debe rechazar Finalmente, con un riesgo de 5% se concluye que el reclamo realizado por la compañía sobre el tiempo de realización de una tarea es justificado.

11. PRUEBAS DE HIPÓTESIS DE LA MEDIA CON VARIANZA DESCONOCIDA

Prueba de una Cola

Fijar , donde

Prueba de dos Colas

Fijar , donde <

Fijar , donde

si si

Ejemplo 1 En una muestra de 19 adolescentes que sirvieron de sujetos en estudio inmunológico, una variable de interés fue el diámetro de reacción de la piel a una prueba con un antígeno. La media muestral y la desviación estándar fue respectivamente, 21 y 11 mm de eritema. ¿Puede concluirse a partir de estos datos que la media de la población es 30? UCV – Lima este

Página 121

Métodos estadísticos

Solución: Sea : diámetro de reacción de la piel a una prueba 1.

Hipótesis: (El diámetro de la reacción de la piel es igual a 30 mm) (El diámetro de la reacción de la piel es diferente a 30 mm)

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

Decisión: El valor -3.56 pertenece a la región crítica, por lo que se debe rechazar Finalmente, con un riesgo de 5% se concluye que el diámetro de reacción de la piel a una prueba es diferente a 30 mm.

Ejemplo 2 Una muestra de 35 estudiantes de primer año tuvo una calificación media de 77 en una prueba efectuada para medir su actitud . La desviación estándar de la muestra fue de 10. ¿Proporcionan estos datos evidencia suficiente como para indicar, a un nivel de significación 0.01 que la media de la población es menor que 80? Solución: Sea : Puntaje obtenidos en la prueba de actitud

1.

Hipótesis: (Puntaje obtenido en la prueba igual a 80) (Puntaje obtenido en la prueba menor a 80)

UCV – Lima este

Página 122

Métodos estadísticos

2.

Nivel del significación:

3.

Estadígrafo

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es: .

5.

Decisión: El valor -1.77 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, con un riesgo de 1% se concluye que el puntaje obtenido no es menor a 80.

Ejemplo 3 Un distribuidor de cosméticos ha conseguido cobrar sus cuentas pendientes en un plazo medio de 22 días, durante el año pasado. Este promedio se considera un estándar para medir la eficiencia del departamento de crédito y cobranzas. Sin embargo, durante el mes en curso, un chequeo aleatorio de 81 cuentas dio como resultado un promedio de 24 días, con una desviación estándar de 9 días. ¿Es este resultado significativamente diferente del estándar al nivel del 3%? Solución: Sea : Cobro de cuentas 1.

Hipótesis: (El cobro de cuentas se realiza en tiempo estándar) (El cobro de cuentas no se realiza en tiempo estándar)

2.

Nivel del significación:

3.

Estadígrafo:

UCV – Lima este

Página 123

Métodos estadísticos 4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

Decisión: El valor 2 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, con un riesgo de 3% se concluye de que no existe razón parar creer que el cobro de cuentas se realiza en tiempo diferente al estándar.

12. PRUEBAS DE HIPÓTESIS PARA LA PROPORCIÓN Prueba de una Cola

Prueba de dos Colas Fijar , donde

Fijar , donde

1

Fijar , donde

1

Ejemplo 1 Un médico afirma que cierto medicamento que se prescribe para aliviar determinada enfermedad es efectivo al 78%. Con el fin de evaluar esta afirmación se tomó una muestra aleatoria de 400 pacientes y se encontró que 300 de ellos han experimentado alivio. ¿Es ésta, suficiente evidencia para concluir que realmente el medicamento no es efectivo al 78%? Utilice el nivel de significación del 1%. Solución:

1.

Sea : Efectividad del medicamento Hipótesis: (El medicamento es efectivo) (El medicamento no es efectivo)

2.

Nivel del significación:

3.

Estadígrafo:

UCV – Lima este

Página 124

Métodos estadísticos

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

Decisión: El valor -1.44 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, con un riesgo de 1% se concluye que el medicamento es efectivo y el médico tenía razón.

Ejemplo 2 Se afirma que cierto programa de mejoramiento genético en alpacas de raza Huacaya es efectivo en más del 60%. Al parecer esta afirmación es exagerada por lo que decide evaluar esta afirmación, tomando una muestra aleatoria de 200 alpacas resultando que 173 alpacas mejoraron genéticamente. ¿Es ésta suficiente evidencia para concluir que realmente el programa de mejoramiento genético es efectivo en más del 60% de los casos al nivel de significancia del 5%? Solución: Sea : Efectividad de mejoramiento genético en alpacas 1.

Hipótesis:

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

UCV – Lima este

Página 125

Métodos estadísticos

5.

Decisión: El valor 7.65 pertenece a la región crítica, por lo que se debe rechazar Finalmente, con un riesgo de 5% se concluye que que el programa de mejoramiento genético es efectivo en más del 60% de los casos.

Ejemplo 3 El consumidor de un cierto tipo de producto acusó al fabricante diciendo que más del 20% de las unidades que fabrica son defectuosas. Para confirmar su acusación, el consumidor usó una muestra aleatoria de tamaño 50, donde el 27% de las unidades eran defectuosas. ¿Qué conclusión puede extraer usted? Use Solución: 1.

Hipótesis:

(La afirmación del consumidor no es verdadera) (La afirmación del consumidor es verdadera) 2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra el valor crítico que es: y luego la región crítica es:

5.

Decisión: El valor 1.24 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, con un riesgo de 1% se concluye que la muestra no da evidencia para apoyar al consumidor.

UCV – Lima este

Página 126

Métodos estadísticos

13. PRUEBAS DE HIPÓTESIS PARA LA VARIANZA

Prueba de una Cola

Prueba de dos Colas

Fijar , donde

Fijar , donde

1

Fijar , donde

Ejemplo 1 En un proceso de fabricación, se plantea la hipótesis que la desviación estándar de las longitudes de cierto tipo de tornillo es 2 mm. En una muestra de de diez tornillo elegidos al azar del proceso de producción se obtuvo una desviación estándar de 2.60 mm. Con estos datos ¿se justifica la suposición que la desviación estándar verdadera es 2 mm? Use y suponga que la distribución de las longitudes es normal. Solución: 1.

Hipótesis: σ σ

(La afirmación del consumidor no es verdadera) (La afirmación del consumidor es verdadera)

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra los valores críticos que son: ,y

.

Finalmente, la región crítica es: UCV – Lima este

Página 127

Métodos estadísticos 5.

Decisión: El valor 15.21 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, se concluye que la varianza de la población es igual a 4.

Ejemplo 2 Un biólogo cree que la varianza de vida de cierto organismo al ser expuesto a cierto agente mortal, es a lo más 625 minutos al cuadrado. Una muestra aleatoria de 15 organismos dio una varianza de 1225. ¿Proporcionan estos datos evidencia suficiente como para concluir la investigación del biólogo acerca de que la variabilidad es incorrecta? Solución: 1.

Hipótesis: (La investigación del biólogo es correcta) (La investigación del biólogo no es correcta)

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: El valor crítico es: Entonces, la región crítica es:

5.

Decisión: El valor 27.44 pertenece a la región crítica, por lo que se debe rechazar Finalmente, los datos proporcionados por el biólogo acerca de la variabilidad es incorrecta con un riesgo del 5%.

UCV – Lima este

.

Página 128

Métodos estadísticos

Ejemplo 3 Una de las maneras de mantener bajo control la calidad de un producto es controlar su varianza. Una máquina para enlatar conservas de durazno está regulada para llenar con una desviación estándar de 10 gr. y con una media de 500 gr ¿Diría usted que la máquina ha sido adecuadamente regulada en relación a la varianza, si una muestra de 16 latas de conserva dio una varianza de 169 gr2? Use un y el peso de cada lata de conserva presenta una distribución norma Solución: 1.

Hipótesis:

2.

Nivel del significación:

3.

Estadígrafo:

4.

Región Crítica: Primero se encuentra los valores críticos que son: ,y

.

Finalmente, la región crítica es: 5.

Decisión: El valor 25.35 no pertenece a la región crítica, por lo que no se debe rechazar Finalmente, se concluye que la máquina está bajo control en cuanto a la varianza.

UCV – Lima este

Página 129

Métodos estadísticos

EJERCICIOS PROPUESTOS 1. La concentración media de dióxido de carbono en el aire en una cierta zona no es habitualmente mayor que 355 p.p.m.v (partes por millón en volumen). Se sospecha que esta concentración es mayor en la capa de aire más próxima a la superficie. Para contrastar esta hipótesis se analiza el aire en 60 puntos elegidos aleatoriamente a una misma altura cerca del suelo con una media muestral de 580 p.p.m.v. Suponiendo normalidad para las mediciones, ¿proporciona estos datos suficiente evidencia estadística para afirmar que la concentración media es mayor cerca del suelo? Use y a. b. c. d.

, se rechaza , no se rechaza , se rechaza , no se rechaza Respuesta: Clave a

2. El promedio de nicotina que tienen los cigarros de cierta marca es igual a 11mg. Se sabe que la distribución de la cantidad de nicotina es normal con desviación estándar igual a 0.5mg. El creador de un nuevo procedimiento de fabricación asegura que su procedimiento disminuye el promedio de 11mg. Al nivel de significación , ¿se puede decir que el nuevo procedimiento disminuye el promedio de nicotina? a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave c

3. Antes de la aplicación de un nuevo plan vital en la ciudad el promedio de accidentes de tránsito por día era de 15.6. para determinar si el nuevo plan ha sido efectivo en la reducción del promedio de accidentes, se observaron al azar 81 días posteriores a la aplicación del nuevo plan obteniéndose un promedio de 12 accidentes por día con una desviación estándar igual a 3. Al nivel de significación , ¿se podría decir que existe evidencia de que el promedio de accidentes por día ha disminuido? a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave d

UCV – Lima este

Página 130

Métodos estadísticos

4. En diez mediciones sobre la resistencia de un alambre se obtuvieron los siguientes resultados: y . Suponiendo que la variable X que representa a las mediciones sigue una distribución normal, probar la siguiente hipótesis: al nivel de significación . a. No se rechaza , No se puede indicar que la media no es igual o menor que 10 b. Se rechaza , Se puede indicar que la media no es igual o menor que 10 Respuesta: Clave a 5. Un gobernante afirma que en su país existe el 40% de analfabetos. Con el fin de evaluar está afirmación se tomó una muestra de 500 personas resultando que 300 son analfabetos. Sobre la base de la información obtenida ¿qué se puede decir acerca de la afirmación del gobernante? Usar a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave b

6. Una empresa afirma que su producto tiene una participación del 50% del mercado. Para tomar una decisión respecto de lo afirmado por dicha empresa se encuesta a 48 personas consumidoras del producto y se encuentra que 18 consumen el producto fabricado por la empresa en cuestión. ¿Cuál es la decisión que se toma con un nivel de significancia de 2.5%? a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave c

7. El fabricante de una patente médica sostiene que la misma tiene un 90% de efectividad en el alivio de una alergia, por un periodo de 8 horas. En una muestra de 200 individuos que tenían la alergia se les suministro el medicamento y 160 personas mostraron alivio. Determinar si la aseveración del fabricante es cierta. a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave d

UCV – Lima este

Página 131

Métodos estadísticos

8. La variabilidad de los pesos en un determinado proceso de producción está controlado si la desviación estándar de los pesos de los contenidos de los envases es 0.25 onzas pero, una muestra al azar de pesos de los contenidos de 20 envases ha dado una desviación estándar de 0.30 onzas. Al nivel de significancia del 5% ¿proporciona estos datos indicio suficiente que indique un aumento significativo de tal variabilidad? a. b. c. d.

no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave a

9. Con el fin de poder diferenciar a las personas con una aptitud baja y personas con una aptitud alta para desempeñar determinada actividad, es necesario que la variabilidad de los resultados de una prueba que se aplica a los postulantes a dicha actividad sea alta. La recomendación es que la variabilidad de la prueba, medida por la varianza, sea . Cuando la prueba se aplico a 12 postulantes la varianza de los resultados fue . ¿Se podría decir que la prueba satisface los requerimientos? Usar y suponer normalidad. a. b. c. d.

, no se rechaza , se rechaza , no se rechaza , se rechaza Respuesta: Clave c

10. Un fabricante de máquinas de llenado de leche en bolsas, asegura que cada una éstas deposita en las bolsas un promedio de un litro con varianza igual a 0.01. una muestra de 10 bolsas se halló la varianza muestra . Al nivel significación , probar la hipótesis , además se supone que la cantidad vertida tiene distribución normal.

de En de si

a. No se rechaza , Se puede indicar que el llenado de bolsas tiene una varianza menor o igual a 0.01 b. Se rechaza , Se puede indicar que el llenado de bolsas tiene una varianza mayor a 0.01 Respuesta: Clave b

UCV – Lima este

Página 132

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 133

Métodos estadísticos

ANÁLISIS DE DATOS CATEGÓRICOS

1. INTRODUCCIÓN Las pruebas de hipótesis de proporciones de categoría de variables cualitativas en tablas de contingencia son las siguientes:  Prueba de independencia de variable cualitativa  Prueba de homogeneidad de muestra  Prueba de igualdad de más de dos proporciones independiente.

de poblaciones

Pruebe la bondad de ajuste entre las frecuencia observada en los intervalos y las correspondiente frecuencia esperada de una distribución normal, con un nivel de significación del 5%. 2. PRUEBA DE INDEPENDENCIA La prueba de hipótesis de independencia implica dos variables categóricas y lo que se prueba es la suposición de que las dos variables son estadísticamente independiente. Para cada frecuencia observada en una celda hay una frecuencia esperada que se calcula a partir de la hipótesis especificada y que se supone que es verdadera. H0: Las dos variables cualitativas son independientes. 3. PROCEDIMIENTO PARA REALIZAR LA PRUEBA DE INDEPENDENCIA 1. Formular las hipótesis 2. Seleccionar el nivel de significación 3. Calcular los valores esperados: Se realiza utilizando la fórmula 4. Calcular el valor del estadígrafo:

5. Región Crítica:

UCV – Lima este

Para el nivel de significancia dado, el valor crítico es :

Página 134

Métodos estadísticos

6. Decisión: Si

, se debe rechazar

EJEMPLO 1 500 artículos se escogieron al azar de artículos producidos. Esto es independiente según la calidad y según la línea de producción, como se indica en la tabla que sigue: Línea de producción 1 2 3 40 90 70 50 60 60 60 50 20

Calidad c1 c2 c3

A nivel de significación del 5% ¿se puede inferir que la calidad del producto es independiente de la línea de producción? Solución 1.

Hipótesis: í

ó

í

2.

Nivel del significación:

3.

Calculo de valores esperados: Se realiza utilizando la fórmula

Calidad

Línea de producción 1

2

3

ó

Total

c1 c2 c3 Total 4.

Estadígrafo:

5.

Región Crítica: Para el nivel de significancia

6.

Decisión: Dado que

UCV – Lima este

el valor crítico es :

, por lo tanto se debe rechazar Página 135

Métodos estadísticos

Finalmente, se concluye que la calidad del producto no es independiente de la línea de producción. EJEMPLO 2 En un proceso de producción se registró el número de objetos defectuosos clasificándolos por turnos de producción y por máquina de producción. Verificar al nivel de significación si el número de objetos defectuosos producidos por las máquinas es independiente de los turnos de producción. Los datos se muestran en la siguiente tabla:

Máquinas Turnos

Total

A

B

C

Mañana

75

90

85

250

Tarde

70

85

70

225

Noche

95

85

75

255

Total

240

260

230

730

Solución 1.

Hipótesis:

2.

Nivel del significación:

3.

Calculo de valores esperados: Se realiza utilizando la fórmula

UCV – Lima este

Página 136

Métodos estadísticos

Máquinas

Turnos A

B

Total C

Mañana

Tarde

Noche

Total

4.

Estadígrafo:

5.

Región Crítica:

6.

Decisión: Dado que , por lo tanto no se debe rechazar Finalmente, se concluye que el número de objetos defectuosos producidos por las máquinas no depende de los turnos.

Para el nivel de significancia

el valor crítico es:

4. PRUEBA DE HOMOGENEIDAD Con la prueba de homogeneidad de muestra se busca determinar si dos o más muestra independiente proviene de una misma población. Como en el método anterior, para esta prueba los datos muestrales se registran en celda de tabla de contingencia de orden k * c. H0: La muestra aleatoria proviene de una misma población.

UCV – Lima este

Página 137

Métodos estadísticos

5. PROCEDIMIENTO PARA REALIZAR LA PRUEBA DE INDEPENDENCIA 1.

Formular las hipótesis

2.

Seleccionar el nivel de significación

3.

Calcular los valores esperados: Se realiza utilizando la fórmula

4.

Calcular el valor del estadígrafo:

5.

Región Crítica: Para el nivel de significancia dado, el valor crítico es :

6.

Decisión: Si

, se debe rechazar

EJEMPLO 3 Se efectuó un estudio en tres colegios de Lima para determinar las preferencias de los alumnos por tres tipos de deportes. Una muestra de 500 alumnos ha hado los resultados de la tabla que sigue. A partir de estos datos, determine si los tres son homogéneos con respecto a sus preferencias en los tres deportes. Utilice . Deportes

Colegios

Total

A

B

C

Futbol

80

70

100

250

90

90

60

30

180

20

30

20

20

70

Total

200

150

150

500

Solución 1.

Hipótesis:

2.

Nivel del significación:

3.

Cálculo de valores esperados: Se realiza utilizando la fórmula

UCV – Lima este

Página 138

Métodos estadísticos

Turnos

Máquinas A

Total

B

C

Mañana Tarde Noche Total 4.

Estadígrafo:

5.

Región Crítica:

6.

Decisión: Dado que , por lo tanto se debe rechazar Finalmente, se concluye que para cuando menos un deporte, las preferencias en los tres colegios no son las mismas.

Para el nivel de significancia

el valor crítico es :

EJEMPLO 4 Un investigador estudia el nivel de efectividad de tres remedios para aliviar cierta enfermedad. Para esto escogió tres muestra aleatoria de tamaño 50, 70 y 60 de paciente de cierta enfermedad suministrando a la primera el remedio uno, al segundo el remedio dos y al tercero el remedio tres y midiendo la efectividad de los remedios en tres niveles: sin alivio, cierto alivio y alivio total. Los resultados del experimento se dan en la tabla que sigue:

Efectividad

Remedios para la alegría 1

2

3

sin alivio

10

20

15

cierto alivio

30

20

20

alivio total

10

30

25

¿Puede usted inferir con probabilidad igualmente efectivos?

UCV – Lima este

igual a

0.01

que los tres remedios son

Página 139

Métodos estadísticos

Solución 1. Hipótesis:

2.

Nivel del significación:

3.

Cálculo de valores esperados: Se realiza utilizando la fórmula

Efectividad

Remedios para la alegría 1

Sin alivio

0

Cierto alivio

4

2

3

Total

Alivio total Total 4.

Estadígrafo:

5.

Región Crítica: Para el nivel de significancia

6.

Decisión: Dado que , por lo tanto se debe rechazar Finalmente, se concluye que para cuando menos un remedio, la efectividad no es la misma.

UCV – Lima este

el valor crítico es :

Página 140

Métodos estadísticos

PRACTICA DIRIGIDA 1. Una muestra de empleados de la universidad clasificada como docentes, no docentes y de servicio, se les pidió que escogiera entre planes de seguro familiar particular, en el cuadro que sigue se dan los resultados: Plan de seguro Clase Docente

A

B

C

100

150

60

No docente

40

70

20

Servicios

20

40

10

Se puede afirmar que el plan de seguro depende de la clase de trabajo. a. , no se rechaza H0 b. , se rechaza H0 c. , no se rechaza H0 d. , se rechaza H0 Respuesta: Clave a 2. Un estudio de mercado de una empresa proporciona la tabla de datos que sigue, donde la muestra de 800 consumidores de un producto específico opina acerca de las tres formas presentación y de la tres marcas que aparecen en el mercado:

Presentación

Marca del producto M1

M2

M3

P1

200

130

70

P2

60

60

80

P3

40

60

100

Existe relación entre la marca y la presentación del producto. a. , no se rechaza H0 b. , se rechaza H0 c. , no se rechaza H0 d. , se rechaza H0 Respuesta: Clave b

UCV – Lima este

Página 141

Métodos estadísticos

3. En una empresa se desea estudiar si existe una dependencia entre el nivel de remuneraciones y los años de experiencia del personal. Con este objeto, se clasifican las remuneraciones en tres categorías: bajo, medio y alto y los años de experiencia en cuatro categorías: A, B, C y D. Al nivel del 10% ¿Hay alguna relación entre los años de experiencia y las remuneraciones que perciben los 100 empleados? Años de experiencia

Total

Remuneración

A

B

C

D

Bajo

4

11

9

14

38

Medio

12

9

8

4

33

Alto

10

6

7

6

29

Total

26

26

24

24

100

a. b. c. d. Respuesta: Clave d

, no se rechaza H0 , se rechaza H0 , no se rechaza H0 , se rechaza H0

4. En la siguiente tabla se muestran los resultados obtenidos por 435 estudiantes en los cursos de Estadística y Cálculo I. Contraste la hipótesis de que las notas obtenidas en Estadística I son independientes de las notas obtenidas en Cálculo I, al nivel de 2.5% Notas Matemática I

0 – 10

11 – 14

15 – 20

0 – 10

70

40

15

125

11 – 14

30

130

25

185

15 – 20

15

60

50

125

Total

115

230

90

435

a. b. c. d. Respuesta: Clave d UCV – Lima este

Notas Estadística I Total

, no se rechaza H0 , se rechaza H0 , no se rechaza H0 , se rechaza H0

Página 142

Métodos estadísticos

5. Un grupo de investigadores desean determinar si existe asociación entre el nivel educativos de los individuos y la preferencia por un determinado medio de comunicación. A continuación se presentan los resultados obtenidos aplicado por los investigadores a 290 individuos. Medio de Comunicación

Nivel educativo

Prensa

Radio

TV

Primaria

15

10

25

50

Secundaria

40

25

45

110

Superior

45

30

55

130

Total

100

65

125

Total

290

Teniendo en cuenta la información presentada, ¿qué le diría usted al grupo de investigadores con un nivel de significancia de 2.5%? a. b. c. d. Respuesta: Clave a

, no se rechaza H0 , se rechaza H0 , no se rechaza H0 , se rechaza H0

6. Dos investigadores toman muestras de una misma ciudad con el objeto de estimar el número de personas que corresponden a los grupos de renta de clase pobre, media y alta (los límites de los grupos se expresan en cantidad de dinero y son los mismos para los dos investigadores). Los resultados que se obtuvieron fueron:

Investigador

Rentas

Total

Pobre

Media

Alta

A

150

100

20

270

B

150

80

30

260

Total

300

180

50

530

¿Presentan estos datos suficiente evidencia para decir que las muestras de uno de los investigadores es sospechosa? Use nivel de significancia al 5%? a. , no se rechaza H0 b. , se rechaza H0 c. , no se rechaza H0 d. , se rechaza H0 Respuesta: Clave c UCV – Lima este

Página 143

Métodos estadísticos

7. Se realizó una encuesta entre los votantes de 4 distritos de Lima para comparar las proporciones de votantes a favor del candidato A para la alcaldía de Lima. Se tomó una muestra de 300 votantes cada uno de los 4 distritos, obteniéndose los siguientes resultados: Votos

Lince

Distritos Breña Cercado

Comas

Total

A favor de A

126

103

109

98

436

En contra de A

174

197

191

202

764

Total

300

300

300

300

1200

¿Presentan los datos suficiente evidencia que indique que las proporciones de votantes que estén a favor del candidato A en los 4 distritos, son diferentes? Use nivel de significancia al 5% a. b. c. d. Respuesta: Clave b

, se rechaza H0 , no se rechaza H0 , no se rechaza H0 , se rechaza H0

8. Una hacienda que siembra manzanas está interesada en determinar si dos tipos de fertilizantes producen los mismos efectos en la producción de manzanas. Con tal fin las manzanas son abonadas con dos marcas distintas de fertilizantes F1 y F2. El resultado fue que unas manzanas aumentaron su producción, otras las disminuyeron y otras no variaron, estos resultados se presentan en la siguiente tabla: F1 F2 Total Producción Total

+

200

350

550

=

200

150

350

-

100

100

200

500

600

1100

¿Presentan los datos suficiente evidencia que indique que los dos tipos de fertilizantes producen los mismos efectos? Use nivel de significancia al 5% a. b. c. d. Respuesta: Clave a UCV – Lima este

, se rechaza H0 , no se rechaza H0 , no se rechaza H0 , se rechaza H0

Página 144

Métodos estadísticos

9. El gerente de venta de una empresa afirma que las ventas de cuatros de sus principales producto es homogénea entre sus clientes clasificados por tipos de ocupación. Si su afirmación está sustentada entre otras cosas en la muestra aleatoria de las ventas a mil clientes tabulada como sigue: Ocupación

1

Producto 2 3

4

Profesionales

30

35

55

40

Comerciantes

155

50

125

80

Obreros

130

30

105

50

Ama de casa

35

15

20

45

Al nivel de significación del 5% ¿Qué opina usted de la afirmación del gerente? a. b. c. d. Respuesta: Clave a

, se rechaza H0 , no se rechaza H0 , no se rechaza H0 , se rechaza H0

10. Una muestra de televidentes clasificados por clase social y por la sintonía diaria de cuatro programa TV del mediodía se da en la siguiente tabla:

Programa

Clase social Pobre

Media baja

Media

Alta

1

190

280

500

280

2

250

300

350

150

3 4

160 100

250 150

180 80

120 80

Al nivel de significancia del 5% ¿Es homogéneo el ranking de los 4 programas en las cuatro clases sociales? a. b. c. d. Respuesta: Clave d

UCV – Lima este

, se rechaza H0 , no se rechaza H0 , no se rechaza H0 , se rechaza H0

Página 145

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CORDÓVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 146

Métodos estadísticos

ANÁLISIS DE VARIANZA 1. INTRODUCCIÓN El análisis de varianza para experimentos diseñado, es una técnica estadística que se aplica para comprobar si son iguales las medias de más de dos poblaciones independiente mediante la comparación de varianza insesgadas de muestra de diversas fuentes, utilizando para el efecto la prueba F. El anova trabaja con muestras adecuadamente la recolección de datos.

pequeñas;

por esta razón, se planifican

La técnica estadística del análisis de varianza ha encontrado aplicación en casi toda las disciplinas científicas y han llegado a convertirse en un tema muy amplio. El término factor (cualitativo) se da a cada una de las variables independiente que involucra el problema de anova, relacionada con una variable dependiente o variable respuesta (cuantitativa); los valores de un factor son denominado niveles o tratamientos en el diseño anova. La variable dependiente x podría estar asociada a dos factores, cada elemento de muestra contenida en todas las combinaciones de los niveles de los dos factores es una unidad experimental. Los modelos se clasifican según el número de factores o variable independiente. 2. ANÁLISIS DE VARIANZA DE COMPLETAMENTE ALEATORIZADO

UN

SOLO

FACTOR

DISEÑO

En un diseño de experimento completamente aleatorio que se aplica para comparar k tratamiento de un factor, los tratamientos se asignan al azar a las unidades experimentales de la muestra, de manera que un tratamiento escogido al azar es aplicado a una muestra, el siguiente tratamiento escogido al azar de lo que restan es aplicado a otra muestra y así sucesivamente. 1

TRATAMIENTO DEL FACTOR A 2 3 4

TOTAL 5

TOTAL

T

MUESTRA

n

MEDIA VARIANZA

UCV – Lima este

Página 147

Métodos estadísticos

     

Suma de los datos de la muestra i Suma total de los datos Numero de datos de la muestra i Número total de datos Media de la muestra i Media general

MODELO DE CLASIFICACIÓN SIMPLE Modelo de efectos fijos: Este modelo es aplicable cuando se desea comparar las características dependiente x bajo k tratamientos prefijado de interés. Las conclusiones serán validas solo para esto k tratamientos. Modelo de tratamiento se elige al conclusiones

efecto aleatorio: Se emplea cuando se tiene una gran población de y por lo tanto resulta poco práctico compáralos a todos. En este caso azar solo k tratamientos de la población y luego se infiere las a toda la población de tratamientos.

HIPÓTESIS DEL MODELO DE CLASIFICACIÓN Planteamiento de Hipótesis: Ho: Ha: No todas las

son iguales

ESTADÍSTICA DE PRUEBA Sumas cuadradas SCT = suma del cuadrado total

SCT   X ij2 

SCTR = suma de cuadrado de tratamiento SCE = suma de cuadrado del error

X ..2 n

X SCTR  ni .

2 i.

X ..2  n

SCE = SCT - SCTR

Medias cuadráticas

MCT 

SCT n 1

UCV – Lima este

MCTR 

SCTR k 1

MCE 

SCE nk

Página 148

Métodos estadísticos

La estadística de prueba

F

MCTR MCE

F (K – 1; n – k)

CUADRO DEL ANÁLISIS DE LA VARIANZA Fuente de Variación

Suma de Grados de Cuadrados Libertad

Cuadrados Medios

Tratamientos

SCTR

k-1

CMTR

Residual

SCE

n-k

CME

Global

SCT

n-1

Razón F calculada

EJEMPLO 1 Un ingeniero va a decidir la compras de una de 4 máquinas de marcas diferentes para su uso en una producción especifica. Por esto, utilizo cada máquina al azar para procesar cinco unidades del producto registrando los tiempo por unidad, en segundos, resultando así el experimento completamente aleatorio. Los datos observados son los siguientes: M1: M2: M3: M4:

55 60 64 42

46 58 62 45

45 68 51 52

73 58 57 44

50 63 65 42

Con un nivel de significancia del 5% pruebe la hipótesis que las máquinas utilizan la misma velocidad media para procesar los productos. EJEMPLO 2 Cuatro profesores cada uno con un grupo de alumnos, enseñan el mismo curso de estadística, para evaluar las calificaciones por profesor de examen final se extrajeron al azar una muestra de calificaciones de cada grupo, resultando los siguientes datos: P1: P2: P3: P4:

12 14 13 10

11 16 12 14

09 13 08 17

17 18 11 14

12 17 12 15

Al nivel de significancia del 5% ¿se puede concluir que existe diferencia significativas en las calificaciones promedios obtenidas con los cuatros profesores?

UCV – Lima este

Página 149

Métodos estadísticos

EJERCICIOS PROPUESTOS

1. El proyecto académico de un ingeniero es el diseño de un experimento a fin de determinar el rendimiento de cuatro variedades de papa si tener en cuenta la influencia de la fertilidad de la tierra de cultivo. Las 20 parcelas de igual fertilidad que le fueron asignados los divido en 4 grupos de 5 parcelas cada una. A cada grupo de parcelas le asigno una variedad distinta de papas escogida al azar, resultando un diseño completamente aleatorizado. los rendimientos medido en kilogramos de la cinco variedades por parcelas son la siguientes: V1 V2 V3 V4

55 52 53 52

53 58 55 50

60 50 57 51

52 60 51 49

53 52 54 53

Al nivel de significancia del 5% ¿se puede inferir que existe significativa entre las producciones media de las 4 variedades.

diferencia

2. Para comparar el tiempo empleado en realizar una tarea específica bajo tres procedimientos un investigador diseño un experimento seleccionando al azar tres muestra independiente de 10 operarios cada una y asigno al azar un procedimiento a cada muestra. Los tiempos registrado en segundo son los siguientes: P1 P2 P2

13.45 19.10 20.73 23.60 13.45 23.29 14.93 17.07 13.65 18.79 22.81 20.69 24.40 26.86 22.37 19.98 20.98 24.08 18.35 17.22 18.92 21.32 25.93 19.07 20.98 26.40 28.04 23.44 18.47 25.42

¿Existe diferencia significativa entre los promedios de tiempo? 3. Una empresa de transporte terrestre va a adquirir una de 4 marcas de neumático que hay en el mercado. El ingeniero de pruebas de la empresa diseñó un experimento escogiendo al azar seis neumáticos de cada marca de característica similares. En el laboratorio de prueba, con una carga específica simulada, observo la duración de cada neumático hasta que se deteriore. Los datos son los siguiente: N1 N2 N3 N4

55 63 48 59

53 67 50 68

50 55 59 57

60 62 50 66

55 70 47 71

65 75 61 73

¿Indica estos datos que las marcas de los neumáticos producen efectos significativo en el rendimiento? UCV – Lima este

Página 150

Métodos estadísticos

4. Un promotor inmobiliario considera invertir en un centro comercial a construir en el sector medio de una capital del interior del país. Se evalúa cuatro ciudades: Arequipa, Iquitos, Piura y Trujillo, en donde es muy importante el nivel de los ingresos mensuales de familia. Los ingresos mensuales en dólares son los siguientes: Arequipa: Iquitos: Piura: Trujillo:

710 610 560 500

560 560 610 400

490 490 470 500

550 550 510 550

568 610 580 520

¿Producen efectos significativos en la variabilidad de los ingresos los niveles de factor ciudad? 5. El decano de FACI desea estudiar el número de horas que los alumnos de los ciclo 5, 6, 7 y 8 utilizan los terminales de cómputos de la universidad. Una muestra de usos por ciclo ha dado los siguientes tiempos en horas mensuales: C5: C6: C7: C8:

35 43 28 39

33 47 30 48

30 35 39 37

40 45 30 46

¿Existe diferencia significativa en el tiempo según el ciclo de estudio?

UCV – Lima este

Página 151

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 152

Métodos estadísticos

REGRESIÓN LINEAL SIMPLE 1. INTRODUCCIÓN En muchas aplicaciones estadística se debe resolver problemas que contiene un conjunto de variables y que se sabe existe alguna asociación entre ellas. En este conjunto de variables muy a menudo se tiene una sola variable dependiente, que depende de una o más variable independiente. La primera forma del estudio de la asociación entre las variables X e Y es la regresión, que consiste en determinar una relación funcional entre ellas, con el fin de que se pueda predecir el valor de una variable en base a la otra. La variable que se va predecir se denomina variable dependiente y la variable que es la base de la predicción se denomina variable independiente. La segunda forma del estudio de la asociación entre las variables X e Y, es denominada correlación, que consiste en determinar la variación conjunta de las dos variables, su grado de relación y su sentido. La medida del grado de la relación se denomina coeficiente de correlación. El cuadrado del índice de correlación se denomina coeficiente de determinación. Se realizará un estudio de la regresión lineal en el sentido que, la ecuación de regresión que se calcula será válida, solo si hay la seguridad de que existe un alto nivel de correlación entre las variable medido por el coeficiente de determinación. Los métodos de regresión y variable independiente en simple o simple, si hay una sola variable independiente se denomina análisis

de correlación se clasifican por el numero de múltiple. El análisis de asociación se denomina independiente. Si hay dos o más variable de asociación múltiple.

2. DIAGRAMA DE DISPERSIÓN Se denomina diagrama de dispersión o nube de puntos, a la gráfica de los valores (x,y) de las variables X e Y en el sistema cartesiano. Es frecuente visualizar el tipo de relación existente entre dos variables a partir del diagrama de dispersión.

UCV – Lima este

Página 153

Métodos estadísticos

3. LA COVARIANZA La covarianza de los datos observado en una muestra es la estadística que mide el nivel de la variabilidad conjunta de los datos de las variables en pareja con respecto a sus medias respectivas.

4. EL COEFICIENTE DE CORRELACIÓN El coeficiente de correlación lineal de Pearson de los n pares de valores de una variable bidimensional (x,y) es el numero abstracto o relativo r que se calcula por:

Otra expresión que se suele usar es: r

cov( x, y )

SS x

y

Donde: Cov(x,y) es la covarianza de x e y. es la desviación estándar de x. es la desviación estándar de y. El coeficiente de correlación de la muestra es un número real comprendido entre -1 y 1. El grado o nivel de ajuste de la ecuación a los datos se analiza en forma descriptiva aplicando el coeficiente de determinación que se define como el cuadrado del coeficiente de correlación. Interpretación:   

Si r = 1, hay una correlación perfecta positiva. Si r = -1, hay una correlación perfecta negativa. Si r = 0, no hay correlación entre las dos variables.

5. REGRESIÓN LINEAL SIMPLE Dados n pares de valores de una variable bidimensional, la regresión lineal simple Y con respecto a X, consiste en determinar la ecuación de la recta: Y= a+bx UCV – Lima este

Página 154

Métodos estadísticos

Que mejor se ajusta a los valores de la muestra, con el fin de poder predecir o estimar Y a partir de X. El proceso de predecir o estimar Y a partir de la variables X , es la regresión. Hallar la función lineal, consiste en determinar las constante “a” y “b” a partir de los datos de la muestra, para lo cual se usara el método de mínimos cuadrados.

Otra expresión para b es:

b

cov( x, y )

 x2 __

__

a  y b x

Interpretación de coeficiente de regresión b 

Si b > 0, entonces la tendencia lineal es creciente, es decir a mayores valores de X corresponde mayores valores de Y. También a menores valores de X menores valores de Y.



Si b < 0, entonces, la tendencia lineal es decreciente, es decir, a mayores valores de X corresponde menores valores de Y. También, a menores valores de X corresponde mayores valores de Y.



Si b = 0, entonces Y permanece estacionario para cualquier valor de X es decir no hay regresión.

6. COEFICIENTE DE DETERMINACIÓN El coeficiente de determinación es una medida de la proximidad del ajuste de la recta de regresión. Cuanto mayor sea el valor, mejor será el ajuste y más útil la recta de regresión como instrumento de predicción; para calcular el coeficiente de determinación se eleva al cuadrado el coeficiente de correlación. El número r2 es denominado coeficiente de determinación.

UCV – Lima este

Página 155

Métodos estadísticos

7. VARIANZA ESTIMADA DE REGRESIÓN El segundo método para medir el ajuste de la estimación del modelo de regresión a los datos de la muestra, es aplicar el error estándar de la estimación, que desarrollaremos a continuación:

s2 

2 SCE  y  a y  b xy  n2 n2

La raíz cuadrada positiva de la varianza de regresión es la desviación estándar de la regresión, y se le denomina error estándar de estimación. El error estándar de la estimación al igual que la varianza, es una medida de la dispersión o concentración de los valores observados alrededor del modelo de regresión. Mientras más pequeño sea el valor del error estándar de estimación, más cercano a la línea de regresión estarán los valores estimados. 8.

INFERENCIA ACERCA DE LOS COEFICIENTE DE REGRESIÓN

No trataremos las inferencia acerca del parámetro “a” porque a menudo carece de importancia, pues “a” es la ordenada en el origen y representa la intersección de los ejes cuando x = 0. Nos referimos a la inferencia acerca del parámetro “b” la pendiente de la línea de regresión en la población. Antes de aplicar el modelo estimado de la regresión lineal para realizar predicciones de Y en función de X, se debe analizar si el valor de la pendiente B es o no es significativo. Entonces para evaluar el parámetro se puede utilizar cualquiera de los tres métodos:  Intervalo de confianza b  Prueba de hipótesis b  Análisis de varianza para b INTERVALO DE CONFIANZA Para poder calcular el intervalo de confianza se debe realizar los siguientes pasos: 

Diferencia cuadrada de x con respecto a la media:



Varianza estimada de “b”:



Intervalo de confianza para “b”:

UCV – Lima este

S b2 

___ 2

S XX   X  n X 2

s s xx

Página 156

Métodos estadísticos

Si el valor cero pertenece al intervalo entonces decimos que la b es igual a cero que no es significativo en el modelo. PRUEBA DE HIPÓTESIS Si se plantea la hipótesis que b es igual a cero; esta hipótesis se rechazará si el valor encontrado en la tabla es menor que el valor del estadístico. Esta prueba es bilateral. Hipótesis 1: Ho: a = 0 Ha: a 0 Hipótesis 2: Ho: b = 0 Ha: b 0 Valor de la tabla: t (1 

 2

; n  2)

Valor del estadístico de prueba:

t

b sb

ANÁLISIS DE VARIANZA El método del ANOVA de la regresión lineal simple plantea la hipótesis nula si b es igual a cero: ___ 2

Suma cuadrado total

SCT   y 2  n y

Suma cuadrado de regresión

SCR  b( xy  n x y )

Suma cuadrado del error

SCE  SCT  SCR

Cuadrado medio de regresión

CMR  SCR

Cuadrado medio del error

CME 

Valor del estadístico

F

Valor de la tabla

F  (1, n  2,1   )

__ ___

SCE n2

CMR CME

Si el valor del estadístico es mayor que el valor de la tabla entonces se rechaza la hipótesis nula.

UCV – Lima este

Página 157

Métodos estadísticos

9

APLICACIÓN DEL MODELO

Después de haber analizado la validez del modelo de regresión lineal calculado de la muestra y comprobado la existencia de regresión lineal en la población de la cual se ha obtenido la muestra o más específicamente después de haber concluido que el modelo lineal estimado es adecuado para describir la relación lineal entre X e Y se puede aplicar esta estimación del modelo de regresión, para pronosticar o predecir el valor y para un valor especifico de x. El primero es estimar el valor medio de todo los valores de y corresponde al valor x en un intervalo de confianza.

que

El segundo es predecir un solo valor y de todo los valores de y que corresponde a x y calcular los extremo de esta predicción. EJEMPLO APLICATIVO DE ANÁLISIS DE REGRESIÓN Los siguientes datos corresponden a las notas obtenidas en un examen parcial y final del curso de métodos estadísticos: X:PARCIAL 12 10 11 04 09 11 18 15 13 14

Y:FINAL 14 08 11 06 12 15 19 10 12 15

Hallar el grafico de dispersión

Tendencia: lineal positiva UCV – Lima este

Página 158

Métodos estadísticos

Hallar el coeficiente de correlación

r

n XY  ( X )( Y )

n Y

2



 ( Y ) 2 n  X 2  ( X ) 2



= 0.7555

Hallar el modelo de regresión lineal (modelo ajustado) B

n XY  ( X )( Y ) n X 2  ( X ) 2

A  Y  bX

  



Y = 3.38 + 0.75 X

UCV – Lima este

Página 159

Métodos estadísticos

TABLA DE LOS COEFICIENTES DEL MODELO Coeficientes no estandarizados

Modelo

B

Coeficientes tipificados

Error típ.

Beta

(Constante)

3,377

2,828

X_PARCIAL

,754

,231

,756

t

P_VALOR

1,194

0,267

3,262

0,011

El coeficiente del examen parcial es significativo

CUADRO DEL COEFICIENTE DE CORRELACIÓN

Modelo 1

r

R cuadrado

,756

,571

R cuadrado Error típ. de la corregida estimación ,517

2,616

Dado que el r = 0.756 se dice que existe relación lineal positiva entre las notas del examen parcial y el examen final.

CUADRO DE BONDAD DE AJUSTE DEL MODELO Modelo 1

Suma de cuadrados

gl

Media cuadrática

F

P_VAL OR

Regresión

72,846

1

72,846

10,643

,011

Residual

54,754

8

6,844

Total

127,600

9

Ho: el modelo es no significativo. Ha: el modelo es significativo. Decisión: entonces se rechaza Ho. Conclusión: con un 5% de significancia el modelo resulta ser significativo.

UCV – Lima este

Página 160

Métodos estadísticos

EJERCICIOS PROPUESTOS 1) En un estudio del efecto de un componente de la dieta sobre la composición de los lípidos del plasma, se obtuvieron los siguientes datos en una muestra de 8 animales experimentales X = Medida del componente de la dieta Y = Medida de la concentración de lípidos en el plasma

      

x

y

18

38

21

40

28

47

35

54

47

66

33

52

40

59

19

38

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo.

2) Los datos siguientes muestran la densidad óptica de cierta sustancia a diferente niveles de concentración. X = Nivel de concentración Y = Densidad óptica

UCV – Lima este

Página 161

Métodos estadísticos

      

x

y

x

y

80

0,08

280

0,38

120

0,12

320

0,41

160

0,18

360

0,42

200

0,21

400

0,51

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo.

3) El administrador de un hospital reunió los siguientes datos sobre el costo por comida estándar a diferentes volúmenes de preparación. X = Números de comidas servidas Y = Costo por comidas x

      

y

30

1,15

35

1,11

40

0,98

45

1,01

50

0,97

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

UCV – Lima este

Página 162

Métodos estadísticos

4) Se llevo a cabo un experimento para estudiar la relación entre una medición objetiva de la ansiedad y la frecuencia cardiaca en adulto. Se obtuvieron los siguientes resultados en los 10 adultos normales. X = Frecuencia cardiaca por minutos Y = Medición objetiva de la ansiedad

      

x

y

x

y

50

48

75

36

55

41

80

38

60

45

85

36

65

41

90

30

70

42

95

32

Hallar la covarianza Hallar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo.

5) Se reunieron los siguientes datos en un estudio de la relación entre la inteligencia y el tamaño de la familia. X = Tamaño de la familia Y = Puntuación de inteligencia

UCV – Lima este

x

y

x

y

1

105

6

101

2

102

7

95

3

104

8

93

4

100

9

97

5

97

10

88

Página 163

Métodos estadísticos

      

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

6) Un banco estudia la relación entre las variables, ingreso y ahorros mensuales de sus clientes. Una muestra aleatoria de sus clientes revelo los siguientes datos en dólares: X: Y:       

350 100

400 450 1105 130

500 160

950 350

850 350

700 250

900 320

600 130

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

7) El gerente de personal de una empresa quiere estudiar la relación entre el ausentismo y la edad de sus trabajadores. Si una muestra aleatoria de 10 trabajadores de registro de la empresa reveló lo siguientes datos: Edad: 25 46

58

Ausentismo: 18 12 8       

37

55

32

41

50

23

60

15

10

13

7

9

16

6

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

8) Un grupo que vende al menudeo, encargó un estudio para determinar la relación entre los gastos de publicad semanal por radio y el monto de las ventas de sus productos. En el estudio se obtuvieron los siguientes resultados:

UCV – Lima este

Página 164

Métodos estadísticos

Gastos: 30 20

40

50

70

60

80

70

80

90

Ventas: 300 250

400

380

550

750

630

930

700

750

      

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

9) Una empresa agroindustrial quiere determinar la relación entre cantidad de fertilizante y producción de papa por hectárea que produce. Si la muestra del experimento proporcionó los siguientes datos: Sacos: 3 4

5

Rendimiento: 45 48 52       

6

7

8

9

10

11

12

55

60

65

68

70

74

76

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

10) Para estudiar la relación entre el número de horas de estudio y calificaciones finales en una prueba de conocimientos se recopilaron siguientes datos de una muestra aleatoria de 10 alumnos. Horas:

14

Calificaciones: 12       

16

22

20

18

16

18

16

18 22

13

15

15

17

11

14

16

08

las los

05

Hallar la covarianza Halar la correlación Estimar el modelo Hallar el coeficiente de determinación Hallar la varianza de regresión Realizar la inferencia del modelo Aplicación del modelo

UCV – Lima este

Página 165

Métodos estadísticos

BIBLIOGRAFÍA 1. ÁVILA, Roberto. Estatística Elemental. 3era. Edición. Lima. Estudios y Ediciones R.A. 2002. 224 p 2. CÓRDOVA Manuel. Estadística Descriptiva e Inferencial Aplicaciones. Editorial, Librería Moshera S.R.L. 2008. 3. JHONSON, Robert. Estatística Elemental. 2da. Edición. México DF. Editorial Trillas. 2002. 180 p. 4. MITACC Meza Máximo. Tópicos de Estadística Descriptiva y Probabilidad. Editorial San Marcos. 2000 5. MONTGOMERY, M E. y RUNGER, G. Probabilidad y Estadística Aplicada a la Ingeniería. 1era. Edición. México. DF. Mc Graw Hill. 1999. 200 p. 6. WALPOLE, R. [et al. ]. Probabilidad y Estadística para Ingenieros. 6ta. Edición. México DF. Pearson Educativo. 2002. 200 p.

UCV – Lima este

Página 166

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF