Estadística Descriptiva.pdf
Short Description
Download Estadística Descriptiva.pdf...
Description
UNIVERSIDAD PRIVADA TELESUP
1
UNIVERSIDAD PRIVADA TELESUP
Prefacio: L
a asignatura asignatur a es de naturaleza práctico – teórico, orientado a desarrollar en el estudiante habilidades superiores del pensamiento para el razonamiento lógico y creativo, solución de problemas y la toma
de decisiones. El curso está orientado a proporcionar proporcionar al estudiante conocimientos estadísticos estadísticos fundamentales sobre las técnicas de investigación investigación estadística para recoger, analizar y mostrar información confiable y de calidad necesaria para la toma de decisiones. La asignatura está diseñada para que el alumno al final de cada clase desarrolle casos prácticos en base a datos reales.
Comprende cuatro Unidades de Aprendizaje:
Unidad I: Introducción, Organización Organización Y Presentación De Datos.
Unidad II: Medidas De Tendencia Central Y Medidas De Dispersión. Unidad III: Análisis De Regresión Y Correlación Lineal. Unidad IV: Probabilidades.
2
UNIVERSIDAD PRIVADA TELESUP
Introducción , Organización y Presentación de Datos Introducción, Concepto, Etapas del Desarrollo de la Estadística.
Variables Cualitativas y Cuantitativas.
Organización de Datos y Distribución de Frecuencias.
Medidas de Tendencia Central y Medidas de Dispersión Medidas de Tendencia Central para datos no Agrupados.
Medidas de Tendencia Central para datos Agrupados
Medidas de Dispersión. Gráficas Estadísticas.
Análisis de Regresión y Correlación Lineal La Recta De Regresión Lineal Simple Por El Método De Mínimos Cuadrados.
El Coeficiente de Correlación.
El Coeficiente de Determinación.
Diagrama De Dispersión.
Medidas de Posición.
Probabilidades
Experimento aleatorio, espacio muestral y suceso
Definición de Probabilidad Valor, Eventos Mutuamente Excluyentes y Eventos no Excluyentes
Probabilidad Condicional
Probabilidad Total, Teorema De Bayes Y Técnicas De Conteo
La competencia que el estudiante debe lograr al final de la asignatura es: “Aplicar técnicas estadísticas para la recolección,
presentación, análisis e interpretación de datos estadísticos.”
3
UNIVERSIDAD PRIVADA TELESUP
Índice del Contenido
I. PREFACIO II. DESARROLLO DE LOS CONTENIDOS UNIDAD DE APRENDIZAJE 1: INTRODUCCI N , ORGANIZACI N Y PRESENTACI N DE DATOS 1. Introducción a. Presentación y contextualización b. Competencia (logro) c. Capacidades d. Actitudes e. Ideas básicas y contenido 2. Desarrollo de los temas a. Tema 01: Introducción, Concepto, Etapas del Desarrollo de la Estadística. b. Tema 02: Variables Cualitativas y Cuantitativas. c. Tema 03: Organización de Datos y Distribución de Frecuencias. d. Tema 04: Gráficas Estadísticas. 3. Lecturas recomendadas 4. Actividades 5. Autoevaluación 6. Resumen UNIDAD DE APRENDIZAJE 2: MEDIDAS DE TENDENCIA CENTRAL Y MEDIDAS DE DISPERSION 1. Introducción a. Presentación y contextualización b. Competencia (logro) c. Capacidades d. Actitudes e. Ideas básicas y contenido 2. Desarrollo de los temas a. Tema 01: Medidas de Tendencia Central para datos no Agrupados. b. Tema 02: Medidas de Tendencia Central para datos Agrupados. c. Tema 03: Medidas de Dispersión. d. Tema 04: Medidas de Posición. 3. Lecturas recomendadas 4. Actividades 5. Autoevaluación 6. Resumen UNIDAD DE APRENDIZAJE 3: AN LISIS DE REGRESI N Y CORRELACI N LINEAL 1. Introducción a. Presentación y contextualización b. Competencia (logro) c. Capacidades d. Actitudes e. Ideas básicas y contenido 2. Desarrollo de los temas a. Tema 01: La Recta De Regresión Lineal Simple Por El Método De Mínimos Cuadrados. b. Tema 02: El Coeficiente de Correlación. c. Tema 03: El Coeficiente de Determinación. d. Tema 04: Diagrama De Dispersión. 3. Lecturas recomendadas 4. Actividades 5. Autoevaluación 6. Resumen UNIDAD DE APRENDIZAJE 4: PROBABILIDADES 1. Introducción a. Presentación y contextualización b. Competencia c. Capacidades d. Actitudes e. Ideas básicas y contenido 2. Desarrollo de los temas a. Tema 01: Experimento aleatorio, espacio muestral, suceso b. Tema 02: Definición De Probabilidad, Valor, Eventos Mutuamente Excluyentes Y Eventos No Excluyentes c. Tema 03: Probabilidad Condicional. d. Tema 04: Probabilidad Total, Teorema de Bayes y Tecnicas de Conteo. 3. Lecturas recomendadas 4. Actividades 5. Autoevaluación 6. Resumen III. GLOSARIO IV. FUENTES DE INFORMACI N V. SOLUCIONARIO
02 03 - 151 05-45 06 06 06 06 06 06 07-39 07 14 19 28 40 40 41 45 46-83 47 47 47 47 47 47 48-77 48 54 66 73 78 78 79 83 84-114 85 85 85 85 85 85 86-105 86 90 84 95 106 107 108 114 115-148 116 116 116 116 116 116 117-143 117 122 127 121 133 144 145 148 149 150 151
4
UNIVERSIDAD PRIVADA TELESUP
5
UNIVERSIDAD PRIVADA TELESUP
Introducción
a)Presentación y contextualización Los temas que se tratan en la presente unidad temática, tiene por finalidad que el estudiante comprenda, las nociones básicas de la estadística, tablas y gráficos estadísticos. Para poder hacer que el alumno pueda usar estos conocimientos en su vida diaria, problemas simples, y dar un enfoque más analítico con respecto a los problemas.
b)Competencia Recopila, organiza, sistematiza la información estadística, y representa mediante gráficos estadísticos.
c) Capacidades 1. Define y explica la importancia de la estadística y sus etapas. 2. Describe y aplica los diferentes tipos de variables en la estadística descriptiva. 3. Explica las maneras de cómo organizar datos y distribuir frecuencias. 4. Explica la estructura de cada uno de los gráficos usados en la estadística descriptiva.
d)Actitudes Toma iniciativa y lidera al equipo en el cumplimiento de las actividades asignadas a su vez promueve actividades y toma de decisiones pertinentes. Planifica y cumple oportunamente sus tareas o actividades diarias y presenta sus trabajos en forma organizada.
e) Presentación de Ideas básicas y contenido esenciales de la Unidad: La Unidad de Aprendizaje 01: Introducción, Organización Y Presentación De Datos, comprende el desarrollo de los siguientes temas: TEMA 01: Introducción, Concepto, Etapas del Desarrollo de la Estadística. TEMA 02: Variables Cualitativas y Cuantitativas. TEMA 03: Organización de Datos y Distribución de Frecuencias. TEMA 04: Gráficas Estadísticas.
6
UNIVERSIDAD PRIVADA TELESUP
TEMA 1
Definir y explicar la importancia de la estadística y sus etapas.
7
UNIVERSIDAD PRIVADA TELESUP
Desarrollo de los Temas A. Introducción:
La palabra "estadística" suele utilizarse bajo dos significados distintos, a saber:
1º Como colección de datos numéricos.- Esto es el significado más vulgar de la palabra estadística. Se sobrentiende que dichos datos numéricos han de estar presentados de manera ordenada y sistemática. Una información numérica cualquiera puede no constituir una estadística, para merecer este apelativo, los datos han de constituir un conjunto coherente, establecido de forma sistemática y siguiendo un criterio de ordenación.
2º Como ciencia.- En este significado, La Estadística estudia el comportamiento de los fenómenos de masas. Como todas las ciencias, busca las características generales de un colectivo y prescinde de las particulares de cada elemento. Al investigar el sexo de los nacimientos, iniciaremos el trabajo tomando un grupo numeroso de nacimientos y obtener después la proporción de varones.
Es muy frecuente enfrentarnos con fenómenos en los que es muy difícil predecir el resultado; así, no podemos dar una lista, con las personas que van a morir con una cierta edad, o el sexo de un nuevo ser hasta que transcurra un determinado tiempo de embarazo.
El objetivo de la estadística como ciencia es recopilar, e interpretar datos que en el futuro servirán para proyectar posibles problemáticas futuras, consiguiendo según estos datos, la solución más viable y rápida.
8
UNIVERSIDAD PRIVADA TELESUP
B. Concepto: Es una ciencia aplicada que nos proporciona un conjunto de métodos o técnicas para:
Recopilar.
Organizar.
Presentar Datos.
Analizar Datos.
¿Quienes Usan La Estadística? Los métodos estadísticos han encontrado en la actualidad
aplicación
administración
de
en
el
negocios,
Gobierno, las
la
Ciencias
Sociales, la Sicología, las Ingenierías, las Ciencias Físicas y Naturales y en muchos otros campos de la actividad intelectual.
Algunos ejemplos:
En Los Organismos De Gobierno. Los diferentes indicadores económicos, tales como índices de precios al por mayor y al consumidor, las tasas de interés, las fluctuaciones del mercado bursátil y el índice de producción industrial, no solamente describen el estado actual de la economía, sino que proporcionan pistas acerca de sus futuras tendencias. Con el auxilio de tales indicadores, los encargados de las políticas de los distintos organismos serían capaces de tomar decisiones más racionales con respecto a sus operaciones.
9
UNIVERSIDAD PRIVADA TELESUP
En La Administración De Negocios. La creciente complejidad de la economía ha provocado un terrible grado de incertidumbre acerca de las operaciones futuras de cualquier empresa de negocios. Más y más compañías están usando el análisis estadístico como herramienta para la toma de decisiones, especialmente en áreas tales como investigación de mercados, predicciones y planeación a largo plazo en lo referente a recursos financieros y humanos.
En La Educación Y En La Psicología. La necesidad de analizar e interpretar datos numéricos ha hecho necesario para educadores y para sicólogos tener al menos alguna comprensión básica de los métodos estadísticos. La necesidad del sicólogo de herramientas estadísticas especiales ha llevado al desarrollo de nuevas técnicas estadísticas en las últimas décadas.
En las Ciencias Biológicas y en la Medicina. En la agricultura,
se
utilizan
para
determinar los efectos de clases
En la Sociología, en la Antropología y en las
Ciencias
del
de semillas, de insecticidas y de
Comportamiento.
fertilizantes en los campos. Se
Las
emplea también para determinar
estadísticas
los posibles efectos laterales o
aplicado a una amplia
la efectividad de las medicinas y
variedad de proyectos
para
de
proporcionar
mejores
técnicas se
investigación
han
que
la
impliquen el estudio de
diseminación de enfermedades
individuos y de grupos.
métodos
para
controlar
contagiosas.
En La Ingeniería. La aplicación de los principios estadísticos al control de calidad ha sido una práctica aceptada durante varias décadas.
10
UNIVERSIDAD PRIVADA TELESUP
C. Etapas de Desarrollo de la Estadística La historia de la estadística está resumida en tres grandes etapas o fases:
1.- Los Censos: Desde el momento en que se constituye una autoridad política, la idea de inventariar de una forma más o menos regular la población y las riquezas existentes en el territorio está ligada la conciencia de soberanía y con los primeros esfuerzos administrativos. Los comienzos de la estadística pueden ser hallados en el antiguo Egipto, cuyos faraones lograron recopilar, hacia el año 3050 antes de Cristo, prolijos datos relativos a la población y a las riquezas del país.
2.- De La Descripción A La Aritmética Política: Las ideas mercantilistas entrañan una intensificación de este tipo de investigación. Colbert multiplica las encuestas sobre artículos manufacturados, el comercio y la población. Vauban, quien hace la primera propuesta de un impuesto sobre los ingresos, se señala como el verdadero precursor de los sondeos. La escuela inglesa proporciona un nuevo progreso al superar la fase puramente descriptiva. Uno de sus principales exponentes Petty es autor de la famosa Aritmética Política. Chaptal, ministro del interior francés, publica, en 1801, el primer censo general de población y desarrolla estudios industriales, de las producciones y de los cambios, los cuales se hicieron sistemáticos durante las dos terceras partes del siglo XIX.
3.- Estadística Y Cálculo De Probabilidades: El cálculo de probabilidades se incorpora, rápidamente, como un instrumento de análisis extremadamente poderoso para el estudio de los fenómenos económicos y sociales y, en general, para el estudio de fenómenos "cuyas causas son demasiado complejas para conocerlas totalmente y hacer posible su análisis". Godofredo Achenwall, profesor de la Universidad de Gotinga, acuñó, en 1760, la palabra estadística, que extrajo del término italiano statista (estadista). Creía, y con sobrada razón, que los datos de la nueva ciencia serían el aliado más eficaz del gobernante consciente.
11
UNIVERSIDAD PRIVADA TELESUP
D. Población, Elementos Y Caracteres. Es obvio que todo estudio estadístico ha de estar referido a un conjunto o colección de personas o cosas. Este conjunto de personas o cosas es lo que denominaremos población.
Población: conjunto de todos los individuos (personas, objetos, animales, etc.) que porten información sobre el fenómeno que se estudia.
Por ejemplo: si estudiamos el precio de la vivienda en una ciudad, la población será el total de las viviendas de dicha ciudad.
Individuo: cualquier elemento que porte información sobre el fenómeno que se estudia. Así, si estudiamos la altura de los niños de una clase, cada alumno es un individuo; si estudiamos el precio de la vivienda, cada vivienda es un individuo.
Las personas o cosas que forman parte de la población se denominan elementos. En sentido estadístico un elemento puede ser algo con existencia real, como un automóvil o una casa, o algo más abstracto como la temperatura, un voto, o un intervalo de tiempo. Luego por tanto de cada elemento de la población podremos estudiar uno o más aspectos cualidades o caracteres.
La población puede ser según su tamaño de dos tipos: Población Finita: Cuando el número de elementos que lo forman, se pueden enumerar, por ejemplo el número de alumnos de un centro de enseñanza, o grupo clase.
12
UNIVERSIDAD PRIVADA TELESUP
Población Infinita: Cuando la cantidad de elementos que la forman
no es posible numerarlo. Como
por ejemplo si se realizase un estudio sobre los productos que hay en el mercado. Hay tantos y de tantas calidades que esta población podría considerarse infinita.
Muestra: Subconjunto que seleccionamos de la población. Así, si se estudia el precio de la vivienda de una ciudad, lo normal será no recoger información sobre todas las viviendas de la ciudad (sería una labor muy compleja), sino que se suele seleccionar un subgrupo muestra) que se entienda que es suficientemente representativo.
13
UNIVERSIDAD PRIVADA TELESUP
TEMA 2
Describir y aplicar los diferentes tipos de variables en la estadística descriptiva.
14
UNIVERSIDAD PRIVADA TELESUP
Las variables pueden ser clasificadas como cuantitativas (intervalares) o cualitativas (categóricas), dependiendo si los valores presentados tienen o no un orden de magnitud natural (cuantitativas), o simplemente un atributo no sometido a cuantificación (cualitativa).
Una variable es medida utilizando una escala de medición.
La elección de la(s) escala(s) de medición a utilizar depende, en primer lugar, del tipo de variable en estudio, y, además, del manejo estadístico a la que se someterá la información. En términos prácticos, existe una correspondencia directa entre el concepto de variable y escala de medición. Un atributo corresponde a un valor específico de una variable, como es el caso de la variable sexo, la que posee dos atributos: varón o mujer.
1 = muy en desacuerdo En variables que exploran el grado de acuerdo o desacuerdo frente a una
2 = en desacuerdo
afirmación los atributos podrían ser:
3 = indiferente
4 = de acuerdo
5 = muy de acuerdo
15
UNIVERSIDAD PRIVADA TELESUP
Dependiendo de los valores que puede tener una variable cualitativa, ésta puede a su vez ser dicotómicas (cuando sólo pueden adoptar un sólo valor sin jerarquía entre sí; hombre - mujer, positivo-negativo, presente-ausente), o bien, poli o multicotómicas, si existe la posibilidad de que adopten múltiples valores (edad, talla, nivel socioeconómico, grupos sanguíneos, calificación previsional de usuarios).
1. Las escalas de medición de una variable cualitativa son:
Nominal.- Nominal, En este nivel de medición se establecen categorías distintivas que no implican un orden especifico.
Ejemplo: Nombres de personas, de establecimientos, raza, grupos sanguíneos, estado civil. Estas variables no tienen ningún orden inherente a ellas ni un orden de jerarquía.
Ordinal.- Cuando se establecen categorías con dos o mas niveles que implican un orden inherente entre sí.
Ejemplo: Grados de desnutrición, respuesta a un tratamiento, nivel socioeconómico, intensidad de consumo de alcohol, días de la semana, meses del año.
A pesar de este orden jerárquico no es posible obtener valoración numérica ló ica entre dos valores. 1. Las variables de tipo cuantitativo pueden a su vez ser clasificadas como continuas o discretas. Las escalas cuantitativas
son
reconocidas
también
como
escalas
intervalares o numéricas.
Continua.- Cuando entre dos valores determinados existen infinitas posibilidades de valores. Ejemplo: El peso, la talla, la presión arterial o el nivel de colesterol sérico.
16
UNIVERSIDAD PRIVADA TELESUP
Discreta.- Cuando la variable a medir sólo puede adoptar un sólo valor numérico, entero, con valores intermedios que carecen de sentido
Ejemplo: El número de hijos, de unidades vecinales del sector, número de exámenes de laboratorio o de pacientes atendidos.
En la práctica, salvo contadas excepciones no se dispone de métodos de medición sofisticados como para poder medir exactamente los valores. Tanto las variables discretas como las continuas pueden agruparse construyendo intervalos, entre cuyos valores extremos se ubicarán las diferentes observaciones registradas. Sin embargo, estrictamente hablando, sólo las variables continuas pueden ser objeto de categorización mediante intervalos.
Clasificación de Variables
Cuantitativas (intervalares) Continuas
Discretas
Ej. Presión arterial, peso, edad, talla, IMC
Ej. Número de hijos, episodios de
(Índice de Masa Corporal)
infección urinaria
Categóricas (cualitativas) Dicotómicas
Politómicas
Ej. Sexo masculino y
Ej. Grupo sanguíneo, raza, estado
femenino; vivo/muerto. civil, grado de instrucción
17
UNIVERSIDAD PRIVADA TELESUP
NOTA: Las variables también se pueden clasificar en:
Variables unidimensionales: Sólo recogen información sobre una característica (por ejemplo: edad de los alumnos de una clase).
Variables Bidimensionales: Recogen información sobre dos características de la población (por ejemplo: edad y altura de los alumnos de una clase).
Variables pluridimensionales: Recogen información sobre tres o más características (por ejemplo: edad, altura y peso de los alumnos de una clase).
Ordenables: Aquellas que sugieren una ordenación, por ejemplo la graduación militar, El nivel de estudios, etc.
No ordenables: Aquellas que sólo admiten una mera ordenación alfabética, pero no establece orden por su naturaleza, por ejemplo el color de pelo, sexo, estado civil, etc.
18
UNIVERSIDAD PRIVADA TELESUP
TEMA 3
Explicar las maneras de cómo organizar datos y distribuir frecuencias.
19
UNIVERSIDAD PRIVADA TELESUP
Organización de los Datos Obtenidos de una Muestra
Cuando se han recopilado datos mediante un muestreo o un censo, la primera inquietud que aparece es sobre la manera en la que se puede realizar un análisis descriptivo apropiado con la información recolectada de manera que resulte sencillo entender lo que ocurre en la población de la que se han captado las observaciones. En este tema se proprocionan algunos procedimientos para la tabulación de datos que conducen a la formación de cuadros o tablas de frecuencias.
Organización De Los Datos Cualitativos
Antes de iniciar el trabajo de organización de datos cualitativos, es necesario determinar si éstos corresponden a variables cualitativas nominales u ordinales. Si los datos son cualitativos nominales, se
formar categorías que pueden ser
presentadas en cualquier orden: por ejemplo los colores de preferencia de las personas. Si los datos son ordinales, entonces deben estar asociados a algún orden en su presentación. Una vez definido el tipo de variable, se obtiene mediante un proceso de conteo las frecuencias absolutas (número de veces que se repite cada respuesta), luego las frecuencias relativas (división de cada frecuencia absoluta entre el tamaño de muestra)
y/o los
porcentajes de cada respuesta (cada frecuencia relativa multiplicada por 100). También se puede encontrar las frecuencias absolutas acumuladas (Fi)
20
UNIVERSIDAD PRIVADA TELESUP Frecuencia acumulada (Fi).-
Frecuencia relativa (hi).-
Para
cada
clase,
valor
o
Es la proporción del total de
modalidad, la frecuencia acumulada
observaciones que caen dentro de
equivale la frecuencia absoluta (fi)
cada modalidad o valor. Se obtiene
de la fila sumada a la frecuencia
dividiendo la frecuencia absoluta
acumulada de la fila anterior. Para
(fi) de la modalidad entre e número
la
total de observaciones (n).
acumulada equivale simplemente a
primera
fila,
la
frecuencia
la frecuencia absoluta de la misma fila.
Ejemplo 1. Una revista conocida efectuó una encuesta respecto a lo adecuado de la protección policial en la ciudad. Se seleccionó un total de 419 personas. Las respuestas se presentan en la siguiente tabla de frecuencias:
Respuesta
Frecuencia
Frecuencia
Porcentaje
absoluta
relativa
Si
293
0.6993
69.93
No
80
0.1909
19.09
No sabe/
46
0.1098
10.98
419
1
100
no responde
Ejemplo 2. Se ha efectuado una encuesta a 200 madres solteras entre 15 y 25 años de la ciudad de Piura. Los valores se agrupan en: primaria completa, secundaria completa y educación superior completa. El resultado del conteo se presenta en la siguiente tabla:
21
UNIVERSIDAD PRIVADA TELESUP
Modalidad
Primaria completa Secundaria completa Educac.superior
Frecuencia
Frecuencia
Porcentaje
absoluta
relativa
125
0.625
62.5
70
0.35
35
5
0.025
2.5
200
1
100
completa
Organización De Datos Cuantitativos Discretos Cuando se tienen datos cuantitativos discretos cuyo número de r esultados posibles no es grande, la información puede ser clasificada y presentada directamente sin pérdida de la identidad de la misma. En estos casos, primero se ordenan los posibles valores de la variable según su magnitud, y a continuación se obtienen, mediante un proceso de conteo, las frecuencias absolutas asociadas a cada uno de dichos valores; las frecuencias relativas y porcentuales se obtienen de manera similar a lo descrito para las variables cualitativas.
Ejemplo. Consideremos la variable número de hijos y tomemos las observaciones de una muestra de 150 familias de zonas marginales de Lima Metropolitana. Los valores obtenidos se pueden agrupar en diferentes valores: 0 hijos, 1 hijo, 2 hijos, 3 hijos o 4 hijos. Para hacer un arreglo de estas observaciones, usaremos una tabla como la siguiente:
Frecuencia
Frecuencia
absoluta
relativa
0 1 2 3 4
2 15 40 55 38
0.013 0.100 0.267 0.367 0.253
1.3 10.0 26.7 36.7 25.3
TOTAL
150
1
100
Número de hijos
Porcentaje
22
UNIVERSIDAD PRIVADA TELESUP
Organización De Datos Cuantitativos Continuos Cuando se tiene información para una variable cuantitativa continua, las observaciones son usualmente diferentes entre sí, lo cual hace que la evaluación descriptiva a través de los valores individuales sea compleja. Para simplificar el análisis, los datos son clasificados de acuerdo con ciertos rangos llamados intervalos de clase.
Ejemplo. Tomamos una muestra de 100 niños de 10 años de edad para estudiar su estatura. Entonces la variable estatura que es cuantitativa continúa se puede presentar en una tabla del siguiente tipo:
INTERVALOS DE CLASE
FRECUENCIA(fi)
[1.0mt.- 1.15mt]
3
[1.15mt. - 1.30mt]
39
[1.30mt.- 1.45mt]
55
[1.45mt.- 1.60mt]
3
TOTAL
100
A la organización de las observaciones de una muestra en una tabla para expresar la frecuencia de cada una de sus modalidades o valores se le conoce como distribución
de frecuencias. En las distribuciones de frecuencia de las variables cuantitativas continuas, también se acostumbra colocar otras columnas además de la frecuencia absoluta (fi), estas nos permitirán tener una mayor información sobre los datos y nos facilitarán los cálculos de las medidas descriptivas o estadísticos de la muestra. Estas son la frecuencia relativa (hi), la frecuencia acumulada (Fi y Hi).
23
UNIVERSIDAD PRIVADA TELESUP La organización de los datos para el caso en que la variable estadística usada tenga muchos valores implica e arreglo de las observaciones en intervalos de clases. El proceso para hallar los intervalos de clase es el siguiente: Debemos hallar, en primer lugar, en la muestra, el menor valor observado y el mayor valor observado.
El número de intervalos no deberá ser tan pequeño (menor que 5) o tan grande (mayor de 15) que la verdadera naturaleza de la distribución sea imposible de visualizar. La longitud del intervalo de clase deberá ser siempre la misma. Si la longitud de cada intervalo no fuera exacta, se puede tomar por exceso asegurándonos de este modo que la reunión de todos los intervalos cubrirá a todos los valores observados.
Para construir los intervalos se usa los intervalos cerrados a la izquierda y abiertos a la derecha: [LIi, LSi[, donde LIi,es el límite inferior del intervalo y LSi, es su límite superior.
¿Cómo decidimos cuántos intervalos de clase tomar? Existen varias reglas que se basan en el tamaño de nuestra población o muestra. Una de las reglas más usadas es la
Regla de Sturges, regla empírica que funciona bastante bien para grupos de 30 a 300 observaciones. Esta regla nos dice que el número de intervalos de clase para una muestra de tamaño n será k si este resulta un número entero o el siguiente número entero a k, si k resulta un número decimal. La ecuación para hallar k es: k = 1 + 3.3 * log n, donde n es el tamaño de la muestra.
24
UNIVERSIDAD PRIVADA TELESUP
La marca de clase (xi), definida como el punto medio del intervalo de clase, deberá tener de preferencia el mismo número de decimales que los valores observados. La marca de clase puede considerarse que es un
representante de los datos que caen en el intervalo.
Xi =
+
Ejemplo 1. Suponga que los datos que se presentan a continuación corresponden a los valores de la inflación anual durante el año 2008 de un total de 20 ciudades de una región del país. Construir la distribución de frecuencias 8.2 12.8 10.5 9.3 12.7 10.2 9.1 10.7 8.2 12.8 8.5 11.6 8.4 10.1 10.2 13.1 9.8 12.1 13.6 11.7
Solución 1. R = 13.6 – 8.2 = 5.4 2. K = 1 + 3.3 log20 = 1 + 3.3 (1.30.10) = 1 + 4.29 = 5.29 = 5 (redondeo por aproximación)
3. C = R/k = 5.4 / 5 = 1.08 = 1.1 (redondeo por exceso; los datos tienen un decimal)
4. Los límites de los intervalos se obtienen del siguiente modo: LI1 = 8.2
LS1 = LI2 = 9.3
LI2 = LI1 + c = 8.2 + 1.1= 9.3
LS2 = LI3 = 10.4
LI3 = LI2 + c = 9.3 + 1.1 = 10.4
LS3 = LI4 = 11.5
LI4 = LI3 + c = 10.4 + 1.1 = 11.5
LS4 = LI5 = 12.6
LI5 = LI4 + c = 11.5 + 1.1 = 12.6
LS5 = LS4 + c = 12.6 + 1.1 = 13.7
5. Las marcas de clase se calculan de la siguiente manera: X1 =
.+. . ;
.+. .
y así sucesivamente
6. Para determinar las frecuencias absolutas se procede como sigue: Se toma la primera observación 8.2 y se busca el intervalo de clase que pertenece, es el 8.2 – 9.3, luego se asigna una tarja en la intersección de la columna de conteo y la fila de ese intervalo. Se toma ahora la otra observación 12.8, la cual pertenece al intervalo 12.6 – 13.7, entonces se asigna una tarja en la intersección de la fila de este nuevo intervalo y la columna de conteo. Así sucesivamente hasta agotar la última observación. Sumando las tarjas se obtiene la frecuencia absoluta de cada clase. 7. Para obtener las frecuencias acumuladas se procede de la siguiente forma: F1 = f1 = 5 F2 = F1 + f2 = 5 + 5 = 10
25
UNIVERSIDAD PRIVADA TELESUP
Con los resultados anteriores se obtiene el siguiente cuadro de distribución de frecuencias Intervalos Marca de
Tarjas Frecuencia
de clase clase Xi
absoluta fi
Frecuencia
Frecuencia
acumulada
relativa
Fi
hi
8.2 ; 9.3
8.75
/////
5
5
5/20
9.3 ; 10.4
9.85
/////
5
10
5/20
10.4 ; 11.5
10.95
//
2
12
2/20
11.5 ; 12.6
12.05
///
3
15
3/20
12.6 ; 13.7
13.15
/////
5
20
5/20
20
1
Ejemplo 2. A continuac ión, se presenta una lista ya ordenada de las observaciones hechas sobre el ingreso de las personas.
53
57
58
61
61
63
64
66
67
68
69
70
71
72
73
74
74
74
74
77
77
77
78
78
79
79
79
81
81
81
82
82
83
83
84
85
85
86
87
87
88
90
90
90
90
92
93
94
96
97
Para estos ingresos, el menor valor de la muestra es 53 dólares y el mayor valor de la muestra es 97 dólares. Luego, el rango de estos valores es: 97 - 53 = 44 dólares Al aplicar la regla de Sturges con n= 50, tendremos: k= 1 + 3.3*(1.69897) = 6.6, lo que equivale a tomar 7 intervalos s) El tamaño o amplitud de cada intervalo de clase se determina así: c=R /K= 44 / 7
= 6.29 = 7. (redondeo por exceso, al entero superior, considerando que los datos son entero. Si los datos tienen decimales el proceso es el mismo).
26
UNIVERSIDAD PRIVADA TELESUP
Siguiendo el mismo proceso utilizado para el ejemplo 1, se tiene la tabla de distribución de frecuencias:
INTERVALOS
xi
fi
hi
Fi
[53 ; 60]
56.5
3
3/ 50
3
[60 ; 67]
63.5
5
5/ 50
8
[67 ; 74]
70.5
7
7/50
15
[7 4 ; 81]
77.5
12
12 / 50
27
[81 ; 88]
84.5
13
13/50
40
[88 ; 95]
91.5
10
10 / 50
50
50
1
TOTAL
27
UNIVERSIDAD PRIVADA TELESUP
TEMA 4
Explicar la estructura de cada uno de los gráficos usados en la estadística descriptiva. 7
28
UNIVERSIDAD PRIVADA TELESUP
Presentación De Los Datos Obtenidos De Una Muestra Una vez realizada la organización de los datos observados, es necesario presentar estos de forma gráfica forma visual permitirá resaltar algunos hechos que muestran los datos. Se verán diversos tipos de gráficos catalogados según el tipo de variable a presentarse.
Para Una Variable Cualitativa Para una variable cualitativa, ya sea nominal u ordinal, la presentación de la información obtenida organizada en una distribución de frecuencias puede ser presentada mediante dos gráficos: gráfico de barras y gráfico de sectores.
a)Gráfica De Barras En este tipo de presentación, cada barra rectangular corresponde a una modalidad. Todas las barras tienen base de igual longitud y altura proporcional a la frecuencia (fi) o frecuencia relativa (hi) que presen modalidad. Tomemos la distribución de frecuencias de la variable grado de instrucción, obtenida de una muestra de 150 mujeres. Se considerará que cada mujer pertenece al mayor grado de instrucción que ha concluido.
MODALIDAD
fi
hi
Pi
Primaria Completa
60
0,40
40%
Secundaria Completa
55
0,37
37%
Superior Completa
35
0,23
23%
150
29
UNIVERSIDAD PRIVADA TELESUP
70
S E R60 E J U50 M40 E D30 O R20 E M Ú10 N 0
GRÁFICA DE BARRAS
Primaria Completa Secundaria Completa Superior Completa
Primaria Completa
Secundaria Completa
Superior Completa
GRADO DE INSTRUCCIÓN
También es posible realizar GRÁFICAS DE BARRAS HORIZONTALES, los cuales se parecen mucho a las gráficas de columnas, con la salvedad importante de que la función de los ejes se intercambia y el eje horizontal queda destinado a las frecuencias y el eje vertical a las clases. Es muy común que este tipo de gráficos se utilicen para ilustrar el tamaño de una población dividida en estratos como, por ejemplo, son sus edades. El ejemplo que se presenta es la población de un país ficticio llamado "Perulandia":
A este tipo de gráficos en particular se le llama pirámide de edades por su
forma.
Incluso,
cuando
se
compara la población masculina y femenina por estratos de edades, se estila utilizar el lado izquierdo para la población de un sexo y el lado derecho para el otro, el resultado es una
"pirámide"
(dependerá
de
casi la
simétrica
población
en
particular).
30
UNIVERSIDAD PRIVADA TELESUP
b)Gráfica De Sectores Otra forma de presentar la información de una variable cualitativa es utilizando una gráfica de sectores (también denominada gráfica tipo "pie" o "pastel"). La gráfica de sectores es un círculo dividido en varios sectores proporcionales en tamaño a las frecuencias relativas (hi) de las diferentes modalidades. En el caso anterior de la distribución de frecuencias, tendremos:
Primaria completa
40% de 360 grados = 144 grados
Secundaria completa 37% de 360 grados = 133.2 grados Superior completa
23% de 360 grados = 82.8 grados
MODALIDAD
fi
hi
Pi
Primaria Completa
60
0,40
40%
Secundaria Completa
55
0,37
37%
Superior Completa
35
0,23
23%
150
Primaria Completa
23%
Secundaria Completa
40%
Superior Completa
37%
31
UNIVERSIDAD PRIVADA TELESUP
c) Gráfico De Bastones Para una variable cuantitativa discreta (con pocos valores) es posible usar los gráficos de barras. Pero existe otro gráfico, diseñado para este tipo de variables y es la
GRÁFICA DE BASTONES. En esta gráfica, la frecuencia del valor de la variable es representada por un segmento de recta en vez de una barra.
Tomemos la variable número de hijos, los posibles valores de esta variable son 0 hijos, 1 hijo, 2 hijos, 3 hijos ó 4 hijos. Luego, para una muestra de 100 datos tendremos la distribución de frecuencias:
VALOR
fi
Hi
0 Hijos
7
7/ 100 = 0.07
1 Hijo
15
15 ./ 100 = 0.15
2 Hijos
40
40 / 100 = 0.40
3 Hijos
25
25 / 100 = 0.25
4 Hijos TOTAL
13 100
13 / 100 = 0.13 1.00
32
UNIVERSIDAD PRIVADA TELESUP
d)Histograma Para Una Variable Cuantitativa Discreta (Con Muchos Valores) O Continua existe una gráfica equivalente a la gráfica de barras, se denomina histograma. Esta forma de presentación también consiste en graficar barras, pero, a diferencia de la gráfica de barras, aquí las barras están pegadas unas a otras. Cada barra corresponde a un intervalo de clase y se acostumbra a colocar el valor inicial y final de cada intervalo o la marca de clase para identificar cada barra. La altura de cada barra puede ser proporcional a la frecuencia (fi) o la frecuencia relativa (hi) del intervalo.
Intervalos
Xi
fi
Fi
hi
Pi
[ 52,5 ; 57,5 ]
55
2
2
0,04
4%
[ 57,5 ; 62,5 ]
60
3
5
0,06
6%
[ 62,5 ; 67,5 ]
65
4
9
0,08
8%
[ 67,5 ; 72,5 ]
70
5
14
0,10
10%
[ 72,5 ; 77,5 ]
75
8
22
0,16
16%
[ 77,5 ; 82,5 ]
80
10
32
0,20
20%
[ 82,5 ; 87,5 ]
85
8
40
0,16
16%
[ 87,5 ; 92,5 ]
90
6
46
0,12
12%
[ 92,5 ; 97,5 ]
95
4
50
0,08
8%
1,00
100%
Total
50
33
UNIVERSIDAD PRIVADA TELESUP
HISTOGRAMA 12
S10 A I C 8 N E 6 U C E 4 R F 2 0
55
60
65
70
75
80
85
90
95
MARCAS DE CLASE
e) Polígono De Frecuencias Uniendo los puntos medios de los lados superiores de cada barra rectangular del histograma se obtiene un gráfico llamado polígono de frecuencias. El conocimiento del polígono de frecuencias ayudará más adelante en la búsqueda del modelo teórico que mejor describa a los elementos de la población de acuerdo con la variable que se estudia.
Polígono De Frecuencias (Línea Negra)
34
UNIVERSIDAD PRIVADA TELESUP
Otro Ejemplo De Polígono De Frecuencias (Línea Negra)
f) Ojiva Una gráfica similar al polígono de frecuencias es la ojiva, pero ésta se obtiene de aplicar parcialmente la misma técnica a una distribución acumulativa y de igual manera que éstas, existen las ojivas mayores que y las ojivas menores
que. Existen dos diferencias fundamentales entre las ojivas y los polígonos de frecuencias (y por esto la aplicación de la técnica es parcial): Un extremo de la ojiva no se "amarra" al eje horizontal, para la ojiva mayor que sucede con el extremo izquierdo; para la ojiva menor que, con el derecho. En el eje horizontal en lugar de colocar las marcas de clase se colocan las fronteras de clase.
Para el caso de la ojiva mayor que, es la frontera menor; para la ojiva menor
que, la frontera mayor. La ojiva mayor que (izquierda) se le denomina de esta manera porque viendo el punto que está sobre la frontera de clase "4:00" se ven las visitas que se realizaron en una hora mayor que las 4:00 horas (en cuestiones temporales se diría: después de las 4:00 horas).
35
UNIVERSIDAD PRIVADA TELESUP
De forma análoga, en la ojiva menor que, la frecuencia que se representa en cada frontera de clase son el número de observaciones menores que la frontera señalada (en caso de tiempos sería el número de observaciones antes de la hora que señala la frontera).
Si se utiliza una distribución porcentual acumulativa entonces se obtiene una ojiva (mayor que o menor que según sea el caso) cuyo eje vertical tiene una escala que va del 0% al 100%. El siguiente ejemplo es la misma ojiva menor que se acaba de usar, ero con una distribución orcentual:
g)Gráfica De Áreas En ocasiones, al comparar dos series de observaciones (o de datos) se utiliza una llamada gráfica de áreas, la cual consiste en rellenas el área que se encuentre debajo de las líneas que resultan de una gráfica de líneas. El ejemplo que se presenta es la comparación del total de las especies de las familias del orden Carnívora y las que están amenazadas, en México, (fuente: Revista "Ciencia y Desarrollo").
36
UNIVERSIDAD PRIVADA TELESUP
Actualmente, y mucho en los medios masivos de comunicación, se utilizan gráficos para ilustrar los datos o los resultados de alguna investigación. Regularmente se utilizan dibujos para representar dicha información, y el tamaño o el número de estos dibujos dentro de una gráfica queda determinado por la frecuencia correspondiente. A este tipo de gráfica se le llama pictograma y éstos son dos ejemplos:
h)Gráfica De Dispersión Cuando se pretende ilustrar la dispersión de las observaciones realizadas, y así trabajar algunas cosas como correlaciones se puede utilizar una gráfica de
dispersión.
37
UNIVERSIDAD PRIVADA TELESUP
Por ejemplo, el ejemplo de la izquierda es la dispersión que se presenta al comparar el número de tesis doctorales en ciencias exactas contra el número de total de tesis doctorales (todo en México) en observaciones anuales entre 1984 y 1990 (fuente: Revista "Ciencia y Desarrollo", 1994, XIX (114):12):
La gráfica de la derecha es resultado de comparar el diámetro (en miles de k ilómetros) de los planetas interiores de nuestro sistema solar contra sus densidades (en gramos por centímetro cúbico). Es interesante observar que los puntos parecen "seguir" una línea imaginaria que se asemeja a una recta, con excepción de un caso atípico: Mercurio.
Uno de los usos de este tipo de gráficas es precisamente encontrar si las observaciones siguen algún patrón lineal (una línea de tendencia) o si existen valores atípicos. Para el caso del Excel , el programa es capaz de graficar las líneas de tendencias que siguen un conjunto de datos.
38
UNIVERSIDAD PRIVADA TELESUP
i) Gráfica De Burbujas Un tipo de gráfico similar a las gráficas de dispersión son las gráficas de
burbujas, en las cuales se presenta la dispersión de las observaciones de la misma forma que aquéllas, pero se le añade la posibilidad de visualizar otra variable representada en el tamaño del punto, pues éstos se convierten en círculos (burbujas) con radios proporcionales a las magnitudes que representan.
Este ejemplo compara la distancia que existe entre cada uno de los planetas interiores de nuestro sistema solar con respecto al Sol, contra el tiempo que necesitan para recorrer sus órbitas, y el tamaño de las burbujas que indica la masa de cada planeta. Además existen otros tipos de gráficos, cada uno con características particulares que les proporcionan cierta intencionalidad para su uso, como son las gráficas de radar y las gráficas polares.
39
UNIVERSIDAD PRIVADA TELESUP
Lecturas Recomendadas
INTRODUCCIÓN, CONCEPTO, ETAPAS DEL DESARROLLO DE LA ESTADÍSTICA.
http://www.monografias.com/trabajos15/estadistica/estadistica.shtml ORGANIZACIÓN DE DATOS Y DISTRIBUCIÓN DE FRECUENCIAS
http://www.vitutor.net/2/11/distribucion_frecuencias.html
Actividades y Ejercicios Ingresa al link
presentación de datos , lee atentamente las indicaciones,
desarro lla los ejercic ios y envíalo po r el mis mo m edio.
1. De los siguientes valores: Ford Toyota Nissan Ford Hyundai Nissan Ford Hyundai
Nissan Hyundai Toyota
Hyundai Nissan Ford
Hyundai Hyundai Toyota
Ford Toyota Hyundai
a. Hallar la frecuencia absoluta y relacional. b. Hallar la frecuencia acumulada absoluta y relacional. c. Realizar un grafico de barras. d. Dibujar un diagrama circular. 2. Suponga que en estudio socioeconómico se observó, entre otras variables, el número de trabajadores eventuales que tienen las empresas comerciales de una región de la ciudad de Trujillo. Mediante una muestra de 30 empresas se encontraron los siguientes resultados. 4 8
10 6
5 7
8 10
10 8
6 7
10 8
7 9
8 7
6 5
9 9
7 4
9 7
6 8
8 6
Construir el cuadro de distribución de frecuencias.
3. Suponga que se ha llevado a cabo una encuesta a 28 personas elegidas al azar para analizar su opinión sobre la calidad de una nueva conserva que se desea introducir en el mercado. Los resultados observados fueron los siguientes: Bueno Regular Bueno Bueno
Malo Regular Excelente Excelente
Bueno Excelente Bueno Bueno
Excelente Excelente Malo Bueno
Regular Bueno Bueno Excelente
Bueno Excelente Bueno Bueno
Regular Bueno Malo Excelente
Construir el cuadro de distribución de frecuencias.
40
UNIVERSIDAD PRIVADA TELESUP
Autoevaluación
1. Clasifique las variables referidas a la población de electores del Perú.
Preferencia electoral.
Edad del elector.
Estado socio económico del elector.
Número de integrantes en la familia del elector.
Sexo del elector.
Grado de instrucción del elector.
Ingresos mensuales del elector.
a) 4 Cualitativas y 3 Cuantitativas b) 3 Cualitativas y 4 Cuantitativas c) 2 Cualitativas y 5 Cuantitativas d) 5 Cualitativas y 2 Cuantitativas e) 1 Cualitativas y 6 Cuantitativas 2. El objetivo principal de la estadística descriptiva es: a) Describir una población. b) Hallar las regularidades que se encuentran en los fenómenos de masa. c) Inferir algo acerca de la población. d) Calcular un promedio. e) Hallar el promedio de acuerdo a la cantidad. 3. ¿Cuáles de las siguientes afirmaciones es cierto respecto a una
muestra?
a) Es parte de una población. b) Debe contener al menos cinco observaciones. c) Se refiere a estadística descriptiva. d) Se refiere a una variable no contable. e) Contiene dentro a la población. 4. Una variable cualitativa. a) Siempre se refiere a una cualidad. b) Es no numérica.
41
UNIVERSIDAD PRIVADA TELESUP
c) Siempre tiene sólo dos resultados posibles. d) Todas las anteriores son correctas. e) Es numérica. 5. Una variable en escala nominal. a) Casi siempre es el resultado de contar algo. b) Tiene un punto cero significativo. c) Puede adquirir valores negativos. d) No puede tener más de dos categorías. e) Sólo sirve para nombrar su característica 6. En una empresa, se hizo el estudio sobre las edades de los empleados y se obtuvo la siguiente tabla:
EDADES
Nº DE EMPLEADOS
[20 – 25]
12
[25 – 30]
15
[30 – 35]
23
[35 – 40]
11
[40 - 45]
9
Total: 70 Donde A es el porcentaje de empleados con 30 años ó más.
B es el porcentaje de empleados entre 40 y 45 años. Señale A - B (aprox.) a) 65% b) 60% c) 63% d) 64% e) 62% 7. La tabla muestra la distribución del ingreso familiar correspondiente a 80 familias. f i: frecuencia absoluta simple Fi: frecuencia absoluta acumulada
42
UNIVERSIDAD PRIVADA TELESUP
hi: frecuencia relativa simple en tanto por uno Intervalo de Ingreso S/.
f i
Fi
[160 - 170]
12
12
[170 – 180]
48
60
hi
[180 – 190]
0,125
[190 – 200]
0,075
[200 – 210]
Determine el número de familias que ganan menos de 200 nuevos soles. a) 66 b) 70 c) 54 d) 76 e) 50 8. En una prueba de aptitud académica se evaluaron a “n” estudiantes y las notas obtenidas se clasificaron en una tabla de distribución de frecuencias como se muestra a continuación.
Marca de Clase
Frecuencias Relativas
45
K/50
55
3k/100
65
2k/25
75
3k/50
85
K/100
¿Qué porcentaje de estudiantes obtuvieron una nota menor que 65 puntos o igual que 85 puntos?
a) 30% b) 40% c) 50% d) 60% e) 70%
43
UNIVERSIDAD PRIVADA TELESUP
9. ¿Cuál de los siguientes diagramas es un histograma? a)
b)
c)
d)
e)
10. ¿Cuál de los siguientes diagramas es una ojiva? a)
b)
c)
d)
e)
44
UNIVERSIDAD PRIVADA TELESUP
Resumen
La estadística es un auxiliar de muchas ciencias con base matemática referente a la recolección, análisis e interpretación de datos, ya sea para ayudar en la resolución de la toma de decisiones o para explicar condiciones regulares o irregulares de algún fenómeno, de ocurrencia en forma aleatoria o condicional. Se usa para la toma de decisiones en áreas de negocios o instituciones gubernamentales.
Variable es una característica (magnitud, vector o número) que puede ser medida, adoptando diferentes valores en cada uno de los casos de un estudio.
Clasificación de Variables: Cualitativos: Arrojan respuestas categóricas, miden cualidades y se les puede asignar después un valor numérico (codificarlas). Cuantitativos: Producen respuestas numéricas, miden cantidades y podemos tratar un dato cuantitativo como cualitativo (categorizando).
Los datos recopilados en la muestra se pueden organizar en Tablas de Frecuencias. Estas tablas muestran: Frecuencia absoluta (fi): Resulta de contar el número de observaciones que "entran" en una clase Frecuencia Relativa (hi): Es la proporción de observaciones que "entran" en una clase Frecuencia Absoluta Acumulada (Fi): Es el número de observaciones acumuladas. Frecuencia Relativa Acumulada (Hi): es la proporción de observaciones acumuladas Las más importantes gráficas: Sector.- Consiste en dividir un círculo en tantos sectores como valores de la variable.
La amplitud de cada sector debe ser
proporcional a la frecuencia del valor correspondiente. Histograma.- Es un caso particular del diagrama anterior en el caso de variables continuas. Si los intervalos son correlativos, los rectángulos aparecen pegados en la representación gráfica.
Barras.- Consiste en dos ejes perpendiculares y una barra o rectángulo para cada valor de la variable. Se suele colocar en el eje horizontal los valores de la variable.
45
UNIVERSIDAD PRIVADA TELESUP
46
UNIVERSIDAD PRIVADA TELESUP
Introducción a)aaa
a) Presentación y contextualización Los temas que se tratan en la presente unidad, tiene por finalidad que el estudiante comprenda las Medidas De Tendencia Central y Medidas de Dispersión así como formular apreciaciones críticas sobre los diversos conceptos desarrollados. Conocer además las diferentes medidas para datos agrupados y no agrupados; esto se puede utilizar para organizar datos y resolver las interrogantes.
b) Competencia Utiliza las medidas estadísticas adecuadamente para comprender mejor el comportamiento de los datos agrupados y no agrupados.
c) Capacidades 1 .Explica y compara los resultados obtenidos en base a las Medidas de Tendencia Central para datos no Agrupados. 2. Describe y analiza las Medidas de Tendencia Central para datos Agrupados. 3. Calcula y grafica la estructura de las Medidas de Dispersión. 4. Define, analiza y grafica las medidas de posición.
d) Actitudes Toma iniciativa y lidera al equipo en el cumplimiento de las actividades asignadas a su vez promueve actividades y toma de decisiones pertinentes. Cumple con los horarios establecidos, respeta y cumple las normas de convivencia en el ámbito superior universitario. Planifica y cumple oportunamente sus tareas o actividades diarias y presenta sus trabajos en forma organizada.
e) Presentación de Ideas básicas y contenido esenciales de la Unidad: La Unidad de Aprendizaje 2: Medidas De Tendencia Central y Medidas de Dispersión, comprende el desarrollo de los siguientes temas: TEMA 01: Medidas de tendencia central para datos no agrupados. TEMA 02: Medidas de tendencia central para datos agrupados. TEMA 03: Medidas de dispersión. TEMA 04: Medidas de posición.
47
UNIVERSIDAD PRIVADA TELESUP
TEMA 1
Explicar y comparar los resultados obtenidos en base a las Medidas de Tendencia Central para datos no Agrupados.
48
UNIVERSIDAD PRIVADA TELESUP
Desarrollo de los Temas
Las medidas de tendencia central: Son indicadores estadísticos que muestran hacia que valor (o valores) se agrupan los datos.
Esta primera parte la dedicaremos a analizar tres medidas de tendencia central:
La media aritmética La moda
La mediana
Media aritmética (µ o X): Es el valor resultante que se obtiene al dividir la sumatoria de un conjunto de datos sobre el número total de datos. Solo es aplicable para el tratamiento de datos cuantitativos.
Hay que entender que existen dos formas distintas de Hay que entender que existen dos formas distintas de trabajar con los datos tanto poblacionales como muestrales: sin agruparlos agruparlos o agrupándolos agrupándolos en tablas tablas de frecuencias.
Esta
apreciación nos sugiere dos formas de representar la media aritmética.
49
UNIVERSIDAD PRIVADA TELESUP
Media Aritmética para Datos No Agrupados Podemos diferenciar diferenciar la fórmula del promedio promedio simple para datos poblaciones y muestrales:
Observe que la variación de ambas fórmulas radica en el tamaño de los datos (N identifica el tamaño de la población, mientras que n el de la muestra).
Ejemplo El profesor de la materia de estadística desea conocer el promedio de las notas finales de los 10 alumnos de la clase. Las notas de los alumnos son:
Cabe anotar que en el
3,2
3,1
2,4
4,0
3,5
ejemplo estamos hablando
3,0
3,5
3,8
4,2
4,0
de
una
población
correspondiente a todos los
¿Cuál es el promedio de notas de los alumnos de la clase?
Solución
alumnos de la clase. El promedio de las 10 notas es de 3,47.
Aplicando la fórmula tenemos:
50
UNIVERSIDAD PRIVADA TELESUP
Modifiquemos la primera nota por 0,0 y calculemos nuevamente la media aritmética.
En este caso la media pasa de 3,47 a 3,15. Esta variación notoria se debió a que la media aritmética es sensible a los valores extremos cuando tratamos con pocos datos. El 0,0 es una nota atípica comparada con las demás, que están ubicadas entre 3,0 y 4,2.
Mediana (Me): Valor que divide una serie de datos en dos partes iguales. La cantidad de datos que queda por debajo y por arriba de la mediana son iguales. La definición de geométrica se refiere al punto que divide en dos partes a un segmento. Por ejemplo, la mediana del segmento AB es el punto C.
Ejemplo: (cantidad de datos impar) Encontrar la mediana para los siguientes
Solución
datos:
PASO 1: Ordenar los datos. 4, 1, 2, 3, 4, 2, 2, 1, 5, 5, 3
1 1 2 2 2 3 3 4 4 5 5
PASO 2: Localizar el valor que divide en dos el número de datos.
La mediana es 3, dejando 5 datos a cada lado. Me = 3
51
UNIVERSIDAD PRIVADA TELESUP
Ejemplo: (cantidad de datos par) Modifiquemos el ejemplo anterior, eliminando el último dato. Encontrar la mediana:
4 1 2 3 4 2 2 1 5 5 Solución
PASO 1: Ordenar los datos. 1 1 2 2 2 3 4 4 5 5
PASO 2: Localizar el valor que divide en dos el número de datos.
El punto medio se encuentra entre dos valores: 2 y 3, por tanto, el valor de la mediana será Me =
+ 2,5.
Moda (Mo): indica el valor que más se repite, o la clase que posee mayor frecuencia. En el caso de que dos valores presenten la misma frecuencia, decimos que existe un conjunto de datos bimodal. Para más de dos modas hablaremos de un conjunto de datos multimodal.
Ejemplo: Los siguientes datos provienen del resultado de entrevistar a 30 personas sobre la marca de gaseosa que más consume a la semana:
Marca 1 Marca 2 Marca 1 Marca 1 Marca 1 Marca 3 Marca 1 Marca 3 Marca 1 Marca 2 Marca 1 Marca 1 Marca 2 Marca 1 Marca 3 Marca 3 Marca 2 Marca 1 Marca 1 Marca 1 Marca 1 Marca 3 Marca 1 Marca 2 Marca 3 Marca 1 Marca 3 Marca 3 Marca 2 Marca 3 SOLUCIÓN
52
UNIVERSIDAD PRIVADA TELESUP
SOLUCIÓN PASO 1: Determinar las frecuencias de cada valor de la variable.
La marca 1 se repite 15 veces La marca 2 se repite 6 veces La marca 3 se repite 9 veces
PASO 2: La moda representa el valor que más se se repite. Mo = Marca 1
53
UNIVERSIDAD PRIVADA TELESUP
TEMA 2
Describir, analizar y las Medidas de Tendencia Central para datos Agrupados.
54
UNIVERSIDAD PRIVADA TELESUP
Cuando los datos se agrupan en tablas, la media aritmética es igual a la división de la sumatoria del producto de las clases por la frecuencia sobre el número de datos.
Media Aritmética para Datos Agrupados
La sumatoria parte desde el primer intervalo de clase (i = 1) hasta el último ( Nc), siendo Xi la clase del intervalo i. Cuando los datos se agrupan en tablas de frecuencias, el cálculo de la media varía un poco, ya que existe una pérdida de información en el momento en que se trabaja con intervalos de frecuencia y no con los datos directamente (los datos se agrupan por intervalo, desconociendo el valor exacto de cada uno de ellos).
Las marcas de clases (Xi) cumple la función de representar los intervalos de clase.
55
UNIVERSIDAD PRIVADA TELESUP
Ejemplo en Tablas La siguiente tabla de frecuencia muestra el número de preguntas de 81 encuestados sobre un test que consta de solo seis preguntas. Preguntas buenas/ personas.
SOLUCIÓN PASO 1: Realizar la sumatoria del producto resultante de las clases por su frecuencia absoluta. Para efectos del cálculo de la media, deberíamos sumar 15 veces el valor 1, 13 veces el valor 2, 8 veces el valor 3, hasta llegar a la última clase:
PASO 2: Dividir la sumatoria sobre el número total de datos.
56
UNIVERSIDAD PRIVADA TELESUP
En promedio los encuestados contestaron aproximadamente 3 (el valor exacto es el de 3,41) preguntas buenas.
Ejemplo en Tablas de Frecuencia Calcular la media para los datos distribuidos en la siguiente tabla de frecuencia:
Ni
Intervalos
Marca de clase ( Xi)
1
40.1
48.1
44.1
3
2
48.1
56.1
52.1
8
3
56.1
64.1
60.1
11
4
64.1
72.1
68.1
32
5
72.1
80.1
76.1
21
6
80.1
88.1
84.1
18
7
88.1
96.1
92.1
14
8
96.1
104.1
100.1
1
fi
Solución Las marcas de clase representan a los intervalos de clase, por ejemplo, suponemos que la marca de clase para el primer intervalo (44,1) se repite 3 veces, al desconocer los 3 valores exactos que están dentro de dicho intervalo.
Paso 1: Realizar la sumatoria del producto resultante entre las marcas de clase por su frecuencia absoluta.
4 4. 1 352. 1 860. 1 1168. 1 3276. 1 21 = 84.1 1892.1 14100.1 1 = 7890.6
57
UNIVERSIDAD PRIVADA TELESUP
Paso 2: Dividir la sumatoria sobre el número total de datos.
∑ ̅ = 7890.1086 73.1
Ejemplo:
Comparativa entre el cálculo de la media aritmética para datos no agrupados y datos agrupados en tablas de frecuencia.
Calcular la media aritmética a los siguientes datos sin agrupar y agrupándolos en una tabla de frecuencia (suponga que los datos son poblacionales):
Solución Calculemos la media para los datos sin agrupar:
∑ .+.+.+.+.+.+⋯+. . 27.74 =
Luego construyamos la tabla y calculemos su media aritmética con el fin de comparar ambos resultados:
Ni
Intervalos
1 2 3 4 5 6
11.0 17.4 23.8 30.2 36.6 43.0
17.4 23.8 30.2 36.6 43.0 49.4
Marca de clase ( Mc) 14.2 20.6 27.0 33.4 39.8 46.2
fi 8 6 2 5 4 5
30
58
UNIVERSIDAD PRIVADA TELESUP
Paso 1: Realizar la sumatoria del producto resultante entre las marcas de clase por su frecuencia absoluta.
= 14.2 820.6 627.0 233.4 539.8 446.2 5 822.4 Paso 2: Dividir La Sumatoria Sobre El Número Total De Datos. Si Se Observa El Resultado, Solo Se Diferencia En Centésimos De La Media Poblacional.
̅ ∑ 822.304 27.41 Mediana para Datos Agrupados La mediana para datos agrupados en un cuadro de frecuencia se obtiene utilizando las frecuencias absolutas o las frecuencias relativas de la siguiente manera:
2 −
− 50% ℎ
Donde m = Intervalo que contiene a la mediana Fm-1 = Frecuencia acumulada absoluta del intervalo anterior a la clase de la me (Fm)
Hm-1= Frecuencia acumulada relativa del intervalo anterior a la clase de la me (Hm)
f m = Frecuencia absoluta del intervalo de clase m. hm = Frecuencia relativa del intervalo de clase m. LIm = Límite inferior de la clase donde está ubicada la mediana. c = Longitud del intervalo de clase.
59
UNIVERSIDAD PRIVADA TELESUP
Ejemplo: Calcular la mediana a partir de la siguiente tabla de frecuencia:
Solución Paso 1: Localizar entre que clases se encuentra la mediana. Observe que la mediana se encuentra en la clase 4 (*) que contiene a los elementos 24 y 25. Como n = 48 (número par), la mediana será la media aritmética de los valores que ocupan las posiciones 24 y 25.
Paso 2: La posición 24 corresponde al valor 40. La posición 25 corresponde al valor 40.
Luego: Me =
+ 40
Ejemplo: Mediana Para Datos Agrupados En Tablas Determinar la mediana de la siguiente tabla de frecuencia:
60
UNIVERSIDAD PRIVADA TELESUP
Solución Paso 1: Localizar entre que intervalos de clase se encuentra la mediana. Podemos observar que el punto que divide el 50% de los datos esta en el intervalo de clase 4, para ser más preciso, entre los valores 45,21 y 53,21 (hasta 45,21 hay agrupados el 42,50% de los datos, y hasta 53,21 se resume el 60,00% de los datos).
Paso 2:
5 0 50ℎ−45. 2 15042. 17.50 8 Me = 48.64
En el mismo ejemplo ahora vamos a encontrar la mediana, utilizando para ello las frecuencias absolutas.
Paso 1: Localizar entre que intervalos de clase se encuentra la mediana. Podemos observar que el punto que divide en partes iguales a la distribución esta en el intervalo de clase 4, para ser más preciso, entre los valores 45,21 y 53,21.
N°
Intervalos de clase
fi
Fi
1
21.21
29.21
5
5
2
29.21
37.21
2
7
3
37.21
45.21
10
17
4
45.21
53.21
7
24
5
53.21
61.21
12
36
6
61.21
69.21
3
39
7
69.21
77.20
1
40
40
61
UNIVERSIDAD PRIVADA TELESUP
Paso 2: Hallamos m = 45.21 a 53.21 LIm = 45.21
f m = 7 c=8
Fm-1 = 17
−
45.21 −848.64 Luego: Me =
Ubicando La Mediana En El Gráfico De Ojiva En un gráfico de ojiva, la mediana corresponde a la proyección del punto en eje horizontal que equivale al 50% de los datos. En la el gráfico de ojiva del ejemplo 3.6.1, la mediana estaría ubicada en el sexto intervalo, entre 350 y 400:
Moda Para Datos Agrupados Los siguientes datos provienen del resultado de entrevistar a 30 personas sobre la marca de gaseosa que más consume a la semana:
62
UNIVERSIDAD PRIVADA TELESUP
Solución Paso 1: Construimos la tabla de frecuencias Marca
Fi
Marca 1
15
Marca 2
6
Marca 3
9
Total
30
Paso 2: La moda representa el valor que más se repite. En este caso es la marca 1.
Calculo De La Moda Mediante Fórmula Algunos autores suelen aplicar una fórmula para determinar la moda para tablas de frecuencia.
( )
Donde: Limo = Límite inferior del intervalo donde se ubica la moda d1
= Diferencia entre el valor de la frecuencia donde se ubica la moda y el valor del intervalo anterior (f m – f m-1)
d2
= Diferencia entre el valor de la frecuencia donde se ubica la moda y el valor del intervalo siguiente (f m – f m+1)
c
= Longitud del intervalo de clase
Ejemplo: Moda Para Datos Agrupados Calcular la moda a partir de la siguiente tabla de frecuencia:
N°
Intervalos de clase
fi
1 2 3 4 5 6 7
21.21 29.21 37.21 45.21 53.21 61.21 69.21
5 2 10 7 12 3 1
29.21 37.21 45.21 53.21 61.21 69.21 77.20
63
UNIVERSIDAD PRIVADA TELESUP
Solución Paso 1: Hemos marcado (*) el intervalo que tiene la frecuencia más alta; allí se encuentra el valor de la moda.
Paso 2: Ubicamos el límite inferior del intervalo de clase donde se ubica la moda = 53.21 Así mismo hallamos las diferencias: d 1 = 12 – 7 = 5 d2= 12 – 3 = 9 El valor de c = 8
Calculando la moda
53.21 + 856.08
Ejemplo 2 Calcular la moda en la siguiente tabla de frecuencias N 1 2 3 4 5
Intervalos 4 6 6 8 8 10 10 12 12 14
Fi 2 4 4 5 5
Solución Paso 1: Los intervalos de clase que mas frecuencias tienen son [10- 12) y [12- 14) por tanto decimos que es un caso donde aparecen dos modas, (bimodal).
Paso 2: Como hay dos modas, entonces calculando la primera moda LIm1 = 10; d1 = 5 – 4= 1; d2 = 5 – 5 = 0; c = 2
Mo1 =
10 + 2
= 12
64
UNIVERSIDAD PRIVADA TELESUP
Ahora, la segunda moda: LIm2 = 12; d1 = 5 – 5 = 0; d2 = 5 – 0= 5 (Como el 5 está en el último intervalo entonces la resta siempre es con 0); c = 2
12 + 212
Mo2=
NOTA. Recordar que fuera de la tabla de frecuencias no hay valores por eso se considera como cero.
65
UNIVERSIDAD PRIVADA TELESUP
TEMA 3
Calcular y graficar la estructura de las Medidas de Dispersión.
66
UNIVERSIDAD PRIVADA TELESUP
Las Medidas son: 1. 2. 3. 4.
Rango Desviación Media Varianza Desviación Típica
5. Cuasi varianza 6. Cuasi Desviación típica 7. Coeficiente de Variación Hasta el momento hemos estudiado los valores centrales de la distribución, pero también es importante conocer si los valores en general están cerca o alejados de estos valores centrales, es por lo que surge la necesidad de estudiar medidas de dispersión.
Rango: El rango o amplitud de un conjunto de datos es la diferencia entre la observación de mayor valor y la observación de menor valor. R = Xmax – Xmin
Desviación media o desviación promedio: Es la media aritmética de los valores absolutos de las desviaciones de todos los valores en relación con algún punto central, tal como la media o la mediana.
∑ | −̅| a) Para datos no agrupados: ∑ | − | b) Para datos agrupados: ̅ Varianza: La varianza es la media aritmética del cuadrado de las desviaciones respecto a la media de una distribución estadística. Este estadístico tiene el inconveniente de ser poco significativo, pues se mide en el cuadrado de la unidad de la variable, por ejemplo, si la variable viene dada en cm. la varianza vendrá en cm2.
67
UNIVERSIDAD PRIVADA TELESUP
Ecuaciones de la varianza
∑∑−−
1) Varianza poblacional: a) Datos no agrupados b) Datos agrupados
2) Varianza muestral: a) Datos no agrupados b) Datos agrupados
∑−− ̅ ∑ − ̅ −
∑ −[∑] − ∑ −[∑]
−
A la varianza muestral con en el denominador n-1 se le llama cuasivarianza
Desviación estándar o típica: Es la raíz cuadrada de la varianza, se denota por S. Este estadístico se mide en la misma unidad que la variable por lo que se puede interpretar mejor. A la raíz cuadrada de la Cuasi varianza se le llama Cuasi desviación típica.
Coeficiente de Variación: Es un estadístico de dispersión que tiene la ventaja de que no lleva asociada ninguna unidad, por lo que nos permitirá decir entre dos muestras, cual es la que presenta mayor dispersión. La denotaremos por C.V.
Todas estas medidas de dispersión vienen influidas por la unidad en la que se mide la variable, esto implica que si cambiamos de unidad de medida, los valores de estos estadísticos se vean a su vez modificados. Además, no permite comparar por ejemplo, en un grupo de alumnos si los pesos o las alturas presentan más dispersión, pues no es posible comparar unidades de distinto tipo.
68
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 1. Sean los datos siguientes: 32, 54, 21, 33, 45, 49, 36, 42, 57, 28, 52, 61 a) Rango: 61 – 21 = 40 b) Para calcular Varianza muestral, primero se obtiene la suma de las observaciones y la suma de los cuadrados de las observaciones. ; 23414
∑ ⁄ 42.5 ̅ ∑∑== 3254⋯5261510 32 54 ⋯52 61 − 158.09 √ 158.0912.573 ̅ 100 .. 10029.58 %
c) Desviación típica s =
d) Coeficiente de variación
Ejemplo 2
Sean los datos presentados en la siguiente tabla
xi
f i
x i · f i
x i 2 · f i
| |
[10, 20)
15
1
15
225
28.33
[20, 30)
25
8
200
5000
146.64
[30,40)
35
10
350
12 250
83.3
[40, 50)
45
9
405
18 225
15.03
[50, 60
55
8
440
24 200
93.36
[60,70)
65
4
260
16 900
86.68
[70, 80)
75
2
150
11 250
63.34
42
1 820
88 050
516.68
Suma
69
UNIVERSIDAD PRIVADA TELESUP
Solución En este caso se trata de datos agrupados, y para hacer los cálculos usaremos las ecuaciones de datos agrupados.
̅ 43.33 − 223.98 √ 223.9814.96 .. 10034.53 % . 12.30
a) Media aritmética: b) Varianza:
c) Desviación estándar: s =
d) Coeficiente de variación: CV = e) Desviación Media: Dm =
Ejemplo 3. El tiempo que utilizan 6 niños de igual edad para desarrollar una misma tarea fue el siguiente: 12,13, 15, 11, 17, 16. Calcular la Desviación media.
Proceso: - Calculando la media aritmética: x
= 12 + 13 + 15 + 11+ 17 + 16 = 84 = 14 minutos 6 6
- Calculando la desviación media DM = |12 –14 | + |13 –14 | + |15 –14 | + |11-14| + |17 -14| + |16-14| 6 DM = 2 + 1 + 1 + 3 + 3 + 2 = 12 = 2 minutos. 6
6
Interpretación: El tiempo utilizado por los niños para desarrollar la tarea, se dispersa en promedio 2 minutos con respecto al valor central.
70
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 4. Los datos corresponden a las edades de 5 niños de la Comunidad “X” de nuestro ejemplo inicial: 4, 5, 7, 8, 6. Vamos a calcular las medidas de dispersión para datos no agrupados.
a) Desviación Media ( DM) Proceso 1. Se obtiene la media aritmética para datos simples o no agrupados x
= Σ Xi = 4 + 5 + 7 + 8 + 6 = 30 = 6 años n
5
5
2. Construyendo la siguiente tabla: Edad ( X)
X –
4
4 – 6 = -2
2
5
5 – 6 = -1
1
7
7 – 6 = 1
1
8
8 – 6 = 2
2
6
6 – 6 = 0
0
x
| X-
x
|
Σ = 6
3. Calculando la Desviación Media : DM = 6 = 1.2 años 5
Interpretación. La edad de los niños con respecto a su media aritmética tiene una dispersión de 1.2 años.
71
UNIVERSIDAD PRIVADA TELESUP
b) Cuasi varianza. Proceso:
1. Se calcula la media aritmética que en este caso es igual a 6 años. 2. Σ X2 = 42 + 52 + 72 + 82 + 62 = 16 + 25 + 49 + 64 + 36 = 190 3. La cuasivarianza será: S2 = Σ Xi2 - n ( x )2 = 190 – 5(6)2 = 2.5 n -1
4
No tiene interpretación práctica, sólo se calcula para poder determinar la cuasi desviación estándar.
c) Cuasi desviación Estándar (S): S = √ S2 = √ 2.5 = 1.58 = 2 años Interpretación. Las edades de los niños de la Comunidad “X” se dispersan respecto al valor central en aproximadamente 2 años.
d) Coeficiente de variación ( CV) CV= s x 100 = 1.58 x 100 = 26.33% = 26% x
6
Interpretación: Como cv% es menor que el 30% entonces la media es una medida representativa del conjunto de datos.
72
UNIVERSIDAD PRIVADA TELESUP
TEMA 4
Definir, analizar posición.
y
graficar
las
medidas
73
de
UNIVERSIDAD PRIVADA TELESUP
A continuación se describen las medidas de posición más comunes utilizadas en estadística, como lo son:
Cuartiles: Hay 3 cuartiles que dividen a una distribución en 4 partes iguales: primero, segundo y tecer cuartil.
Deciles: Hay 9 deciles que la dividen en 10 partes iguales: (primero al noveno decil).
Percentiles: Hay 99 percentiles que dividen a una serie en 100 partes iguales: (primero al noventa y nueve percentil).
Cuartiles (Q1, Q2, Q3) Aquel valor de una serie que supera al 25% de los datos y es superado por el 75% restante. Formula de Q1 para series de Datos Agrupados en Clase.
Donde:
: Posición de Q1, la cual se localiza en la primera frecuencia acumulada que la contenga, siendo la clase de Q1, la correspondiente a tal frecuencia acumulada. Li, faa (frec. acumulda anterior), fi, Ic: idéntico a los conceptos vistos para Mediana pero referidos a la medida de la posición correspondiente.
a. Primer cuartil (Q1): b. Segundo cuartil (Q2): Coincide, es idéntico o similar al valor de la Mediana (Q2 = Md). Es decir, supera y es superado por el 50% de los valores de una Serie.
74
UNIVERSIDAD PRIVADA TELESUP
c. Tercer cuartil (Q3): Aquel valor, término o dato que supera al 75% y es superado
por
el
25%
de
los
datos
restantes
de
la
Serie.
Formula de Q3 para series de Datos Agrupados en Clase.
Donde:
Posición de Q3, todo idéntico al cálculo de la Mediana.
Deciles (D1, D2… D9) Primer Decil (D1), Quinto Decil (D5) y Noveno Decil (D9). El primer decil es aquel valor de una serie que supera a 1/10 parte de los datos y es superado por las 9/10 partes restantes (respectivamente, hablando en porcentajes, supera al 10% y es superado por el 90% restante).
El D9 (noveno decil) supera al 90% y es superado por el 10% restante.
Como se observa, son fórmulas parecidas a la del cálculo de la Mediana, cambiando solamente las respectivas posiciones de las medidas.
Percentiles (P1… P50… P99)
Primer Percentil (P1), Percentil 50 (P50) y Percentil 99 (P99). El primer percentil supera al uno por ciento de los valores y es superado por el noventa y nueve por ciento restantes. Fórmulas de P1, P50, P99 para series de Datos Agrupados en Clase.
75
UNIVERSIDAD PRIVADA TELESUP
El P99 (noventa y nueve percentil) supera al 99% de los datos y es superado a su vez por el 1% restante. Para determinar estas medidas se aplicara el principio de la mediana; así, el primer cuartil será el valor por debajo del cual se encuentra el 25 por ciento de los datos; bajo el tercer cuartil se encuentra el 75 por ciento; el 80 decil será el valor por encima del cual estará el 20 por ciento de los datos, etc. Como se observa, todas estas medidas no son s on sino casos particulares del percentil ya que el primer cuartil no es sino el 25° percentil, el tercer t ercer cuartil el 75° percentil, el cuarto decil el 40° percentil, etc.
Datos No Agrupados: Se hace difícil calcular estas medidas, sin s in embargo, siguiendo los mismos principios mencionados para la Mediana, se pueden localizar en la forma siguiente: Si tenemos una serie de valo res X1, X2, X3… Xn, se localiza el primer cuartil como el valor
cuando n es par,
y cuando n es impar.
Para el tercer cuartil será
Para los deciles será percentiles.
(n par);
o
(n impar).
siendo A el número del decil y para los
o
76
UNIVERSIDAD PRIVADA TELESUP
Ejemplo: Calcular Q1, Q3, d3, y p45 Li-1
Li
fi
Fi
45
55
6
6
55
65
10 16
65
75
19 35
75
85
11 46
85
95
4
50
Cálculo de Q1: Buscamos en la columna de las frecuencias Acumuladas el valor que supere al 25% de N=50, corresponde al 2º intervalo.(50/4=12.5) Análogamente Análogamente calculemos calculemos Q 3, Buscamos ahora en la misma columna el correspondiente al 75 % de N que en este caso es el 4º intervalo (3 x 50/4 =37.5)
Veamos ahora el decil 3º. (Corresponde al 30 % de N, es decir 3 x 50 / 10 = 15) sería el 2º intervalo.
Por último veamos el percentil 45 (45 x 50/100 = 22.5) Corresponde al intervalo 3º.
77
UNIVERSIDAD PRIVADA TELESUP
Lecturas Recomendadas
MEDIDAS DE TENDENCIA CENTRAL PARA DATOS NO AGRUPADOS http://colposfesz.galeon.com/est501/distfrec/mtcent/mtcent.htm MEDIDAS DE TENDENCIA CENTRAL PARA DATOS AGRUPADOS http://www.monografias.com/trabajos43/medidas-tendencia-central/medidastendencia-central2.shtml MEDIDAS DE DISPERSIÓN. VARIANZA, DESVIACIÓN ESTÁNDAR. COEFICIENTES
DE VARIACIÓN.
http://colposfesz.galeon.com/est501/distfrec/meddisp/meddisp.htm MEDIDAS DE POSICIÓN. CUARTILES, PERCENTILES, DECILES http://www.ditutor.com/estadistica/medidas_posicion.html
Actividades y Ejercicios Ingresa al link Medidas lee atentam ente las indi cacio nes, d esarróllalo y envíalo por el mismo medio.
Los ingresos en dólares de 30 hombres elegidos al azar (entre un total de 1000) se muestran a continuación:
a. Calcule la media aritmética para todos los datos sin agruparlos. b. Calcule la media aritmética empleando la tabla de frecuencias. c. ¿Cuál cree usted son las razones de las diferencias entre ambas medias? d. Explique mediante este ejemplo, la diferencia entre media, mediana y moda e. ¿Qué representa para usted la moda y mediana (en termino de pesos)? f . ¿Se puede considera que la población de 1000 personas tendrán la misma media que la muestra de 30 personas?
78
UNIVERSIDAD PRIVADA TELESUP
Autoevaluaciones
1. Supongamos que los pesos de un grupo de 50 personas se distribuyen de la siguiente forma: Li-1
Li
Fi
Fi
45
55
6
6
55
65
10
16
65
75
19
35
75
85
11
46
85
95
4
50
Encontrar la mediana. a) 65 b) 66 c) 68 d) 69.74 e) 68.2 2. Encontrar la moda en (aproximar a 3 decimales): Li-1
Li
Fi
Fi
45
55
6
6
55
65
10
16
65
75
19
35
75
85
11
46
85
95
4
50
a) 70 b) 70.29 c) 72 d) 73 e) 71
79
UNIVERSIDAD PRIVADA TELESUP
3.
Calcular Q1 en : Li-1
Li
fi
Fi
45
55
6
6
55
65
10 16
65
75
19 35
75
85
11 46
85
95
4
50
a) 61.5 b) 62.5 c) 63 d) 65 e) 62 4. Calcular la cuasi varianza en la siguiente tabla
Li-1
Li
fi
Fi
45
55
6
6
55
65
10 16
65
75
19 35
75
85
11 46
85
95
4
50
a) 121 b) 120.78 c) 124.12 d) 123.76 e) 122.27
80
UNIVERSIDAD PRIVADA TELESUP
5. Calcular P45 en : Li-1
Li
fi
Fi
45
55
6
6
55
65
10 16
65
75
19 35
75
85
11 46
85
95
4
50
a) 68.5 b) 68.421 c) 63.2 d) 60.4 e) 61.2 6. La empresa Merrill Lynch Global Fund se especializa en obligaciones a largo plazo de países extranjeros. Deseamos saber la tasa de interés de estas obligaciones. Una muestra aleatoria de seis bonos reveló lo siguiente:
ARTÍCULO Bonos del Gobierno de Australia
TASA DE INTERÉS 9.50%
Bonos del Gobierno de Bélgica
7.25%
Bonos del Gobierno de Canadá
6.50%
Bonos del Gobierno de Francia Bonos del Gobierno de Italia Bonos del Gobierno de España
4.75% 12% 8.30%
¿Cuál es la media de las tasas de interés en esta muestra de obligaciones a largo plazo? a) 7.5% b) 8.5% c) 9% d) 10% e) 8.05%
81
UNIVERSIDAD PRIVADA TELESUP
7. La constructora Carter paga a sus empleados 6,50; 7,50 o bien 8,50 dólares por hora. Hay 26 empleados contratados por hora; 14 reciben la tarifa de $6,50; 10 reciben la de $7,50 y 2 la de $8,50. ¿Cuál es la media de la tarifa por hora que se paga a los 26 trabajadores? a) b) c) d) e)
7.038% 8.038% 9.038% 10.038% 9.056%
8. Se inspeccionan 15 radios antes de enviarlos para su venta. El número de defectos por radio es : 1 ; 0 ; 3 ; 4 ; 2 ; 1 ; 0 ; 3 ; 1 ; 2 ; 0 ; 1 ; 1 ; 0 ; 1 Encontrar la moda: a) 0 b) 1 c) 2 d) 3 e) 4 9. Calcule la varianza de esta muestra: 2, 4, 6, 8, 10. a) 10 b) 15 c) 20 d) 25 e) 28
10. Determine la desviación estándar de esta muestra: 20, 5, 10, 15, 25. a) 7.5 b) 7.91 c) 7.8 d) 7.15 e) 7.80
82
UNIVERSIDAD PRIVADA TELESUP
Resumen
Las medidas de tendencia central: Son indicadores estadísticos que muestran hacia que valor (o valores) se agrupan los datos. Entre ellas tenemos:
Media aritmética.- Es el cálculo del promedio de un conjunto de datos. Moda.- indica el valor o la clase que posee mayor frecuencia. Mediana.- Equivale al cálculo del promedio simple de un conjunto de datos. Cuando los datos se agrupan en tablas, la media aritmética es igual a la división de la sumatoria del producto de las clases por la frecuencia sobre el número de datos. Media aritmética para datos agrupados
La mediana para datos agrupados en un cuadro de frecuencia se obtiene utilizando las frecuencias absolutas o las frecuencias relativas.
Las medidas de dispersión son: Rango, Desviación, Varianza, Desviación Típica, Cuasi varianza, Cuasi Desviación típica, Coeficiente de Variación.
Las medidas de posición más comunes utilizadas en estadística, como lo son: Cuartil.- son 3 valores que ordenadan de forma creciente o decreciente, en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
−− −−
Decil.- son 3 valores que ordenadan de forma creciente o decreciente, en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
Percentil.- son 3 valores que ordenadan de forma creciente o decreciente, en cuatro
tramos iguales, en los que cada uno de ellos concentra el 25% de los resultados.
−− 83
UNIVERSIDAD PRIVADA TELESUP
Introducción 84
UNIVERSIDAD PRIVADA TELESUP
Introducción
a. Presentación y contextualización Los temas que se tratan en la presente unidad temática, tiene por finalidad que el estudiante comprenda El Análisis De Regresión Y Correlación Lineal, así como formular apreciaciones críticas sobre los diversos conceptos desarrollados, rectas y diferentes tipos de coeficientes que se pueden dar a lo largo de la recta. Esto no solo hará más hábil al estudiante sino que aumentara su raciocinio con problemas numéricos.
b. Competencia Determina, analiza y estructura la recta de regresión y correlación lineal.
c. Capacidades 1. Comprende, relaciona y estructura debidamente la recta de regresión y su ecuación.
2. Define, ejemplifica y aplica el coeficiente de correlación. 3. Aplica, explica y analiza el coeficiente de determinación. 4. Describe, analiza y grafica el diagrama de dispersión.
d. Actitudes Cumple con los horarios establecidos, respeta y cumple las normas de convivencia en el ámbito superior universitario. Planifica y cumple oportunamente sus tareas o actividades diarias y presenta sus trabajos en forma organizada. Muestra constancia a través del cumplimiento de los trabajos asignados, valora y disfruta con la perspectiva creativa de la Estadística.
e. Presentación de Ideas básicas y contenido esenciales de la Unidad: La Unidad de Aprendizaje 03: Análisis De Regresión Y Correlación Lineal comprende el desarrollo de los siguientes temas:
TEMA 01: La Recta De Regresión Lineal Simple Por El Método De Mínimos Cuadrados.
TEMA 02: El Coeficiente De Correlación. TEMA 03: El Coeficiente De Determinación. TEMA 04: Diagrama De Dispersión.
85
UNIVERSIDAD PRIVADA TELESUP
TEMA 1
Comprender, debidamente ecuación.
relacionar y estructurar la recta de regresión y su
86
UNIVERSIDAD PRIVADA TELESUP
Desarrollo de los Temas
La Regresión es una técnica estadística que se puede utilizar para solucionar problemas comunes en los negocios. Muchos estudios se basan en la creencia de que es posible identificar y cuantificar alguna Relación Funcional entre dos o más variables, donde una variable depende de la otra variable. Se puede decir que Y depende de X, en donde Y y X son dos variables cualquiera en un modelo de Regresión Simple.
"Y es una función de X" Y = f(X)
Como Y depende de X, Y es la variable dependiente, y X es la variable independiente.
En el Modelo de Regresión es muy importante identificar cuál es la variable dependiente y cuál es la variable independiente.
En el Modelo de Regresión Simple se establece que Y es una función de sólo una variable independiente, razón por la cual se le denomina también Regresión Bivariada porque sólo hay dos variables, una dependiente y otra independiente y se representa así:
Y = f (X) "Y está regresando por X"
87
UNIVERSIDAD PRIVADA TELESUP
La variable dependiente es la
La variable Independiente X se
variable que se desea explicar,
le denomina VARIABLE
predecir. También se le llama
EXPLICATIVA ó REGRESOR y
REGRESANDO ó VARIABLE DE
se le utiliza para EXPLICAR Y.
RESPUESTA.
RECTA DE REGRESIÓN LINEAL Y= a + b X Ejemplo: Un trabajo estadístico asignado a un grupo de estudio consiste en obtener un modelo de regresión lineal a nivel descriptivo para predecir las ventas semanales de un producto específico en función de la publicidad del producto por la radio. Para esto, han recopilado al azar los tiempos de duración en minutos de la publicidad e 10 semanas y el respectivo número de unidades vendidas del producto. Los datos se dan en la tabla que sigue.
Semana Publicidad X Ventas Y
1
2
3
4
5
6
7
8
9
10
20
30
30
40
50
60
60
60
70
80
50
73
69
87
108
128
135
132
148
140
a) Obtenga la recta de regresión lineal simple por el método de mínimos cuadrados. Solución n = 10
∑ ∑ ∑
∑ ∑ 88
UNIVERSIDAD PRIVADA TELESUP
∑
Hallando La Varianza (
∑
:
∑ =
= 340
Covarianza De X E Y:
Cov xy =
∑ . = = 590
Hallando b:
b = , b=
Hallando a:
a=
a = 107 – 1, 7353x50 = 20,235
La recta de regresión de la l a muestra es: Y= a + b X Y = 20,235 + 1,7353X 1,7353X
89
UNIVERSIDAD PRIVADA TELESUP
TEMA 2
Definir, ejemplificar y aplicar el coeficiente de correlación.
90
UNIVERSIDAD PRIVADA TELESUP
La correlación estadística determina la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
El coeficiente de correlación lineal se expresa mediante la letra r .
Propiedades 1.
El coeficiente de correlación no varía al hacerlo la escala de
medición. Es decir, si expresamos la altura en metros o en centímetros el coeficiente de correlación no varía.
2.
El signo del coeficiente de correlación es el mismo que
el de la covarianza. Si la covarianza es positiva, la correlación es directa. Si la covarianza es negativa, la correlación es inversa. Si la covarianza es nula, no existe correlación.
3.
El coeficiente es un número real entre menos −1 y 1. −1 ≤ r ≤ 1
4. Si el coeficiente de correlación lineal toma valores cercanos a −1 la correlación es fuerte e inversa, y será tanto más fuerte cuanto más se
aproxime r a −1.
5 . Si el coeficiente de correlación lineal toma valores cercanos a 1 la correlación es fuerte y directa, y será tanto más fuerte cuanto más se aproxime r a 1.
91
UNIVERSIDAD PRIVADA TELESUP
6.
Si el coeficiente de correlación lineal toma valores cercanos a 0, la correlación es débil.
7.
Si r = 1 ó −1, los puntos de la nube están sobre la recta creciente o decreciente. Entre ambas variables hay dependencia funcional.
Ejemplo Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura (X)
186
189
190
192
193
193
198
201
203
205
Pesos (Y)
85
85
86
90
87
91
93
103
100
101
Calcular el coeficiente de correlación. xi
yi
xi2
yi2
xi ·yi
186
85
34 596
7 225
15 810
189
85
35 721
7 225
16 065
190
86
36 100
7 396
16 340
192
90
36 864
8 100
17 280
193
87
37 249
7 569
16 791
193
91
37 249
8 281
17563
198
93
39 204
8 649
18 414
201
103
40 401
10 609
20 703
203
100
41 209
10 000
20 300
92
UNIVERSIDAD PRIVADA TELESUP
205
101
42 025
10 201
20 705
1 950
921
380 618
85 255
179 971
Correlación positiva muy fuerte. Los valores de dos variables X e Y se distribuyen según la tabla siguiente: Y/X
100
50
25
14
1
1
0
18
2
3
0
22
0
1
2
Obtener e interpretar el coeficiente de correlación lineal
Convertimos la tabla de doble entrada en una tabla simple. xi
yi
f i
xi · f i
xi2 · f i
yi · f i
yi2 · f i
xi · yi · f i
100
14
1
100
10 000
14
196
1 400
100
18
2
200
20 000
36
648
3 600
93
UNIVERSIDAD PRIVADA TELESUP
50
14
1
50
2 500
14
196
700
50
18
3
150
7 500
54
972
2 700
50
22
1
50
2 500
22
484
1 100
25
22
2
50
1 250
44
968
1 100
10
600
43 750
184
3 464
10 600
Es una correlación negativa débil.
94
UNIVERSIDAD PRIVADA TELESUP
TEMA 3
Aplicar, explicar y analizar el coeficiente de determinación.
95
UNIVERSIDAD PRIVADA TELESUP
Una nube de puntos que se agrupa en torno a una recta imaginaria nos justifica el estudio de la regresión lineal entre las variables. Normalmente, la variable explicativa no explica (valga la redundancia) al 100% los resultados que se observan en la variable explicada.
El único caso en el que una variable explica al 100% a la otra variable es aquel donde los puntos de la nube formen una recta. En ese caso, cada valor de X nos da el valor exacto de Y. Pero ese no es el caso general . Vamos a cuantificar la calidad de la explicación de Y por X mediante el Coeficiente De Determinación. Los datos de ambas variables tienen una varianza. No nos vamos a interesar por la varianza de la X (independiente), pero sí por la de Y, por estar influenciada por la otra variable. La varianza de Y está generada, de una parte, por los datos de X (es decir, por la varianza), y de otra parte por causas desconocidas (a no ser que los datos formen una línea recta).
El coeficiente de determinación va a ser el % de varianza de Y que se puede explicar por X, y se le suele llamar CALIDAD DEL AJUSTE, porque valora lo cerca que está la nube de puntos de la recta de regresión (o dicho de otro modo, lo ajustada que está la nube de puntos a la recta de regresión). Como y i = y*i + ei, desarrollando la expresión de la varianza de Y se puede llegar a que:
s y 2
2 s xy
s x 2
se2
var .no explic .
var .expl . porX
96
UNIVERSIDAD PRIVADA TELESUP
Y por tanto, el % de varianza de Y explicada por X es: 2
s xy 2
s x 2 s y
100
2
s xy Que resulta ser s 2 s 2 x y
100
, elevado al cuadrado y multiplicado por 100.
Es por ello que al coeficiente de determinación se le llama R2, es decir
2
R
2 s xy 2
2
100
s x s y
Ejemplo:
97
UNIVERSIDAD PRIVADA TELESUP
El coeficiente de determinación lineal para obtener una medida descriptiva del grado de asociación lineal que existe entre las variables. La expresión del coeficiente de determinación es: Donde Sxy representa la covarianza de las variables X e Y. Cuya expresión simplificada es:
Donde Sxy representa la covarianza de las variables X e Y. Cuya expresión simplificada es :
Para clarificar la forma de cálculo construimos la siguiente tabla: (variable X= Gastos de publicidad y variable Y= Volumen de ventas).
X= 49.333; Y=21.5; sx=20.870; sxy=158 Substituyendo obtenemos que
vale 0.956
98
UNIVERSIDAD PRIVADA TELESUP
Series De Tiempo Se denomina series de tiempo a un conjunto de observaciones obtenidas durante un periodo de tiempo. El objeto de analizar tales datos es determinar si se presentan ciertos Patrones o pautas no aleatorias que se puedan utilizar para predecir o hacer proyecciones futuras.
Por ejemplo los pronósticos de venta, los pronósticos de matrícula, pronósticos de producción, etc.
Elección Del Origen O Codificación Del Tiempo Debido a que el tiempo (años, meses, semanas y días) es una variable cualitativa, es necesario codificarlo para poder realizar el análisis ya se de regresión o de correlación.
Para ello se tiene:
a)
Cuando se tiene series cronológicas con datos impares, de períodos, se elige el origen en la mitad del período medio.
Ejemplo. Se tiene la siguiente de 7 años.
Años
X(valor codificado)
b)
2004
2005
2006
2007
2008
-3
-2
-1
0
1
2009 2010
2
3
Cuando se tiene series cronológicas con datos par , de períodos, se elige el origen entre los dos períodos medios, ya no aparece el cero y los códigos son alternados.
Ejemplo
Años
X(valor codificado)
2005
2006
-5
-3
2007 2008
-1
1
2009
3
2010
5
99
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 1. Los siguientes datos representan los registros de la matrícula en INTUR PERU (en cientos de personas). Hallar la ecuación lineal y luego hacer un pronóstico para el año 2013.
Años
2006
2007
2008
Matrícula
2.5
2.8
2.4
2009 1.9
2010 2.1
Solución. Se construye la tabla asignando los códigos del tiempo. En este caso n es impar
Años
X
Y
X2
XY
2006
-2
2.5
4
-5
2007
-1
2.8
1
-2.8
2008
0
2.4
0
0
2009
1
1.9
1
1.9
2010
2
2.1
4
4.2
Suma
0
13.7 10 -1.7
∑∑ ∑− Hallando la ecuación de regresión ( Y= a + bX), se tiene: ; ∑ ∑ − . −. −. − Luego a = 2.74 y − 0.17 La ecuación será: Y = 2.74 – 0.17X Para hallar el número de matriculados en el año 2013, se asigna el código de tiempo que sigue, así: 2011 = 3;
2012 = 4; 2013 = 5
Este valor reemplazamos en la ecuación obtenida: Y = 2.74 – 0.17(5) = 1.89. Esto quiere decir que en el año 2013 se matricularan aproximadamente 189 alumnos.
100
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 2. Una constructora en 4 años ha terminado de reconstruir la siguiente cantidad de casas en Pisco. Predecir para el año 2012.
Años
2007
Casas reconstruidas
12
2008
2009
11
17
2010 20
Solución. Se construye la tabla asignando los códigos del tiempo. En este caso n es par
Años
X
Y
X2
XY
2007
-3
12
9
-36
2008
-1
11
1
-11
2009
1
17
1
17
2010
3
20
9
60
0
60
20
30
Suma
Luego se sigue el mismo procedimiento del ejemplo 1, obteniéndose la siguiente ecuación de regresión: Y = 15 + 1.5X Para realizar el pronóstico de número de casas que serán reconstruidas en el año 2013, se asigna el código de tiempo que sigue así: 2010 = 3;
2011 = 5; 2012 = 7
Este valor reemplazamos en la ecuación: Y = 15 + (1.5)(7) = 25.5 = 26 Es decir en el año 2012 se reconstruirán aproximadamente 26 casas.
101
UNIVERSIDAD PRIVADA TELESUP
TEMA 4
Describir, analizar y graficar el diagrama de dispersión.
102
UNIVERSIDAD PRIVADA TELESUP
Un diagrama de dispersión es un tipo de diagrama matemático que utiliza las coordenadas cartesianas para mostrar los valores de dos variables para un conjunto de datos.
Los datos se muestran como un conjunto de puntos, cada uno con el valor de una variable que determina la posición en el eje horizontal y el valor de la otra variable determinado por la posición en el eje vertical. Un diagrama de dispersión se llama también gráfico de dispersión.
Ejemplo 1 La tabla siguiente recoge las puntuaciones de 11 sujetos (N=11) en dos variables X e Y.
X 10 8 13 9 11 14 6 4 12 7 5
Y 8.04 6.95 7.58 8.81 8.33 9.963 7.24 4.26 10.84 4.82 5.68
Construir el diagrama de dispersión de Y en función de X. En base al diagrama construido.
¿Cómo están relacionada X e Y? Para construir el diagrama de dispersión, en un sistema de referencia rectangular, dibujamos los puntos correspondientes a las puntuaciones de los sujetos en las variables X e Y. En el eje de abscisas hemos representado a la variable X y en el eje de ordenadas a la variable Y.
103
UNIVERSIDAD PRIVADA TELESUP
El gráfico resultante es:
DIAGRAMA DE DISPERSIÓN 12 10,84
10 Y
9,96 8,81
8
7,24
6
5,68
8,33 7,58
6,95 4,82
4,26
4
8,04
2 0 0
1
2
3
4
5
6
7
X
8
9
10
11
12
13
14
15
Ejemplo 2.-
Semana
1
2
3
4
5
6
7
8
9
10
Publicidad X
20
30
30
40
50
60
60
60
70
80
50
73
69
87
108
128
135
132
148
140
Ventas Y
104
UNIVERSIDAD PRIVADA TELESUP
Grafique los datos y describa su tendencia
Hay una relación lineal positiva entre el número de artículos vendidos y el tiempo de publicidad por la radio semanalmente.
105
UNIVERSIDAD PRIVADA TELESUP
Lecturas Recomendadas
LA RECTA DE REGRESIÓN LINEAL SIMPLE POR EL MÉTODO DE MÍNIMOS
CUADRADOS http://www.aulafacil.com/CursoEstadistica/Lecc-13-est.htm EL COEFICIENTE DE CORRELACIÓN http://www.pucp.edu.pe/departamento/economia/images/documentos/DDD218.pdf EL COEFICIENTE DE DETERMINACIÓN http://www.virtual.unal.edu.co/cursos/ciencias/2007315/lecciones_html/capitulo_6/lec cion1/Rcuadrado.html DIAGRAMA DE DISPERSIÓN http://www.fundibeq.org/opencms/export/sites/default/PWF/downloads/gallery/metho dology/tools/diagrama_de_dispersion.pdf
Actividades y Ejercicios Ingresa
al
link
regresión , lee
atentamente
las
indicaciones,
desarr óllalo y env íalo po r el m ism o m edio.
1. Proyectar la Oferta de un cierto producto tomando en cuenta los datos obtenidos en el estudio de mercado, hallar la ecuación de regresión.
106
UNIVERSIDAD PRIVADA TELESUP
Ingresa al link
correlación , lee atentamente las indicaciones,
desarr óllalo y env íalo po r el m ism o m edio.
2. La evolución del IPC (índice de precios al consumo) y de la tasa de inflación en 1987 fue:
Calcula el coeficiente de correlación entre el IPC y la tasa de inflación.
107
UNIVERSIDAD PRIVADA TELESUP
Autoevaluación
1. En una zona de una ciudad se ha tomado una muestra para estudiar el número de habitaciones dispuestas en un piso y el de personas que viven en él, obteniéndose estos datos:
Calcula e interpreta el coeficiente de determinación.
a) b) c) d) e)
0.2025 0.5929 0.7723 0.9801 0.1521
2. De una determinada empresa se conocen los siguientes datos, referidos al volumen de ventas (en millones de pesetas) y al gasto en publicidad (en miles de pesetas) de los últimos 6 años. Volumen de ventas (mill. soles)
Gastos Publicidad (miles soles)
10
16
15
32
20
48
22
56
30
64
32
80
Obtener las rectas de regresión mínimo cuadrático. ¿Qué volumen de ventas de la empresa se podría esperar en un año que se gaste de publicidad 60000 soles? ¿Y para un gasto en publicidad de 200000 soles?
108
UNIVERSIDAD PRIVADA TELESUP
a) b) c) d) e)
Y = 3.604+0.363x ; 25.369; 10.859 Y = 3.704+0.363x; 25.500; 10.678 Y = 3.604+0.383x; 24.369; 11.246 Y = 3.904+0.363x; 24.768; 11.238 Y = 4.604+0.368x; 25.125; 10.756
3. Cinco niños de 2, 3, 5, 7 y 8 años de edad pesan, respectivamente, 14, 20, 32, 42 y 44 kilos. Hallar la covarianza. a) 36.8 b) 31.6 c) 33.5 d) 30.8 e) 30.6 4. Se ha solicitado a un grupo de 50 individuos información sobre el número de horas que dedican diariamente a dormir y ver la televisión. La clasificación de las respuestas ha permitido elaborar la siente tabla: Nº de horas dormidas (X)
6
7
8
9
10
Nº de horas de televisión (Y)
4
3
3
2
1
Frecuencias absolutas (f i )
3
16
20
10
1
Calcular la covarianza a) -0.436 b) -0.453 c) -0.235 d) -0.356 e) -0.358
109
UNIVERSIDAD PRIVADA TELESUP
5. Las estaturas y pesos de 10 jugadores de baloncesto de un equipo son:
Estatura (X)
186 189 190 192 193 193 198 201 203 205
Pesos (Y)
85
85
86
90
87
91
93
103 100 101
Calcular el coeficiente de correlación. a) 0.92 b) 0.93 c) 0.94 d) 0.95 e) 0.98 6. Los valores de dos variables X e Y se distribuyen según la tabla siguiente:
Y/ X
100
50
25
14
1
1
0
18
2
3
0
22
0
1
2
Obtener el coeficiente de correlación lineal. a) -0.52 b) -0.54 c) -0.56 d) -0.57 e) -0.59
110
UNIVERSIDAD PRIVADA TELESUP
7.
De una determinada empresa se conocen los siguientes datos, referidos al volumen de ventas ( en millones de pesetas) y al gasto en publicidad ( en miles de pesetas) de los últimos 6 años:
¿Cuál de los siguientes gráficos representa es su diagrama de dispersión? a)
b) 100
100
80
80
60
60
40
40
20
20
0
0 0
c)
10
20
30
40
d)
120 100
0
10
20
30
40
0
10
20
30
40
100 80
80
60
60
40
40 20
20
0
0 0
10
20
30
40
100 80
e)
60 40 20 0 0
10
20
30
40
111
UNIVERSIDAD PRIVADA TELESUP
8. Se dan los datos de demanda total y las ventas efectuadas por la empresa en los últimos 11 años:
¿Cuál
de
los
siguientes
gráficos representa es su diagrama de dispersión?
a)
10
b)
8
20 15
6 10
4 2
5
0 0
c)
200
400
0
600
20
d)
30
10
20
5
10
0
0 200
400
600
200
400
600
0
200
400
600
40
15
0
0
15
e)
10 5 0 0
200
400
600
112
UNIVERSIDAD PRIVADA TELESUP
9. Se tienen los siguientes datos. Halla el coeficiente de determinación.
Se observa un comportamiento exponencial Se usara la regresión con la ecuación Y = Anti log (a + b(X) ) a) b) c) d) e)
0.838 0.576 0.972 0.362 0.442
10. Hallar el coeficiente de determinación:
Altura
17 18 16 15 18 17 17 16 16 16 5 0 2 7 0 3 1 8 5 5
Peso
80 82 57 63 78 65 66 67 62 58
2
a)
R
b)
R
2
c)
R
2
d)
R
2
e)
R
2
(0,8282)2 100 68'59%
(0,8456)2 100 71,51%
(0,5252) 2 100 38,59%
(0,9292) 2 100 78,59%
(0,6969) 2 100 54,59%
113
UNIVERSIDAD PRIVADA TELESUP
Resumen
Regresión Lineal Simple: Es el estudio de la relación funcional entre dos variables poblacionales, una variable X, llamada independiente, explicativa o de predicción y una variable Y, llamada dependiente o variable respuesta, presenta la siguiente notación: Y=a+bX
Donde: “a” es el valor de la ordenada donde la línea de regresión se intercepta con el eje Y. “b” es el coeficiente de regresión poblacional (pendiente de la línea recta) .
Determina la relación o dependencia que existe entre las dos variables que intervienen en una distribución bidimensional. Es decir, determinar si los cambios en una de las variables influyen en los cambios de la otra. En caso de que suceda, diremos que las variables están correlacionadas o que hay correlación entre ellas.
Una importante medida estadística igual al cuadrado del coeficiente de correlación. Se utiliza a menudo como medida de la eficacia de la cobertura en cuyo caso se mide el porcentaje de la variación en el precio de una posición al contado explicada por la variación en el precio del instrumento de cobertura. Se puede obtener como R 2 a partir de una regresión lineal sencilla.
La representación gráfica más útil para describir el comportamiento conjunto de dos variables es el diagrama de dispersión o nube de puntos, donde cada caso aparece representado como un punto en el plano definido por las variables X 1 y X2 o X y Y.
114
UNIVERSIDAD PRIVADA TELESUP
115
UNIVERSIDAD PRIVADA TELESUP
Introducción
a) Presentación y contextualización Los temas que se tratan en la presente unidad temática, tiene por finalidad que el estudiante comprenda la teoría de las probabilidades, así como formular apreciaciones críticas sobre los diversos conceptos desarrollados. Estas propiedades y formulas nos serán útiles no solo en los problemas o ejercicios, ya que si le damos el enfoque adecuado también puede servir para ayudar a resolver nuestros problemas.
b) Competencia Comprende el significado de los teoremas y axiomas de probabilidad para obtener la solución adecuada.
c) Capacidades 1. Define y aplica el concepto de experimento aleatorio, espacio muestral y suceso.
2. Define y analiza la probabilidad con sus tipos de eventos. 3. Explica la probabilidad condicional en diferentes hechos de la vida cotidiana. 4. Comprende el significado del teorema de probabilidad total, el teorema de Bayes y explica los diferentes métodos de conteo para obtener una solución adecuada.
d) Actitudes Toma iniciativa y lidera al equipo en el cumplimiento de las actividades asignadas a su vez promueve actividades y toma de decisiones pertinentes. Cumple con los horarios establecidos, respeta y cumple las normas de convivencia en el ámbito superior universitario. Planifica y cumple oportunamente sus tareas o actividades diarias y presenta sus trabajos en forma organizada.
e) Presentación de ideas básicas y contenido esenciales de la Unidad. La Unidad de Aprendizaje 4: Probabilidades, comprende el desarrollo de los siguientes temas: Tema 01: Experimento aleatorio, espacio muestral y suceso. Tema 02: Definición De Probabilidad, Valor, Eventos Mutuamente Excluyentes Y Eventos No Excluyentes Tema 03: Probabilidad Condicional. Tema 04: Probabilidad Total, Teorema de Bayes y Técnicas de Conteo.
116
UNIVERSIDAD PRIVADA TELESUP
TEMA 1
Definir y aplicar el concepto de experimento aleatorio, espacio muestral y suceso.
117
UNIVERSIDAD PRIVADA TELESUP
Desarrollo de los Temas
La teoría de la probabilidad proporciona la base para la inferencia estadística. El primer matemático que calculó correctamente una probabilidad teórica fue el italiano -49+ Girolamo Cardano, quien vivió desde 1501 hasta 1576. Los objetivos de esta unidad son ayudar al estudiante a adquirir cierta habilidad matemática
en el área de la
probabilidad y ayudarle a comprender los conceptos más importantes
Experimento Aleatorio Es un proceso de observación, donde se verifican las siguientes condiciones:
1.
Se puede repetir indefinidamente, siempre en las mismas condiciones;
2.
Antes de realizarlo, no se puede predecir el resultado que se va a obtener.
Ejemplos Tirar al aire una moneda Resultado: Existe duda en el resultado exacto, porque es posible que aparezca cara o sello
Predecir la duración de un discurso. Resultado: Antes de que se escuche el discurso no se sabe cuánto tiempo durará.
Evaluación de los docentes Resultado: Antes de la evaluación no se conoce con exactitud si el docente aprobará o desaprobará la evaluación.
118
UNIVERSIDAD PRIVADA TELESUP
Evaluar el estado nutricional de un niño menor de 5 años de una Comunidad, elegido al azar. Resultado: Antes de la evaluación no se conoce cuál es el estado nutricional del niño.
Los trabajos de investigación son experimentos aleatorios, puesto que antes de ejecutarlos no se sabe si la hipótesis que se ha planteado seran aceptadas o rechazadas
Espacio Muestral (e) Al conjunto de todos los posibles resultados de un experimento se le conoce como espacio muestral y suele representarse con la letra E. Los elementos del espacio muestral se denominan sucesos elementales
e1, e2 ε E
=> e1, e2 son sucesos elementales
Si el espacio muestral tiene un número finito de elementos, Podemos enumerar los elementos en la notación usual de conjuntos; por ejemplo, el espacio muestral de los posibles resultados de tirar una moneda se puede escribir como:
E = { c, s } donde c y s representan cara y sello Los espacios muestrales con un número de elementos grande, o infinito, se describen mejor con un enunciado o una regla; por ejemplo, si los posibles resultados de un experimento son el conjunto de automóviles equipados con radios de banda ancha, el espacio muestral se puede escribir:
E = {x/x es un automóvil con radio de BA}
Ejemplo
1. Sea el experimento de lanzar dos monedas. Hallar su espacio muestral. Solución Sea M1 la primera moneda, entonces M 1 = {c, s} Sea M2 la segunda moneda, entonces M 2 = {c, s} Para construir el espacio muestral, se tiene varias f ormas:
a) Por el producto de M1 x M2, obteniéndose el siguiente resultado: E = {(c, c), (c, s), (s, c), (s, s)}
119
UNIVERSIDAD PRIVADA TELESUP
b) Un cuadro de doble entrada M1
M2
c
s
c
cc
cs
s
sc
Ss
c) El diagrama del árbol M1
M2
c
c s
.
c s
s
E= { (c,c), (c, s), (s, c), (s, s)}
Suceso o Evento Aleatorio Cuando hablamos de una parte del conjunto de resultados posibles, nos estamos refiriendo a un evento o suceso. Cualquier subconjunto de E será denominado suceso o evento aleatorio, y se denotará normalmente con las letras A, B,...
A, B
E => A, B son sucesos o eventos aleatorios Los sucesos aleatorios son más generales que los elementales, ya que son conjuntos que pueden contener no a uno sólo, sino a una infinidad de sucesos elementales, así como también pueden no contener ninguno.
Sucesos aleatorios que aparecen con gran frecuencia en el cálculo de probabilidades son los siguientes es:
Suceso Seguro. Es aquel que siempre se verifica después del experimento aleatorio, es decir, el mismo E.
A
E => suceso seguro
120
UNIVERSIDAD PRIVADA TELESUP
Suceso Imposible. Es aquel que nunca se verifica como resultado del experimento aleatorio. Como debe ser un subconjunto de S, la única posibilidad es que el suceso imposible sea el conjunto vacío.
Ø
E => Ø es un suceso imposible
Suceso Contrario A Un Suceso A. También se denomina complementario de A y es el suceso que se verifica si, como resultado del experimento aleatorio, no se verifica A. Se acostumbra a denotar con el símbolo A
E
A’ = {e
o A’
E : e E }
Suceso contrario a A
Ejemplos 1. Si realizamos el experimento aleatorio de lanzar un dado al aire, tenemos: Sucesos elementales
Espacio muestral
→
1, 2, 3, 4, 5, 6 → E = =
{1, 2, 3, 4, 5, 6}
Ø suceso imposible E suceso seguro
Sucesos aleatorio
→
{1} suceso unitario {1, 2, 3} suceso compuesto {2, 4, 6} = {1, 3, 5} ´ suceso contrario
121
UNIVERSIDAD PRIVADA TELESUP
TEMA 2
Definir y analizar la probabilidad con sus tipos de eventos.
122
UNIVERSIDAD PRIVADA TELESUP
Se define como cálculo de probabilidad al conjunto de reglas que permiten determinar si un fenómeno ha de producirse, fundando la suposición en el cálculo, las estadísticas o la teoría. El objetivo de esta práctica es realizar varios experimentos de probabilidad, anotar los resultados
y
posteriormente
compararlos
con
los
resultados teóricos.
Definición de Laplace. En el caso de que todos los sucesos elementales del espacio muestral E sean equiprobables, Laplace define la probabilidad del suceso A como el cociente entre el número de resultados favorables a que ocurra el suceso A en el experimento y el número de resultados posibles del experimento.
Si :
E
x1 , x2 , x3 , ...xk
P (x1 ) P (x 2 )... P (x K ),
Número de casos
P( A)
favorables favorables
del
evento evento
A
Número de casos
posibles
Ejemplo: Consideremos el experimento "lanzar un dado y anotar el resultado". El espacio espacio muestral es E = {1, X, 2}.
Las probabilidades de cada uno de los sucesos son: P(Ø) = 0 P({1}) = 1/3
P({X}) = 1/3
P({2}) = 1/3
P({1,2}) = P({1}) + P({2}) = 1/3 + 1/3 = 2/3
P({1,X}) = 2/3
P({2,X}) = 2/3
P({1,X,2}) = P(E) = 1
123
UNIVERSIDAD PRIVADA TELESUP
El Valor De La Probabilidad El valor más pequeño que puede tener la probabilidad de ocurrencia de un evento es igual a 0, el cual indica que el evento es imposible, y el valor mayor es 1, que indica que el evento ciertamente ocurrirá. Entonces si decimos que P(A) es la probabilidad de ocurrencia de un evento A y P (A´) la probabilidad de no ocurrencia de A, tenemos que:
≤ ≤
0
Propiedades 1.
P(
2.
P( Ø ) = 0
) = 1 - P( A )
3. Si
A
B
P( B ) = P( A ) + P(
4. Si
A
B
P( A )
5. Si A1
, A2 , ... , Ak , son incompatibles dos a dos,
P( A1
A2
...
)
P( B )
Ak ) = P( A1 ) + P( A2 ) + ... + P( Ak
entonces: )
) = P( A ) + P( B ) - P( ) 6. P( 7. Si el espacio muestral E es finito y un sucesos es A={x 1 , x 2 , ... , x K } , entonces: P( A ) = P( x 1 ) + P( x 2 ) + ... + P( x K )
Ejemplo Se lanzan dos dados equilibrados con seis caras marcadas con los números del 1 al 6.
Se pide:
a. Halla la probabilidad de que la suma de los valores que aparecen en la cara superior sea múltiplo de tres.
b. ¿Cuál es la probabilidad de que los valores obtenidos difieran en una cantidad mayor de dos?
124
UNIVERSIDAD PRIVADA TELESUP
Solución: El espacio muestral del experimento es: E = {(1,1); (1,2); (1,3); (1,4); (1,5); (1,6); (2,1);...; (6,6)} y está formado por 36 sucesos elementales equiprobables. Constituyen el número de casos posibles del experimento. Utilizando la regla de Laplace, calculamos las probabilidades de los sucesos que nos piden:
a.
Si llamamos A al suceso "obtener una suma múltiplo de 3", los casos favorables al suceso A son:
A = {(1,2); (2,1); (1,5); (2,4); (3,3); (4,2); (5,1); (3,6); (4,5); (5,4); (6,3); (6,6)}. Por tanto, P(A) = 12/36 = 1/3
b.
Si llamamos B al suceso "obtener unos valores que se diferencian en una cantidad mayor que dos", los casos favorables al suceso B son:
B = {(1,4); (4,1); (1,5); (5,1); (1,6); (6,1); (2,5); (5,2); (2,6); (6,2); (3,6); (6,3)}. Por tanto, P( B ) = 12/36 = 1/3
Eventos Mutuamente Excluyentes Y Eventos No Excluyentes Dos o más eventos son mutuamente excluyentes o disjuntos, si no pueden ocurrir simultáneamente. Es decir,
la
ocurrencia
de
un
evento
impide
automáticamente la ocurrencia del otro evento (o eventos).
Ejemplo: Al lanzar una moneda solo puede ocurrir que salga cara o sello pero no los dos a la vez, esto quiere decir que estos eventos son excluyentes. Dos o más eventos son no excluyentes, o conjuntos, cuando es posible que ocurran ambos.
125
UNIVERSIDAD PRIVADA TELESUP
Ejemplo: Si consideramos en un juego de dominó sacar al menos un blanco y un seis, estos eventos son no excluyentes porque puede ocurrir que salga el seis blanco.
Regla De La Adición La Regla de la Adición expresa que: la probabilidad de ocurrencia de al menos dos sucesos A y B es igual a: P(A o B) = P(A) U P (B) = P(A) + P(B) si A y B son
mutuamente excluyente P(A o B) = P(A) + P (B) – P(A y B) si A y B son no
excluyentes Siendo: P(A) = probabilidad de ocurrencia del evento A P(B) = probabilidad de ocurrencia del evento B P(A y B) = probabilidad de ocurrencia simultanea de los eventos A y B
126
UNIVERSIDAD PRIVADA TELESUP
TEMA 3
Explicar la probabilidad condicional en diferentes hechos de la vida cotidiana.
127
UNIVERSIDAD PRIVADA TELESUP
Eventos Independientes Dos o más eventos son independientes cuando la ocurrencia o no-ocurrencia de un evento no tiene efecto sobre la probabilidad de ocurrencia del otro evento (o eventos). Un caso típico de eventos independiente es el muestreo con reposición, es decir, una vez tomada la muestra se regresa de nuevo a la población donde se obtuvo.
Es decir; decimos que dos sucesos A y B son
independientes entre sí si la ocurrencia de uno de ellos no modifica la probabilidad del otro, es decir, si:
P( B/A ) = P( B )
ó
P( A/B ) = P( A )
Ejemplo: Lanzar al aire dos veces una moneda son eventos independientes por que el resultado del primer evento no afecta sobre las probabilidades efectivas de que ocurra cara o sello, en el segundo lanzamiento.
Eventos Dependientes Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (o otros). Decimos que dos sucesos A y B son dependientes entre sí si la ocurrencia de uno de ellos modifica la probabilidad del otro, es decir, si:
P( B/A )
P( B )
ó
P( A/B )
P( A )
128
UNIVERSIDAD PRIVADA TELESUP
Probabilidad Condicional
Cuando tenemos eventos dependientes este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresión P(A|B) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió. Se debe tener claro que A|B no es una fracción. Sean A y B dos sucesos tal que P( A )
0, se llama
probabilidad de B condicionada a A, P(B/A), a la probabilidad de B tomando como espacio muestral A, es decir, la probabilidad de que ocurra B dado que ha sucedido A.
De esta igualdad se deduce:
P (B
A) = P (B/A) · P(A)
Reglas de Multiplicación Se relacionan con la determinación de la ocurrencia de conjunta de dos o más eventos. Es decir la intersección entre los conjuntos de los posibles valores de A y los valores de B, esto quiere decir que la probabilidad de que ocurran conjuntamente los eventos A y B es: P(A y B) = P(A
B) = P(A).P (B)
si A y B son independientes
P(A y B) = P(A
B) = P(A).P (B|A)
si A y B son dependientes
P(A y B) = P(A
B) = P (B).P (A|B)
si A y B son dependientes
Ejemplo: Consideremos el experimento de "lanzar un dado al aire". Calculemos, por ejemplo, la probabilidad de obtener un 3 sabiendo que ha salido un número impar: Definimos los sucesos A="sacar 3" y B= {1, 3, 5}; entonces, P(A/B)=1/3 puesto que si sabemos que ha salido un número impar, los casos posibles ahora son 3 y los casos favorables al suceso A sólo 1.
129
UNIVERSIDAD PRIVADA TELESUP
Ejemplo:
Se lanzan dos dados:
a. ¿Cuál es la probabilidad de obtener una suma de puntos igual a 7? b. Si la suma de puntos ha sido 7, ¿cuál es la probabilidad de que en alguno de los dados haya salido un tres?
Solución: Sean los sucesos A="la suma de los puntos es 7" y B="en alguno de los dados ha salido un tres".
a. Los casos posibles al lanzar dos dados son 36 y los casos favorables al suceso A son los seis siguientes: (1,6); (2,5); (3,4); (4,3); (5,2) y (6,1). Por tanto, P( A )=6/36=1/6
b. En este caso, el suceso B/A es salir en algún dado 3, si la suma ha sido 7. Observamos que esta situación ocurre en las parejas (3,4) y (4,3). Por tanto, P( B/A )=2/6=1/3
Tablas De Contingencia Y Diagramas De Árbol. En los problemas de probabilidad y en especial en los de probabilidad condicionada, resulta interesante y práctico organizar la información en una tabla de contingencia o en un diagrama de árbol. Las tablas de contingencia y los diagramas de árbol están íntimamente relacionados, dado uno de ellos podemos construir el otro. Unas veces, los datos del problema permiten construir fácilmente uno de ellos y a partir de él podemos construir el otro, que nos ayudará en la resolución del problema.
130
UNIVERSIDAD PRIVADA TELESUP
Conversión De Una Tabla En Diagrama De Árbol Las tablas de contingencia están referidas a dos características que presentan cada una A,
, B y
, expresados en frecuencias
absolutas, relativas o probabilidades la tabla,
TOTAL
A
dos o más sucesos. En el caso de los sucesos B
adopta la forma adjunta. Dicha tabla adopta la
P(A
B ) P(
B)
P(B)
P(A
) P(
)
P( )
forma del diagrama de árbol del dibujo. En éste, a cada uno de los sucesos A y
se les
TOTAL
P(A)
P(
)
1
ha asociado los sucesos B y .
Sobre las ramas del diagrama de árbol se han anotado las probabilidades condicionadas
correspondientes,
deducidas de las relaciones análogas a:
Conversión De Un Diagrama En Tabla De Contingencia De manera recíproca, dado el diagrama de árbol podemos construir la tabla de contingencia equivalente sin más que utilizar la expresión. P( B
A ) = P( B/A ) · P( A ), para calcular las probabilidades de las
intersecciones de sucesos que forman la tabla.
Ejemplo: Un taller sabe que por término medio acuden: por la mañana 3 automóviles con problemas eléctricos, 8 con problemas mecánicos y 3 con problemas de chapa, y por la tarde 2 con problemas eléctricos, 3 con problemas mecánicos y 1 con problemas de chapa.
131
UNIVERSIDAD PRIVADA TELESUP
a. Calcula el porcentaje de los que acuden por la tarde. b. Calcula el porcentaje de los que acuden por problemas mecánicos. c. Calcula la probabilidad de que un automóvil con problemas eléctricos acuda por la mañana.
Solución: En las tablas de contingencia, con las frecuencias absolutas y los porcentajes, respectivamente, pueden verse recogidos los datos del enunciado.
ELÉC.
MEC.
CHAPA
TOTAL
MAÑANA
3
8
3
14
MAÑANA
0.15
0.40
0.15
0.70
TARDE
2
3
1
6
TARDE
0.10
0.15
0.05
0.30
TOTAL
5
11
4
20
TOTAL
0.25
0.55
0.20
1.00
ELÉC. MEC. CHAPA TOTAL
Las respuestas a las cuestiones planteadas basta leerlas en las tabla. Así, se obtiene: a. El 30% de los automóviles acude al taller por la tarde. b. El porcentaje de vehículos ingresados con problemas mecánicos es el 55%. c. La probabilidad buscada es: P (acuda por la mañana/tiene problemas eléctricos) = 3/5 = 0.6
132
UNIVERSIDAD PRIVADA TELESUP
TEMA 4
Comprender el significado del teorema de probabilidad total, el teorema de Bayes y explica los diferentes métodos de conteo ara obtener una solución adecuada.
133
UNIVERSIDAD PRIVADA TELESUP
Sea A1, A2,..., An; una partición sobre el espacio muestral y sea B un suceso cualquier del que se conocen las probabilidades condicionales P (B | Ai), entonces la probabilidad total se define:
Ejercicio 1 Una compañía dedicada al transporte público explota t res líneas de una ciudad, de forma que el 50 % de los autobuses cubre el servicio de la primera línea, el 20% cubre la segunda y el 30% cubre el servicio de la tercera línea. Se sabe que la probabilidad de que, diariamente, un autobús se averíe es del 3%, 2% y 5%, respectivamente para cada línea.
a) Determine la probabilidad de que, en un día, un autobús sufra una avería.
Solución Sean los eventos: A1: cubre el servicio de la primera línea A2: cubre el servicio de la segunda línea A3: cubre el servicio de la tercera línea B1: sufre una avería
Datos: P (A1) = 0.5 ; P (A2) = 0.2
P(A3= 0.3
P (B1/A1) =0.03 P (B1/A2) =0.02 P (B1/A3) =0.05
Además: P (B2/A1) = 1- P (B1/A1) P (B2/A1) = 1- P (B1/A1) = 1 – 0.03 = 0.97 P (B2/A2) = 1- P (B1/A2) = 1 – 0.02 = 0.98 P (B2/A3) = 1- P (B1/A3) = 1 – 0.05 = 0.95
B2: no sufre una avería
134
UNIVERSIDAD PRIVADA TELESUP
a) Empleando la fórmula de la probabilidad total :
. / . / ./ . ∗. . ∗. . ∗. .
Ejercicio 2
Se lanzan dos monedas al aire. Si salen dos caras, se extrae una bola de una urna( I)que contiene, 2 bolas blancas y 3 negras. Si sale cara y cruz, se extrae una bola de una urna (II), que contiene 4 bolas blancas y 1 negra. Si salen dos cruces, se extrae una bola de una urna (III), que contiene 3 bolas blancas y 2 negras. ¿Cuál es la probabilidad de extraer bola blanca después de lanzar las monedas y sacar la bola?
Solución: El diagrama de árbol muestra, primero, las probabilidades correspondientes a la elección de la urna y, después, a la extracción de la bola La probabilidad total de sacar bola blanca la calculamos caminando por todas las ramas que terminan en sacar bola blanca.
P (B) =
P (B/UI)·P(UI)+P(B/UII)·P(UII)+P(B/UIII)·P(UIII) =
2/5 · 1/4 + 4/5 · 2/4 + 3/5 · 1/4 =
13/20
135
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 3 Se tiene una urna vacía y se lanza una moneda al aire. Si sale cara, se introduce en la urna una bola blanca y si sale cruz, se introduce una bola negra. El experimento se repite tres veces y, a continuación, se introduce la mano en la urna, retirando una bola. ¿Cuál es la probabilidad de que en la urna queden una bola blanca y otra negra?
Solución: Llamamos B = "obtener bola blanca" y N = "obtener bola negra". En el diagrama de árbol pueden verse las configuraciones posibles de las urnas, después del lanzamiento de las monedas y las urnas finales, así como las probabilidades para cada una de ellas. Atendiendo a la notación expresada en el diagrama de árbol y según el teorema de la probabilidad total, se obtiene:
P (BN) = =
P (B N
B B N)+P (B N
B NN)
P (BB N) ·P (BN /BB N)+P (BN N) ·P (BN /BB N)
=
3/8 · 2/3 + 3/8 · 2/3 = 1/4 + 1/4 =
1/2
136
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 4 Una empresa del ramo de la alimentación elabora sus productos en cuatro factorías: F 1, F 2, F 3 y F 4. El porcentaje de producción total que se fabrica en cada factoría es del 40%, 30%, 20% y 10%, respectivamente, y además el porcentaje de envasado incorrecto en cada factoría es del 1%, 2%, 7% y 4%. Tomamos un producto de la empresa al azar. ¿Cuál es la probabilidad de que se encuentre defectuosamente envasado?
Solución:
Llamando M = "el producto está defectuosamente envasado", se tiene que este producto puede proceder de cada una de las cuatro factorías y, por tanto, según el teorema de la probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, tenemos:
P (M) =
P (F1) · P (M/F1) + P (F2) · P (M/F2) + P (F3) · P (M/F3) + P (F4) · P (M/F4)
=
0.4 · 0.01 + 0.3 · 0.02 + 0.2 · 0.07 + 0.1 · 0.04
=
0.004 + 0.006 + 0.014 + 0.004
=
0.028
137
UNIVERSIDAD PRIVADA TELESUP
Teorema de bayes y técnicas de conteo
EL TEOREMA DE BAYES Sea A1, A2 ,..., An un sistema completo de sucesos, tales que la probabilidad de ca uno de ellos es distinta de cero, y sea B un suceso cualquier del que se conocen l probabilidades condicionales P (B/A )i . Entonces la probabilidad
viene da P (A /B) i
por la expresión:
( ) ∗ En los problemas relacionados con la probabilidad, y en particular con la probabilidad condicionada, así como con la probabilidad total y el teorema de Bayes, es aconsejable que, con la información del problema, construyas una tabla de contingencia o un diagrama de árbol .
Ejemplo Tres máquinas, A, B y C , producen el 45%, 30% y 25%, respectivamente, del total de las piezas producidas en una fábrica. Los porcentajes de producción defectuosa de estas máquinas son del 3%, 4% y 5%. a. Seleccionamos una pieza al azar; calcula la probabilidad de que sea defectuosa. b. Tomamos, al azar, una pieza y resulta ser defectuosa; calcula la probabilidad de haber sido producida por la máquina B. c. ¿Qué máquina tiene la mayor probabilidad de haber producido la citada pieza defectuosa?
138
UNIVERSIDAD PRIVADA TELESUP
Solución: Sea D = "la pieza es defectuosa" y N = "la pieza no es defectuosa". La información del problema puede expresarse en el diagrama de árbol adjunto. a. Para calcular la probabilidad de que la pieza elegida sea defectuosa, P(D), por la propiedad de la probabilidad total, P(D) = P(A) · P(D/A) + P(B) · P(D/B) + P(C) · P(D/C) =
= 0.45 · 0.03 + 0.30 · 0.04 + 0.25 · 0.05 = 0.038
b. Debemos calcular P(B/D) . Por el teorema de Bayes,
c. Calculamos P(A/D) y P(C/D) , comparándolas con el valor de P(B/D) ya calculado. Aplicando el teorema de Bayes, obtenemos:
La máquina con mayor probabilidad de haber producido la pieza defectuosa es A.
139
UNIVERSIDAD PRIVADA TELESUP
Técnicas De Conteo Fórmula de la Combinación Si el orden en los objetos seleccionados no es importante, a cualquier selección se le llama una combinación. La fórmula para contar el número de combinaciones de k objetos de un conjunto de n objetos es:
!−!!
Ejemplo: Un inversionista desea seleccionar tres inversiones de un total de 10 inversiones ¿De cuántas maneras diferentes puede invertir el inversionista?
10! ! 120 3! 103 Fórmula de la Permutación Un arreglo o disposición de k objetos seleccionados de un solo grupo de n objetos posibles. Se utiliza para determinar el número posible de arreglos cuando sólo hay un grupo de objetos.
! ! Ejemplo: Un inversionista tiene la intención de invertir $ 5 000 en un proyecto, $10 000 en un segundo proyecto, y $ 20 000 en un tercer proyecto. Si existen en total 10 posibilidades de inversión. ¿De cuántas maneras puede invertir? n= 10 k=3
10! ! 103 140
UNIVERSIDAD PRIVADA TELESUP
Además existen otras formas de permutación, así tenemos:
Permutación circular: Son agrupaciones donde no hay primero ni último elemento, por hallarse todos en una línea cerrada.
Para hallar el número de permutaciones Circulares que se pueden formar con “n” objetos distintos de un conjunto, hay que considerar fija la posición de un elemento, los n – 1 restantes podrán cambiar de lugar de (n – 1)! formas diferentes tomando todas las posiciones sobre la circunferencia relativa al primer punto.
El número de permutaciones circulares será: P(n, r) = (n-1)! Ejemplos:
1. ¿De cuántas formas diferentes puede sentarse alrededor de una mesa circular un padre y sus 5 hijos? Solución P(n,r) = (6 – 1)! = 5! = 5 x 4 3 x 2 x 1 = 120 maneras Solución:
Se trata de una permutación circular.
Permutaciones sin repetición Las permutaciones sin repetición son un caso particular de las variaciones que se pueden dar en un conjunto de n elementos tomados de n en n maneras. También son lineales con participación de todos los elementos. Se denota Pn = n!
141
UNIVERSIDAD PRIVADA TELESUP
Ejemplo 1. ¿De cuántas maneras pueden colocarse en fila 6 personas para una foto de grupo? Solución: Ordenando a las personas se tiene n = 6, se tiene: P 6 = 6! = 720 2. De cuántas maneras se pueden colocar en un estante 9 libros?
Solución: Formamos permutaciones ordinarias de tal manera que n = 9, entonces P9 = 9! = 362880
Permutaciones con repetición Es cuando cada objeto vuelve a intervenir todas las veces que se realice una selección. Se calcula así: P(n, r) = nr
Ejemplos. 1. ¿Cuántos números de 3 cifras se pueden formar con los dígitos 1, 2, 3, 4, 5 y 6? Solución. Se tiene los datos n = 6; r = 3. Como es con repetición, porque todas las cifras, la primera, la segunda y la tercera, siempre tienen 6 posibilidades; reemplazando en la fórmula se tiene: P(6,3) = 63 = 216 formas
2. Al tirar una moneda tres veces consecutivas, ¿cuántos resultados diferentes pueden salir? Solución: La moneda tiene dos partes, entonces n = 2 y como el número de tiradas es 3 se 2
tiene r = 3. Finalmente P
3
23 = 8
142
UNIVERSIDAD PRIVADA TELESUP
Permutaciones con elementos repetidos El número de permutaciones (P) distintas de “n” elementos
tomados de “n” en “n” en donde hay un primer grupo de n 1 objetos iguales entre si; n 2 objetos iguales entre si de un segundo tipo y así sucesivamente hasta n objetos iguales entre si de un último tipo, entonces:
Ejemplo. En un rally intervienen 8 carros: 3 son italianos, 2 franceses, 2 argentinos y 1 peruano. ¿Cuál es el número de clasificaciones posibles por nacionalidades?
Solución: Como la nacionalidad de los carros se repite, es una permutación con elementos repetidos, es decir n = 8; carros italianos
r 1 = 3; carros franceses r 2 = 2; carros
argentinos r 3 = 2; carros peruanos r 4 = 1 8
Luego
P 3, 2,2,1
=
8!
= 1680
3! 2! 2! 1!
143
UNIVERSIDAD PRIVADA TELESUP
Lecturas Recomendadas
DEFINICIÓN DE PROBABILIDAD, EL VALOR DE LA PROBABILIDAD, EVENTOS
MUTUAMENTE EXCLUYENTES Y EVENTOS NO EXCLUYENTES. http://thales.cica.es/rd/Recursos/rd98/Matematicas/28/matematicas-28.html PROBABILIDAD CONDICIONAL
http://colposfesz.galeon.com/est501/probabi/teo/cap311/cap311.htm TEOREMA DE LA PROBABILIDAD TOTAL
http://www.vitutor.com/pro/2/a_16.html TEOREMA DE BAYES Y TÉCNICAS DE CONTEO
http://www.slideshare.net/estadistica_a/probabilidades-parte-iii-teorema-de-bayes
Actividades y Ejercicios Ingresa al link probabilidades , lee atentam ente las indicac ion es, desarróllalo y en v íalo a tr av é s d el m is m o m ed io .
Calcularemos los casos posibles del experimento y los casos favorables al suceso del enunciado para aplicar la regla de Laplace. Los casos posibles son las distintas formas de extraer 3 bolas entre 90. El orden no debe tenerse en cuenta. El espacio muestral de este experimento está formado por los cien sucesos elementales: 00, 01, 02, 03, 04, 05, 06, 07, 08, 09, 10, 11,..., 98, 99. Para cada suceso del enunciado calcular sus casos favorables. El suceso "sufrir una avería" ( Av ) puede producirse en las tres líneas, (L1, L2 , L3 ). Según el teorema de la probabilidad total y teniendo en cuenta las probabilidades del diagrama de árbol adjunto, Hallar la probabilidad de que sufra una avería.
144
UNIVERSIDAD PRIVADA TELESUP
Autoevaluación
1. Señale con una V si es verdadero o F si es falso en los
siguientes
enunciados. Los experimentos aleatorios pueden predecir con precisión sus resultados antes de efectuar la observación. El espacio muestral es el conjunto de todos los posibles resultados del experimento aleatorio. Un suceso es un subconjunto del espacio muestral. Se dice que dos eventos son mutuamente excluyentes cuando su intersección es diferente del vacío.
a) VVVV b) FVVF c) FFVV d) VFFV e) FFFF 2. Relaciona cada palabra con su respectivo concepto 1. Espacio muestral
(
) Razón entre el número de elementos de un evento y del espacio muestral.
2. Evento
(
) Conjunto de todos los resultados posibles de un ex perimento.
3. Probabilidad
(
) Subconjunto del espacio muestral.
a) 123 b) 321 c) 231 d) 312 e) 213 3. De una sala de 20 pacientes 5 de ellos tienen enfermedad leve. Si se toma un paciente al azar. ¿Cuál es la probabilidad que sea un paciente con enfermedad leve? a) 5/20 b) 6/20 c) 4/20 d) 3/20 e) 7/20
145
UNIVERSIDAD PRIVADA TELESUP
4. En la TELESUP el 40% de estudiantes son costeños, el 10% estudian ingeniería industrial, el 2% estudian Ingeniería Industrial y son costeños. Se selecciona al azar un estudiante de esta universidad. ¿Cuál es la probabilidad de que sea costeño o pertenezca a Ingeniería Industrial? a) b) c) d) e)
0.45 0.46 0.49 0.48 0.47
5. En una baraja de naipes de 52 cartas, se extrae una carta al azar y resulta ser mayor o igual que 10. ¿Cuál es la probabilidad que sea una reina? a) b) c) d) e)
2/5 3/5 1/5 4/5 0
6. En una lavandería se tiene 40 camisas blancas nuevas y 60 usadas, también se tiene 30 camisas rojas nuevas y 50 usadas. Se extrae una camisa al azar. Hallar la probabilidad que sea blanca dado que es nueva a) b) c) d) e)
1/7 2/7 5/7 6/7 4/7
7. Tres máquinas producen un mismo artículo; las máquinas A, B y C fabrican el 35%, 25% y 40% de la producción total respectivamente. De lo que producen, el 5%, 4% y 2% son defectuosos respectivamente. Se escoge un artículo al azar. Calcular la probabilidad de que sea defectuoso. a) b) c) d) e)
0.0352 0.0425 0.0355 0.0432 0.0358
8. En un bioterio existen tres razas de ratones A, B, C en las proporciones 25%, 30% y 45% respectivamente. Sabemos que cierta enfermedad ataca al 5% de la raza A, al 10% de la raza B y al 15% de la raza C. Se elige un ratón al azar. ¿Cuál es la probabilidad de que esté afectado de la enfermedad?
146
UNIVERSIDAD PRIVADA TELESUP
a) b) c) d) e)
0.11 0.13 0.15 0.09 0.10
9. Un grupo de 7 personas debe participar en una serie de charlas que se llevará a cabo en dos días sucesivos. En el primer día deben participar 3 personas y en el segundo día las 4 personas restantes. ¿De cuántas maneras diferentes se puede elegir a las personas que deben participar el primer día? a) b) c) d) e)
32 34 37 36 35
10. Suponga que tres máquinas A, B y C producen respectivamente el 50%, 30% y 20% del número total de artículos producidos por una empresa y que los porcentajes de unidades defectuosas producidas por estas máquinas son 3%, 4% y 5%, respectivamente. Si se elige un artículo al azar y es defectuoso, hallar la probabilidad de que haya sido producido por la máquina A. a) b) c) d) e)
0.4054 0.4060 0.4080 0.4050 0.4059
147
UNIVERSIDAD PRIVADA TELESUP
Resumen
Se define como cálculo de probabilidad al conjunto de reglas que permiten determinar si un fenómeno ha de producirse, fundando la suposición en el cálculo, las estadísticas o la teoría. El objetivo de esta práctica es realizar varios experimentos de probabilidad, anotar los resultados y posteriormente compararlos con los resultados t eóricos.
Es la probabilidad de que ocurra un evento A, sabiendo que también sucede otro evento B. La probabilidad condicional se escribe P (A|B), y se lee «la probabilidad de A dado B. No tiene por qué haber una relación causal o temporal entre A y B. A puede preceder en el tiempo a B, sucederlo o pueden ocurrir simultáneamente. A puede causar B, viceversa o pueden no tener relación causal. Las relaciones causales o temporales son nociones que no pertenecen al ámbito de la probabilidad. Pueden desempeñar un papel o no dependiendo de la interpretación que se le dé a los eventos. Sea A1, A2,..., An una partición sobre el espacio muestral y sea B un suceso cualquier del que se conocen las probabilidades condicionales P (B | Ai ), entonces la probabilidad del suceso B viene dada por la expresión:
Sea {A1, A2,..., An} un conjunto de sucesos mutuamente excluyentes y exhaustivos, y tales que la probabilidad de cada uno de ellos es distinta de cero. Sea B un suceso cualquiera del que se conocen las probabilidades condicionales P (B | A i). Entonces, la probabilidad P (Ai | B) viene dada por la expresión:
148
UNIVERSIDAD PRIVADA TELESUP
Glosario Probabilidad.-
Es el conjunto de posibilidades de que un evento ocurra o no en un momento y tiempo determinado. Dichos eventos pueden ser medibles a través de una escala de 0 a 1, donde el evento que no pueda ocurrir tiene una probabilidad de 0 y uno que ocurra con certeza es de 1. Al Azar o Aleatorio.-
Son todos aquellos eventos fortuitos o productos de la suerte. Aleatoriamente.-
Actividades o métodos producidos o llevados a cabo simulando un comportamiento al azar. Validez.-
Importancia predictiva para los propósitos que se persiguen. Diagrama de Árbol.-
Figura para definir el espacio muestral de experimentos aleatorios de pasos múltiples. Espacio Muestral.-
Lista de todos los resultados básicos de un experimento aleatorio. Factorial.-
Producto de una serie de números enteros positivos que desciende de un número n, hasta 1. Permutaciones.-
Arreglos ordenados distinguibles de artículos, todos los cuales se han sacado de un grupo dado de artículos. Combinaciones.-
Selecciones diferentes de artículos tales que las secuencias alternativas posibles entre los componentes de cualquier selección se consideran inmateriales.
149
UNIVERSIDAD PRIVADA TELESUP
Fuentes de Información BIBLIOGRÁFICAS: Manuel
Córdova
Zamora:
Estadística
Descriptiva
e
Inferencial
Quinta Edición - 2008 – Editorial MOSHERA
Carlos Veliz Capuñay: Estadística Aplicaciones Editorial SCG William J. Stevenson: Estadística Para Administración y Economía Editorial HARLA
Jorge Díaz Portocarrero: Estadística Aplicada, Editorial MEGABYTE - 2006 Lind – Marchal – Mason: Estadística Para Administración y Economía, 11ª Edición - Editorial ALFAOMEGA – 2008
Máximo Mitacc: Tópicos de Estadísticas Descriptiva y Probabilidad Editorial San Marcos.
ELECTRÓNICAS: ESTADÍSTICA DESCRIPTIVA: CONTENIDOS BASICOS http://es.wikipedia.org/wiki/Estad%C3%ADstica_descriptiva http://tarwi.lamolina.edu.pe/~arrubio/Parte%202.pdf http://thales.cica.es/rd/Recursos/rd98/Matematicas/01/texto2.html
VIDEOS ESTADÍSTICA DESCRIPTIVA BASICA EN EXCEL http://www.youtube.com/watch?v=q3LR_CfGvS4
GRÁFICAS EN EXCEL 2007
http://www.youtube.com/watch?v=8FnlqDxCtuM&feature=related
ESTADÍSTICA DESCRIPTIVA I - GRAFICOS ESTADÍSTICOS http://www.youtube.com/watch?v=j120LUI4k7g
MEDIA , MEDIANA Y MODA http://www.youtube.com/watch?v=M16y6jUKnAU&feature=related
150
View more...
Comments