Manual de Estadística General.pdf
Short Description
Download Manual de Estadística General.pdf...
Description
MANUAL DE
ESTADÍSTICA GENERAL
Jorge Córdova Egocheaga
Manual de Estadística General © Jorge Córdova Egocheaga 1ra Edición: Marzo del 2003
SOBRE EL AUTOR Estudios Doctorales en Ciencias Administrativas (UNFV), Maître en Administration des Affaires (MBA-UQAM, Canadá), Magíster en Administración (ESAN), Magíster Scientiae (MSc) en Economía (UNA), Especialista en Formulación y Evaluación de Proyectos de Inversión (UNMSM), Profesor de Estadística en la Maestría en Administración de la Universidad de San Martín de Porres, Docente de Estadística y de Informática Aplicada en el área de Salud en la Escuela Universitaria de Post Grado de la Universidad Nacional Federico Villarreal, Profesor Principal y Jefe de la División de Evaluación y Estadísticas de la Escuela de Sanidad Naval de la Marina de Guerra del Perú, Profesor de Estadística y Métodos Cuantitativos para los Negocios en el MBA de la Universidad San Ignacio de Loyola, Consultor y Expositor Independiente. Director Ejecutivo del Centro de Capacitación y Asesoría de Negocios, CECAN.
Los derechos intelectuales de esta obra son de propiedad exclusiva de Jorge Córdova Egocheaga. Toda reproducción total o parcial del contenido de esta obra requerirá la autorización del propietario de los derechos intelectuales.
CAPÍTULO
1
INTRODUCCIÓN “El pensamiento estadístico algún día será tan necesario para la ciudadanía como la capacidad de leer y escribir...” H.G.Wells hace mas de 100 años
OBJETIVOS Al finalizar el Capítulo 1, el participante será capaz de: 1. 2. 3. 4. 5. 6. 7. 8.
Comprender los áreas de aplicación de la Estadística dentro de las Gestión de la Salud. Comprender el pensamiento estadístico Identificar las etapas de la investigación científica Definir las etapas del trabajo estadístico. Identificar los diversos tipos de datos. Diferenciar población y muestra. Distinguir parámetro y estimador. Diferenciar estadística descriptiva y estadística inferencial.
Manual de Estadística General
1.1 SITUACIONES ESTADÍSTICA
EN
LAS
QUE
SE
UTILIZA
LA
Ejemplos Varias veces durante el día una enfermera toma la temperatura a los pacientes en el Servicio de Emergencia de un Centro Hospitalario local. Un investigador médico examina los efectos de un agente cancerígeno en las ratas. Tres semanas después de inyectado el agente en una rata, el investigador realiza una intervención quirúrgica para extraer y pesar los tumores. El Director de un Hospital registra el tiempo de recuperación por tratamiento. El Director de un Hospital cuenta el número de camas a fin de medir la tasa de ocupabilidad. Un investigador médico está interesado en conocer la relación entre el sexo y el riesgo de infarto. El Jefe de Almacén de una Clínica revisa unos cuantos frascos del lote de vacunas que acaba de llegar, y verifica su fecha de expiración. El médico responsable del Laboratorio Clínico del Hospital, extrae una muestra de sangre a fin de determinar el nivel de colesterol del paciente. 1.2 EL PENSAMIENTO ESTADÍSTICO El profesional de la gestión de la salud debe de preocuparse permanentemente en registrar información sobre las características que le permitan conocer los factores que inciden en la variabilidad del servicio y así estar en condiciones de implementar acciones dirigidas a mejorar la calidad del servicio que ofrece. Debe medir • • 4
Las quejas en el Servicio de Emergencia, Las devoluciones por día en una farmacia,
Jorge Córdova Egocheaga
• •
Las demoras en la atención en una clínica o Las placas radiológicas reprocesadas en un hospital, y compararlos con los indicadores de gestión o estándares internacionales, y así determinar la calidad del servicio.
La implementación del pensamiento estadístico tiene tres fases: Identificar los factores de variabilidad. Conocer (o medir) la variabilidad. Manejar (o controlar) la variabilidad
1.3 LA INVESTIGACIÓN CIENTÍFICA 1.3.1 ¿Qué es la investigación científica? Es la búsqueda sistematizada y objetiva de nuevos conocimientos. Investigar es un proceso de buscar, indagar o pesquisar. El método científico, comprende la realizar a investigación en forma sistematizada y objetiva, organizada y coherente. 1.3.2 Etapas de la investigación científica A. Planificación: Elaboración del proyecto. Abarca una descripción detallada y fundamentada de cada una de las actividades a desarrollarse en la investigación. B. Ejecución: Es la etapa en la cual se lleva a cabo al investigación. Recolección de datos, análisis e interpretación.
5
Manual de Estadística General
C. Informe: Escrito donde se presentan los hallazgos encontrados. 1.4 ESTRUCTURA DE UN PROYECTO DE INVESTIGACIÓN 1.4.1 Definición del problema A. Título B. Antecedentes: Se refiere al nivel actual de conocimientos. La investigación que se planea realizar debe contribuir a elevar el conocimiento que la humanidad tenga de este tema. Si no se conocen los antecedentes, es probable que repita una investigación anterior. Existen antecedentes teóricos (marco teórico) y antecedentes empíricos (resultados). C. Objetivos: Enunciado de los logros alcanzables y evaluables en el estudio. a. ¿Cómo voy a identificar las variables? b. ¿Cómo voy a medir esas variables? c. ¿Qué técnica estadística se utilizará? D. Hipótesis: Enunciado de la relación de la relación entre 2 o más variables. Recomendación: al escribir el título, el problema, objetivos y las hipótesis, se debe referir a lo mismo. 1.4.2 Tipo de estudio Casos y controles
6
Jorge Córdova Egocheaga
1.4.3 Definición del alcance del estudio ¿Qué ámbito abarca el estudio?. Definir el alcance físico, temporal, social, etc. 1.4.4 Diseño estadístico de la muestra A) Tamaño de la muestra B) Procedimiento de selección 1.4.5 Definición de variables y escalas de medición Depende de los objetivos y las hipótesis 1.4.6 Recolección de datos Fuentes primarias y secundarias. Diseñar cuestionario y fichas de observación. 1.4.7 Procesamiento de la información Definir con anticipación los análisis estadísticos que se van a realizar y entre que variables: regresión, hipótesis, entre otros. 1.4.8 Recursos y presupuesto de investigación Qué recursos personales y de materiales se requieren. Cuales son los costos para llevar a cabo la investigación. Cómo se desembolsará (mes a mes) estos gastos. Cómo se financiará. 1.4.9 Cronograma Con ayuda de un Diagrama Gantt o un PERT, para visualizar las diferentes etapas. 1.4.10 Referencias bibliográficas 7
Manual de Estadística General
1.5 PARTES DE UN INFORME FINAL DE INVESTIGACIÓN 1.5.1 Introducción: Título, antecedentes, objetivos, hipótesis 1.5.2 Materiales y métodos 1.5.3 Resultados analíticos: fundamentar diferencias evidenciadas 1.5.4 Discusión de resultados 1.5.5 Conclusiones: en relación con los objetivos de la investigación. 1.6 ¿QUÉ ES ESTADÍSTICA? Es una ciencia que comprende diversas técnicas para : RECOLECTAR
ORGANIZAR
ANALIZAR
INTERPRETAR
DATOS 8
Jorge Córdova Egocheaga
¿Cuándo se RECOLECTAN datos ? Cuando se registran características (medición, observación, conteo). ¿Cuándo se ANALIZAN datos ? Cuando se ordenan para una mejor comprensión y facilitar sus análisis. (tablas, gráficos y figuras) Por ejemplo Tabla de Distribución Edad
N° Pacientes
30 - 34 35 - 39 40 - 44 45 - 49
6 12 8 2
Diagrama Circular
12 10 8 6
Diagrama de Barras
4 2 0 30-34
35-39
40-44
45-49
9
Manual de Estadística General
¿Cuándo se analizan datos? Cuando se calculan promedios, medidas de variabilidad y medidas de la forma de la distribución.Cuando se establecen relaciones entre ellas (regresión y correlación). ¿ Cuándo se INTERPRETAN datos ? Cuando se le otorga un sentido práctico a los resultados obtenidos en el análisis. 1.7 ¿QUÉ SON DATOS? Son los registros de una característica. Ejemplo
Unidad de medida años 27 Edad del paciente Kg. 3,750 Peso del recién nacido días 5 Tiempo permanencia °C 37,5 Temperatura corporal --Enfermera Profesión
Características
Datos
Si un DATO es útil para tomar decisiones se convierte en INFORMACIÓN. Los datos ayudan a los responsables de tomar decisiones a hacer suposiciones coherentes acerca de las CAUSAS y, por tanto, de los EFECTOS probables de ciertas características en situaciones dadas. ¿Por qué necesitamos recolectar datos? Proporcionan la evidencia imprescindible en un estudio de investigación.
10
Jorge Córdova Egocheaga
Permiten medir el desempeño en el proceso de producción de un bien o servicio. Ayudan a la formulación de cursos alternativos de acción en un proceso de toma de decisiones. Satisfacen nuestra curiosidad innata. 1.8 ¿QUÉ TIPOS DE DATOS EXISTEN? Constante Si el registro de la característica toma un sólo valor en todas las unidades elementales. Son muchos datos, pero iguales. Ejemplo: • •
Sexo de las pacientes en el Servicio de Ginecología Especialidad de los integrantes del Colegio Médico del Perú
Las constantes no son interés en Estadística, puesto que ella se ocupa del estudio de la variabilidad de los datos. Variable Si el registro de la característica toma diversos valores en las unidades elementales. Ejemplo: Edad, sexo y peso de los pacientes de una Clínica Una misma característica puede generar constantes ó variables, depende del marco muestral. Los datos variables pueden ser :
11
Manual de Estadística General
1.
Cualitativos : Registro de un atributo. Provienen de una observación. Las operaciones posibles son el cálculo de la tasa porcentual y de proporciones. Pueden ser categorías.
dicotómicas
(sólo
pueden
tener
2
Ejemplo :Estado de salud: sano o enfermo. Sexo de pacientes : masculino y femenino • •
80% son varones (tasa porcentual). 8 de cada 10 pacientes son varones (proporción)
O politómicas (si tienen más de 2 categorías) Ejemplo : Estado civil del paciente: soltero, casado, viudo, divorciado. 2.
Cuantitativos : Registro de una característica a través de un conteo o una medición. Las operaciones posibles son los promedios y las medidas de dispersión, entre otras. Las variables cuantitativas pueden ser continuas o discretas.
–
DISCRETA o DISCONTINUA: Cuando la variable sólo puede tomar determinados valores dentro de una escala de valores. Proviene de un conteo. Ejemplo: Número de consultas en un día. Número de hijos
–
CONTINUA : Cuando la variable puede tomar cualquier valor, dentro de una escala de valores. Provienen de una medición. Ejemplo: Tiempo de duración de una consulta. Peso de la gestante
12
Jorge Córdova Egocheaga
DATOS
CONSTANTES
VARIABLES
CUALITATIVAS
CUANTITATIVAS
DISCRETAS
CONTINUAS
1.9 ¿QUÉ SE PUEDE HACER CON LOS DATOS? Identificar características de interés para la gestión.
Organizarlos en tablas, gráficos y figuras Calcular promedios (media, mediana, moda y percentiles) . Calcular su dispersión (varianza, desviación estándar ) y forma de la curva.
Recolección de datos
Determinar una ecuación que represente la relación entre ellos (regresión) Determinar el grado de asociación entre ellos (correlación).
Utilizar datos para mejorar la calidad
Analizarlos dentro de un horizonte temporal (series cronológicas)
13
Manual de Estadística General
1.10 POBLACIÓN Y MUESTRA Marco Poblacional Conjunto de todas las unidades elementales (personas, procesos o cosas) al que se circunscribe el estudio estadístico. Ejemplos : • • • •
Los médicos cirujanos del mundo. Los trabajadores asegurados en una EPS El proceso de triaje en los Centros de Salud del Estado. Las historias clínicas de un hospital.
MARCO POBLACIONAL(1200 pacientes de un hospital) Población Estadística Registro de una característica EN TODOS los elementos del marco poblacional. Tiene tantos datos como elementos tenga el marco poblacional. Habrán tantas poblaciones como características se deseen registrar en un determinado marco poblacional.
14
Jorge Córdova Egocheaga
MARCO POBLACIONAL (1200 pacientes de un hospital)
Características de interés Edad
Población
Registro de la caracteP1 rística (1200 datos)
Peso
Temperatura corporal
Estado Civil
Población
Población
P2
P3
(1200 datos)
...
Pn
Marco Muestral Subconjunto del marco poblacional. Comprende los elementos o estratos del marco poblacional (es representativo). En contraste con el marco poblacional es más conveniente porque se obtienen los datos en menor tiempo y reduciendo los costos. Ejemplo : 75 pacientes de un hospital.
15
Manual de Estadística General
Marco Poblacional
Marco Muestral
Técnicas de muestreo
(75 pacientes de un hospital)
(1200 pacientes de un hospital) Característica Edad
Peso
Registro de la POBLACIÓN característica. P1
Temp. Corpor.
Estado civil
POBLACIÓN
P2
POBLACIÓN
P3
POBLACIÓN
...
Pn
Muestra Registro de una característica en todos los elementos del marco muestral. Tiene tantos datos como elementos el marco muestral. Habrán tantas muestras como características se deseen registrar en un marco muestral. Las muestras no extraen de la población, sino del marco muestral
16
Jorge Córdova Egocheaga
MARCO POBLACIONAL (1200 pacientes de un hospital)
MARCO MUESTRAL
Técnicas de muestreo
(75 pacientes de un hospital)
Característica Edad
Peso
Estado civil
Temp. corporal
Edad
Peso
MUESTRA
MUESTRA
m1
m2
Estado civil
MUESTRA
m3
MUESTRA
mn
75 datos
Registro de la POBLACIÓN característica.
POBLACIÓN
P1
P2
POBLACIÓN
P3
POBLACIÓN
...
Pn
1.11 PARÁMETRO Y ESTIMADOR Valor representativo de una población. Se simboliza por letras griegas. Sólo hay un parámetro en cada población. µ : Media poblacional (mu)
σ2
:
V arianza poblacional (sigma cuadrado)
σ : Desviación estándar poblacional (sigma) π : Proporción poblacional (pi) ρ : Coeficiente de correlación poblacional (rho)
Estimador Valor representativo de una muestra. Se llama también estadígrafo o estadístico. Se simboliza por letras latinas. Existen tantos estimadores como muestras se extraigan de una población.
17
Manual de Estadística General
Media muestral.
s
2
Varianza muestra.
s p
Desviación estándar muestral.
r
Coeficiente de correlación muestral
Proporción muestral
n1
n2
POBLACIÓN
x1 x2
n3
x3
. .
. .
nm
xm
PARÁMETRO DIFERENTES MUESTRAS GENERAN DIFERENTES VALORES DEL ESTIMADOR
1.12 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Estadística Descriptiva Técnicas que permiten describir un conjunto de datos. El análisis se limita a esos datos (sean muestrales o poblacionales). Tiene como objetivo presentar los datos obtenidos en forma resumida, clara y comprensible.
18
Jorge Córdova Egocheaga
Estadística Inferencial Técnicas que permiten estimar un parámetro a partir de datos muestrales.
POBLACIÓN
Muestra
Estimador
Parámetro Estadística Descriptiva d as nic c é T
POBLACIÓN
Parámetro
: µ -µ
MUESTRA
ue eM
Estimador :
x
o stre
Estadística Inferencial
= Error de muestreo
Ejemplos sobre muestra y estimador Suponga que estamos interesados en conocer la duración de la evaluación en el Servicio de Psiquiatría de las Clínicas de Lima. El INPE esta interesado en la relación existente entre la criminalidad y los hogares destruidos. Un psicólogo mide la característica en de 50 procesados. Supóngase que el equipo de investigación, desea determinar la proporción de fumadores en la ciudad de Lima para
19
Manual de Estadística General
determinar los factores de riesgo e incidencia de cáncer pulmonar. 1.13 EJERCICIO APLICATIVO El Director de Personal de la Clínica “Santa Lucía” desea estimar la tardanza mensual promedio del personal que labora en esta clínica. Con este fin elige al azar la Tarjeta de Control de Asistencia del último mes de 10 trabajadores. En uno de las tarjetas seleccionadas se registró 140 minutos de tardanza. En esta situación, identifique: La característica
: Tiempo de tardanza mensual
La unidad elemental : Un trabajador de la clínica
(o unidad de análisis)
El marco poblacional: Todo el personal que labora en esa clínica La población : Registro de tiempo de tardanza mensual de todo el personal que labora en esta clínica El marco muestral
: Diez trabajadores
La muestra
: Registro del tiempo de tardanza de cada uno de los trabajadores seleccionado
Tipo de dato
: Variable cuantitativa continua
Un dato registrado
: 140
La unidad de medida: minutos
20
El estimador
: El tiempo medio de tardanza de los 10 trabajadores x
El parámetro
: El tiempo medio de tardanza de todos los trabajadores de la clínica (µ)
Jorge Córdova Egocheaga
Ejercicio 1 El Director de un Hospital sabe que en lo que va del año, fueron dados de alta 1000 pacientes hospitaliza-dos y desea conocer el tiempo medio de permanencia en el hospital. Para ello selecciona al azar la historia clínica de 100 pacientes. Una de las historias permitió conocer que cierto paciente había permanecido 6 días hospitalizado. En esta situación identifique los siguientes términos (no se pide la definición): Característica. Unidad elemental. Marco poblacional Población. Marco muestral. Tipo de muestreo. Un dato. Unidad de medida. Un estimador. Un parámetro
21
Manual de Estadística General
22
CAPÍTULO
2 1
RECOLECCIÓN DE DATOS Los datos no se recopilan como un fin en sí mismos, sino como un medio para describir los hechos que están tras los datos
OBJETIVOS 1. 2. 3. 4. 5. 6.
Recopilar datos. Identificar la escala adecuada para cada característica a recopilar. Redondear datos cuantitativos. Diferenciar métodos y técnicas de recolección de datos. Elaborar una encuesta Elaborar una hojas de registro.
Manual de Estadística General
2.1 ¿CÓMO SE RECOPILAN DATOS? Las buenas decisiones se basan en un adecuado registro de datos, para lo cual se debe: A.
ESTABLECER OBJETIVOS CLAROS En control de la calidad, los objetivos son: Control del proceso de producción Análisis de lo que no se ajusta a las normas o estándares. Inspección o auditoria. Permite determinar qué tipo de datos se requiere.
B. DETERMINAR EL TIPO DE DATO Datos para el control: se toman periódicamente para conocer la variación diaria dentro de un proceso; es decir, para verificar su estado de control (estabilidad). Ejemplo: Número de pacientes diarios en consultorios externos por especialidad. Datos para el análisis: se registran para conocer situación actual de nuestro proceso.
la
Ejemplo: la tasa de prescripciones que no están disponibles en la farmacia del hospital. Dato para la inspección: se recopilan al recibir o entregar un material. Son datos que sirven para verificar si el producto cumple con las especificaciones. Ejemplo: fecha de expiración de un lote medicamentos, antes de su ingreso a almacén.
24
de
Jorge Córdova Egocheaga
C.
CONSIDERAR REGISTROS
LA
CONFIABILIDAD
DE
LOS
Tener en cuenta la adecuada calibración de los instrumentos de medición y la variabilidad en inspecciones visuales. D.
SELECCIONAR FORMAS RECOLECTAR DATOS.
APROPIADAS
DE
I.
Se debe registrar adecuadamente el origen de datos (el día, la hora, quiénes fueron los responsables, qué lote se uso, entre otros).
II.
Los datos deben registrarse de manera que facilite su utilización (hojas de registro).
2.2 ESCALAS DE MEDICIÓN ESCALA NOMINAL: Los valores son nominativos, sirven para designar. Sólo se puede realizar un conteo (frecuencias). No es factible las operaciones aritméticas. Se analizan a través de la comparación: igualdad y no igualdad ( = y ≠). Ejemplo Sexo del paciente Grupo sanguíneo Servicio médico
1: Masculino 2: Femenino A B AB O 1: Emergencia 2: Ginecología 3: Traumatología 4: Pediatría
ESCALA ORDINAL: Los valores representan un orden. No son cuantitativos, sólo simbolizan una posición. Se analizan a través de la desigualdad :mayor que o menor que (> y B 1º , 2º , 3º 1º > 2º leve, moderado, intenso
ESCALA DE INTERVALOS: Se utilizan números cardinales. El cero es relativo o diferencial, es decir no indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas.(+ y -). Es una escala creada por el hombre. Ejemplo: Hora Temperatura ambiental El año en que vivimos
00:00 0 ºC 2003
ESCALA DE RAZÓN: Se utilizan números cardinales. Tienen unidad de medida (cms, pulgadas). El cero es absoluto, indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas (+,-,x ,÷), Ejemplo: Pacientes no atendidos hoy : Nº de hijos en edad de vacunación : Procesos deficientes :
0 0 0
2.3 REDONDEO DE DATOS Durante el análisis, muchas veces se divide un número por otro obteniéndose en algunas ocasiones, un número infinito de decimales.
26
Jorge Córdova Egocheaga
Con el objeto de hacer más operativo el manejo de estos datos se redondean. Para “cortar” o redondear, se siguen las siguientes reglas. 1ra REGLA: Para la respuesta final, debemos redondear hasta dos lugares más de lo que había en los datos originales. No se debe redondear en los pasos intermedios. Ejemplo :
datos originales : enteros resultado final : 2 decimales.
2º REGLA: Si la cifra que sigue es mayor a 5, se aumenta 1. Si la cifra que sigue es menor a 5, el número no varía. Ejemplo: Redondeo a 2 decimales 6,176 ……. 6,18 4,123 ……. 4,12 3º REGLA: Si la cifra que sigue es 5 y el número anterior es par no se modifica. Pero si el número es impar, aumenta 1. Ejemplo: Redondeo a 2 decimales 6,545 ……. 6,54 1,975 ……. 1,98
27
Manual de Estadística General
2.4 FUENTES DE DATOS A) FUENTES SECUNDARIAS Datos recolectados anteriormente para alcanzar otros objetivos. Constituye la primera fuente que se debe analizar. La técnica más utilizada son las fichas. Ejemplo: Datos publicados (en papel o en forma electrónica) en revistas especializadas, tesis, censos y en las hojas de registro anteriores. La calidad de los datos debe ser comprobada: ¿De donde provienen los datos? ¿La fuente es imparcial? ¿Los datos comprueban o contradicen otras evidencias que se disponen? ¿Hace falta una evidencia cuya ausencia conduzca a otra conclusión? ¿Cuantas observaciones se tienen? ¿La conclusión que obtengo es lógica? Los principales organismos publicaciones son: 1. 2. 3. 4.
que
disponen
de
Instituto Nacional de Estadística e Informática (INEI) Organización Mundial del Trabajo (OIT) Organización Mundial de la Salud (OMS) Organización Panamericana de la Salud (OPS)
B) FUENTES PRIMARIAS 1. 2. 28
Constituyen datos recolectados para el trabajo. Son datos que no existían antes. Se registran bajo dos métodos: directo e indirecto
Jorge Córdova Egocheaga
2.5 MÉTODOS Y TÉCNICAS DE RECOLECCIÓN DE DATOS A) MÉTODOS DIRECTOS El responsable registra personalmente los valores de la característica. Ejemplo: registro del tiempo que demora un médico durante una consulta. Comprende 2 técnicas. (a) La observación 1. 2.
3
Se registra el dato bajo condiciones normales Cuando se mide el desempeño, la persona observada no debe saber que es sujeta de observación Se utiliza una hoja de registro.
Ejemplo La observación del desempeño de una enfermera durante sus labores en el Servicio de Emergencia. (b) La experimentación Se registra un dato bajo condiciones provocadas simulando el proceso lo más real posible. Ejemplo: Un mercado prueba para introducir un tipo jabón de antiséptico con fragancia . B) MÉTODOS INDIRECTOS 1 2.
Se registra la característica a través de preguntas No se realiza medición
29
Manual de Estadística General
Ejemplo: Se pregunta a un paciente el tiempo que esperó antes que sea atendido en el consultorio externo. Comprende 2 técnicas: la encuesta y la entrevista. (a) La encuesta 1. 2.
Cuestionario de preguntas abiertas o cerradas Al diseñarla se debe: • Elegir lo temas generales de la encuesta • Decidir forma de aplicarlo: correo, teléfono o personal • Plantear preguntas • Realizar una prueba piloto y hacer revisiones finales
Ejemplo: Encuesta para conocer el grado de satisfacción de los asegurados a una clínica. (b) La entrevista 1. Permite recolectar datos o partir de un dialogo 2. Puede se estructurada o no estructurada •Ejemplo: Entrevista al Director de una Clínica sobre la aplicación de norma de calidad. METODOS Y TÉCNICAS DE RECOLECCION DE DATOS FUENTE METODOS SECUNDARIA PRIMARIA
30
TECNICAS
FICHAS DIRECTO OBSERVACION EXPERIMENTACION INDIRECTO ENCUESTA ENTREVISTA
Jorge Córdova Egocheaga
¿Cómo seleccionar la fuente, el método y la técnica? No toda la información requerida será recopilada de una sola fuente, ni usando un mismo método y técnica. Casi siempre es una combinación de ellos, para lo cual hay que: Definir características que interesan registrar. Identificar la fuente de información apropiada característica.
para
cada
Seleccionar la técnica más conveniente. En un estudio de investigación de mercados para pañales desechables, interesa conocer ciertas características, CARACTERISTICA Tasa de natalidad Nivel socio-económico de la familia Textura del producto
FUENTE Secundaria Primaria Primaria
TECNICA Fichas Encuesta Entrevista
2.6 EL CUESTIONARIO Consiste en un conjunto de preguntas diseñadas de acuerdo a la necesidad de información. Junto con las hojas de registro, es la técnica más común para la recopilación de datos de fuentes primarias. Recomendaciones para su elaboración Las preguntas deben ser coherentes con el objetivo de la investigación. No hay preguntas de carácter general. La extensión (número de preguntas) depende de la necesidad de información a recolectar por esta técnica.
31
Manual de Estadística General
El lenguaje utilizado en la redacción de preguntas debe ser entendible por los encuestados. Es diferente al lenguaje a usarse en el informe final Debe evitarse la ambigüedad. Ejemplo: En un estudio para determinar el grado de asociación entre la incidencia a cáncer pulmonar y el hábito a fumar, se hizo la siguiente pregunta: ¿Fuma usted?
Si 1
No 2
No formular preguntas dirigidas. Evitar adjetivos, ya que predisponen a una respuesta. Ejemplo: ¿Cree Ud. que el precio del medicamento es alto? Si 1 No 2 Preguntas cerradas y abiertas –
Preguntas cerradas Las posibles respuestas se presentan como alternativas. Facilita la codificación y operatividad de los datos. Ejemplo : ¿Posee Ud. un seguro médico? Si 1 No 2
–
Preguntas abiertas Los encuestados tienen libertad para emitir su opinión. Se utilizan cuando no se tiene precisión sobre las posibles respuestas. Dificulta la recolección de datos (incomoda al encuestado). Dificulta la interpretación de datos.
32
Jorge Córdova Egocheaga
Ejemplo: ¿Qué opinión tiene sobre la política de salud del actual Gobierno ? 2.7 LA ELABORACIÓN DE DATOS: EL CONTROL DE CALIDAD Una vez que se han recolectado los datos referidos a las diferentes variables necesarias para la investigación, se debe proceder a revisarla y presentarla de manera que facilite su análisis. A este proceso se denomina elaboración de datos. Las etapas que abarca son: edición, tabulación codificación. A)
y
La edición: Se revisan los formularios (cuestionario y fichas de observación) para verificar si todas las preguntas han sido respondidas en todos los ellos. Se debe verificar incongruencias en de las respuestas. a)
Reencuestar: Si no se respondieron todas las preguntas y es posible identificar al encuestado (por ejemplo, se tiene su dirección), se podría regresar y formular aquellas preguntas que se obviaron.
b)
Anular la pregunta: Si una pregunta es dejada de contestar en muchos cuestionarios, sería recomendable anular esa pregunta y buscar la forma de conseguir el dato por otra fuente. Probablemente, la pregunta fue mal formulada.
c)
Anular el formulario: Si una encuesta o la ficha de observación tiene demasiadas preguntas en blanco, se anulará todo el cuestionario. Es posible que no se contara con la colaboración apropiada del encuestado o tal vez no se aplicó correctamente.
33
Manual de Estadística General
B.
La tabulación: Consiste en etiquetar o titular con pocas palabras, las respuestas a preguntas abiertas. Para homogenizar el criterio, es recomendable que una persona se encargue de este proceso. Si fueran muchos formularios y varias preguntas abiertas, podrían ser varias personas que tabulen, pero necesariamente solo una persona por pregunta.
C. La codificación: Consiste en colocar un código a las respuestas, a fin de poder construir una base de datos. 2.8 LAS HOJAS DE REGISTRO (O CHECK LIST) Son formatos preimpresos que facilitan el registro y la organización de cualquier tipo de datos. Puede ser: Para registro: Se anota sistemáticamente la información. Ejemplo: Tarjeta de Registro de Asistencia del personal que labora en una Clínica Para verificación: Se anota información en determinado tiempo, que debe cotejarse con la realidad. Ejemplo: Registro de las recetas no atendidas por semana. EJEMPLO 1: Hoja de registro proceso de producción
para
la
distribución
La medida optima es 8.300 Se acepta una variabilidad máxima ± 0,008 Se registra cada uno de los 55 productos elaborados un día, colocando una x en la casilla correspondiente. Se construye simultáneamente el histograma.
del
en
Caso: Hoja de registro para ver la distribución en un proceso de producción. 34
Jorge Córdova Egocheaga
EJEMPLO 2: Hoja de registro de ítems defectuosos Permiten identificar el tipo de defecto más frecuente. Un producto puede presentar más de un defecto. Es necesario tipificar con antelación los defectos posibles. Caso: Hoja de registro de inspección final de cierto producto plástico moldeado.
35
Manual de Estadística General
EJEMPLO 3 Hoja de registro de las causas del defecto Permite una estratificación adicional con el fin de encontrar las causas de los defectos. Caso: Hoja de registros de ocurrencias de los defectos en ciertos accesorios utilizados en la elaboración de prótesis dental, asignables a maquinaria, trabajadores, día y tipo de defecto.
36
Jorge Córdova Egocheaga
37
Manual de Estadística General
38
CAPÍTULO
3
ORGANIZACIÓN TABULAR DE DATOS
OBJETIVOS Al finalizar el Capítulo 3, el participante será capaz de: 1. 2. 3. 4.
Organizar datos a través de una clasificación ordenada de datos. Organizar datos a través de un diagrama tallo-hojas. Elaborar una tabla de distribución de frecuencias para datos univariados Elaborar una tabla de distribución de frecuencias para datos bivariados.
Manual de Estadística General
3.1 LA IMPORTANCIA DE LA ORGANIZACIÓN DE LOS DATOS Los datos deben organizarse, para entender mejor su naturaleza fundamentalmente utilizando dos métodos : el método tabular y el método gráfico. Si los datos no están organizados son de poca utilidad en una investigación o para una toma de decisiones. Ejemplo Los niveles altos de colesterol en suero, han sido por mucho tiempo asociados con el incremento del riesgo de enfermedades cardiovasculares. Se han efectuado numerosos estudios en un esfuerzo por lograr una mayor comprensión de la naturaleza de esta asociación. Se muestra a continuación las concentraciones de colesterol en suero que fueron recolectadas a una población de 480 individuos aparentemente sanos. ¿A qué conclusión llega?
40
Jorge Córdova Egocheaga 231
199
236
259
183
269
191
260
197
159
227
245
214
275
186
234
262
230
212
163
220
202
221
223
243
203
180
292
198
201
174
223
186
200
192
236
186
188
234
230
170
304
197
216
214
189
138
269
197
222
202
213
163
241
218
242
197
248
228
154
218
243
192
191
243
230
248
231
262
177
207
276
230
238
189
212
200
179
249
225
223
289
280
235
220
194
205
206
194
232
222
209
209
248
194
192
200
261
238
233
222
223
267
263
159
243
230
193
195
259
186
229
184
215
254
233
229
263
163
212
271
216
230
252
218
265
218
155
222
173
228
214
266
172
203
262
213
249
244
177
242
180
241
261
221
222
189
204
229
212
192
257
248
243
190
166
216
197
250
224
257
220
255
241
245
212
225
201
209
155
249
253
265
225
192
212
212
174
184
227
216
250
248
187
222
195
247
161
188
229
194
209
250
180
228
196
254
208
265
234
219
203
230
232
212
236
191
161
258
252
169
249
231
170
233
161
189
191
209
229
246
274
215
215
206
218
234
248
222
175
202
154
249
189
171
263
238
177
261
265
224
249
252
220
199
239
221
221
221
232
218
239
205
196
211
221
276
251
189
286
258
227
236
167
184
245
243
218
173
220
231
196
196
200
221
217
270
261
248
254
232
231
219
225
265
222
226
208
219
189
226
292
192
172
186
264
211
240
237
156
228
241
171
223
185
199
188
263
208
199
259
272
202
214
201
231
210
223
210
209
239
203
212
295
202
195
218
218
253
239
272
216
221
208
225
175
239
191
214
215
227
221
208
224
208
181
187
179
234
262
216
221
152
180
193
244
184
183
226
266
242
220
266
269
223
198
204
179
209
215
222
196
228
195
160
261
177
232
224
203
265
238
247
225
169
172
187
199
245
183
171
246
187
222
278
212
250
174
220
188
223
241
200
193
226
243
206
142
277
244
210
258
207
267
254
136
231
253
229
240
204
187
202
209
238
240
190
253
203
271
281
226
244
182
146
251
277
184
240
239
185
201
259
234
174
226
246
222
205
211
216
230
220
201
231
183
214
219
206
276
215
195
209
258
287
182
176
275
204
183
212
237
249
142
256
258
213
208
202
244
Al observar a un conjunto de datos, deseamos identificar a las principales propiedades que definen a este conjunto. Lamentablemente, no se puede obtener alguna conclusión válida. Los datos tal como se presentan no nos permiten afirmar algo sobre ellos. Para lograr identificar las principales medidas y propiedades de este conjunto de datos, tenemos que organizar previamente al conjunto de datos. 3.2 ELEMENTOS DE LA ORGANIZACIÓN TABULAR Consiste en una presentación resumida de la información usando tablas o cuadros Ejemplo: Supongamos que en una entrevista a pacientes del lo que se busca evaluar son 2 aspectos:
41
Manual de Estadística General
- La opinión sobre la calidad de atención - Nivel de instrucción de la paciente Como son dos variables categóricas, la presentación de los datos podría realizarse en una tabla cruzada:
NIVEL
OPINIÓN
EDUCATIVO Favorable Desfavorable
TOTAL
Analfabeta
8
2
10
Primaria
15
5
20
Secundaria
23
7
30
Superior
12
3
15
TOTAL
58
17
75
3.2.1 Ventajas Se pueden apreciar propiedades de los datos. Permite establecer asociaciones entre variables Se ahorra espacio en un informe escrito. 3.2.2 Elementos: A. El Título: enunciado breve e informativo acerca del contenido del cuadro. Un buen título debe responder a las siguientes interrogantes: 1. ¿Qué contiene la tabla? Ej.: La opinión de 75 pacientes sobre calidad de atención. 2. ¿Cómo estamos presentando el contenido? Ej.: Por nivel educativo de las pacientes
42
Jorge Córdova Egocheaga
3. ¿De dónde se obtuvieron los datos? Ej.: Del servicio de Ginecología del Hospital Santa Rosa. Lima. 4. ¿Cuándo se obtuvo la información? Ej.: (fecha de la recolección de los datos) Un buen título podría ser: Opinión de 75 pacientes por nivel educativo sobre la calidad de atención en el Servicio de Ginecología del HOSPITAL SANTA ROSA. Lima, enero del 2003. B. La Matriz: Está constituido por el primer renglón y la primera columna, en donde se describen los nombres de las categorías (en datos categóricos) o los intervalos de clases (en datos cuantitativos), tan conciso como sea posible.
Ejemplo NIVEL DE INSTRUCCIÓN
OPINIÓN Favorable
TOTAL
Desfavorable
Analfabeta
Para datos categóricos
Primaria Secundaria Superior TOTAL
EDAD
N° de pacientes
Tasa porcentual :%
(en años)
(fi)
(hi)
39 - 46 47 - 54 55 - 62 63 - 70 71 - 78 Total
C. El cuerpo: Está conformado por espacios y constituyen intersecciones de filas y columnas, que a veces se denominan celdas, y donde se anotan
43
Manual de Estadística General
las frecuencias absolutas y relativas obtenidas en la tabulación, incluyendo totales y subtotales. Por ejemplo OPINIÓN
NIVEL EDUCATIVO
TOTAL
Favorable
Desfavorable
Analfabeta
8
2
10
Primaria
15
5
20
Secundaria
23
7
30
Superior
12
3
15
TOTAL
58
17
75
D. Notas aclaratorias: Están constituidas por toda aquella información adicional que es necesaria para describir e interpretar adecuadamente el contenido de la tabla o cuadro. Es muy importante cuando se trata de datos proveniente de fuente secundaria. Es un aspecto ético precisar de donde provienen los datos, a la vez que nos liberamos de la responsabilidad de responder por su calidad. Se escribe con letra más pequeña.
44
Jorge Córdova Egocheaga
Tabla 1: Opinión de 75 pacientes por nivel educativo sobre la calidad de atención en el Servicio de Ginecología del HOSPITAL SANTA ROSA. Lima, enero del 2003.
OPINIÓN
NIVEL
EDUCATIVO Favorable Desfavorable Analfabeta 8 2
TOTAL 10
Primaria
15
5
20
Secundaria
23
7
30
Superior
12
3
15
TOTAL
58
17
75
Fuente: Hospital San Rosa. Dirección de Procesos. Enero 2003.
La presentación tabular de datos pueden realizarse bajo tres formas, desde la más elemental se tiene: - Clasificación ordenada de datos. - Diagrama de tallos y hojas - Tablas de distribución de frecuencias. 3.2 CLASIFICACIÓN ORDENADA DE DATOS Si ordenamos los datos sin procesar, de la observación más pequeña a la más grande, la secuencia ordenada obtenida, se denomina clasificación ordenada. Ejemplo: en un estudio del crecimiento de varones, se obtuvieron estas observaciones sobre el perímetro cefálico (en centímetros) de un niño al nacer: 33.1 34.6 34.2 36.1 34.2 35.6 34.5 35.8 34.5 34.2 34.3 35.1 35.2 33.7 36.0 34.2 34.7 34.6 34.3 33.4 34.9 33.8 33.6 35.3 35.2 34.6 33.7 34.8 33.9 34.7 35.1 34.2 36.5 34.1 34.0
Ordenando los datos de manera ascendente, tenemos:
45
Manual de Estadística General 33.1 33.4 33.6
33.7 33.7 33.8
33.9 34.0 34.1
34.2 34.2 34.2
34.2 34.2 34.3
34.3 34.5 34.5
34.6 34.6 34.6
34.7 34.7 34.8
34.9 35.1 35.1
35.2 35.2 35.3
35.6 35.8 36.0
36.1 36.5
¿Cuáles son las principales propiedades que se observa en este conjunto de datos? Las principales propiedades que se observan conjunto de datos son:
en este
El número de datos es de 35. La menor observación es de 33,1 cms. La mayor observación es de 36,5 cms. El rango de los valores observados es de 3,5 cms. =(36,5 – 33,1)+ 0,1 cms. El 51,43% (18 niños) de los datos están alrededor de 34 cms. Son muy pocos frecuentes los niños con perímetro cefálico mayor a 36 cms. (sólo 3 niños). Mientras mayor sea el número de observaciones presentes en una serie de datos, mas laborioso es realizar la clasificación ordenada de los datos. 3.3 DIAGRAMA DE TALLO Y HOJAS Un diagrama de tallo y hojas consiste en una serie de hileras horizontales de números. El número utilizado para designar una hilera es un tallo, el resto de números de la hilera se denominan hojas. Esta técnica funciona bien, cuando el conjunto de datos no tiene una gran dispersión Se pueden considerar el siguiente proceso: Elija algunos números adecuados que puedan servir de tallo. Se requieren como mínimo 5 tallos. Los tallos elegidos
46
Jorge Córdova Egocheaga
generalmente son el primer o los dos primeros dígitos de los datos. Nombre las hileras mediante los tallos elegidos. Organice gráficamente los datos registrando el dígito, siguiendo el tallo. Trazar una curva a lo largo de la parte superior del diagrama. Determinar las principales características. Ejemplo: Con los datos anteriores sobre el perímetro cefálico, construir un diagrama tallo-hoja. 33.1 34.6 34.2 36.1 34.2 35.6 34.5 35.8 34.5 34.2 34.3 35.1 35.2 33.7 36.0 34.2 34.7 34.6 34.3 33.4 34.9 33.8 33.6 35.3 35.2 34.6 33.7 34.8 33.9 34.7 35.1 34.2 36.5 34.1 34.0
Dato menor: 33,1 Dato mayor: 36,5 Tallos posibles: 33, 34, 35 y 36Sólo existen 4 tallos, debiendo ser el mínimo 5 tallos, entonces los tallos propuestos se desdoblan, de la siguiente manera: 33 (del 33,0 al 33,4) 33 (del 33,5 al 33,9) 34 (del 34,0 al 34,4) 34 (del 34,5 al 34,9) 35 (del 35,0 al 35,4) 35 (del 35,5 al 35,9) 36 (del 36,0 al 36,4) 36 (del 36,5 al 36,9)
47
Manual de Estadística General
Luego clasificamos los datos en función al valor del decimal.
33
1 4
33
7
7
9
8 6
34
2 2
2
3
2 2
1
3
0
34
6
6
8
7 6 7
5
5
9
35
2 2
1
1
35
6
8
36
0
1
36
5
25 datos
3 10 datos
Finalmente, se traza una línea por el borde, a fin de delimitar la forma de la distribución. ¿Qué características se observan?. Las principales propiedades de los datos : - Son 35 casos. - La menor observación es de 33,1 cms. - La mayor observación es de 36,5 cms. - El rango de los valores observados es de 3.5 cms. (36,5 – 33,1 + 0.1 cms.) - El 51,43% (18 casos) de los datos están alrededor de los 34 cms. - Son muy poco frecuentes los casos mayores a 36 cms (3 casos) y menores a 33,5 cms (2 casos). - La distribución de datos está sesgada a la derecha (sesgo positivo), es decir, hay una mayor concentración de datos a la izquierda.
48
Jorge Córdova Egocheaga
Ejercicio Se realiza un estudio para ayudar a comprender el efecto de fumar en los patrones de sueño. La variable es el tiempo que tarda en quedarse dormido. La muestras de fumadores y no fumadores producen estas observaciones : FUMADORES 17,2 16,2 19,8 21,2 21,1 21,8 19,5
19,7 19,9 22,9 18,9 16,9 22,1 18,8
18,1 19,8 20,0 22,1 23,0 21,0 19,2
15,1 23,6 24,1 20,6 20,1 20,5 22,4
NO FUMADORES 18,3 24,9 25,0 23,3 17,5 20,4 19,3
17,6 20,1 21,4 20,2 21,3 20,7 17,4
15,1 16,8 22,8 25,8 24,3 23,2 15,7
20,5 21,2 22,4 24,1 25,7 25,1 15,3
17,7 18,1 19,4 15,0 15,2 16,1 19,9
21,3 22,1 25,2 24,1 18,0 17,2 23,1
16,0 15,9 18,3 21,6 23,8 24,9 23,0
24,8 25,2 25,0 16,3 17,9 19,9 15,1
Construya un diagrama tallo-hoja para cada uno de estos conjuntos de datos. Utilice los valores enteros del 15 al 25 (inclusive) como tallos. ¿Se sorprendería si alguien le dijera que no existe diferencia en la distribución de esta variable en los dos grupos?. Explique. 3.4 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Pueden ser simples o cruzadas A)
Tablas simples 1 2 3. 4.
Se utilizan para presentar una sola variable. Pueden representar datos cualitativos o cuantitativos. Presentan por lo menos dos columnas: categoría o clase y el número de datos o frecuencia de clase. Puede incluirse una columna de tasa porcentual.
Para datos cualitativos se siguen los pasos siguientes:
49
Manual de Estadística General
(1º) Identificar diferentes categorías. (2º) Realizar un conteo. (3º) Elaborar la tabla: titulo, cuerpo y fuente. Ejemplo Con la finalidad de mejorar la calidad del servicio de emergencia en una clínica local, se ha formulado la siguiente pregunta a 45 pacientes atendidos durante una semana: “¿Cómo califica la calidad de la atención que Ud, acaba de recibir en este Servicio de Emergencia: muy bueno, bueno, aceptable, malo o muy malo” Los datos recolectados se presentan a continuación: Muy bueno
Aceptable
Aceptable
Muy bueno
Bueno
Bueno
Bueno
Muy malo
Bueno
Bueno
Aceptable
Bueno
Aceptable
Malo
Muy bueno
Malo
Aceptable
Muy malo
Aceptable
Malo
Aceptable
Muy bueno
Bueno
Bueno
Aceptable
Bueno
Malo
Aceptable
Muy malo
Bueno
Malo
Bueno
Malo
Bueno
Aceptable
Bueno
Bueno
Muy malo
Muy bueno
Malo
Aceptable
Bueno
Aceptable
Malo
Bueno
Primero, se identifican las categorías: Muy bueno Bueno Aceptable Malo Muy malo
50
Jorge Córdova Egocheaga
Segundo, se realiza el conteo de las frecuencias: Muy bueno Bueno Aceptable Malo Muy malo
///// ///// ///// ///// / ///// ///// // ///// /// ////
Tercero, se presenta la tabla, considerando el título y la fuente. Cuadro 1: Calidad del Servicio de Emergencia
C a t e g o ria
N ú m e ro d e P a c ie n t e s
T asa P o rc e n tu a l
M uy Bueno
5
1 1 ,1 1
Bu en o
16
3 5 ,5 5
A c e p ta b le
12
2 6 ,6 7
M a lo
8
1 7 ,7 8
M u y M a lo
4
8 ,8 9
45
1 0 0 ,0 0
T o tal
Fuente: Encuesta a los Pacientes, julio 2002 Para datos cuantitativos se sigue el procedimiento siguiente: (1º) Se calcula el rango:(mayor - menor) + 1 (2º) Se determina el número de clases, que mejor representa a los datos (entre 4 y 20). Se realiza un tanteo. (3º) Se determina el tamaño o amplitud de clase. 51
Manual de Estadística General
(4º) Se elige el limite inferior de la primera clase. (5º) Se establecen los siguientes clases.
límites
inferiores
de
las
(6º) Se establecen los limites superiores de cada una de las clases. (7º) Se realiza un conteo, a fin de determinar cuantos datos se incluyen en cada clase. (8º) Se elabora la tabla: titulo, cuerpo y fuente. Ejemplo: Revisemos el ejemplo sobre los niveles de colesterol en suero presentado anteriormente. 231
199
209
236
259
248
183
269
212
194
191
260
197
265
261
159
227
245
214
275
186
234
262
230
212
163
220
202
221
223
203
180
292
198
201
174
223
186
200
192
236
186
188
234
230
304
197
216
214
189
138
269
197
222
202
213
163
241
218
242
248
228
154
218
243
192
191
243
230
248
231
262
177
207
276
238
189
212
200
179
249
225
223
289
280
235
220
194
205
206
209
233
222
223
267
212
263
159
243
230
253
192
200
232
222
193
195
259
186
229
184
215
254
233
229
263
163
212
271
216
225
252
218
265
218
155
222
173
228
214
266
172
203
262
213
244
177
242
180
241
261
221
222
189
204
229
212
192
257
248
190
166
216
197
250
224
257
220
255
241
245
212
225
201
209
229
194
174
184
192
249
216
250
248
187
222
195
247
161
188
209
250
180
228
196
254
208
265
234
219
203
Solución Se calcula el rango: R = Mayor – menor + 1 Mayor = 317 Menor = 106 Rango = (317 – 106) + 1 = 212
52
Jorge Córdova Egocheaga
Se tantea el número de clases: 4 clases de 53 Þ Rango corregido 212: No exceso 5 clases de 43 Þ Rango corregido 215: Exceso 3 6 clases de 36 Þ Rango corregido 216: Exceso 4 7 clases de 31 Þ Rango corregido 217: Exceso 5 8 clases de 27 Þ Rango corregido 216: Exceso 4 Se escoge 4 clases por tener el menor exceso. La amplitud de clase es 53. Como no hay exceso con 4 clases, el límite inferior de la primera clase es el menor número. En este caso 106. 5.
Los límites inferiores de las clases siguientes se forman sumando al límite inferior de la primera clase, la amplitud. En este caso, 53
NIVELES DE El menor valor
COLESTEROL
PERSONAS
Tasa porcentual (%)
106 159 106 + 53
212 265 Total
1000
100,00
Fuente: Departamento de Salud
6.
Luego se calculan los límites superiores de cada clase. Para la primera clase se resta 1 al límite inferior de la segunda clase. Para las clases siguientes, se le suma la amplitud, en este caso 53.
53
Manual de Estadística General
Cuadro 2: Niveles de colesterol en Lima
NIVELES DE COLESTEROL 106 - 158 159 - 211
PERSONAS
Tasa porcentual (%)
159 - 1 158 + 53
212 - 264 265 - 317 Total
100,00
1000
Fuente: Departamento de Salud 7.
Finalmente se realiza el conteo de las frecuencias y se presenta la tabla con un título y fuente. Se acostumbra presentar frecuencias relativas (%)
una
columna
con
la
En algunas ocasiones se elaboran las tablas con clases abiertas cuando los datos inferiores o superiores están muy dispersos
54
Jorge Córdova Egocheaga
Cuadro 3: Ventas diarias en la Farmacia durante el mes de junio (en soles)
Ventas
Tasa
(en soles)
Dias
menos de 5000
3
porcentual (%) 10,00
5000 - 8999
7
23,33
9000 - 12999
10
33,33
13000 - 16999
8
26,67
17000 - 20999
2
6,67
Total
30
100,00
Fuente: Registro de Ventas Ejercicio Los siguientes datos de refieren a la estatura (en metros) de 50 pacientes que se atienden en el servicio de reumatología de la Clínica Sagrado Corazón. Construya una tabla de distribución de frecuencias. 1,68 1,70 1,80 1,69 1,64 1,87
1,72 1,66 1,68 1,84 1,70 1,64
1,70 1,70 1,72 1,74 1,86 1,72
1,67 1,68 1,74 1,73 1,74 1,87
1,76 1,65 1,72 1,75 1,75 1,77
1,82 1,74 1,69 1,75 1,77
1,59 1,80 1,78 1,72 1,76
1,66 1,57 1,84 1,81 1,72
1,82 1,64 1,61 1,87 1,81
La tabla de distribución de frecuencias completa, tiene la siguiente estructura
55
Manual de Estadística General CLASE
Marca de
Frecuencia
Frecuencia
Frec. Absoluta
Frec. Relativa
Li
Clase: Xi
absoluta: fi
relativa: hi
Acumulada: Fi
Acumulada: Hi
Li Ls Xi fi hi Fi Hi
Ls
limite inferior limite superior Marca de la clase i frecuencia absoluta de la clase i. frecuencia relativa de la clase i. frecuencia absoluta acumulada hasta la clase i. frecuencia relativa acumulada hasta la clase i.
Ejercicio 2: Complete la siguiente tabla que corresponde al pacientes del Hospital Central. PESO (en kilos) 48,0 – 52,9
fi
Fi
hi
peso de 60
Hi
6 0,30
53,0 – 57,9 58,0 – 62,9 0,25
63,0 – 67,9 68,0 – 72,9
9
Total
Ejercicio 3 La siguiente información se refiere al peso (en Kg.) de 60 personas. Elabore una tabla de distribución de frecuencias. LS5=64 F2=20 h3=0,213 k=6 LI1=35 f6 = 5 f1=4 H4=0,799 56
Jorge Córdova Egocheaga
Ejercicio 4 Complete la siguiente tabla de distribución de frecuencias:
n = ∑ f = 30 hi =
f n
∑ hi = 1.000 PESO (en libras
Fi = fant + fact Hi = h ant + h act fi
128,6 - 135,4
2
135,5 - 142,3
7
142,4 - 149,2
10
149,3 - 156,1
8
156,2 - 163,0
3
Xi
f ant --> frecuencia anterior f act --> frecuencia actual
Fi
hi
Hi
Total
Resumamos algunos conceptos Una distribución de frecuencias (fi) es un conjunto de puntuaciones ordenadas en sus respectivas clases. Las frecuencias relativas (hi) son tasas porcentuales de casos en cada clase. La frecuencia acumulada (Fi o Hi) son las frecuencias que se van acumulando en cada clase, desde la más baja hasta la mas alta. La marca de clase (Xi) es el punto medio de una clase
B)
Tablas cruzadas Sirven para representar dos o más variables cualitativas. En cada celda se puede incluir la frecuencia absoluta y relativa (por fila, columna y total).
57
Manual de Estadística General
Ejemplo Cuadro 4: Enfermedad por sexo E n fe rm e d ad \S e x o
M asculino
F emenino
To tal
B ro nquitis
5
12
17
C o litis
11
8
19
N efritis
15
6
21
Aler gias
4
2
6
To tal
35
25
63
Fuente: Historia Clínica, julio 2002.
58
CAPÍTULO
4
ORGANIZACIÓN GRÁFICA DE DATOS
OBJETIVOS Al finalizar el Capítulo 4, el participante será capaz de: 1. 2. 3.
Elaborar gráficos para una sola variable: barras, columnas, circulo. Elaborar gráficos para dos variables: dispersión, lineal. Elaborar gráficos en tres dimensiones.
Manual de Estadística General
Los gráficos constituyen una forma muy efectiva de presentar información. Su utilización ayuda a una mejor comprensión. Todo gráfico tiene tres partes: El título: específico, pero completo. El cuerpo: es el gráfico en si mismo. La fuente: especificar el origen de la información. 4.1 EL HISTOGRAMA Son barras verticales presentadas una a continuación de otra. Permite presentar datos cuantitativos continuos. Es un gráfico muy utilizado. Propiedades: 1.
El ancho de cada columna es igual en todo el gráfico y representa la amplitud de clase).
2.
El ancho de cada columna es igual en todo el gráfico y representa la amplitud de clase). Xi
fi
128,6 - 135,4
CLASE
132,0
2
135,5 - 142,3
138,9
7
142,4 - 149,2
145,8
10
149,3 - 156,1
152,7
8
156,2 - 163,0
159,6
TOTAL
Distribución de frecuencias
3 30
12
Histograma
Frecuencia
10 8 6 4 2 0
132.0 138.9 145.8 152.7 159.6
Marca de Clase
60
Jorge Córdova Egocheaga
Ejemplo Gráfico 4: Peso de 100 Pacientes (en Kg.) Número de Pacientes
25 20 15 10 5 0 29.5
39.5
49.5
Fuente: Encuesta, julio 2001
59.5
69.5
7 9.5
89.5
9 9.5
Peso (Kgs)
¿Cómo leer histogramas? A)
Tipo general: El valor medio está al centro, que tiene la mayor frecuencia. Es el más frecuente tiene forma simétrica
61
Manual de Estadística General
B)
Tipo multimodal: Hay varios valores “mayores”.
C) Tipo sesgo positivo: Forma asimétrica la media está localizada a la izquierda.
62
Jorge Córdova Egocheaga
D) Tipo precipicio a la izquierda: Forma asimétrica la frecuencia disminuye bruscamente a la izquierda.
E)
Tipo planicie: Las clases misma frecuencia.
tienen
más
o
menos
la
63
Manual de Estadística General
F)
Tipo bimodal: Se observa máximos.
claramente dos valores
G) Tipo pico aislado: Presenta un pico aislado, además de un histograma general.
64
Jorge Córdova Egocheaga
4.2 EL DIAGRAMA DE BARRAS Se utiliza para representar datos cuantitativos discretos o datos cualitativos. – – –
Las barras son de igual ancho. La longitud es proporcional a la frecuencia de la categoría. El espacio entre barras debe ser homogéneo, para evitar efecto visual.
Ejemplo: Gráfico 2: Número de hijos en edad escolar por médico del Hospital Central Nº de Médicos
30 25 20 15 10 5 0 0
1
2
3
4
Fuente: Departamento de Personal
5
Número de hijos (escolares)
65
Manual de Estadística General
Ejemplo Gráfico 3: Pacientes atendidos por especialidad
20 15 10 5 0 Nefrología
Ginecología
Oftalmología
Neurología
Traumatología
Fuente: Hoja de Ingreso, julio del 2002 Ejemplo Gráfico 4: Profesionales de la salud por Especialidad
especialidad
Medico Enfermeras Psiquiatras Fisioterapeuta Obstetriz
Nº de profesionales 0
10
20
30
40
50
60
70
80
90
100
Fuente: Gerencia de Potencial Humano. Julio 2002
66
Jorge Córdova Egocheaga
4.3 EL POLÍGONO DE FRECUENCIAS Es otra forma de conocer las distribución de los datos. Se construye uniendo los punto medios del lado superior de las barras del histograma. 25 20 15 10 5 0 29.5
39.5
49.5
59.5
69.5
79.5
89.5
99.5
Gráfico N° 5: Distribución de los pesos de los Pacientes del Servicio de cardiología Número de Pacientes
Peso (Kg.) Fuente: Historia Clínica, julio del 2002
67
Manual de Estadística General
4.4 DIAGRAMA DE DISPERSIÓN DE PUNTOS Ejemplo
Gráfico 6: Pacientes mensuales 400 Paciente s
Meses
350 300
Enero
120
Febrer o
210
Marzo
180
Abril
320
Mayo
280
100
Junio
200
50
Julio
350
250 200 150
0 0
En ero Feb2rero Ma rzo
Ab4ril
Mayo
J un 6 io
Ju li o
8
Fuente: Departamento de Admisión Clínica
4.5 DIAGRAMA LINEAL Ejemplo Gráfico 7: Pacientes mensuales 400 350 300 250 200 150 100 50 0 Enero Febrero Marzo
Abril
Mayo
Junio
Fuente: Departamento de Admisión Clínica 68
Julio
Jorge Córdova Egocheaga
4.6 LAS OJIVAS La frecuencia acumulada son las frecuencias que se van acumulando en cada categoría, desde la más baja hasta la mas alta. Las ojivas, relaciona las puntuaciones con sus respectivas frecuencias acumuladas. 4.7 EL DIAGRAMA CIRCULAR El circulo se divide en segmentos circulares, de tamaño proporcional a la frecuencia de la categoría. Ejemplo Gráfico 10. Pacientes atendidos en consultorios externos 1 e r tr im . 2 d o tr im . 3 e r tr im . 4 to tr im .
Fuente: Ficha de atención. Julio del 2002
4.8 DIAGRAMA RADAR Útil para visualizar, por ejemplo, el cumplimiento de metas (%) para la Prueba de Papanicolaou en el servicio de ginecología para pacientes de diferentes zonas
69
Manual de Estadística General
Ejemplo 100 80 60 40 E ste
20
O e ste
0
N o r te Sur
Fuente: Hoja de registro atención, julio 2002 4.9 SUPERFICIE EN TRES DIMENSIONES Ejemplo: Metas alcanzadas en prestación de servicios médicos
100 50 4to trim. 0
3er trim.
Fuente: Encuesta, julio 2002
70
3er trim. 4to trim.
CAPÍTULO
5
PROMEDIOS Un motivo para hacer sospechar que la Estadística es más un arte que una ciencia, gira en torno a la ambigüedad con que se usa el término “promedio”.
OBJETIVOS Al finalizar el Capítulo 5, el participante será capaz de: 1.
2.
Diferenciar los diversos tipos de medidas de resumen que se pueden aplicar a un conjunto de datos Calcular e interpretar las principales medidas de tendencia central
Manual de Estadística General
5.1 LA ESTADÍSTICA DE RESUMEN Después de construir tablas y gráficos, a partir de una colección de datos, se requieren medidas más exactas. La estadística de resumen, proporciona medidas para describir un conjunto de datos. Existen tres tipos de medidas de resumen: – – –
De tendencia central. De dispersión. De la forma de la distribución.
(A) Las medidas de tendencia central Se refieren al punto medio de una distribución Se conocen como medidas de posición Ejemplo: A partir del gráfico siguiente, se observa que la posición central de la curva B está a la derecha de la posición central de las curvas A y C. Obsérvese que la posición central de la curva A es la misma que la curva C.
72
Jorge Córdova Egocheaga
(B) Las medidas de dispersión Se refieren a la extensión o amplitud de los datos de una distribución Representan el grado de variabilidad de los datos. Ejemplo: Observe que la curva A en el siguiente gráfico tiene una mayor dispersión que la curva B, a pesar que la posición central es la misma.
(C) Las medidas de la forma de la curva Las curvas que representan a un conjunto de datos, pueden ser analizadas de acuerdo a su: a) Simetría
b) Curtósis
Las curvas simétricas, tienen una forma tal que con una línea vertical que pase por el punto más alto de la curva, dividirá el área de esta en dos partes iguales.
73
Manual de Estadística General
Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de sesgo.
Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden ser: leptocúrtica (concentración al centro) mesocúrtica distribuidos simétricamente) o platicúrtica (aplanada).
5.2 PROPIEDADES DE LA SUMATORIA ra
1 Regla: La suma de los n términos de una serie constante, es igual a n veces la constante. n
∑c i =1
74
i
= nc
Jorge Córdova Egocheaga
Ejemplo: C = 10, n=3 3
∑c i =1
= 10 + 10 + 10 = 3 (10) = 30
da
2 Regla: La suma de los productos de una constante por una variable, es igual a la constante multiplicada por la suma de la variable.
n
∑ cx i =1
n
i
= c∑ x i i =1
Ejemplo: C = 5, X1 = 2, X2 = 4, X3 = 6 3
∑ cx i =1
i
=
5(2) + 5(4) + 5(6) = 60
ra
3 Regla: La suma de los valores de una variable más una constante es igual a la suma de los valores de la variable más n veces esa constante.
n
n
=1
=1
( x i + c ) = ∑ x i + nc ∑ i i Ejemplo: C =2, x1 =5, x2 =3, x3 =2 3
∑ (xi + c) = (5 + 2) + (3 + 2) + (2 + 2) = 16 i =1
= (5 + 3 + 2) + 3(2) = 16
75
Manual de Estadística General
5.3 LAS MEDIDAS DE TENDENCIA CENTRAL 1. En general se denominan promedios. 2. Los más importantes son la media, la mediana y la moda. Aritmética Media Geométrica Medidas de Mediana Armónica tendencia central Moda
3. También es útil conocer los percentiles (o fractiles). ¿POR QUÉ SON IMPORTANTES LAS MEDIDAS DE TENDENCIA CENTRAL? Porque la mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un dato central. Las medidas de tendencia central son puntos en una distribución, los valores medios o centrales de ésta y nos ayudan a ubicarla dentro de la escala de medición. 5.3.1 La Media (A) La media aritmética ( x ) a) Obtención: Se obtiene sumando los valores registrados y dividiéndolos entre el número de datos. Ejemplo: La siguiente tabla muestra el número de reclamos y quejas presentadas por pacientes en el Servicio de Emergencias a lo largo de una semana. Calcule e interprete la media.
Día/Semana Reclamos/día
76
Lun Mar Mier Jue Vier Sab 8 10 5 12 10 15
Jorge Córdova Egocheaga
Media aritmética
8 + 10 + 5 + 12 + 10 + 15 60 = 6 6 = 10 reclamos b)
Interpretación: Si elige al azar un día de la semana, se espera que los pacientes del servicio de emergencia realicen 10 reclamos en ese día.
c)
Simbología: Media aritmética (equis barra) µ (mu)
Tamaño n N
Muestra Población d)
Cálculos a partir de datos no agrupados, se utilizan las siguientes formulas. Para una muestra donde: x : media muestral n
∑ Xi x =
∑ Xi
i =1
n n
: suma de todos los datos : número de datos (muestra)
Para una población N
donde: µ : media poblacional ∑ Xi : suma de todos los datos N : número de datos (población)
∑ Xi
µ = i =1 N
Se puede calcular la media aritmética utilizando Excel.
77
Manual de Estadística General
Media aritmetica
e)
Cálculo a partir de datos agrupados. El cálculo de la media aritmética, cuando los datos disponibles se encuentran en tablas de distribución de frecuencias, se realiza utilizando la formula siguiente
n
x
∑
= i = 1n
∑
fiX
i=1
donde:
i
fi
x :media muestral fi :frecuencia absoluta de la clase i X i :marca de la clase i
Ejemplo: La distribución de frecuencias siguiente, representa los puntajes obtenidos en una evaluación del desempeño, aplicado al personal técnico de un Centro de Salud. El puntaje máximo en la prueba es 50. Calcule e interprete en media.
78
Jorge Córdova Egocheaga
D esem p eñ o
N ú m ero d e
(p unto s )
t é c n ic o s
12 - 16
4
17 - 21
8
22 - 26
15
27 - 31
23
32 - 36
10
T O T AL
60
Primero se calcularán las marcas de clase ( Xi); es decir, el valor intermedio de cada clase clase 12 - 16 17 - 21 22 - 26 27 - 31 32 - 36
x=
Marca de clase ( i) 14 19 24 29 34 Total
x
Frecuencia absoluta(fi) 4 8 15 23 10 60
14(4) + 19 (8) + 24 (15) + 29 (23) + 34 (10) x 4 + 8 + 15 + 23 + 10 x = 26.25
= 1575 60
Interpretación: Si se elige al azar a un trabajador técnico de este hospital, se espera que tenga un puntaje de 26,25 en su evaluación de desempeño.
79
Manual de Estadística General
f) La media aritmética ponderada ( x p ) donde: n
xp =
∑wX i =1 n
i
∑w i =1
i
i
wi = factor de ponderación X i = datos
Ejemplo: Una empresa comercializadora de Seguros Médicos dispone de 3 representantes para la zona de Miraflores, cada uno de los cuales cobra diferente comisión por póliza vendida, y realiza diferente número de contratos. Calcule e interprete el valor medio de la comisión
Vendedor
Nº de polizas de Seguro Médico
Comisión por venta $
Pedro Juan Pablo
30 25 20
30 40 50
x p = 30(30) + 25(40) + 20(50) = 2900 = $38.67 30 + 25 + 20
75
Interpretación: Si se elige al azar un representante se espera que cobre una comisión de $38.67 por póliza vendida.
80
Jorge Córdova Egocheaga
g)
Ventajas y desventajas de la media aritmética Ventajas: Concepto familiar para muchas personas Es única para cada conjunto de datos Es posible comparar medias de diferentes muestras Desventajas Se ve afectada por los datos extremos Si la muestra es grande y los datos no están agrupados, su cálculo es tedioso Si los datos están agrupados en clases con extremos abiertos, no es posible calcular la media.
(B) La media geométrica (
xg )
Se utiliza para calcular tasas medias de variación, como la tasa media de crecimiento poblacional, la tasa media de inflación mensual, la tasa media de mortalidad, entre otros. a)
Obtención Se obtiene extrayendo la raíz enésima el producto de los n valores de una serie.
xg = n X1 • X 2 • X3 • .........X n Ejemplo:
La siguiente tabla muestra la tasa de aumento en las quejas durante los últimos meses. Calcule e interprete la tasa media mensual. 81
Manual de Estadística General Meses Aumento de quejas
Enero
Febrero
Marzo
Abril
Mayo
2.6%
5.4%
3.8%
0.5%
1.4%
La tasa 2,6% también se puede expresar como 0,026 , y puesto que se refiere a un aumento a partir de una base de 100%, el factor de variación será 1,026. Para los otros datos se opera igual. b)
Cálculos Por lo tanto, la media geométrica se calcula:
xg
= n
x1, x 2 , x 3,...... x
x g = 5 (1.026) (1.054) (1.038) (1.005)(1.014) x g = 5 1 . 143903377 x g = 1,0272540 ( Factor de crecimient o medio )
Tasa media = (x g −1) ×100 de variación = (1,0272540 - 1) x 100 = 2,72% c)
Interpretación Si se selecciona al azar un mes entre enero y mayo, se espera que las ventas se hayan incrementado 2.72% con respecto al mes anterior.
(C) La media armónica (
xh )
Se utiliza para calcular el tiempo medio, velocidad y aceleración media, como por ejemplo, el tiempo medio para realizar determinada cirugía.
82
Jorge Córdova Egocheaga
a)
Obtención: se obtiene calculando el inverso de la media aritmética de los inversos de una serie.
xh =
1 n
1 X i =1 ∑
i
n Ejemplo: Los siguientes datos registran el tiempo que utilizan cuatro médicos al realizar una cierta intervención quirúrgica. Calcule e interprete el tiempo medio.
M é d ic o T ie m p o (m in u t o s )
A
B
C
D
45
38
52
40
Conocer el tiempo medio permite contar con una herramienta útil en la planeación de los recursos, como la Sala de Operaciones. Además de poder comparar nuestro desempeño con los estándares de calidad internacionales. xh = 1 1 4 1 1 = 1976 + 2340 +4 1710 + 2223 + + + 45 38 52 40 88920
xh = 4 × 88920 = 43.117953 minutos 8249
xh = 43 minutos 7 segundos 83
Manual de Estadística General
b)
Interpretación: Si se selecciona al azar a uno de los cuatro médicos, se espera que realice este tipo de cirugía en 43 minutos aproximadamente.
5.3.2 La Mediana Es la medida que divide en dos subconjuntos iguales a datos, de tal manera que 50% de los datos es menor a la mediana y el otro 50% es mayor a la mediana. a)
Obtención: Se obtiene ordenando la serie de datos (en forma ascendente o descendente) y ubicando el dato central. Ejemplo: Los siguientes datos se refieren al número de pacientes que llegaron a su cita, después de la hora programada durante los últimos 11 días en el Servicio de Pediatría. Calcule e interprete la mediana. 12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16 Primero se ordenan lo datos: 5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17 5 datos menores
5 datos mayores
mediana
b)
84
Interpretación: Durante 5 días llegaron menos de 11 pacientes tarde a su cita y durante 5 días, más de 11 pacientes llegaron tarde a su cita.
Jorge Córdova Egocheaga
c)
Reglas 1º Si la serie es impar, la mediana ocupa el lugar central de la serie previamente ordenada. Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24 2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada. Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34
mediana =
18 + 23 = 20 .5 2
3º Sea la serie par o impar, la mediana ocupa el lugar
d)
n + 1 2 ,de la serie previamente ordenada.
Cálculo a partir de datos agrupados.
n +1 2 − (F + 1) Md = Li + c f Md donde: Md : mediana L i : limite real (o frontera) inferior de la clase mediana. n : número total de datos. F : suma de todas las frecuencias hasta, pero sin incluir, la clase mediana. f Md : frecuencia de la clase mediana c : amplitud de clase
85
Manual de Estadística General
Ejemplo: La tabla siguiente muestra la experiencia laboral (años) del personal de seguridad que labora en un gran hospital. Calcule e interprete la mediana.
Lugar de la mediana: E xp e rie nc ia la b o ra l (a ño s ) 0 - 3 4 - 7
N úm e ro d e tr a b a ja d o r e s d e s e g urid a d 4 12
8 - 11
24
12 - 15 16 - 19 20 - 23
16 10 3 69
n + 1 69 + 1 = = 35o 2 2
69 + 1 − (16) 4 Md = 7,5 + 2 24
C la s e M e d ia na
= 7,5 +
35 − 164 24
Mediana = 10,5 años Interpretación: La mitad del personal de seguridad que labora en este hospital tienen una experiencia laboral igual o menor a 10 años 6 meses. La otra mitad de este personal tiene una experiencia laboral igual o mayor a 10 años y 6 meses. e)
Ventajas y desventajas Ventajas: Los valores extremos no afectan a la mediana como en el caso de la media aritmética. Es fácil de calcular, interpretar y entender. Se puede determinar para datos cualitativos, registrados bajo una escala ordinal. Desventajas: Como valor central, se debe ordenar primero la serie de datos.
86
Jorge Córdova Egocheaga
Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda tiempo y usualmente provoca equivocaciones. 5.3.3 La Moda La moda es el valor que más se repite dentro de un conjunto de datos. a) Obtención: se obtiene organizando la serie de datos y seleccionando el o los datos que más se repiten. Ejemplo
4, 5, 7, 8, 8 , 10, 12, 15 4, 7, 12,12 , 15, 16, 20, 20 , 24, 27 7, 12, 15, 18, 25, 30, 31, 38 b) Cálculo a partir de datos agrupados
Mo = L
i
+
∆1 ∆ + ∆ c 1 2
donde: M o : moda L : limite real (o frontera) inferior de la clase i modal (la de mayor frecuencia) : frecuencia de la clase modal menos la ∆ 1 frecuencia de la clase anterior ∆ : frecuencia de la clase modal menos la 2 frecuencia de la clase siguiente c : amplitud de clase Las clases mediana y modal pueden coincidir pero conceptualmente son diferentes.
87
Manual de Estadística General
Ejemplo: La tabla siguiente muestra los errores de facturación durante un mes, en una Clínica. Calcule e interprete la moda. Er r o r e s d e f a c tu r a c ió n
Día s
0 - 3
6
4 - 7
12
8 - 11
8
12 - 15
3
16 - 19
1
To ta l
30
∆ =6 1
Cla s e Mo d a l
∆ =4 2
Clase moda : (4 - 7) 6 Mo = 3.5 + 4 6+4
Mo = 5,9
Interpretación: Durante un mes, el número más frecuente de errores de facturación en esta clínica es 6. e) Ventajas y desventajas de la moda. Ventajas: Se puede utilizar tanto para datos cualitativos como cuantitativos. No se ve afectada por los valores extremos. Se puede calcular, a pesar de que existan una o más clases abiertas. Desventajas: No tiene un uso tan frecuente como la media. Muchas veces no existe moda (distribución amodal). En otros casos la distribución tiene varias modas, lo que dificulta su interpretación. 5.3.4 Los Percentiles Son los valores que dividen en 100 partes iguales a un conjunto de datos
88
Jorge Córdova Egocheaga
a) Cálculo: para datos agrupados.
( )
Kn − F + 1 i P = L + 100 c K i f P K donde: P
K
: percentil
K : el percentil buscado
n : número de datos Fi : frecuencia acumulativa hasta la clase anterior a la clase donde se ubica el percentil K f P : frecuencia absoluta de la clase donde se K ubica el percentil K c : amplitud de clase Ejemplo: La tabla muestra la experiencia (en años) de las enfermeras de un gran centro hospitalario Experiencia Trabajadores (años)
0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27 Total
18 42 68 120 40 34 12 334
¿Sobre qué edad se ubica el 25% de las enfermeras de mayor experiencia?
89
Manual de Estadística General
75 %
25 %
P75
Menor Experiencia
Mayor Experiencia
K = 75
Lugar del P75 =
Kn 75(334 ) = = 250 ,5o (de los números ordenados ) 100 100
Para saber en cuál clase se halla este dato, se calculó la frecuencia acumulativa. E xperiencia (años) 0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27
Nº Trabajadores
F rec. A cumulada
fi
Fi 18 60 128 248 288 322 334
18 42 68 120 40 34 12 334
75(334) − (248 + 1) 100 P = 15.5 + 4 75 40
F=248 En esta clase se localizan del 249º - 288º
P = 15.65 años 75
Interpretación: Para que una enfermera esté comprendida dentro del 25% de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24 días.
90
CAPÍTULO
6
MEDIDAS DE DISPERSIÓN Y ASIMETRÍA OBJETIVOS Al finalizar el Capítulo 6, el participante será capaz de: Calcular e interpretar las principales medidas de dispersión: A) Rango B) Rango intercuartílico C) Varianza D) Desviación estándar E) Coeficiente de variabilidad Calcular e interpretar las principales medidas de la forma de la distribución. A) Coeficiente de asimetría B) Coeficiente de curtosis
Manual de Estadística General
6.1 LAS MEDIDAS DE DISPERSIÓN Llamadas también medidas de variabilidad Son útiles porque: Permiten juzgar la confiabilidad de la medida de tendencia central. Los datos demasiados dispersos tienen un comportamiento especial. Es posible comparar dispersión de diversas muestras. 6.1.1 El rango (R) Llamado también recorrido, amplitud total o alcance. a) Obtención: se obtiene de la influencia entre el dato mayor y el dato menor más una unidad significativa, a fin de incluir ambos valores extremos. Ejemplo: Los siguientes datos representan el peso de 10 niños al nacer, (en Kg.). Calcule e interprete el rango. 2,860 3,150 3,450 2,950 3,780 4,170 3,920 3,280 4,050 3,120 Rango = (4,170 - 2,860) + 0.001 Rango = 1,311 Kg. b) Interpretación La diferencia entre el bebe de mayor peso y el bebe menor peso es 1,311 Kg.
92
Jorge Córdova Egocheaga
c) Cálculo A partir de datos agrupados, se utiliza la siguiente fórmula: R= (Ls - Li ) + 1 donde: Ls : Limite superior de la última clase Li : Limite inferior de la primera clase Ejemplo: La distribución de frecuencias siguiente representa el tiempo que espera un paciente para ser atendido, en un consultorio externo. Calcule e interprete el rango
Tiempo Nº de Pacientes (minutos) (por día) 12 - 16 4 17 - 21 8 22 - 26 15 27 - 31 23 32 - 36 10 Total 60 Rango = (36-12) + 1 R = 25 minutos Interpretación: la diferencia de tiempo entre el paciente que más espera y el que menos espera para ser atendido es 25 minutos.
93
Manual de Estadística General
f) Ventajas y desventajas del rango Ventajas Fácil de calcular Fácil de entender e interpretar Desventajas Sólo considera los valores extremos No toma en cuenta ni el número de datos ni el valor de estos No es posible calcular en tablas con extremos abiertos. 6.1.2 El rango intercuartílico Permite ubicar el 50% de los datos que se encuentran en el centro de la distribución, es decir, el 25% de los datos son menores al primer cuartil y también 25% de los datos son mayores al tercer cuartil.
94
Jorge Córdova Egocheaga
Ejemplo: La tabla muestra la experiencia (en años) del personal que labora en el Hospital Central.
E xp e rie nc ia T rab ajad o re s (año s ) 0 -3 18 4 -7 42 8 - 11 68 12 - 15 120 16 - 19 40 20 - 23 34 24 - 27 12 T o tal 334 A) ¿Entre qué valores se encuentra el 50% intermedio de estos datos? B) ¿Cuál es el rango intercuartílico? 50 %
25 %
25 % Q3
Q1 Rango Intercuartílico
Lugar Q1 = P25 →
25(334 ) = 83 .5 o se ubica en la 3ra clase 100
25(334) − (60 + 1) 4 100 Q = 7.5 + 1 68
Q = 8.82 años 1
95
Manual de Estadística General
Lugar Q 3 = P75 →
75(334 ) = 250 .5o se ubica en la 5ta clase 100
75(334) − (248 + 1) 100 Q = 15.5 + 4 3 40 A. El 50% de los trabajadores con experiencia intermedia se encuentran entre 8,82 y 15,65 años. B. El rango intercuartílico es 6 años 10 meses aproximadamente 6.1.3 La desviación cuartílica Es una medida de variabilidad fácil de calcular. Es la mitad del rango intercuartil. Mide la dispersión del 50% central de las observaciones respecto a la mediana. Es imposible tener una DC negativa. Es raro, pero podría tener un valor igual a 0, en el caso que los percentiles sean iguales (P75 = P25). Cuando mayor sea la diferencia entre los percentiles, mayor será el valor de la DC.
DC =
P75 − P25 2
Ejemplo: Si P25 = 7,2
DC =
13,4 − 7,2 = 3,1 2
P75 = 13,4 Interpretación: 50% central de las observaciones varía en 3,1 con respecto a la mediana.
96
Jorge Córdova Egocheaga
6.1.3 La varianza Es una medida de desviación promedio con respecto a la media aritmética a) Cálculos a partir de datos no agrupados. Para una muestra n
S
2
=
2
∑ (X − x ) i =1
i
n −1
Para un población N
σ
2
∑(X −µ)
2
= i=1
i
N
Ejemplo: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la varianza. 8, 10, 5, 12, 10, 15 Primero, elaboramos un cuadro de la forma siguiente:
x 8
Xi − x
(X i − x )
2
8 - 10 = 2
4
10 5
10 - 10 = 0 5 - 10 = 5
0
12
12 - 10 = 2
4
10
10 - 10 = 0
0
15
15 - 10 = 5
25
∑ X = 60
x=
25
60 6
x = 10
∑ (X i − x ) = 0 ∑ (X i − x )
2
= 58
97
Manual de Estadística General ∑ (X i − x ) = 58 2
2
S =
∑ (X i − x )
2
n −1
58 2 S = 6 − 1 = 11.6
6.1.4 La desviación estándar Llamada también desviación típica representa la variabilidad (o desviaciones) promedio de los datos con respecto a la media aritmética. Es la raíz cuadrada de la varianza, sea poblacional o muestral. a) Cálculos a partir de datos no agrupados Para la muestra n
S=
s
2
=
∑ (Xi − x )
2
i =1
n −1
para la población N
σ = σ2 =
∑ (X i − µ )
2
i =1
N
Ejemplo: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la desviación estándar. 8, 10, 5, 12, 10, 15
98
Jorge Córdova Egocheaga
Ya sabemos por el ejemplo anterior que S2 = 11,6 Entonces
S=
s
2
S = 11,6 S = 3,4 radiografias 6.1.5 El coeficiente de variación Es una medida relativa de variabilidad de los datos. Permite comparar la variabilidad de dos o más conjuntos de datos expresados en unidades diferentes (peso: Kg. y libras). a) Cálculos a partir de datos no agrupados Para la muestra:
CV =
s × 100 x
Para la población:
CV =
σ × 100 µ
Ejemplo: A continuación se presentan las tarifas (en unidades monetarias) de dos laboratorios de análisis clínicos. El laboratorio I tiene sus tarifas en soles y el laboratorio II en dólares ¿Cuál de ellos tiene un plan tarifario más homogéneo o estable?.
99
Manual de Estadística General
Laboratorio I (soles) 40,70,60,48,52,65,58
Laboratorio II (dólares) 70,35,150,140,82,110,140,120
Calculamos la media y desviación estándar por cada una de los laboratorios Laboratorio I n
x
=
∑ Xi i =1
n
=
393 = 56.14 7
40
-1 6.1 4
2 60 .5 0
70
1 3.8 6
1 92 .1 0
60
3 .8 6
1 4.9 0
48
-8 .1 4
6 6.2 6
52
-4 .1 4
1 7.1 4
65
8 .8 6
7 8.5 0
58
1 .8 6
3 .4 6
Si ∑ (X i − x ) = 632.86 2
n
S=
∑ (X i −
i =1
CV =
x )2
n −1
=
S × 100 x CV =
100
632 .86 = 10 .27 7 −1
10.27 × 100 = 18 . 29 56.14
Jorge Córdova Egocheaga
Laboratorio II n
x
∑ Xi
= i=1
=
n
847 = 105.87 8
70
-3 5.87
12 86.6 569
35
-7 0.87
50 22.5 569
15 0
44 .13
19 47.4 569
14 0
34 .13
11 64.8 569
82
-2 3.87
56 9.77 69
11 0
4.1 3
17 .056 9
14 0
34 .13
11 64.8 569
12 0
14 .13
19 9.65 69
Si ∑ (X i − x ) = 11372 .88 n
2
i =1
n
S=
CV =
∑ (X i −
i =1
n −1
S × 100 x
x )2
=
11372 ,88 = 40 . 30 8 −1
CV =
40,30 × 100 = 30 , 06 105,87
El Laboratorio II presenta una mayor variabilidad en el plan tarifario. 6.2 MEDIDAS DE ASIMETRIA O SESGO 6.2.1 Coeficiente de Asimetría Es un indicador del grado de asimetría que presenta una distribución.
101
Manual de Estadística General
S kp =
3 ( X − Md ) S
Valores posibles
− 3 asimetría S kp = + 3 asimetría
negativa positiva
Si Skp tiende a 3 la distribución es asimétrica hacia la derecha o asimetría positiva. Si Skp tiende a -3 la distribución es asimétrica a la izquierda o asimetría negativa. En distribuciones simétricas, no existe sesgo, es decir Skp = 0. En la práctica, el coeficiente de Asimetría de Pearson varía entre -1 y +1 6.2.2 Coeficiente de Curtósis Es una medida del grado de apuntalamiento, generalmente comparada con el apuntalamiento de la distribución normal.
Ku =
0 , 5 ( P0 , 75 − P0 , 25 ) P0 , 9 − P0 ,1
Valores posibles a) Leptocúrtica (concentración al centro): Si el grado de apuntalamiento de una distribución es mayor que el de la distribución normal. Kµ ≅ 0,5 102
Jorge Córdova Egocheaga
b) Mesocúrtica (distribuidos simétricamente): Si el grado de apuntalamiento de una distribución es igual que el de la distribución normal. Kµ ≅ 0,25 c) Platicúrtica (aplanada).Si el grado de apuntalamiento de una distribución es menor que el de la distribución normal. Kµ ≅0,25 Platicurtica 0,0
Mesocurtica
Leptocúrtica
0,25
0,50
Ejemplo: La tabla muestra la edad (en años) de 70 pacientes atendidos en el servicio de emergencia de un hospital local.
4 3 5 6 7 25 13 2 4 5
67 85 6 7 7 10 12 15 16 17
18 15 16 17 15 13 13 14 20 14
15 15 15 16 17 17 13 14 16 17
11 14 13 10 6 4 8 14 18 20
3 5 7 8 12 15 17 18 20 21
24 26 21 22 17 16 9 9 15 12
103
Manual de Estadística General
A) Calcular e interpretar la asimetría de la distribución B) Calcular e interpretar la curtosis de la distribución. Los resultados han sido obtenidos usando Microsoft Excel Media aritmetica Desviacion estandar Mediana Cuartil 1 Cuartil 3 Percentil 90 Percentil10
104
14.27 3(14,27 − 13,50 ) = 0,202 11.42 S kp = 11,42 13.50 7.00 0,5(17,00− 7,00) 17.00 Ku = 23,00− 4,00 = 0,263 23.00 4.00
CAPÍTULO
7
NOCIONES DE PROBABILIDAD
OBJETIVOS Al finalizar el Capítulo 7, el participante será capaz de: 1. 2. 3.
Aplicar los conceptos de experimento, espacio muestral y evento. Discutir los principios para asignar probabilidad. Utilizar las reglas de probabilidad para plantear y resolver un problema real.
Manual de Estadística General
7.1 IMPORTANCIA DE LAS PROBABILIDADES Las probabilidades están presentes en nuestras vidas más a menudo de que podríamos sospechar. Todos tenemos una gran intuición probabilística. Por ejemplo, en días lluviosos, fríos y con mucha humedad es alta la probabilidad de coger un resfrío. Si ingerimos alimentos en lugares poco higiénicos, en ambulantes es muy probable que contraigamos una infección estomacal. ¿Cómo es la probabilidad de ganar el premio mayor en Tinka?. Muy baja, pues hay muchas alternativas en juego. Pero aún sabiendo esto, compramos uno que otro número. La decisión creo yo que es racional. Si escuchamos una predicción de 80% que lluvia, y Ud. tiene planeado un paseo al campo con la familia. ¿Qué hace?. Lo mas racional es que cancele su paseo y se quede en su casa viendo en video. 7.2 CONCEPTOS BÁSICOS (A) Experimento: Ejecución voluntaria de un fenómeno. Se caracteriza por: Tener varios resultados posibles Existir incertidumbre sobre el resultado Ejemplos: Lanzar una moneda Seleccionar de un lote un frasco de medicamentos Extraer una muestra de sangre a una persona (B) Espacio Muestral: conjunto de todos los resultados posibles de un experimento. Se simboliza por Ω (omega).
106
Jorge Córdova Egocheaga
Ejemplos: Lanzar una moneda Ω = {cara, sello} Seleccionar de un lote, un medicamentos. Ω ={adecuado, inadecuado} Extraer una muestra de sangre a una Ω = {grupo sanguíneo}
frasco
de
persona.
Ejemplo: Se lanzan tres monedas simultáneamente. Los ochos resultados posibles de este experimento pueden detallarse de manera conveniente mediante un diagrama de árbol: Primera Moneda
Segunda Moneda
C C S C S
S
Tercera Moneda
C S C S C S C S
Resultado Posible
CCC CCS CSC CSS SCC SCS SSC SSS
Ω ={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS} (C) Suceso: subconjunto del espacio muestral, seleccionado de acuerdo a una condición. Se representan por letras latinas mayúsculas.
107
Manual de Estadística General
Ejemplo: Se lanzan dos dados. El espacio muestral de este experimento es: Ω=
{ (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) }
Podemos considerar los siguientes sucesos: A:
la suma de puntajes es 7, es decir A = {(1,6) (2,5) (3,4) (4,3) (5,2) (6,1)}
B:
la suma de puntajes es 11, es decir B={(5,6) (6,5)}
C: la suma de puntajes es 7 u 11, es decir C={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (5,6) (6,5)} 7.3 PROBABILIDAD (A) Concepto: Ponderación asignada a cada punto muestral que mide la verosimilitud de su ocurrencia. (B) Principios para asignar probabilidad:
108
a)
La probabilidad de cada punto muestral debe estar entre 0 y 1
b)
La suma de las probabilidades de todos los puntos muestrales deben ser iguales a 1.
Jorge Córdova Egocheaga
0
0,5
Improbable
Tan probable como improbable
1 Probable
Ejemplos: 1. Se lanza una moneda Ω={cara, sello} P(cara) = 0,5
P(sello) = 0,5
2. Se lanzan 3 monedas Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 1/8 1/8 1/8 1/8 /8 1/8 1/8 1/8 A: obtener exactamente 2 caras A = {CCS, CSC, SCC} 1/8 + 1/8 + 1/8 P(A) = 3/8 (C) Conclusiones: De acuerdo a la definición de probabilidad de un suceso, y a los dos principios, tenemos las siguientes conclusiones: (1º) P(Ω) = 1 (2º) P( ∅ ) = 0 (3º) P(A´) = 1 - P(A) PROBABILIDADES - EJEMPLOS 1.
Un investigador trabaja con un nuevo fármaco para insensibilizar a los pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180 presentaron una
109
Manual de Estadística General
disminución en la gravedad de los síntomas tras sufrir una picadura, después de ser sometidos al tratamiento. 2.
Un paciente sufre de cálculos renales, y no se ha conseguido mejora alguna a partir de métodos ordinarios. Su medico ésta planteándose el llevar a cabo una intervención quirúrgica y debe responder a la siguiente pregunta: ¿Cuál es la probabilidad de que la operación sea un éxito?.
PROBABILIDAD DEL PUNTO ESTADISTICO Quien emplea la estadística aplicada prefiere pensar en la probabilidad como el numero de veces en las que se presentará determinada situación si una experiencia fuera repetida indefinidamente en situaciones de naturaleza repetitiva o que pudiera concebirse de esa manera 7.4 REGLAS DE PROBABILIDAD 7.4.1 Regla de la Adición
A
B
(A B) U
U
P(AUB) = P(A) + P(B) - P(A B) Ejemplo: Un cliente ingresa a una farmacia. La probabilidad de que compre (a) un antibiótico es 0,60 (b) analgésico 110
Jorge Córdova Egocheaga
0,50, y c) antibiótico y analgésico es 0,30 ¿Cuál es la probabilidad de que compre un antibiótico, analgésico o ambos?. Datos P(P) = 0,60 P(L) = 0,50 P = 0,30 P(PUL) = P(P) + P(L) – P(PUL) = 0,60 + 0,50 - 0,30 P(PUL) = 0,80 Regla de adición para sucesos mutuamente excluyentesDos sucesos son mutuamente excluyentes, si no tienen elementos comunes
A
B
⇒ P(AUB) = P(A) + P(B)
Si : (A B) = ∅ Por lo tanto : P(A B) = 0 U U
Ejemplo: Se extrae una carta de una baraja. ¿Cuál es la probabilidad de que sea un as o un rey?
P(AUR) = P(A) + P(R) 4 P(A) = 52 4 P(R) = 52
4 4 + 52 52 8 = 52 =
111
Manual de Estadística General
Ejemplo 1: Se dispone de 11 historias clínicas, pertenecientes a pacientes masculinos y femeninos agrupados por su nivel de hemoglobina.
M
F
(Masculino)
(Blanca)
Total
A (Anémico)
5
3
8
N (Normal)
1
2
3
6
5
11
Estado
Total
a) ¿Cuál es la probabilidad de extraer una historia perteneciente a un paciente anémico? 8 P(A) = 11 b) ¿Cuál es la probabilidad de extraer una historia correspondiente a un paciente anémico y que sea mujer? 3 P(A I F) = 11 Dado que la historia corresponde a un paciente anémico, ¿cuál es la probabilidad que sea mujer?
P(F
A
)= 3 8
Derivación de la fórmula:
P (F
A
)=
P(F I B) P(A)
Comprobando
P(F
112
3
A
) = 811 11
Jorge Córdova Egocheaga
P (F
A
)= 3 8
Ejemplo 2 Se recolectó información sobre el peso del recién nacido y si la madre fumó o no durante el embarazo. Los datos se presentan a continuación: CONDICIÓN
PESO R.N.
TOTAL
DE FUMADORA
BAJO
NORMAL
SI
30
10
40
NO
20
140
160
TOTAL
50
150
200
A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso?
P(bajo) =
50 = 0,25 200
B. ¿Cuál es la probabilidad que una gestante fume?
P(si) =
40 = 0,20 200
C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal? 150 = 0,75 P(normal) = 200 D. ¿Cuál es la probabilidad de que un recién nacido tenga bajo peso o sea normal? Como son mutuamente excluyentes:
113
Manual de Estadística General
P(bajoónormal) = P(bajo) + P(normal) =
50 150 + 200 200
= 1
E. ¿Cuál es la probabilidad de que el recién nacido tenga bajo peso o la madre haya fumado durante el embarazo? P(bajoósi ) = P(bajo ) + P( si) − P(bajoysi ) =
50 40 30 60 + − = = 0,30 200 200 200 200
Aplicación La probabilidad de que el personal administrativo que labora en una clínica local, llegue tarde el día lunes es 0,50 y la probabilidad de que llegue retrasado los días lunes y martes es 0,20. Dado que cierto trabajador llegó tarde el día lunes, ¿cuál es la probabilidad de que llegue tarde el día siguiente?. P (TM
P(TL ) = 0,50
P(T L I TM ) = 0,20
A partir de
P(A I B) ) = A P(A)
Se despeja
( A)
P( A I B) = P( A) • P B
114
) = P(T
M I TL ) P(TL )
=
7.4.3 Regla de la Multiplicación
P( B
TL
0,20 = 0,40 0,50
Jorge Córdova Egocheaga
Aplicación Se sabe que en un lote de medicamentos de 50 frascos, hay 4 que no están adecuadamente empacados (defectuosos). Si se extraen al azar 2 frascos, uno a continuación del otro, ¿cuál es la probabilidad de que ambos sean defectuosos?. P(D1 ) = P(D 2
D1
4 50
)=
(
P ( D1 I D 2 ) = P ( D1 ) • P D 2
3 49
=
D1
)
4 3 12 • = 50 49 2450
Ejercicio En una población de pacientes hospitalizados, la probabilidad de que uno de ellos, elegido aleatoriamente tenga problemas cardiacos es 0,35. La probabilidad de que un paciente con problemas cardiacos sea un fumador es de 0,86. ¿Cuál es la probabilidad de que el paciente elegido al azar de entre la población sea fumador y tenga problemas cardiacos?. Regla de la independientes.
multiplicación
para
sucesos
Los sucesos A y B se consideran independientes cuando la ocurrencia de uno no influye sobre la probabilidad de ocurrencia del otro; esto significa que, independientemente de que A haya ocurrido o no, la probabilidad asignada a B es siempre la misma.
P (B
A
) = P (B)
¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean varones? 115
Manual de Estadística General
Ejemplo 1: La Compañía de Seguros JL ha desarrollado un novedoso seguro médico familiar. De acuerdo con una investigación hecha en el mercado, la probabilidad de que el producto tenga éxito es 0,80 si una compañía competidora no introduce un plan similar en el mercado, en tanto que la probabilidad de éxito es 0,30 si la empresa competidora lanza al mercado un seguro similar. Además, la compañía JL estima que hay una probabilidad de 0,40 de que la firma competidora comercialice el producto. Entonces:
⇒ P ( A I B ) = P ( A) • P ( B ) Ejemplo ¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean varones?
P (V1 ) = 0,5 P (V2 ) = 0,5
P ( V1 I V2 ) = P ( V1 ) • P ( V2 ) = (0,5) (0,5) P ( V1 I V2 ) = 0,25
7.4.4 El teorema de Bayes Consiste en una partición de la probabilidad total.
116
Jorge Córdova Egocheaga
Ejemplo 1: La Compañía de Seguros JL ha desarrollado un novedoso seguro médico familiar. De acuerdo con una investigación hecha en el mercado, la probabilidad de que el producto tenga éxito es 0,80 si una compañía competidora no introduce un plan similar en el mercado, en tanto que la probabilidad de éxito es 0,30 si la empresa competidora lanza al mercado un seguro similar. Además, la compañía JL estima que hay una probabilidad de 0,40 de que la firma competidora comercialice el producto. Dado que el producto de la Compañía JL tuvo éxito, ¿cuál es la probabilidad de que la firma competidora haya comercializado su novedoso plan de seguro? Solución: P(C) = probabilidad de que competidora comercialice el producto,
la
compañía
P(C´) = probabilidad de que la compañía competidora no comercialice el producto, P(E) = probabilidad de que el plan de seguro familiar de la compañía JL tenga éxito. P. Marginal
=0 P( C )
,40
P(C ´) = 0,6 0
P. Condicional
P. Conjunta
P(E/C) = 0,30 P ( C I E) = 0,40 × 0,30 = 0,12
' P(E/C´) = 0,80 P ( C I E) = 0,60 × 0,80 = 0,48
P. Total P ( E) = 0,60
Luego, de acuerdo con el Teorema de Bayes 117
Manual de Estadística General
P (C
)= E
=
P ( C I E) P ( C I E) + P ( C ' I E)
0 .12 0 .12 = = 0 .20 0 .12 + 0 .48 0 .60
La probabilidad que la compañía de seguros haya participado en el mercado, dado que JL tuvo éxito es de 0,20. Ejemplo 2 El Director de la Clínica Santa Teresa está considerando comprar un lote de 10000 equipos de venoclisis de un proveedor nacional. El fabricante de estos equipos estima la proporción de equipos defectuosas en el lote, en la siguiente forma.
Proporción de piezas defectuosas (π)
Probabilidad P(π)
π1 = 0,10
P(π1) = 0,20
π2 = 0,15
P(π2) = 0,30
π3 = 0,25
P(π3) = 0,50
Esto significa que el proveedor no está seguro acerca de la proporción de equipos defectuosos en el lote, sin embargo, basándose en experiencias anteriores, cree que hay una probabilidad de 0,20 de que el lote tenga 10% de piezas defectuosas, una probabilidad de 0,30 de que tenga 15%. Y finalmente, de 0,50 de que tenga 25% de piezas defectuosas. Supongamos que elige un equipo de venoclisis al azar en el lote:
118
Jorge Córdova Egocheaga
A) ¿Cuál es la defectuosa?
probabilidad
de
qué
esta
sea
B) Dado que el equipo resulta defectuoso, ¿cuál es la probabilidad de que el lote tenga 25% de piezas defectuosas? P. Condicional
P. Marginal
P(D/π1)= 0,10
P (π 1 I D) = 0,20 × 0,10 = 0,0200
P(
π
1)
=
0, 20
π1=0,10
P. Conjunta
P(π2) = 0,30 π =0,15 2
P(D/π2)= 0,15
P (π 2 I D) = 0,30 × 0,15 = 0,045
P( )= π3 50 0,
P(D/π3)= 0,25 π3=0,25
P (π 3 I D) = 0,50 × 0,25 = 0,1250
P ( D) = 0,1900 Respuesta A: Hay tres maneras posibles de obtener un equipo defectuosa del lote. Por lo tanto, la probabilidad de obtener una pieza defectuosa, cualquiera que se la tasa porcentual de defectuosos 10, 15 ó 25 es:
P( D) = P(π 1 I D) + P(π 2 I D) + P(π 3 I D)
= 0,0200 + 0,0450 + 0,1250 = 0,19
119
Manual de Estadística General
Ejercicio B De acuerdo con el Teorema de Bayes, la probabilidad de que el lote contenga 25% de piezas defectuosas, dado que la pieza elegida es defectuosa, es:
P(π 3 / D) =
P(π 3 I D) 0.1250 = = 0.6579 P(D) 0.1900
Ejercicio Un médico ha decidido recetar dos nuevos medicamentos a 200 pacientes enfermos del corazón de la manera siguiente: 50 pacientes tomarán el medicamento A, otros 50 tomarán el medicamento B y los otros 100 restantes tomarán ambos medicamentos El medicamento A reduce la probabilidad de un infarto en 0,35 , el medicamento B reduce la probabilidad de un infarto en 0,20 y los dos medicamentos, cuando se les toma juntos, actúan de manera independiente. Los 200 pacientes fueron escogidos entre los que tenían 0,80 de probabilidad de sufrir un infarto. Si un paciente elegido al azar sufre un infarto, ¿cuál es la probabilidad de que haya tomado ambos medicamentos?
120
CAPÍTULO
8
DISTRIBUCIONES DE PROBABILIDADES OBJETIVOS Al finalizar el Capítulo 8, el participante será capaz de: 1. 2. 3. 4.
Identificar las distribuciones de probabilidad que más se utilizan en la toma de decisiones. Utilizar el concepto de valor esperado para la toma de decisiones. Mostrar cuál distribución de probabilidad utilizar, y como encontrar sus valores. Comprender las limitaciones de cada una de las distribuciones que utilice.
Manual de Estadística General
8.1 TECNICAS DE CONTEO Combinación: Es una selección de objetos con independencia en su ordenamiento. Ejemplo: Un biólogo dispone de 10 plantas para un experimento. Sólo ocho son necesarias para realizarlo. Las ocho plantas necesariamente son seleccionadas aleatoriamente. Permutación: Es una distribución de objetos en un orden determinado. Ejemplo: El numero del DNI. PERMUTACIÓN Cálculo del número de permutaciones para n objetos tomados de x
Pxn =
n! donde x ≤ n (n − x)!
Ejemplo: Los biólogos están interesados en el orden en que cuatro ribonucleótidos adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar una cadena. ¿Cuántas cadenas formadas por dos nucleótidos pueden formarse?
122
Jorge Córdova Egocheaga
4! 4x3x2x1 P = = = 12 (4 − 2)! 2 x1 4 2
Hacer Hacerun undiagrama diagramade deárbol árbol para paraindicar indicarlas las12 12cadenas cadenas
COMBINACIÓN Numero de combinaciones de n objetos tomadas de r
C xn =
n! donde x ≤ n x !( n − x ) !
Ejemplo: Se realiza un estudio para determinar la opinión de los profesores de la EPUNFV respecto al aborto; si se elige una muestra de cuatro profesores de un total de 45. ¿Cuántas muestras distintas pueden seleccionarse C 445 =
45! 45 x 44 x 43 x 42 x 41! 45 x 44 x 43 x 42 = = = 148, 995 4!(45 − 4)! 4! x 41! 4!
8.2 LAS DISTRIBUCIONES DE PROBABILIDAD (A) Concepto: Es una distribución de frecuencias teórica que describe la forma en que se espera que varíen los resultados. Resultan útiles para realizar inferencias y tomar decisiones bajo incertidumbre. Ejemplo: Se seleccionan en forma consecutivas dos bebes del servicio de Neonatología . El número de varoncitos será:
123
Manual de Estadística General Nº de Resultados Probabilidad varones 0 V,V 0,25 1 VM,MV 0,50 2 MM 0,25
Probabilidad
0.50
0.25
0
1
2
(B) TIPOS DE DISTRIBUCIONES DISCRETAS: La variable toma un número valores. Abarca :
limitado de
- Distribución binomial - Distribución de Poisson - Distribución hipergeométrica CONTINUAS: La variable puede tomar cualquier valor dentro de un intervalo dado. Abarca: - Distribución normal - Distribución normal estándar o Z - Distribución t 2 - Distribución Ji-cuadrada χ - Distribución F 8.3 VARIABLES ALEATORIAS Una variable es aleatoria si toma diferentes valores como resultado de un experimento . Puede ser discreta o continua Ejemplo: Se lanzan 3 monedas X : variable aleatoria (ej : número de caras) x : valores que puede tomar la variable (ej : 0, 1, 2, 3) 124
Jorge Córdova Egocheaga
Esperanza matemática : E (X) Es el promedio de la variable aleatoria, si el experimento se repite un número infinito de veces. Ejemplo : Se lanzan 3 monedas 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 3 caras.
2 caras
P(x) XP(x) 0 1 2 3
1/8 3/8 3/8 1/8
0 3/8 6/8 3/8
1/8
1 cara Ε ( X) =
∑ XP( x )
=
12 8
= 1,5
12/8
Aplicación: uso del valor esperado y las pérdidas monetarias. Supongamos que un distribuidor de medicinas muy que rápidamente se deterioran (vacunas) compra cada cajita a 20 u.m. y las vende a 50 u.m.. No puede especificar el número de cajitas que le solicitarán diariamente, pero dispone de los siguientes datos:
Ventas diarias 10 11 12 13
Nº de días de venta 15 20 40 25 100
Probabilidad de venta de cada cantidad 0.15 0.20 0.40 0.25 1.00
Tipo de pérdidas
125
Manual de Estadística General
(A) Pérdidas por mermas (obsolescencia): oferta > demanda (costo contable) (B) Pérdidas de oportunidad: oferta < demanda (costo económico)
Posibles Nº de cajitas pedidas/día 10 11 12 13
Alternativas de oferta 10
11
12
13
0 30 60 90
20 0 30 60
40 20 0 30
60 40 20 0
Cálculo de la pérdida esperada Para un stocks de 10 cajitas, la pérdida esperada será:
Posibles Nº de cajitas pedidas/día 10 11 12 13
Probabilidad Pérdida que se reciban Condicional estos pedidos 0 30 60 90
Pérdida esperada
0.00 0.15 6.00 0.20 24.00 0.40 22.50 0.25 Pérdida esperada: 52.50
Solución óptima: analizar otros tamaños de stocks y decidir por aquél que genere la menor perdida
126
Jorge Córdova Egocheaga
8.4 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 8.4.1 La distribución binomial Se utiliza para describir variables discretas. Es una de las distribuciones mas utilizadas en la estadística aplicada. La distribución se deriva de un procedimiento llamado ensayo de Bernoulli, nombrado así en honor del matemático Suizo James Bernoulli (1654 - 1785) a) Características: El experimento consiste en una serie de ensayos repetidos. Cada ensayo sólo tiene dos resultados posibles: éxito y fracaso. La probabilidad de éxito, designado por p es la misma para cada ensayo, la probabilidad de fracaso q (igual a 1-p) es también constante. 1. Los ensayos sucesivos son independientes. 2. Puede ser simétrica o sesgada. 3. La información de la muestra se obtiene con reposición de una población finita. b) Fórmula
P(X = x) =
n! p xq n-x x! (n - x)!
donde: n : número de ensayos x : número de éxitos p : probabilidad de éxitos en un ensayo q : probabilidad de fracaso en un ensayo n - x : número de fracaso en el ensayo Se aplica a la selección de una muestra, sólo cuando el resultado de cada solución es 127
Manual de Estadística General
independiente de los resultados de las selecciones anteriores. c) Aplicación: Una muestra de 4 frascos se selecciona sin restitución de un lote de 5,000 frascos de cierto laboratorio farmacéutico. Suponiendo que 20% de los frascos de lote no cumplen con las especificaciones médicas, ¿cuál es la probabilidad de que la muestra contenga exactamente 2 frascos malos? Datos: n=4 x=2 p = 0,20 q = 0,80
P(X = x ) =
n! p xq n-x x! (n - x )!
P(X = 2) =
4! (0.2 )2 (0.80 )2 2! (4 - 2)!
= 0,1536 Ejercicio La escasez de glóbulos rojos puede determinarse examinando al microscopio una muestra de sangre. Suponiendo que un volumen pequeño contenga por término medio 4 glóbulos rojos en personas normales, ¿cuál es la probabilidad de que una muestra de personas normales:
128
Jorge Córdova Egocheaga
¿contenga exactamente tres glóbulos rojos? Ninguno tenga glóbulos rojos? d) La distribución Cierto proceso médico se repite cuatro veces. Suponga que existe la probabilidad de 0.50 que el proceso resulte deficiente. En cuatro repeticiones se puede obtener 0,1,2,3 ó 4 procesos deficientes. Se puede calcular la probabilidad de cada uno de estos posibles resultados mediante la distribución binomial. X (Número de procesos deficientes)
P(X = x )
0
4! 1 1 = 116 0!4! 2 2
1
4! 1 1 4 = 16 1!3! 2 2
2
4! 1 1 = 6 16 2!2! 2 2
3
4! 1 1 4 = 16 3!1! 2 2
4
4! 1 1 = 116 4!0! 2 2
0
4
1
3
2
2
3
1
4
0
A estos resultados se denomina distribución de probabilidad. e) La media y la desviación estándar Consideramos la distribución del ejemplo anterior (p = 1/2, n = 4)
X P(X = x )
0 1/16
1 4/16
2 3 6/16 4/16
4 1/16
129
Manual de Estadística General
La media
µ = ∑ XP ( x) X
P(x)
XP(x)
0 1 2 3 4
1/16 4/16 6/16 4/16 1/16
0 4/16 12/16 12/16 4/16 32/16
32
∑ XP ( x ) = 16
µ = 2 procesos
También: µ = np µ = 4( 1 2 ) = 2
Interpretación: Si seleccionamos 4 procesos médicos al azar, se espera encontrar 2 procesos deficientes, si este experimento se repite un número infinito de veces. La desviación estándar
σ =
∑ (x − µ )
2
P( x)
x
P( x )
(x − µ )
(x − µ )2
( x − µ ) 2 P( x)
0 1 2 3 4
1/16 4/16 6/16 4/16 1/16
-2 -1 0 +1 +2
4 1 0 1 4
4/16 4/16 0 4/16 4/16 16/16
2 ∑ (X − µ ) P( x) =
σ = ∑ (X − µ ) 2 P( x) =
130
16 16 16 = 1 proceso deficiente 16
Jorge Córdova Egocheaga
También
σ = =
npq 4 ( 0,5 )( 0 ,5) = 1
La distribución binomial (p = 1/2, n = 4) tiene una media de 2 y una desviación estándar de 1. Ejemplo La Dra. Jiménez, Directora de Control de Calidad de un gran hospital, se encuentra realizando su revisión mensual a los procesos de emergencia pediátrica. En el procedimiento, se seleccionan 10 procesos y se les analiza en busca de deficiencias administrativas. A lo largo del tiempo, sólo 2% de las emergencias pediátricas registran deficiencias administrativas (suponga que las deficiencias se presentan de manera independiente en diferentes procesos). •
•
¿Cuál es la probabilidad de que la muestra del Dra. Jiménez contenga más de dos procesos con deficiencias administrativas? ¿Cuál es la probabilidad de que en ninguno de los procesos seleccionados registre deficiencia administrativa?
Ejemplo: Supóngase que en cierta población el 52 por ciento de todos los nacimientos que se registraron son varones. Si aleatoriamente se escogen cinco registros de nacimientos dentro de esa población, ¿cuál es la probabilidad de que exactamente tres de ellos pertenezcan a varones?.
131
Manual de Estadística General P = 0.52 q = 1 - 0.52 = 0.48 n=5
P(3,5) =
r=3
5! 0.523 0.48(5 −3) = 0.32 ≅ 32% 3!(5 − 3)!
Uso de Tablas Solucionando el problema anterior usando la tabla de probabilidades binomiales ta bla de proba bilida de s binom ia le s
p n
r
5
n
r
0.37
0.38
0.39
0.40
0.41
0.42
0.43
0.44
0.45
0.46
0.47
0.48
0.49
0.50
r
0
0.0380
5
1 2 3 4 5
0.1755 0.3240 0.2990 0.1380 0.0255
4 3 2 1 0
0.63
0.62
0.61
0.60
0.59
0.58
0.57
0.56
0.55
0.54
0.53
0.52
0.51
0.50
r
n
5
n
p
La probabilidad de tener 3 inscritos varones de 5 registros realizados es del 0.324 o 32.4%. 8.4.2 Distribución de Poisson: Es una distribución muy usada en medicina y biología. Se deriva del proceso de Poisson en honor al matemático francés Simeon Denis Poisson (17811840). Debe cumplir las siguientes condiciones: La ocurrencia de los eventos son independientes. El número promedio de veces (l) que ocurre un éxito por cada unidad de tiempo o de espacio es constante.
132
Jorge Córdova Egocheaga
La probabilidad de un suceso es una unidad de tiempo o de espacio muy pequeña.Ejemplos de aplicaciones de Poisson: Pacientes que llegan a la sala de urgencias de un hospital durante un cierto día. Defectos de un rollo de gasa. Accidentes por hora en cierta parte de una carretera. Clientes que llegan a la caja registradora de una farmacia en un determinado horario. Si el tamaño de la muestra es bastante grande (n>50) y la probabilidad de un evento particular es muy pequeño (p < 0,1) y se desea hallar la probabilidad de un número determinado de éxitos, se puede aplicar la distribución de Poisson, dada por la siguiente ecuación.
P(X = x ) =
λx
e−λ x!
donde λ
e
(lambda): media = np = variancia : base de logaritmos naturales =2.71828
x!
Ejemplo: Supongamos que estamos investigando la seguridad de una peligrosa intersección de calles, los registros policíacos indican un media de 5 accidentes mensuales en esta intersección. El número de accidentes esta distribuido de acuerdo con una distribución de Poisson y el departamento de seguridad vial desea que calculemos la probabilidad de que en cualquier mes ocurra exactamente 3 accidentes.
133
Manual de Estadística General X = 3 acc/mes
P( x =3) =
λ = 5 acc/mes
53 2.7183−5 = 0.14042 ≅ 14.04% 3!
Uso de Tablas Solucionando el problema anterior usando la tabla de distribución de probabilidades de Poisson:
λ x
4 .1
.........
4 .5
..........
4 .9
5
0
0 .0 0 6 7
1
0 .0 3 3 7
2
0 .0 8 4 2
3
0 .14 0 4
4
0 .17 5 5
5
0 .17 5 5
La probabilidad de tener exactamente 3 accidentes en un mes cualquiera es 0.1404 Aplicación La probabilidad de “número equivocado” a pesar de haber marcado correctamente es 0,03. Si se toma una muestra de 100 llamadas, ¿cuál es la probabilidad de tener 2 “número equivocado”? Solución: p = 0.03 n = 100
λ=3
134
P(X = 2 ) =
3 2 • ( 2.71828) − 3 2!
= 02240
Jorge Córdova Egocheaga
La aproximación de Poisson a la distribución Binomial Consideremos una distribución binomial con p=0.02 y n = 100. Supongamos que nos interesa calcular la probabilidad de que X = 3 utilizando la formula binomial, podemos encontrar la probabilidad exacta de la forma siguiente: P(X = 3) =
100! ( 0,02 ) 3 ( 0,98 ) 97 3! 97!
= 0,1823
Los cálculos son muy tediosos. Cuando p es pequeño y n es lo suficientemente grande, la formula binomial puede aproximarse mediante una distribución de Poisson con µ = np Luego, utilizando una distribución de Poisson encontramos que la probabilidad de que X=3 es:
−µ µx e P(X = 3) = x!
µ = np = 100 (0,02) = 2
=
( 2 ) 3 × ( 2 , 71828 ) − 2 8 = = 0 ,1805 3! 6 ( 2 , 71828 ) 2
La respuesta es muy ¨próxima¨ a la encontrada con la distribución binomial. La aproximación se considera válida cuando
p ≤ 0.05 y n ≥ 20
135
Manual de Estadística General
8.4.3 La distribución hipergeométrica Se utiliza para describir variables discretas a) Características La información de la muestra se obtiene sin reposición de una población finita, por lo tanto la probabilidad de éxito varía. b) FormulaDonde
M N − M k n − k P(X = k ) = N n
donde: M : número de éxitos en la población k : número de éxitos en la muestra N : tamaño de la población N-M: número de fracasos en la población n : tamaño de la muestra n-k : número de fracasos en la muestra
c) Aplicación Calcular la probabilidad de obtener 10 tubos defectuosos en una muestra de 20 tubos de radio tomados sin reemplazo de un lote de 30 tubos, de lo cuales 15 son defectuosos. Datos: k = 10 n = 20 N= 30 M= 15
15 30 −15 10 20 − 10 P(X = 1 0) = 30 20 = 136
( 3003 )( 3003 ) 9018009 = 30045015 30045015
= 0 ,3001
Jorge Córdova Egocheaga
Si erróneamente se usa la distribución binomial con n = 20 y p =15/30 = 1/2 para calcular la probabilidad de tener 10 defectuosos, el resultado será:
P(X = x ) = =
( )( )
10 10 20! 1 1 2 10! (20 - 10)! 2
184756 = 0 ,1762 1048576
Una probabilidad considerablemente menor que la probabilidad real. d) Forma Puede ser simétrica o sesgada. Cada vez que p = 0.5, la distribución hipergeométrica será simétrica sin tener en cuenta qué tan grande o pequeño sea el valor de n; sin embargo, cuando p ¹ 0,5 la distribución será sesgada. El grado de sesgo variará, dependiendo de la proximidad del p a 0,5 y del tamaño de n. e) La media y la desviación estándar La media: La desviación estándar:
σ =
Donde
np (1 − p ) •
N −n N −1
N −n N −1
137
Manual de Estadística General
es un factor de corrección de población finita que se produce debido al proceso de muestreo sin reposición de poblaciones finitas. 9.4 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 9.4.1 La distribución normal También conocida como campana de Gauss en honor al matemático Karl Gauss ( siglo 19). Es importante por: Es muy aplicable para inferencia estadística Se ajusta (casi) a las distribuciones de frecuencias reales observadas. Se utiliza para describir el comportamiento de una variable continua. (a) Características Tiene un sólo pico (unimodal). Forma acampanada. La media cae en el centro La media, media y moda coinciden Es asintótica al eje horizontal
138
Jorge Córdova Egocheaga
b) Fórmula La función de densidad: f(x), para la distribución normal tiene la siguiente formula: donde: e : constante matemática: 2.71828 p :constante matemática: 3.14159 m : media de la población s : desviación estándar de la población x : cualquier valor de la variable aleatoria continua Areas debajo de la curva normal No importa cuales son los valores de m y s, para una distribución de probabilidad normal el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fuesen probabilidades. Matemáticamente es verdad que: 1: Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra datos ±1 desviación estándar de la media .
6 8 % d a to s 2: Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra datos ±2 desviación estándar de la media.
139
Manual de Estadística General
µ − 2σ
µ
µ + 2σ
94.6% datos 3: Aproximadamente 99.7% de todos los valores de una población normalmente distribuida se encuentra datos ±3 desviación estándar de la media
µ − 3σ
µ
µ + 3σ
9 9 % d a to s 8.5.2 La distribución normal estándar (Z) La distribución normal tiene diferente µ y σ para calcular probabilidades habría que integrar la función de densidad. Por este motivo se estandariza la variable. La estandarización es un proceso estadístico que consiste en restar la media a la variable y el resultado dividirlo por la desviación estándar.
140
Jorge Córdova Egocheaga
Z=
x−µ
σ
La tabla de distribución normal estándar, es la siguiente: z
0 .0 0
0 .0 1
0 .0 2
0 .0 3
0 .0 4
0 .0 5
0 .0 6
0 .0 7
0 .0 8
0 .0 0 .1 : : 1 .1 1 .2 : : 2 .4 2 .5 :
0 .0 0 0 0 0 .0 3 9 8 : : 0 .3 6 4 3 0 .4 0 3 2
0 .0 0 4 0 0 .0 4 3 8 : : 0 .3 6 6 5 0 .4 0 4 9
0 .0 0 8 0 0 .0 4 7 8 : : 0 .3 6 8 6 0 .4 0 6 6
0 .0 1 2 0 0 .0 5 1 7 : : 0 .3 7 0 8 0 .4 0 8 2
0 .0 1 6 0 0 .0 5 5 7 : : 0 .3 7 2 9 0 .4 0 9 9
0 .0 1 9 9 0 .0 5 9 6 : : 0 .3 7 4 9 0 .4 1 1 5
0 .0 2 3 9 0 .0 6 3 6 : : 0 .3 7 7 0 0 .4 1 3 1
0 .0 2 7 9 0 .0 6 7 5 : : 0 .3 7 9 0 0 .4 1 4 7
0 .0 3 1 9 0 .0 7 1 4 : : 0 .3 8 1 0 0 .4 1 6 2
Cuando Z=1.27 entonces el área vale: .....
σ = 2.5
µ = 10
15
141
Manual de Estadística General
Ejercicio: Un terapista físico piensa que los puntajes en una prueba de destreza manual tiene una distribución aproximadamente normal, con una media de 10 y una desviación estándar de 2,5. Si a un individuo, elegido aleatoriamente, se le aplica el examen, ¿cuál es la probabilidad de que logre un puntaje de 15 o mas puntos?. Obtenemos la siguiente información:
µ = 10
σ = 2.5
Calculando Z:
z=
x−µ
σ
σ = 2.5 15 − 10 = =2 2.5
Para Z=2, buscamos en la tabla cual es la probabilidad (o área) que le corresponde:
µ = 10 15
Área = .4772 Como deseamos conocer esta área:
σ = 2.5
P ( x ≥ 15) = 0.5 − 0.4772 = 0.0228 ≅ 2.28% µ = 10 15
¿Cuál es la probabilidad de que se logre un pontaje entre 11 y 14? Calculando Z:
Cuando x = 11 ⇒ z =
11 − 10 = 0.4 ⇒ A = 0.1554 2.5
Cuando x = 14 ⇒ z =
14 − 10 = 1.6 ⇒ A = 0.4452 2.5 11 14
142
Jorge Córdova Egocheaga
El área sombreada se encuentra restando del área mayor (0.4452) el área menor (0.1554)
P (11 ≤ x ≤ 14) = 0.4452 − 0.1554 = 0.2898 ≅ 28.98% Aplicaciones Una empresa aplica un programa de entrenamiento diseñado para mejorar la habilidades de supervisión en los diferentes procesos que se desarrollan en un hospital. Debido a que el programa es autoadministrado, los supervisores requieren un número diferente de horas para concluirlo Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas. Pregunta 1. ¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa? Solución: En la figura, podemos ver que la mitad del área bajo la curva está localizada a ambos lados de la media de 500 horas. Por lo tanto podemos deducir que la probabilidad de que la variable aleatoria tiene un valor mayor a 500 es el área sombreada, es decir, 0.5.
P(X>500)=0.5
Pregunta 2:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento.
143
Manual de Estadística General
P(500≤ X ≤650)=0.4332
Z=
Z=
Solución: La gráfica se muestra la respuesta como zona sombreada, representada por el área entre la media (500 horas) y el valor de X, en el cual estamos interesados (650 horas). Estandarizando la variable tenemos un valor para Z
x−µ
σ
650 − 500 = 1.5 100 ç
Si buscamos Z = 1.5 en la tabla, encontraremos una probabilidad de 0,4332. En consecuencia, la probabilidad de que un candidato escogido al azar requiera entre 500 y 650 horas para terminar el programa de entrenamiento es ligeramente mayor a 0,4 Pregunta 3:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome más de 400 horas en completar el programa? Solución: Estamos interesados en el área a la derecha de 700. Estandarizamos
Z= Z =
144
x−µ
σ 700 − 500 =2 100
P(X >700)= 0..0228
Jorge Córdova Egocheaga
Tabla: si Z = 2.0 Þ Area: 0.4772 En consecuencia, la probabilidad mayor a 700 será 0,5 - 0,4772 = 0,0228 Por lo tanto hay un poco más de 2 oportunidades en 100 de que un participante elegido al azar se lleve más de 700 horas en completar el curso. Pregunta 4:Suponga que el director del programa desea saber la probabilidad de que un participante escogido al azar requiera entre 550 y 650 horas para completar el trabajo requerido en el programa. Solución: Primero calculamos el valor de Z para 650
Z=
x−µ
σ
650 − 500 = 1 .5 Z= 100
P(550≤ X ≤650)
A este valor le corresponde un área de 0,4332 Después calculamos un valor de Z para 550
Z= Z=
x−µ
σ
550 − 500 = 0.5 100
Correspondiéndole un área de 0,1915
145
Manual de Estadística General
Para responde la pregunta debemos estar restar las áreas: Probabilidad de que la variable aleatoria esté entre la media y 650 horas
0,4332
(-) Probabilidad de que la variable aleatoria esté entre la media y 550 horas
0,1915
(=) Probabilidad de que la variable aleatoria esté 550 y 650 horas
0,2417
Así pues, la probabilidad de que un supervisor elegido al azar se tome entre 550 y 650 horas para completar el programa de entrenamiento es un poco menor de 1 entre 4 Ejemplo Supóngase que la estancia promedio de internación en un hospital es de 5,5 días con una desviación estándar de 1,8 días. Si se supone que la duración de la internación se distribuye normalmente, encuentre la probabilidad de que un paciente seleccionado al azar de dicho grupo, tenga una duración de internación : de más de 6 días entre 4 y 7 días 8.5.3 La distribución t a) Características Al igual que la normal, también es simétrica es algo más plana que la distribución normal hay una distribución t para cada tamaño de muestra cuando el tamaño de la muestra es mayor a 30, la
146
Jorge Córdova Egocheaga
distribución t se asemeja tanto a la normal que se prefiere utilizar ésta.
CUANDO UTILIZAR Z o t
¿SE CONOCEσ ?
SI USAR
Z
USAR
Z
NO
¿es n ≥ 30?
SI
NO
USAR
t
147
Manual de Estadística General
TABLA DE DISTRIBUCION t DE STUDENT d.f. Grados de libertad
d. f . = n −1
d.f.
t .90
t .95
t .975
t .99
t .995
1
3.08
6.31
12.7
31.8
63.7
2
1.89
2.92
4.3
6.97
9.92
3
1.64
2.35
3.18
4.54
5.84
26
1.32
1.71
2.06
2.48
2.78
27
2.31
1.7
2.05
2.47
2.77
28
1.31
1.7
2.05
2.47
2.76
Ejemplo:
:
n= 28
:
N.C. = 95%
t=?
: :
d.f. = 28 - 1 = 27 t = 2,0518
: : :
b) Fórmula
t=
x−µ s n
c) Grados de libertad Se definen como el número de valores que podemos escoger libremente.
8.5.4 La distribución Ji-Cuadrada a) Características Es una distribución asimétrica a la izquierda Sólo considera valores positivos
148
Jorge Córdova Egocheaga
b) Definición La distribución Ji-cuadrada esta definida por
n
χ = ∑ Z i2 2
i =1
c) Aplicaciones Las aplicaciones más importantes están en la prueba de bondad de ajuste la prueba de independencia estadística d) Distribución
8.5.4 La Distribución F Características Es una distribución asimétrica a la derecha Sólo tiene valores positivos Se utiliza para comparar variancias poblaciones, con distribución normal
de
dos
149
Manual de Estadística General
Fórmula
F=
2 S mayor 2 S menor
Existe una “familia” de distribuciones F. Cada miembro de la familia está determinado por dos parámetros: los grados de libertad (gl) en el numerador y los grados de libertad en el denominador. El valor de F no puede ser negativo y es una distribución continua. La distribución F tiene sesgo positivo. Sus valores varían de 0 a ∞ . Con forme F → ∞ la curva se aproxima al eje X.
150
CAPÍTULO
9
MUESTREO Y DISTRIBUCIONES DE MUESTREO OBJETIVOS Al finalizar el Capítulo 9, el participante será capaz de: 1. Determinar el tamaño de una muestra 2. Asegurarse que las muestras que se extraigan sean representativas de la población de la que provienen 3. Comprender las distribuciones del muestreo 4. Comprender la relación entre el costo del tomar muestras más grandes y la precisión adicional que esto le proporcione a las decisiones tomadas a partir de ellas
Manual de Estadística General
9.1 IMPORTANCIA DEL MUESTREO En lugar de levantar un censo “completo” se realiza un muestreo, debido a que un censo: – – –
Requiere demasiado tiempo Es muy costoso Muy laborioso e ineficiente
9.2 TIPOS DE MUESTREO A)
MUESTREO NO PROBABILÍSTICO: inferencia estadística.
No
permite
M. de Juicio: Abarca el juicio del experto, opiniones de especialista M. de Cuotas: Se decide la estructura del marco muestral, sin tener en cuenta la estructura del marco poblacional. M. de Trozo: La elección de los “racimos” no se hace al azar. B) MUESTREO PROBABILÍSTICO: Permite inferencia estadística. Cada elemento del marco poblacional tiene una probabilidad conocida diferente de cero de conformar o ser parte de la muestra. 1.
Muestreo Aleatorio Simple (MAS): Concepto: Todas las unidades elementales tienen la misma probabilidad de conformar la muestra. Dicho de otro modo, significa que cada una de las posibles muestras de tamaño n, tenga a la misma ser seleccionada probabilidad: 1/N CN de (muestreo sin sustitución). Es el caso de un sorteo.
152
Jorge Córdova Egocheaga
Tamaño de la muestra: Depende de: La magnitud del máximo error permisible (e) y, el grado de confianza de que el error en la estimación no exceda del máximo error permisible (1- α ) A. Para estimar una media poblacional: Se calcula a partir de la formula siguiente
n =
Z α S 2e
ε
2
2
A mayor variabilidad de la muestra
s 2e , mayor
varianza. A mayor varianza mayor tamaño muestral ε representa el error de muestreo, llamado error de estimación o precisión de la estimación. El valor debe ser asumido por el investigador. En este caso
ε = (µ − x) Para poblaciones finitas (se conoce N), el tamaño final (nf) queda definido por la siguiente relación Ejemplo 1: A fin de conocer el gasto mensual en medicinas por familia, el Gerente de Marketing de un laboratorio farmacéutico desea determinar el tamaño de la muestra que le proporcione un nivel de confianza de 0,95 (Z = 1,96). Además conoce por estudios anteriores que las compras medias por familia eran de S/. 120 mensuales, con una desviación estándar de 30. El Gerente busca un tamaño de muestra que le permita estimar el nivel de gasto con un error de ±10. 153
Manual de Estadística General
n =
n=
Z α S 2e 2
ε2
(1,96 )2 (3 0 )2 (1 0 )2
n = 36 Ejemplo 2 En cierta población se 1200 escolares, se desea estimar el nivel promedio de Hb con 0,95 de confianza. Al realizar un estudio piloto se encontró que x = 12,3 y
S = 1,6. Si los investigadores
están dispuestos a asumir un Zα
2
N = 1200 Se = 1,6
n=
ε = ± 0 ,5
nf =
ε = ±0,5 .Calcular n
= 1,96
n n 1+ N
=
Z α2 2 s 2e
ε
2
=
(1,96 )2 (1,6 )2 (0,5 )2
= 39,33
39,33 = 38,08 ≅ 39 39,33 1+ 1200
Interpretación El número mínimo necesario de escolares para realizar el estudio es de 39, si se desea estimar el nivel promedio de Hb en la población con una precisión de 0,5.
154
Jorge Córdova Egocheaga
Ejemplo 3 En cierta población se 1200 escolares, de 9 – 11 años se desea estimar el nivel promedio de hierro sérico. Con este fin se va a seleccionar una muestra probabilistica. Si en un estudio similar se obtuvo una media aritmética de 60,6 mg/dl y S = 22,4 mg/dl. Calcular el tamaño mínimo de la muestra si la estimación del parámetro se va a realizar con 0,95 de confianza y se asume un ε = ±5
Zα
2
= 1,96
n=
N = 1200 Se = 22,4
Z α2 2 s 2e
ε
2
=
(1,96 )2 (22,4 )2 (5 )2
= 77,10
ε = ±5
nf =
n 1+
n N
=
77,10 = 72,44 ≅ 73 77,10 1+ 1200
Interpretación : El número mínimo necesario de escolares para realizar el estudio es 73, si se desea estimar el nivel promedio de hierro sérico en la población con una precisión ± 5 B. Para estimar una proporción poblacional:
n =
Z α2 2 p e q e
ε2
155
Manual de Estadística General
donde: pe = proporción “estimada” de sujetos con la característica de interés. Se puede obtener de revisión bibliográfica, estudio piloto o asumiendo pe = qe= 0,50 qe = proporción “estimada” de sujetos sin la característica de interés.
ε=
Error absoluto de muestreo o precisión. Debe
ser asumido por el investigador.
ε = (π − p )
Si se conoce N:
nf =
n 1+
n N
Ejemplo 1: En una población grande, se desea estimar la prevalencia de DM con 0,95 de confianza. De la literatura se sabe que p = 0,10 si se asume un error muestral de 5%, calcular n Datos Z α 2 = 1,96 p e = 10 % = 0,10 qe = 90 % = 0,90 ε = ±0,05
156
n =
Z α2 2 p e q e
ε
2
n =
(1,96 )2 (0 ,1 )(0 ,9 ) (0 ,05 )2
n =
0 ,345744 0 , 0025
= 138 , 3 ≅ 139
Jorge Córdova Egocheaga
Interpretación: Si se desea estimar la prevalencia poblacional con 0,95 de confianza y un ε de 5% se deberá evaluar 139 sujetos. 2. M. Sistemático: Las unidades elementales son seleccionadas dentro de un intervalo (I) de igual tamaño. Se extrae la muestra de acuerdo a la lista de pacientes atendidos
I1 I2 I3 I4
X1 3. M. Estratificado: El marco poblacional se divide en grupos homogéneos (estratos); de cada uno se extrae una submuestra, proporcional al tamaño del estrato. Muestreo por tipo de servicio 4. M. por Conglomerado: El marco poblacional se encuentra agrupado en conglomerados o racimos Se selecciona en forma aleatoria, el o los racimos. Todos los pacientes que ingresaron un determinado día. ALEATORIO SIMPLE SISTEMÁTICO PROBABILISTÍCO
ESTRATIFICADO POR CONGLOMERADO
MUESTREO DE JUICIO NO PROBABILÍSTICO
DE CUOTAS DE TROZO
157
Manual de Estadística General
El error estándar Es una medida de dispersión de una distribución muestral. Es equivalente a la desviación estándar. Desviación estándar de la distribución de medias de muestra
Error estándar de la media
Desviación estándar de la de proporciones
Error estándar distribución de muestra de la proporción
9.2 DISTRIBUCIONES DE MUESTREO La totalidad de datos de una población, constituye la distribución de población original (PO)
PO X1 X2 X3 . . . XN
Media
: µ
Varianza
:σx
z=
2
x-µ
σx
De la PO se extraen muestras de tamaño n. A cada una se calcula su media. El conjunto de ese total de medias se denomina población derivada de medias (PDM)
158
Jorge Córdova Egocheaga PDM
PO
x1 x2
X1 X2 X3
x3 . .
n
. .. XN
Media
:µ
xm µx
Varianza
: σ2x
σ x2 = x−µ
x - µ
z =
σ
σ2 n =
σx
x−µ
x
σ n
Si se busca comparar dos poblaciones, se deriva de cada población una población de medias y luego se comparan PO1
x1
X2 X3 .
Media
PO2
PDM2
PDDM
X1
x1
( x1 − x2 )
x2
X2
x2
(x − x )
x3
X3
x3
(x − x ) . .
.
.
.
.
.
.
.
.
.
XN
xm
XN
µ1
Varianza
PDM1
X1
µx
1
µ2
xm
µx
2
( )
µd = µ1 − µ2 σ12 σ 22 + n1 n2 ( x − x ) − (µ1− µ2 ) z = 1 22 σ1 σ 2 2 + n1 n2 σ x21 − x2 =
159
Manual de Estadística General
9.3 EL TEOREMA DEL LÍMITE CENTRAL Muestra la relación entre la forma de la distribución de la población y la forma de la distribución de muestro. Se basa en dos aspectos: (1) La media de la PDM será igual a la media de la PO, sin importar el tamaño de la muestra(n) incluso si la población no es normal
µx = µx (2) Al incrementarse el tamaño de la muestra, la PDM se acercará a la normalidad, sin importar la forma de la distribución de la población. El teorema del límite central nos permite utilizar las propiedades de la distribución normal en muchos casos en los que los datos subyacentes pueden no estar distribuidos normalmente.
160
View more...
Comments