Manual de Estadística General.pdf

December 2, 2017 | Author: GBRFIRE14 | Category: Questionnaire, Statistics, Estimator, Scientific Method, Decision Making

Share Embed Donate

Report this link

Short Description

Download Manual de Estadística General.pdf...

Description

MANUAL DE

ESTADÍSTICA GENERAL

Jorge Córdova Egocheaga

Manual de Estadística General © Jorge Córdova Egocheaga 1ra Edición: Marzo del 2003

SOBRE EL AUTOR Estudios Doctorales en Ciencias Administrativas (UNFV), Maître en Administration des Affaires (MBA-UQAM, Canadá), Magíster en Administración (ESAN), Magíster Scientiae (MSc) en Economía (UNA), Especialista en Formulación y Evaluación de Proyectos de Inversión (UNMSM), Profesor de Estadística en la Maestría en Administración de la Universidad de San Martín de Porres, Docente de Estadística y de Informática Aplicada en el área de Salud en la Escuela Universitaria de Post Grado de la Universidad Nacional Federico Villarreal, Profesor Principal y Jefe de la División de Evaluación y Estadísticas de la Escuela de Sanidad Naval de la Marina de Guerra del Perú, Profesor de Estadística y Métodos Cuantitativos para los Negocios en el MBA de la Universidad San Ignacio de Loyola, Consultor y Expositor Independiente. Director Ejecutivo del Centro de Capacitación y Asesoría de Negocios, CECAN.

Los derechos intelectuales de esta obra son de propiedad exclusiva de Jorge Córdova Egocheaga. Toda reproducción total o parcial del contenido de esta obra requerirá la autorización del propietario de los derechos intelectuales.

CAPÍTULO

1

INTRODUCCIÓN “El pensamiento estadístico algún día será tan necesario para la ciudadanía como la capacidad de leer y escribir...” H.G.Wells hace mas de 100 años

OBJETIVOS Al finalizar el Capítulo 1, el participante será capaz de: 1. 2. 3. 4. 5. 6. 7. 8.

Comprender los áreas de aplicación de la Estadística dentro de las Gestión de la Salud. Comprender el pensamiento estadístico Identificar las etapas de la investigación científica Definir las etapas del trabajo estadístico. Identificar los diversos tipos de datos. Diferenciar población y muestra. Distinguir parámetro y estimador. Diferenciar estadística descriptiva y estadística inferencial.

Manual de Estadística General

1.1 SITUACIONES ESTADÍSTICA

EN

LAS

QUE

SE

UTILIZA

LA

Ejemplos Varias veces durante el día una enfermera toma la temperatura a los pacientes en el Servicio de Emergencia de un Centro Hospitalario local. Un investigador médico examina los efectos de un agente cancerígeno en las ratas. Tres semanas después de inyectado el agente en una rata, el investigador realiza una intervención quirúrgica para extraer y pesar los tumores. El Director de un Hospital registra el tiempo de recuperación por tratamiento. El Director de un Hospital cuenta el número de camas a fin de medir la tasa de ocupabilidad. Un investigador médico está interesado en conocer la relación entre el sexo y el riesgo de infarto. El Jefe de Almacén de una Clínica revisa unos cuantos frascos del lote de vacunas que acaba de llegar, y verifica su fecha de expiración. El médico responsable del Laboratorio Clínico del Hospital, extrae una muestra de sangre a fin de determinar el nivel de colesterol del paciente. 1.2 EL PENSAMIENTO ESTADÍSTICO El profesional de la gestión de la salud debe de preocuparse permanentemente en registrar información sobre las características que le permitan conocer los factores que inciden en la variabilidad del servicio y así estar en condiciones de implementar acciones dirigidas a mejorar la calidad del servicio que ofrece. Debe medir • • 4

Las quejas en el Servicio de Emergencia, Las devoluciones por día en una farmacia,

Jorge Córdova Egocheaga

• •

Las demoras en la atención en una clínica o Las placas radiológicas reprocesadas en un hospital, y compararlos con los indicadores de gestión o estándares internacionales, y así determinar la calidad del servicio.

La implementación del pensamiento estadístico tiene tres fases: Identificar los factores de variabilidad. Conocer (o medir) la variabilidad. Manejar (o controlar) la variabilidad

1.3 LA INVESTIGACIÓN CIENTÍFICA 1.3.1 ¿Qué es la investigación científica? Es la búsqueda sistematizada y objetiva de nuevos conocimientos. Investigar es un proceso de buscar, indagar o pesquisar. El método científico, comprende la realizar a investigación en forma sistematizada y objetiva, organizada y coherente. 1.3.2 Etapas de la investigación científica A. Planificación: Elaboración del proyecto. Abarca una descripción detallada y fundamentada de cada una de las actividades a desarrollarse en la investigación. B. Ejecución: Es la etapa en la cual se lleva a cabo al investigación. Recolección de datos, análisis e interpretación.

5

Manual de Estadística General

C. Informe: Escrito donde se presentan los hallazgos encontrados. 1.4 ESTRUCTURA DE UN PROYECTO DE INVESTIGACIÓN 1.4.1 Definición del problema A. Título B. Antecedentes: Se refiere al nivel actual de conocimientos. La investigación que se planea realizar debe contribuir a elevar el conocimiento que la humanidad tenga de este tema. Si no se conocen los antecedentes, es probable que repita una investigación anterior. Existen antecedentes teóricos (marco teórico) y antecedentes empíricos (resultados). C. Objetivos: Enunciado de los logros alcanzables y evaluables en el estudio. a. ¿Cómo voy a identificar las variables? b. ¿Cómo voy a medir esas variables? c. ¿Qué técnica estadística se utilizará? D. Hipótesis: Enunciado de la relación de la relación entre 2 o más variables. Recomendación: al escribir el título, el problema, objetivos y las hipótesis, se debe referir a lo mismo. 1.4.2 Tipo de estudio Casos y controles

6

Jorge Córdova Egocheaga

1.4.3 Definición del alcance del estudio ¿Qué ámbito abarca el estudio?. Definir el alcance físico, temporal, social, etc. 1.4.4 Diseño estadístico de la muestra A) Tamaño de la muestra B) Procedimiento de selección 1.4.5 Definición de variables y escalas de medición Depende de los objetivos y las hipótesis 1.4.6 Recolección de datos Fuentes primarias y secundarias. Diseñar cuestionario y fichas de observación. 1.4.7 Procesamiento de la información Definir con anticipación los análisis estadísticos que se van a realizar y entre que variables: regresión, hipótesis, entre otros. 1.4.8 Recursos y presupuesto de investigación Qué recursos personales y de materiales se requieren. Cuales son los costos para llevar a cabo la investigación. Cómo se desembolsará (mes a mes) estos gastos. Cómo se financiará. 1.4.9 Cronograma Con ayuda de un Diagrama Gantt o un PERT, para visualizar las diferentes etapas. 1.4.10 Referencias bibliográficas 7

Manual de Estadística General

1.5 PARTES DE UN INFORME FINAL DE INVESTIGACIÓN 1.5.1 Introducción: Título, antecedentes, objetivos, hipótesis 1.5.2 Materiales y métodos 1.5.3 Resultados analíticos: fundamentar diferencias evidenciadas 1.5.4 Discusión de resultados 1.5.5 Conclusiones: en relación con los objetivos de la investigación. 1.6 ¿QUÉ ES ESTADÍSTICA? Es una ciencia que comprende diversas técnicas para : RECOLECTAR

ORGANIZAR

ANALIZAR

INTERPRETAR

DATOS 8

Jorge Córdova Egocheaga

¿Cuándo se RECOLECTAN datos ? Cuando se registran características (medición, observación, conteo). ¿Cuándo se ANALIZAN datos ? Cuando se ordenan para una mejor comprensión y facilitar sus análisis. (tablas, gráficos y figuras) Por ejemplo Tabla de Distribución Edad

N° Pacientes

30 - 34 35 - 39 40 - 44 45 - 49

6 12 8 2

Diagrama Circular

12 10 8 6

Diagrama de Barras

4 2 0 30-34

35-39

40-44

45-49

9

Manual de Estadística General

¿Cuándo se analizan datos? Cuando se calculan promedios, medidas de variabilidad y medidas de la forma de la distribución.Cuando se establecen relaciones entre ellas (regresión y correlación). ¿ Cuándo se INTERPRETAN datos ? Cuando se le otorga un sentido práctico a los resultados obtenidos en el análisis. 1.7 ¿QUÉ SON DATOS? Son los registros de una característica. Ejemplo

Unidad de medida años 27 Edad del paciente Kg. 3,750 Peso del recién nacido días 5 Tiempo permanencia °C 37,5 Temperatura corporal --Enfermera Profesión

Características

Datos

Si un DATO es útil para tomar decisiones se convierte en INFORMACIÓN. Los datos ayudan a los responsables de tomar decisiones a hacer suposiciones coherentes acerca de las CAUSAS y, por tanto, de los EFECTOS probables de ciertas características en situaciones dadas. ¿Por qué necesitamos recolectar datos? Proporcionan la evidencia imprescindible en un estudio de investigación.

10

Jorge Córdova Egocheaga

Permiten medir el desempeño en el proceso de producción de un bien o servicio. Ayudan a la formulación de cursos alternativos de acción en un proceso de toma de decisiones. Satisfacen nuestra curiosidad innata. 1.8 ¿QUÉ TIPOS DE DATOS EXISTEN? Constante Si el registro de la característica toma un sólo valor en todas las unidades elementales. Son muchos datos, pero iguales. Ejemplo: • •

Sexo de las pacientes en el Servicio de Ginecología Especialidad de los integrantes del Colegio Médico del Perú

Las constantes no son interés en Estadística, puesto que ella se ocupa del estudio de la variabilidad de los datos. Variable Si el registro de la característica toma diversos valores en las unidades elementales. Ejemplo: Edad, sexo y peso de los pacientes de una Clínica Una misma característica puede generar constantes ó variables, depende del marco muestral. Los datos variables pueden ser :

11

Manual de Estadística General

1.

Cualitativos : Registro de un atributo. Provienen de una observación. Las operaciones posibles son el cálculo de la tasa porcentual y de proporciones. Pueden ser categorías.

dicotómicas

(sólo

pueden

tener

2

Ejemplo :Estado de salud: sano o enfermo. Sexo de pacientes : masculino y femenino • •

80% son varones (tasa porcentual). 8 de cada 10 pacientes son varones (proporción)

O politómicas (si tienen más de 2 categorías) Ejemplo : Estado civil del paciente: soltero, casado, viudo, divorciado. 2.

Cuantitativos : Registro de una característica a través de un conteo o una medición. Las operaciones posibles son los promedios y las medidas de dispersión, entre otras. Las variables cuantitativas pueden ser continuas o discretas.

–

DISCRETA o DISCONTINUA: Cuando la variable sólo puede tomar determinados valores dentro de una escala de valores. Proviene de un conteo. Ejemplo: Número de consultas en un día. Número de hijos

–

CONTINUA : Cuando la variable puede tomar cualquier valor, dentro de una escala de valores. Provienen de una medición. Ejemplo: Tiempo de duración de una consulta. Peso de la gestante

12

Jorge Córdova Egocheaga

DATOS

CONSTANTES

VARIABLES

CUALITATIVAS

CUANTITATIVAS

DISCRETAS

CONTINUAS

1.9 ¿QUÉ SE PUEDE HACER CON LOS DATOS? Identificar características de interés para la gestión.

Organizarlos en tablas, gráficos y figuras Calcular promedios (media, mediana, moda y percentiles) . Calcular su dispersión (varianza, desviación estándar ) y forma de la curva.

Recolección de datos

Determinar una ecuación que represente la relación entre ellos (regresión) Determinar el grado de asociación entre ellos (correlación).

Utilizar datos para mejorar la calidad

Analizarlos dentro de un horizonte temporal (series cronológicas)

13

Manual de Estadística General

1.10 POBLACIÓN Y MUESTRA Marco Poblacional Conjunto de todas las unidades elementales (personas, procesos o cosas) al que se circunscribe el estudio estadístico. Ejemplos : • • • •

Los médicos cirujanos del mundo. Los trabajadores asegurados en una EPS El proceso de triaje en los Centros de Salud del Estado. Las historias clínicas de un hospital.

MARCO POBLACIONAL(1200 pacientes de un hospital) Población Estadística Registro de una característica EN TODOS los elementos del marco poblacional. Tiene tantos datos como elementos tenga el marco poblacional. Habrán tantas poblaciones como características se deseen registrar en un determinado marco poblacional.

14

Jorge Córdova Egocheaga

MARCO POBLACIONAL (1200 pacientes de un hospital)

Características de interés Edad

Población

Registro de la caracteP1 rística (1200 datos)

Peso

Temperatura corporal

Estado Civil

Población

Población

P2

P3

(1200 datos)

...

Pn

Marco Muestral Subconjunto del marco poblacional. Comprende los elementos o estratos del marco poblacional (es representativo). En contraste con el marco poblacional es más conveniente porque se obtienen los datos en menor tiempo y reduciendo los costos. Ejemplo : 75 pacientes de un hospital.

15

Manual de Estadística General

Marco Poblacional

Marco Muestral

Técnicas de muestreo

(75 pacientes de un hospital)

(1200 pacientes de un hospital) Característica Edad

Peso

Registro de la POBLACIÓN característica. P1

Temp. Corpor.

Estado civil

POBLACIÓN

P2

POBLACIÓN

P3

POBLACIÓN

...

Pn

Muestra Registro de una característica en todos los elementos del marco muestral. Tiene tantos datos como elementos el marco muestral. Habrán tantas muestras como características se deseen registrar en un marco muestral. Las muestras no extraen de la población, sino del marco muestral

16

Jorge Córdova Egocheaga

MARCO POBLACIONAL (1200 pacientes de un hospital)

MARCO MUESTRAL

Técnicas de muestreo

(75 pacientes de un hospital)

Característica Edad

Peso

Estado civil

Temp. corporal

Edad

Peso

MUESTRA

MUESTRA

m1

m2

Estado civil

MUESTRA

m3

MUESTRA

mn

75 datos

Registro de la POBLACIÓN característica.

POBLACIÓN

P1

P2

POBLACIÓN

P3

POBLACIÓN

...

Pn

1.11 PARÁMETRO Y ESTIMADOR Valor representativo de una población. Se simboliza por letras griegas. Sólo hay un parámetro en cada población. µ : Media poblacional (mu)

σ2

:

V arianza poblacional (sigma cuadrado)

σ : Desviación estándar poblacional (sigma) π : Proporción poblacional (pi) ρ : Coeficiente de correlación poblacional (rho)

Estimador Valor representativo de una muestra. Se llama también estadígrafo o estadístico. Se simboliza por letras latinas. Existen tantos estimadores como muestras se extraigan de una población.

17

Manual de Estadística General

Media muestral.

s

2

Varianza muestra.

s p

Desviación estándar muestral.

r

Coeficiente de correlación muestral

Proporción muestral

n1

n2

POBLACIÓN

x1 x2

n3

x3

. .

. .

nm

xm

PARÁMETRO DIFERENTES MUESTRAS GENERAN DIFERENTES VALORES DEL ESTIMADOR

1.12 ESTADÍSTICA DESCRIPTIVA E INFERENCIAL Estadística Descriptiva Técnicas que permiten describir un conjunto de datos. El análisis se limita a esos datos (sean muestrales o poblacionales). Tiene como objetivo presentar los datos obtenidos en forma resumida, clara y comprensible.

18

Jorge Córdova Egocheaga

Estadística Inferencial Técnicas que permiten estimar un parámetro a partir de datos muestrales.

POBLACIÓN

Muestra

Estimador

Parámetro Estadística Descriptiva d as nic c é T

POBLACIÓN

Parámetro

: µ -µ

MUESTRA

ue eM

Estimador :

x

o stre

Estadística Inferencial

= Error de muestreo

Ejemplos sobre muestra y estimador Suponga que estamos interesados en conocer la duración de la evaluación en el Servicio de Psiquiatría de las Clínicas de Lima. El INPE esta interesado en la relación existente entre la criminalidad y los hogares destruidos. Un psicólogo mide la característica en de 50 procesados. Supóngase que el equipo de investigación, desea determinar la proporción de fumadores en la ciudad de Lima para

19

Manual de Estadística General

determinar los factores de riesgo e incidencia de cáncer pulmonar. 1.13 EJERCICIO APLICATIVO El Director de Personal de la Clínica “Santa Lucía” desea estimar la tardanza mensual promedio del personal que labora en esta clínica. Con este fin elige al azar la Tarjeta de Control de Asistencia del último mes de 10 trabajadores. En uno de las tarjetas seleccionadas se registró 140 minutos de tardanza. En esta situación, identifique: La característica

: Tiempo de tardanza mensual

La unidad elemental : Un trabajador de la clínica

(o unidad de análisis)

El marco poblacional: Todo el personal que labora en esa clínica La población : Registro de tiempo de tardanza mensual de todo el personal que labora en esta clínica El marco muestral

: Diez trabajadores

La muestra

: Registro del tiempo de tardanza de cada uno de los trabajadores seleccionado

Tipo de dato

: Variable cuantitativa continua

Un dato registrado

: 140

La unidad de medida: minutos

20

El estimador

: El tiempo medio de tardanza de los 10 trabajadores x

El parámetro

: El tiempo medio de tardanza de todos los trabajadores de la clínica (µ)

Jorge Córdova Egocheaga

Ejercicio 1 El Director de un Hospital sabe que en lo que va del año, fueron dados de alta 1000 pacientes hospitaliza-dos y desea conocer el tiempo medio de permanencia en el hospital. Para ello selecciona al azar la historia clínica de 100 pacientes. Una de las historias permitió conocer que cierto paciente había permanecido 6 días hospitalizado. En esta situación identifique los siguientes términos (no se pide la definición): Característica. Unidad elemental. Marco poblacional Población. Marco muestral. Tipo de muestreo. Un dato. Unidad de medida. Un estimador. Un parámetro

21

Manual de Estadística General

22

CAPÍTULO

2 1

RECOLECCIÓN DE DATOS Los datos no se recopilan como un fin en sí mismos, sino como un medio para describir los hechos que están tras los datos

OBJETIVOS 1. 2. 3. 4. 5. 6.

Recopilar datos. Identificar la escala adecuada para cada característica a recopilar. Redondear datos cuantitativos. Diferenciar métodos y técnicas de recolección de datos. Elaborar una encuesta Elaborar una hojas de registro.

Manual de Estadística General

2.1 ¿CÓMO SE RECOPILAN DATOS? Las buenas decisiones se basan en un adecuado registro de datos, para lo cual se debe: A.

ESTABLECER OBJETIVOS CLAROS En control de la calidad, los objetivos son: Control del proceso de producción Análisis de lo que no se ajusta a las normas o estándares. Inspección o auditoria. Permite determinar qué tipo de datos se requiere.

B. DETERMINAR EL TIPO DE DATO Datos para el control: se toman periódicamente para conocer la variación diaria dentro de un proceso; es decir, para verificar su estado de control (estabilidad). Ejemplo: Número de pacientes diarios en consultorios externos por especialidad. Datos para el análisis: se registran para conocer situación actual de nuestro proceso.

la

Ejemplo: la tasa de prescripciones que no están disponibles en la farmacia del hospital. Dato para la inspección: se recopilan al recibir o entregar un material. Son datos que sirven para verificar si el producto cumple con las especificaciones. Ejemplo: fecha de expiración de un lote medicamentos, antes de su ingreso a almacén.

24

de

Jorge Córdova Egocheaga

C.

CONSIDERAR REGISTROS

LA

CONFIABILIDAD

DE

LOS

Tener en cuenta la adecuada calibración de los instrumentos de medición y la variabilidad en inspecciones visuales. D.

SELECCIONAR FORMAS RECOLECTAR DATOS.

APROPIADAS

DE

I.

Se debe registrar adecuadamente el origen de datos (el día, la hora, quiénes fueron los responsables, qué lote se uso, entre otros).

II.

Los datos deben registrarse de manera que facilite su utilización (hojas de registro).

2.2 ESCALAS DE MEDICIÓN ESCALA NOMINAL: Los valores son nominativos, sirven para designar. Sólo se puede realizar un conteo (frecuencias). No es factible las operaciones aritméticas. Se analizan a través de la comparación: igualdad y no igualdad ( = y ≠). Ejemplo Sexo del paciente Grupo sanguíneo Servicio médico

1: Masculino 2: Femenino A B AB O 1: Emergencia 2: Ginecología 3: Traumatología 4: Pediatría

ESCALA ORDINAL: Los valores representan un orden. No son cuantitativos, sólo simbolizan una posición. Se analizan a través de la desigualdad :mayor que o menor que (> y B 1º , 2º , 3º 1º > 2º leve, moderado, intenso

ESCALA DE INTERVALOS: Se utilizan números cardinales. El cero es relativo o diferencial, es decir no indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas.(+ y -). Es una escala creada por el hombre. Ejemplo: Hora Temperatura ambiental El año en que vivimos

00:00 0 ºC 2003

ESCALA DE RAZÓN: Se utilizan números cardinales. Tienen unidad de medida (cms, pulgadas). El cero es absoluto, indica ausencia de la propiedad. Se pueden realizar operaciones aritméticas (+,-,x ,÷), Ejemplo: Pacientes no atendidos hoy : Nº de hijos en edad de vacunación : Procesos deficientes :

0 0 0

2.3 REDONDEO DE DATOS Durante el análisis, muchas veces se divide un número por otro obteniéndose en algunas ocasiones, un número infinito de decimales.

26

Jorge Córdova Egocheaga

Con el objeto de hacer más operativo el manejo de estos datos se redondean. Para “cortar” o redondear, se siguen las siguientes reglas. 1ra REGLA: Para la respuesta final, debemos redondear hasta dos lugares más de lo que había en los datos originales. No se debe redondear en los pasos intermedios. Ejemplo :

datos originales : enteros resultado final : 2 decimales.

2º REGLA: Si la cifra que sigue es mayor a 5, se aumenta 1. Si la cifra que sigue es menor a 5, el número no varía. Ejemplo: Redondeo a 2 decimales 6,176 ……. 6,18 4,123 ……. 4,12 3º REGLA: Si la cifra que sigue es 5 y el número anterior es par no se modifica. Pero si el número es impar, aumenta 1. Ejemplo: Redondeo a 2 decimales 6,545 ……. 6,54 1,975 ……. 1,98

27

Manual de Estadística General

2.4 FUENTES DE DATOS A) FUENTES SECUNDARIAS Datos recolectados anteriormente para alcanzar otros objetivos. Constituye la primera fuente que se debe analizar. La técnica más utilizada son las fichas. Ejemplo: Datos publicados (en papel o en forma electrónica) en revistas especializadas, tesis, censos y en las hojas de registro anteriores. La calidad de los datos debe ser comprobada: ¿De donde provienen los datos? ¿La fuente es imparcial? ¿Los datos comprueban o contradicen otras evidencias que se disponen? ¿Hace falta una evidencia cuya ausencia conduzca a otra conclusión? ¿Cuantas observaciones se tienen? ¿La conclusión que obtengo es lógica? Los principales organismos publicaciones son: 1. 2. 3. 4.

que

disponen

de

Instituto Nacional de Estadística e Informática (INEI) Organización Mundial del Trabajo (OIT) Organización Mundial de la Salud (OMS) Organización Panamericana de la Salud (OPS)

B) FUENTES PRIMARIAS 1. 2. 28

Constituyen datos recolectados para el trabajo. Son datos que no existían antes. Se registran bajo dos métodos: directo e indirecto

Jorge Córdova Egocheaga

2.5 MÉTODOS Y TÉCNICAS DE RECOLECCIÓN DE DATOS A) MÉTODOS DIRECTOS El responsable registra personalmente los valores de la característica. Ejemplo: registro del tiempo que demora un médico durante una consulta. Comprende 2 técnicas. (a) La observación 1. 2.

3

Se registra el dato bajo condiciones normales Cuando se mide el desempeño, la persona observada no debe saber que es sujeta de observación Se utiliza una hoja de registro.

Ejemplo La observación del desempeño de una enfermera durante sus labores en el Servicio de Emergencia. (b) La experimentación Se registra un dato bajo condiciones provocadas simulando el proceso lo más real posible. Ejemplo: Un mercado prueba para introducir un tipo jabón de antiséptico con fragancia . B) MÉTODOS INDIRECTOS 1 2.

Se registra la característica a través de preguntas No se realiza medición

29

Manual de Estadística General

Ejemplo: Se pregunta a un paciente el tiempo que esperó antes que sea atendido en el consultorio externo. Comprende 2 técnicas: la encuesta y la entrevista. (a) La encuesta 1. 2.

Cuestionario de preguntas abiertas o cerradas Al diseñarla se debe: • Elegir lo temas generales de la encuesta • Decidir forma de aplicarlo: correo, teléfono o personal • Plantear preguntas • Realizar una prueba piloto y hacer revisiones finales

Ejemplo: Encuesta para conocer el grado de satisfacción de los asegurados a una clínica. (b) La entrevista 1. Permite recolectar datos o partir de un dialogo 2. Puede se estructurada o no estructurada •Ejemplo: Entrevista al Director de una Clínica sobre la aplicación de norma de calidad. METODOS Y TÉCNICAS DE RECOLECCION DE DATOS FUENTE METODOS SECUNDARIA PRIMARIA

30

TECNICAS

FICHAS DIRECTO OBSERVACION EXPERIMENTACION INDIRECTO ENCUESTA ENTREVISTA

Jorge Córdova Egocheaga

¿Cómo seleccionar la fuente, el método y la técnica? No toda la información requerida será recopilada de una sola fuente, ni usando un mismo método y técnica. Casi siempre es una combinación de ellos, para lo cual hay que: Definir características que interesan registrar. Identificar la fuente de información apropiada característica.

para

cada

Seleccionar la técnica más conveniente. En un estudio de investigación de mercados para pañales desechables, interesa conocer ciertas características, CARACTERISTICA Tasa de natalidad Nivel socio-económico de la familia Textura del producto

FUENTE Secundaria Primaria Primaria

TECNICA Fichas Encuesta Entrevista

2.6 EL CUESTIONARIO Consiste en un conjunto de preguntas diseñadas de acuerdo a la necesidad de información. Junto con las hojas de registro, es la técnica más común para la recopilación de datos de fuentes primarias. Recomendaciones para su elaboración Las preguntas deben ser coherentes con el objetivo de la investigación. No hay preguntas de carácter general. La extensión (número de preguntas) depende de la necesidad de información a recolectar por esta técnica.

31

Manual de Estadística General

El lenguaje utilizado en la redacción de preguntas debe ser entendible por los encuestados. Es diferente al lenguaje a usarse en el informe final Debe evitarse la ambigüedad. Ejemplo: En un estudio para determinar el grado de asociación entre la incidencia a cáncer pulmonar y el hábito a fumar, se hizo la siguiente pregunta: ¿Fuma usted?

Si 1

No 2

No formular preguntas dirigidas. Evitar adjetivos, ya que predisponen a una respuesta. Ejemplo: ¿Cree Ud. que el precio del medicamento es alto? Si 1 No 2 Preguntas cerradas y abiertas –

Preguntas cerradas Las posibles respuestas se presentan como alternativas. Facilita la codificación y operatividad de los datos. Ejemplo : ¿Posee Ud. un seguro médico? Si 1 No 2

–

Preguntas abiertas Los encuestados tienen libertad para emitir su opinión. Se utilizan cuando no se tiene precisión sobre las posibles respuestas. Dificulta la recolección de datos (incomoda al encuestado). Dificulta la interpretación de datos.

32

Jorge Córdova Egocheaga

Ejemplo: ¿Qué opinión tiene sobre la política de salud del actual Gobierno ? 2.7 LA ELABORACIÓN DE DATOS: EL CONTROL DE CALIDAD Una vez que se han recolectado los datos referidos a las diferentes variables necesarias para la investigación, se debe proceder a revisarla y presentarla de manera que facilite su análisis. A este proceso se denomina elaboración de datos. Las etapas que abarca son: edición, tabulación codificación. A)

y

La edición: Se revisan los formularios (cuestionario y fichas de observación) para verificar si todas las preguntas han sido respondidas en todos los ellos. Se debe verificar incongruencias en de las respuestas. a)

Reencuestar: Si no se respondieron todas las preguntas y es posible identificar al encuestado (por ejemplo, se tiene su dirección), se podría regresar y formular aquellas preguntas que se obviaron.

b)

Anular la pregunta: Si una pregunta es dejada de contestar en muchos cuestionarios, sería recomendable anular esa pregunta y buscar la forma de conseguir el dato por otra fuente. Probablemente, la pregunta fue mal formulada.

c)

Anular el formulario: Si una encuesta o la ficha de observación tiene demasiadas preguntas en blanco, se anulará todo el cuestionario. Es posible que no se contara con la colaboración apropiada del encuestado o tal vez no se aplicó correctamente.

33

Manual de Estadística General

B.

La tabulación: Consiste en etiquetar o titular con pocas palabras, las respuestas a preguntas abiertas. Para homogenizar el criterio, es recomendable que una persona se encargue de este proceso. Si fueran muchos formularios y varias preguntas abiertas, podrían ser varias personas que tabulen, pero necesariamente solo una persona por pregunta.

C. La codificación: Consiste en colocar un código a las respuestas, a fin de poder construir una base de datos. 2.8 LAS HOJAS DE REGISTRO (O CHECK LIST) Son formatos preimpresos que facilitan el registro y la organización de cualquier tipo de datos. Puede ser: Para registro: Se anota sistemáticamente la información. Ejemplo: Tarjeta de Registro de Asistencia del personal que labora en una Clínica Para verificación: Se anota información en determinado tiempo, que debe cotejarse con la realidad. Ejemplo: Registro de las recetas no atendidas por semana. EJEMPLO 1: Hoja de registro proceso de producción

para

la

distribución

La medida optima es 8.300 Se acepta una variabilidad máxima ± 0,008 Se registra cada uno de los 55 productos elaborados un día, colocando una x en la casilla correspondiente. Se construye simultáneamente el histograma.

del

en

Caso: Hoja de registro para ver la distribución en un proceso de producción. 34

Jorge Córdova Egocheaga

EJEMPLO 2: Hoja de registro de ítems defectuosos Permiten identificar el tipo de defecto más frecuente. Un producto puede presentar más de un defecto. Es necesario tipificar con antelación los defectos posibles. Caso: Hoja de registro de inspección final de cierto producto plástico moldeado.

35

Manual de Estadística General

EJEMPLO 3 Hoja de registro de las causas del defecto Permite una estratificación adicional con el fin de encontrar las causas de los defectos. Caso: Hoja de registros de ocurrencias de los defectos en ciertos accesorios utilizados en la elaboración de prótesis dental, asignables a maquinaria, trabajadores, día y tipo de defecto.

36

Jorge Córdova Egocheaga

37

Manual de Estadística General

38

CAPÍTULO

3

ORGANIZACIÓN TABULAR DE DATOS

OBJETIVOS Al finalizar el Capítulo 3, el participante será capaz de: 1. 2. 3. 4.

Organizar datos a través de una clasificación ordenada de datos. Organizar datos a través de un diagrama tallo-hojas. Elaborar una tabla de distribución de frecuencias para datos univariados Elaborar una tabla de distribución de frecuencias para datos bivariados.

Manual de Estadística General

3.1 LA IMPORTANCIA DE LA ORGANIZACIÓN DE LOS DATOS Los datos deben organizarse, para entender mejor su naturaleza fundamentalmente utilizando dos métodos : el método tabular y el método gráfico. Si los datos no están organizados son de poca utilidad en una investigación o para una toma de decisiones. Ejemplo Los niveles altos de colesterol en suero, han sido por mucho tiempo asociados con el incremento del riesgo de enfermedades cardiovasculares. Se han efectuado numerosos estudios en un esfuerzo por lograr una mayor comprensión de la naturaleza de esta asociación. Se muestra a continuación las concentraciones de colesterol en suero que fueron recolectadas a una población de 480 individuos aparentemente sanos. ¿A qué conclusión llega?

40

Jorge Córdova Egocheaga 231

199

236

259

183

269

191

260

197

159

227

245

214

275

186

234

262

230

212

163

220

202

221

223

243

203

180

292

198

201

174

223

186

200

192

236

186

188

234

230

170

304

197

216

214

189

138

269

197

222

202

213

163

241

218

242

197

248

228

154

218

243

192

191

243

230

248

231

262

177

207

276

230

238

189

212

200

179

249

225

223

289

280

235

220

194

205

206

194

232

222

209

209

248

194

192

200

261

238

233

222

223

267

263

159

243

230

193

195

259

186

229

184

215

254

233

229

263

163

212

271

216

230

252

218

265

218

155

222

173

228

214

266

172

203

262

213

249

244

177

242

180

241

261

221

222

189

204

229

212

192

257

248

243

190

166

216

197

250

224

257

220

255

241

245

212

225

201

209

155

249

253

265

225

192

212

212

174

184

227

216

250

248

187

222

195

247

161

188

229

194

209

250

180

228

196

254

208

265

234

219

203

230

232

212

236

191

161

258

252

169

249

231

170

233

161

189

191

209

229

246

274

215

215

206

218

234

248

222

175

202

154

249

189

171

263

238

177

261

265

224

249

252

220

199

239

221

221

221

232

218

239

205

196

211

221

276

251

189

286

258

227

236

167

184

245

243

218

173

220

231

196

196

200

221

217

270

261

248

254

232

231

219

225

265

222

226

208

219

189

226

292

192

172

186

264

211

240

237

156

228

241

171

223

185

199

188

263

208

199

259

272

202

214

201

231

210

223

210

209

239

203

212

295

202

195

218

218

253

239

272

216

221

208

225

175

239

191

214

215

227

221

208

224

208

181

187

179

234

262

216

221

152

180

193

244

184

183

226

266

242

220

266

269

223

198

204

179

209

215

222

196

228

195

160

261

177

232

224

203

265

238

247

225

169

172

187

199

245

183

171

246

187

222

278

212

250

174

220

188

223

241

200

193

226

243

206

142

277

244

210

258

207

267

254

136

231

253

229

240

204

187

202

209

238

240

190

253

203

271

281

226

244

182

146

251

277

184

240

239

185

201

259

234

174

226

246

222

205

211

216

230

220

201

231

183

214

219

206

276

215

195

209

258

287

182

176

275

204

183

212

237

249

142

256

258

213

208

202

244

Al observar a un conjunto de datos, deseamos identificar a las principales propiedades que definen a este conjunto. Lamentablemente, no se puede obtener alguna conclusión válida. Los datos tal como se presentan no nos permiten afirmar algo sobre ellos. Para lograr identificar las principales medidas y propiedades de este conjunto de datos, tenemos que organizar previamente al conjunto de datos. 3.2 ELEMENTOS DE LA ORGANIZACIÓN TABULAR Consiste en una presentación resumida de la información usando tablas o cuadros Ejemplo: Supongamos que en una entrevista a pacientes del lo que se busca evaluar son 2 aspectos:

41

Manual de Estadística General

- La opinión sobre la calidad de atención - Nivel de instrucción de la paciente Como son dos variables categóricas, la presentación de los datos podría realizarse en una tabla cruzada:

NIVEL

OPINIÓN

EDUCATIVO Favorable Desfavorable

TOTAL

Analfabeta

8

2

10

Primaria

15

5

20

Secundaria

23

7

30

Superior

12

3

15

TOTAL

58

17

75

3.2.1 Ventajas Se pueden apreciar propiedades de los datos. Permite establecer asociaciones entre variables Se ahorra espacio en un informe escrito. 3.2.2 Elementos: A. El Título: enunciado breve e informativo acerca del contenido del cuadro. Un buen título debe responder a las siguientes interrogantes: 1. ¿Qué contiene la tabla? Ej.: La opinión de 75 pacientes sobre calidad de atención. 2. ¿Cómo estamos presentando el contenido? Ej.: Por nivel educativo de las pacientes

42

Jorge Córdova Egocheaga

3. ¿De dónde se obtuvieron los datos? Ej.: Del servicio de Ginecología del Hospital Santa Rosa. Lima. 4. ¿Cuándo se obtuvo la información? Ej.: (fecha de la recolección de los datos) Un buen título podría ser: Opinión de 75 pacientes por nivel educativo sobre la calidad de atención en el Servicio de Ginecología del HOSPITAL SANTA ROSA. Lima, enero del 2003. B. La Matriz: Está constituido por el primer renglón y la primera columna, en donde se describen los nombres de las categorías (en datos categóricos) o los intervalos de clases (en datos cuantitativos), tan conciso como sea posible.

Ejemplo NIVEL DE INSTRUCCIÓN

OPINIÓN Favorable

TOTAL

Desfavorable

Analfabeta

Para datos categóricos

Primaria Secundaria Superior TOTAL

EDAD

N° de pacientes

Tasa porcentual :%

(en años)

(fi)

(hi)

39 - 46 47 - 54 55 - 62 63 - 70 71 - 78 Total

C. El cuerpo: Está conformado por espacios y constituyen intersecciones de filas y columnas, que a veces se denominan celdas, y donde se anotan

43

Manual de Estadística General

las frecuencias absolutas y relativas obtenidas en la tabulación, incluyendo totales y subtotales. Por ejemplo OPINIÓN

NIVEL EDUCATIVO

TOTAL

Favorable

Desfavorable

Analfabeta

8

2

10

Primaria

15

5

20

Secundaria

23

7

30

Superior

12

3

15

TOTAL

58

17

75

D. Notas aclaratorias: Están constituidas por toda aquella información adicional que es necesaria para describir e interpretar adecuadamente el contenido de la tabla o cuadro. Es muy importante cuando se trata de datos proveniente de fuente secundaria. Es un aspecto ético precisar de donde provienen los datos, a la vez que nos liberamos de la responsabilidad de responder por su calidad. Se escribe con letra más pequeña.

44

Jorge Córdova Egocheaga

Tabla 1: Opinión de 75 pacientes por nivel educativo sobre la calidad de atención en el Servicio de Ginecología del HOSPITAL SANTA ROSA. Lima, enero del 2003.

OPINIÓN

NIVEL

EDUCATIVO Favorable Desfavorable Analfabeta 8 2

TOTAL 10

Primaria

15

5

20

Secundaria

23

7

30

Superior

12

3

15

TOTAL

58

17

75

Fuente: Hospital San Rosa. Dirección de Procesos. Enero 2003.

La presentación tabular de datos pueden realizarse bajo tres formas, desde la más elemental se tiene: - Clasificación ordenada de datos. - Diagrama de tallos y hojas - Tablas de distribución de frecuencias. 3.2 CLASIFICACIÓN ORDENADA DE DATOS Si ordenamos los datos sin procesar, de la observación más pequeña a la más grande, la secuencia ordenada obtenida, se denomina clasificación ordenada. Ejemplo: en un estudio del crecimiento de varones, se obtuvieron estas observaciones sobre el perímetro cefálico (en centímetros) de un niño al nacer: 33.1 34.6 34.2 36.1 34.2 35.6 34.5 35.8 34.5 34.2 34.3 35.1 35.2 33.7 36.0 34.2 34.7 34.6 34.3 33.4 34.9 33.8 33.6 35.3 35.2 34.6 33.7 34.8 33.9 34.7 35.1 34.2 36.5 34.1 34.0

Ordenando los datos de manera ascendente, tenemos:

45

Manual de Estadística General 33.1 33.4 33.6

33.7 33.7 33.8

33.9 34.0 34.1

34.2 34.2 34.2

34.2 34.2 34.3

34.3 34.5 34.5

34.6 34.6 34.6

34.7 34.7 34.8

34.9 35.1 35.1

35.2 35.2 35.3

35.6 35.8 36.0

36.1 36.5

¿Cuáles son las principales propiedades que se observa en este conjunto de datos? Las principales propiedades que se observan conjunto de datos son:

en este

El número de datos es de 35. La menor observación es de 33,1 cms. La mayor observación es de 36,5 cms. El rango de los valores observados es de 3,5 cms. =(36,5 – 33,1)+ 0,1 cms. El 51,43% (18 niños) de los datos están alrededor de 34 cms. Son muy pocos frecuentes los niños con perímetro cefálico mayor a 36 cms. (sólo 3 niños). Mientras mayor sea el número de observaciones presentes en una serie de datos, mas laborioso es realizar la clasificación ordenada de los datos. 3.3 DIAGRAMA DE TALLO Y HOJAS Un diagrama de tallo y hojas consiste en una serie de hileras horizontales de números. El número utilizado para designar una hilera es un tallo, el resto de números de la hilera se denominan hojas. Esta técnica funciona bien, cuando el conjunto de datos no tiene una gran dispersión Se pueden considerar el siguiente proceso: Elija algunos números adecuados que puedan servir de tallo. Se requieren como mínimo 5 tallos. Los tallos elegidos

46

Jorge Córdova Egocheaga

generalmente son el primer o los dos primeros dígitos de los datos. Nombre las hileras mediante los tallos elegidos. Organice gráficamente los datos registrando el dígito, siguiendo el tallo. Trazar una curva a lo largo de la parte superior del diagrama. Determinar las principales características. Ejemplo: Con los datos anteriores sobre el perímetro cefálico, construir un diagrama tallo-hoja. 33.1 34.6 34.2 36.1 34.2 35.6 34.5 35.8 34.5 34.2 34.3 35.1 35.2 33.7 36.0 34.2 34.7 34.6 34.3 33.4 34.9 33.8 33.6 35.3 35.2 34.6 33.7 34.8 33.9 34.7 35.1 34.2 36.5 34.1 34.0

Dato menor: 33,1 Dato mayor: 36,5 Tallos posibles: 33, 34, 35 y 36Sólo existen 4 tallos, debiendo ser el mínimo 5 tallos, entonces los tallos propuestos se desdoblan, de la siguiente manera: 33 (del 33,0 al 33,4) 33 (del 33,5 al 33,9) 34 (del 34,0 al 34,4) 34 (del 34,5 al 34,9) 35 (del 35,0 al 35,4) 35 (del 35,5 al 35,9) 36 (del 36,0 al 36,4) 36 (del 36,5 al 36,9)

47

Manual de Estadística General

Luego clasificamos los datos en función al valor del decimal.

33

1 4

33

7

7

9

8 6

34

2 2

2

3

2 2

1

3

0

34

6

6

8

7 6 7

5

5

9

35

2 2

1

1

35

6

8

36

0

1

36

5

25 datos

3 10 datos

Finalmente, se traza una línea por el borde, a fin de delimitar la forma de la distribución. ¿Qué características se observan?. Las principales propiedades de los datos : - Son 35 casos. - La menor observación es de 33,1 cms. - La mayor observación es de 36,5 cms. - El rango de los valores observados es de 3.5 cms. (36,5 – 33,1 + 0.1 cms.) - El 51,43% (18 casos) de los datos están alrededor de los 34 cms. - Son muy poco frecuentes los casos mayores a 36 cms (3 casos) y menores a 33,5 cms (2 casos). - La distribución de datos está sesgada a la derecha (sesgo positivo), es decir, hay una mayor concentración de datos a la izquierda.

48

Jorge Córdova Egocheaga

Ejercicio Se realiza un estudio para ayudar a comprender el efecto de fumar en los patrones de sueño. La variable es el tiempo que tarda en quedarse dormido. La muestras de fumadores y no fumadores producen estas observaciones : FUMADORES 17,2 16,2 19,8 21,2 21,1 21,8 19,5

19,7 19,9 22,9 18,9 16,9 22,1 18,8

18,1 19,8 20,0 22,1 23,0 21,0 19,2

15,1 23,6 24,1 20,6 20,1 20,5 22,4

NO FUMADORES 18,3 24,9 25,0 23,3 17,5 20,4 19,3

17,6 20,1 21,4 20,2 21,3 20,7 17,4

15,1 16,8 22,8 25,8 24,3 23,2 15,7

20,5 21,2 22,4 24,1 25,7 25,1 15,3

17,7 18,1 19,4 15,0 15,2 16,1 19,9

21,3 22,1 25,2 24,1 18,0 17,2 23,1

16,0 15,9 18,3 21,6 23,8 24,9 23,0

24,8 25,2 25,0 16,3 17,9 19,9 15,1

Construya un diagrama tallo-hoja para cada uno de estos conjuntos de datos. Utilice los valores enteros del 15 al 25 (inclusive) como tallos. ¿Se sorprendería si alguien le dijera que no existe diferencia en la distribución de esta variable en los dos grupos?. Explique. 3.4 TABLA DE DISTRIBUCIÓN DE FRECUENCIAS Pueden ser simples o cruzadas A)

Tablas simples 1 2 3. 4.

Se utilizan para presentar una sola variable. Pueden representar datos cualitativos o cuantitativos. Presentan por lo menos dos columnas: categoría o clase y el número de datos o frecuencia de clase. Puede incluirse una columna de tasa porcentual.

Para datos cualitativos se siguen los pasos siguientes:

49

Manual de Estadística General

(1º) Identificar diferentes categorías. (2º) Realizar un conteo. (3º) Elaborar la tabla: titulo, cuerpo y fuente. Ejemplo Con la finalidad de mejorar la calidad del servicio de emergencia en una clínica local, se ha formulado la siguiente pregunta a 45 pacientes atendidos durante una semana: “¿Cómo califica la calidad de la atención que Ud, acaba de recibir en este Servicio de Emergencia: muy bueno, bueno, aceptable, malo o muy malo” Los datos recolectados se presentan a continuación: Muy bueno

Aceptable

Aceptable

Muy bueno

Bueno

Bueno

Bueno

Muy malo

Bueno

Bueno

Aceptable

Bueno

Aceptable

Malo

Muy bueno

Malo

Aceptable

Muy malo

Aceptable

Malo

Aceptable

Muy bueno

Bueno

Bueno

Aceptable

Bueno

Malo

Aceptable

Muy malo

Bueno

Malo

Bueno

Malo

Bueno

Aceptable

Bueno

Bueno

Muy malo

Muy bueno

Malo

Aceptable

Bueno

Aceptable

Malo

Bueno

Primero, se identifican las categorías: Muy bueno Bueno Aceptable Malo Muy malo

50

Jorge Córdova Egocheaga

Segundo, se realiza el conteo de las frecuencias: Muy bueno Bueno Aceptable Malo Muy malo

///// ///// ///// ///// / ///// ///// // ///// /// ////

Tercero, se presenta la tabla, considerando el título y la fuente. Cuadro 1: Calidad del Servicio de Emergencia

C a t e g o ria

N ú m e ro d e P a c ie n t e s

T asa P o rc e n tu a l

M uy Bueno

5

1 1 ,1 1

Bu en o

16

3 5 ,5 5

A c e p ta b le

12

2 6 ,6 7

M a lo

8

1 7 ,7 8

M u y M a lo

4

8 ,8 9

45

1 0 0 ,0 0

T o tal

Fuente: Encuesta a los Pacientes, julio 2002 Para datos cuantitativos se sigue el procedimiento siguiente: (1º) Se calcula el rango:(mayor - menor) + 1 (2º) Se determina el número de clases, que mejor representa a los datos (entre 4 y 20). Se realiza un tanteo. (3º) Se determina el tamaño o amplitud de clase. 51

Manual de Estadística General

(4º) Se elige el limite inferior de la primera clase. (5º) Se establecen los siguientes clases.

límites

inferiores

de

las

(6º) Se establecen los limites superiores de cada una de las clases. (7º) Se realiza un conteo, a fin de determinar cuantos datos se incluyen en cada clase. (8º) Se elabora la tabla: titulo, cuerpo y fuente. Ejemplo: Revisemos el ejemplo sobre los niveles de colesterol en suero presentado anteriormente. 231

199

209

236

259

248

183

269

212

194

191

260

197

265

261

159

227

245

214

275

186

234

262

230

212

163

220

202

221

223

203

180

292

198

201

174

223

186

200

192

236

186

188

234

230

304

197

216

214

189

138

269

197

222

202

213

163

241

218

242

248

228

154

218

243

192

191

243

230

248

231

262

177

207

276

238

189

212

200

179

249

225

223

289

280

235

220

194

205

206

209

233

222

223

267

212

263

159

243

230

253

192

200

232

222

193

195

259

186

229

184

215

254

233

229

263

163

212

271

216

225

252

218

265

218

155

222

173

228

214

266

172

203

262

213

244

177

242

180

241

261

221

222

189

204

229

212

192

257

248

190

166

216

197

250

224

257

220

255

241

245

212

225

201

209

229

194

174

184

192

249

216

250

248

187

222

195

247

161

188

209

250

180

228

196

254

208

265

234

219

203

Solución Se calcula el rango: R = Mayor – menor + 1 Mayor = 317 Menor = 106 Rango = (317 – 106) + 1 = 212

52

Jorge Córdova Egocheaga

Se tantea el número de clases: 4 clases de 53 Þ Rango corregido 212: No exceso 5 clases de 43 Þ Rango corregido 215: Exceso 3 6 clases de 36 Þ Rango corregido 216: Exceso 4 7 clases de 31 Þ Rango corregido 217: Exceso 5 8 clases de 27 Þ Rango corregido 216: Exceso 4 Se escoge 4 clases por tener el menor exceso. La amplitud de clase es 53. Como no hay exceso con 4 clases, el límite inferior de la primera clase es el menor número. En este caso 106. 5.

Los límites inferiores de las clases siguientes se forman sumando al límite inferior de la primera clase, la amplitud. En este caso, 53

NIVELES DE El menor valor

COLESTEROL

PERSONAS

Tasa porcentual (%)

106 159 106 + 53

212 265 Total

1000

100,00

Fuente: Departamento de Salud

6.

Luego se calculan los límites superiores de cada clase. Para la primera clase se resta 1 al límite inferior de la segunda clase. Para las clases siguientes, se le suma la amplitud, en este caso 53.

53

Manual de Estadística General

Cuadro 2: Niveles de colesterol en Lima

NIVELES DE COLESTEROL 106 - 158 159 - 211

PERSONAS

Tasa porcentual (%)

159 - 1 158 + 53

212 - 264 265 - 317 Total

100,00

1000

Fuente: Departamento de Salud 7.

Finalmente se realiza el conteo de las frecuencias y se presenta la tabla con un título y fuente. Se acostumbra presentar frecuencias relativas (%)

una

columna

con

la

En algunas ocasiones se elaboran las tablas con clases abiertas cuando los datos inferiores o superiores están muy dispersos

54

Jorge Córdova Egocheaga

Cuadro 3: Ventas diarias en la Farmacia durante el mes de junio (en soles)

Ventas

Tasa

(en soles)

Dias

menos de 5000

3

porcentual (%) 10,00

5000 - 8999

7

23,33

9000 - 12999

10

33,33

13000 - 16999

8

26,67

17000 - 20999

2

6,67

Total

30

100,00

Fuente: Registro de Ventas Ejercicio Los siguientes datos de refieren a la estatura (en metros) de 50 pacientes que se atienden en el servicio de reumatología de la Clínica Sagrado Corazón. Construya una tabla de distribución de frecuencias. 1,68 1,70 1,80 1,69 1,64 1,87

1,72 1,66 1,68 1,84 1,70 1,64

1,70 1,70 1,72 1,74 1,86 1,72

1,67 1,68 1,74 1,73 1,74 1,87

1,76 1,65 1,72 1,75 1,75 1,77

1,82 1,74 1,69 1,75 1,77

1,59 1,80 1,78 1,72 1,76

1,66 1,57 1,84 1,81 1,72

1,82 1,64 1,61 1,87 1,81

La tabla de distribución de frecuencias completa, tiene la siguiente estructura

55

Manual de Estadística General CLASE

Marca de

Frecuencia

Frecuencia

Frec. Absoluta

Frec. Relativa

Li

Clase: Xi

absoluta: fi

relativa: hi

Acumulada: Fi

Acumulada: Hi

Li Ls Xi fi hi Fi Hi

Ls

limite inferior limite superior Marca de la clase i frecuencia absoluta de la clase i. frecuencia relativa de la clase i. frecuencia absoluta acumulada hasta la clase i. frecuencia relativa acumulada hasta la clase i.

Ejercicio 2: Complete la siguiente tabla que corresponde al pacientes del Hospital Central. PESO (en kilos) 48,0 – 52,9

fi

Fi

hi

peso de 60

Hi

6 0,30

53,0 – 57,9 58,0 – 62,9 0,25

63,0 – 67,9 68,0 – 72,9

9

Total

Ejercicio 3 La siguiente información se refiere al peso (en Kg.) de 60 personas. Elabore una tabla de distribución de frecuencias. LS5=64 F2=20 h3=0,213 k=6 LI1=35 f6 = 5 f1=4 H4=0,799 56

Jorge Córdova Egocheaga

Ejercicio 4 Complete la siguiente tabla de distribución de frecuencias:

n = ∑ f = 30 hi =

f n

∑ hi = 1.000 PESO (en libras

Fi = fant + fact Hi = h ant + h act fi

128,6 - 135,4

2

135,5 - 142,3

7

142,4 - 149,2

10

149,3 - 156,1

8

156,2 - 163,0

3

Xi

f ant --> frecuencia anterior f act --> frecuencia actual

Fi

hi

Hi

Total

Resumamos algunos conceptos Una distribución de frecuencias (fi) es un conjunto de puntuaciones ordenadas en sus respectivas clases. Las frecuencias relativas (hi) son tasas porcentuales de casos en cada clase. La frecuencia acumulada (Fi o Hi) son las frecuencias que se van acumulando en cada clase, desde la más baja hasta la mas alta. La marca de clase (Xi) es el punto medio de una clase

B)

Tablas cruzadas Sirven para representar dos o más variables cualitativas. En cada celda se puede incluir la frecuencia absoluta y relativa (por fila, columna y total).

57

Manual de Estadística General

Ejemplo Cuadro 4: Enfermedad por sexo E n fe rm e d ad \S e x o

M asculino

F emenino

To tal

B ro nquitis

5

12

17

C o litis

11

8

19

N efritis

15

6

21

Aler gias

4

2

6

To tal

35

25

63

Fuente: Historia Clínica, julio 2002.

58

CAPÍTULO

4

ORGANIZACIÓN GRÁFICA DE DATOS

OBJETIVOS Al finalizar el Capítulo 4, el participante será capaz de: 1. 2. 3.

Elaborar gráficos para una sola variable: barras, columnas, circulo. Elaborar gráficos para dos variables: dispersión, lineal. Elaborar gráficos en tres dimensiones.

Manual de Estadística General

Los gráficos constituyen una forma muy efectiva de presentar información. Su utilización ayuda a una mejor comprensión. Todo gráfico tiene tres partes: El título: específico, pero completo. El cuerpo: es el gráfico en si mismo. La fuente: especificar el origen de la información. 4.1 EL HISTOGRAMA Son barras verticales presentadas una a continuación de otra. Permite presentar datos cuantitativos continuos. Es un gráfico muy utilizado. Propiedades: 1.

El ancho de cada columna es igual en todo el gráfico y representa la amplitud de clase).

2.

El ancho de cada columna es igual en todo el gráfico y representa la amplitud de clase). Xi

fi

128,6 - 135,4

CLASE

132,0

2

135,5 - 142,3

138,9

7

142,4 - 149,2

145,8

10

149,3 - 156,1

152,7

8

156,2 - 163,0

159,6

TOTAL

Distribución de frecuencias

3 30

12

Histograma

Frecuencia

10 8 6 4 2 0

132.0 138.9 145.8 152.7 159.6

Marca de Clase

60

Jorge Córdova Egocheaga

Ejemplo Gráfico 4: Peso de 100 Pacientes (en Kg.) Número de Pacientes

25 20 15 10 5 0 29.5

39.5

49.5

Fuente: Encuesta, julio 2001

59.5

69.5

7 9.5

89.5

9 9.5

Peso (Kgs)

¿Cómo leer histogramas? A)

Tipo general: El valor medio está al centro, que tiene la mayor frecuencia. Es el más frecuente tiene forma simétrica

61

Manual de Estadística General

B)

Tipo multimodal: Hay varios valores “mayores”.

C) Tipo sesgo positivo: Forma asimétrica la media está localizada a la izquierda.

62

Jorge Córdova Egocheaga

D) Tipo precipicio a la izquierda: Forma asimétrica la frecuencia disminuye bruscamente a la izquierda.

E)

Tipo planicie: Las clases misma frecuencia.

tienen

más

o

menos

la

63

Manual de Estadística General

F)

Tipo bimodal: Se observa máximos.

claramente dos valores

G) Tipo pico aislado: Presenta un pico aislado, además de un histograma general.

64

Jorge Córdova Egocheaga

4.2 EL DIAGRAMA DE BARRAS Se utiliza para representar datos cuantitativos discretos o datos cualitativos. – – –

Las barras son de igual ancho. La longitud es proporcional a la frecuencia de la categoría. El espacio entre barras debe ser homogéneo, para evitar efecto visual.

Ejemplo: Gráfico 2: Número de hijos en edad escolar por médico del Hospital Central Nº de Médicos

30 25 20 15 10 5 0 0

1

2

3

4

Fuente: Departamento de Personal

5

Número de hijos (escolares)

65

Manual de Estadística General

Ejemplo Gráfico 3: Pacientes atendidos por especialidad

20 15 10 5 0 Nefrología

Ginecología

Oftalmología

Neurología

Traumatología

Fuente: Hoja de Ingreso, julio del 2002 Ejemplo Gráfico 4: Profesionales de la salud por Especialidad

especialidad

Medico Enfermeras Psiquiatras Fisioterapeuta Obstetriz

Nº de profesionales 0

10

20

30

40

50

60

70

80

90

100

Fuente: Gerencia de Potencial Humano. Julio 2002

66

Jorge Córdova Egocheaga

4.3 EL POLÍGONO DE FRECUENCIAS Es otra forma de conocer las distribución de los datos. Se construye uniendo los punto medios del lado superior de las barras del histograma. 25 20 15 10 5 0 29.5

39.5

49.5

59.5

69.5

79.5

89.5

99.5

Gráfico N° 5: Distribución de los pesos de los Pacientes del Servicio de cardiología Número de Pacientes

Peso (Kg.) Fuente: Historia Clínica, julio del 2002

67

Manual de Estadística General

4.4 DIAGRAMA DE DISPERSIÓN DE PUNTOS Ejemplo

Gráfico 6: Pacientes mensuales 400 Paciente s

Meses

350 300

Enero

120

Febrer o

210

Marzo

180

Abril

320

Mayo

280

100

Junio

200

50

Julio

350

250 200 150

0 0

En ero Feb2rero Ma rzo

Ab4ril

Mayo

J un 6 io

Ju li o

8

Fuente: Departamento de Admisión Clínica

4.5 DIAGRAMA LINEAL Ejemplo Gráfico 7: Pacientes mensuales 400 350 300 250 200 150 100 50 0 Enero Febrero Marzo

Abril

Mayo

Junio

Fuente: Departamento de Admisión Clínica 68

Julio

Jorge Córdova Egocheaga

4.6 LAS OJIVAS La frecuencia acumulada son las frecuencias que se van acumulando en cada categoría, desde la más baja hasta la mas alta. Las ojivas, relaciona las puntuaciones con sus respectivas frecuencias acumuladas. 4.7 EL DIAGRAMA CIRCULAR El circulo se divide en segmentos circulares, de tamaño proporcional a la frecuencia de la categoría. Ejemplo Gráfico 10. Pacientes atendidos en consultorios externos 1 e r tr im . 2 d o tr im . 3 e r tr im . 4 to tr im .

Fuente: Ficha de atención. Julio del 2002

4.8 DIAGRAMA RADAR Útil para visualizar, por ejemplo, el cumplimiento de metas (%) para la Prueba de Papanicolaou en el servicio de ginecología para pacientes de diferentes zonas

69

Manual de Estadística General

Ejemplo 100 80 60 40 E ste

20

O e ste

0

N o r te Sur

Fuente: Hoja de registro atención, julio 2002 4.9 SUPERFICIE EN TRES DIMENSIONES Ejemplo: Metas alcanzadas en prestación de servicios médicos

100 50 4to trim. 0

3er trim.

Fuente: Encuesta, julio 2002

70

3er trim. 4to trim.

CAPÍTULO

5

PROMEDIOS Un motivo para hacer sospechar que la Estadística es más un arte que una ciencia, gira en torno a la ambigüedad con que se usa el término “promedio”.

OBJETIVOS Al finalizar el Capítulo 5, el participante será capaz de: 1.

2.

Diferenciar los diversos tipos de medidas de resumen que se pueden aplicar a un conjunto de datos Calcular e interpretar las principales medidas de tendencia central

Manual de Estadística General

5.1 LA ESTADÍSTICA DE RESUMEN Después de construir tablas y gráficos, a partir de una colección de datos, se requieren medidas más exactas. La estadística de resumen, proporciona medidas para describir un conjunto de datos. Existen tres tipos de medidas de resumen: – – –

De tendencia central. De dispersión. De la forma de la distribución.

(A) Las medidas de tendencia central Se refieren al punto medio de una distribución Se conocen como medidas de posición Ejemplo: A partir del gráfico siguiente, se observa que la posición central de la curva B está a la derecha de la posición central de las curvas A y C. Obsérvese que la posición central de la curva A es la misma que la curva C.

72

Jorge Córdova Egocheaga

(B) Las medidas de dispersión Se refieren a la extensión o amplitud de los datos de una distribución Representan el grado de variabilidad de los datos. Ejemplo: Observe que la curva A en el siguiente gráfico tiene una mayor dispersión que la curva B, a pesar que la posición central es la misma.

(C) Las medidas de la forma de la curva Las curvas que representan a un conjunto de datos, pueden ser analizadas de acuerdo a su: a) Simetría

b) Curtósis

Las curvas simétricas, tienen una forma tal que con una línea vertical que pase por el punto más alto de la curva, dividirá el área de esta en dos partes iguales.

73

Manual de Estadística General

Las curvas sesgadas son aquellas cuyos valores están concentrados en el extremo inferior o superior de la escala de medición del eje horizontal. La “cola” indica el tipo de sesgo.

Cuando medimos la curtósis nos referimos al grado de agudeza. Pueden ser: leptocúrtica (concentración al centro) mesocúrtica distribuidos simétricamente) o platicúrtica (aplanada).

5.2 PROPIEDADES DE LA SUMATORIA ra

1 Regla: La suma de los n términos de una serie constante, es igual a n veces la constante. n

∑c i =1

74

i

= nc

Jorge Córdova Egocheaga

Ejemplo: C = 10, n=3 3

∑c i =1

= 10 + 10 + 10 = 3 (10) = 30

da

2 Regla: La suma de los productos de una constante por una variable, es igual a la constante multiplicada por la suma de la variable.

n

∑ cx i =1

n

i

= c∑ x i i =1

Ejemplo: C = 5, X1 = 2, X2 = 4, X3 = 6 3

∑ cx i =1

i

=

5(2) + 5(4) + 5(6) = 60

ra

3 Regla: La suma de los valores de una variable más una constante es igual a la suma de los valores de la variable más n veces esa constante.

n

n

=1

=1

( x i + c ) = ∑ x i + nc ∑ i i Ejemplo: C =2, x1 =5, x2 =3, x3 =2 3

∑ (xi + c) = (5 + 2) + (3 + 2) + (2 + 2) = 16 i =1

= (5 + 3 + 2) + 3(2) = 16

75

Manual de Estadística General

5.3 LAS MEDIDAS DE TENDENCIA CENTRAL 1. En general se denominan promedios. 2. Los más importantes son la media, la mediana y la moda. Aritmética Media Geométrica Medidas de Mediana Armónica tendencia central Moda

3. También es útil conocer los percentiles (o fractiles). ¿POR QUÉ SON IMPORTANTES LAS MEDIDAS DE TENDENCIA CENTRAL? Porque la mayor parte de los conjuntos de datos muestran una tendencia a agruparse alrededor de un dato central. Las medidas de tendencia central son puntos en una distribución, los valores medios o centrales de ésta y nos ayudan a ubicarla dentro de la escala de medición. 5.3.1 La Media (A) La media aritmética ( x ) a) Obtención: Se obtiene sumando los valores registrados y dividiéndolos entre el número de datos. Ejemplo: La siguiente tabla muestra el número de reclamos y quejas presentadas por pacientes en el Servicio de Emergencias a lo largo de una semana. Calcule e interprete la media.

Día/Semana Reclamos/día

76

Lun Mar Mier Jue Vier Sab 8 10 5 12 10 15

Jorge Córdova Egocheaga

Media aritmética

8 + 10 + 5 + 12 + 10 + 15 60 = 6 6 = 10 reclamos b)

Interpretación: Si elige al azar un día de la semana, se espera que los pacientes del servicio de emergencia realicen 10 reclamos en ese día.

c)

Simbología: Media aritmética (equis barra) µ (mu)

Tamaño n N

Muestra Población d)

Cálculos a partir de datos no agrupados, se utilizan las siguientes formulas. Para una muestra donde: x : media muestral n

∑ Xi x =

∑ Xi

i =1

n n

: suma de todos los datos : número de datos (muestra)

Para una población N

donde: µ : media poblacional ∑ Xi : suma de todos los datos N : número de datos (población)

∑ Xi

µ = i =1 N

Se puede calcular la media aritmética utilizando Excel.

77

Manual de Estadística General

Media aritmetica

e)

Cálculo a partir de datos agrupados. El cálculo de la media aritmética, cuando los datos disponibles se encuentran en tablas de distribución de frecuencias, se realiza utilizando la formula siguiente

n

x

∑

= i = 1n

∑

fiX

i=1

donde:

i

fi

x :media muestral fi :frecuencia absoluta de la clase i X i :marca de la clase i

Ejemplo: La distribución de frecuencias siguiente, representa los puntajes obtenidos en una evaluación del desempeño, aplicado al personal técnico de un Centro de Salud. El puntaje máximo en la prueba es 50. Calcule e interprete en media.

78

Jorge Córdova Egocheaga

D esem p eñ o

N ú m ero d e

(p unto s )

t é c n ic o s

12 - 16

4

17 - 21

8

22 - 26

15

27 - 31

23

32 - 36

10

T O T AL

60

Primero se calcularán las marcas de clase ( Xi); es decir, el valor intermedio de cada clase clase 12 - 16 17 - 21 22 - 26 27 - 31 32 - 36

x=

Marca de clase ( i) 14 19 24 29 34 Total

x

Frecuencia absoluta(fi) 4 8 15 23 10 60

14(4) + 19 (8) + 24 (15) + 29 (23) + 34 (10) x 4 + 8 + 15 + 23 + 10 x = 26.25

= 1575 60

Interpretación: Si se elige al azar a un trabajador técnico de este hospital, se espera que tenga un puntaje de 26,25 en su evaluación de desempeño.

79

Manual de Estadística General

f) La media aritmética ponderada ( x p ) donde: n

xp =

∑wX i =1 n

i

∑w i =1

i

i

wi = factor de ponderación X i = datos

Ejemplo: Una empresa comercializadora de Seguros Médicos dispone de 3 representantes para la zona de Miraflores, cada uno de los cuales cobra diferente comisión por póliza vendida, y realiza diferente número de contratos. Calcule e interprete el valor medio de la comisión

Vendedor

Nº de polizas de Seguro Médico

Comisión por venta $

Pedro Juan Pablo

30 25 20

30 40 50

x p = 30(30) + 25(40) + 20(50) = 2900 = $38.67 30 + 25 + 20

75

Interpretación: Si se elige al azar un representante se espera que cobre una comisión de $38.67 por póliza vendida.

80

Jorge Córdova Egocheaga

g)

Ventajas y desventajas de la media aritmética Ventajas: Concepto familiar para muchas personas Es única para cada conjunto de datos Es posible comparar medias de diferentes muestras Desventajas Se ve afectada por los datos extremos Si la muestra es grande y los datos no están agrupados, su cálculo es tedioso Si los datos están agrupados en clases con extremos abiertos, no es posible calcular la media.

(B) La media geométrica (

xg )

Se utiliza para calcular tasas medias de variación, como la tasa media de crecimiento poblacional, la tasa media de inflación mensual, la tasa media de mortalidad, entre otros. a)

Obtención Se obtiene extrayendo la raíz enésima el producto de los n valores de una serie.

xg = n X1 • X 2 • X3 • .........X n Ejemplo:

La siguiente tabla muestra la tasa de aumento en las quejas durante los últimos meses. Calcule e interprete la tasa media mensual. 81

Manual de Estadística General Meses Aumento de quejas

Enero

Febrero

Marzo

Abril

Mayo

2.6%

5.4%

3.8%

0.5%

1.4%

La tasa 2,6% también se puede expresar como 0,026 , y puesto que se refiere a un aumento a partir de una base de 100%, el factor de variación será 1,026. Para los otros datos se opera igual. b)

Cálculos Por lo tanto, la media geométrica se calcula:

xg

= n

x1, x 2 , x 3,...... x

x g = 5 (1.026) (1.054) (1.038) (1.005)(1.014) x g = 5 1 . 143903377 x g = 1,0272540 ( Factor de crecimient o medio )

Tasa media = (x g −1) ×100 de variación = (1,0272540 - 1) x 100 = 2,72% c)

Interpretación Si se selecciona al azar un mes entre enero y mayo, se espera que las ventas se hayan incrementado 2.72% con respecto al mes anterior.

(C) La media armónica (

xh )

Se utiliza para calcular el tiempo medio, velocidad y aceleración media, como por ejemplo, el tiempo medio para realizar determinada cirugía.

82

Jorge Córdova Egocheaga

a)

Obtención: se obtiene calculando el inverso de la media aritmética de los inversos de una serie.

xh =

1 n

1 X i =1 ∑

i

n Ejemplo: Los siguientes datos registran el tiempo que utilizan cuatro médicos al realizar una cierta intervención quirúrgica. Calcule e interprete el tiempo medio.

M é d ic o T ie m p o (m in u t o s )

A

B

C

D

45

38

52

40

Conocer el tiempo medio permite contar con una herramienta útil en la planeación de los recursos, como la Sala de Operaciones. Además de poder comparar nuestro desempeño con los estándares de calidad internacionales. xh = 1 1 4 1 1 = 1976 + 2340 +4 1710 + 2223 + + + 45 38 52 40 88920

xh = 4 × 88920 = 43.117953 minutos 8249

xh = 43 minutos 7 segundos 83

Manual de Estadística General

b)

Interpretación: Si se selecciona al azar a uno de los cuatro médicos, se espera que realice este tipo de cirugía en 43 minutos aproximadamente.

5.3.2 La Mediana Es la medida que divide en dos subconjuntos iguales a datos, de tal manera que 50% de los datos es menor a la mediana y el otro 50% es mayor a la mediana. a)

Obtención: Se obtiene ordenando la serie de datos (en forma ascendente o descendente) y ubicando el dato central. Ejemplo: Los siguientes datos se refieren al número de pacientes que llegaron a su cita, después de la hora programada durante los últimos 11 días en el Servicio de Pediatría. Calcule e interprete la mediana. 12, 10, 5, 15, 8, 11, 13, 8, 10, 17, 16 Primero se ordenan lo datos: 5, 8, 8, 10, 10, 11, 12, 13, 15, 16, 17 5 datos menores

5 datos mayores

mediana

b)

84

Interpretación: Durante 5 días llegaron menos de 11 pacientes tarde a su cita y durante 5 días, más de 11 pacientes llegaron tarde a su cita.

Jorge Córdova Egocheaga

c)

Reglas 1º Si la serie es impar, la mediana ocupa el lugar central de la serie previamente ordenada. Ejemplo: 5, 10, 10, 12, 15 , 17, 20, 21, 24 2º Si la serie es par, la mediana se obtiene de la semisuma de los dos valores centrales de la serie previamente ordenada. Ejemplo: 8, 10, 14, 18, 23, 24, 32, 34

mediana =

18 + 23 = 20 .5 2

3º Sea la serie par o impar, la mediana ocupa el lugar

d)

 n + 1  2  ,de la serie previamente ordenada.

Cálculo a partir de datos agrupados.

  n +1  2 − (F + 1)  Md = Li +  c f Md     donde: Md : mediana L i : limite real (o frontera) inferior de la clase mediana. n : número total de datos. F : suma de todas las frecuencias hasta, pero sin incluir, la clase mediana. f Md : frecuencia de la clase mediana c : amplitud de clase

85

Manual de Estadística General

Ejemplo: La tabla siguiente muestra la experiencia laboral (años) del personal de seguridad que labora en un gran hospital. Calcule e interprete la mediana.

Lugar de la mediana: E xp e rie nc ia la b o ra l (a ño s ) 0 - 3 4 - 7

N úm e ro d e tr a b a ja d o r e s d e s e g urid a d 4 12

8 - 11

24

12 - 15 16 - 19 20 - 23

16 10 3 69

n + 1 69 + 1 = = 35o 2 2

 69 + 1 − (16)  4 Md = 7,5 +  2 24    

C la s e M e d ia na

= 7,5 +

35 − 164  24 

Mediana = 10,5 años Interpretación: La mitad del personal de seguridad que labora en este hospital tienen una experiencia laboral igual o menor a 10 años 6 meses. La otra mitad de este personal tiene una experiencia laboral igual o mayor a 10 años y 6 meses. e)

Ventajas y desventajas Ventajas: Los valores extremos no afectan a la mediana como en el caso de la media aritmética. Es fácil de calcular, interpretar y entender. Se puede determinar para datos cualitativos, registrados bajo una escala ordinal. Desventajas: Como valor central, se debe ordenar primero la serie de datos.

86

Jorge Córdova Egocheaga

Para una serie amplia de datos no agrupados, el proceso de ordenamiento de los datos demanda tiempo y usualmente provoca equivocaciones. 5.3.3 La Moda La moda es el valor que más se repite dentro de un conjunto de datos. a) Obtención: se obtiene organizando la serie de datos y seleccionando el o los datos que más se repiten. Ejemplo

4, 5, 7, 8, 8 , 10, 12, 15 4, 7, 12,12 , 15, 16, 20, 20 , 24, 27 7, 12, 15, 18, 25, 30, 31, 38 b) Cálculo a partir de datos agrupados

Mo = L

i

+

 ∆1   ∆ + ∆ c  1 2

donde: M o : moda L : limite real (o frontera) inferior de la clase i modal (la de mayor frecuencia) : frecuencia de la clase modal menos la ∆ 1 frecuencia de la clase anterior ∆ : frecuencia de la clase modal menos la 2 frecuencia de la clase siguiente c : amplitud de clase Las clases mediana y modal pueden coincidir pero conceptualmente son diferentes.

87

Manual de Estadística General

Ejemplo: La tabla siguiente muestra los errores de facturación durante un mes, en una Clínica. Calcule e interprete la moda. Er r o r e s d e f a c tu r a c ió n

Día s

0 - 3

6

4 - 7

12

8 - 11

8

12 - 15

3

16 - 19

1

To ta l

30

∆ =6 1

Cla s e Mo d a l

∆ =4 2

Clase moda : (4 - 7)  6  Mo = 3.5 +  4  6+4

Mo = 5,9

Interpretación: Durante un mes, el número más frecuente de errores de facturación en esta clínica es 6. e) Ventajas y desventajas de la moda. Ventajas: Se puede utilizar tanto para datos cualitativos como cuantitativos. No se ve afectada por los valores extremos. Se puede calcular, a pesar de que existan una o más clases abiertas. Desventajas: No tiene un uso tan frecuente como la media. Muchas veces no existe moda (distribución amodal). En otros casos la distribución tiene varias modas, lo que dificulta su interpretación. 5.3.4 Los Percentiles Son los valores que dividen en 100 partes iguales a un conjunto de datos

88

Jorge Córdova Egocheaga

a) Cálculo: para datos agrupados.

( )

 Kn − F + 1    i P = L + 100  c K i f P   K donde: P

K

: percentil

K : el percentil buscado

n : número de datos Fi : frecuencia acumulativa hasta la clase anterior a la clase donde se ubica el percentil K f P : frecuencia absoluta de la clase donde se K ubica el percentil K c : amplitud de clase Ejemplo: La tabla muestra la experiencia (en años) de las enfermeras de un gran centro hospitalario Experiencia Trabajadores (años)

0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27 Total

18 42 68 120 40 34 12 334

¿Sobre qué edad se ubica el 25% de las enfermeras de mayor experiencia?

89

Manual de Estadística General

75 %

25 %

P75

Menor Experiencia

Mayor Experiencia

K = 75

Lugar del P75 =

Kn 75(334 ) = = 250 ,5o (de los números ordenados ) 100 100

Para saber en cuál clase se halla este dato, se calculó la frecuencia acumulativa. E xperiencia (años) 0-3 4-7 8 - 11 12 - 15 16 - 19 20 - 23 24 - 27

Nº Trabajadores

F rec. A cumulada

fi

Fi 18 60 128 248 288 322 334

18 42 68 120 40 34 12 334

 75(334) − (248 + 1)    100 P = 15.5 + 4  75 40  

F=248 En esta clase se localizan del 249º - 288º

P = 15.65 años 75

Interpretación: Para que una enfermera esté comprendida dentro del 25% de mayor experiencia laboral debe tener al menos 15 años, 7 meses y 24 días.

90

CAPÍTULO

6

MEDIDAS DE DISPERSIÓN Y ASIMETRÍA OBJETIVOS Al finalizar el Capítulo 6, el participante será capaz de: Calcular e interpretar las principales medidas de dispersión: A) Rango B) Rango intercuartílico C) Varianza D) Desviación estándar E) Coeficiente de variabilidad Calcular e interpretar las principales medidas de la forma de la distribución. A) Coeficiente de asimetría B) Coeficiente de curtosis

Manual de Estadística General

6.1 LAS MEDIDAS DE DISPERSIÓN Llamadas también medidas de variabilidad Son útiles porque: Permiten juzgar la confiabilidad de la medida de tendencia central. Los datos demasiados dispersos tienen un comportamiento especial. Es posible comparar dispersión de diversas muestras. 6.1.1 El rango (R) Llamado también recorrido, amplitud total o alcance. a) Obtención: se obtiene de la influencia entre el dato mayor y el dato menor más una unidad significativa, a fin de incluir ambos valores extremos. Ejemplo: Los siguientes datos representan el peso de 10 niños al nacer, (en Kg.). Calcule e interprete el rango. 2,860 3,150 3,450 2,950 3,780 4,170 3,920 3,280 4,050 3,120 Rango = (4,170 - 2,860) + 0.001 Rango = 1,311 Kg. b) Interpretación La diferencia entre el bebe de mayor peso y el bebe menor peso es 1,311 Kg.

92

Jorge Córdova Egocheaga

c) Cálculo A partir de datos agrupados, se utiliza la siguiente fórmula: R= (Ls - Li ) + 1 donde: Ls : Limite superior de la última clase Li : Limite inferior de la primera clase Ejemplo: La distribución de frecuencias siguiente representa el tiempo que espera un paciente para ser atendido, en un consultorio externo. Calcule e interprete el rango

Tiempo Nº de Pacientes (minutos) (por día) 12 - 16 4 17 - 21 8 22 - 26 15 27 - 31 23 32 - 36 10 Total 60 Rango = (36-12) + 1 R = 25 minutos Interpretación: la diferencia de tiempo entre el paciente que más espera y el que menos espera para ser atendido es 25 minutos.

93

Manual de Estadística General

f) Ventajas y desventajas del rango Ventajas Fácil de calcular Fácil de entender e interpretar Desventajas Sólo considera los valores extremos No toma en cuenta ni el número de datos ni el valor de estos No es posible calcular en tablas con extremos abiertos. 6.1.2 El rango intercuartílico Permite ubicar el 50% de los datos que se encuentran en el centro de la distribución, es decir, el 25% de los datos son menores al primer cuartil y también 25% de los datos son mayores al tercer cuartil.

94

Jorge Córdova Egocheaga

Ejemplo: La tabla muestra la experiencia (en años) del personal que labora en el Hospital Central.

E xp e rie nc ia T rab ajad o re s (año s ) 0 -3 18 4 -7 42 8 - 11 68 12 - 15 120 16 - 19 40 20 - 23 34 24 - 27 12 T o tal 334 A) ¿Entre qué valores se encuentra el 50% intermedio de estos datos? B) ¿Cuál es el rango intercuartílico? 50 %

25 %

25 % Q3

Q1 Rango Intercuartílico

Lugar Q1 = P25 →

25(334 ) = 83 .5 o se ubica en la 3ra clase 100

 25(334) − (60 + 1) 4  100 Q = 7.5 +   1 68  

Q = 8.82 años 1

95

Manual de Estadística General

Lugar Q 3 = P75 →

75(334 ) = 250 .5o se ubica en la 5ta clase 100

 75(334) − (248 + 1)   100 Q = 15.5 + 4  3 40   A. El 50% de los trabajadores con experiencia intermedia se encuentran entre 8,82 y 15,65 años. B. El rango intercuartílico es 6 años 10 meses aproximadamente 6.1.3 La desviación cuartílica Es una medida de variabilidad fácil de calcular. Es la mitad del rango intercuartil. Mide la dispersión del 50% central de las observaciones respecto a la mediana. Es imposible tener una DC negativa. Es raro, pero podría tener un valor igual a 0, en el caso que los percentiles sean iguales (P75 = P25). Cuando mayor sea la diferencia entre los percentiles, mayor será el valor de la DC.

DC =

P75 − P25 2

Ejemplo: Si P25 = 7,2

DC =

13,4 − 7,2 = 3,1 2

P75 = 13,4 Interpretación: 50% central de las observaciones varía en 3,1 con respecto a la mediana.

96

Jorge Córdova Egocheaga

6.1.3 La varianza Es una medida de desviación promedio con respecto a la media aritmética a) Cálculos a partir de datos no agrupados. Para una muestra n

S

2

=

2

∑ (X − x ) i =1

i

n −1

Para un población N

σ

2

∑(X −µ)

2

= i=1

i

N

Ejemplo: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la varianza. 8, 10, 5, 12, 10, 15 Primero, elaboramos un cuadro de la forma siguiente:

x 8

Xi − x

(X i − x )

2

8 - 10 = 2

4

10 5

10 - 10 = 0 5 - 10 = 5

0

12

12 - 10 = 2

4

10

10 - 10 = 0

0

15

15 - 10 = 5

25

∑ X = 60

x=

25

60 6

x = 10

∑ (X i − x ) = 0 ∑ (X i − x )

2

= 58

97

Manual de Estadística General ∑ (X i − x ) = 58 2

2

S =

∑ (X i − x )

2

n −1

58 2 S = 6 − 1 = 11.6

6.1.4 La desviación estándar Llamada también desviación típica representa la variabilidad (o desviaciones) promedio de los datos con respecto a la media aritmética. Es la raíz cuadrada de la varianza, sea poblacional o muestral. a) Cálculos a partir de datos no agrupados Para la muestra n

S=

s

2

=

∑ (Xi − x )

2

i =1

n −1

para la población N

σ = σ2 =

∑ (X i − µ )

2

i =1

N

Ejemplo: La siguiente información se refiere al número de radiografías reprocesadas durante una semana. Calcule la desviación estándar. 8, 10, 5, 12, 10, 15

98

Jorge Córdova Egocheaga

Ya sabemos por el ejemplo anterior que S2 = 11,6 Entonces

S=

s

2

S = 11,6 S = 3,4 radiografias 6.1.5 El coeficiente de variación Es una medida relativa de variabilidad de los datos. Permite comparar la variabilidad de dos o más conjuntos de datos expresados en unidades diferentes (peso: Kg. y libras). a) Cálculos a partir de datos no agrupados Para la muestra:

CV =

s × 100 x

Para la población:

CV =

σ × 100 µ

Ejemplo: A continuación se presentan las tarifas (en unidades monetarias) de dos laboratorios de análisis clínicos. El laboratorio I tiene sus tarifas en soles y el laboratorio II en dólares ¿Cuál de ellos tiene un plan tarifario más homogéneo o estable?.

99

Manual de Estadística General

Laboratorio I (soles) 40,70,60,48,52,65,58

Laboratorio II (dólares) 70,35,150,140,82,110,140,120

Calculamos la media y desviación estándar por cada una de los laboratorios Laboratorio I n

x

=

∑ Xi i =1

n

=

393 = 56.14 7

40

-1 6.1 4

2 60 .5 0

70

1 3.8 6

1 92 .1 0

60

3 .8 6

1 4.9 0

48

-8 .1 4

6 6.2 6

52

-4 .1 4

1 7.1 4

65

8 .8 6

7 8.5 0

58

1 .8 6

3 .4 6

Si ∑ (X i − x ) = 632.86 2

n

S=

∑ (X i −

i =1

CV =

x )2

n −1

=

S × 100 x CV =

100

632 .86 = 10 .27 7 −1

10.27 × 100 = 18 . 29 56.14

Jorge Córdova Egocheaga

Laboratorio II n

x

∑ Xi

= i=1

=

n

847 = 105.87 8

70

-3 5.87

12 86.6 569

35

-7 0.87

50 22.5 569

15 0

44 .13

19 47.4 569

14 0

34 .13

11 64.8 569

82

-2 3.87

56 9.77 69

11 0

4.1 3

17 .056 9

14 0

34 .13

11 64.8 569

12 0

14 .13

19 9.65 69

Si ∑ (X i − x ) = 11372 .88 n

2

i =1

n

S=

CV =

∑ (X i −

i =1

n −1

S × 100 x

x )2

=

11372 ,88 = 40 . 30 8 −1

CV =

40,30 × 100 = 30 , 06 105,87

El Laboratorio II presenta una mayor variabilidad en el plan tarifario. 6.2 MEDIDAS DE ASIMETRIA O SESGO 6.2.1 Coeficiente de Asimetría Es un indicador del grado de asimetría que presenta una distribución.

101

Manual de Estadística General

S kp =

3 ( X − Md ) S

Valores posibles

− 3 asimetría S kp =  + 3 asimetría

negativa positiva

Si Skp tiende a 3 la distribución es asimétrica hacia la derecha o asimetría positiva. Si Skp tiende a -3 la distribución es asimétrica a la izquierda o asimetría negativa. En distribuciones simétricas, no existe sesgo, es decir Skp = 0. En la práctica, el coeficiente de Asimetría de Pearson varía entre -1 y +1 6.2.2 Coeficiente de Curtósis Es una medida del grado de apuntalamiento, generalmente comparada con el apuntalamiento de la distribución normal.

Ku =

0 , 5 ( P0 , 75 − P0 , 25 ) P0 , 9 − P0 ,1

Valores posibles a) Leptocúrtica (concentración al centro): Si el grado de apuntalamiento de una distribución es mayor que el de la distribución normal. Kµ ≅ 0,5 102

Jorge Córdova Egocheaga

b) Mesocúrtica (distribuidos simétricamente): Si el grado de apuntalamiento de una distribución es igual que el de la distribución normal. Kµ ≅ 0,25 c) Platicúrtica (aplanada).Si el grado de apuntalamiento de una distribución es menor que el de la distribución normal. Kµ ≅0,25 Platicurtica 0,0

Mesocurtica

Leptocúrtica

0,25

0,50

Ejemplo: La tabla muestra la edad (en años) de 70 pacientes atendidos en el servicio de emergencia de un hospital local.

4 3 5 6 7 25 13 2 4 5

67 85 6 7 7 10 12 15 16 17

18 15 16 17 15 13 13 14 20 14

15 15 15 16 17 17 13 14 16 17

11 14 13 10 6 4 8 14 18 20

3 5 7 8 12 15 17 18 20 21

24 26 21 22 17 16 9 9 15 12

103

Manual de Estadística General

A) Calcular e interpretar la asimetría de la distribución B) Calcular e interpretar la curtosis de la distribución. Los resultados han sido obtenidos usando Microsoft Excel Media aritmetica Desviacion estandar Mediana Cuartil 1 Cuartil 3 Percentil 90 Percentil10

104

14.27 3(14,27 − 13,50 ) = 0,202 11.42 S kp = 11,42 13.50 7.00 0,5(17,00− 7,00) 17.00 Ku = 23,00− 4,00 = 0,263 23.00 4.00

CAPÍTULO

7

NOCIONES DE PROBABILIDAD

OBJETIVOS Al finalizar el Capítulo 7, el participante será capaz de: 1. 2. 3.

Aplicar los conceptos de experimento, espacio muestral y evento. Discutir los principios para asignar probabilidad. Utilizar las reglas de probabilidad para plantear y resolver un problema real.

Manual de Estadística General

7.1 IMPORTANCIA DE LAS PROBABILIDADES Las probabilidades están presentes en nuestras vidas más a menudo de que podríamos sospechar. Todos tenemos una gran intuición probabilística. Por ejemplo, en días lluviosos, fríos y con mucha humedad es alta la probabilidad de coger un resfrío. Si ingerimos alimentos en lugares poco higiénicos, en ambulantes es muy probable que contraigamos una infección estomacal. ¿Cómo es la probabilidad de ganar el premio mayor en Tinka?. Muy baja, pues hay muchas alternativas en juego. Pero aún sabiendo esto, compramos uno que otro número. La decisión creo yo que es racional. Si escuchamos una predicción de 80% que lluvia, y Ud. tiene planeado un paseo al campo con la familia. ¿Qué hace?. Lo mas racional es que cancele su paseo y se quede en su casa viendo en video. 7.2 CONCEPTOS BÁSICOS (A) Experimento: Ejecución voluntaria de un fenómeno. Se caracteriza por: Tener varios resultados posibles Existir incertidumbre sobre el resultado Ejemplos: Lanzar una moneda Seleccionar de un lote un frasco de medicamentos Extraer una muestra de sangre a una persona (B) Espacio Muestral: conjunto de todos los resultados posibles de un experimento. Se simboliza por Ω (omega).

106

Jorge Córdova Egocheaga

Ejemplos: Lanzar una moneda Ω = {cara, sello} Seleccionar de un lote, un medicamentos. Ω ={adecuado, inadecuado} Extraer una muestra de sangre a una Ω = {grupo sanguíneo}

frasco

de

persona.

Ejemplo: Se lanzan tres monedas simultáneamente. Los ochos resultados posibles de este experimento pueden detallarse de manera conveniente mediante un diagrama de árbol: Primera Moneda

Segunda Moneda

C C S C S

S

Tercera Moneda

C S C S C S C S

Resultado Posible

CCC CCS CSC CSS SCC SCS SSC SSS

Ω ={CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS} (C) Suceso: subconjunto del espacio muestral, seleccionado de acuerdo a una condición. Se representan por letras latinas mayúsculas.

107

Manual de Estadística General

Ejemplo: Se lanzan dos dados. El espacio muestral de este experimento es: Ω=

{ (1,1) (1,2) (1,3) (1,4) (1,5) (1,6) (2,1) (2,2) (2,3) (2,4) (2,5) (2,6) (3,1) (3,2) (3,3) (3,4) (3,5) (3,6) (4,1) (4,2) (4,3) (4,4) (4,5) (4,6) (5,1) (5,2) (5,3) (5,4) (5,5) (5,6) (6,1) (6,2) (6,3) (6,4) (6,5) (6,6) }

Podemos considerar los siguientes sucesos: A:

la suma de puntajes es 7, es decir A = {(1,6) (2,5) (3,4) (4,3) (5,2) (6,1)}

B:

la suma de puntajes es 11, es decir B={(5,6) (6,5)}

C: la suma de puntajes es 7 u 11, es decir C={(1,6) (2,5) (3,4) (4,3) (5,2) (6,1) (5,6) (6,5)} 7.3 PROBABILIDAD (A) Concepto: Ponderación asignada a cada punto muestral que mide la verosimilitud de su ocurrencia. (B) Principios para asignar probabilidad:

108

a)

La probabilidad de cada punto muestral debe estar entre 0 y 1

b)

La suma de las probabilidades de todos los puntos muestrales deben ser iguales a 1.

Jorge Córdova Egocheaga

0

0,5

Improbable

Tan probable como improbable

1 Probable

Ejemplos: 1. Se lanza una moneda Ω={cara, sello} P(cara) = 0,5

P(sello) = 0,5

2. Se lanzan 3 monedas Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 1/8 1/8 1/8 1/8 /8 1/8 1/8 1/8 A: obtener exactamente 2 caras A = {CCS, CSC, SCC} 1/8 + 1/8 + 1/8 P(A) = 3/8 (C) Conclusiones: De acuerdo a la definición de probabilidad de un suceso, y a los dos principios, tenemos las siguientes conclusiones: (1º) P(Ω) = 1 (2º) P( ∅ ) = 0 (3º) P(A´) = 1 - P(A) PROBABILIDADES - EJEMPLOS 1.

Un investigador trabaja con un nuevo fármaco para insensibilizar a los pacientes frente a picaduras de abejas. De 200 sujetos sometidos a prueba, 180 presentaron una

109

Manual de Estadística General

disminución en la gravedad de los síntomas tras sufrir una picadura, después de ser sometidos al tratamiento. 2.

Un paciente sufre de cálculos renales, y no se ha conseguido mejora alguna a partir de métodos ordinarios. Su medico ésta planteándose el llevar a cabo una intervención quirúrgica y debe responder a la siguiente pregunta: ¿Cuál es la probabilidad de que la operación sea un éxito?.

PROBABILIDAD DEL PUNTO ESTADISTICO Quien emplea la estadística aplicada prefiere pensar en la probabilidad como el numero de veces en las que se presentará determinada situación si una experiencia fuera repetida indefinidamente en situaciones de naturaleza repetitiva o que pudiera concebirse de esa manera 7.4 REGLAS DE PROBABILIDAD 7.4.1 Regla de la Adición

A

B

(A B) U

U

P(AUB) = P(A) + P(B) - P(A B) Ejemplo: Un cliente ingresa a una farmacia. La probabilidad de que compre (a) un antibiótico es 0,60 (b) analgésico 110

Jorge Córdova Egocheaga

0,50, y c) antibiótico y analgésico es 0,30 ¿Cuál es la probabilidad de que compre un antibiótico, analgésico o ambos?. Datos P(P) = 0,60 P(L) = 0,50 P = 0,30 P(PUL) = P(P) + P(L) – P(PUL) = 0,60 + 0,50 - 0,30 P(PUL) = 0,80 Regla de adición para sucesos mutuamente excluyentesDos sucesos son mutuamente excluyentes, si no tienen elementos comunes

A

B

⇒ P(AUB) = P(A) + P(B)

Si : (A B) = ∅ Por lo tanto : P(A B) = 0 U U

Ejemplo: Se extrae una carta de una baraja. ¿Cuál es la probabilidad de que sea un as o un rey?

P(AUR) = P(A) + P(R) 4 P(A) = 52 4 P(R) = 52

4 4 + 52 52 8 = 52 =

111

Manual de Estadística General

Ejemplo 1: Se dispone de 11 historias clínicas, pertenecientes a pacientes masculinos y femeninos agrupados por su nivel de hemoglobina.

M

F

(Masculino)

(Blanca)

Total

A (Anémico)

5

3

8

N (Normal)

1

2

3

6

5

11

Estado

Total

a) ¿Cuál es la probabilidad de extraer una historia perteneciente a un paciente anémico? 8 P(A) = 11 b) ¿Cuál es la probabilidad de extraer una historia correspondiente a un paciente anémico y que sea mujer? 3 P(A I F) = 11 Dado que la historia corresponde a un paciente anémico, ¿cuál es la probabilidad que sea mujer?

P(F

A

)= 3 8

Derivación de la fórmula:

P (F

A

)=

P(F I B) P(A)

Comprobando

P(F

112

3

A

) = 811 11

Jorge Córdova Egocheaga

P (F

A

)= 3 8

Ejemplo 2 Se recolectó información sobre el peso del recién nacido y si la madre fumó o no durante el embarazo. Los datos se presentan a continuación: CONDICIÓN

PESO R.N.

TOTAL

DE FUMADORA

BAJO

NORMAL

SI

30

10

40

NO

20

140

160

TOTAL

50

150

200

A. ¿Cuál es la probabilidad que el recién nacido tenga bajo peso?

P(bajo) =

50 = 0,25 200

B. ¿Cuál es la probabilidad que una gestante fume?

P(si) =

40 = 0,20 200

C. ¿Cuál es la probabilidad que el niño seleccionado tenga un peso normal? 150 = 0,75 P(normal) = 200 D. ¿Cuál es la probabilidad de que un recién nacido tenga bajo peso o sea normal? Como son mutuamente excluyentes:

113

Manual de Estadística General

P(bajoónormal) = P(bajo) + P(normal) =

50 150 + 200 200

= 1

E. ¿Cuál es la probabilidad de que el recién nacido tenga bajo peso o la madre haya fumado durante el embarazo? P(bajoósi ) = P(bajo ) + P( si) − P(bajoysi ) =

50 40 30 60 + − = = 0,30 200 200 200 200

Aplicación La probabilidad de que el personal administrativo que labora en una clínica local, llegue tarde el día lunes es 0,50 y la probabilidad de que llegue retrasado los días lunes y martes es 0,20. Dado que cierto trabajador llegó tarde el día lunes, ¿cuál es la probabilidad de que llegue tarde el día siguiente?. P (TM

P(TL ) = 0,50

P(T L I TM ) = 0,20

A partir de

P(A I B) ) = A P(A)

Se despeja

( A)

P( A I B) = P( A) • P B

114

) = P(T

M I TL ) P(TL )

=

7.4.3 Regla de la Multiplicación

P( B

TL

0,20 = 0,40 0,50

Jorge Córdova Egocheaga

Aplicación Se sabe que en un lote de medicamentos de 50 frascos, hay 4 que no están adecuadamente empacados (defectuosos). Si se extraen al azar 2 frascos, uno a continuación del otro, ¿cuál es la probabilidad de que ambos sean defectuosos?. P(D1 ) = P(D 2

D1

4 50

)=

(

P ( D1 I D 2 ) = P ( D1 ) • P D 2

3 49

=

D1

)

4 3 12 • = 50 49 2450

Ejercicio En una población de pacientes hospitalizados, la probabilidad de que uno de ellos, elegido aleatoriamente tenga problemas cardiacos es 0,35. La probabilidad de que un paciente con problemas cardiacos sea un fumador es de 0,86. ¿Cuál es la probabilidad de que el paciente elegido al azar de entre la población sea fumador y tenga problemas cardiacos?. Regla de la independientes.

multiplicación

para

sucesos

Los sucesos A y B se consideran independientes cuando la ocurrencia de uno no influye sobre la probabilidad de ocurrencia del otro; esto significa que, independientemente de que A haya ocurrido o no, la probabilidad asignada a B es siempre la misma.

P (B

A

) = P (B)

¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean varones? 115

Manual de Estadística General

Ejemplo 1: La Compañía de Seguros JL ha desarrollado un novedoso seguro médico familiar. De acuerdo con una investigación hecha en el mercado, la probabilidad de que el producto tenga éxito es 0,80 si una compañía competidora no introduce un plan similar en el mercado, en tanto que la probabilidad de éxito es 0,30 si la empresa competidora lanza al mercado un seguro similar. Además, la compañía JL estima que hay una probabilidad de 0,40 de que la firma competidora comercialice el producto. Entonces:

⇒ P ( A I B ) = P ( A) • P ( B ) Ejemplo ¿Cuál es la probabilidad de que en una familia con dos hijos, ambos sean varones?

P (V1 ) = 0,5 P (V2 ) = 0,5

P ( V1 I V2 ) = P ( V1 ) • P ( V2 ) = (0,5) (0,5) P ( V1 I V2 ) = 0,25

7.4.4 El teorema de Bayes Consiste en una partición de la probabilidad total.

116

Jorge Córdova Egocheaga

Ejemplo 1: La Compañía de Seguros JL ha desarrollado un novedoso seguro médico familiar. De acuerdo con una investigación hecha en el mercado, la probabilidad de que el producto tenga éxito es 0,80 si una compañía competidora no introduce un plan similar en el mercado, en tanto que la probabilidad de éxito es 0,30 si la empresa competidora lanza al mercado un seguro similar. Además, la compañía JL estima que hay una probabilidad de 0,40 de que la firma competidora comercialice el producto. Dado que el producto de la Compañía JL tuvo éxito, ¿cuál es la probabilidad de que la firma competidora haya comercializado su novedoso plan de seguro? Solución: P(C) = probabilidad de que competidora comercialice el producto,

la

compañía

P(C´) = probabilidad de que la compañía competidora no comercialice el producto, P(E) = probabilidad de que el plan de seguro familiar de la compañía JL tenga éxito. P. Marginal

=0 P( C )

,40

P(C ´) = 0,6 0

P. Condicional

P. Conjunta

P(E/C) = 0,30 P ( C I E) = 0,40 × 0,30 = 0,12

' P(E/C´) = 0,80 P ( C I E) = 0,60 × 0,80 = 0,48

P. Total P ( E) = 0,60

Luego, de acuerdo con el Teorema de Bayes 117

Manual de Estadística General

P (C

)= E

=

P ( C I E) P ( C I E) + P ( C ' I E)

0 .12 0 .12 = = 0 .20 0 .12 + 0 .48 0 .60

La probabilidad que la compañía de seguros haya participado en el mercado, dado que JL tuvo éxito es de 0,20. Ejemplo 2 El Director de la Clínica Santa Teresa está considerando comprar un lote de 10000 equipos de venoclisis de un proveedor nacional. El fabricante de estos equipos estima la proporción de equipos defectuosas en el lote, en la siguiente forma.

Proporción de piezas defectuosas (π)

Probabilidad P(π)

π1 = 0,10

P(π1) = 0,20

π2 = 0,15

P(π2) = 0,30

π3 = 0,25

P(π3) = 0,50

Esto significa que el proveedor no está seguro acerca de la proporción de equipos defectuosos en el lote, sin embargo, basándose en experiencias anteriores, cree que hay una probabilidad de 0,20 de que el lote tenga 10% de piezas defectuosas, una probabilidad de 0,30 de que tenga 15%. Y finalmente, de 0,50 de que tenga 25% de piezas defectuosas. Supongamos que elige un equipo de venoclisis al azar en el lote:

118

Jorge Córdova Egocheaga

A) ¿Cuál es la defectuosa?

probabilidad

de

qué

esta

sea

B) Dado que el equipo resulta defectuoso, ¿cuál es la probabilidad de que el lote tenga 25% de piezas defectuosas? P. Condicional

P. Marginal

P(D/π1)= 0,10

P (π 1 I D) = 0,20 × 0,10 = 0,0200

P(

π

1)

=

0, 20

π1=0,10

P. Conjunta

P(π2) = 0,30 π =0,15 2

P(D/π2)= 0,15

P (π 2 I D) = 0,30 × 0,15 = 0,045

P( )= π3 50 0,

P(D/π3)= 0,25 π3=0,25

P (π 3 I D) = 0,50 × 0,25 = 0,1250

P ( D) = 0,1900 Respuesta A: Hay tres maneras posibles de obtener un equipo defectuosa del lote. Por lo tanto, la probabilidad de obtener una pieza defectuosa, cualquiera que se la tasa porcentual de defectuosos 10, 15 ó 25 es:

P( D) = P(π 1 I D) + P(π 2 I D) + P(π 3 I D)

= 0,0200 + 0,0450 + 0,1250 = 0,19

119

Manual de Estadística General

Ejercicio B De acuerdo con el Teorema de Bayes, la probabilidad de que el lote contenga 25% de piezas defectuosas, dado que la pieza elegida es defectuosa, es:

P(π 3 / D) =

P(π 3 I D) 0.1250 = = 0.6579 P(D) 0.1900

Ejercicio Un médico ha decidido recetar dos nuevos medicamentos a 200 pacientes enfermos del corazón de la manera siguiente: 50 pacientes tomarán el medicamento A, otros 50 tomarán el medicamento B y los otros 100 restantes tomarán ambos medicamentos El medicamento A reduce la probabilidad de un infarto en 0,35 , el medicamento B reduce la probabilidad de un infarto en 0,20 y los dos medicamentos, cuando se les toma juntos, actúan de manera independiente. Los 200 pacientes fueron escogidos entre los que tenían 0,80 de probabilidad de sufrir un infarto. Si un paciente elegido al azar sufre un infarto, ¿cuál es la probabilidad de que haya tomado ambos medicamentos?

120

CAPÍTULO

8

DISTRIBUCIONES DE PROBABILIDADES OBJETIVOS Al finalizar el Capítulo 8, el participante será capaz de: 1. 2. 3. 4.

Identificar las distribuciones de probabilidad que más se utilizan en la toma de decisiones. Utilizar el concepto de valor esperado para la toma de decisiones. Mostrar cuál distribución de probabilidad utilizar, y como encontrar sus valores. Comprender las limitaciones de cada una de las distribuciones que utilice.

Manual de Estadística General

8.1 TECNICAS DE CONTEO Combinación: Es una selección de objetos con independencia en su ordenamiento. Ejemplo: Un biólogo dispone de 10 plantas para un experimento. Sólo ocho son necesarias para realizarlo. Las ocho plantas necesariamente son seleccionadas aleatoriamente. Permutación: Es una distribución de objetos en un orden determinado. Ejemplo: El numero del DNI. PERMUTACIÓN Cálculo del número de permutaciones para n objetos tomados de x

Pxn =

n! donde x ≤ n (n − x)!

Ejemplo: Los biólogos están interesados en el orden en que cuatro ribonucleótidos adenina (A), uracilo (U), guanina (G) y citosina (C) se combinan para formar una cadena. ¿Cuántas cadenas formadas por dos nucleótidos pueden formarse?

122

Jorge Córdova Egocheaga

4! 4x3x2x1 P = = = 12 (4 − 2)! 2 x1 4 2

Hacer Hacerun undiagrama diagramade deárbol árbol para paraindicar indicarlas las12 12cadenas cadenas

COMBINACIÓN Numero de combinaciones de n objetos tomadas de r

C xn =

n! donde x ≤ n x !( n − x ) !

Ejemplo: Se realiza un estudio para determinar la opinión de los profesores de la EPUNFV respecto al aborto; si se elige una muestra de cuatro profesores de un total de 45. ¿Cuántas muestras distintas pueden seleccionarse C 445 =

45! 45 x 44 x 43 x 42 x 41! 45 x 44 x 43 x 42 = = = 148, 995 4!(45 − 4)! 4! x 41! 4!

8.2 LAS DISTRIBUCIONES DE PROBABILIDAD (A) Concepto: Es una distribución de frecuencias teórica que describe la forma en que se espera que varíen los resultados. Resultan útiles para realizar inferencias y tomar decisiones bajo incertidumbre. Ejemplo: Se seleccionan en forma consecutivas dos bebes del servicio de Neonatología . El número de varoncitos será:

123

Manual de Estadística General Nº de Resultados Probabilidad varones 0 V,V 0,25 1 VM,MV 0,50 2 MM 0,25

Probabilidad

0.50

0.25

0

1

2

(B) TIPOS DE DISTRIBUCIONES DISCRETAS: La variable toma un número valores. Abarca :

limitado de

- Distribución binomial - Distribución de Poisson - Distribución hipergeométrica CONTINUAS: La variable puede tomar cualquier valor dentro de un intervalo dado. Abarca: - Distribución normal - Distribución normal estándar o Z - Distribución t 2 - Distribución Ji-cuadrada χ - Distribución F 8.3 VARIABLES ALEATORIAS Una variable es aleatoria si toma diferentes valores como resultado de un experimento . Puede ser discreta o continua Ejemplo: Se lanzan 3 monedas X : variable aleatoria (ej : número de caras) x : valores que puede tomar la variable (ej : 0, 1, 2, 3) 124

Jorge Córdova Egocheaga

Esperanza matemática : E (X) Es el promedio de la variable aleatoria, si el experimento se repite un número infinito de veces. Ejemplo : Se lanzan 3 monedas 1/8 1/8 1/8 1/8 1/8 1/8 1/8 Ω = {CCC, CCS, CSC, SCC, CSS, SCS, SSC, SSS} 3 caras.

2 caras

P(x) XP(x) 0 1 2 3

1/8 3/8 3/8 1/8

0 3/8 6/8 3/8

1/8

1 cara Ε ( X) =

∑ XP( x )

=

12 8

= 1,5

12/8

Aplicación: uso del valor esperado y las pérdidas monetarias. Supongamos que un distribuidor de medicinas muy que rápidamente se deterioran (vacunas) compra cada cajita a 20 u.m. y las vende a 50 u.m.. No puede especificar el número de cajitas que le solicitarán diariamente, pero dispone de los siguientes datos:

Ventas diarias 10 11 12 13

Nº de días de venta 15 20 40 25 100

Probabilidad de venta de cada cantidad 0.15 0.20 0.40 0.25 1.00

Tipo de pérdidas

125

Manual de Estadística General

(A) Pérdidas por mermas (obsolescencia): oferta > demanda (costo contable) (B) Pérdidas de oportunidad: oferta < demanda (costo económico)

Posibles Nº de cajitas pedidas/día 10 11 12 13

Alternativas de oferta 10

11

12

13

0 30 60 90

20 0 30 60

40 20 0 30

60 40 20 0

Cálculo de la pérdida esperada Para un stocks de 10 cajitas, la pérdida esperada será:

Posibles Nº de cajitas pedidas/día 10 11 12 13

Probabilidad Pérdida que se reciban Condicional estos pedidos 0 30 60 90

Pérdida esperada

0.00 0.15 6.00 0.20 24.00 0.40 22.50 0.25 Pérdida esperada: 52.50

Solución óptima: analizar otros tamaños de stocks y decidir por aquél que genere la menor perdida

126

Jorge Córdova Egocheaga

8.4 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD 8.4.1 La distribución binomial Se utiliza para describir variables discretas. Es una de las distribuciones mas utilizadas en la estadística aplicada. La distribución se deriva de un procedimiento llamado ensayo de Bernoulli, nombrado así en honor del matemático Suizo James Bernoulli (1654 - 1785) a) Características: El experimento consiste en una serie de ensayos repetidos. Cada ensayo sólo tiene dos resultados posibles: éxito y fracaso. La probabilidad de éxito, designado por p es la misma para cada ensayo, la probabilidad de fracaso q (igual a 1-p) es también constante. 1. Los ensayos sucesivos son independientes. 2. Puede ser simétrica o sesgada. 3. La información de la muestra se obtiene con reposición de una población finita. b) Fórmula

P(X = x) =

n! p xq n-x x! (n - x)!

donde: n : número de ensayos x : número de éxitos p : probabilidad de éxitos en un ensayo q : probabilidad de fracaso en un ensayo n - x : número de fracaso en el ensayo Se aplica a la selección de una muestra, sólo cuando el resultado de cada solución es 127

Manual de Estadística General

independiente de los resultados de las selecciones anteriores. c) Aplicación: Una muestra de 4 frascos se selecciona sin restitución de un lote de 5,000 frascos de cierto laboratorio farmacéutico. Suponiendo que 20% de los frascos de lote no cumplen con las especificaciones médicas, ¿cuál es la probabilidad de que la muestra contenga exactamente 2 frascos malos? Datos: n=4 x=2 p = 0,20 q = 0,80

P(X = x ) =

n! p xq n-x x! (n - x )!

P(X = 2) =

4! (0.2 )2 (0.80 )2 2! (4 - 2)!

= 0,1536 Ejercicio La escasez de glóbulos rojos puede determinarse examinando al microscopio una muestra de sangre. Suponiendo que un volumen pequeño contenga por término medio 4 glóbulos rojos en personas normales, ¿cuál es la probabilidad de que una muestra de personas normales:

128

Jorge Córdova Egocheaga

¿contenga exactamente tres glóbulos rojos? Ninguno tenga glóbulos rojos? d) La distribución Cierto proceso médico se repite cuatro veces. Suponga que existe la probabilidad de 0.50 que el proceso resulte deficiente. En cuatro repeticiones se puede obtener 0,1,2,3 ó 4 procesos deficientes. Se puede calcular la probabilidad de cada uno de estos posibles resultados mediante la distribución binomial. X (Número de procesos deficientes)

P(X = x )

0

4!  1   1      = 116 0!4!  2   2 

1

4!  1   1  4     = 16 1!3!  2   2 

2

4!  1   1      = 6 16 2!2!  2   2 

3

4!  1   1  4     = 16 3!1!  2   2 

4

4!  1   1      = 116 4!0!  2   2 

0

4

1

3

2

2

3

1

4

0

A estos resultados se denomina distribución de probabilidad. e) La media y la desviación estándar Consideramos la distribución del ejemplo anterior (p = 1/2, n = 4)

X P(X = x )

0 1/16

1 4/16

2 3 6/16 4/16

4 1/16

129

Manual de Estadística General

La media

µ = ∑ XP ( x) X

P(x)

XP(x)

0 1 2 3 4

1/16 4/16 6/16 4/16 1/16

0 4/16 12/16 12/16 4/16 32/16

32

∑ XP ( x ) = 16

µ = 2 procesos

También: µ = np µ = 4( 1 2 ) = 2

Interpretación: Si seleccionamos 4 procesos médicos al azar, se espera encontrar 2 procesos deficientes, si este experimento se repite un número infinito de veces. La desviación estándar

σ =

∑ (x − µ )

2

P( x)

x

P( x )

(x − µ )

(x − µ )2

( x − µ ) 2 P( x)

0 1 2 3 4

1/16 4/16 6/16 4/16 1/16

-2 -1 0 +1 +2

4 1 0 1 4

4/16 4/16 0 4/16 4/16 16/16

2 ∑ (X − µ ) P( x) =

σ = ∑ (X − µ ) 2 P( x) =

130

16 16 16 = 1 proceso deficiente 16

Jorge Córdova Egocheaga

También

σ = =

npq 4 ( 0,5 )( 0 ,5) = 1

La distribución binomial (p = 1/2, n = 4) tiene una media de 2 y una desviación estándar de 1. Ejemplo La Dra. Jiménez, Directora de Control de Calidad de un gran hospital, se encuentra realizando su revisión mensual a los procesos de emergencia pediátrica. En el procedimiento, se seleccionan 10 procesos y se les analiza en busca de deficiencias administrativas. A lo largo del tiempo, sólo 2% de las emergencias pediátricas registran deficiencias administrativas (suponga que las deficiencias se presentan de manera independiente en diferentes procesos). •

•

¿Cuál es la probabilidad de que la muestra del Dra. Jiménez contenga más de dos procesos con deficiencias administrativas? ¿Cuál es la probabilidad de que en ninguno de los procesos seleccionados registre deficiencia administrativa?

Ejemplo: Supóngase que en cierta población el 52 por ciento de todos los nacimientos que se registraron son varones. Si aleatoriamente se escogen cinco registros de nacimientos dentro de esa población, ¿cuál es la probabilidad de que exactamente tres de ellos pertenezcan a varones?.

131

Manual de Estadística General P = 0.52 q = 1 - 0.52 = 0.48 n=5

P(3,5) =

r=3

5! 0.523 0.48(5 −3) = 0.32 ≅ 32% 3!(5 − 3)!

Uso de Tablas Solucionando el problema anterior usando la tabla de probabilidades binomiales ta bla de proba bilida de s binom ia le s

p n

r

5

n

r

0.37

0.38

0.39

0.40

0.41

0.42

0.43

0.44

0.45

0.46

0.47

0.48

0.49

0.50

r

0

0.0380

5

1 2 3 4 5

0.1755 0.3240 0.2990 0.1380 0.0255

4 3 2 1 0

0.63

0.62

0.61

0.60

0.59

0.58

0.57

0.56

0.55

0.54

0.53

0.52

0.51

0.50

r

n

5

n

p

La probabilidad de tener 3 inscritos varones de 5 registros realizados es del 0.324 o 32.4%. 8.4.2 Distribución de Poisson: Es una distribución muy usada en medicina y biología. Se deriva del proceso de Poisson en honor al matemático francés Simeon Denis Poisson (17811840). Debe cumplir las siguientes condiciones: La ocurrencia de los eventos son independientes. El número promedio de veces (l) que ocurre un éxito por cada unidad de tiempo o de espacio es constante.

132

Jorge Córdova Egocheaga

La probabilidad de un suceso es una unidad de tiempo o de espacio muy pequeña.Ejemplos de aplicaciones de Poisson: Pacientes que llegan a la sala de urgencias de un hospital durante un cierto día. Defectos de un rollo de gasa. Accidentes por hora en cierta parte de una carretera. Clientes que llegan a la caja registradora de una farmacia en un determinado horario. Si el tamaño de la muestra es bastante grande (n>50) y la probabilidad de un evento particular es muy pequeño (p < 0,1) y se desea hallar la probabilidad de un número determinado de éxitos, se puede aplicar la distribución de Poisson, dada por la siguiente ecuación.

P(X = x ) =

λx

e−λ x!

donde λ

e

(lambda): media = np = variancia : base de logaritmos naturales =2.71828

x!

Ejemplo: Supongamos que estamos investigando la seguridad de una peligrosa intersección de calles, los registros policíacos indican un media de 5 accidentes mensuales en esta intersección. El número de accidentes esta distribuido de acuerdo con una distribución de Poisson y el departamento de seguridad vial desea que calculemos la probabilidad de que en cualquier mes ocurra exactamente 3 accidentes.

133

Manual de Estadística General X = 3 acc/mes

P( x =3) =

λ = 5 acc/mes

53 2.7183−5 = 0.14042 ≅ 14.04% 3!

Uso de Tablas Solucionando el problema anterior usando la tabla de distribución de probabilidades de Poisson:

λ x

4 .1

.........

4 .5

..........

4 .9

5

0

0 .0 0 6 7

1

0 .0 3 3 7

2

0 .0 8 4 2

3

0 .14 0 4

4

0 .17 5 5

5

0 .17 5 5

La probabilidad de tener exactamente 3 accidentes en un mes cualquiera es 0.1404 Aplicación La probabilidad de “número equivocado” a pesar de haber marcado correctamente es 0,03. Si se toma una muestra de 100 llamadas, ¿cuál es la probabilidad de tener 2 “número equivocado”? Solución: p = 0.03 n = 100

λ=3

134

P(X = 2 ) =

3 2 • ( 2.71828) − 3 2!

= 02240

Jorge Córdova Egocheaga

La aproximación de Poisson a la distribución Binomial Consideremos una distribución binomial con p=0.02 y n = 100. Supongamos que nos interesa calcular la probabilidad de que X = 3 utilizando la formula binomial, podemos encontrar la probabilidad exacta de la forma siguiente: P(X = 3) =

100! ( 0,02 ) 3 ( 0,98 ) 97 3! 97!

= 0,1823

Los cálculos son muy tediosos. Cuando p es pequeño y n es lo suficientemente grande, la formula binomial puede aproximarse mediante una distribución de Poisson con µ = np Luego, utilizando una distribución de Poisson encontramos que la probabilidad de que X=3 es:

−µ µx e P(X = 3) = x!

µ = np = 100 (0,02) = 2

=

( 2 ) 3 × ( 2 , 71828 ) − 2 8 = = 0 ,1805 3! 6 ( 2 , 71828 ) 2

La respuesta es muy ¨próxima¨ a la encontrada con la distribución binomial. La aproximación se considera válida cuando

p ≤ 0.05 y n ≥ 20

135

Manual de Estadística General

8.4.3 La distribución hipergeométrica Se utiliza para describir variables discretas a) Características La información de la muestra se obtiene sin reposición de una población finita, por lo tanto la probabilidad de éxito varía. b) FormulaDonde

 M  N − M     k  n − k   P(X = k ) = N   n

donde: M : número de éxitos en la población k : número de éxitos en la muestra N : tamaño de la población N-M: número de fracasos en la población n : tamaño de la muestra n-k : número de fracasos en la muestra

c) Aplicación Calcular la probabilidad de obtener 10 tubos defectuosos en una muestra de 20 tubos de radio tomados sin reemplazo de un lote de 30 tubos, de lo cuales 15 son defectuosos. Datos: k = 10 n = 20 N= 30 M= 15

 15   30 −15     10   20 − 10   P(X = 1 0) =  30     20  = 136

( 3003 )( 3003 ) 9018009 = 30045015 30045015

= 0 ,3001

Jorge Córdova Egocheaga

Si erróneamente se usa la distribución binomial con n = 20 y p =15/30 = 1/2 para calcular la probabilidad de tener 10 defectuosos, el resultado será:

P(X = x ) = =

( )( )

10 10 20! 1 1 2 10! (20 - 10)! 2

184756 = 0 ,1762 1048576

Una probabilidad considerablemente menor que la probabilidad real. d) Forma Puede ser simétrica o sesgada. Cada vez que p = 0.5, la distribución hipergeométrica será simétrica sin tener en cuenta qué tan grande o pequeño sea el valor de n; sin embargo, cuando p ¹ 0,5 la distribución será sesgada. El grado de sesgo variará, dependiendo de la proximidad del p a 0,5 y del tamaño de n. e) La media y la desviación estándar La media: La desviación estándar:

σ =

Donde

np (1 − p ) •

N −n N −1

N −n N −1

137

Manual de Estadística General

es un factor de corrección de población finita que se produce debido al proceso de muestreo sin reposición de poblaciones finitas. 9.4 DISTRIBUCIONES CONTINUAS DE PROBABILIDAD 9.4.1 La distribución normal También conocida como campana de Gauss en honor al matemático Karl Gauss ( siglo 19). Es importante por: Es muy aplicable para inferencia estadística Se ajusta (casi) a las distribuciones de frecuencias reales observadas. Se utiliza para describir el comportamiento de una variable continua. (a) Características Tiene un sólo pico (unimodal). Forma acampanada. La media cae en el centro La media, media y moda coinciden Es asintótica al eje horizontal

138

Jorge Córdova Egocheaga

b) Fórmula La función de densidad: f(x), para la distribución normal tiene la siguiente formula: donde: e : constante matemática: 2.71828 p :constante matemática: 3.14159 m : media de la población s : desviación estándar de la población x : cualquier valor de la variable aleatoria continua Areas debajo de la curva normal No importa cuales son los valores de m y s, para una distribución de probabilidad normal el área total bajo la curva es 1.00, de manera que podemos pensar en áreas bajo la curva como si fuesen probabilidades. Matemáticamente es verdad que: 1: Aproximadamente 68% de todos los valores de una población normalmente distribuida se encuentra datos ±1 desviación estándar de la media .

6 8 % d a to s 2: Aproximadamente 95.5% de todos los valores de una población normalmente distribuida se encuentra datos ±2 desviación estándar de la media.

139

Manual de Estadística General

µ − 2σ

µ

µ + 2σ

94.6% datos 3: Aproximadamente 99.7% de todos los valores de una población normalmente distribuida se encuentra datos ±3 desviación estándar de la media

µ − 3σ

µ

µ + 3σ

9 9 % d a to s 8.5.2 La distribución normal estándar (Z) La distribución normal tiene diferente µ y σ para calcular probabilidades habría que integrar la función de densidad. Por este motivo se estandariza la variable. La estandarización es un proceso estadístico que consiste en restar la media a la variable y el resultado dividirlo por la desviación estándar.

140

Jorge Córdova Egocheaga

Z=

x−µ

σ

La tabla de distribución normal estándar, es la siguiente: z

0 .0 0

0 .0 1

0 .0 2

0 .0 3

0 .0 4

0 .0 5

0 .0 6

0 .0 7

0 .0 8

0 .0 0 .1 : : 1 .1 1 .2 : : 2 .4 2 .5 :

0 .0 0 0 0 0 .0 3 9 8 : : 0 .3 6 4 3 0 .4 0 3 2

0 .0 0 4 0 0 .0 4 3 8 : : 0 .3 6 6 5 0 .4 0 4 9

0 .0 0 8 0 0 .0 4 7 8 : : 0 .3 6 8 6 0 .4 0 6 6

0 .0 1 2 0 0 .0 5 1 7 : : 0 .3 7 0 8 0 .4 0 8 2

0 .0 1 6 0 0 .0 5 5 7 : : 0 .3 7 2 9 0 .4 0 9 9

0 .0 1 9 9 0 .0 5 9 6 : : 0 .3 7 4 9 0 .4 1 1 5

0 .0 2 3 9 0 .0 6 3 6 : : 0 .3 7 7 0 0 .4 1 3 1

0 .0 2 7 9 0 .0 6 7 5 : : 0 .3 7 9 0 0 .4 1 4 7

0 .0 3 1 9 0 .0 7 1 4 : : 0 .3 8 1 0 0 .4 1 6 2

Cuando Z=1.27 entonces el área vale: .....

σ = 2.5

µ = 10

15

141

Manual de Estadística General

Ejercicio: Un terapista físico piensa que los puntajes en una prueba de destreza manual tiene una distribución aproximadamente normal, con una media de 10 y una desviación estándar de 2,5. Si a un individuo, elegido aleatoriamente, se le aplica el examen, ¿cuál es la probabilidad de que logre un puntaje de 15 o mas puntos?. Obtenemos la siguiente información:

µ = 10

σ = 2.5

Calculando Z:

z=

x−µ

σ

σ = 2.5 15 − 10 = =2 2.5

Para Z=2, buscamos en la tabla cual es la probabilidad (o área) que le corresponde:

µ = 10 15

Área = .4772 Como deseamos conocer esta área:

σ = 2.5

P ( x ≥ 15) = 0.5 − 0.4772 = 0.0228 ≅ 2.28% µ = 10 15

¿Cuál es la probabilidad de que se logre un pontaje entre 11 y 14? Calculando Z:

Cuando x = 11 ⇒ z =

11 − 10 = 0.4 ⇒ A = 0.1554 2.5

Cuando x = 14 ⇒ z =

14 − 10 = 1.6 ⇒ A = 0.4452 2.5 11 14

142

Jorge Córdova Egocheaga

El área sombreada se encuentra restando del área mayor (0.4452) el área menor (0.1554)

P (11 ≤ x ≤ 14) = 0.4452 − 0.1554 = 0.2898 ≅ 28.98% Aplicaciones Una empresa aplica un programa de entrenamiento diseñado para mejorar la habilidades de supervisión en los diferentes procesos que se desarrollan en un hospital. Debido a que el programa es autoadministrado, los supervisores requieren un número diferente de horas para concluirlo Un estudio de los participantes anteriores indica que el tiempo medio que se lleva completar el programa es de 500 horas y que esta variable aleatoria normalmente distribuida tiene una desviación estándar de 100 horas. Pregunta 1. ¿Cuál es la probabilidad de que un participante elegido al azar requiera más de 500 horas para completar el programa? Solución: En la figura, podemos ver que la mitad del área bajo la curva está localizada a ambos lados de la media de 500 horas. Por lo tanto podemos deducir que la probabilidad de que la variable aleatoria tiene un valor mayor a 500 es el área sombreada, es decir, 0.5.

P(X>500)=0.5

Pregunta 2:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome entre 500 y 650 horas para completar el programa de entrenamiento.

143

Manual de Estadística General

P(500≤ X ≤650)=0.4332

Z=

Z=

Solución: La gráfica se muestra la respuesta como zona sombreada, representada por el área entre la media (500 horas) y el valor de X, en el cual estamos interesados (650 horas). Estandarizando la variable tenemos un valor para Z

x−µ

σ

650 − 500 = 1.5 100 ç

Si buscamos Z = 1.5 en la tabla, encontraremos una probabilidad de 0,4332. En consecuencia, la probabilidad de que un candidato escogido al azar requiera entre 500 y 650 horas para terminar el programa de entrenamiento es ligeramente mayor a 0,4 Pregunta 3:¿Cuál es la probabilidad de que un supervisor elegido al azar se tome más de 400 horas en completar el programa? Solución: Estamos interesados en el área a la derecha de 700. Estandarizamos

Z= Z =

144

x−µ

σ 700 − 500 =2 100

P(X >700)= 0..0228

Jorge Córdova Egocheaga

Tabla: si Z = 2.0 Þ Area: 0.4772 En consecuencia, la probabilidad mayor a 700 será 0,5 - 0,4772 = 0,0228 Por lo tanto hay un poco más de 2 oportunidades en 100 de que un participante elegido al azar se lleve más de 700 horas en completar el curso. Pregunta 4:Suponga que el director del programa desea saber la probabilidad de que un participante escogido al azar requiera entre 550 y 650 horas para completar el trabajo requerido en el programa. Solución: Primero calculamos el valor de Z para 650

Z=

x−µ

σ

650 − 500 = 1 .5 Z= 100

P(550≤ X ≤650)

A este valor le corresponde un área de 0,4332 Después calculamos un valor de Z para 550

Z= Z=

x−µ

σ

550 − 500 = 0.5 100

Correspondiéndole un área de 0,1915

145

Manual de Estadística General

Para responde la pregunta debemos estar restar las áreas: Probabilidad de que la variable aleatoria esté entre la media y 650 horas

0,4332

(-) Probabilidad de que la variable aleatoria esté entre la media y 550 horas

0,1915

(=) Probabilidad de que la variable aleatoria esté 550 y 650 horas

0,2417

Así pues, la probabilidad de que un supervisor elegido al azar se tome entre 550 y 650 horas para completar el programa de entrenamiento es un poco menor de 1 entre 4 Ejemplo Supóngase que la estancia promedio de internación en un hospital es de 5,5 días con una desviación estándar de 1,8 días. Si se supone que la duración de la internación se distribuye normalmente, encuentre la probabilidad de que un paciente seleccionado al azar de dicho grupo, tenga una duración de internación : de más de 6 días entre 4 y 7 días 8.5.3 La distribución t a) Características Al igual que la normal, también es simétrica es algo más plana que la distribución normal hay una distribución t para cada tamaño de muestra cuando el tamaño de la muestra es mayor a 30, la

146

Jorge Córdova Egocheaga

distribución t se asemeja tanto a la normal que se prefiere utilizar ésta.

CUANDO UTILIZAR Z o t

¿SE CONOCEσ ?

SI USAR

Z

USAR

Z

NO

¿es n ≥ 30?

SI

NO

USAR

t

147

Manual de Estadística General

TABLA DE DISTRIBUCION t DE STUDENT d.f. Grados de libertad

d. f . = n −1

d.f.

t .90

t .95

t .975

t .99

t .995

1

3.08

6.31

12.7

31.8

63.7

2

1.89

2.92

4.3

6.97

9.92

3

1.64

2.35

3.18

4.54

5.84

26

1.32

1.71

2.06

2.48

2.78

27

2.31

1.7

2.05

2.47

2.77

28

1.31

1.7

2.05

2.47

2.76

Ejemplo:

:

n= 28

:

N.C. = 95%

t=?

: :

d.f. = 28 - 1 = 27 t = 2,0518

: : :

b) Fórmula

t=

x−µ s n

c) Grados de libertad Se definen como el número de valores que podemos escoger libremente.

8.5.4 La distribución Ji-Cuadrada a) Características Es una distribución asimétrica a la izquierda Sólo considera valores positivos

148

Jorge Córdova Egocheaga

b) Definición La distribución Ji-cuadrada esta definida por

n

χ = ∑ Z i2 2

i =1

c) Aplicaciones Las aplicaciones más importantes están en la prueba de bondad de ajuste la prueba de independencia estadística d) Distribución

8.5.4 La Distribución F Características Es una distribución asimétrica a la derecha Sólo tiene valores positivos Se utiliza para comparar variancias poblaciones, con distribución normal

de

dos

149

Manual de Estadística General

Fórmula

F=

2 S mayor 2 S menor

Existe una “familia” de distribuciones F. Cada miembro de la familia está determinado por dos parámetros: los grados de libertad (gl) en el numerador y los grados de libertad en el denominador. El valor de F no puede ser negativo y es una distribución continua. La distribución F tiene sesgo positivo. Sus valores varían de 0 a ∞ . Con forme F → ∞ la curva se aproxima al eje X.

150

CAPÍTULO

9

MUESTREO Y DISTRIBUCIONES DE MUESTREO OBJETIVOS Al finalizar el Capítulo 9, el participante será capaz de: 1. Determinar el tamaño de una muestra 2. Asegurarse que las muestras que se extraigan sean representativas de la población de la que provienen 3. Comprender las distribuciones del muestreo 4. Comprender la relación entre el costo del tomar muestras más grandes y la precisión adicional que esto le proporcione a las decisiones tomadas a partir de ellas

Manual de Estadística General

9.1 IMPORTANCIA DEL MUESTREO En lugar de levantar un censo “completo” se realiza un muestreo, debido a que un censo: – – –

Requiere demasiado tiempo Es muy costoso Muy laborioso e ineficiente

9.2 TIPOS DE MUESTREO A)

MUESTREO NO PROBABILÍSTICO: inferencia estadística.

No

permite

M. de Juicio: Abarca el juicio del experto, opiniones de especialista M. de Cuotas: Se decide la estructura del marco muestral, sin tener en cuenta la estructura del marco poblacional. M. de Trozo: La elección de los “racimos” no se hace al azar. B) MUESTREO PROBABILÍSTICO: Permite inferencia estadística. Cada elemento del marco poblacional tiene una probabilidad conocida diferente de cero de conformar o ser parte de la muestra. 1.

Muestreo Aleatorio Simple (MAS): Concepto: Todas las unidades elementales tienen la misma probabilidad de conformar la muestra. Dicho de otro modo, significa que cada una de las posibles muestras de tamaño n, tenga a la misma ser seleccionada probabilidad: 1/N CN de (muestreo sin sustitución). Es el caso de un sorteo.

152

Jorge Córdova Egocheaga

Tamaño de la muestra: Depende de: La magnitud del máximo error permisible (e) y, el grado de confianza de que el error en la estimación no exceda del máximo error permisible (1- α ) A. Para estimar una media poblacional: Se calcula a partir de la formula siguiente

n =

Z α S 2e

ε

2

2

A mayor variabilidad de la muestra

s 2e , mayor

varianza. A mayor varianza mayor tamaño muestral ε representa el error de muestreo, llamado error de estimación o precisión de la estimación. El valor debe ser asumido por el investigador. En este caso

ε = (µ − x) Para poblaciones finitas (se conoce N), el tamaño final (nf) queda definido por la siguiente relación Ejemplo 1: A fin de conocer el gasto mensual en medicinas por familia, el Gerente de Marketing de un laboratorio farmacéutico desea determinar el tamaño de la muestra que le proporcione un nivel de confianza de 0,95 (Z = 1,96). Además conoce por estudios anteriores que las compras medias por familia eran de S/. 120 mensuales, con una desviación estándar de 30. El Gerente busca un tamaño de muestra que le permita estimar el nivel de gasto con un error de ±10. 153

Manual de Estadística General

n =

n=

Z α S 2e 2

ε2

(1,96 )2 (3 0 )2 (1 0 )2

n = 36 Ejemplo 2 En cierta población se 1200 escolares, se desea estimar el nivel promedio de Hb con 0,95 de confianza. Al realizar un estudio piloto se encontró que x = 12,3 y

S = 1,6. Si los investigadores

están dispuestos a asumir un Zα

2

N = 1200 Se = 1,6

n=

ε = ± 0 ,5

nf =

ε = ±0,5 .Calcular n

= 1,96

n n 1+ N

=

Z α2 2 s 2e

ε

2

=

(1,96 )2 (1,6 )2 (0,5 )2

= 39,33

39,33 = 38,08 ≅ 39 39,33 1+ 1200

Interpretación El número mínimo necesario de escolares para realizar el estudio es de 39, si se desea estimar el nivel promedio de Hb en la población con una precisión de 0,5.

154

Jorge Córdova Egocheaga

Ejemplo 3 En cierta población se 1200 escolares, de 9 – 11 años se desea estimar el nivel promedio de hierro sérico. Con este fin se va a seleccionar una muestra probabilistica. Si en un estudio similar se obtuvo una media aritmética de 60,6 mg/dl y S = 22,4 mg/dl. Calcular el tamaño mínimo de la muestra si la estimación del parámetro se va a realizar con 0,95 de confianza y se asume un ε = ±5

Zα

2

= 1,96

n=

N = 1200 Se = 22,4

Z α2 2 s 2e

ε

2

=

(1,96 )2 (22,4 )2 (5 )2

= 77,10

ε = ±5

nf =

n 1+

n N

=

77,10 = 72,44 ≅ 73 77,10 1+ 1200

Interpretación : El número mínimo necesario de escolares para realizar el estudio es 73, si se desea estimar el nivel promedio de hierro sérico en la población con una precisión ± 5 B. Para estimar una proporción poblacional:

n =

Z α2 2 p e q e

ε2

155

Manual de Estadística General

donde: pe = proporción “estimada” de sujetos con la característica de interés. Se puede obtener de revisión bibliográfica, estudio piloto o asumiendo pe = qe= 0,50 qe = proporción “estimada” de sujetos sin la característica de interés.

ε=

Error absoluto de muestreo o precisión. Debe

ser asumido por el investigador.

ε = (π − p )

Si se conoce N:

nf =

n 1+

n N

Ejemplo 1: En una población grande, se desea estimar la prevalencia de DM con 0,95 de confianza. De la literatura se sabe que p = 0,10 si se asume un error muestral de 5%, calcular n Datos Z α 2 = 1,96 p e = 10 % = 0,10 qe = 90 % = 0,90 ε = ±0,05

156

n =

Z α2 2 p e q e

ε

2

n =

(1,96 )2 (0 ,1 )(0 ,9 ) (0 ,05 )2

n =

0 ,345744 0 , 0025

= 138 , 3 ≅ 139

Jorge Córdova Egocheaga

Interpretación: Si se desea estimar la prevalencia poblacional con 0,95 de confianza y un ε de 5% se deberá evaluar 139 sujetos. 2. M. Sistemático: Las unidades elementales son seleccionadas dentro de un intervalo (I) de igual tamaño. Se extrae la muestra de acuerdo a la lista de pacientes atendidos

I1 I2 I3 I4

X1 3. M. Estratificado: El marco poblacional se divide en grupos homogéneos (estratos); de cada uno se extrae una submuestra, proporcional al tamaño del estrato. Muestreo por tipo de servicio 4. M. por Conglomerado: El marco poblacional se encuentra agrupado en conglomerados o racimos Se selecciona en forma aleatoria, el o los racimos. Todos los pacientes que ingresaron un determinado día. ALEATORIO SIMPLE SISTEMÁTICO PROBABILISTÍCO

ESTRATIFICADO POR CONGLOMERADO

MUESTREO DE JUICIO NO PROBABILÍSTICO

DE CUOTAS DE TROZO

157

Manual de Estadística General

El error estándar Es una medida de dispersión de una distribución muestral. Es equivalente a la desviación estándar. Desviación estándar de la distribución de medias de muestra

Error estándar de la media

Desviación estándar de la de proporciones

Error estándar distribución de muestra de la proporción

9.2 DISTRIBUCIONES DE MUESTREO La totalidad de datos de una población, constituye la distribución de población original (PO)

PO X1 X2 X3 . . . XN

Media

: µ

Varianza

:σx

z=

2

x-µ

σx

De la PO se extraen muestras de tamaño n. A cada una se calcula su media. El conjunto de ese total de medias se denomina población derivada de medias (PDM)

158

Jorge Córdova Egocheaga PDM

PO

x1 x2

X1 X2 X3

x3 . .

n

. .. XN

Media

:µ

xm µx

Varianza

: σ2x

σ x2 = x−µ

x - µ

z =

σ

σ2 n =

σx

x−µ

x

σ n

Si se busca comparar dos poblaciones, se deriva de cada población una población de medias y luego se comparan PO1

x1

X2 X3 .

Media

PO2

PDM2

PDDM

X1

x1

( x1 − x2 )

x2

X2

x2

(x − x )

x3

X3

x3

(x − x ) . .

.

.

.

.

.

.

.

.

.

XN

xm

XN

µ1

Varianza

PDM1

X1

µx

1

µ2

xm

µx

2

( )

µd = µ1 − µ2 σ12 σ 22 + n1 n2 ( x − x ) − (µ1− µ2 ) z = 1 22 σ1 σ 2 2 + n1 n2 σ x21 − x2 =

159

Manual de Estadística General

9.3 EL TEOREMA DEL LÍMITE CENTRAL Muestra la relación entre la forma de la distribución de la población y la forma de la distribución de muestro. Se basa en dos aspectos: (1) La media de la PDM será igual a la media de la PO, sin importar el tamaño de la muestra(n) incluso si la población no es normal

µx = µx (2) Al incrementarse el tamaño de la muestra, la PDM se acercará a la normalidad, sin importar la forma de la distribución de la población. El teorema del límite central nos permite utilizar las propiedades de la distribución normal en muchos casos en los que los datos subyacentes pueden no estar distribuidos normalmente.

160

Manual de Estadística General.pdf

Short Description

Description

Comments

We need your help!