Muestreo.pdf

July 27, 2017 | Author: Fredy Chungara Academius | Category: Sampling (Statistics), Random Variable, Estimator, Confidence Interval, Variance
Share Embed Donate


Short Description

Download Muestreo.pdf...

Description

MAGISTER EN INVESTIGACIÓN SOCIAL Y DESARROLLO DEPARTAMENTO DE SOCIOLOGÍA Y ANTROPOLOGÍA FACULTAD DE CIENCIAS SOCIALES UNIVERSIDAD DE CONCEPCION

TÉCNICAS DE MUESTREO

PROFESORA: MARÍA PAZ CASANOVA LAUDIEN APUNTES DE CLASE AÑO 2008 – 02

Programación de Técnicas de Muestreo:

Se proyectan las siguientes sesiones de clase, basadas en material de clase, apunte de la profesora y texto guía. La asistencia mínima exigida es de un 75%. Sesión 1: Capítulos 1, 2. Sesión 2: Capítulo 3. Sesión 3: Capítulo 4 (4.1-4.5). Sesión 4: Capítulo 4 (4.6-4.7, Ej.). Sesión 5: Capítulo 5 (5.1-5.5). Sesión 6: Capítulo 5 (5.6-5.11, Ej.). Sesión 7: Capítulo 6 (6.1-6.4). Sesión 8: Capítulo 6 (6.5-6.9, Ej.). Sesión 9: Capítulo 7. Sesión 10: Capítulo 8 (8.1-8.5). Sesión 11: Capítulo 8 (8.6-8.9, Ej.). Sesión 12: Capítulo 9. Sesión 13: Capítulo 10. Sesión 14: Capítulo 11, 12. Sesión 15: Evaluación. Texto guía: Scheaffer Richard L., Lyman Ott R. , Mendenhall William (1987). Elementos de Muestreo. Grupo Editorial Iberoamérica, México.

Evaluación del curso: El curso se evaluará mediante un único trabajo final el cual se describe a continuación. Trabajo Final del Curso: Descripción del trabajo: En base a un problema real del área de su interés, realice las siguientes actividades: 1) Narre brevemente la situación que motiva o justifica la investigación; delimite la población a estudiar, defina variables y parámetros de interés. 2) Plantee el problema, pregunta de investigación o hipótesis. 3) Diseñe un plan de muestreo, justifique el que se utilizó o bien critique el que se utilizó y propongas uno mejor. 4) Calcule tamaños de muestra, especifique las restricciones o condiciones impuestas. 5) Estime parámetros puntualmente y por intervalos. 6) Dé repuesta a la pregunta que motiva la investigación. Informes y fechas: Se solicitan dos informes. -

El primero debe contener los puntos 1 y 2, y una propuesta del punto 3. El segundo debe estar completo (puntos 1 a 6).

Evaluación del trabajo: La nota final dependerá de las evaluaciones parciales de ambos informes, donde el segundo contiene al primero con las correcciones solicitadas. -

Primer informe: 27 de octubre, 30%. Segundo informe: 01 de diciembre, 70%.

Técnicas de Muestreo Clase 1: Introducción (primera parte) Incerteza y azar: En lenguaje coloquial hablamos de estadísticas de fútbol, por ejemplo, refiriéndonos a promedios y frecuencia de ciertos eventos, sin embargo este concepto no es adecuado técnicamente. La estadística es la ciencia que estudia la incerteza, de modo que si un problema tiene una solución fija exacta, no es materia de la estadística sino de las matemáticas. La incerteza se relaciona con el concepto de evento o fenómeno aleatorio, entendemos por fenómeno aleatorio un evento o situación cuyo resultado no se conoce, y para el cual existe más de un resultado posible. Por ejemplo, resultado del lanzamiento de un dado, postura expresada por un encuestado elegido al azar respecto de un planteamiento, ingreso per cápita de una familia elegida al azar en cierto sector. En rigor, cuando hablamos de una selección al azar nos referimos a que los individuos o elementos han sido numerados, estos números (como esferas numeradas, papeles numerados, etc) han sido depositados en un recipiente y mezclados, para luego seleccionar uno de ellos (y por tanto un individuo) sin mirar los números. Por supuesto, es poco práctico en la mayoría de los casos, llevar una tómbola para realizar la selección de elementos. Existen métodos alternativos, como el uso de la tabla de números aleatorios, números aleatorios de una calculadora (función “RAN”), números aleatorios de excell (función “=aleatorio()”). 1) Tabla de números aleatorios: • Determinar el número de dígitos del tamaño de la Población N: El tamaño de la Población N tiene una cierta cantidad de dígitos (por ejemplo N=6.114 tiene cuatro dígitos). • Selección del punto de partida: Se escoge un punto inicial de la tabla sin mirarla, por ejemplo, fila 5 (horizontal) y columna 12 (vertical). • Selección del camino a realizar: Se decide, antes de mirar la tabla, el camino a seguir con los números dentro de la tabla, por ejemplo, se seguirá hacia la derecha (o se seguirá hacia abajo, o en diagonal, etc). • Se eligen los números: Se sigue la pauta decidida en los dos puntos anteriores, escogiendo números de la cantidad de dígitos deseados, hasta completar el tamaño de muestra deseado n y eliminando aquellos que sean mayores a N o que estén repetidos. Por ej., considere n=10. Ejemplo: Columna 12

Fila 4 Æ

19947 73392 64136 92337 90965 67897

89710 05985 16705

0 0 7 5 8 9 6 9 5 8 9 9 9 2 8 6 5 4 3 2 9 6 1 52 1 3 5 65 3 4 2 9 3 2 0 0 5 3 9 0 8 7 4 3 0 3 8 0 7 9 4 85 6 9 4 81 6 0 0 4 6 6 9 7 0 2 8 5 8 9 4 0 8 2 3 5 2 3 7 53 2 1 5 22

85071 05345

8 5722

6 9 5 3 3 4 0 6 3 8 5 1 2 4 4 2 7 1 1 2 5 5 9 86 3 9 3 35

21852 50617

10713

4063

1 3 4 8 7 0 3 8 4 2 4 7 7 9 2 0 2 1 94 2 6 4 67

Números elegidos: 5.722, 6.953*, 3.406, 3.851, 2.442, 7.112*, 5.598, 5.393, 3.521, 8.525*, 617, 1.071, 3.406**, 3.134. La muestra son los números en negrita (* se eliminan por ser mayor que N y ** se elimina por estar repetido).

2) Números aleatorios de la calculadora: La calculadora, al presionar la tecla RAN entrega un número entre cero y uno, con una cierta cantidad de decimales. Se leen sólo la cantidad de dígitos deseados, eliminando valores superiores a N o repetidos. 3) Números aleatorios de excell: Excell se puede usar igual que la calculadora, pero también hay otras formas, por ejemplo, para seleccionar 10 números entre 1 y 6.114, la siguiente fórmula sólo requerirá eliminar repetidos: =redondear.mas(aleatorio()*6114;0). Esta fórmula no entregará ceros ni números superiores a 6.114, elegidos al azar, y sin decimales (por eso la instrucción redondear y el cero al final que indica el número de decimales). Conceptos de Muestreo:

Población

P

Muestra

m

Se define como Población al conjunto de todos los individuos o elementos respecto de los cuales se desea inferir o de interés para el estudio. La población debe ser bien definida al iniciar el estudio. Como muestra la Figura, una muestra es un subconjunto de la Población. Este subconjunto será utilizado para, en base a los hallazgos en este conjunto, proyectar las conclusiones a la Población completa. Para que tenga sentido realizar esta proyección, la muestra debe cumplir con ciertas propiedades. En particular, debe ser representativa de la Población, es decir, una Población en tamaño pequeño. Para que con una alta probabilidad se den en la muestra características semejantes a las de la población, esta muestra debe satisfacer que, todos los individuos o elementos de la Población deben tener la misma probabilidad de pertenecer a ella. Para lograr esto, en un nivel muy básico, es necesario escoger la muestra al azar. Es por esto que se habla de muestra aleatoria. El objetivo del estudio siempre se refiere a ciertas características de la población, las cuales son medidas a los individuos de la muestra. Los individuos o elementos de la población son las unidades a ser medidas. En ocasiones, la selección de elementos requiere acceder primero a unidades más grandes que incluyen varios elementos, en este caso se habla de unidades de muestreo.

El conjunto del cual se extrae la muestra se denomina marco muestral, y consiste de algún tipo de lista de los elementos de la población. En muchas ocasiones el marco muestral no es igual a la población, y se puede requerir más de un marco muestral para acceder a la población completa. Cuando no existe un marco muestral completo para una población, será necesario redefinir la población a la cual se proyectarán las conclusiones. Las características que se miden a los individuos, se denominan variables. Por ejemplo: - sueldo (variable) de los obreros de la ciudad (elemento de la población), - número de integrantes (variable) de la familia (elemento de la población), - postura política (variable) de un residente (elemento de la población). Respecto de las variables, el interés no está centrado en valores particulares medidos en ciertos individuos, sino en ciertos parámetros o medidas poblacionales de ellas. Por ejemplo: - sueldo de los obreros Æ Parámetro: sueldo promedio de todos los obreros de la ciudad. - número de integrantes de la familia Æ Parámetro: número total de habitantes de la villa. - postura política de los residentes Æ Parámetro: porcentaje de los residentes que son de derecha. Los parámetros son características poblacionales de la variable de interés. Por lo general son desconocidos (se requeriría un censo para conocer su valor) pero su valor es fijo o constante. Se define como estadístico a una función matemática de los valores de la muestra, por ejemplo la suma de ellos, el valor mayor, la multiplicación de ellos, etc. Como la muestra es aleatoria, es decir, no es fija, puede constar de diferentes elementos, entonces el estadístico, como depende de ella o se calcula en base a ella, también es aleatorio, es decir, puede tomar diferentes valores. Existen infinitos estadísticos, tantos como funciones matemáticas uno pueda crear; sin embargo algunos de ellos son de interés, en particular aquellos que de algún modo son análogos a los parámetros. A estos estadísticos se les conoce como estimadores. Cada parámetro tiene asociado un estimador. Los estimadores son estadísticos que sirven para estimar un parámetro. Por ejemplo: - Parámetro: sueldo promedio de todos los obreros de la ciudad Æ Estimador: sueldo promedio de los obreros en la muestra. - Parámetro: número total de habitantes de la villa Æ Estimador: promedio de habitantes por casa en la muestra multiplicado por el número de casas de la villa. - Parámetro: porcentaje de los residentes que son de derecha Æ Estimador: porcentaje de individuos de derecha en la muestra. Naturalmente, al ser estadísticos, los estimadores también son aleatorios.

Tipos de Muestreo: No en todos los casos el diseño del muestreo es el mismo, en efecto hay varios tipos de muestreo. La selección del diseño a utilizar se basa en la estructura de la población (si está constituida o no de subgrupos, el grado de heterogeneidad de éstos y la accesibilidad de los elementos). 1) Muestreo Aleatorio Simple M.A.S.: La población no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogéneo. Por ejemplo, interesa estudiar la postura política de los N mineros de Lota, los cuales son todos varones. Se realiza un empadronamiento y se selecciona una muestra al azar de n mineros de dicha lista. 2) Muestro Aleatorio Estratificado M.A.E.: La población presenta subgrupos llamados estratos que, respecto de la variable medida, tienen la característica de ser heterogéneos entre ellos (diferentes) y homogéneos dentro de ellos (la estratificación agrupa a los individuos con aquellos similares a ellos). Por ejemplo, interesa estudiar los sueldos de la totalidad de los N trabajadores de un hospital. Estos individuos se pueden estratificar por estamento. Para ello se establecen los tamaños de cada estamento (N1 médicos, N2 enfermeros, N3 auxiliares de enfermería, N4 otros profesionales de la salud, N5 administrativos, N6 auxiliares de limpieza, N7 guardias, y se seleccionan muestras en cada uno, de tamaños proporcionales, n1,..., n7, Ni ni tales que n = n1+...+n7 y = para todo i = 1,...,7. N n 3) Muestreo Sistemático M.S.: La población no presenta subgrupos o estos son desconocidos para el investigador y la variable a ser medida en ella tiene un comportamiento relativamente homogéneo. Además se cuenta con un marco muestral completo ordenado en el cual los individuos están numerados o pueden numerarse fácilmente. Finalmente, el ordenamiento en el marco muestral no guarda relación con la variable de interés, en el sentido de que no se observa algún tipo de patrón, por ejemplo cíclico, en ellos. Por ejemplo, se desea estudiar el comportamiento sexual de los N = 4.900 estudiantes de primer año de la Universidad de Concepción, los cuales están ordenados en un listado en orden alfabético. La muestra corresponderá a un 5% de la población (n = 245). Esto significa que se seleccionará en forma sistemática uno de cada k = 20 individuos (k =

N 4.900 = = 20). Para definir el número inicial, se selecciona un 245 n

número al azar entre 1 y k = 20, sale elegido el número 16. El primer individuo en la muestra es el que corresponde en la lista al 16. A partir de este número se salta cada vez 20 para elegir el que sigue, es decir, se escoge a los individuos número 16, 36, 56, 76, 96, 116, ... , 4.896.

4) Muestreo por Conglomerados M.C.: La población presenta subgrupos llamados conglomerados que, respecto de la variable medida, tienen la característica de ser heterogéneos dentro de ellos (variados representando cada conglomerado a una población en miniatura) y homogéneos entre ellos (los conglomerados son semejantes entre ellos de modo que da lo mismo seleccionar uno u otro). Además, existen problemas de acceso a los elementos, y la selección de conglomerados los soluciona, en muchas ocasiones los conglomerados son unidades de muestreo. Por ejemplo, se conduce un estudio de la necesidad de un centro abierto para niños en una población que está compuesta de 50 edificios de departamentos. Interesa obtener una muestra del 10% de las familias, para lo cual se seleccionan al azar 5 de los 50 edificios y luego se realiza la consulta en todos los departamentos de los edificios en la muestra. 5) Muestreo Multietápico M.M.: Para acceder a las unidades muestrales, es preciso realizar una sucesión de aproximamientos, desde entidades más grandes a entidades más pequeñas. Cada aproximación o etapa involucra un proceso aleatorio. Por ejemplo, interesa estudiar el fenómeno Bullying en cursos (unidad muestral) de primer ciclo de educación básica para las comunas principales de la zona urbana de la provincia. Para ello se definen las comunas involucradas (Población: cursos de primer ciclo básico en colegios de Concepción, Talcahuano, Chiguayante, San Pedro de la Paz, Hualpén y Penco) y se definen sectores físicos (por estrato socioeconómico) dentro de las comunas. Se indaga sobre el número de colegios fiscales, particulares y subvencionados (clasificación por dependencia) en cada sector y la cantidad de cursos de educación básica existentes. De esta forma se establece la cantidad de cursos a escoger por dependencia y por comuna (M.A.E. doble, por comuna y dependencia, 18 estratos) y cada tamaño muestral se subdivide proporcionalmente para los sectores (M.A.E.). En cada sector se han empadronado los cursos existentes en listas por dependencia (3 listas por sector). Se eligen al azar (M.A.S.) los cursos de las listas. Se concurre para entrevistar a los profesores, apoderados y alumnos de los cursos seleccionados. Los tamaños de muestra, la forma de selección de ellas muestra y el cálculo de estimadores se abordarán para cada tipo de muestreo en los capítulos siguientes.

Técnicas de Muestreo Clase 2: Introducción (segunda parte) Tipos de Variables Aleatorias: En general la información total obtenida de la muestra debe resumirse mediante: - Tablas, - Gráficos, - Medidas (estimadores, estadísticos). Tanto los estimadores como los estadísticos son variables aleatorias, por lo cual tienen una distribución (llamada distribución muestral, ya que su variabilidad se debe a que la muestra es aleatoria). Las variables aleatorias corresponden a características numéricas de los individuos. Cada variable aleatoria tiene asociado un Recorrido, el recorrido es el conjunto de valores posibles, valores que puede asumir esta característica. Cada uno de los valores que pueden asumir estas variables aleatorias, es decir, cada elemento del recorrido, tiene asociada una función de probabilidad, es decir una función matemática que indica cuán posible es que se obtenga tal valor. Esta función matemática se conoce como Distribución de Probabilidad. Las variables aleatorias (v.a.) y pueden ser de dos tipos: - Discretas, - Continuas. Un conjunto es contable si es finito, es decir, se puede contar sus elementos. Un conjunto es numerable si se puede numerar sus elementos en algún orden, es decir, asignarle un número a cada elemento. Un conjunto numerable no necesariamente es finito, hipotéticamente uno podría numerar infinitamente sus elementos, ya que tienen un orden específico. Las v.a. discretas son aquellas cuyo recorrido es numerable o contable. Ejemplos: Número de hijos de una mujer, Número de años de servicio de un empleado, Edad (años cumplidos), Años de estudio, etc. Las v.a. continuas son aquellas cuyo recorrido no es numerable ni contable, sino que entre cada par de valores posibles existen infinitos valores más. Ejemplos: Estatura, peso de una persona. En ocasiones una variable continua puede medirse mediante una escala de medición discreta. Ejemplos: Edad real (25 años, dos meses, 13 días, 5 horas, 3 minutos, 5 segundos, etc.) Æ Edad en años cumplidos (25 años) Sueldo líquido real ($354.211,6666…) Æ Sueldo líquido en pesos ($354.212). En otras ocasiones una variable continua o discreta se puede medir en intervalos.

Ejemplos: • Marque a qué categoría de sueldo pertenece usted: a. Menos de $300.000 b. $300.001 a $800.000 c. Más de $800.000. • En qué grupo etáreo se ubica el jefe de hogar: a. Menos de 30 años b. Entre 30 y 45 años c. Entre 46 y 60 años d. Más de 60 años Finalmente hay variables que se categorizan, es decir, los números se transforman en una clasificación no numérica. Si se trata sólo de dos categorías, se dice que la variable se ha dicotomizado. • Grupo etáreo del jefe de hogar: Joven (18-40), Adulto (41-59), Adulto mayor (más de 60). • Grupo de nivel socioeconómico: A, B, C. D. E. • ¿Viven menores de edad en el domicilio? Sí (1 ó más menores de edad), No (0 menores de edad). • ¿El sueldo per cápita es superior a $200.000? Si ($200.000 ó más), No (menos de $200.000). Distribuciones de Probabilidad importantes: Variable Aleatoria Discreta Importante: Binomial: Un experimento es cualquier situación que genera diversos resultados. Un experimento Bernoulli es un experimento dicotómico a cuyos resultados se denomina éxito y fracaso, para el cual las realizaciones son independientes (si la muestra es aleatoria se asegura la independencia) y la probabilidad de éxito es constante (si la muestra es extraía de una población o subpoblación homogénea se asegura que la probabilidad de éxito es igual para todos los individuos). La probabilidad de éxito se denota por p. Una v.a. Binomial se puede definir como: “número de éxitos en n realizaciones de un experimento Bernoulli”. Se denota por X ~ b(n, p). El nº de realizaciones n es fijo. Ejemplo: Se encuesta a 100 personas extraídas al azar (independientes) de la fuerza de trabajo femenina de la ciudad de Concepción (¿será homogéneo este grupo?), para consultarles respecto una modificación en la ley laboral (experimento), que les afecta. Población: fuerza laboral femenina de la ciudad. X: “Nº de personas (de un total de 100 encuestadas) que están a favor (éxito) de la modificación.” X ~ b(n=100, p), donde p es la proporción real en la población de personas a favor de la modificación. Histograma: Gráfico de barras verticales, que ubica en el eje horizontal los valores de la variable en intervalos de tamaño constante, y en el eje vertical la frecuencia o el número de ocurrencias en cada intervalo (se puede reemplazar la frecuencia por el porcentaje).

% de individuos

Ejemplo:

Edad

Probabilidad

Variables aleatorias Continuas Importantes: Uniforme: Todos los valores son igualmente probables. Si se construye un histograma la figura es semejante a la siguiente:

X

Probabilidad

Exponencial: Los valores bajos son altamente probables y las probabilidades decrecen rápidamente para valores altos. Si se construye un histograma la figura es semejante a la siguiente:

X

Probabilidad

Normal: El histograma resulta simétrico (un lado corresponde al reflejo del otro, como visto en un espejo) y unimodal (un solo valor máximo). Los valores centrales son más probables y las probabilidades decrecen rápidamente para valores alejados del centro. Si se construye un histograma la figura es semejante a la siguiente:

X

Verificación de Modelos: Para verificar si un modelo es binomial, se debe realizar un análisis intelectual del problema. Para verificar los modelos continuos en cambio, es conveniente realizar la gráfica del histograma. Parámetros y Estimadores Binomial: El parámetro de interés es la proporción poblacional p y el estimador es la proporción muestral pˆ . El cálculo de p requiere un cálculo sobre toda la población, cuyo tamaño es N: p = homogéneas, pˆ = X n

Nº éxitos en la muestra Nº realizacio nes

=

Nº éxitos en la población N

. En poblaciones

.

Normal: El parámetro de interés es la media poblacional o esperanza µ y el estimador es la media muestral o promedio µˆ . N

El cálculo de µ se realiza sobre toda la población, de tamaño N: µ =

∑X i =1

i

.

N n

En poblaciones homogéneas, para una muestra de tamaño n,

∑X

µˆ = X = i=1

n

i

.

La distribución normal además tiene otro parámetro, es la varianza poblacional σ2. Su estimador es la varianza muestral σˆ 2 = S2. La raíz cuadrada de la varianza poblacional es la desviación estándar σ, medida de la variabilidad o dispersión de los valores poblacionales. La raíz cuadrada de la varianza muestral es la desviación estándar S, medida de la variabilidad o dispersión de los valores muestrales. El cálculo de σ2 se realiza sobre toda la población, cuyo tamaño es N: N

2

σ =

∑ (X i =1

i

− X) 2

N

. En poblaciones homogéneas, si el tamaño de muestra es n, se n

2

tiene que σˆ = S = 2

∑ (X i =1

i

− X) 2

n -1

.

Medidas: Proporción, media y varianza no son las únicas medidas que existen. Las medidas, en general, se dividen en medidas de localización y variabilidad, y se pueden clasificar del modo siguiente:

Características de las Distribuciones: Muestra Aleatoria: Conjunto de variables aleatorias (valores medidos en los individuos) independientes (los individuos fueron extraídos al azar) y con igual distribución (provienen de la misma Población homogénea). Esto se denota como m.a. ó i.i.d. Notación: θ Æ Parámetro; θˆ Æ Estimador. Distribución normal: Parámetro µ Æ Estimador µˆ =⎯X. Parámetro σ2 Æ Estimador σˆ 2 = S2. Distribución binomial: Parámetro p Æ Estimador pˆ = X . n

Media Poblacional o Esperanza: N

E(X) =

∑X i =1

i

es el promedio de la variable en la Población.

N

El estadístico análogo es la media muestral ⎯X. Propiedades: Sea a, b constantes y X, X1, …, Xn variables. • E(a) = a, • E(a X) = a E(X), • E(a X + b) = a E(X) + b, •

n

E( ∑ X i ) = i=1

n

∑ E(X ) i=1

i

=

n E(X).

Igual Distribución Varianza Poblacional: N

V(X) =

∑ (X i =1

i

− X) 2

N

es el promedio de las desviaciones cuadradas respecto de la

media en la Población. El estadístico análogo es la varianza muestral S2. Propiedades: Sea a, b constantes y X, X1, …, Xn variables. • V(a) = 0, • V(a X) = a2 V(X), • V(a X + b) = a2 V(X), •

n

V( ∑ X i ) i=1

=

n

∑ V(X ) i=1

i

Independencia

=

n V(X).

Igual Distribución

Propiedades de Bondad de los Estimadores: • Insesgamiento: E( θˆ ) = θ Æ La distribución muestral de alrededor de θ ó centrada en θ. • Varianza pequeña: V( θˆ ) Æ La distribución muestral de dispersa, está concentrada alrededor de θ.

θˆ se ubica θˆ es poco

Resultados Importantes: Normal: X ∼ N(µ, σ2) Æ E(X) = µ; V(X) = σ2. n

E(⎯X ) = E(

∑X i=1

i

n

n

) = 1 E(∑ X ) = 1 ∑ E(X ) = n n i

n i=1 i =1 Æ⎯X es estimador insesgado de E(X) = µ.

i

1 ⋅ n ⋅ E(X i ) = E(X) = µ. n

n

∑X

i

n 1 1 n V(X) σ 2 1 = V ( X ) = V(X ) = ⋅ n ⋅ V(X ) = . ∑ ∑ i i i n n n n2 n 2 i=1 n2 i =1 Æ la varianza de⎯X decrece a medida que el tamaño de muestra crece. E(S2) = V(X) = σ2 Æ S2 es estimador insesgado de V(X) = σ2. Binomial: X ∼ b(n, p) Æ E(X) = n p; V(X) = n p (1- p). 1 X 1 E( pˆ ) = E( ) = E(X) = ⋅ n ⋅ p = p. n n n Æ pˆ es estimador insesgado de p. X p ⋅ (1 − p) 1 1 V( pˆ ) = V ( ) = 2 V (X) = 2 ⋅ n ⋅ p ⋅ (1 − p) = . n n n n Æ la varianza de pˆ decrece a medida que el tamaño de muestra crece.

V(⎯X ) =

V(

i=1

)=

Características de la Distribución Normal:

Teorema del Límite Central TLC: Para muestras grandes (n ≥ 30 ó n ≥ 50), se tiene que, independiente de la V(X) ). distribución original de las observaciones: ⎯X ≈ N(E(X), n Algunas consecuencias y observaciones importantes son las siguientes: σ2 • Si la distribución de origen es normal: ⎯X ∼ N(µ, ). n V(X) • Si la distribución de origen es continua no normal: ⎯X ≈ N(E(X), ). n p ⋅ (1 - p) • Si la distribución de origen es binomial: pˆ ≈ N(p, ). n

Teorema de Chebyshev: Para muestras de cualquier tamaño (en particular pequeñas), se tiene que, V(θˆ ) . independiente de la distribución original: P(| θˆ - θ| ≤ B) ≥ 1 – B2 Algunas consecuencias y observaciones importantes son las siguientes: V(X) • Distrib. normal u otra continua: P(|⎯X – µ| ≤ 2 σ n ) ≥ 1– =¾. 4 V(X) 2 V(X) V(pˆ ) • Distrib. binomial: P(|pˆ – p| ≤ 2 p ⋅ (1 − p) n ) ≥ 1– =¾. 4 V(pˆ ) 2 V(pˆ ) Error de Estimación e Intervalo de Confianza: El error de estimación es la diferencia absoluta entre el valor real y el valor estimado de un parámetro Æ E = | θˆ - θ|. En el caso normal, corresponde a E = | µˆ - µ|. En el caso binomial, corresponde a E = | pˆ - p|. Se denota por B al error máximo permitido y por (1 – α) al nivel de confianza en la estimación. Esto se resume en la siguiente expresión: P(| θˆ - θ| ≤ B) = 1 – α. Esta expresión también es análoga a decir que, con un nivel de confianza (1- α) se tiene que el verdadero valor θ pertenece al Intervalo de Confianza [ θˆ - B, θˆ + B]. El nivel de confianza quiere decir que, si se construyeran un gran número de intervalos, cada uno basado en una muestra extraída al azar, el verdadero valor del parámetro estaría contenido en el porcentaje dado por 1 – α de ellos.

Intervalos de Confianza y TLC Para tamaños de muestra grande, podemos decir que: • Con 95% de confianza, µ está en el intervalo [⎯X - 2 σ n ;⎯X + 2 σ n ] • Con 95% de confianza, p está en el intervalo [ pˆ -2 p ⋅ (1 − p) ; pˆ +2 p ⋅ (1 − p) ] n

n

Como σ es un valor desconocido, se puede aproximar por S, especialmente si la muestra es grande. De igual forma, p se puede aproximar por pˆ .

Intervalos de Confianza y Teorema de Tchebyshev Para tamaños de muestra cualquiera (pequeño), podemos decir que: • Con 75% de confianza, µ está en el intervalo [⎯X - 2 σ n ;⎯X + 2 σ n ] • Con 75% de confianza, p está en el intervalo [ pˆ -2 p ⋅ (1 − p) ; pˆ +2 p ⋅ (1 − p) ] n

n

También en este caso se pueden aproximar σ y p. Si la muestra es pequeña, existen alternativas para S (se verán más adelante)y p se puede aproximar por el valor medio 0,5.

Ejercicios: 1) Considere el conjunto dado a continuación y correspondiente a los sueldos de los 50 empleados de una repartición. a. Calcule los valores poblacionales µ = E(X) y σ = V(X) . b. Realice el histograma de los datos. c. Obtenga 20 muestras de tamaño 5. i. Para cada una calcule ⎯X, S y el intervalo de confianza para µ. ii. Vea a cuántos intervalos pertenece el valor real de µ. iii. Realice el histograma de valores de ⎯X. iv. Comente. d. Obtenga 20 muestras de tamaño 30. i. Para cada una calcule ⎯X, S y el intervalo de confianza para µ. ii. Vea a cuántos intervalos pertenece el valor real de µ. iii. Realice el histograma de valores de ⎯X. iv. Comente. 2) Considere el conjunto dado a continuación y correspondiente a la postura de los 50 empleados de una repartición respecto de las nuevas políticas de la empresa. a. Calcule el valor poblacional p. b. Realice el histograma de los datos (codifique como 1: a favor y 0: en contra). c. Obtenga 20 muestras de tamaño 5. i. Para cada una calcule pˆ y el intervalo de confianza para p. ii. Vea a cuántos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de pˆ . iv. Comente. d. Obtenga 20 muestras de tamaño 30. i. Para cada una calcule pˆ y el intervalo de confianza para p. ii. Vea a cuántos intervalos pertenece el valor real de p. iii. Realice el histograma de valores de pˆ . iv. Comente.

Ayuda para trabajo en Excell Datos Problema 1 (sueldos de los 50 empleados de una repartición, ordenados): 156.000 173.000 178.000 215.000 218.000 235.000 240.000 250.000 269.000 278.000

279.000 279.000 287.000 290.000 297.000 298.000 319.000 320.000 323.000 332.000

340.000 343.000 346.000 352.000 353.000 356.000 367.000 386.000 391.000 412.000

414.000 423.000 430.000 440.000 451.000 459.000 477.000 490.000 510.000 530.000

546.000 557.000 570.000 580.000 605.000 649.000 684.000 699.000 716.000 740.000

a) Ubique los datos en una columna de Excell, con el título Sueldos (columna A). A Sueldos 156.000 173.000 178.000 Etc.

b) Utilice los siguientes intervalos para los datos: 151.000-200.000, 201.000-250.000, 251.000, 300.000, etc. Escríbalos en una columna de Excell con el título Intervalos (columna B). B Intervalos 151-200 201-250 251-300 Etc.

Para utilizar estos intervalos, se debe ubicar en una columna de Excell los límites superiores de los intervalos: 200.000, 250.000, 300.000, etc. Llame a esa columna Clases (columna C). C Clases 200.000 250.000 300.000 Etc.

c) Debajo de la Columna Sueldos calcule promedio y desviación estándar (poblacional), con las fórmulas en el ejemplo: 716.000 50 740.000 51 52 Promedio 53 =promedio(A2:A51) 54 Varianza Poblacional 55 =varp(A2:A51) 56 Desv. Est. Poblacional 57 =raiz(A55)

d) Para el histograma de los datos, se utiliza la columna Clases. Presione los Menú Herramientas – Complementos – marque Herramientas para Análisis – Aceptar (esto se hace una sola vez, después quedan activadas las opciones estadísticas). Luego para acceder a las herramientas estadísticas, presione los Menú Herramientas – Análisis de Datos – Histograma. Se abre un cuadro de diálogo donde se debe completar la información como en el siguiente ejemplo:

e) La imagen obtenida será la que se muestra en el siguiente ejemplo:

Haciendo clic sobre las barras se marcarán las columnas fuente del gráfico, la idea es ubicarse con el Mouse sobre la columna destacada en morado, presionar botón izquierdo del Mouse, y mover el cuadr morado a la columna de los Intervalos:

f) Obtenga las frecuencias relativas o porcentajes, calculando, al lado de las Frecuencias, con la fórmula en el ejemplo: D E F Clases Frecuencia Porcentaje 200000 3 =E2/50 250000 5

Arrastre la fórmula de la celda F2 hacia abajo, desde la esquina inferior derecha hasta F13 y presione el Menú de porcentaje:

g) Ahora presione otra vez las barras del gráfico y mueva la columna azul a la de porcentajes. Finalmente reduzca con el Mouse el largo de las columnas de fuente de los datos:

h) Finalmente el gráfico se puede mejorar eliminando la Leyenda (el cuadro que dice Frecuencia), ensanchando las columnas (botón derecho sobre las barras, Formato de Serie de Datos – Opciones – Ancho del Rango: 0 – Aceptar), cambiando dirección o tamaño de las letras (botón derecho sobre eje horizontal, Formato de Ejes – Fuente – Tamaño 7 – Alineación: 0 grados – Aceptar) y cambiando los títulos. Distribución de Sueldos de Empleados de una Repartición 18% 16%

Porcentaje

14% 12% 10% 8% 6% 4% 2% 0% 151-200

201-250

251-300

301-350

351-400

401-450

451-500

501-550

551-600

601-650

651-700

701-750

Intervalos de Sueldos

i) Para generar las muestras, en la Hoja 2 copie la columna A de la Hoja 1. Luego cree una columna de Probabilidades (columna C). Como todos los datos deben tener la misma probabilidad de salir elegidos y son 50, la probabilidad es 1/50=0,02: 1 2 3 4

A B Sueldos Probabilidades 156.000 0,02 173.000 0,02 178.000 0,02

Luego presione los Menú: Herramientas – Análisis de Datos – Generación de Números Aleatorios y rellene los datos del cuadro de diálogo como en la figura:

j) Luego ponga título a cada columna en que se presenta una muestra extraída del conjunto: 1 2 3 4 5 6

A B Sueldos Probabilidades 156.000 0,02 173.000 0,02 178.000 0,02 215.000 0,02 218.000 0,02

C Muestra 1 477000 414000 716000 386000 546000

D Muestra 2 352000 279000 451000 319000 740000

k) En las filas inferiores calcule los estimadores para cada muestra: promedio (=promedio(…)), desviación estándar muestral (=desvest(…)), y construya las fórmulas del límite inferior y superior de cada intervalo, recordando que n=5.

Datos Problema 2 (postura de los 50 empleados de una repartición, respecto de una nueva política de la empresa): En contra En contra En contra En contra En contra A favor En contra En contra En contra En contra

En contra A favor En contra A favor A favor En contra En contra A favor En contra En contra

En contra En contra En contra A favor A favor En contra A favor A favor En contra En contra

En contra En contra En contra A favor En contra En contra En contra En contra En contra En contra

A favor En contra A favor En contra En contra En contra En contra A favor En contra En contra

Los desarrollos en este caso son muy semejantes a los del problema 1, pero presentan algunas diferencias, en primer lugar, que es factible definir la distribución de probabilidad poblacional a ojo o con la función Contar.si (vea el ejemplo) y luego dividiendo por 50 para calcular la probabilidad: 1 2 3 4 5 6 7

A Postura En contra En contra En contra En contra En contra A favor

B Resultados A favor En contra Codificación 1 0

C Frecuencia =CONTAR.SI(A2:A51;"A Favor") Probabilidad =C1/50

Entonces, en la generación de muestras (números aleatorios) sólo se usarán como fuente de los datos Codificación y Probabilidad: .

Técnicas de Muestreo Clase 3: Elementos del Problema de Muestreo Tamaño de la Muestra: Cada elemento de la población contiene una cierta cantidad de información relativa a ella, a las variables en juego, a sus distribuciones y a sus parámetros; sin embargo cada unidad muestreada implica un costo, lo que motiva la determinación del mínimo tamaño muestral que permita el logro de los objetivos de la estimación (precisión y confianza deseadas), dada la variabilidad (desviación estándar del estimador) existente y el tamaño de la Población. De estos cuatro factores, dos son propios del problema y no se pueden alterar (variabilidad, tamaño de la población), mientras que los otros dos son definidos por el investigador (precisión y confianza). El ideal es que se pueda contar con que las mediciones hayan sido realizadas en forma exacta. En caso contrario, se habla de error de medición. Este tipo de error debe minimizarse. Definiciones importantes: Elemento: Objeto al cual se le pueden tomar (y eventualmente se le toman) las mediciones. Población: Colección de elementos acerca de los cuales se desea realizar inferencias. Unidades de muestreo: Colecciones no traslapadas de elementos que cubren la población completa. Marco muestral: Lista de unidades de muestreo. Muestra: Una colección de unidades seleccionadas de uno o de varios marcos muestrales. Diseño del Muestreo: El objetivo del muestreo es la estimación de parámetros de la población. La estimación se basa en la información muestral. La precisión de esta estimación es determinada por el investigador como el error máximo de estimación B. E = |θ – θˆ | ≤ B. La probabilidad 1 – α de que la estimación tenga un error que no supere a esta cota se denomina nivel de confianza. P( E ≤ B) = P(|θ – θˆ | ≤ B) = 1 – α. Como se vio anteriormente, si consideramos B = 2·σ( θˆ ) y: • el tamaño de muestra n es grande, o la distribución es normal, se tiene que la probabilidad es 1 – α = 0,95 (95%); • el tamaño de muestra n es pequeño, se tiene que la probabilidad es 1 – α = 0,75 (75%).

Note que la cantidad 2·σ( θˆ ) corresponde al error de muestreo, lo cual es muy diferente del error de medición. Intervalos de Confianza: Una forma general de escribir un Intervalo de Confianza de probabilidad o nivel 1 – α para θ (las cotas que probablemente contengan al parámetro), es la siguiente: [ θˆ – 2·σ( θˆ ); θˆ + 2·σ( θˆ ) ] = [ θˆ – B; θˆ + B ]. Fuentes de Error en Encuestas y Posibles Soluciones: Como se mencionó antes, existe el error de muestreo, que se debe únicamente a que no es posible medir la población completa, y el error de medición, que se refiere a errores provenientes no de la selección de individuos sino de la medición misma. Respecto de estos últimos podemos mencionar algunos subtipos: 1) Omisión: Si se desea realizar inferencias sobre una población, es importante considerar que aquellas personas que acceden a responder a la encuesta no necesariamente constituyen una muestra representativa de ella. Muchas veces las personas que no responden a una encuesta corresponden a un grupo con características diferentes, las cuales motivan que no respondan. Por ejemplo, si a un individuo un tema le es indiferente, es muy posible que no responda, sólo para no darse el trabajo de hacerlo; mientras que si el individuo está desconforme con la situación de la que se trata, se verá muy motivado a expresar su opinión. Incluso, si el individuo piensa que la consulta no tiene como fin producir algún tipo de cambio, independiente de que el tema le interese o preocupe, probablemente no responderá. Basar las inferencias en una muestra con alto porcentaje de omisión llevará a conclusiones sesgadas (inclinadas en algún sentido, a cierto grupo). Soluciones: Los incentivos son una forma de evitar omisiones, sin embargo, estos deben ser ofrecidos a la muestra seleccionada al azar, ya que una muestra basada en aquellas personas que, al saber que habían incentivos, decidieron responder, sería sesgada. Estos incentivos pueden ser económicos (dinero, artículos), pero también puede ser la seguridad de que las respuestas permitirán mejorar la situación se la que se trata o de los entrevistados. 2) Respuestas inexactas: En este caso nos referimos tanto a las respuestas inexactas que son entregadas con la intención de mentir u ocultar la verdad, como a aquellas que se responden en forma equivocada porque la pregunta no es clara para quien la responde. En el primer caso, se debe presentar las preguntas de tal forma que la persona no se sienta amenazada ni cohibida, o de forma que se amortigüe al máximo su efecto; mientras que en el segundo caso, previo a editar la versión final del cuestionario, es un buen ejercicio presentar el cuestionario a amigos que nos ayuden a determinar si se las preguntas se entienden.

Soluciones: Un adecuado adiestramiento de los encuestadores permitirá obtener respuestas difíciles o sobre temas incómodos. Por otra parte, la revisión pronta de la planilla de datos permitirá verificación de información extraña (valores imposibles por ejemplo), y recuperación de datos mientras los encuestados aún están disponibles. 3) Sesgo de selección: Es una práctica común y muy inconveniente, reemplazar en forma más o menos arbitraria a los individuos muestreados ausentes por sus vecinos. En este caso, así como en el caso de no respuesta, la ausencia de los individuos podría guardar relación con su postura frente a las interrogantes que se les plantearán, por ejemplo, puede que sea más común (probable) encontrar en el domicilio a una familia con niños que a una conformada por adultos solamente, lo cual puede sesgar las respuestas de los individuos. La única forma de obtener una muestra representativa y que satisfaga las propiedades de éstas, es medir a los individuos debidamente seleccionados en forma aleatoria. Soluciones: Las reentrevistas programadas en diferentes horarios y días de la semana son una forma de minimizar las omisiones en una encuesta que se realiza en terreno. Métodos de recolección de datos: Algunos métodos de recolección de datos son: 1) Entrevista Personal: Se tiende a tener menos omisión cuando el individuo es confrontado en forma personal. Las ventajas de una entrevista son: el lenguaje no verbal es considerado, se puede explicar las preguntas evitando omisiones; desventajas son: se puede provocar sesgo por las actitudes o gestos del entrevistador, si el entrevistador no es experimentado puede cohibir al encuestado o perder información. En general, se puede usar una pauta rígida o un punteo. Si se trata de una entrevista técnica, se requiere del individuo su opinión experta, por lo cual es conveniente llevar debidamente escritas las preguntas e interiorizarse del tema previamente. Si se trata de una entrevista testimonial, en cambio, se da libertad al encuestado para que se exprese libremente. 2) Entrevista Telefónica: Las entrevistas telefónicas resultan más económicas que las personales, sin embargo deben ser más cortas, ya que el encuestado tiende a impacientarse. Por otra parte, generalmente utilizar la guía telefónica como marco muestral produce sesgo, ya que no todas las casas tienen teléfono, de las que tienen no todas están en la guía y muchos teléfonos de la guía no corresponden a casas. 3) Cuestionarios Autoaplicados: Las encuestas en que no se cuenta con un entrevistador, sino que el individuos las responde por sí mismo, son más económicas. En ocasiones se hacen en un lugar específico al cual concurren los encuestados; pero la mayoría de las veces se hacen llegar por correo, postal o electrónico, este tipo de encuestas tiene muy bajo porcentaje de respuesta. En cualquiera de los casos, la encuesta debe redactarse de forma muy cuidadosa, para evitar errores u omisiones.

4) Observación Directa: Un muestreo en el cual no se realiza mediciones a las personas puede ser obtenido de primera fuente (número de vehículos que pasan por cierta intersección, por ejemplo). También, en ocasiones, se requiere información objetiva, presente en archivos, la cual es más exacta que aquella que pudieran proveer los mismos individuos muestreados (fichas de hospital, por ejemplo). En general este tipo de muestreo es demoroso pero económico. Diseño de un Cuestionario: El diseño cuidadoso del instrumento (cuestionario) permitirá disminuir las potenciales fuentes de error de medición. Algunos factores a considerar son: 1) Orden de las Preguntas: Si las preguntas están relacionadas entre sí, y están presentadas en un orden específico, éste puede incidir en las respuestas de los individuos, ya que a medida que se responde puede ir generando en ellos un estado anímico (inducido por las preguntas) que produzca percepciones distintas a las que se hubieran manifestado al enfrentarse a ellas en forma individual. Por ejemplo, “1)¿Ha presenciado usted alguna vez un acto delincuencial? 2)¿Algún conocido suyo ha sufrido a causa de la delincuencia? 3)¿Se siente ud. atemorizado por la delincuencia?” Por otra parte, es conveniente ubicar las preguntas menos complicadas al principio, por un efecto de rompe-hielo (por ejemplo, “sexo”), las medianas al final (por ejemplo, “ubíquese en un rango de ingreso familiar”) y las más difíciles en la parte central, ya sea porque el rompe-hielo permite hacer la pregunta (por ejemplo, “ha experimentado usted en su familia alguna situación de violencia intrafamiliar”), o porque la pregunta requiere concentración por parte del encuestado, el cual estará cansado al final de la encuesta (por ejemplo, “ubíquese en un rango de gastos mensuales en alimentación”). Finalmente, ciertas preguntas tienen un orden lógico, debido a la información que proveen, y existen preguntas de filtro que permiten indicar a un individuo que no se requiere que responda a algún grupo de ellas. 2) Preguntas cerradas y abiertas: En general las preguntas abiertas se usan en estudios exploratorios, cuando aún no se han detectado las posibles respuestas que darán los encuestados. Las ventajas de las preguntas cerradas se relacionan con un menor tiempo de codificación de la información, y con una lectura más objetiva de las respuestas. Hay que tener cuidado con que las preguntas cerradas cumplan con dos condiciones: ser exhaustivas (cada individuos debe poder responder a la pregunta, nadie puede quedar excluido) y excluyentes (cada individuo debe poder marcar una sola alternativa). Por ejemplo, “¿Cuál es su Hobby?” no es exhaustiva porque hay individuos que no tienen hobby, mientras que, “Marque el tipo de música que escucha: a) Folclórica b) Metal c) Clásica d) Pop ...” no es excluyente, porque el individuo puede escuchar música de varios tipos. Aunque se debe evitar opciones neutras, a las que el encuestado se puede inclinar para salir del paso, en ocasiones el individuo realmente no sabe o no tiene posición respecto de cierto planteamiento; para preservar la exhaustividad, se debe incluir la opción neutra (no sé, no se pronuncia).

3) Redacción ambigua: Es importante que las preguntas sean claras para todos los encuestados. Por ejemplo: “años de educación” puede llevar a algunos encuestados a responder sobre los años de estudios superiores y a otros sobre la escolaridad completa. Si la encuesta será respondida por personas de cierto grupo, el lenguaje debe ser el adecuado a ellos (niños, personas sin educación, etc). Por otra parte, las preguntas deben redactarse de forma que no induzcan a una respuesta particular ni den indicios de que quien diseña e instrumento tiene tal o cual posición. Por ejemplo, “¿qué opinión le merece el mal manejo del problema del transantiago?”. Finalmente, la forma en que se plantea la pregunta debe hacer sentir al encuestado que toda respuesta es admisible. Por ejemplo, “¿con qué frecuencia se emborracha usted? a) más de dos veces a la semana b) máximo dos veces a la semana c) muy rara vez e) nunca”, hace sentir que emborracharse es normal, no así “¿se emborracha usted frecuentemente? a) si b) no. Planificación de una Encuesta: Los principales aspectos a considerar a la hora de planificar una encuesta son: 1) Objetivos: Es importante tener claros los objetivos de la investigación a la hora de confeccionar el cuestionario, para cumplirlos todos y para no realizar preguntas innecesarias. 2) Población Objetivo: Es importante definir la Población de forma que sea posible extraer la muestra a partir de ella, que se cuente con un marco muestral. 3) Marco Muestral: Se construye un marco muestral que sea lo más parecido posible a la población. 4) Diseño del Muestreo: Se decide el tipo de muestreo óptimo y se obtiene el tamaño de muestra requerido. 5) Métodos de Medición: Se escoge el tipo de encuesta o entrevista a realizar, de acuerdo al tipo de individuos y a los objetivos. 6) Instrumentos de Medición: Se construye con mucho cuidado el instrumento (encuesta, entrevista). 7) Selección y adiestramiento de investigadores de campo: Se debe instruir a los encuestadores sobre qué información recopilar y cómo hacerlo. 8) Prueba Piloto: La utilización de una muestra piloto permite revisar el proceso de muestreo diseñado, las habilidades de los encuestadores, las preguntas del instrumento, etc. Todo esto permite modificaciones antes de aplicar la encuesta final. Por otra parte, esta Prueba Piloto también permite estimar la variabilidad existente, con el fin de definir más claramente el tamaño muestral. 9) Organización del Trabajo de Campo: Se debe confeccionar un protocolo que incluya todos los pasos que se deben dar para recolectar, almacenar, controlar, codificar, procesar y analizar la información. 10) Análisis de Datos: Se debe listar, en el protocolo, el detalle de todos los análisis estadísticos a realizar, y los aspectos que serán incluidos en el reporte final. Esto se debe planificar antes de recolectar la información, ya que el tipo de datos recolectados, las técnicas estadísticas a utilizar y los objetivos de la investigación están íntimamente vinculados.

Por ejemplo, si el objetivo es verificar que cierta intervención ha disminuido el riesgo social en la mayoría de los individuos, es necesaria una medición antes y una medición después de la intervención, y es necesario que estas mediciones se realicen ambas veces en los mismo individuos para realizar la prueba de muestras pareadas. Ejercicios: Para los siguientes problemas, considere la información disponible y determine el tamaño de muestra a considerar, siendo que el tipo de muestreo óptimo es aleatorio simple: 1) Se desea conocer la proporción de individuos que están a favor de una propuesta en una población de 50 empleados de una repartición. Se quiere, con una confianza alta, estimar la proporción real con un error máximo del 10%. a) Calcule el tamaño de muestra si no se puede obtener una muestra piloto. b) Calcule el tamaño de muestra si una muestra piloto de tamaño n = 5 arrojó una persona a favor. c) Calcule el tamaño de muestra si se sabe que es proporción está entre el 20 y 40%. d) Calcule el tamaño de muestra si se sabe que esa proporción está entre 40 y 60%. e) Comente diferencias y similitudes entre los resultados obtenidos para los casos (a) a (d). f) En base a (a) obtenga la muestra respectiva del conjunto de datos de la clase anterior, estime la proporción y construya un intervalo de confianza para ella. g) En base a la idea planteada en (b), obtenga una muestra piloto de tamaño 5, y en base a su resultado, obtenga el tamaño muestral definitivo, la muestra, el estimador y el intervalo de confianza. h) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (g) y (h). 2) Se desea conocer el sueldo promedio de los individuos en una población de 50 empleados de una repartición. Se quiere, con una confianza alta, estimar la media real con un error máximo del $15.000. a) Calcule el tamaño de muestra si se cree que la desviación estándar de los sueldos es a lo más de $50.000. b) Calcule el tamaño de muestra si una muestra piloto de tamaño n = 5 arrojó una desviación estándar de $70.000. c) Comente diferencias y similitudes entre los resultados obtenidos para los casos (a) y (b). d) En base a (a) obtenga la muestra respectiva del conjunto de datos de la clase anterior, estime la media y construya un intervalo de confianza para ella. e) En base a la idea planteada en (b), obtenga una muestra piloto de tamaño 5, y en base a su resultado, obtenga el tamaño muestral definitivo, la muestra, el estimador y el intervalo de confianza. f) Comente las semejanzas y diferencias entre los resultados obtenidos para los casos (d) y (e).

Ayuda: Para muestreo aleatorio simple: n



µˆ = X =

∑ Xi i=1

n n

∑ ( Xi − X)2 i =1

⎛ n 2⎞ ⎜ X ⎟ − n ⋅ X2 ⎜∑ i ⎟ ⎝ i=1 ⎠ n −1



σˆ = S =



σ(µˆ ) =



X pˆ = n



σ(pˆ) =



El error máximo de estimación es B = 2 · σ( θˆ ).



Si el tamaño de la Población N es finito, n =



Para una muestra grande o normal y un nivel de confianza 95%, el tamaño de muestra se calcula despejando n0 desde B = B0, donde B0 es el error máximo permitido.

n −1

=

S n

p ⋅ (1 − p) n

n0 n 1+ 0 N

. En caso contrario, n = n0.

Técnicas de Muestreo Clase 4: Muestreo Aleatorio Simple Introducción: Si el diseño del proceso de muestreo asegura que cada posible muestra tiene la misma probabilidad de resultar elegida, se habla de Muestreo Aleatorio Simple. Esta condición no es equivalente a aquella que hemos establecido anteriormente: todos los individuos tienen la misma probabilidad de ser elegidos; sin embargo, el hecho de que todas las posibles muestras sean equiprobables implica que todos los individuos lo son. Para asegurar la condición de muestras equiprobables, se deben escoger todos los individuos en la muestra en forma aleatoria desde la población sin reemplazo (sin reemplazo significa que no se puede seleccionar a un mismo individuo más de una vez y con reemplazo significa que cada vez que se selecciona un elemento, todos pueden ser elegidos, incluso los que fueron seleccionados antes). Esto se hace mediante un sorteo en el cual se seleccionan n individuos de los N existentes en la población. En primer lugar los N individuos de la población son numerados (en muchos casos ya lo están) y posteriormente se eligen n individuos utilizando una tómbola, una tabla de números aleatorios, números aleatorios de la calculadora o del computador, o cualquier otro método que preserve el azar. Una muestra escogida de esta forma se denomina Muestra Aleatoria Simple y el diseño se conoce como Muestreo Aleatorio Simple (MAS). Este diseño es adecuado cuando la población es homogénea respecto de la característica de interés, o bien no se puede a priori obtener información sobre eventuales grupos en ella. Cálculos: El cálculo de la combinatoria permite determinar cuántas posibles muestras existen: CNn = ⎛⎜⎜ N⎞⎟⎟ = N! , ⎝ n ⎠ n! ⋅ (N − n)! ⎛ N⎞ ó ⎜⎜ ⎟⎟ es una notación para la expresión que se lee Combinatoria ⎝n⎠ de N sobre n y se interpreta como “de cuántas formas se pueden seleccionar n elementos de un grupo de N elementos”, y donde N! es una notación para la expresión que se lee Factorial de N, se interpreta como “todas las formas en que se pueden ordenar N elementos” y se calcula como el producto de los números desde 1 hasta N, es decir: N! = N · (N – 1) · (N – 2) · … · 3 · 2 · 1. donde

CNn

Parámetros de interés: En general, los parámetros de interés o a estimar en estos casos, son: 1) Si la variable de interés X es continua: • Media µ (promedio de la variable en la población), por ejemplo, X: “ingreso familiar mensual de los residentes de Hualpén”, µ = ingreso familiar promedio de los residentes de Hualpén. • Total τ (suma de los valores X de los individuos en la población), por ejemplo, X: “Nº de infracciones cursadas a conductores de taxi-colectivo de la ciudad de Concepción (2007)”, τ = número total de infracciones cursadas en 2007 a conductores de taxi-colectivo de Concepción. 2) Si la variable X es dicotómica: • Proporción p (proporción o porcentaje de individuos en la población con la característica de interés), por ejemplo, X: “número de cesantes en una muestra extraída de los titulados en el año 2006 en la UdeC", p = proporción de los titulados en la UdeC el año 2006 que se encuentran cesantes. Estimadores e intervalos: El objetivo de este diseño de muestreo, como en cualquier otro, es la estimación de parámetros de la población. Los estimadores son insesgados y de varianza mínima y dependiendo de si el tamaño muestral final es grande o pequeño, se generan intervalos con nivel de confianza 95% ó 75%, respectivamente. Dado un tamaño poblacional N, para cada parámetro θ nos interesa su estimador θˆ , pero para establecer la precisión de la estimación, también nos interesa el error estándar (desviación estándar del estimador) σ( θˆ ) y en particular el error estándar estimado s(θˆ ) = σˆ (θˆ ) .

Para establecer límites entre los cuales se encuentra el parámetro se utiliza su error de estimación B, de donde se obtiene el intervalo de confianza. Finalmente se requiere el tamaño muestral n. Todos estos cálculos se obtienen para •



N < 20), en n N-n cuyo caso las cantidades consideran un factor de corrección . N -1 N ≥ 20), en tamaño de población grande respecto del tamaño muestral ( n cuyo caso el factor de corrección se elimina por ser superior a 0,95, es decir cercano a 1. En este caso se habla de población infinita.

tamaño de población pequeño respecto del tamaño muestral (

1) Parámetro Media µ: •

El estimador es µˆ =⎯X



El error estándar es σ(µˆ ) =

• • • •

σ

N-n σ ; con N grande σ(µˆ ) ≈ . n N-1 n S N-n S El error est. estimado es s(µˆ ) = σˆ (µˆ ) = ; con N grande s(µˆ ) ≈ . n N-1 n El error de estimación es B = 2 ⋅ s(µˆ ) .

El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario. 4 ⋅N⋅ σ2 4 ⋅σ2 = n El tamaño de muestra es n = ; con N grande . (N - 1) ⋅ B 2 + 4 ⋅ σ 2 B2 Si se cuenta con una muestra piloto, σ se reemplaza por su desviación estándar Sp, es decir, n =

4 ⋅ N ⋅ S p2 (N - 1) ⋅ B 2 + 4 ⋅ S p2

y con N grande n =

4 ⋅ Sp2 B2

.

2) Parámetro Total τ = N · µ: • •





El estimador es τˆ = N · µˆ = N ·⎯X (N - n) ; con N grande σ( τˆ ) ≈ σ ⋅ N . n ⋅ (N - 1) n (N - n) El error estándar estimado es s( τˆ ) = σˆ ( τˆ ) = S ⋅ N ⋅ ; con N grande n ⋅ (N - 1) s( τˆ ) = S ⋅ N . n El error de estimación es B = 2 ⋅ s(τˆ) . El error estándar es σ( τˆ ) = σ ⋅ N ⋅



El intervalo de confianza es [X - B; X + B] , de nivel 95% si n grande y 75% en caso contrario.



El tamaño de muestra es n =

4 ⋅N⋅ σ2 ; con N grande (N - 1) ⋅ ( B )2 + 4 ⋅ σ 2 N

2

2

2

n = 4 ⋅ N ⋅ σ = 4 ⋅ σ . Si se cuenta con una muestra piloto, σ se reemplaza B2 ( B )2 N

por su desviación estándar Sp, es decir, n =

4 ⋅ N ⋅ S p2 (N - 1) ⋅ ( B )2 + 4 ⋅ S p2 N

grande n =

4 ⋅ N2 ⋅ Sp2 B2

=

4 ⋅ Sp2

( NB )2

.

y con N

3) Parámetro Proporción p:



El estimador es pˆ = X . n



El error estándar es σ(pˆ) =



• • •

p ⋅ (1 − p) N - n p ⋅ (1 − p) ⋅ ; si N grande σ(pˆ) ≈ . n N -1 n pˆ ⋅ (1 − pˆ) N - n El error estándar estimado es s(pˆ) = ⋅ ; si N grande n -1 N-1 pˆ ⋅ (1 − pˆ) s(pˆ) ≈ . n −1 El error de estimación es B = 2 ⋅ s(pˆ) . El intervalo de confianza es [pˆ - B; pˆ + B], de nivel 95% si n grande y 75% en caso contrario. 4 ⋅ N ⋅ p 0 ⋅ (1 − p 0 ) El tamaño de muestra es n = , donde p0 es la (N - 1) ⋅ B 2 + 4 ⋅ p 0 ⋅ (1 − p 0 ) 4 ⋅ p 0 ⋅ (1 − p 0 ) . proporción en una muestra piloto; con N grande n = B2 Si no se cuenta con una muestra piloto, pero se sabe que la proporción está entre ciertos límites, se escoge el valor p0 más cercano a 0,5 en el intervalo. Finalmente, si no se tiene ningún indicio del valor de p, se utiliza el valor N p0 = 0,5, de donde n = y si N es grande n = 12 . 2 (N - 1) ⋅ B + 1 B

Muestreo con probabilidades proporcionales al tamaño: Todo el desarrollo anterior se basa en el concepto de que todos los elementos de la población son igualmente importantes para el estudio, respecto de la información que entregan; sin embargo, en algunos casos, los elementos de la población no entregan información equivalente, ya que sus tamaños difieren, y estos tamaños se vinculan a la cantidad de información que contienen. Cuando hablamos de tamaño no necesariamente se trata de cantidad de individuos, sino de alguna característica del elemento que se vincula a la variable de interés en forma significativa. En estos casos es conveniente asignarle pesos o ponderaciones πi diferentes a los elementos seleccionados que permitan una representación diferenciada en la muestra, en la cual aquellas unidades con mayor información de interés tengan mayor probabilidad de ser seleccionadas. La asignación de ponderaciones es previa a la recolección de la información, pero el conocimiento previo de la variable de interés no es posible, si así lo fuera la muestra no sería necesaria. En lugar de la información de interés X, para designar las ponderaciones π se puede buscar una variable que esté relacionada con ella (digamos Y), en función de las cuales se puedan construir las ponderaciones. Este procedimiento provoca que las unidades en la población tengan diferentes probabilidades de ser elegidas, en efecto, que la probabilidad de ser elegida sea aproximadamente proporcional a la información que entregan.

Por ejemplo, si interesa la productividad científica de las universidades chilenas (X: número de artículos en revistas de corriente principal publicados en el último año), una variable relacionada con ella es el número de doctores en la planta de la universidad (Y). Esta variable permitirá estimar la ponderación π. Para designar las ponderaciones se realiza, para cada elemento de la población, el siguiente cálculo: Y πi = i , YT donde YT es la suma de todos los valores Yi en la población, es decir: YT =

N

∑ Yj . j =1

Naturalmente, las estimaciones no pueden ser las mismas que en los desarrollos anteriores, debido a que ciertas unidades han sido ponderadas más que otras, por lo cual se debe reducir su influencia en el momento de la estimación; esto se logra dividiendo por la ponderación. Es así como se obtienen estimadores insesgados y de varianza mínima. La selección de la muestra se hace de la siguiente manera: • Se construye una tabla en que la primera columna contiene a los elementos de la población, la segunda las ponderaciones π y la tercera los valores acumulados de π (cada valor acumulado es el acumulado anterior más el valor actual). • Se escogen n números aleatorios entre 0 y 1. • Para cada número aleatorio escogido se escoge el elemento con valor acumulado superior a él y para el cual el valor acumulado anterior es inferior a él. Por ejemplo: Elemento π π acumulado 1 0,2 0,2 0 + 0,2 2 0,25 0,45 0,2 + 0,25 3 0,15 0,6 0,45 + 0,15 4 0,1 0,7 0,6 + 0,1 5 0,2 0,9 0,7 + 0,2 6 0,1 1 0,9 + 0,1 Si los n = 3 números aleatorios son 0,375 – 0,499 – 0,070, estos se relacionan con los elementos Elemento 2: 0,2
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF