Error No Muestral

April 29, 2018 | Author: Ruth Olivera Kalafatovich | Category: Estimator, Sampling (Statistics), Questionnaire, Science, Mathematics
Share Embed Donate


Short Description

Download Error No Muestral...

Description

UNMSM Facultad de Ciencias Matemáticas Curso: Muestreo II

Profesor: Julio Ramos R.

Introducción En un proceso de muestreo, basado en una técnica probabilística, se busca recoger información de los elementos seleccionados de una población, con el propósito de establecer una inferencia acerca de las principales características numéricas de la población en estudio. En este proceso se ha supuesto que los datos fueron correctamente registrados y que proporcionan una representación exacta de los elementos seleccionados. Según estas suposiciones se estiman ciertos parámetros y se establece inclusive el límite para el error de estimación. Existen muchas situaciones en las cuales estas suposiciones fundamentales no son satisfechas, usualmente se les denomina  fuentes potenciales  que pueden afectar el diseño de la encuesta potenciales de error  que  por muestreo. Un buen diseño intentará controlar las distintas fuentes de error. Aunque gran parte de estos errores se estudian con mayor detalle en los siguientes capítulos, en este momento, resulta conveniente proporcionar algunas descripciones breves. El error total en la encuesta es la variación entre entre el valor real del parámetro a estimar y el valor del estimador (estimación) observado en la muestra. En la figura 1 se muestra la composición del error total en la encuesta.

Error Total

Error de Muestreo

Sesgo de Respuesta

Error de No Muestreo

No Respuesta

Sesgo del Investigador Sesgo del Entrevistador Sesgo del Entrevistado

Negativas o Rechazos Ausencia de Entrevistados

Marcos Imperfectos

Marcos Incompletos Marcos Desactualizados

Fig. 1: Error total en la Encuesta por Muestreo.

El error de muestreo ocurre porque la muestra probabilística seleccionada es una representación imperfecta de la población que se estudia. Este error es completamente aleatorio.

El error de no muestreo  puede atribuirse a fuentes distintas al muestreo y pueden ser aleatorios y no aleatorios. Se originan por varias causas que incluyen errores en la definición del problema, las escalas, el diseño del cuestionario, los métodos de entrevistas y la preparación y análisis de datos. Aquí también están incluidos principalmente los errores debido al sesgo de respuesta, no respuesta y marcos imperfectos. La NO RESPUESTA. La obtención de los datos muestrales puede ser imposible debido a la índole delicada de las preguntas, rechazo parcial y total a la entrevista, ausencia de respondientes, etc. El SESGO DE RESPUESTA. Las mediciones registradas no son siempre una representación exacta de los datos deseados, debido a sesgos de los entrevistadores, sesgo del equipo de medición, sesgo del entrevistado o a una respuesta falsa del entrevistado cuando la pregunta le es inconveniente. MARCO DE MUESTREO IMPERFECTO. El Marco de muestreo no es siempre el adecuado, a veces está desactualizado, y por lo tanto la muestra puede no haber sido seleccionada de la  población completa de estudio. Estas tres situaciones anteriores constituyen las fuentes principales de ERRORES AJENOS AL MUESTREO. En el presente trabajo de investigación solo nos ocupamos del problema de la NO RESPUESTA. El proyecto de Investigación trata sobre los métodos para controlar y reducir la No Respuesta en las Encuestas por Muestreo.

II

EL PROBLEMA DE LA NO RESPUESTA

1. El prob lema de la No Respuesta en las Enc uestas p or Muestreo En las encuestas por Muestreo, la no respuesta se constituye como una de las principales fuentes de error no muestral en este tipo de investigaciones. El error por la no respuesta surge cuando algunos de los entrevistados potenciales, que se incluyen en la muestra, no responden o están ausentes. Las personas que no responden difieren de quienes si responden en términos de las variables demográficas, psicográficas, de personalidad, de actitud, motivacionales y conductuales. Para un estudio determinado, si las personas que no responden difieren de las que si lo hacen en términos de las características de interés, los estimados de la muestra presentarán graves tendencias. En general, los índices de respuesta más altos implican índices de tendencia a la falta de respuesta más bajos, aunque el índice de respuesta quizá no sea un indicador adecuado de la tendencia a la falta de respuesta. Los índices de respuesta por si solos no indican si los entrevistados son representativos de la muestra original. Es probable que el incremento de la tasa de respuesta no reduzca la tendencia a la falta de respuesta si los entrevistados adicionales no son diferentes a aquellos que ya respondieron, pero sí lo son de aquellos que todavía no contestan. Puesto que las tasas de respuesta bajos aumentan la probabilidad de tendencia a la falta de respuesta, es preciso tratar de mejorar la tasa de respuesta.

2. Alg un os m é to do s para co nt rolar y redu cir la No Respuesta Estos Métodos se han agrupado en tres grupos:

1. Métodos Cortos y Rápidos (Básicos) Se refieren a los métodos administrativos que suelen implementarse antes o en pleno trabajo de campo. Estos métodos están orientados a mejorar la tasa de respuesta. 2. Métodos Intermedios Estos métodos se utilizan para ajustar la falta de respuesta una vez culminado la recolección de los datos. Aquí se encuentran los métodos de Sustitución, Reemplazo, estimación subjetiva, el método de ponderación. submuestreo de no respondientes y el análisis de tendencia. 3. Métodos Avanzados Aquí se encuentran los métodos de imputación de datos y los modelos de respuesta aleatorizada. Los métodos de imputación de datos que están siendo utilizados son: el método de imputación  por medias, imputación por regresión y el método de imputación por análisis discriminante. Los modelos de Respuesta Aleatorizada están basados en diseños que conservan el anonimato de la respuesta, por lo que da plena libertad al entrevistado a responder la encuesta. Los más difundidos son: el modelo de Warner, el de Simons y el de Greenberg.

III

METODOS BASICOS

Como se dijo antes, se refieren a los métodos administrativos que suelen implementarse antes o en  pleno trabajo de campo. Estos métodos están orientados a mejorar las bajas tasas de respuesta. Las tasas de respuesta bajas se deben fundamentalmente a los rechazos y a los ausentes en casa. Los rechazos o negativas que resultan de la falta de disposición o la incapacidad para participar de las personas que se incluyen en la muestra, dan como resultado tasas de respuesta bajos y aumento de la falta de respuesta. Los ausentes en casa, en las encuestas dirigidas al hogar o telefónicas, pueden disminuir notoriamente la tasa de respuesta si se tratan de entrevistados potenciales para la encuesta. Veamos a continuación los métodos que intentar resolver estos problemas.

1. Notif icación Previa En la notificación previa, se envía a los entrevistados potenciales una carta en la que se les informa sobre la encuesta inminente por correo (postal o electrónico), por teléfono o personal. La notificación previa incrementa la tasa de respuesta para las muestras en general porque reduce la sorpresa y la incertidumbre, al tiempo que crea un ambiente cooperativo.

2. Motivación de los Entrevistado s Puede motivarse a los entrevistados potenciales para que participen en la encuesta al aumentar su interés y participación. Dos de las formas en que esto puede lograrse son: Las estrategias de “detener la puerta con el pie” y la “puerta en la cara”. Ambas tratan de obtener participación mediante el uso de peticiones secuenciales. En la estrategia de “detener la puerta con el pie”, el entrevistador empieza con una petición relativamente pequeña, como “haría el favor de concederme 5 minutos para responder 5  preguntas?”, ante la que una gran mayoría de las personas aceptará. Después de esta petición viene una petición mayor, la petición crítica, que pide la participación en la encuesta o experimento. El razonamiento es que la aceptación ante una petición inicial debe incrementar las probabilidades de una aceptación a la petición subsecuente.

La estrategia de “la puerta en la cara” es opuesta. La petición inicial es relativamente grande y la mayoría de las personas se niega a aceptar. Después de esta petición viene una petición menor, la  petición crítica, pidiendo la participación en la encuesta. El razonamiento subyacente es que la conexión a la petición crítica subsecuente debe aumentar las probabilidades de aceptación. La primera estrategia es más efectiva que la segunda.

3. Inc entivos La tasa de respuesta puede aumentarse al ofrecer incentivos monetarios y no monetarios a los entrevistados potenciales. Los incentivos monetarios pueden pagarse en forma previa o posterior. El incentivo que se paga en forma previa se incluye en la encuesta o cuestionario. El incentivo  posterior se envía sólo a los entrevistados que terminan la encuesta. Los incentivos no monetarios que se utilizan con mayor frecuencia son los premios y recompensas, como lapiceros, lápices, libros y ofrecimientos de los resultados de la encuesta. Los incentivos que se pagan en forma previa han demostrado que aumentan la tasa de respuesta en mayor medida que aquellos a futuro. La cantidad del incentivo pude variar hasta $50 o más. La cantidad del incentivo tiene una relación positiva con la tasa de respuesta, pero el costo de los incentivos monetarios elevados puede superar el valor de la información adicional obtenida.

4. Diseñ o y A pl icac ión d el cu esti on ario Un cuestionario bien diseñado puede reducir el índice general de rechazos parcial y total. De modo similar la habilidad que se emplea para aplicar el cuestionario en las entrevistas personales y telefónicas puede aumentar la tasa de respuesta. Los entrevistadores bien capacitados son hábiles  para la conversión del rechazo a una persuasión. No aceptan una respuesta negativa sin una petición adicional. La petición adicional puede enfatizar la brevedad del cuestionario o la importancia que tiene la opinión del entrevistado.

5. Segu imiento El seguimiento, o contactar, en forma periódica, a las personas que no respondieron, después de la entrevista inicial, es efectivo en especial para reducir los rechazos en las encuestas por correo. El investigador puede enviar una tarjeta postal o una carta para recordarles que deben terminar y regresar el cuestionario. Además, del envío original, se necesitan dos o tres más. Los seguimientos  pueden llevarse a cabo por correo electrónico, teléfono, fax o contactos personales.

6. Llamadas su bsecu entes El porcentaje de personas que no se encuentran en casa puede reducirse en forma significativa al emplear una serie de llamadas subsecuentes a la encuesta para tratar de contactar a los entrevistados. En la mayor parte de las encuestas dirigidas al hogar, pueden ser aceptables tres o cuatro llamadas subsecuentes. Aun cuando la primera llamada produce la mayor parte de las respuestas, la segunda y tercera llamadas tienen un índice de respuesta más alto por llamada. Es importante que las llamadas subsecuentes se hagan y se controlen de acuerdo con un plan establecido.

IV

METODOS INTERMEDIOS

1. Mé to d o d e Su s ti tu c ión En el método de sustitución, el investigador cambia a las personas que no responden con otros elementos del marco de la muestra que se espere contesten. El marco de la muestra se divide en subgrupos que son internamente homogéneos, en términos de las características de los entrevistados, pero heterogéneos en términos de los índices de respuesta. Después, estos subgrupos se utilizan para identificar a los sustitutos que son similares a las personas que no respondieron,  pero distintos a las personas que ya contestaron en la muestra. Nótese que esta estrategia no reducirá la tendencia a la falta de respuesta si los sustitutos son similares a las personas que ya respondieron en la muestra.

2. M é to d o d e Ree m p lazo En el método de reemplazo, las personas que no responden la encuesta actual se reemplazan con  personas que no respondieron en una encuesta anterior similar. El investigador trata de establecer contacto con las personas que no respondieron en la encuesta anterior y les aplica la entrevista actual, ofreciéndoles quizá un incentivo adecuado. Es importante que la naturaleza de la No Respuesta en la encuesta actual sea similar al de la encuesta anterior. Ambas encuestas deben utilizar tipos de entrevistados parecidos y el intervalo de tiempo entre estas debe ser breve.

3. M é to d o d e Po n d era c ión La ponderación trata de tomar en cuenta la falta de respuesta al asignar a los datos ponderaciones diferentes dependiendo de los índices de respuesta. Al analizar los datos, se asignan a los estratos  ponderaciones inversamente proporcionales a sus índices de respuesta. A pesar de que la  ponderación puede corregir los efectos diferentes de la falta de respuesta, destruye la naturaleza de autoponderación del diseño de la muestra y puede dar lugar a complicaciones.

4. Mé tod o de Su bm uest reo de n o resp on dient es La submuestra de no respondientes, en especial en el caso de las encuestas por correo, puede ser efectiva para ajustar la tendencia a la falta de respuesta. En esta técnica, el investigador establece contacto con una submuestra de los no respondientes, por lo general mediante entrevistas telefónicas o personales. Con frecuencia, esta técnica da como resultado un indice de respuesta alto dentro de esa submuestra. Los valores que se obtienen para la submuestra se proyecta después a todas las personas que no respondieron y los resultados de la encuesta se ajustan para tomar en cuenta la falta de respuesta.

V

METODOS AVANZADOS

A.M odelos de Respuesta A leator izada En encuestas que tratan “temas delicados”, muchas veces las personas entrevistadas no están dispuestas a responder con honestidad o simplemente señalan una negativa de respuesta. La No Respuesta es tan pronunciada en estos casos. La modalidad de entrevista directa para investigar sobre “temas delicados”, resulta estéril; una solución a este problema puede ser el uso de los

Modelos de Respuesta Aleatorizada. La respuesta aleatorizada es la que da el entrevistado a una  pregunta, la cual fue elegida aleatoriamente, mediante un mecanismo aleatorio (urnas, monedas,  bolas de calores, etc.). Los modelos de respuesta aleatorizada están orientados al logro de dos objetivos: Incrementar la tasa de respuesta Disminuir el sesgo de respuesta  

1. M odelo de Warner En este modelo se busca estimar el parámetro π, proporción de personas que pertenecen a una categoría de interés y comprometedora a la vez, conservando el anonimato de la respuesta dada por el entrevistado. Supongamos que la categoría A, resulta comprometedora para el entrevistado. Una pregunta adecuada será ¿pertenece a la categoría A? la respuesta será SI (pertenece al grupo A) ó NO (no  pertenece al grupo A). El modelo de Warner estima la proporción poblacional de personas que pertenecen al grupo A, a  partir de una muestra seleccionada bajo Muestreo Aleatorio Simple (MAS) con reposición de n  personas. El entrevistador debe usar un mecanismo aleatorio para seleccionar una de dos preguntas, cada uno de los cuales requiere una respuesta SI ó NO por parte del entrevistado, sin revelar al entrevistador su posición personal con respecto a la pregunta. Las dos proposiciones a las que se supone responde correctamente son: 1. Pertenezco al grupo A, representada con probabilidad p 2.  No pertenezco al grupo A, representado con probabilidad 1-p Definamos los siguientes parámetros: n = tamaño de la muestra

π = proporción de elementos de la población que pertenecen al grupo A  p = probabilidad de que el procedimiento aleatorio seleccione la proposición “Pertenece al grupo A”

⎧1 ; si la i - ésima persona responde SI  x i = ⎨ ⎩0 ; si la i - ésima persona reponde NO Luego, P = P(Xi = 1) = π p+(1-π)(1-p) Q = 1 - P = (1-π)p

+ π(1-p)

El estimador insesgado que presenta el modelo de Warner, es: n

∑ x π  ˆw =

La varianza del estimador es:

i

i =1

n( 2 p − 1)

+

( p − 1) ( 2 p − 1)

V (π ˆ w ) =

π (1 − π )

n

+

 p (1 −  p ) n(2 p − 1) 2

Warner observa que la cooperación del entrevistado está en función del grado de “anonimato” y dependerá de p. 



 

Si p=0.5, el estimador de Warner no estará definido y por lo tanto, la muestra no arroja información sobre el parámetro. Si p=1, el estimador de Warner, se reduce a la estimación convencional de π, que requiere que el entrevistado informe sin reserva si pertenece o no al grupo A. Si p=0, el estimador de Warner se reduce a la estimación convencional de (1-π) Warner, basado en su experiencia, propone utilizar un valor de p entre 0.70 y 0.80

El estimador insesgado de la varianza del estimador de π es dado por:

ˆ (π ˆ w ) = V 

1 ⎡



1

n − 1 ⎣16( p − 0.5) 2

− (π  ˆ w − 0.5)

2

⎤ ⎥ ⎦

2. M odelo de Simons Simmons y Horvitz modificaron el modelo de Warner, con el propósito de que el entrevistado tenga una mayor disposición a colaborar, sustituyendo la segunda proposición “No pertenezco al grupo A” por otra pregunta referente a una característica B, no relacionada con A. En consecuencia el entrevistado debe seleccionar a través de un mecanismo aleatorio, una de las siguientes proposiciones a las que se supone responde correctamente. 1. Pertenezco al grupo A 2. Pertenezco al grupo B Los parámetros que se desean estimar son:

πA = proporción de elementos de la población que pertenecen al grupo A πB = proporción de elementos de la población que pertenecen al grupo B Estos dos parámetros se estiman en base a dos muestras aleatorias simples independientes de tamaño n1 y n2 respectivamente. Definimos las variables:

⎧1 ; si la i - ésima persona de la muestra 1 responde SI  x1i = ⎨ ⎩0 ; si la i - ésima persona de la muestra 2 reponde NO ⎧1 ; si la  j - ésima persona de la muestra 1 responde SI  x 2 j = ⎨ ⎩0 ; si la  j - ésima persona de la muestra 2 reponde NO Luego, mediante un proceso de estimación por el método de momentos, obtenemos los estimadores insesgados siguientes:

∑ x

∑ x

1i

(1 −  p2 )

i =1

+ (1 −  p1 )

n1

π  ˆ A =

n2

n1

n2

n1

∑ x

∑ x

1i

2 j

 j =1

 p2

n2

π  ˆ B =

 p1 −  p2

i =1

n1

+  p1

2 j

 j =1

n2

 p 2 −  p1

La Varianza de los estimadores anteriores esta dado mediante la siguiente fórmula:



u1 (1 − u1 )



n1

V (π ˆ A ) = ⎢(1 −  p 2 ) 2



u1 (1 − u1 )



n1

V (π ˆ B ) = ⎢ p 22

+ (1 −  p1 )

2

+  p1

2

u 2 (1 − u 2 ) ⎤ n2

u 2 (1 − u 2 ) ⎤ n2

1

⎥ ( p −  p ) 2 ⎦ 1 2 1

⎥ 2 ⎦ ( p1 − p 2 )

Uno de los problemas en la aplicación del modelo de Simmons, es la elección de los valores  p1y p2. Se sugiere: - Disminución de la varianza - Disposición a colaborar por parte del entrevistado. Para mantener esta disposición se propone que p1+ p2 =1. Moors (1971) demuestra que si en el modelo de Simmmons se escoge p 2=0, se obtiene un diseño más eficiente que el obtenido a través de la elección de p 2 =1-p1 y n1 y n2 con afijación óptima. Lanke (1975) demuestra que, en muchos casos resulta conveniente escoger la característica B de tal forma que πB tome valores “grandes”.

3. M odelo de Gr eenber g Greenberg sugiere una extensión del modelo de la pregunta no correlacionada de Simmons, para variables cuantitativas. Sea X la variable cuantitativa que resulta comprometedor para el entrevistado. Suponemos que la función de densidad de probabilidad de X es g(x). Sea Y la variable cuantitativa no correlacionada y no comprometedora que se supone tiene función de densidad h(y). El entrevistado debe responder a la pregunta sobre la variable “comprometedora” con probabilidad Py a la pregunta sobre la variable no correlacionada con probabilidad (1-P)=Q. Luego el estimador esta relacionado a la variable Z que es la mezcla de X e Y según P y (1-P). Suponemos un MAS con reemplazamiento, entonces la respuesta aleatorizada Z, tiene función de densidad:

f(z)=Pg(z) + Qh(z) Sean z1, z2, ....., zn las respuestas aleatorizadas. Entonces la media y varianza muestral de Z son:

n

∑ z 

n

∑ ( z  − Z )

i

 Z  =

i =1

S  z 2 =

n

2

i

i =1

n −1

El estimador insesgado del parámetro µx es dado por:

 µ  ˆ x =

( Z  − Q µ  y )  P 

cuya varianza es dada por:

V ( µ  ˆ x ) =

V ( Z ) 2

 P 

2

=

σ  z 

nP 2

Luego, un estimador insesgado de esta varianza es dado por:

ˆ ( µ  V  ˆ x ) =

S z 2 nP 2

En algunos casos el valor de µy es desconocido por lo tanto es necesario una estimación del

mismo. Este problema se puede solucionar seleccionando dos muestras aleatorias simples independientes, similar al modelo de Simmons.

B. I mputación de Datos Es un método para ajustar la falta de respuesta al asignar la característica de interés a las personas que no responden con base en la similitud de las variables disponibles tanto para las personas que no respondieron como para quienes si lo hicieron. El procedimiento de imputación de datos, por lo general, se realiza en la etapa de estimación de  parámetros, con el propósito de reemplazar datos faltantes de las unidades que no respondieron para reducir el sesgo de no respuesta.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF