Distribución de muestreo.docx
Short Description
Download Distribución de muestreo.docx...
Description
DISTRIBUCIONES DISTRIBUCIONES MUESTRALES Concepto básicos Población. Desde
el punto de vista estadístico, una población corresponde a la totalidad de observaciones que conforman nuestro universo de
estudio. Ejemplo de ello lo vemos a diario a nuestro alrededor, la cantidad de vehículos en la ciudad, el número de pacientes que son atendidos en un centro hospitalario, el trabajadores de una empresa, los estudiantes de una institución educativa, el número de artículos, etc. Cada una de estas poblaciones se puede obtener un número finito o infinito de observaciones, observaciones, con la finalidad de estudiar o analizar una determinada variable aleatoria: peso, altura, tipo de enfermedad, número de artículos defectuosos, etc. Cada observación en una población es un valor de una variable aleatoria X que tiene alguna distribución de probabilidad f ( x x). Si se inspeccionan artículos que salen de una línea de ensamble para buscar defectos, entonces cada observación en la población podría ser un valor 0 o 1 de la variable aleatoria X de Bernoulli , , con una distribución de probabilidad b( x x; 1 , p ) = p x q 1− x , x = 0, 1, donde 0 indica un artículo sin defecto y 1 indica un artículo defectuoso. De hecho, se supone que p, la probabilidad de que cualquier articulo este defectuoso, permanece constante de una prueba a otra. Otro ejemplo sería el peso de los estudiantes, cuyos valores corresponden a una variable aleatoria continua que quizás tome una distribución normal. De ahora en adelante, cuando nos refiramos a una “ población binomial”, a una “ población normal” o, en general, a la “ población f ( x x)”, aludiremos a una población cuyas observaciones observaciones son valores de una variable aleatoria que tiene una distribución binomial, una distribución normal o la distribución de probabilidad f ( x distribución de probabilidad también se les x). Por ello, a la media y a la varianza de una variable aleatoria o distribución denomina la media y la varianza de la población correspondiente, también podemos identificarlos identificarlos como parámetros ( ).
En el campo de la inferencia estadística, el estadístico (o investigador) se interesa en llegar a conclusiones respecto a una población, cuando es imposible o poco práctico conocer todo el conjunto de observaciones observaciones que la constituyen. Por ejemplo, al intentar intentar determinar la longitud de la vida promedio de cierta marca de bombilla, bombilla, sería imposible probarlas todas todas si tenemos que dejar algunas para venderlas. venderlas. Los costos desmesurados desmesurados que implicaría estudiar a toda la población también constituirían un factor que impediría hacerlo. Por lo tanto, debemos depender de un subconjunto subconjunto de observaciones de la población que nos ayude a realizar inferencias respecto a ella. Esto nos lleva a considerar el concepto de muestreo. Muestra. Es un subconjunto o parte de la población objeto de estudio.
Para que las inferencias que hacemos sobre la población a partir de la muestra sean válidas, debemos obtener muestras que sean representativas de ella. Es decir, debemos seleccionar aleatoriamente a los sujetos para evitar inferencias erróneas respecto a la población. Se dice que cualquier procedimiento de muestreo que produzca inferencias que sobreestimen o subestimen subestimen de forma consistente alguna característica de la población esta sesgado. Para eliminar cualquier posibilidad de sesgo en el procedimiento de muestreo es deseable elegir una muestra aleatoria , lo cual significa que las observaciones se realicen de forma independiente y al azar. Para seleccionar una muestra aleatoria de tamaño n de una población f ( x x) definimos la variable aleatoria Xi, i = 1, 2,..., n, que representa la i-ésima medición o valor de la muestra que observamos. Si las mediciones se obtienen repitiendo el experimento n veces independientes en, esencialmente, las mismas condiciones, las variables aleatorias X 1, X 2,..., Xn constituirán entonces una muestra aleatoria de la población f ( x x) con valores numéricos x1, x2,..., xn. Debido a las condiciones idénticas en las que se seleccionan los elementos de la muestra, es razonable suponer que 1
las n variables aleatorias X 1, X 2,..., Xn son independientes y que cada una tiene la misma distribución de probabilidad f ( x x). Es decir, las distribuciones de probabilidad de X 1, X 2,..., Xn son, respectivamente, respectivamente, f ( x x1), f ( x x2),..., f ( x xn), y su distribución de probabilidad conjunta es f ( x x1, x2, …, ) = ( 1 ) ( 2) ( ). xn f x x f x x f x x n ・
・
・
Muestra aleatoria .
Una muestra aleatoria aleatoria de una población X es una sucesión sucesión X 1 , X 2 ,…Xn, de n variables aleatorias independientes independientes e igualmente distribuidas (tienen la misma función de densidad).
Por ejemplo, si se realiza una selección aleatoria de n = 8 baterías de almacenamiento de un proceso de fabricación que mantiene las mismas especificaciones, y al registrar la duración de cada batería se encuentra que la primera medición x1 es un valor de X 1, la segunda medición x2 es un valor de X 2, y así sucesivamente, sucesivamente, entonces x1, x2,..., x8 son los valores de la muestra aleatoria X 1, X 2,..., X 8. Si suponemos que la población de vidas útiles de las baterías es normal, los valores posibles de cualquier Xi, i = 1, 2,..., 8 serán exactamente los mismos que los de la población original, por consiguiente, consiguiente, Xi tiene una distribución normal idéntica a la de X . Nota. Cuando se dice que las variables X 1, X 2,..., Xn tienen la misma distribución distribución debe entenderse que tiene la misma función de densidad y por tanto la misma media y la misma varianza. Con esta sucesión de variables aleatorias X 1, X 2,..., Xn se pueden llevar a cabo operaciones aritméticas. Tipos de muestra aleatoria
Muestra aleatoria simple se selecciona directo cuando todas las potenciales observaciones de la población son equiponderables. Una muestra auto-ponderada, es aquella en la que cada individuo o un objeto, en la población de interés tienen la misma oportunidad de ser seleccionadas para la muestra. Las muestras aleatorias simples son auto-ponderadas. El muestreo estratificado implica seleccionar muestras independientes de un número de subpoblaciones, grupo o estratos dentro de la población. Por ejemplo, si queremos analizar los datos de unas elecciones por género o por grupo de edad, deberemos cerciorarnos de obtener muestras representativas de todas las subpoblaciones. El muestreo por clusters, consiste en seleccionar las observaciones de la muestra por grupos con intereses relacionados. relacionados. Por ejemplo, si se plantea conocer la opinión pública pública de un trasvase en un rio, deberemos hacer dos clusters aquello de la zona beneficiada (reciben el agua del rio) y aquellos de la zona perjudicada (tendrán menos caudal en el rio). El análisis de muestras por cluster debe tener en cuenta la correlación intra-grupo que refleja el hecho de que las unidades en la misma agrupación es probable que sean más similares que dos unidades escogido al azar.
¿Por qué la selección de la muestras aleatorias?
El principal propósito al seleccionar muestras aleatorias es obtener información acerca de los parametros desconocidos de la población. Así por ejemplo, si deseamos averiguar cuál es el rendimiento académico de los estudiantes de una determinada universidad, universidad, sería imposible tomar toda la población, ya sea por cuestiones cuestiones de tiempo o económico, económico, entonces seleccionamos seleccionamos una muestra aleatoria aleatoria representativa representativa de estudiantes para estimar algunos de los parámetros (por ejemplo: media aritmética ( , varianza ( o proporción ( )) a través de sus estadísticos ( ) como media muestral ( ), varianza muestral ( S 2) y proporción ( ). ). De tal manera que el cálculo de algunos de estos estadísticos o estimadores permiten hacer una inferencia respecto al parámetro seleccionado.
̂
Ahora, es una función de los valores observados en la muestra aleatoria; ya que es posible tomar muchas muestras aleatorias de la misma 2
población, esperaríamos que variara un poco de una a otra muestra. Es decir, Tal variable aleatoria se llama estadístico.
es un valor de una variable aleatoria que representamos con
.
Un estadístico es cualquier fórmula matemática que relaciona las variables de una muestra aleatoria X 1, X 2,..., Xn y que no incluye constantes desconocidas. Ejemplo de ello son las fórmulas estadísticas de la media muestral y varianza muestral (cuasi varianza). Ejercicio de repaso. El tiempo, en minutos, que 10 pacientes esperan en un consultorio médico antes de recibir tratamiento se registraron como sigue: 5, 11, 9, 5, 10, 15, 6, 10, 5 y 10. Trate los datos como una muestra aleatoria y calcule: media, mediana, moda, varianza y desviación estándar.
Estimación. Una estimación estadística es cualquier técnica para
conocer un valor aproximado de un parámetro referido a la población, a partir de los estadísticos muéstrales calculados a partir de los elementos de la muestra. Si se estima el suficiente número de parámetros puede aproximarse de manera razonable la distribución de probabilidad de la población para ciertas variables aleatorias. Así que los estadísticos ( ) son variables aleatorias, por ello es de esperarse que tengan asociadas distribuciones denominadas: distribuciones
muéstrales o de muestro.
3
DISTRIBUCIONES MUESTRALES
Las muestras aleatorias obtenidas de una población son, por naturaleza propia, impredecibles. No se esperaría que dos muestras aleatorias del mismo tamaño y tomadas de la misma población tenga la misma media muestral o que sean completamente parecidas; puede esperarse que cualquier estadístico, como la media muestral, calculado a partir de las medias en una muestra aleatoria, cambie su valor de una muestra a otra, por ello, se quiere estudiar la distribución de todos los valores posibles de un estadístico. Tales distribuciones serán muy importantes en el estudio de la estadística inferencial, porque las inferencias sobre las poblaciones se harán usando estadísticas muéstrales. Como el análisis de las distribuciones asociadas con los estadísticos muéstrales, podremos juzgar la confiabilidad de un estadístico muestral como un instrumento para hacer inferencias sobre un parámetro poblacional desconocido. Como los valores de un estadístico, tal como x, varían de una muestra aleatoria a otra, se le puede considerar como una variable aleatoria con su correspondiente distribución de frecuencias. La distribución de frecuencia de un estadístico muestral se denomina distribución muestral. En general, la distribución muestral de un estadístico es la de todos sus valores posibles calculados a partir de muestras del mismo tamaño. Distribución muestral . Es la distribución de probabilidad de un estadístico.
La distribución muestral de un estadístico depende de la distribución de la población, del tamaño de las muestras y del método de selección de las muestras. La distribución de probabilidad de se llama distribución muestral de la media . Si sacamos muestras aleatorias de tamaño n de una población con media µ y desviación estándar σ, entonces la distribución muestral de la media muestral tiene las siguientes propiedades: 1. El promedio de todos los valores posibles de medias muestrales es igual al parámetro µ. En otras palabras, la media muestral X es un estimador insesgado de µ. 2. La varianza es
[ ]
̅ ̅ √
3. Error estándar de la media muestral: Es la desviación estándar de las posibles medias muestrales.
El error estándar disminuye si el tamaño de la muestra aumenta.
̅ ̅ √
Esto es porque, sea X 1 , X 2 ,…X n una muestra aleatoria proveniente de una población de media
4
y varianza. Si
es la media muestral, entonces:
̅ √ ⇒̅ √ ⇒̅ √
A partir de la varianza de , media.
se obtiene la desviación estándar de
, dada por
̅ √
que recibe el nombre de desviación estándar de la
4.Si la población original tiene distribución Normal, entonces para cualquier tamaño muestral n la distribución de la media muestral es también ~N (µ; ) Normal: Si X ~ N( µ, σ)
5.Si la población de origen no es Normal, pero n es “suficientemente” grande la distribución de la media muestral es aproxima damente Normal: Aún si X no es: N( µ, σ) ~N (µ; ) Nota: - Un tamaño de 30 es considerado suficiente. - El resultado en (5) se conoce como el Teorema del Límite Central. Si es la media de una muestra aleatoria de tamaño n, tomada de una población con media μ y varianza finita σ 2, entonces la forma límite de la distribución de: Teorema del límite central:
A medida que n → ∞, es la distribución normal estándar n( z ; 0, 1).
√
Ejercicio. Una empresa de material eléctrico fabrica bombillas que tienen una duración que se distribuye aproximadamente en forma normal, con media de 800 horas y desviación estándar de 40 horas. Calcule la probabilidad de que una muestra aleatoria de 16 bombillas tenga una vida promedio de menos de 775 horas.
√ 775800 40√ 16 2,5
P ( < 775) = P ( Z
View more...
Comments