Datos Ausentes y Perdidos
September 21, 2022 | Author: Anonymous | Category: N/A
Short Description
Download Datos Ausentes y Perdidos...
Description
UNIVERSIDAD DE CUENCA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATI ADMINISTRATIVAS. VAS. ESCUELA DE ECONOMÍA
TEMA: DATOS AUSENTES Y VALORES PERDIDOS
INTEGRANTES: CHUQUIMARCA VIVIANA. IDROVO NATALI SANGURIMA LISSETH
DOCENTE: ECO. FABIÁN CORDERO
MATERIA: ESTADÍSTICA IV
CUENCA-ECUADOR
Contenido 1.
INTRODUCCIÓN ..................................................................................................................... ..................................................................................................................... 3
2.
VALORES PERDIDOS Y DATOS ATÍPICOS ................................................................................ ................................................................................ 4 Valores Perdidos ....................................................................................................................... ....................................................................................................................... 4 Tipos de Valores Perdidos ................................................................................... ......................................................................................................... ...................... 4 Causas de los valores perdidos. .......................................................................... ................................................................................................ ...................... 4 Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. .............................. 5 Tratamiento de los Valores Valo res Perdidos. ....................................................................................... ....................................................................................... 5 Aplicación de los Valores Perdidos............................................................................................ 7 Valores Perdidos Diagnostico................................................................... .................................................................................................... ................................. 7
3.
CONCLUSIONES ................................................................................................................... ................................................................................................................... 13
Bibliografía .................................................................................................................................. .................................................................................................................................. 13
2
1. INTRODUCCIÓN En nuestra investigación buscamos realizar un análisis sobre los valores perdidos y los datos atípicos que aparecen frecuentemente en una base de datos. El objetivo es ver que tratamiento se les debe dar para corregir esas faltas y poder realizar un correcto análisis estadístico. La presencia de valores perdidos (información ausente o faltante) es un problema común en cualquier investigación, y no puede ser ignorado en el análisis de datos, pues puede ser de grave repercusión en la pérdida de potencia del análisis, hasta en la aparición de sesgos inaceptables. inaceptables. La eliminación de entes con este problema limita la rrepresentatividad epresentatividad o validez externa de los resultados del estudio, a pesar de que es algo prácticamente inevitable en las investigaciones (Uriel y Aldás 2013). Schafer y Graham (2002) indicaron que las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, sujetos que no asisten a la entrevista o no contestan a determinadas preguntas, o responden con la opción no sabe incorporada en el cuestionario. Por esta y otras razones, los datos perdidos son ubicuos en la investigación. Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la muestra.
3
2. VALORES PERDIDOS Y DATOS ATÍPICOS Valores Perdidos Definición: El proceso de datos ausentes es cualquier evento sistemático
externo al encuestado (tales como errores en la introducción de los datos o problemas de su recolección) qque ue da lugar a la ausencia de de datos. El impacto de los datos ausentes es perjudicial no sólo por sus potenciales sesgos sino también por su efecto en el tamaño de la muestra disponible para el análisis. (Hair, 2000) Tipos de Valores Perdidos Rubín (1976) clasifica los datos perdidos en tres tipos: datos perdidos
completamente al al azar MCAR , datos pe perdidos rdidos al azar MAR y datos perdidos perdidos no debidos a azar NMAR. Se considera que los datos perdidos son MCAR cuando la probabilidad de qué un sujeto presente un valor ausente en una variable no depende ni de la propia variable ni de ninguna otra variable recogida. En cambio, los datos perdidos se consideran MAR cuando la probabilidad de no observar un dato depende de otras variables pero no de los valores de la variable con valores perdidos. Finalmente, los datos perdidos se consideran de tipo NMAR cuando la probabilidad de que un sujeto presente un valor faltante depende de dicha variable con valores perdidos. (Valencia, s.f.) Causas de los valores perdidos. Procesos sistemáticos externos a los sujetos, problemas en la recogida
de datos. Reacciones de los sujetos, principalmente el reusarse a responder generando: Datos ausentes ingnorables, que son sistemáticos y cuya
o
presencia está justificada o explicada ( proceso generador es aleatorio) Otros tipos de datos ausentes, son no sistemáticos y se dan por
o
falta de respuesta a determinadas preguntas ( variables) 4
Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. 1. Valorar los datos ausentes para la única variable Y al formar dos
grupos de observaciones observaciones con datos ausen ausentes tes para y y aquellos aquellos con valores válidos de Y. ( Se realiza una prueba para determinar si existen diferencias significativas y si se encuentra indicaría que existe un proceso de perdida de datos nnoo aleatorio). 2. Una segunda aproximación consistiría en utilizar las correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Las correlaciones indican el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas Correlaciones implican aleatoriedad en el par de variables. a. Si la aleatoriedad es indic indicativa ativa para para todos todos los pares de variables, entonces el investigador puede suponer que los datos ausentes pueden clasificarse como MCAR. b. Si existen correlaciones significativas etre algunos pares de variables, entonces el investigador puede tener que suponer que los datos son solo MAR. c. Finamente se puede realizar un test conjunto de aleatoriedad que determine si los datos aausentes usentes pueden pueden como MCAR. Se estudia el patrón de datos ausentes sobre todas las variables y las compara con el patrón esperado para el proceso de datos ausentes. Si no se encuentra diferencias significativas los datos ausentes pueden ser clasificados como MCAR, caso contrario se tienen que hacer aproximaciones. Tratamiento de los Valores Perdidos. Utilizar solo aquella observación con datos completos: Se incluye
las observaciones solo con datos completos. Esta aproximación deberá solo usarse cuando los datos ausentes son MCAR porque si no lo es incluye datos no aleatorios y los resultados serían sesgados.
Supresión de casos y o variables: Otra solución es suprimir el caso o la variable que peor se comporta respecto a los datos ausentes. El investigador determina el nivel especificado para proceder a la eliminación de la variable. Cuando los datos son no aleatorios se puede trabajar eficientemente, por lo general en las variables dependientes se 5
excluye el caso para evitar cualquier aumento artificial en el poder explicativo del análisis.
Método de imputación: Es un proceso de estimación de valores ausentes, el objetivo es emplear relaciones conocidas que puedan identificarse en los valores validos de la muestra para ayudar a la estimación de valores ausentes. Los métodos de imputación consisten en estimar los valores ausentes en base a los valores válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de la información del conjunto completo de variables o bien de algunas variables especialmente seleccionadas. seleccionada s. Usualmente los métodos de imputación se utilizan con variables métricas (de intervalo o de razón), y deben aplicarse con gran precaución porque pueden introducir relaciones inexistentes en los datos reales. Principales procedimientos: Sustitución por la Media. Consiste en sustituir el valor ausente
o
por la Media de los valores valores válidos. Este procedimiento procedimiento plantea inconvenientes como:
Dificulta la estimación de la Varianza
Distorsiona la verdadera distribución de la variable,
Distorsiona la correlación entre variables dado que añade valores constantes.
Sustitución por constante. Consiste en sustituir los valores
o
ausentes por constantes cuyo valor viene determinado por razones teóricas o relacionadas con la investigación previa. Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser utilizado si hay razones para suponer que es más adecuado que el método de la media. 6
Imputación por regresión. Este método consiste en estimar los
o
valores ausentes en base a su relación con otros variables mediante Análisis de Regresión. Inconvenientes:
Incrementa artificialmente las relaciones entre variables.
Hace que se se subestime la Varianza Varianza de las distribuciones. distribuciones.
Asume que las variables con datos ausentes tienen relación de alta magnitud con las otras variables.
Aplicación de los Valores Perdidos Un investigador desea saber saber acerca de las Pymes de Cuenca cual cual es su: nivel
de ingresos promedio, promedio, número de cclientes lientes que los visitan al me mess y su edad promedio de operaciones de acuerdo a sus actividad sectorial que pertenece cada empresa, junto a estas preguntas se hicieron otra como número de trabajadores tanto mujeres como hombres remunerados de acuerdo a la pyme donde laboran. Valores Perdidos Diagnostico El siguiente paso es examinar las pautas de datos ausentes y determinar si los
datos ausentes se distribuyen aleatoriamente a través de los casos y de las variables. El primer test para evaluar la aleatoriedad es comparar las observaciones con o sin datos ausentes para cada variable en función de las otras variables con una prueba T para ver v er si existen diferencias significativas. Estadísticos univariados univariados N
Media
Desviación típ.
No de extremosa
Perdidos Recuento
Porcentaje
Bajos
Altos
Ingresopromediomesual Ingresopromed iomesual
81
2423,16
2406,064
19
19,0
0
0
EdadPromedioPymes
89
20,79
81,421
11
11,0
0
4
Visitadeclientes Visitadecliente s
88
416,88
435,175
12
12,0
0
3
SectorActividad
100
0
,0
7
a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).
F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Un factor para aliviar algunos de los altos niveles de datos ausentes para ciertas variables es la eliminación de los casos del análisis. Pero nuestro caso no existen niveles altos de % de datos ausentes por lo tanto tomo otros método. Podemos ver que los 100 casos originales ninguno sobrepasaba más de 90% de error en sus variables por lo tanto no han sido excluidas del análisis. Con las variables trabajadas se ha puesto intencionalmente datos ausentes para realizar el análisis de ausencia de datos.
Evaluación de la aleatorieda aleatoriedad d de los datos ausentes a travé travéss de comparaciones de grupos de observaciones con datos ausentes frente a datos válidos. Pruebas T con varianzas separadas separadas Ingresopromediomes
EdadPromedioPyme
ual
s
Visitadeclientes
t
.
-1,0
,4
gl
.
17,0
17,6
P(bilateral)
.
,331
,679
81
71
73
0
18
15
2423,16
12,20
427,42
.
54,67
365,53
-,2
.
,8
gl
11,3
.
16,9
P(bilateral)
,867
.
,463
no presente
71
89
77
no perdido
10
0
11
Media(Presentes)) Media(Presentes
2405,06
20,79
426,84
Media(Perdidos)
2551,70
.
347,09
1,8
-1,0
.
gl
12,8
11,0
.
Visitadecliente
P(bilateral)
,089
,360
.
s
no presente
73
77
88
8
12
0
2525,42
12,57
416,88
Ingresoprome
no presente
diomesual no perdido Media(Presentes)) Media(Presentes Media(Perdidos) t
EdadPromedio Pymes
t
no perdido Media(Presentes)) Media(Presentes
8
Media(Perdidos)
1490,00
73,50
.
Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (presente, perdido).
a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.
F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
La siguiente tabla contiene los resultados aplicando el test con la prueba T, aquí nos muestra si existe diferencias significativas entre los distintos pares de variables. El segundo test de aleatoriedad implica el uso de correlaciones entre variables dicotómicas. La varíales dicotómicas se forman al reemplazar los valores validos por y los datos ause ausentes ntes por cero. Las correla correlaciones ciones resultantes entre entre las variables dicotómicas indican la medida en que los datos ausentes están relacionados entre pares de variables. Una correlación baja indica una baja asociación entre los procesos de ausencia de datos para están dos variables.
Evaluación de la aleatoriedad de los datos ausentes a través de correlaciones de una variable dicotomizada dicotomizada y el test
multivalente par paraa la aausencia usencia
completamente aleatoria (MCAR). Correlaciones Correlacione s de EMa,b
Ingresopromediomesual Visitadeclientes Visitadecliente s EdadPromedioPymes
Ingresoprome
Visitadeclient
EdadPromedi
diomesual
es
oPymes
1 ,464
1
-,070
-,207
1
a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003 b. El algoritmo EM no ha logrado converger en 25 iteraciones.
F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
9
Covarianzas de EMa,b Ingresopromedi
Visitadecliente
EdadProm
omesual
s
edioPymes
Ingresopromediomesual
5922132,205
Visitadeclientes Visitadecliente s
497682,524
194211,916
EdadPromedioPymes
-13778,289
-7409,519
6612,464
a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003 b. El algoritmo EM no ha logrado converger en 25 iteraciones.
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo Correlaciones según pareja
Ingresopro
Visitadecli
EdadProm
mediomes
entes
edioPyme
ual Ingresopromediomesual
s 1
Visitadeclientes Visitadecliente s EdadPromedioPymes
,455
1
-,092
-,147
1
F uente:B e:B de dratos os SP SPSS R uent eali ealiza zado doase por pord : eGdat upo deSS Tr abajo abajo
Covarianzas según pareja
Ingresopromedi
Visitadecliente
EdadProm
omesual
s
edioPymes
Ingresopromediomesual
5789145,961
Visitadeclientes Visitadecliente s EdadPromedioPymes
467768,123
189376,892
-2231,097
-715,818
6629,306
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Covarianzas según lista
Ingresopromedio
EdadProme
mesual
dioPymes
Ingresopromediomesual
Visitadeclientes
6182168,967
EdadPromedioPymes Visitadeclientes Visitadecliente s
-2248,042
105,633
528827,638
-613,616
183709,208
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de T r abajo abajo
Correlaciones Correlacione s según lista
10
Ingresoprom
EdadPromedi
Visitadeclient
ediomesual
oPymes
es
Ingresopromediomesual
1
EdadPromedioPymes Visitadeclientes Visitadecliente s
-,088
1
,496
-,139
1
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Resumen de las medias estimadas
Ingresoprom
EdadPromedi
Visitadeclient
ediomesual
oPymes
es
Todos los valores
2423,16
20,79
416,88
EM
2385,71
21,09
402,17
Regresión
2401,55
20,02
417,03
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Resumen de las desviaciones desviaciones típicas estimadas
Ingresoprome
EdadPromedi
Visitadeclient
diomesual
oPymes
es
Todos los valores
2406,064
81,421
435,175
EM
2433,543
81,317
440,695
Regresión
2458,083
76,882
424,518
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Covarianzas de regresión
Ingresopromediomesual
Ingresopromedio
EdadPromedi
mesual
oPymes
Visitadeclientes
6042173,968
EdadPromedioPymes Visitadeclientes Visitadecliente s
3601,647
5910,848
440184,123
-3254,422
180215,473
a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente. aleatoriamente.
F uente: B ase de dato datoss SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
Correlaciones de regresión
11
Ingresopromediomesual
Ingresoprom
EdadPromedi
Visitadeclient
ediomesual
oPymes
es
1
EdadPromedioPymes
,019
1
Visitadeclientes Visitadecliente s
,422
-,100
1
a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente. aleatoriamente.
F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo
12
3. CONCLUSIONES La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. L Laa eliminación de sujetos con con características especiales limita la representatividad o validez externa de los resultados del estudio.
Bibliografía El teorema del límite central: las medias de muestras grandes y aleatorias son aproximadamente normales. (2017). Obtenido de Minnitab:
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basicstatistics/supporting-topics/data-concepts/about-the-central-limit-theorem/ Hair, A. T. (2000). Análisis Multivariante. Madrid: András Otero. Valencia, U. d. (s.f.). Datos Perdidos. Obtenido de https://www.uv.es/webgid/Descriptiva/index.html
13
View more...
Comments