Datos Ausentes y Perdidos

September 21, 2022 | Author: Anonymous | Category: N/A

Share Embed Donate

Report this link

Short Description

Download Datos Ausentes y Perdidos...

Description

UNIVERSIDAD DE CUENCA FACULTAD DE CIENCIAS ECONÓMICAS Y ADMINISTRATI ADMINISTRATIVAS. VAS. ESCUELA DE ECONOMÍA

TEMA: DATOS AUSENTES Y VALORES PERDIDOS

INTEGRANTES: CHUQUIMARCA VIVIANA. IDROVO NATALI SANGURIMA LISSETH

DOCENTE: ECO. FABIÁN CORDERO

MATERIA: ESTADÍSTICA IV

CUENCA-ECUADOR

Contenido 1.

INTRODUCCIÓN ..................................................................................................................... ..................................................................................................................... 3

2.

VALORES PERDIDOS Y DATOS ATÍPICOS ................................................................................ ................................................................................ 4 Valores Perdidos ....................................................................................................................... ....................................................................................................................... 4 Tipos de Valores Perdidos ................................................................................... ......................................................................................................... ...................... 4 Causas de los valores perdidos. .......................................................................... ................................................................................................ ...................... 4 Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. .............................. 5 Tratamiento de los Valores Valo res Perdidos. ....................................................................................... ....................................................................................... 5 Aplicación de los Valores Perdidos............................................................................................ 7 Valores Perdidos Diagnostico................................................................... .................................................................................................... ................................. 7

3.

CONCLUSIONES ................................................................................................................... ................................................................................................................... 13

Bibliografía .................................................................................................................................. .................................................................................................................................. 13

2

1. INTRODUCCIÓN En nuestra investigación buscamos realizar un análisis sobre los valores perdidos y los datos atípicos que aparecen frecuentemente en una base de datos. El objetivo es ver que tratamiento se les debe dar para corregir esas faltas y poder realizar un correcto análisis estadístico. La presencia de valores perdidos (información ausente o faltante) es un problema común en cualquier investigación, y no puede ser ignorado en el análisis de datos, pues puede ser de grave repercusión en la pérdida de potencia del análisis, hasta en la aparición de sesgos inaceptables. inaceptables. La eliminación de entes con este problema limita la rrepresentatividad epresentatividad o validez externa de los resultados del estudio, a pesar de que es algo prácticamente inevitable en las investigaciones (Uriel y Aldás 2013). Schafer y Graham (2002) indicaron que las razones para la ausencia de datos pueden ser diversas: fallos en los instrumentos de medida, sujetos que no asisten a la entrevista o no contestan a determinadas preguntas, o responden con la opción no sabe incorporada en el cuestionario. Por esta y otras razones, los datos perdidos son ubicuos en la investigación. Los datos faltantes aleatorios pueden perturbar el análisis de datos dado que disminuyen el tamaño de las muestras y en consecuencia la potencia de las pruebas de contraste de hipótesis. Los datos faltantes no aleatorios ocasionan, además, disminución de la representatividad de la muestra.

3

2. VALORES PERDIDOS Y DATOS ATÍPICOS Valores Perdidos Definición: El proceso de datos ausentes es cualquier evento sistemático

externo al encuestado (tales como errores en la introducción de los datos o problemas de su recolección) qque ue da lugar a la ausencia de de datos. El impacto de los datos ausentes es perjudicial no sólo por sus potenciales sesgos sino también por su efecto en el tamaño de la muestra disponible para el análisis. (Hair, 2000) Tipos de Valores Perdidos Rubín (1976) clasifica los datos perdidos en tres tipos: datos perdidos

completamente al al azar MCAR , datos pe perdidos rdidos al azar MAR y datos perdidos perdidos no debidos a azar NMAR. Se considera que los datos perdidos son MCAR cuando la probabilidad de qué un sujeto presente un valor ausente en una variable no depende ni de la propia variable ni de ninguna otra variable recogida. En cambio, los datos perdidos se consideran MAR cuando la probabilidad de no observar un dato depende de otras variables pero no de los valores de la variable con valores perdidos. Finalmente, los datos perdidos se consideran de tipo NMAR cuando la probabilidad de que un sujeto presente un valor faltante depende de dicha variable con valores perdidos. (Valencia, s.f.) Causas de los valores perdidos. Procesos sistemáticos externos a los sujetos, problemas en la recogida

de datos. Reacciones de los sujetos, principalmente el reusarse a responder generando: Datos ausentes ingnorables, que son sistemáticos y cuya

o

presencia está justificada o explicada ( proceso generador es aleatorio) Otros tipos de datos ausentes, son no sistemáticos y se dan por

o

falta de respuesta a determinadas preguntas ( variables) 4

Diagnóstico de aleatoriedad en el proceso de pérdida de observaciones. 1. Valorar los datos ausentes para la única variable Y al formar dos

grupos de observaciones observaciones con datos ausen ausentes tes para y y aquellos aquellos con valores válidos de Y. ( Se realiza una prueba para determinar si existen diferencias significativas y si se encuentra indicaría que existe un proceso de perdida de datos nnoo aleatorio). 2. Una segunda aproximación consistiría en utilizar las correlaciones dicotomizadas para evaluar la correlación de los datos ausentes en cualquier par de valores. Las correlaciones indican el grado de asociación entre los valores perdidos sobre cada par de variables. Bajas Correlaciones implican aleatoriedad en el par de variables. a. Si la aleatoriedad es indic indicativa ativa para para todos todos los pares de variables, entonces el investigador puede suponer que los datos ausentes pueden clasificarse como MCAR. b. Si existen correlaciones significativas etre algunos pares de variables, entonces el investigador puede tener que suponer que los datos son solo MAR. c. Finamente se puede realizar un test conjunto de aleatoriedad que determine si los datos aausentes usentes pueden pueden como MCAR. Se estudia el patrón de datos ausentes sobre todas las variables y las compara con el patrón esperado para el proceso de datos ausentes. Si no se encuentra diferencias significativas los datos ausentes pueden ser clasificados como MCAR, caso contrario se tienen que hacer aproximaciones. Tratamiento de los Valores Perdidos. Utilizar solo aquella observación con datos completos: Se incluye

las observaciones solo con datos completos. Esta aproximación deberá solo usarse cuando los datos ausentes son MCAR porque si no lo es incluye datos no aleatorios y los resultados serían sesgados.

Supresión de casos y o variables: Otra solución es suprimir el caso o la variable que peor se comporta respecto a los datos ausentes. El investigador determina el nivel especificado para proceder a la eliminación de la variable. Cuando los datos son no aleatorios se puede trabajar eficientemente, por lo general en las variables dependientes se 5

excluye el caso para evitar cualquier aumento artificial en el poder explicativo del análisis.

Método de imputación: Es un proceso de estimación de valores ausentes, el objetivo es emplear relaciones conocidas que puedan identificarse en los valores validos de la muestra para ayudar a la estimación de valores ausentes. Los métodos de imputación consisten en estimar los valores ausentes en base a los valores válidos de otras variables y/o casos de la muestra. La estimación se puede hacer a partir de la información del conjunto completo de variables o bien de algunas variables especialmente seleccionadas. seleccionada s. Usualmente los métodos de imputación se utilizan con variables métricas (de intervalo o de razón), y deben aplicarse con gran precaución porque pueden introducir relaciones inexistentes en los datos reales. Principales procedimientos: Sustitución por la Media. Consiste en sustituir el valor ausente

o

por la Media de los valores valores válidos. Este procedimiento procedimiento plantea inconvenientes como: 

Dificulta la estimación de la Varianza



Distorsiona la verdadera distribución de la variable,



Distorsiona la correlación entre variables dado que añade valores constantes.

Sustitución por constante. Consiste en sustituir los valores

o

ausentes por constantes cuyo valor viene determinado por razones teóricas o relacionadas con la investigación previa. Presenta los mismos inconvenientes que la sustitución por la Media, y solo debe ser utilizado si hay razones para suponer que es más adecuado que el método de la media. 6

Imputación por regresión. Este método consiste en estimar los

o

valores ausentes en base a su relación con otros variables mediante Análisis de Regresión. Inconvenientes: 

Incrementa artificialmente las relaciones entre variables.



Hace que se se subestime la Varianza Varianza de las distribuciones. distribuciones.



Asume que las variables con datos ausentes tienen relación de alta magnitud con las otras variables.

Aplicación de los Valores Perdidos Un investigador desea saber saber acerca de las Pymes de Cuenca cual cual es su: nivel

de ingresos promedio, promedio, número de cclientes lientes que los visitan al me mess y su edad promedio de operaciones de acuerdo a sus actividad sectorial que pertenece cada empresa, junto a estas preguntas se hicieron otra como número de trabajadores tanto mujeres como hombres remunerados de acuerdo a la pyme donde laboran. Valores Perdidos Diagnostico El siguiente paso es examinar las pautas de datos ausentes y determinar si los

datos ausentes se distribuyen aleatoriamente a través de los casos y de las variables. El primer test para evaluar la aleatoriedad es comparar las observaciones con o sin datos ausentes para cada variable en función de las otras variables con una prueba T para ver v er si existen diferencias significativas. Estadísticos univariados univariados N

Media

Desviación típ.

No de extremosa

Perdidos Recuento

Porcentaje

Bajos

Altos

Ingresopromediomesual Ingresopromed iomesual

81

2423,16

2406,064

19

19,0

0

0

EdadPromedioPymes

89

20,79

81,421

11

11,0

0

4

Visitadeclientes Visitadecliente s

88

416,88

435,175

12

12,0

0

3

SectorActividad

100

0

,0

7

a. Número de casos fuera del rango (C1 - 1.5*AIC, C3 + 1.5*AIC).

F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Un factor para aliviar algunos de los altos niveles de datos ausentes para ciertas variables es la eliminación de los casos del análisis. Pero nuestro caso no existen niveles altos de % de datos ausentes por lo tanto tomo otros método. Podemos ver que los 100 casos originales ninguno sobrepasaba más de 90% de error en sus variables por lo tanto no han sido excluidas del análisis. Con las variables trabajadas se ha puesto intencionalmente datos ausentes para realizar el análisis de ausencia de datos.

Evaluación de la aleatorieda aleatoriedad d de los datos ausentes a travé travéss de comparaciones de grupos de observaciones con datos ausentes frente a datos válidos. Pruebas T con varianzas separadas separadas Ingresopromediomes

EdadPromedioPyme

ual

s

Visitadeclientes

t

.

-1,0

,4

gl

.

17,0

17,6

P(bilateral)

.

,331

,679

81

71

73

0

18

15

2423,16

12,20

427,42

.

54,67

365,53

-,2

.

,8

gl

11,3

.

16,9

P(bilateral)

,867

.

,463

no presente

71

89

77

no perdido

10

0

11

Media(Presentes)) Media(Presentes

2405,06

20,79

426,84

Media(Perdidos)

2551,70

.

347,09

1,8

-1,0

.

gl

12,8

11,0

.

Visitadecliente

P(bilateral)

,089

,360

.

s

no presente

73

77

88

8

12

0

2525,42

12,57

416,88

Ingresoprome

no presente

diomesual no perdido Media(Presentes)) Media(Presentes Media(Perdidos) t

EdadPromedio Pymes

t

no perdido Media(Presentes)) Media(Presentes

8

Media(Perdidos)

1490,00

73,50

.

Para cada variable cuantitativa, los pares de grupos están formados por variables indicador (presente, perdido).

a. Las variables indicador con menos del 5% de los valores perdidos no se muestran.

F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

La siguiente tabla contiene los resultados aplicando el test con la prueba T, aquí nos muestra si existe diferencias significativas entre los distintos pares de variables. El segundo test de aleatoriedad implica el uso de correlaciones entre variables dicotómicas. La varíales dicotómicas se forman al reemplazar los valores validos por y los datos ause ausentes ntes por cero. Las correla correlaciones ciones resultantes entre entre las variables dicotómicas indican la medida en que los datos ausentes están relacionados entre pares de variables. Una correlación baja indica una baja asociación entre los procesos de ausencia de datos para están dos variables.

Evaluación de la aleatoriedad de los datos ausentes a través de correlaciones de una variable dicotomizada dicotomizada y el test

multivalente par paraa la aausencia usencia

completamente aleatoria (MCAR). Correlaciones Correlacione s de EMa,b

Ingresopromediomesual Visitadeclientes Visitadecliente s EdadPromedioPymes

Ingresoprome

Visitadeclient

EdadPromedi

diomesual

es

oPymes

1 ,464

1

-,070

-,207

1

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003 b. El algoritmo EM no ha logrado converger en 25 iteraciones.

F uent uente:B e:B ase de datos datos SP SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

9

Covarianzas de EMa,b Ingresopromedi

Visitadecliente

EdadProm

omesual

s

edioPymes

Ingresopromediomesual

5922132,205

Visitadeclientes Visitadecliente s

497682,524

194211,916

EdadPromedioPymes

-13778,289

-7409,519

6612,464

a. Prueba MCAR de Little: Chi-cuadrado = 23,037, GL = 8, Sig. = ,003 b. El algoritmo EM no ha logrado converger en 25 iteraciones.

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo Correlaciones según pareja

Ingresopro

Visitadecli

EdadProm

mediomes

entes

edioPyme

ual Ingresopromediomesual

s 1

Visitadeclientes Visitadecliente s EdadPromedioPymes

,455

1

-,092

-,147

1

F uente:B e:B de dratos os SP SPSS R uent eali ealiza zado doase por pord : eGdat upo deSS Tr abajo abajo

Covarianzas según pareja

Ingresopromedi

Visitadecliente

EdadProm

omesual

s

edioPymes

Ingresopromediomesual

5789145,961

Visitadeclientes Visitadecliente s EdadPromedioPymes

467768,123

189376,892

-2231,097

-715,818

6629,306

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Covarianzas según lista

Ingresopromedio

EdadProme

mesual

dioPymes

Ingresopromediomesual

Visitadeclientes

6182168,967

EdadPromedioPymes Visitadeclientes Visitadecliente s

-2248,042

105,633

528827,638

-613,616

183709,208

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de T r abajo abajo

Correlaciones Correlacione s según lista

10

Ingresoprom

EdadPromedi

Visitadeclient

ediomesual

oPymes

es

Ingresopromediomesual

1

EdadPromedioPymes Visitadeclientes Visitadecliente s

-,088

1

,496

-,139

1

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Resumen de las medias estimadas

Ingresoprom

EdadPromedi

Visitadeclient

ediomesual

oPymes

es

Todos los valores

2423,16

20,79

416,88

EM

2385,71

21,09

402,17

Regresión

2401,55

20,02

417,03

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Resumen de las desviaciones desviaciones típicas estimadas

Ingresoprome

EdadPromedi

Visitadeclient

diomesual

oPymes

es

Todos los valores

2406,064

81,421

435,175

EM

2433,543

81,317

440,695

Regresión

2458,083

76,882

424,518

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Covarianzas de regresión

Ingresopromediomesual

Ingresopromedio

EdadPromedi

mesual

oPymes

Visitadeclientes

6042173,968

EdadPromedioPymes Visitadeclientes Visitadecliente s

3601,647

5910,848

440184,123

-3254,422

180215,473

a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente. aleatoriamente.

F uente: B ase de dato datoss SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

Correlaciones de regresión

11

Ingresopromediomesual

Ingresoprom

EdadPromedi

Visitadeclient

ediomesual

oPymes

es

1

EdadPromedioPymes

,019

1

Visitadeclientes Visitadecliente s

,422

-,100

1

a. Se añade a cada estimación el residuo de un caso elegido aleatoriamente. aleatoriamente.

F uent uente:B e:B ase d de e dat datos os SP SPSS SS R eali ealiza zado do por por : G r upo de Tr abajo abajo

12

3. CONCLUSIONES La presencia de valores perdidos (información ausente o faltante) es un problema común a cualquier investigación y no puede ser ignorado en el análisis de datos. Ignorar los datos ausentes puede tener repercusiones graves que van desde la perdida de potencia del estudio hasta la aparición de sesgos inaceptables. L Laa eliminación de sujetos con con características especiales limita la representatividad o validez externa de los resultados del estudio.

Bibliografía El teorema del límite central: las medias de muestras grandes y aleatorias son aproximadamente normales. (2017). Obtenido de Minnitab:

https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basicstatistics/supporting-topics/data-concepts/about-the-central-limit-theorem/ Hair, A. T. (2000). Análisis Multivariante. Madrid: András Otero. Valencia, U. d. (s.f.). Datos Perdidos. Obtenido de https://www.uv.es/webgid/Descriptiva/index.html

13

Datos Ausentes y Perdidos

Short Description

Description

Comments

We need your help!