Separata Estadistica Curso Titulacion Mayo 2015
Short Description
Descripción: tesis...
Description
ESTADISTICA APLICADA A LA INVESTIGACION CIENTIFICA
La presente presente separa separata ta de estadística aplicada a la investigación científica, tiene por finalidad principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de pregrado, grado, de maestría maestría y de doctora doctorado, do, para para que puedan puedan identifi identificar car los estadí estadístico sticos s que van a utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y validación del del instrumento que van a utilizar para recoger la información información (si el caso lo requiere), etc. etc. Asimis Asimismo, mo, en la elabo elaborac ració ión n de tabl tablas as (simp (simples les y comp compues uestas tas)) y gráfico gráficos s (linea (lineales les,, circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del software estadístico SPSS-21
1. LA ESTA ESTADÍ DÍST STICA ICA.. La Estadística es una ciencia que estudia los métodos y procedimientos para: recoger , organizar , y resumir datos; para detectar regularidades, patrones o tendencias en su comportamiento; para analizar los datos siempre y cuando la variabilidad e incertidumbre sea una causa causa intrínseca intrínseca de los mismos mismos, así como de realizar inferencias a partir de ellos, con la finalidad de ayudar a tomar decisiones y, en otros casos, formular predicciones. Uno de sus objetivos fundamentales es utilizar la información información suministrada suministrada por una parte de la población, llama lamada da muestra, para hacer inferencias sobre el total de la mism misma, a, siempre siempre asociada asociada a una una probabilidad de error .
2. CLASIFICACIÓN CLASIFICACIÓN DE LA ESTADÍSTICA. ESTADÍSTICA. descriptiva, cuando los los resultados del del análisis La Estadí Estadíst stica ica descr descript iptiva iva:: La estadística es descriptiva, no pretenden pretenden ir más allá allá del conjunto conjunto de datos: datos: los describe, describe, analiz analiza a y representa representa utilizan utilizando do métodos numéricos numéricos y gráficos que resumen resumen y presentan presentan la la información. información. estadística es inferencial inferencial cuando el objetivo objetivo del estudio es La Estadí Estadíst stica ica infer inferenc encial ial:: La estadística derivar las conclusiones conclusiones obtenidas a un conjunto conjunto de datos más amplio. amplio. Para ello se apoya apoya en el cálcul cálculo o de proba probabi bililidad dades es y a partir partir de dat datos os muest muestral rales es,, efectú efectúa a estima estimacio ciones nes,, toma toma decisiones, realiza predicciones u otras generalizaciones generalizaciones sobre sobre un conjunto conjunto mayor de datos. datos. La estadística inferencial está formada por la estadística paramétrica y la estadística no paramétrica.
3. ELEMENTOS DE LA ESTADÍSTICA. Se estable establece ce a contin continua uació ción n alguna algunas s definic definicion iones es de concep conceptos tos básico básicos s y fundame fundamenta ntales les como son: elemento, elemento, población, población, muestra, variables, variables, etc., personas u objetos objetos (unidad (unidad de de analisi analisis), s), que contie contienen nen ciert cierta a Individuos o elementos: personas información que se desea estudiar.
Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. 1
subconjun junto to de una pobla població ción. n. Una muestr muestra a debe debe ser representativa; es Muestra: es un subcon decir decir debe debe tener tener un número número óptimo óptimo de las unidades unidades de anális análisis is del estudio estudio o de la investigación y, representar las características de la población en estudio.
Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población. uno de los distintos distintos resultados resultados que se pueden obtener obtener en un estudio Valor: Un valor es cada uno estadístico. Si utilizamos la escala visual visual analógica (EVA) (EVA) para medir medir el dolor a cinco personas, podemos obtener obtener diez valores posibles: posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. cada uno de los los valores valores que que se ha obteni obtenido do al realizar realizar un un estudio estudio Dato: Un dato es cada estadístico. Si utilizamos utilizamos la la escala escala EVA para medir el dolor a cinco personas podemos obtener cinco datos posibles: 2, 4, 0, 2, 9.
4. OBTENCION DE UNA MUESTRA 4.1. Tamaño Tamaño de la muestra muestra Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elementos elementos se debe incluir en la muestra. muestra. El tamaño correcto de la la muestra depende de tres factores: a)
El niv nivel el de de conf confia ianz nza a dese desead ado. o.
b)
El máximo máximo error error permi permisib sible le por el inves investig tigado ador. r.
c)
La vari variaci ación ón en en la poblac población ión que se estu estudi dia. a.
El gr ado de err or que qu e el investiga investigador dor puede puede tolerar tolerar depen depende de de lo critic critico o que sea sea el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves. Para determinar determinar el tamaño de la muestra de un estudio, estudio, se consideran consideran diferentes diferentes aspectos, tales como: estimación estimación de medias, estimación de proporciones, proporciones, estimación de parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o finita.
4.1.1.. Para poblaciones 4.1.1 poblaciones infinitas infinitas Si desconoce desconocemos mos la població población, n, el tamaño tamaño de la muestra muestra se obtiene obtiene a partir partir de la formula formula siguiente:
n
Z
2
pq
2
d
Donde:
n : es el tamaño de la muestra. muestra.
Z : Número de unidades unidades de desviación desviación estándar estándar en la distribució distribución n normal que producirá el nivel deseado de confianza (para una confianza del 1, 96 ; para una confianza del 99%, Z 2,58 ). 95%, Z 1,
2
subconjun junto to de una pobla població ción. n. Una muestr muestra a debe debe ser representativa; es Muestra: es un subcon decir decir debe debe tener tener un número número óptimo óptimo de las unidades unidades de anális análisis is del estudio estudio o de la investigación y, representar las características de la población en estudio.
Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población. uno de los distintos distintos resultados resultados que se pueden obtener obtener en un estudio Valor: Un valor es cada uno estadístico. Si utilizamos la escala visual visual analógica (EVA) (EVA) para medir medir el dolor a cinco personas, podemos obtener obtener diez valores posibles: posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. cada uno de los los valores valores que que se ha obteni obtenido do al realizar realizar un un estudio estudio Dato: Un dato es cada estadístico. Si utilizamos utilizamos la la escala escala EVA para medir el dolor a cinco personas podemos obtener cinco datos posibles: 2, 4, 0, 2, 9.
4. OBTENCION DE UNA MUESTRA 4.1. Tamaño Tamaño de la muestra muestra Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elementos elementos se debe incluir en la muestra. muestra. El tamaño correcto de la la muestra depende de tres factores: a)
El niv nivel el de de conf confia ianz nza a dese desead ado. o.
b)
El máximo máximo error error permi permisib sible le por el inves investig tigado ador. r.
c)
La vari variaci ación ón en en la poblac población ión que se estu estudi dia. a.
El gr ado de err or que qu e el investiga investigador dor puede puede tolerar tolerar depen depende de de lo critic critico o que sea sea el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves. Para determinar determinar el tamaño de la muestra de un estudio, estudio, se consideran consideran diferentes diferentes aspectos, tales como: estimación estimación de medias, estimación de proporciones, proporciones, estimación de parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o finita.
4.1.1.. Para poblaciones 4.1.1 poblaciones infinitas infinitas Si desconoce desconocemos mos la població población, n, el tamaño tamaño de la muestra muestra se obtiene obtiene a partir partir de la formula formula siguiente:
n
Z
2
pq
2
d
Donde:
n : es el tamaño de la muestra. muestra.
Z : Número de unidades unidades de desviación desviación estándar estándar en la distribució distribución n normal que producirá el nivel deseado de confianza (para una confianza del 1, 96 ; para una confianza del 99%, Z 2,58 ). 95%, Z 1,
2
p : Proporción esperada o estimada (cuando no se conoce, 50% = 0,5). q : Se determina mediante: q 1 p (en este este caso caso 1 – 0,5 = 0,5) 0,5).. d : Es Es el lími límite te acep acepta tabl ble e de de erro errorr mue muest stra ral. l. Cuan Cuando do no se cono conoce ce este este valor, se utiliza valores desde desde 0,01 hasta 0,09.
Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes? Z 1, 96 , para una confianza del 95% p 0, 5 , proporción esperada (50%) q 0, 5 , (1 (1 – 0,05 ,05)
d 0, 05 , (no se conoce su valor) 2
n
(1, 9 6) 6) 0, 5 0 , 5 (0,05)
2
3 84
4.1.1.. Para poblacion 4.1.1 poblaciones es finitas Si conocemos la población, población, el tamaño de la la muestra se obtiene obtiene a partir de la formula siguiente: 2
n
N Z p q 2
2
d ( N 1) Z p q
Donde N : es el número número total de la población. población. cuántas personas personas tendría tendría que estudi estudiar, ar, de una poblaci población ón de 800 Ejemplo. ¿A cuántas
habitante habitantes, s, para conoc conocer er la prevalen prevalencia cia de diabet diabetes, es, con un un límite límite de error error muestral muestral del del 5%? N 800 Z 1, 96 , para una confianza del 95% p 0, 5 , proporción esperada (5%) q 0, 5 , (1 – 0,5) ,5) d 0, 05 2
n
8 00 00 (1 (1, 9 6) 6) 0, 5 0 , 5 2
2
( 0, 0, 0 5) 5) (8 00 00 1) (1, 9 6) 6) 0, 0 5 0, 0, 5
2 59
4.2.. Selecc 4.2 Selección ión de la muest muestra ra 4.2.1. Muestreo probabilístico La muestra es probabilística probabilística cuando cada unidad de análisis de la población tiene la probabilidad de ser ser incluida incluida en la muestra muestra.. Cuando Cuando una muestra muestra es probabilística, el riesgo de llegar a decisiones y conclusiones incorrectas se 3
puede medir usando la teoría de la probabilidad; por tanto, pueden ser objetos de un análisis y tratamiento estadístico. Existen, al menos, cuatro métodos comúnmente más utilizados: muestreo aleatorio simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por conglomerado. Para nuestro caso solo nos interesa el muestreo aleatorio simple, que se puede realizar de dos formas: a) Usando una caja. Se coloca cada unidad de análisis escrita en un papelito, luego se extraen sucesivamente, hasta completar el número requerido para la muestra. b) Usando la tabla de números aleatorios. Previamente, se enumeran todos los elementos de la población, con igual número de cifras que tiene el tamaño de la población (N). Luego se utiliza una tabla elaborada especialmente para estos propósitos.
4.2.2. Muestreo no probabilístico Las muestras se caracterizan por que no es posible determinar la probabilidad de
inclusión de cada unidad de análisis de la población, en la muestra extraída. Por esta razón, no hay forma de medir el riesgo de llegar a conclusiones erróneas a partir de estas muestras no probabilísticas. Dado que la confiabilidad de los resultados de estas muestras no puede medirse, las muestras no probabilísticas, no se prestan para el tratamiento y análisis estadístico. Los tipos más comunes de muestreo no probabilístico son: muestreo por conveniencia o de juicio y por voluntarios.
5. ORGANIZACION DE LOS DATOS 5.1. Variables estadísticas Cuando hablemos de variable haremos referencia a un símbolo ( X, Y, A, B,. . . ) que puede tomar cualquier valor de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables se clasifican en:
VARIABLES CUALITATIVAS. Pueden ser de tipo nominal y ordinal. Son de tipo nominal cuando los valores (modalidades) son de tipo nominal. Por ejemplo, el grupo sanguíneo: A, B, AB, O. Son de tipo ordinal cuando son nominales pero, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades. Por ejemplo, grado de recuperación
de un paciente: Nada, Poco, Moderado, Bueno, Muy Bueno. A veces se representan este tipo de variables en escalas numéricas, por ejemplo, cuando se establecen puntuaciones para establecer la intensidad del dolor en una escala de 0 a 10 (EVA). Sin embargo, es imposible realizar operaciones algebraicas
4
con estas cantidades. ¡Un dolor de intensidad 4 no es el doble que otro de
intensidad 2!. VARIABLES CUANTITATIVAS O NUMÉRICAS Son las que tienen por modalidades cantidades numéricas con las que podemos hacer operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:
Discretas, cuando no admiten valores intermedios entre dos valores cualesquiera. Un ejemplo es el número de hijos en una familia: Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . .
Continuas, cuando admiten valores intermedios entre dos valores cualesquiera. Por ejemplo, el peso (3,480 kg) de un niño al nacer. En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de amplitud 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor concreto.
5.2. Tablas estadísticas Consideremos una población estadística de N individuos, establecida de acuerdo a una variable C cuyas valores (modalidades) han sido agrupados en un número k de clases, que denotamos mediante c1 , c 2 , . . . , k . Para cada una de las clases ci , i 1, 2, ..... k , se establecen las siguientes magnitudes:
Frecuencia absoluta de la clase ci , es el número F i , de observaciones que presentan un valor perteneciente a esa clase.
Frecuencia relativa de la clase ci , es el cociente f i , entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir f i
F i N
Obsérvese que f i es el tanto por uno de observaciones que están en la clase ci . multiplicado por 100% representa el porcentaje, de la población, que tiene esa clase.
Frecuencia absoluta acumulada ( FAi ). Se calcula sobre variables cuantitativas, y es el número de elementos de la población cuyo valor (modalidad) es inferior o equivalente al valor ci : ...... Fi FAi F1 F 2
i
F j j 1
Frecuencia relativa acumulada ( fAi ). Se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci , es decir,
5
F i
fAi
N
F1 F2 ...... F i N
f 1 f 2 ...... f i
i
fj j 1
Se llama distribución de frecuencias, al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística nos permite representar en forma ordenada las distribuciones de frecuencias. Las tablas suelen ser de dos tipos: tablas simples y compuestas (tablas de contingencia). Estas tablas se presentan con una numeración, un título y la fuente de origen.
Ejemplo 1. A continuación se muestra una tabla simple de distribución de frecuencias y la forma de presentarla: Tabla Nº 01: Resultados de la evaluación de la muestra Frecuencia
Porcentaje
Porcentaje acumulado
A
Logro Previsto
4
11,4
11,4
B
En Proceso
16
45,7
57,1
C
En Inicio
15
42,9
100,0
35
100,0
Total
Fuente: Elaborada por el investigador
Ejemplo 2. A continuación se muestra una tabla compuesta (de contingencia) de distribución de frecuencias: Tabla Nº 02: Alteraciones de la lordosis lumbar por grupo etáreo Alteraciones de la Lordosis Lumbar Hipolordosis
%
Hiperlordosis
Total %
Recuento
%
de 30 a 39 años
1
2,0
10
21,7
11
23,9
Grupo Etáreo de 40 a 49 años
5
10,9
20
43,5
25
54,3
de 50 a 59 años
0
0,0
10
21,7
10
21,7
6
13,0
40
87,0
46
100,0
Total
Fuente: Elaboración propia
Nota: en el caso que la tabla no ha sido elaborada por el investigador, se debe indicar su origen.
6
5.3 Representaciones Gráficas Hemos visto que las tablas estadísticas resumen los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más sistemática y resumida posible. Sin embargo para presentar esta información y que resalten las características de la población se utilizan gráficos y diagramas.
Gráficos para variables cualitativas. Los gráficos más usuales para representar variables de tipo nominal son los siguientes: graficas de barra simple y compuesta, grafico de sectores o circulares, histogramas, diagrama de Pareto, diagrama de cajas y bigotes, gráficos lineales, etc.
Diagramas de barras: En la siguiente figura se representa en el eje de ordenadas los valores (modalidades) y en la abscisa las frecuencias absolutas o las frecuencias relativas.
Grafica Nº 01: Ocupación de la muestra
Si mediante el grafico se intenta comparar varias poblaciones entre sí, se utilizan las barras compuestas, como se muestra en la gráfica siguiente. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas.
7
Grafica Nº 02: Distribución de la muestra por talla
Diagramas de sectores (también llamados tortas). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Este diagrama es conveniente cuando se quiere presentar los resultados en forma solo porcentual.
Grafica Nº 03: Tiempo de duración del dolor de la muestra
8
Gráfico para variable continua Histograma. Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos, como se puede ver en la figura siguiente:
40
45
50
55
60
65
70
75
Gráfico Nº 04: Pesos de la muestra
Diagrama de Pareto El diagrama de Pareto consiste en clasificar los factores que intervienen en un proceso por su orden de importancia, para poder tratar cada uno de ellos de forma adecuada a su peso específico. En realidad, no deja de ser un histograma que ordena las clases de mayor a menor frecuencia, junto a un polígono de frecuencias acumulado.
9
ESTADISTICA DESCRIPTIVA La estadística descriptiva es una parte de la estadística que se encarga de recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente sus características principales e importantes. Este análisis es muy básico, pero nos permite tener un conocimiento claro, respecto a las características principales, que tiene una variable. En todo análisis estadístico es necesario comenzar utilizando la estadística descriptiva, para luego abordar el análisis desde la perspectiva de la estadística inferencial. Los estadísticos descriptivos principales son: las mediadas de tendencia central (media, mediana y moda), las medidas de posición (cuartiles, deciles y percentiles), medidas de variación o dispersión (desviación típica o estándar, varianza, coeficiente de variación) y las medidas de forma (asimetría y apuntamiento o curtosis).
MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central son valores numéricos que representan la tendencia de todo el conjunto de datos estadísticos que se tiene. Las medidas de tendencia central más importantes son la media aritmética, la mediana y la moda.
1. La Media Aritmética. X La media aritmética es el estadígrafo de posición más importante ya que representa mejor al grupo de datos y es valor estadístico más fiable. Se le conoce además, como media y promedio. La media aritmética es el valor promedio de los valores observados de la variable.
2. La Mediana. (Me) La mediana es el valor que divide a la muestra en dos partes iguales; es decir que cada parte equivale al 50% de la muestra. El valor de la mediana es más recomendable que la media aritmética cuando existen valores extremos bastantes grandes o muy pequeños y, si se tiene datos cualitativos que se pueden ordenar de acuerdo a categorías.
Ejemplo: Se tiene una muestra de 46 personas cuyas edades son las siguientes: 34 33 32 37 50 52 51 52 34 36 47 37 43 44 48 52 55 50 41 37 34 31 55 49 36 42 48 50 52 48 42 43 41 53 52 32 37 52 30 31 43 54 36 51 50 30
La media y la mediana de dicha muestra son: Estadísticos Descriptivos N
Válidos
46
Media
43,20
Mediana
43,00
Edad mínima
30
Edad máxima
55
La media aritmética (media o promedio) es de 43. Se interpreta que la edad promedio de la muestra es de 43 años. La mediana también es 43 y se interpreta que el 50% de la muestra tienen edades menores o iguales a 43 años y el otro 50% tienen edades mayores a 43 años. 10
MEDIDAS DE VARIACIÓN O DE DISPERSIÓN Si se quiere hacer una descripción más detallada de una muestra, es necesario identificar el grado de dispersión o concentración que tiene dicha muestra, en relación a un valor central. Para realizar un análisis más detallado se hace uso de otras medidas que permiten identificar otras características. Estas medidas son los estadígrafos de variación o de dispersión. Por su naturaleza estas medidas se aplican únicamente a las variables cuantitativas. Una dispersión excesiva revela que la muestra es heterogénea; por el contrario una dispersión muy leve indica que la muestra es homogénea. Las medidas de dispersión más utilizadas son: la desviación típica o estándar, la varianza y el coeficiente de variación.
1. Desviación Estándar o típica (DS) La desviación estándar es la raíz cuadrada de la media de los cuadrados de las desviaciones con respecto a la media aritmética. Luego, si se tiene K observaciones, cuya media aritmética es X , su desviación estándar será:
DS
K X
2
n
La desviación estándar es una de las medidas de dispersión más confiables. Nos permite establecer la dispersión (alejamiento o acercamiento) de los datos respecto a la media. Esto permite establecer la homogeneidad o heterogeneidad de la muestra.
Ejemplo: Se tiene una muestra de 70 personas cuyos pesos son los siguientes: 55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62 55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70
La desviación estándar o típica y la media de los pesos se muestran en la tabla siguiente: Estadísticos Descriptivos Peso Válidos
70
N Perdidos
0
Media
57,77
Desviación típica
9,255
Mínimo
40
Máximo
75
11
La desviación estándar o típica es de 9,255. Se interpreta que el peso promedio puede estar comprendido entre 57,77 ± 9,255 kg. (48, 515 y 67, 025).
2. Varianza ( S 2 ) La varianza se define como la media de las diferencias cuadráticas de n puntuaciones con respecto a su media aritmética, es decir:
S
2
1
n
( x n 1
i
x )2
i 1
El uso del coeficiente de variación para evaluar la imprecisión de un método de análisis es común en el laboratorio.
Ejemplo: Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una compañía fueron las siguientes: Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20 Determina la media y la varianza para estos tres vendedores. De acuerdo al valor de la media, ¿Qué se puede decir de estos vendedores?. De acuerdo al valor de la varianza, ¿Quién consideras que es más consistente en sus ventas? La relación de la varianza de los tres vendedores es: _______________________________ a) ¿Cuál de los tres tiene mayor varianza? _________________________________ b) ¿Qué podemos inferir de este resultado? ________________________________ c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ______________ ____________________________________________________________________
3. Coeficiente de Variación (CV) El coeficiente de variación permite comparar la dispersión de dos o más distribuciones y de esa manera determinar la homogeneidad o heterogeneidad de las muestras que se analizan. Su valor se expresa en términos de porcentaje. El coeficiente de variación es el cociente entre la desviación estándar y la media aritmética multiplicado por 100%; es decir:
CV
DS X
100%
12
Ejemplo: Los estudios de bioequivalencia de los medicamentos A y B (bioequivalencia se refiere a la velocidad y proporción en que el mismo principio activo de dos medicamentos «iguales» alcanza la circulación sistémica), indican que existe una diferencia 12% entre la variabilidad de ambos.
CV A 5%
CV B 17%
MEDIDAS DE FORMA La representación gráfica de la distribución de frecuencias toma diferentes formas, que nos permiten identificar y comparar, con mayor facilidad, los estadísticos o parámetros en forma visual. Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: curvas simétricas y curvas asimétricas.
Curvas Simétricas La curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media x . Las curvas simétricas se caracterizan por su curtosis, la cual es la forma de la puntiagudez que presenta la parte superior de la gráfica. Por su curtosis las curvas simétricas se clasifican en: platicúrtica, leptocúrtica y mesocúrtica.
µ
µ
µ
La platicúrtica presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula. La leptocúrtica presenta un pico muy agudo. La mesocúrtica es semejante a la curva normal de Gauss. Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen forma de campana. Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de frecuencias y ésta se simboliza con la letra K.
13
El valor de K define la curtosis de la gráfica, tal que:
Si = 0, la curva es mesocúrtica (curva normal).
Si > 0, la curva es leptocúrtica.
Si < 0, la curva es platicúrtica.
Curvas Asimétricas Ya se mencionó que las medidas de dispersión, solamente indican la magnitud de las variaciones, pero no dan ninguna información acerca de la dirección hacia la cual se dispersan. Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos. Estas gráficas se caracterizan por la posición que tiene las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:
ACTIVIDAD DE REGULACIÓN
x Me Mo
x Me Mo
Mo Me x
La primera curva es simétrica y la media, la mediana y la moda coinciden en el centro. La segunda curva es asimétrica. En el centro se encuentra la moda a la izquierda la mediana y más a la izquierda la media, por lo que se le denomina sesgada a la izquierda. En la última curva la moda está en el centro, a la derecha la mediana y más a la derecha la media, por lo que se le denomina sesgada a la derecha.
14
ESTADISTICA INFERENCIAL La estadística inferencial es una parte de la estadística que se encarga del estudio de cómo
obtener conclusiones generales para toda la población, a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Es decir que nunca nos ofrecerá una seguridad absoluta, sino una respuesta basada en la probabilidad. Además, es fundamental tener en cuenta que la estadística no decide; sólo ofrece elementos para que el investigador decida.
ESTADISTICA PARAMETRICA Y NO PARAMETRICA Estadística paramétrica La estadística paramétrica es una rama de la estadística inferencial, que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar. La mayoría de procedimientos paramétricos, requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo (variable cuantitativa), esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya
datos categorizados (variables cualitativas) en: niños, jóvenes, adultos y ancianos no pueden ser interpretados mediante la estadística paramétrica ya que no se puede hallar un parámetro que hay números con los cuales realizar cálculos estadísticos. Sin embargo,
numérico (como por ejemplo la media de la edad) cuando los datos no son numéricos.
Parámetro En estadística, un parámetro es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable. El cálculo de este número se realiza a través de estimaciones, utilizando para ello los estadígrafos (media, desviación estándar, etc) a partir de datos de una muestra de esa población. Los parámetros estadísticos son una consecuencia inevitable del propósito esencial que tiene la estadística: crear un modelo de la realidad. El estudio de una gran cantidad de datos individuales de una población, puede ser engorroso por lo que se hace necesario realizar un resumen que permita tener una idea global de la población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas contribuyen de modo esencial los parámetros estadísticos. 15
Principales parámetros En la estadística matemática e inferencial se utiliza el concepto de parámetro en su acepción matemática más pura, esto es, como variable que define una familia de objetos matemáticos en determinados modelos. Así se habla, por ejemplo, de una distribución normal de parámetros μ y σ como de una determinada familia de distribuciones con una distribución de probabilidad de expresión conocida, en la que tales parámetros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Otro ejemplo el de la distribución de Poisson, determinada por un parámetro, λ; o la distribución binomial, determinada por dos parámetros, n y p . Desde el punto de vista de la estadística matemática, el hecho de que estas distribuciones describan situaciones reales y los citados parámetros signifiquen un resumen de determinado conjunto de datos es indiferente. Los principales parámetros se agrupan en las siguientes categorías:
Medidas de posición. Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. Entre ellos se distinguen:
Las medidas de tendencia central: media, mediana y moda.
Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).
Medidas de dispersión. Miden la heterogeneidad de los datos, lo separados que éstos están entre sí. Las principales son: el recorrido o rango, la desviación media, la varianza, la desviación típica o estándar. Las que expresan la dispersión en porcentaje, el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana.
Medidas de forma. Su valor informa sobre el aspecto que tiene la gráfica de su distribución. Entre ellas están los coeficientes de asimetría y los de curtosis.
Otros parámetros. Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy concretas, como son las proporciones, los números índice, las tasas y el coeficiente de Gini.
Distribución Normal En estadística y probabilidad se llama distribución normal o distribución de Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. Su gráfica tiene una forma
acampanada y es simétrica
respecto de un parámetro estadístico. Esta curva se conoce como campana de Gauss. Algunas propiedades de la distribución normal son: 1.
Es simétrica respecto de su media μ.
2.
La moda y la mediana son ambas iguales a la media μ.
16
3.
Los puntos de inflexión de la curva se dan para x = μ – σ y x = μ + σ .
4.
La distribución de probabilidad, alrededor de la media, cumple:
En el intervalo [ μ - σ , μ + σ ] se encuentra comprendida, aproximadamente, el 68,26% de la distribución;
En el intervalo [ μ - 2σ ,
μ + 2σ ] se encuentra, aproximadamente, el 95,44% de la
distribución;
En el intervalo [ μ -3σ , μ + 3 σ ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución. Estas propiedades son de gran utilidad para el establecimiento de
intervalos de confianza.
Distribución de probabilidad alrededor de la media en una distribución N( μ , σ )
La estadística paramétrica nos permite resolver tres tipos de problemas:
La estimación puntual, en la que se pretende darle un valor al parámetro a estimar.
La estimación por intervalos, cuando se busca un intervalo de confianza.
El contraste de hipótesis, cuando se busca contrastar información acerca del parámetro.
Los principales estadísticos de prueba de la estadística paramétrica son: la T de Student, el
análisis de varianza (ANOVA) y la r de Pearson. Para utilizar estos estadísticos, es indispensable que se cumpla con los siguientes requisitos: a)
Las variables deben cuantitativas.
b)
La distribución de los datos deben seguir el modelo teórico de la distribución normal.
c)
Las varianzas, de las variables, deben ser iguales (homocedasticidad).
d)
Los datos deben superar, como mínimo, 30 casos.
17
Prueba de normalidad de una distribución Para determinar si los datos obtenidos, de una variable cuantitativa (discreta o continua), tiene distribución normal se utilizan dos pruebas estadísticas: la prueba de kolmogorov-smirnov (k-s) en el caso que los datos superen los 30 casos y la de Shapiro-Wilk en el caso que los datos sean menor a 30 casos.
Prueba de Kolmogorov-Smirnov (K-S) La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de "bondad de ajuste", que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Es decir la prueba de KolmogorovSmirnov se utiliza para comprobar si los datos de una variable se distribuyen normalmente. Para realizar la prueba estadística de kolmogorov-Smirnov (K-S) se sigue el siguiente procedimiento: a)
Se plantean dos hipótesis: la hipótesis nula y la hipótesis alterna.
Ho: La distribución de la variable NO difiere de la distribución normal. H1: La distribución de la variable difiere de la distribución normal. α
5% 0,05
b)
Se establece el nivel de significancia cuyo valor estándar es de
c)
Se obtiene el resultados de la prueba K-S mediante el SPSS.
d)
Se compara el p valor calculado con el nivel de significancia: p y 0,05
e)
Decisión y Conclusión: Si p valor calculado es menor que el nivel de significación 0,05 se rechaza la hipótesis nula y si el p valor es mayor se acepta la hipótesis nula. En el primer caso se concluye que la variable no tiene una dis tribución normal, en el segundo caso la variable s i tiene una dis tribución normal.
Nota: Si p valor calculado es menor que el nivel de significación 0,05 la dis tribución no es normal, si es mayor que 0.05 la dis tribución es normal. Ejemplo: Se tiene una muestra de 70 personas cuyos pesos son los siguientes:
55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62
55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70
Determinar si la muestra tiene una distribución normal.
Solución Utilizando la prueba de de Kolmogorov-Smirnov. a)
Planteamiento de la hipótesis nula y la hipótesis alterna. 18
Ho: La distribución de la variable peso NO difiere de la distribución normal. H1: La distribución de la variable peso difiere de la distribución normal. α
5% 0,05
b)
Nivel de significancia:
c)
Resultados de la prueba K-S mediante el SPSS. Prueba de Kolmogorov-Smirnov para una muestra Peso a,b
Parámetros normales
Diferencias más extremas
Media
57,77
Desviación típica
9,255
Absoluta
,078
Positiva
,071
Negativa
-,078
Z de Kolmogorov-Smirnov
,654
Sig. asintót. (bilateral)
,785
a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.
d)
Comparando el p valor con el nivel de significancia: p 0,785 0,05
e)
Decisión y conclusión: Como el p valor calculado es mayor que el nivel de significación se
acepta la hipótesis nula y se rechaza la alterna; es decir variable peso s i tiene una distribución normal.
ESTADISTICA NO PARAMETRICA La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando: Las variables son cualitativas (nominal u ordinal). Las variables son cuantitativas, pero no tienen una distribución normal y/o sus varianzas
no son iguales (Homocedasticidad) y los datos no superan, como mínimo, los 30 casos. Las pruebas no paramétricas, son menos “potentes” que las pruebas paramétricas, pero reúnen las siguientes características: 1. Son más fáciles de aplicar. 2.
Son aplicables a los datos jerarquizados.
3.
Se pueden usar cuando dos series de observaciones provienen de distintas poblaciones.
4.
Son la única alternativa cuando el tamaño de muestra es pequeño.
5.
Son útiles a un nivel de significancia previamente especificado. 19
Las principales pruebas no paramétricas son las siguientes: Chi cuadrado de Pearson χ
2
,
test exacto de Fisher, tau b de Kendall, coeficiente de correlación de Spearman, prueba binomial, test de Mann-Whitney, prueba de McNemar, prueba de Kruskal-Wallis, test de Wilcoxon, Q de Cochran y la prueba de Kolmogórov-Smirnov.
PRUEBA DE HIPOTESIS Para realizar la prueba de hipótesis se realiza el siguiente procedimiento:
PRIMERO: Planteamiento de las hipótesis. Se plantean la hipótesis nula (Ho) y la hipótesis alterna (Ha) (puede ser la hipótesis general o las especificas).
SEGUNDO: Nivel de significación. El riesgo que se asume acerca de rechazar la hipótesis nula cuando en realidad debe aceptarse por ser verdadera. El nivel de significación se denota mediante la letra griega alfa
α
No hay un nivel de significación que se aplique a todos los estudios que implican muestreo. Sin embargo generalmente para la decisión se usa el nivel 0.05 (equivale a 5%), el nivel 0.01
(1%), el 0.10 (10%) o cualquier otro nivel entre 0 y 1. El investigador debe decidir el nivel de significación antes de formular una regla de decisión y recopilar datos muéstrales.
Error tipo 1. Se llama así a la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.
Error tipo 2. Cuando la probabilidad de aceptar la hipótesis nula siendo en realidad falsa TERCERO: Determinación del estadístico de prueba. Un valor, determinado a partir de la información muestral, que se utiliza para aceptar o rechazar la hipótesis nula.
CUARTO: Regla de decisión. Es una regla simple la cual es una afirmación de las condiciones bajo las que se acepta o rechaza la hipótesis nula.
QUINTO: Toma de decisión Es la toma de decisión si se debe aceptar o rechazar la hipótesis nula.
DETERMINACIÓN DEL ESTADÍSTICO DE PRUEBA. La determinación del estadístico de prueba es la etapa donde se requiere un análisis minucioso de diferentes aspectos (tipos de variables, tipo de estudio, diseño, parámetros, distribución de la población a la que pertenece la muestra, tamaño de la muestra, objetivos del estudio, etc) El cuadro siguiente muestra los estadísticos más utilizados:
20
PRUEBAS
PRUEBAS NO PARAMETRICAS Variable aleatoria Variable fija
NOMINAL DICOTOMICA
NOMINAL POLITOMICA
2
Un grupo
PARAMETRICAS
ORDINAL
2
CUANTITATIVAS
2
χ
χ
χ
Bondad de ajuste
Bondad
Binomial
ajuste
de
Bondad
de
ajuste
T
de
Student
para una muestra
2
Estudio Transversal
χ
de Dos grupos
Muestras independientes
homogeneidad.
2
χ
U de Mann-
Corrección de Yates
de
Test
homogeneidad
Exacto
de
Withney
T
de
para
Student muestras
independientes
Fisher 2
χ
2
Más de dos
χ
grupos
de homogeneidad
Kruskall-
de homogeneidad
Wallis
ANOVA con un factor sujetos T
Estudio Longitudinal
Dos medias
Muestras relacionadas
Más de dos
Mc-Nemar
Q de Cochran
Wilcoxon
Inter
de
para
Student muestras
relacionadas
medias
ANOVA Q de Cochran
Q de Cochran
Friedman
para
medidas repetidas
La siguiente tabla muestra la descripción de cada uno de los estadísticos de prueba más utilizados
PRUEBAS NO PARAMETRICAS Prueba
Una muestra Es
una
prueba
de
bondad
Variables de
ajuste,
de
homogeneidad y de independencia, que permite Chi cuadrado
averiguar si la distribución empírica de una variable
de Pearson
categórica se ajusta o no (se parece o no) a una determinada distribución teórica (uniforme, binomial,
VI: Ordinal/Nominal/Intervalo VD: Nominal
multinomial, etc.).
Test exacto Fisher
de
Es una prueba similar a la de Chi cuadrado, que se utiliza cuando las variables son dicotómicas y además no se puede utilizar la prueba de Chicuadrado.
VI: Dicotómica VD: Ordinal/Nominal
21
Es una prueba de bondad de ajuste, que permite
Binomial
averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad. Permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución binomial (lo cual se
VD: Nominal
traduce en la posibilidad de contrastar hipótesis sobre proporciones y sobre cuartiles).
KolmogorovSmirnov (K-S)
Es una prueba de bondad de ajuste, que sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada VD: Ordinal/Intervalo distribución teórica de probabilidad que puede ser con tendencia a la normal, a la de Poisson o exponencial.
PRUEBAS NO PARAMETRICAS Prueba
Dos muestras relacionadas
Variables
Sirve para contrastar hipótesis sobre igualdad de proporciones. Se usa cuando hay una situación en la que las medidas de cada sujeto se repiten, por lo que la Prueba de McNemar respuesta de cada uno de ellos se obtiene dos veces:
VI: Dicotómica
una vez antes y otra después de que ocurra un VD: Nominal evento específico y las muestras son relacionadas dependientes y además son dicotómicas. Permite contrastar la hipótesis de igualdad entre dos medianas poblacionales. Se muestras son relacionadas.
utiliza
cuando
las
El contraste se basa en el comportamiento de las Prueba de Wilcoxon
diferencias entre las puntuaciones de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino también la magnitud de la diferencia.
VI: Dicotómica VD: Ordinal/Intervalo
Paralela a la prueba paramétrica de contraste t para muestras relacionadas.
Prueba
K muestras relacionadas
Variables
Esta prueba se aplica cuando todas las respuestas son binarias.
Prueba de Cochran
La Q de Cochran prueba la hipótesis de que varias variables dicotómicas que están relacionadas entre sí, tienen el mismo promedio. En observaciones
VI: Dicotómica
múltiples las variables son medidas en el mismo VD: Nominal individuo o en individuos pareados (k muestras relacionadas). Tiene la ventaja de examinar cambios en las variables categóricas. 22
Prueba
Dos muestras independientes
Variables
Es equivalente a la prueba de suma de rangos de Wilcoxon y a la prueba de dos grupos de Kruskal-
la VI: Dicotómica (grupos) VD: Ordinal
Prueba U de Mann-
Wallis.
Whitney
comparación de dos promedios independientes (cuando la variable de estudio es
Es
la
alternativa
no
paramétrica
a
ordinal) a través de la t de Student. Sirve para contrastar la hipótesis de que dos muestras
Prueba de KolmogorovSmirnov
proceden de la misma población. Para ello, compara
VI: Dicotómica
las
VD: Ordinal/Intervalo
funciones
distribución
(funciones
de
probabilidad acumuladas) de ambas muestras.
Prueba Prueba H Kruskal- Wallis
de
K muestras independientes de
Variables
Es una extensión de la de U de Mann-Whitney y
VI: Politómica
representa una excelente alternativa al ANOVA de un
VD: Ordinal/Intervalo
factor completamente aleatorizado. Se utiliza para K
muestras independientes.
PRUEBAS NO PARAMETRICAS Prueba
Una muestra
Variables
Es una prueba de correlación (de asociación o interdependencia) entre dos variables cuantitativas- Es equivalente a la correlación de Pearson pero utilizado Rho de Spearman
no
en
puntuaciones
sino
que
éstos
han
sido
convertidos a rangos. También se utiliza cuando las
VI: Numérica VD: Numérica/ordinal
variables cuantitativas no tienen distribución normal; cuando una es cuantitativa (la independiente) y la otra ordinal (la dependiente). Es una prueba similar a la de Chi cuadrado, que se utiliza para establecer la correlación cuando las Tau b de Kendall
variables son originalmente categóricas. Y además, éstas variables categóricas deben tener la misma
VI: Ordinal VD: Ordinal
cantidad de categorías (tablas de 3x3, 4x4).
23
EJEMPLOS DE USO DE LAS PRINCIPALES PRUEBAS NO PARAMETRICAS 1. CHI CUADRADO DE PEARSON
χ
2
Ejemplo 1 Hipótesis: Las alteraciones de la Lordosis Lumbar tienen relación con la Lumbalgia Mecánica. Ambas variables, alteraciones de la Lordosis Lumbar y Lumbalgia Mecánica, son
variables cualitativas. Ho: Las alteraciones de la Lordosis Lumbar NO tienen relación con la Lumbalgia Mecánica.
Ha: Las alteraciones de la Lordosis Lumbar SI tienen relación con la Lumbalgia Mecánica. Nivel de Significación:
α
5%
,
Prueba Estadística: Chi-cuadrado
2
χc
(Oi E i )
2
E i
Contrastación: Valor Chi Cuadrado de tabla
χ
2 t
5,99
Valor Chi cuadrado calculado χ c2 13,57
Decisión: Ho se rechaza. Conclusión: Como el valor calculado ( χ c2 13,57 ) es mayor que el valor de tabla 2
χ t
5,99 (cae en la zona de rechazo), podemos concluir que a un nivel de significación
del 5% (0.001 < 0.05), se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Las alteraciones de la Lordosis Lumbar SI tienen relación con la Lumbalgia Mecánica. Tabla de contingencia Alteraciones de la Lordosis Lumbar * Lumbalgia Mecánica Lumbalgia Mecánica
Hipolordosis Lumbar
Recuento
Hiperlordosis Lumbar
Recuento
Total
% del total
% del total Recuento % del total
Total
Lumbalgia
Lumbalgia
Lumbalgia
Aguda
Subaguda
Crónica
10
5
4
19
21,7%
10,9%
8,7%
41,3%
3
4
20
28
6,5%
8,7%
43,5%
58,7%
12
10
24
46
28,3%
19,6%
52,2%
100,0%
24
Prueba de Chi-Cuadrado Valor
gl
Sig. asintótica (bilateral)
Chi-cuadrado de Pearson
13,566a
2
0,001
Asociación lineal por lineal
13,051
1
,000
N de casos válidos
46
a. 1 casillas (16,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,72.
Nota importante: El mensaje que viene en la tabla de la prueba estadística Chi-cuadrado es fundamental para determinar si se acepta o no la asociación entre las variables. El porcentaje mínimo debe ser del 25%. Si este porcentaje supera el 25% entonces no podríamos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher o buscar otro estadístico de prueba.
Ejemplo 2 Hipótesis: El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos. Una variable es cuantitativa (la independiente) y
la otra variable es categórica (la
dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.
Ho: El número de caídas NO tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.
Ha: El número de caídas SI tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.
Nivel de Significación:
α
5%
, 2
Prueba Estadística: Chi-cuadrado
χc
(Oi E i )
2
E i
Contrastación: Valor Chi Cuadrado de tabla
χ
2 t
12,59 2
Valor Chi Cuadrado calculado
χc
52,48
25
Tabla de contingencia Número de caídas * Grado de dependencia Grado de dependencia Grave Recuento 1
Frec. esperada
de caídas
2
Frec. esperada Frec. esperada
5
8
13
2,7
2,3
5,0
3,1
13,0
0
6
8
0
14
2,9
2,5
5,4
3,3
14,0
7
0
0
0
7
1,4
1,2
2,7
1,6
7,0
7
6
13
8
34
7,0
6,0
13,0
8,0
34,0
Recuento Total
Frec. esperada
Independiente
0
Recuento 3
Leve
0
Recuento
Número
Moderada
Total
Pruebas de chi-cuadrado Valor
gl
Sig. asintótica (bilateral)
a
6
,000
Razón de verosimilitudes
54,644
6
,000
Asociación lineal por lineal
26,834
1
,000
Chi-cuadrado de Pearson
N de casos válidos
52,480
34
a. 11 casillas (91,7%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 1,24.
La tabla nos muestra que 11 casillas, es decir el 91,7%, tienen frecuencias esperadas menor a 5. Este porcentaje supera al mínimo aceptable (25%), entonces NO podemos utilizar el Chi-cuadrado y se debe utilizar otra prueba estadística. Como la variable independiente es cuantitativa y la dependiente categórica, entonces se debe utilizar el coeficiente de correlación de Spearman. Al calcular el coeficiente de Spearman, se tiene:
Correlaciones
Coeficiente de correlación Número de caídas
Número de
Grado de
caídas
dependencia
1,000 .
0,000
34
34
**
1,000
,000
.
34
34
Sig. (bilateral) N
Rho de Spearman Coeficiente de correlación Grado de dependencia Sig. (bilateral) N
**
-,879
-,879
**. La correlación es significativa al nivel 0,01 (bilateral).
Decisión: Ho se rechaza. 26
Conclusión: Como el p valor es p 0,000 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: El número de caídas SI tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.
2. TEST EXACTO DE FISHER Ejemplo Hipótesis: El género tiene relación con la ansiedad en un grupo de personas. Ambas variables, el género y la ansiedad, son variables cualitativas. Ho: El género NO tiene relación significativa con la ansiedad en un grupo de personas. Ha: El género SI tiene relación significativa con la ansiedad en un grupo de personas. Nivel de Significación: α 5% , 2
Prueba Estadística: Chi-cuadrado
χc
(Oi E i )
2
E i
Contrastación:
Tabla de contingencia Sexo * Niveles de Ansiedad Niveles de Ansiedad Leve
Moderado
Severo
2
7
6
15
5,9
5,5
3,6
15,0
15,4%
58,3%
75,0%
45,5%
Recuento
11
5
2
18
Frecuencia esperada
7,1
6,5
4,4
18,0
84,6% 13
41,7% 12
25,0% 8
54,5% 33
13,0
12,0
8,0
33,0
100,0%
100,0%
100,0%
100,0%
Recuento Hombres
Frecuencia esperada % dentro de Niveles de Ansiedad
Sexo Mujeres
% dentro de Niveles de Ansiedad Recuento Total
Total
Frecuencia esperada % dentro de Niveles de Ansiedad
Pruebas de chi-cuadrado Valor Chi-cuadrado de Pearson
gl
8,360
a
Sig. asintótica (bilateral) 2
0,015
Razón de verosimilitudes
9,014
2
,011
Asociación lineal por lineal
7,602
1
,006
N de casos válidos
33
a. 2 casillas (33,3%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 3,64.
27
La tabla nos muestra que dos casilla , es decir el 33;3%, que supera al mínimo aceptable (25%), entonces NO podemos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher . Al recategorizar la variable ansiedad, en solo dos categorías (alta-baja) para poder utilizar el test exacto de Fisher, se tiene:
Pruebas de chi-cuadrado Valor
Chi-cuadrado de Pearson b
Corrección por continuidad
gl
Sig. asintótica
Sig. exacta
Sig. exacta
(bilateral)
(bilateral)
(unilateral)
5,241
a
1
,022
3,762
1
,052
Estadístico exacto de Fisher N de casos válidos
0,037
0,025
33
a. 0 casillas (0,0%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 7,27. b. Calculado sólo para una tabla de 2x2.
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,025 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El género SI tiene relación significativa con la ansiedad en un grupo de personas.
Nota importante: La prueba exacta de Fisher solo se utiliza cuando no se puede aplicar el Chi-cuadrado y además, las variables tienen que ser dicotómicas (la tabla de contingencia debe ser cuadrada de 2x2.
3. COEFICIENTE DE CORRELACIÓN DE SPEARMAN Ejemplo Se desea correlacionar el grado de Estrés Laboral (Bajo-Moderado-Alto) con los años de servicio, de un grupo de trabajadores de una determinada institución. Como la variable años de servicio es la independiente y la variable estrés laboral es una variable categórica, se puede utilizar la prueba estadística de Spearman.
Hipótesis: El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.
28
Una variable es cuantitativa (la independiente) y
la otra variable es categórica (la
dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.
Ho: NO existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.
Ha: Existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.
5% α
Nivel de Significación:
0,05
Prueba Estadística: Rho de Spearman
r s 1
d
6
2
i
2 n(n 1)
Contrastación: r s 0,412
y
p 0,002
Correlaciones
Coeficiente de correlación Tiempo de Servicio
Estrés
Servicio
Laboral
1,000
0,412**
.
0,002
54
54
**
1,000
,002
.
54
54
Sig. (bilateral)
Rho de
N
Spearman
Coeficiente de correlación Estrés Laboral
Tiempo de
Sig. (bilateral) N
,412
**. La correlación es significativa al nivel 0,01 (bilateral).
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,002 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.
Nota: La correlación rho de Spearman es r s 0, 412 , por tanto se puede decir que la correlación entre los años de servicio y el estrés laboral es moderada.
29
4. TAU b DE KENDALL Ejemplo: Se desea saber si el nivel de educación (primaria-secundaria-superior) es un factor predictivo para la consistencia o adherencia (buena-regular-mala), a un determinado tratamiento por parte de un grupo de personas. Las variables son categóricas y además sus escalas son iguales (3x3), entonces se debe utilizar el estadístico de prueba Tau b de Kendall.
Hipótesis: El nivel de educación es un factor predictivo para la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.
Ho: NO existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.
Ha: Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.
5% α
Nivel de Significación:
0,05 r b
Prueba Estadística: Tau b de Kendall
CD (C D E x1)(C D E x2 )
Contrastación: r t 0,349
y
p 0,007 Correlaciones Grado de Estudios Coeficiente de correlación
Grado de Estudios
N Coeficiente de correlación Tratamiento
1,000
0,349**
.
0,007
50
50
**
1,000
,007
.
50
50
Sig. (bilateral)
Tau_b de Kendall Adherencia al
Adherencia al Tratamiento
Sig. (bilateral) N
,349
**. La correlación es significativa al ni vel 0,01 (bilateral).
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,007 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.
30
5. TEST DE MANN-WHITNEY Ejemplo: Se desea comparar si el grado de hipertrofia adenoidea es el mismo que en hombres y mujeres en un determinado grupo de niños. El objetivo es comparar grupos independientes y además la variable es ordinal , entonces se debe utilizar el estadístico de prueba U de Mann-Wihtney.
Hipótesis: El grado de hipertrofia adenoidea es distinto en hombres y mujeres, en un determinado grupo de niños.
Ho: El grado de hipertrofia adenoidea no es distinto en hombres y mujeres. Ha: El grado de hipertrofia adenoidea es distinto en hombres y mujeres. 5% α
Nivel de Significación:
0,05
Prueba Estadística: U de Mann-Wihtney
Z
U µU σ
U
Contrastación: U 196,500
y
p 0,032
Estadísticos de contraste a Grado de Hipertrofia Adenoidea U de Mann-Whitney
196,500
W de Wilcoxon
692,500
Z Sig. asintótica (bilateral)
-2,142
0,032
a. Variable de agrupación: Sexo
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,032 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El grado de hipertrofia adenoidea es distinto en hombres y mujeres.
6. PRUEBA DE MCNEMAR Se estudia a 10 pacientes con cólico nefrítico. Todos ellos han sido tratados en un episodio de cólico con Metamizol y en otro episodio con Ketorolaco. Ambos fármacos son analgésicos que se usan para controlar el dolor de cólico nefrítico. Se busca conocer que tratamiento es más eficaz.
31
El objetivo es establecer diferencias entre el antes y después de aplicar dos medicamentos y comparar su efectividad. Como las variables son cualitativas dicotómicas, entonces se debe utilizar el estadístico de prueba de McNemar.
Hipótesis: Existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.
Ho: No existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.
Ha: Existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.
5% α
Nivel de Significación:
2
Prueba Estadística:
χc
0,05 (Oi E i )
2
E i
Contrastación: 2
χc
0,104
y
p 0,625 Pruebas de chi-cuadrado Valor
gl
Sig. asintótica
Sig. exacta
Sig. exacta
(bilateral)
(bilateral)
(unilateral)
0,104a
1
,747
Corrección por continuidad
,000
1
1,000
Razón de verosimilitudes
,103
1
,749
Chi-cuadrado de Pearson
Estadístico exacto de Fisher Asociación lineal por lineal
1,000 ,094
1
,759
0,625c
Prueba de McNemar N de casos válidos
,667
10
a. 4 casillas (100.0%) tienen una frecuencia esperada inferior a 5. b. Calculado sólo para una tabla de 2x2. c. Utilizada la distribución binomial
Decisión: Ho se acepta. Conclusión: Como el p valor es p 0,625 mayor que el nivel de significancia α 5% 0,05 podemos concluir que se acepta la hipótesis nula y se rechaza la hipótesis alterna. Por tanto:
Ho: No existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.
32
7. PRUEBA DE KRUSKAL-WALLIS Se estudia la asistencia a tres clínicas diferentes de 18 pacientes que asisten con un determinado intervalos de días. Se busca conocer si la media de asistencia a las tres clínicas son iguales o no. El objetivo es establecer si existe o no diferencias
entre las medianas, respecto a la
asistencia de los pacientes. La variable clínica es categórica (tiene tres categorías) y la variable asistencia es cuantitativa, por tanto el estadístico de prueba es la de
H de
Kruskal-Wallis.
Hipótesis: Existen diferencias, respecto a las asistencias de los pacientes, en las tres clínicas.
Ho: No existen diferencias respecto a las asistencias de los pacientes Ha: Existen diferencias respecto a las asistencias de los pacientes 5% α
Nivel de Significación:
0,05
R k R1 R 2 12 H ....... 3( N 1) N ( N 1) n1 n2 n k 2
Prueba Estadística:
2
2
Contrastación: p 0,016 Estadísticos de contraste a,b Días de asistencia Chi-cuadrado gl Sig. asintót.
8,214 2
0,016
a. Prueba de Kruskal-Wallis b. Variable de agrupación: Clínica
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,016 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:
Ha: Existen diferencias respecto a las asistencias de los pacientes en las tres clínicas.
33
8.
TEST DE WILCOXON
Ejemplo: Se desea comparar los pesos de un grupo antes y después de un mes de entrenamiento. Supongamos que tienen síndrome metabólico por lo tanto se espera que reduzcan su peso en forma significativa después del entrenamiento. El objetivo es comparar las medias de grupos relacionados y además variable peso no tiene distribución normal, entonces se debe utilizar el estadístico de prueba
W de
Wilcoxon.
Hipótesis: El peso de las personas difiere después de aplicar un programa de ejercicios Ho: El peso de las personas no difiere después de aplicar un programa de ejercicios. Ha: El peso de las personas difiere después de aplicar un programa de ejercicios. 5% α
Nivel de Significación:
0,05
Prueba Estadística: W de Wilcoxon
W Ri zi
Contrastación: Z 5,546
y
p 0,000 Estadísticos de contraste a Peso después del Programa - Peso antes del Programa
Z Sig. Asintótica (bilateral)
-5,546b 0,000
a. Prueba de los rangos con signo de Wilcoxon b. Basado en los rangos positivos.
Decisión: Ho se rechaza. Conclusión: Como el p valor es p 0,000 menor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El peso de las personas difiere después de aplicar un programa de ejercicios. Es decir que el programa ha sido efectivo.
34
9. Q DE COCHRAN Mide las variaciones de una variable en un intervalo de tiempo. Las evaluaciones de las variaciones son dicotómicas.
Ejemplo 1 Se examinó a un grupo de 7 pacientes luego de un implante molar y f ueron tratados con un fármaco para aliviar posibles dolores y molestias post implante. Se les hizo un seguimiento (evaluación) a los 3, 7,15 y 30 días para ver si aparecía el dolor. Además, las valoraciones son binarias: 1=presenta dolor y 2=no presenta dolor.
Nota: Distinto a Kendal, donde las valoraciones van de 1 a 4 o de 1 a 10. Las hipótesis son: H: La proporción de pacientes con dolor se mantuvo ( fue igual) a lo largo del tiempo en el grupo de pacientes. Ho: La proporción de pacientes con dolor se mantuvo a lo largo del tiempo. H1: La proporción de pacientes con dolor ha variado a lo largo del tiempo.
5% α
Nivel de Significación:
Prueba Estadística:
0,05
k k 2 (k 1) k C j C j j 1 j 1 Q k
k
n
C R j
j 1
2
2
i
i 1
Nota: El valor k=4 (numero de mediciones) y n=7 (número de pacientes)
Contrastación: Q de Cochran
Q 11,80
y
p 0,008
Estadísticos de contraste N Q de Cochran
7
11,800a
gl Sig. asintótica
3
0,008
a. 0 se trata como un éxito.
Decisión: Ho se acepta.
35
Conclusión: Como el p valor es p 0,008 mayor que el nivel de significancia α 5% 0,05 podemos concluir que se rechaza la hipótesis nula y se acepta la hipótesis alterna, entonces: H1: La proporción de pacientes con dolor ha variado a lo largo del tiempo. Nota: esta prueba no nos dice si el fármaco es efectivo, solo que existe una variación de la proporción de pacientes con dolor (puede haber disminuido o puede haber aumentado). Según la siguiente tabla: Frecuencias Valor 0
1
Evaluación a los 3 días
2
5
Evaluación a los 7 días
6
1
Evaluación a los 15 días
1
6
Evaluación a los 30 días
2
5
Solo podemos afirmar que el fármaco fue efectivo después de una semana (después de 7 días el dolor disminuyó).
VALIDACION DE INSTRUMENTOS DE RECOLECCION DE DATOS Los resultados de una investigación tienen como sustento el análisis de los datos obtenidos, por lo tanto es muy importante que los instrumentos utilizados para la recolección de datos sean válidos y confiables, porque de lo contrario arribaríamos a resultados y a conclusiones erróneas.
Validez y confiabilidad de un instrumento Validez. Es el grado en el que un instrumento, en verdad, mide la variable que se pretende medir. Por ejemplo, un instrumento diseñado para medir la inteligencia, debe medir la inteligencia y no la memoria. Existen dos tipos de validez: de contenido y de constructo.
Validez de contenido. Es el grado que un instrumento refleja un dominio específico de contenido de lo que se mide. Por ejemplo, una prueba de operaciones aritméticas no tendría validez de contenido, si solo incluye operaciones de adición y sustracción y no de multiplicación y división. Para obtener la validez de contenido se recurre al juicio de expertos.
Validez de constructo. La validez de constructo debe explicar el modelo teórico que subyace a la variable de interés. Para obtener la validez de constructo se hace uso del análisis de factores o cofactores o al análisis de covarianza.
36
View more...
Comments