Separata Estadistica Curso Titulacion Mayo 2015

May 28, 2018 | Author: Stefany Mozanapon Espinoza | Category: Sampling (Statistics), Statistical Dispersion, Statistics, Statistical Analysis, Probability And Statistics
Share Embed Donate


Short Description

Descripción: tesis...

Description

ESTADISTICA APLICADA A LA INVESTIGACION CIENTIFICA

La presente presente separa separata ta de estadística aplicada a la investigación científica, tiene por finalidad principal, la de proporcionar las herramientas estadísticas básicas a los estudiantes de pregrado, grado, de maestría maestría y de doctora doctorado, do, para para que puedan puedan identifi identificar car los estadí estadístico sticos s que van a utilizar en su tesis en el análisis de los datos, en la prueba de hipótesis, en la elaboración y validación del del instrumento que van a utilizar para recoger la información información (si el caso lo requiere), etc. etc. Asimis Asimismo, mo, en la elabo elaborac ració ión n de tabl tablas as (simp (simples les y comp compues uestas tas)) y gráfico gráficos s (linea (lineales les,, circulares, de barras, histogramas, etc). Todo lo mencionado se realizará mediante el uso del software estadístico SPSS-21

1. LA ESTA ESTADÍ DÍST STICA ICA.. La Estadística es una ciencia que estudia los métodos y procedimientos para: recoger , organizar , y resumir datos; para detectar regularidades, patrones o tendencias en su comportamiento; para analizar los datos siempre y cuando la variabilidad e incertidumbre sea una causa causa intrínseca intrínseca de los mismos mismos, así como de realizar  inferencias a partir de ellos, con la finalidad de ayudar a tomar decisiones y, en otros casos, formular predicciones. Uno de sus objetivos fundamentales es utilizar la información información suministrada suministrada por una parte de la población, llama lamada da muestra, para hacer  inferencias sobre el total de la mism misma, a, siempre siempre asociada asociada a una una probabilidad de error .

2. CLASIFICACIÓN CLASIFICACIÓN DE LA ESTADÍSTICA. ESTADÍSTICA. descriptiva, cuando los los resultados del del análisis La Estadí Estadíst stica ica descr descript iptiva iva:: La estadística es descriptiva, no pretenden pretenden ir más allá allá del conjunto conjunto de datos: datos: los describe, describe, analiz analiza a y representa representa utilizan utilizando do métodos numéricos numéricos y gráficos que resumen resumen y presentan presentan la la información. información. estadística es inferencial inferencial cuando el objetivo objetivo del estudio es La Estadí Estadíst stica ica infer inferenc encial ial:: La estadística derivar las conclusiones conclusiones obtenidas a un conjunto conjunto de datos más amplio. amplio. Para ello se apoya apoya en el cálcul cálculo o de proba probabi bililidad dades es y a partir partir de dat datos os muest muestral rales es,, efectú efectúa a estima estimacio ciones nes,, toma toma decisiones, realiza predicciones u otras generalizaciones generalizaciones sobre sobre un conjunto conjunto mayor de datos. datos. La estadística inferencial está formada por la estadística paramétrica y la estadística no paramétrica.

3. ELEMENTOS DE LA ESTADÍSTICA. Se estable establece ce a contin continua uació ción n alguna algunas s definic definicion iones es de concep conceptos tos básico básicos s y fundame fundamenta ntales les como son: elemento, elemento, población, población, muestra, variables, variables, etc., personas u objetos objetos (unidad (unidad de de analisi analisis), s), que contie contienen nen ciert cierta a Individuos o elementos: personas información que se desea estudiar.

Población: conjunto de individuos o elementos que cumplen ciertas propiedades comunes. 1

subconjun junto to de una pobla població ción. n. Una muestr muestra a debe debe ser  representativa; es Muestra: es un subcon decir decir debe debe tener tener un número número óptimo óptimo de las unidades unidades de anális análisis is del estudio estudio o de la investigación y, representar las características de la población en estudio.

Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población. uno de los distintos distintos resultados resultados que se pueden obtener obtener en un estudio Valor: Un valor es cada uno estadístico. Si utilizamos la escala visual visual analógica (EVA) (EVA) para medir medir el dolor a cinco personas, podemos obtener obtener diez valores posibles: posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. cada uno de los los valores valores que que se ha obteni obtenido do al realizar realizar un un estudio estudio Dato: Un dato es cada estadístico. Si utilizamos utilizamos la la escala escala EVA para medir el dolor a cinco personas podemos obtener cinco datos posibles: 2, 4, 0, 2, 9.

4. OBTENCION DE UNA MUESTRA 4.1. Tamaño Tamaño de la muestra muestra Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elementos elementos se debe incluir en la muestra. muestra. El tamaño correcto de la la muestra depende de tres factores: a)

El niv nivel el de de conf confia ianz nza a dese desead ado. o.

b)

El máximo máximo error error permi permisib sible le por el inves investig tigado ador. r.

c)

La vari variaci ación ón en en la poblac población ión que se estu estudi dia. a.

El gr ado de err or que qu e el investiga investigador dor puede puede tolerar tolerar depen depende de de lo critic critico o que sea sea el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves. Para determinar determinar el tamaño de la muestra de un estudio, estudio, se consideran consideran diferentes diferentes aspectos, tales como: estimación estimación de medias, estimación de proporciones, proporciones, estimación de parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o finita.

4.1.1.. Para poblaciones 4.1.1 poblaciones infinitas infinitas Si desconoce desconocemos mos la població población, n, el tamaño tamaño de la muestra muestra se obtiene obtiene a partir partir de la formula formula siguiente:

n

 Z

2

pq



2



Donde:

n : es el tamaño de la muestra. muestra.

 Z : Número de unidades unidades de desviación desviación estándar estándar en la distribució distribución n normal que producirá el nivel deseado de confianza (para una confianza del 1, 96 ; para una confianza del 99%,  Z    2,58 ). 95%,  Z    1,

2

subconjun junto to de una pobla població ción. n. Una muestr muestra a debe debe ser  representativa; es Muestra: es un subcon decir decir debe debe tener tener un número número óptimo óptimo de las unidades unidades de anális análisis is del estudio estudio o de la investigación y, representar las características de la población en estudio.

Muestreo: es la reunión de datos que se desea estudiar, obtenidos de una proporción reducida y representativa de la población. uno de los distintos distintos resultados resultados que se pueden obtener obtener en un estudio Valor: Un valor es cada uno estadístico. Si utilizamos la escala visual visual analógica (EVA) (EVA) para medir medir el dolor a cinco personas, podemos obtener obtener diez valores posibles: posibles: 0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10. cada uno de los los valores valores que que se ha obteni obtenido do al realizar realizar un un estudio estudio Dato: Un dato es cada estadístico. Si utilizamos utilizamos la la escala escala EVA para medir el dolor a cinco personas podemos obtener cinco datos posibles: 2, 4, 0, 2, 9.

4. OBTENCION DE UNA MUESTRA 4.1. Tamaño Tamaño de la muestra muestra Una de las preocupaciones más comunes cuando se diseña un estudio estadístico es saber cuántos elementos elementos se debe incluir en la muestra. muestra. El tamaño correcto de la la muestra depende de tres factores: a)

El niv nivel el de de conf confia ianz nza a dese desead ado. o.

b)

El máximo máximo error error permi permisib sible le por el inves investig tigado ador. r.

c)

La vari variaci ación ón en en la poblac población ión que se estu estudi dia. a.

El gr ado de err or que qu e el investiga investigador dor puede puede tolerar tolerar depen depende de de lo critic critico o que sea sea el estudio. Algunos estudios de investigación, por su naturaleza, requieren resultados exactos. Por el contrario, hay casos en que los errores grandes tienen consecuencias menos graves. Para determinar determinar el tamaño de la muestra de un estudio, estudio, se consideran consideran diferentes diferentes aspectos, tales como: estimación estimación de medias, estimación de proporciones, proporciones, estimación de parámetros, etc. En nuestro caso vamos a considerar si la población es infinita o finita.

4.1.1.. Para poblaciones 4.1.1 poblaciones infinitas infinitas Si desconoce desconocemos mos la població población, n, el tamaño tamaño de la muestra muestra se obtiene obtiene a partir partir de la formula formula siguiente:

n

 Z

2

pq



2



Donde:

n : es el tamaño de la muestra. muestra.

 Z : Número de unidades unidades de desviación desviación estándar estándar en la distribució distribución n normal que producirá el nivel deseado de confianza (para una confianza del 1, 96 ; para una confianza del 99%,  Z    2,58 ). 95%,  Z    1,

2

 p : Proporción esperada o estimada (cuando no se conoce, 50% = 0,5). q : Se determina mediante: q  1  p (en este este caso caso 1 – 0,5 = 0,5) 0,5).. d  : Es Es el lími límite te acep acepta tabl ble e de de erro errorr mue muest stra ral. l. Cuan Cuando do no se cono conoce ce este este valor, se utiliza valores desde desde 0,01 hasta 0,09.

Ejemplo: ¿A cuántas personas tendríamos que estudiar para conocer la prevalencia de diabetes?  Z   1, 96 , para una confianza del 95%  p   0, 5 , proporción esperada (50%) q   0, 5 , (1 (1 – 0,05 ,05)

d   0, 05 , (no se conoce su valor) 2

n

(1, 9 6) 6)  0, 5  0 , 5 (0,05)

2

 3 84

4.1.1.. Para poblacion 4.1.1 poblaciones es finitas Si conocemos la población, población, el tamaño de la la muestra se obtiene obtiene a partir de la formula siguiente: 2

n

 N  Z  p  q 2

2

d  ( N  1)  Z  p  q

Donde N  : es el número número total de la población. población. cuántas personas personas tendría tendría que estudi estudiar, ar, de una poblaci población ón de 800 Ejemplo. ¿A cuántas

habitante habitantes, s, para conoc conocer er la prevalen prevalencia cia de diabet diabetes, es, con un un límite límite de error error muestral muestral del del 5%?  N   800  Z   1, 96 , para una confianza del 95%  p   0, 5 , proporción esperada (5%) q   0, 5 , (1 – 0,5) ,5) d   0, 05 2

n

8 00 00  (1 (1, 9 6) 6)  0, 5  0 , 5 2

2

( 0, 0, 0 5) 5)  (8 00 00  1)  (1, 9 6) 6)  0, 0 5  0, 0, 5

 2 59

4.2.. Selecc 4.2 Selección ión de la muest muestra ra 4.2.1. Muestreo probabilístico La muestra es probabilística probabilística cuando cada unidad de análisis de la población tiene la probabilidad de ser ser incluida incluida en la muestra muestra.. Cuando Cuando una muestra muestra es probabilística, el riesgo de llegar a decisiones y conclusiones incorrectas se 3

puede medir  usando la teoría de la probabilidad; por tanto, pueden ser objetos de un análisis y tratamiento estadístico. Existen, al menos, cuatro métodos comúnmente más utilizados: muestreo aleatorio simple, muestreo aleatorio sistemático, muestreo aleatorio estratificado y muestreo aleatorio por conglomerado. Para nuestro caso solo nos interesa el muestreo aleatorio simple, que se puede realizar de dos formas: a) Usando una caja. Se coloca cada unidad de análisis escrita en un papelito, luego se extraen sucesivamente, hasta completar el número requerido para la muestra. b) Usando la tabla de números aleatorios. Previamente, se enumeran todos los elementos de la población, con igual número de cifras que tiene el tamaño de la población (N). Luego se utiliza una tabla elaborada especialmente para estos propósitos.

4.2.2. Muestreo no probabilístico Las muestras se caracterizan por que no es posible determinar la probabilidad de

inclusión de cada unidad de análisis de la población, en la muestra extraída. Por esta razón, no hay forma de medir el riesgo de llegar a conclusiones erróneas a partir de estas muestras no probabilísticas. Dado que la confiabilidad de los resultados de estas muestras no puede medirse, las muestras no probabilísticas, no se prestan para el tratamiento y análisis estadístico. Los tipos más comunes de muestreo no probabilístico son: muestreo por conveniencia o de juicio y por voluntarios.

5. ORGANIZACION DE LOS DATOS 5.1. Variables estadísticas Cuando hablemos de variable haremos referencia a un símbolo ( X, Y, A, B,. . . ) que puede tomar cualquier valor de un conjunto determinado, que llamaremos dominio de la variable o rango. En función del tipo de dominio, las variables se clasifican en:

VARIABLES CUALITATIVAS. Pueden ser de tipo nominal y ordinal. Son de tipo nominal cuando los valores (modalidades) son de tipo nominal. Por  ejemplo, el grupo sanguíneo: A, B, AB, O. Son de tipo ordinal cuando son nominales pero, es posible establecer un orden entre ellas. Por ejemplo, si estudiamos el grado de recuperación de un paciente al aplicarle un tratamiento, podemos tener como modalidades. Por ejemplo, grado de recuperación

de un paciente: Nada, Poco, Moderado, Bueno, Muy Bueno.  A veces se representan este tipo de variables en escalas numéricas, por ejemplo, cuando se establecen puntuaciones para establecer la intensidad del dolor en una escala de 0 a 10 (EVA). Sin embargo, es imposible realizar operaciones algebraicas

4

con estas cantidades. ¡Un dolor de intensidad 4 no es el doble que otro de

intensidad 2!. VARIABLES CUANTITATIVAS O NUMÉRICAS Son las que tienen por modalidades cantidades numéricas con las que podemos hacer  operaciones aritméticas. Dentro de este tipo de variables podemos distinguir dos grupos:

Discretas, cuando no admiten valores intermedios entre dos valores cualesquiera. Un ejemplo es el número de hijos en una familia: Número de hijos posibles: 0, 1, 2, 3, 4, 5, . . .

Continuas, cuando admiten valores intermedios entre dos valores cualesquiera. Por  ejemplo, el peso (3,480 kg) de un niño al nacer. En realidad lo que ocurre es que con cada una de esas mediciones expresamos que el verdadero valor de la misma se encuentra en un intervalo de amplitud 0,005. Por tanto cada una de las observaciones de X representa más bien un intervalo que un valor  concreto.

5.2. Tablas estadísticas Consideremos una población estadística de N  individuos, establecida de acuerdo a una variable C  cuyas valores (modalidades) han sido agrupados en un número k  de clases, que denotamos mediante c1 , c 2 , . . . , k . Para cada una de las clases ci , i  1, 2, ..... k  , se establecen las siguientes magnitudes:

Frecuencia absoluta de la clase ci , es el número F i , de observaciones que presentan un valor perteneciente a esa clase.

Frecuencia relativa de la clase ci , es el cociente  f i , entre las frecuencias absolutas de dicha clase y el número total de observaciones, es decir   f i 

F i  N 

Obsérvese que  f i es el tanto por uno de observaciones que están en la clase ci . multiplicado por 100% representa el porcentaje, de la población, que tiene esa clase.

Frecuencia absoluta acumulada ( FAi ). Se calcula sobre variables cuantitativas, y es el número de elementos de la población cuyo valor (modalidad) es inferior o equivalente al valor  ci :   ......  Fi  FAi  F1  F 2 

i

F j  j 1

Frecuencia relativa acumulada (  fAi ). Se calcula sobre variables cuantitativas, siendo el tanto por uno de los elementos de la población que están en alguna de las clases y que presentan una modalidad inferior o igual a la ci , es decir,

5

F i

 fAi 



 N

F1  F2  ......  F i N 

 f 1  f 2  ......  f i 

i

fj  j 1

Se llama distribución de frecuencias, al conjunto de clases junto a las frecuencias correspondientes a cada una de ellas. Una tabla estadística nos permite representar  en forma ordenada las distribuciones de frecuencias. Las tablas suelen ser de dos tipos: tablas simples y compuestas (tablas de contingencia). Estas tablas se presentan con una numeración, un título y la fuente de origen.

Ejemplo 1.  A continuación se muestra una tabla simple de distribución de frecuencias y la forma de presentarla: Tabla Nº 01: Resultados de la evaluación de la muestra Frecuencia

Porcentaje

Porcentaje acumulado

 A

Logro Previsto

4

11,4

11,4

B

En Proceso

16

45,7

57,1

C

En Inicio

15

42,9

100,0

35

100,0

Total

Fuente: Elaborada por el investigador 

Ejemplo 2.  A continuación se muestra una tabla compuesta (de contingencia) de distribución de frecuencias: Tabla Nº 02: Alteraciones de la lordosis lumbar por grupo etáreo  Alteraciones de la Lordosis Lumbar Hipolordosis

%

Hiperlordosis

Total %

Recuento

%

de 30 a 39 años

1

2,0

10

21,7

11

23,9

Grupo Etáreo de 40 a 49 años

5

10,9

20

43,5

25

54,3

de 50 a 59 años

0

0,0

10

21,7

10

21,7

6

13,0

40

87,0

46

100,0

Total

Fuente: Elaboración propia

Nota: en el caso que la tabla no ha sido elaborada por el investigador, se debe indicar su origen.

6

5.3 Representaciones Gráficas Hemos visto que las tablas estadísticas resumen los datos que disponemos de una población, de forma que ésta se puede analizar de una manera más sistemática y resumida posible. Sin embargo para presentar esta información y que resalten las características de la población se utilizan gráficos y diagramas.

Gráficos para variables cualitativas. Los gráficos más usuales para representar  variables de tipo nominal son los siguientes: graficas de barra simple y compuesta, grafico de sectores o circulares, histogramas, diagrama de Pareto, diagrama de cajas y bigotes, gráficos lineales, etc.

Diagramas de barras: En la siguiente figura se representa en el eje de ordenadas los valores (modalidades) y en la abscisa las frecuencias absolutas o las frecuencias relativas.

Grafica Nº 01: Ocupación de la muestra

Si mediante el grafico se intenta comparar varias poblaciones entre sí, se utilizan las barras compuestas, como se muestra en la gráfica siguiente. Cuando los tamaños de las dos poblaciones son diferentes, es conveniente utilizar las frecuencias relativas.

7

Grafica Nº 02: Distribución de la muestra por talla

Diagramas de sectores (también llamados tortas). Se divide un círculo en tantas porciones como clases existan, de modo que a cada clase le corresponde un arco de círculo proporcional a su frecuencia absoluta o relativa. Este diagrama es conveniente cuando se quiere presentar los resultados en forma solo porcentual.

Grafica Nº 03: Tiempo de duración del dolor de la muestra

8

Gráfico para variable continua Histograma. Se construye a partir de la tabla de distribución de frecuencias, representando sobre cada intervalo, un rectángulo que tiene a este segmento como base. El criterio para calcular la altura de cada rectángulo es el de mantener la proporcionalidad entre las frecuencias absolutas (o relativas) de cada intervalo y el área de los mismos, como se puede ver en la figura siguiente:

40

45

50

55

60

65

70

75

Gráfico Nº 04: Pesos de la muestra

Diagrama de Pareto El diagrama de Pareto consiste en clasificar los factores que intervienen en un proceso por su orden de importancia, para poder tratar cada uno de ellos de forma adecuada a su peso específico. En realidad, no deja de ser un histograma que ordena las clases de mayor a menor frecuencia, junto a un polígono de frecuencias acumulado.

9

ESTADISTICA DESCRIPTIVA La estadística descriptiva es una parte de la estadística que se encarga de recolectar, ordenar, analizar y representar un conjunto de datos, con el fin de describir apropiadamente sus características principales e importantes. Este análisis es muy básico, pero nos permite tener un conocimiento claro, respecto a las características principales, que tiene una variable. En todo análisis estadístico es necesario comenzar utilizando la estadística descriptiva, para luego abordar el análisis desde la perspectiva de la estadística inferencial. Los estadísticos descriptivos principales son: las mediadas de tendencia central (media, mediana y moda), las medidas de posición (cuartiles, deciles y percentiles), medidas de variación o dispersión (desviación típica o estándar, varianza, coeficiente de variación) y las medidas de forma (asimetría y apuntamiento o curtosis).

MEDIDAS DE TENDENCIA CENTRAL Las medidas de tendencia central son valores numéricos que representan la tendencia de todo el conjunto de datos estadísticos que se tiene. Las medidas de tendencia central más importantes son la media aritmética, la mediana y la moda.

1. La Media Aritmética.  X  La media aritmética es el estadígrafo de posición más importante ya que representa mejor al grupo de datos y es valor estadístico más fiable. Se le conoce además, como media y promedio. La media aritmética es el valor promedio de los valores observados de la variable.

2. La Mediana. (Me) La mediana es el valor que divide a la muestra en dos partes iguales; es decir que cada parte equivale al 50% de la muestra. El valor de la mediana es más recomendable que la media aritmética cuando existen valores extremos bastantes grandes o muy pequeños y, si se tiene datos cualitativos que se pueden ordenar de acuerdo a categorías.

Ejemplo: Se tiene una muestra de 46 personas cuyas edades son las siguientes: 34 33 32 37 50 52 51 52 34 36 47 37 43 44 48 52 55 50 41 37 34 31 55 49 36 42 48 50 52 48 42 43 41 53 52 32 37 52 30 31 43 54 36 51 50 30

La media y la mediana de dicha muestra son: Estadísticos Descriptivos N

Válidos

46

Media

43,20

Mediana

43,00

Edad mínima

30

Edad máxima

55

La media aritmética (media o promedio) es de 43. Se interpreta que la edad promedio de la muestra es de 43 años. La mediana también es 43 y se interpreta que el 50% de la muestra tienen edades menores o iguales a 43 años y el otro 50% tienen edades mayores a 43 años. 10

MEDIDAS DE VARIACIÓN O DE DISPERSIÓN Si se quiere hacer una descripción más detallada de una muestra, es necesario identificar el grado de dispersión o concentración que tiene dicha muestra, en relación a un valor central. Para realizar un análisis más detallado se hace uso de otras medidas que permiten identificar  otras características. Estas medidas son los estadígrafos de variación o de dispersión. Por su naturaleza estas medidas se aplican únicamente a las variables cuantitativas. Una dispersión excesiva revela que la muestra es heterogénea; por el contrario una dispersión muy leve indica que la muestra es homogénea. Las medidas de dispersión más utilizadas son: la desviación típica o estándar, la varianza y el coeficiente de variación.

1. Desviación Estándar o típica (DS) La desviación estándar es la raíz cuadrada de la media de los cuadrados de las desviaciones con respecto a la media aritmética. Luego, si se tiene K  observaciones, cuya media aritmética es X  , su desviación estándar será:

 DS  

  K    X 

2

n

La desviación estándar es una de las medidas de dispersión más confiables. Nos permite establecer la dispersión (alejamiento o acercamiento) de los datos respecto a la media. Esto permite establecer la homogeneidad o heterogeneidad de la muestra.

Ejemplo: Se tiene una muestra de 70 personas cuyos pesos son los siguientes: 55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62 55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70

La desviación estándar o típica y la media de los pesos se muestran en la tabla siguiente: Estadísticos Descriptivos Peso Válidos

70

N Perdidos

0

Media

57,77

Desviación típica

9,255

Mínimo

40

Máximo

75

11

La desviación estándar o típica es de 9,255. Se interpreta que el peso promedio puede estar comprendido entre 57,77 ± 9,255 kg. (48, 515 y 67, 025).

2. Varianza ( S 2 ) La varianza se define como la media de las diferencias cuadráticas de  n puntuaciones con respecto a su media aritmética, es decir:

S

2



1

n

( x n 1

i

 x )2

i 1

El uso del coeficiente de variación para evaluar la imprecisión de un método de análisis es común en el laboratorio.

Ejemplo: Las ventas realizadas en 10 días de uno de los meses por tres vendedores de una compañía fueron las siguientes: Ventas de Pedro: 5, 18, 8, 12, 17, 19, 25, 17, 17, 20 Ventas de Andrés: 5, 17, 17, 17, 17, 17, 17, 17, 17, 17 Venta de Carlos: 5, 6, 10, 20, 21, 20, 19, 18, 19, 20 Determina la media y la varianza para estos tres vendedores. De acuerdo al valor de la media, ¿Qué se puede decir de estos vendedores?. De acuerdo al valor de la varianza, ¿Quién consideras que es más consistente en sus ventas? La relación de la varianza de los tres vendedores es: _______________________________  a) ¿Cuál de los tres tiene mayor varianza? _________________________________  b) ¿Qué podemos inferir de este resultado? ________________________________  c) Si tú fueras el gerente de ventas, ¿Qué medidas dictaminarías? ______________   ____________________________________________________________________ 

3. Coeficiente de Variación (CV) El coeficiente de variación permite comparar la dispersión de dos o más distribuciones y de esa manera determinar la homogeneidad o heterogeneidad de las muestras que se analizan. Su valor se expresa en términos de porcentaje. El coeficiente de variación es el cociente entre la desviación estándar y la media aritmética multiplicado por 100%; es decir:

CV  

 DS   X 

 100%

12

Ejemplo: Los estudios de bioequivalencia de los medicamentos A y B (bioequivalencia se refiere a la velocidad y proporción en que el mismo principio activo de dos medicamentos «iguales» alcanza la circulación sistémica), indican que existe una diferencia 12% entre la variabilidad de ambos.

CV  A  5%

CV  B  17%

MEDIDAS DE FORMA La representación gráfica de la distribución de frecuencias toma diferentes formas, que nos permiten identificar y comparar, con mayor facilidad, los estadísticos o parámetros en forma visual. Las formas en que se presentan las gráficas de una distribución de frecuencias se pueden generalizar en dos tipos: curvas simétricas y curvas asimétricas.

Curvas Simétricas La curva simétrica es la representación gráfica de una distribución de frecuencias cuyo eje de simetría es la media x . Las curvas simétricas se caracterizan por su curtosis, la cual es la forma de la puntiagudez que presenta la parte superior de la gráfica. Por su curtosis las curvas simétricas se clasifican en: platicúrtica, leptocúrtica y mesocúrtica.

µ

µ

µ

La platicúrtica presenta una zona casi horizontal en su punto máximo, su puntiagudez es casi nula. La leptocúrtica presenta un pico muy agudo. La mesocúrtica es semejante a la curva normal de Gauss. Como podemos ver, las tres gráficas son simétricas con respecto a la media y tienen forma de campana. Como ya se dijo, la curtosis es el grado de “puntiagudez” de la gráfica de una distribución de frecuencias y ésta se simboliza con la letra K.

13

El valor de K define la curtosis de la gráfica, tal que: 

Si = 0, la curva es mesocúrtica (curva normal).



Si > 0, la curva es leptocúrtica.



Si < 0, la curva es platicúrtica.

Curvas Asimétricas Ya se mencionó que las medidas de dispersión, solamente indican la magnitud de las variaciones, pero no dan ninguna información acerca de la dirección hacia la cual se dispersan. Las curvas asimétricas son las que nos indican hacia donde se inclina la dispersión de los datos. Estas gráficas se caracterizan por la posición que tiene las medidas de tendencia central. Podemos generalizar su presentación mediante las siguientes gráficas:

ACTIVIDAD DE REGULACIÓN

 x  Me  Mo

 x  Me Mo

 Mo  Me x

La primera curva es simétrica y la media, la mediana y la moda coinciden en el centro. La segunda curva es asimétrica. En el centro se encuentra la moda a la izquierda la mediana y más a la izquierda la media, por lo que se le denomina sesgada a la izquierda. En la última curva la moda está en el centro, a la derecha la mediana y más a la derecha la media, por lo que se le denomina sesgada a la derecha.

14

ESTADISTICA INFERENCIAL La estadística inferencial es una parte de la estadística que se encarga del estudio de cómo

obtener conclusiones generales para toda la población, a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Es decir que nunca nos ofrecerá una seguridad absoluta, sino una respuesta basada en la probabilidad.  Además, es fundamental tener en cuenta que la estadística no decide; sólo ofrece elementos para que el investigador decida.

ESTADISTICA PARAMETRICA Y NO PARAMETRICA Estadística paramétrica La estadística paramétrica es una rama de la estadística inferencial, que comprende los procedimientos estadísticos y de decisión que están basados en las distribuciones de los datos reales. Estas son determinadas usando un número finito de parámetros. Esto es, por ejemplo, si conocemos que la altura de las personas sigue una distribución normal, pero desconocemos cuál es la media y la desviación de dicha normal. La media y la desviación típica de la desviación normal son los dos parámetros que queremos estimar. La mayoría de procedimientos paramétricos, requiere conocer la forma de distribución para las mediciones resultantes de la población estudiada. Para la inferencia paramétrica es requerida como mínimo una escala de intervalo (variable cuantitativa), esto quiere decir que nuestros datos deben tener un orden y una numeración del intervalo. Es decir nuestros datos pueden estar categorizados en: menores de 20 años, de 20 a 40 años, de 40 a 60, de 60 a 80, etc, ya

datos categorizados (variables cualitativas) en: niños, jóvenes, adultos y ancianos no pueden ser  interpretados mediante la estadística paramétrica ya que no se puede hallar un parámetro que hay números con los cuales realizar cálculos estadísticos. Sin embargo,

numérico (como por ejemplo la media de la edad) cuando los datos no son numéricos.

Parámetro En estadística, un parámetro es un número que resume la ingente cantidad de datos que pueden derivarse del estudio de una variable. El cálculo de este número se realiza a través de estimaciones, utilizando para ello los estadígrafos (media, desviación estándar, etc) a partir de datos de una muestra de esa población. Los parámetros estadísticos son una consecuencia inevitable del propósito esencial que tiene la estadística: crear un modelo de la realidad. El estudio de una gran cantidad de datos individuales de una población, puede ser engorroso por lo que se hace necesario realizar un resumen que permita tener una idea global de la población, compararla con otras, comprobar su ajuste a un modelo ideal, realizar estimaciones sobre datos desconocidos de la misma y, en definitiva, tomar decisiones. A estas tareas contribuyen de modo esencial los parámetros estadísticos. 15

Principales parámetros En la estadística matemática e inferencial se utiliza el concepto de parámetro en su acepción matemática más pura, esto es, como variable que define una familia de objetos matemáticos en determinados modelos. Así se habla, por ejemplo, de una distribución normal de parámetros μ  y σ  como de una determinada familia de distribuciones con una distribución de probabilidad de expresión conocida, en la que tales parámetros definen aspectos concretos como la esperanza, la varianza, la curtosis, etc. Otro ejemplo el de la distribución de Poisson, determinada por un parámetro, λ; o la distribución binomial, determinada por dos parámetros,  n y  p . Desde el punto de vista de la estadística matemática, el hecho de que estas distribuciones describan situaciones reales y los citados parámetros signifiquen un resumen de determinado conjunto de datos es indiferente. Los principales parámetros se agrupan en las siguientes categorías:

Medidas de posición. Se trata de valores de la variable estadística que se caracterizan por la posición que ocupan dentro del rango de valores posibles de esta. Entre ellos se distinguen: 

Las medidas de tendencia central: media, mediana y moda.



Las medidas de posición no central: cuantiles (cuartiles, deciles y percentiles).

Medidas de dispersión. Miden la heterogeneidad de los datos, lo separados que éstos están entre sí. Las principales son: el recorrido o rango, la desviación media, la varianza, la desviación típica o estándar. Las que expresan la dispersión en porcentaje, el coeficiente de variación, el coeficiente de apertura, los recorridos relativos y el índice de desviación respecto de la mediana.

Medidas de forma. Su valor informa sobre el aspecto que tiene la gráfica de su distribución. Entre ellas están los coeficientes de asimetría y los de curtosis.

Otros parámetros.  Además, y con propósitos más específicos, existen otros parámetros de uso en situaciones muy concretas, como son las proporciones, los números índice, las tasas y el coeficiente de Gini.

Distribución Normal En estadística y probabilidad se llama distribución normal o distribución de Gauss, a una de las distribuciones de probabilidad de variable continua que con más frecuencia aparece aproximada en fenómenos reales. Su gráfica tiene una forma

acampanada y es simétrica

respecto de un parámetro estadístico. Esta curva se conoce como campana de Gauss.  Algunas propiedades de la distribución normal son: 1.

Es simétrica respecto de su media μ.

2.

La moda y la mediana son ambas iguales a la media  μ.

16

3.

Los puntos de inflexión de la curva se dan para x =  μ  –  σ  y x =  μ  +  σ .

4.

La distribución de probabilidad, alrededor de la media, cumple: 

En el intervalo [ μ  -  σ ,  μ  +  σ ] se encuentra comprendida, aproximadamente, el 68,26% de la distribución;



En el intervalo [ μ  - 2σ ,

μ  + 2σ ] se encuentra, aproximadamente, el 95,44% de la

distribución; 

En el intervalo [ μ  -3σ , μ  + 3 σ ] se encuentra comprendida, aproximadamente, el 99,74% de la distribución. Estas propiedades son de gran utilidad para el establecimiento de

intervalos de confianza.

Distribución de probabilidad alrededor de la media en una distribución N( μ ,  σ )

La estadística paramétrica nos permite resolver tres tipos de problemas: 

La estimación puntual, en la que se pretende darle un valor al parámetro a estimar.



La estimación por intervalos, cuando se busca un intervalo de confianza.



El contraste de hipótesis, cuando se busca contrastar información acerca del parámetro.

Los principales estadísticos de prueba de la estadística paramétrica son: la T de Student, el

análisis de varianza (ANOVA) y la r de Pearson. Para utilizar estos estadísticos, es indispensable que se cumpla con los siguientes requisitos: a)

Las variables deben cuantitativas.

b)

La distribución de los datos deben seguir el modelo teórico de la distribución normal.

c)

Las varianzas, de las variables, deben ser iguales (homocedasticidad).

d)

Los datos deben superar, como mínimo, 30 casos.

17

Prueba de normalidad de una distribución Para determinar si los datos obtenidos, de una variable cuantitativa (discreta o continua), tiene distribución normal se utilizan dos pruebas estadísticas: la prueba de kolmogorov-smirnov (k-s) en el caso que los datos superen los 30 casos y la de Shapiro-Wilk en el caso que los datos sean menor a 30 casos.

Prueba de Kolmogorov-Smirnov (K-S) La prueba de Kolmogorov-Smirnov para una muestra es un procedimiento de "bondad de ajuste", que permite medir el grado de concordancia existente entre la distribución de un conjunto de datos y una distribución teórica específica. Es decir la prueba de KolmogorovSmirnov se utiliza para comprobar si los datos de una variable se distribuyen normalmente. Para realizar la prueba estadística de kolmogorov-Smirnov (K-S) se sigue el siguiente procedimiento: a)

Se plantean dos hipótesis: la hipótesis nula y la hipótesis alterna.

Ho: La distribución de la variable NO difiere de la distribución normal. H1: La distribución de la variable difiere de la distribución normal. α  

5%  0,05

b)

Se establece el nivel de significancia cuyo valor estándar es de

c)

Se obtiene el resultados de la prueba K-S mediante el SPSS.

d)

Se compara el p valor calculado con el nivel de significancia: p y 0,05

e)

Decisión y Conclusión: Si p valor calculado es menor que el nivel de significación 0,05 se rechaza la hipótesis nula y si el p valor es mayor se acepta la hipótesis nula. En el primer  caso se concluye que la variable no tiene una dis tribución normal, en el segundo caso la variable s i tiene una dis tribución normal.

Nota: Si p valor calculado es menor que el nivel de significación 0,05 la dis tribución no es normal, si es mayor que 0.05 la dis tribución es normal. Ejemplo: Se tiene una muestra de 70 personas cuyos pesos son los siguientes:

55 49 52 56 54 52 59 54 68 63 50 49 54 60 71 50 73 70 70 62 60 52 60 64 70 60 59 70 58 48 63 58 42 42 45 73 63 59 46 54 60 50 55 60 66 63 59 43 56 60 40 50 66 62

55 57 60 40 45 48 62 75 49 74 72 50 64 74 42 70

Determinar si la muestra tiene una distribución normal.

Solución Utilizando la prueba de de Kolmogorov-Smirnov. a)

Planteamiento de la hipótesis nula y la hipótesis alterna. 18

Ho: La distribución de la variable peso NO difiere de la distribución normal. H1: La distribución de la variable peso difiere de la distribución normal. α  

5%  0,05

b)

Nivel de significancia:

c)

Resultados de la prueba K-S mediante el SPSS. Prueba de Kolmogorov-Smirnov para una muestra Peso a,b

Parámetros normales

Diferencias más extremas

Media

57,77

Desviación típica

9,255

 Absoluta

,078

Positiva

,071

Negativa

-,078

Z de Kolmogorov-Smirnov

,654

Sig. asintót. (bilateral)

,785

a. La distribución de contraste es la Normal. b. Se han calculado a partir de los datos.

d)

Comparando el p valor con el nivel de significancia:  p  0,785  0,05

e)

Decisión y conclusión: Como el p valor calculado es mayor que el nivel de significación se

acepta la hipótesis nula y se rechaza la alterna; es decir variable peso  s i tiene una distribución normal.

ESTADISTICA NO PARAMETRICA La estadística no paramétrica es una rama de la estadística que estudia las pruebas y modelos estadísticos cuya distribución no se ajusta a los llamados criterios paramétricos. Su distribución no puede ser definida a priori, pues son los datos observados los que la determinan. La utilización de estos métodos se hace recomendable cuando: Las variables son cualitativas (nominal u ordinal). Las variables son cuantitativas, pero no tienen una distribución normal y/o sus varianzas

no son iguales (Homocedasticidad) y los datos no superan, como mínimo, los 30 casos. Las pruebas no paramétricas, son menos “potentes” que las pruebas paramétricas, pero reúnen las siguientes características: 1. Son más fáciles de aplicar. 2.

Son aplicables a los datos jerarquizados.

3.

Se pueden usar cuando dos series de observaciones provienen de distintas poblaciones.

4.

Son la única alternativa cuando el tamaño de muestra es pequeño.

5.

Son útiles a un nivel de significancia previamente especificado. 19

Las principales pruebas no paramétricas son las siguientes: Chi cuadrado de Pearson χ

2

,

test exacto de Fisher, tau b de Kendall, coeficiente de correlación de Spearman, prueba binomial, test de Mann-Whitney, prueba de McNemar, prueba de Kruskal-Wallis, test de Wilcoxon, Q de Cochran y la prueba de Kolmogórov-Smirnov.

PRUEBA DE HIPOTESIS Para realizar la prueba de hipótesis se realiza el siguiente procedimiento:

PRIMERO: Planteamiento de las hipótesis. Se plantean la hipótesis nula (Ho) y la hipótesis alterna (Ha) (puede ser la hipótesis general o las especificas).

SEGUNDO: Nivel de significación. El riesgo que se asume acerca de rechazar la hipótesis nula cuando en realidad debe aceptarse por ser verdadera. El nivel de significación se denota mediante la letra griega alfa

α

No hay un nivel de significación que se aplique a todos los estudios que implican muestreo. Sin embargo generalmente para la decisión se usa el nivel 0.05 (equivale a 5%), el nivel 0.01

(1%), el 0.10 (10%) o cualquier otro nivel entre 0 y 1. El investigador debe decidir el nivel de significación antes de formular una regla de decisión y recopilar datos muéstrales.

Error tipo 1. Se llama así a la probabilidad de rechazar la hipótesis nula cuando en realidad es verdadera.

Error tipo 2. Cuando la probabilidad de aceptar la hipótesis nula siendo en realidad falsa TERCERO: Determinación del estadístico de prueba. Un valor, determinado a partir de la información muestral, que se utiliza para aceptar o rechazar la hipótesis nula.

CUARTO: Regla de decisión. Es una regla simple la cual es una afirmación de las condiciones bajo las que se acepta o rechaza la hipótesis nula.

QUINTO: Toma de decisión Es la toma de decisión si se debe aceptar o rechazar la hipótesis nula.

DETERMINACIÓN DEL ESTADÍSTICO DE PRUEBA. La determinación del estadístico de prueba es la etapa donde se requiere un análisis minucioso de diferentes aspectos (tipos de variables, tipo de estudio, diseño, parámetros, distribución de la población a la que pertenece la muestra, tamaño de la muestra, objetivos del estudio, etc) El cuadro siguiente muestra los estadísticos más utilizados:

20

PRUEBAS

PRUEBAS NO PARAMETRICAS Variable aleatoria Variable fija

NOMINAL DICOTOMICA

NOMINAL POLITOMICA

2

Un grupo

PARAMETRICAS

ORDINAL

2

CUANTITATIVAS

2

χ

χ

χ

Bondad de ajuste

Bondad

Binomial

ajuste

de

Bondad

de

ajuste

T

de

Student

para una muestra

2

Estudio Transversal

χ

de Dos grupos

Muestras independientes

homogeneidad.

2

χ

U de Mann-

Corrección de Yates

de

Test

homogeneidad

Exacto

de

Withney

T

de

para

Student muestras

independientes

Fisher  2

χ

2

Más de dos

χ

grupos

de homogeneidad

Kruskall-

de homogeneidad

Wallis

 ANOVA con un factor sujetos T

Estudio Longitudinal

Dos medias

Muestras relacionadas

Más de dos

Mc-Nemar

Q de Cochran

Wilcoxon

Inter 

de

para

Student muestras

relacionadas

medias

 ANOVA Q de Cochran

Q de Cochran

Friedman

para

medidas repetidas

La siguiente tabla muestra la descripción de cada uno de los estadísticos de prueba más utilizados

PRUEBAS NO PARAMETRICAS Prueba

Una muestra Es

una

prueba

de

bondad

Variables de

ajuste,

de

homogeneidad y de independencia, que permite Chi cuadrado

averiguar si la distribución empírica de una variable

de Pearson

categórica se ajusta o no (se parece o no) a una determinada distribución teórica (uniforme, binomial,

VI: Ordinal/Nominal/Intervalo VD: Nominal

multinomial, etc.).

Test exacto Fisher 

de

Es una prueba similar a la de Chi cuadrado, que se utiliza cuando las variables son dicotómicas y además no se puede utilizar la prueba de Chicuadrado.

VI: Dicotómica VD: Ordinal/Nominal

21

Es una prueba de bondad de ajuste, que permite

Binomial

averiguar si una variable dicotómica sigue o no un determinado modelo de probabilidad. Permite contrastar la hipótesis de que la proporción observada de aciertos se ajusta a la proporción teórica de una distribución binomial (lo cual se

VD: Nominal

traduce en la posibilidad de contrastar hipótesis sobre proporciones y sobre cuartiles).

KolmogorovSmirnov (K-S)

Es una prueba de bondad de ajuste, que sirve para contrastar la hipótesis nula de que la distribución de una variable se ajusta a una determinada VD: Ordinal/Intervalo distribución teórica de probabilidad que puede ser  con tendencia a la normal, a la de Poisson o exponencial.

PRUEBAS NO PARAMETRICAS Prueba

Dos muestras relacionadas

Variables

Sirve para contrastar hipótesis sobre igualdad de proporciones. Se usa cuando hay una situación en la que las medidas de cada sujeto se repiten, por lo que la Prueba de McNemar  respuesta de cada uno de ellos se obtiene dos veces:

VI: Dicotómica

una vez antes y otra después de que ocurra un VD: Nominal evento específico y las muestras son relacionadas dependientes y además son dicotómicas. Permite contrastar la hipótesis de igualdad entre dos medianas poblacionales. Se muestras son relacionadas.

utiliza

cuando

las

El contraste se basa en el comportamiento de las Prueba de Wilcoxon

diferencias entre las puntuaciones de los elementos de cada par asociado, teniendo en cuenta no sólo el signo, sino también la magnitud de la diferencia.

VI: Dicotómica VD: Ordinal/Intervalo

Paralela a la prueba paramétrica de contraste t para muestras relacionadas.

Prueba

K muestras relacionadas

Variables

Esta prueba se aplica cuando todas las respuestas son binarias.

Prueba de Cochran

La Q de Cochran prueba la hipótesis de que varias variables dicotómicas que están relacionadas entre sí, tienen el mismo promedio. En observaciones

VI: Dicotómica

múltiples las variables son medidas en el mismo VD: Nominal individuo o en individuos pareados (k muestras relacionadas). Tiene la ventaja de examinar cambios en las variables categóricas. 22

Prueba

Dos muestras independientes

Variables

Es equivalente a la prueba de suma de rangos de Wilcoxon y a la prueba de dos grupos de Kruskal-

la VI: Dicotómica (grupos) VD: Ordinal

Prueba U de Mann-

Wallis.

Whitney

comparación de dos promedios independientes (cuando la variable de estudio es

Es

la

alternativa

no

paramétrica

a

ordinal) a través de la t de Student. Sirve para contrastar la hipótesis de que dos muestras

Prueba de KolmogorovSmirnov

proceden de la misma población. Para ello, compara

VI: Dicotómica

las

VD: Ordinal/Intervalo

funciones

distribución

(funciones

de

probabilidad acumuladas) de ambas muestras.

Prueba Prueba H Kruskal- Wallis

de

K muestras independientes de

Variables

Es una extensión de la de U de Mann-Whitney y

VI: Politómica

representa una excelente alternativa al ANOVA de un

VD: Ordinal/Intervalo

factor completamente aleatorizado. Se utiliza para K

muestras independientes.

PRUEBAS NO PARAMETRICAS Prueba

Una muestra

Variables

Es una prueba de correlación (de asociación o interdependencia) entre dos variables cuantitativas- Es equivalente a la correlación de Pearson pero utilizado Rho de Spearman

no

en

puntuaciones

sino

que

éstos

han

sido

convertidos a rangos. También se utiliza cuando las

VI: Numérica VD: Numérica/ordinal

variables cuantitativas no tienen distribución normal; cuando una es cuantitativa (la independiente) y la otra ordinal (la dependiente). Es una prueba similar a la de Chi cuadrado, que se utiliza para establecer la correlación cuando las Tau b de Kendall

variables son originalmente categóricas. Y además, éstas variables categóricas deben tener la misma

VI: Ordinal VD: Ordinal

cantidad de categorías (tablas de 3x3, 4x4).

23

EJEMPLOS DE USO DE LAS PRINCIPALES PRUEBAS NO PARAMETRICAS 1. CHI CUADRADO DE PEARSON

χ

2

Ejemplo 1 Hipótesis: Las alteraciones de la Lordosis Lumbar tienen relación con la Lumbalgia Mecánica.  Ambas variables, alteraciones de la Lordosis Lumbar y Lumbalgia Mecánica, son

variables cualitativas. Ho: Las alteraciones de la Lordosis Lumbar  NO tienen relación con la Lumbalgia Mecánica.

Ha: Las alteraciones de la Lordosis Lumbar  SI tienen relación con la Lumbalgia Mecánica. Nivel de Significación:

α

 5%

,

Prueba Estadística: Chi-cuadrado

2

χc



(Oi  E i )

2

 E i

Contrastación: Valor Chi Cuadrado de tabla

χ

2 t 

 5,99

Valor Chi cuadrado calculado χ c2  13,57

Decisión: Ho se rechaza. Conclusión: Como el valor calculado ( χ c2  13,57 ) es mayor que el valor de tabla 2

χ t 

 5,99 (cae en la zona de rechazo), podemos concluir que a un nivel de significación

del 5% (0.001 < 0.05), se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Las alteraciones de la Lordosis Lumbar  SI tienen relación con la Lumbalgia Mecánica. Tabla de contingencia Alteraciones de la Lordosis Lumbar * Lumbalgia Mecánica Lumbalgia Mecánica

Hipolordosis Lumbar 

Recuento

Hiperlordosis Lumbar 

Recuento

Total

% del total

% del total Recuento % del total

Total

Lumbalgia

Lumbalgia

Lumbalgia

 Aguda

Subaguda

Crónica

10

5

4

19

21,7%

10,9%

8,7%

41,3%

3

4

20

28

6,5%

8,7%

43,5%

58,7%

12

10

24

46

28,3%

19,6%

52,2%

100,0%

24

Prueba de Chi-Cuadrado Valor

gl

Sig. asintótica (bilateral)

Chi-cuadrado de Pearson

13,566a

2

0,001

 Asociación lineal por lineal

13,051

1

,000

N de casos válidos

46

a. 1 casillas (16,7%) tienen una frecuencia esperada inferior a 5. La frecuencia mínima esperada es 3,72.

Nota importante: El mensaje que viene en la tabla de la prueba estadística Chi-cuadrado es fundamental para determinar si se acepta o no la asociación entre las variables. El porcentaje mínimo debe ser del 25%. Si este porcentaje supera el 25% entonces no podríamos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher o buscar otro estadístico de prueba.

Ejemplo 2 Hipótesis: El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos. Una variable es cuantitativa (la independiente) y

la otra variable es categórica (la

dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.

Ho: El número de caídas NO tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.

Ha: El número de caídas SI tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.

Nivel de Significación:

α

 5%

, 2

Prueba Estadística: Chi-cuadrado

χc



(Oi  E i )

2

 E i

Contrastación: Valor Chi Cuadrado de tabla

χ

2 t 

 12,59 2

Valor Chi Cuadrado calculado

χc

 52,48

25

Tabla de contingencia Número de caídas * Grado de dependencia Grado de dependencia Grave Recuento 1

Frec. esperada

de caídas

2

Frec. esperada Frec. esperada

5

8

13

2,7

2,3

5,0

3,1

13,0

0

6

8

0

14

2,9

2,5

5,4

3,3

14,0

7

0

0

0

7

1,4

1,2

2,7

1,6

7,0

7

6

13

8

34

7,0

6,0

13,0

8,0

34,0

Recuento Total

Frec. esperada

Independiente

0

Recuento 3

Leve

0

Recuento

Número

Moderada

Total

Pruebas de chi-cuadrado Valor

gl

Sig. asintótica (bilateral)

a

6

,000

Razón de verosimilitudes

54,644

6

,000

 Asociación lineal por lineal

26,834

1

,000

Chi-cuadrado de Pearson

N de casos válidos

52,480

34

a. 11 casillas (91,7%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 1,24.

La tabla nos muestra que 11 casillas, es decir el 91,7%, tienen frecuencias esperadas menor a 5. Este porcentaje supera al mínimo aceptable (25%), entonces NO podemos utilizar el Chi-cuadrado y se debe utilizar otra prueba estadística. Como la variable independiente es cuantitativa y la dependiente categórica, entonces se debe utilizar el coeficiente de correlación de Spearman. Al calcular el coeficiente de Spearman, se tiene:

Correlaciones

Coeficiente de correlación Número de caídas

Número de

Grado de

caídas

dependencia

1,000 .

0,000

34

34

**

1,000

,000

.

34

34

Sig. (bilateral) N

Rho de Spearman Coeficiente de correlación Grado de dependencia Sig. (bilateral) N

**

-,879

-,879

**. La correlación es significativa al nivel 0,01 (bilateral).

Decisión: Ho se rechaza. 26

Conclusión: Como el p valor es  p    0,000 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: El número de caídas SI tiene relación significativa con el grado de dependencia en las actividades diarias de un grupo de ancianos.

2. TEST EXACTO DE FISHER Ejemplo Hipótesis: El género tiene relación con la ansiedad en un grupo de personas.  Ambas variables, el género y la ansiedad, son variables cualitativas. Ho: El género NO tiene relación significativa con la ansiedad en un grupo de personas. Ha: El género SI tiene relación significativa con la ansiedad en un grupo de personas. Nivel de Significación: α  5% , 2

Prueba Estadística: Chi-cuadrado

χc



(Oi  E i )

2

 E i

Contrastación:

Tabla de contingencia Sexo * Niveles de Ansiedad Niveles de Ansiedad Leve

Moderado

Severo

2

7

6

15

5,9

5,5

3,6

15,0

15,4%

58,3%

75,0%

45,5%

Recuento

11

5

2

18

Frecuencia esperada

7,1

6,5

4,4

18,0

84,6% 13

41,7% 12

25,0% 8

54,5% 33

13,0

12,0

8,0

33,0

100,0%

100,0%

100,0%

100,0%

Recuento Hombres

Frecuencia esperada % dentro de Niveles de Ansiedad

Sexo Mujeres

% dentro de Niveles de Ansiedad Recuento Total

Total

Frecuencia esperada % dentro de Niveles de Ansiedad

Pruebas de chi-cuadrado Valor Chi-cuadrado de Pearson

gl

8,360

a

Sig. asintótica (bilateral) 2

0,015

Razón de verosimilitudes

9,014

2

,011

 Asociación lineal por lineal

7,602

1

,006

N de casos válidos

33

a. 2 casillas (33,3%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 3,64.

27

La tabla nos muestra que dos casilla , es decir el 33;3%, que supera al mínimo aceptable (25%), entonces NO podemos utilizar el Chi-cuadrado y se debe recategorizar los niveles de una de las variables para aplicar la prueba exacta de Fisher . Al recategorizar la variable ansiedad, en solo dos categorías (alta-baja) para poder utilizar el test exacto de Fisher, se tiene:

Pruebas de chi-cuadrado Valor

Chi-cuadrado de Pearson b

Corrección por continuidad

gl

Sig. asintótica

Sig. exacta

Sig. exacta

(bilateral)

(bilateral)

(unilateral)

5,241

a

1

,022

3,762

1

,052

Estadístico exacto de Fisher  N de casos válidos

0,037

0,025

33

a. 0 casillas (0,0%) tienen una frecuencia esperada inferior a 5 . La frecuencia mínima esperada es 7,27. b. Calculado sólo para una tabla de 2x2.

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,025 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El género SI tiene relación significativa con la ansiedad en un grupo de personas.

Nota importante: La prueba exacta de Fisher solo se utiliza cuando no se puede aplicar  el Chi-cuadrado y además, las variables tienen que ser dicotómicas (la tabla de contingencia debe ser cuadrada de 2x2.

3. COEFICIENTE DE CORRELACIÓN DE SPEARMAN Ejemplo Se desea correlacionar el grado de Estrés Laboral (Bajo-Moderado-Alto) con los años de servicio, de un grupo de trabajadores de una determinada institución. Como la variable años de servicio es la independiente y la variable estrés laboral es una variable categórica, se puede utilizar la prueba estadística de Spearman.

Hipótesis: El número de caídas tiene relación con el grado de dependencia en las actividades diarias de un grupo de ancianos.

28

Una variable es cuantitativa (la independiente) y

la otra variable es categórica (la

dependiente) por tanto, se puede usar la prueba estadística de Chi-cuadrado.

Ho: NO existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

Ha: Existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

   5% α

Nivel de Significación:

 0,05

Prueba Estadística: Rho de Spearman

r s  1 

 d 

6

2

i

2 n(n  1)

Contrastación: r s  0,412

y

 p     0,002

Correlaciones

Coeficiente de correlación Tiempo de Servicio

Estrés

Servicio

Laboral

1,000

0,412**

.

0,002

54

54

**

1,000

,002

.

54

54

Sig. (bilateral)

Rho de

N

Spearman

Coeficiente de correlación Estrés Laboral

Tiempo de

Sig. (bilateral) N

,412

**. La correlación es significativa al nivel 0,01 (bilateral).

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,002 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Existe correlación entre el tiempo de servicios y el grado de estrés laboral en los trabajadores de una determinada institución.

Nota: La correlación rho de Spearman es r s   0, 412 , por tanto se puede decir que la correlación entre los años de servicio y el estrés laboral es moderada.

29

4. TAU b DE KENDALL Ejemplo: Se desea saber si el nivel de educación (primaria-secundaria-superior) es un factor  predictivo para la consistencia o adherencia (buena-regular-mala), a un determinado tratamiento por parte de un grupo de personas. Las variables son categóricas y además sus escalas son iguales (3x3), entonces se debe utilizar el estadístico de prueba Tau b de Kendall.

Hipótesis: El nivel de educación es un factor predictivo para la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

Ho: NO existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

Ha: Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

   5% α

Nivel de Significación:

 0,05 r b 

Prueba Estadística: Tau b de Kendall

CD (C  D  E x1)(C  D  E x2  )

Contrastación: r t   0,349

y

 p     0,007 Correlaciones Grado de Estudios Coeficiente de correlación

Grado de Estudios

N Coeficiente de correlación Tratamiento

1,000

0,349**

.

0,007

50

50

**

1,000

,007

.

50

50

Sig. (bilateral)

Tau_b de Kendall  Adherencia al

 Adherencia al Tratamiento

Sig. (bilateral) N

,349

**. La correlación es significativa al ni vel 0,01 (bilateral).

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,007 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: Existe correlación entre el nivel de educación y la consistencia (adherencia), a un determinado tratamiento por parte de un grupo de personas.

30

5. TEST DE MANN-WHITNEY Ejemplo: Se desea comparar  si el grado de hipertrofia adenoidea es el mismo que en hombres y mujeres en un determinado grupo de niños. El objetivo es comparar grupos independientes y además la variable es ordinal , entonces se debe utilizar el estadístico de prueba U de Mann-Wihtney.

Hipótesis: El grado de hipertrofia adenoidea es distinto en hombres y mujeres, en un determinado grupo de niños.

Ho: El grado de hipertrofia adenoidea no es distinto en hombres y mujeres. Ha: El grado de hipertrofia adenoidea es distinto en hombres y mujeres.    5% α

Nivel de Significación:

 0,05

Prueba Estadística: U de Mann-Wihtney

 Z  

U   µU  σ



Contrastación: U   196,500

y

 p     0,032

Estadísticos de contraste a Grado de Hipertrofia Adenoidea U de Mann-Whitney

196,500

W de Wilcoxon

692,500

Z Sig. asintótica (bilateral)

-2,142

0,032

a. Variable de agrupación: Sexo

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,032 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El grado de hipertrofia adenoidea es distinto en hombres y mujeres.

6. PRUEBA DE MCNEMAR Se estudia a 10 pacientes con cólico nefrítico. Todos ellos han sido tratados en un episodio de cólico con Metamizol y en otro episodio con Ketorolaco. Ambos fármacos son analgésicos que se usan para controlar el dolor de cólico nefrítico. Se busca conocer que tratamiento es más eficaz.

31

El objetivo es establecer diferencias entre el antes y después de aplicar dos medicamentos y comparar su efectividad. Como las variables son cualitativas dicotómicas, entonces se debe utilizar el estadístico de prueba de McNemar.

Hipótesis: Existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.

Ho: No existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.

Ha: Existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.

   5% α

Nivel de Significación:

2

Prueba Estadística:

χc



 0,05 (Oi  E i )

2

 E i

Contrastación: 2

χc

 0,104

y

 p     0,625 Pruebas de chi-cuadrado Valor

gl

Sig. asintótica

Sig. exacta

Sig. exacta

(bilateral)

(bilateral)

(unilateral)

0,104a

1

,747

Corrección por continuidad

,000

1

1,000

Razón de verosimilitudes

,103

1

,749

Chi-cuadrado de Pearson

Estadístico exacto de Fisher  Asociación lineal por lineal

1,000 ,094

1

,759

0,625c

Prueba de McNemar  N de casos válidos

,667

10

a. 4 casillas (100.0%) tienen una frecuencia esperada inferior a 5. b. Calculado sólo para una tabla de 2x2. c. Utilizada la distribución binomial

Decisión: Ho se acepta. Conclusión: Como el p valor es  p    0,625 mayor que el nivel de significancia α  5%  0,05 podemos concluir que se acepta la hipótesis nula y se rechaza la hipótesis alterna. Por tanto:

Ho: No existe diferencias en los resultados obtenidos al aplicar el fármaco Metamizol y el Ketorolaco.

32

7. PRUEBA DE KRUSKAL-WALLIS Se estudia la asistencia a tres clínicas diferentes de 18 pacientes que asisten con un determinado intervalos de días. Se busca conocer si la media de asistencia a las tres clínicas son iguales o no. El objetivo es establecer si existe o no diferencias

entre las medianas, respecto a la

asistencia de los pacientes. La variable clínica es categórica (tiene tres categorías) y la variable asistencia es cuantitativa, por tanto el estadístico de prueba es la de

H de

Kruskal-Wallis.

Hipótesis: Existen diferencias, respecto a las asistencias de los pacientes, en las tres clínicas.

Ho: No existen diferencias respecto a las asistencias de los pacientes Ha: Existen diferencias respecto a las asistencias de los pacientes    5% α

Nivel de Significación:

 0,05

 R k     R1 R 2 12  H   .......       3( N   1)  N ( N  1)  n1 n2 n k   2

Prueba Estadística:

2

2

Contrastación:  p  0,016 Estadísticos de contraste a,b Días de asistencia Chi-cuadrado gl Sig. asintót.

8,214 2

0,016

a. Prueba de Kruskal-Wallis b. Variable de agrupación: Clínica

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,016 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna:

Ha: Existen diferencias respecto a las asistencias de los pacientes en las tres clínicas.

33

8.

TEST DE WILCOXON

Ejemplo: Se desea comparar los pesos de un grupo antes y después de un mes de entrenamiento. Supongamos que tienen síndrome metabólico por lo tanto se espera que reduzcan su peso en forma significativa después del entrenamiento. El objetivo es comparar las medias de grupos relacionados y además variable peso no tiene distribución normal, entonces se debe utilizar el estadístico de prueba

W de

Wilcoxon.

Hipótesis: El peso de las personas difiere después de aplicar un programa de ejercicios Ho: El peso de las personas no difiere después de aplicar un programa de ejercicios. Ha: El peso de las personas difiere después de aplicar un programa de ejercicios.    5% α

Nivel de Significación:

 0,05

Prueba Estadística: W de Wilcoxon

W    Ri  zi

Contrastación:  Z    5,546

y

 p     0,000 Estadísticos de contraste a Peso después del Programa - Peso antes del Programa

Z Sig. Asintótica (bilateral)

-5,546b 0,000

a. Prueba de los rangos con signo de Wilcoxon b. Basado en los rangos positivos.

Decisión: Ho se rechaza. Conclusión: Como el p valor es  p    0,000 menor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y acepta la hipótesis alterna: Ha: El peso de las personas difiere después de aplicar un programa de ejercicios. Es decir que el programa ha sido efectivo.

34

9. Q DE COCHRAN Mide las variaciones de una variable en un intervalo de tiempo. Las evaluaciones de las variaciones son dicotómicas.

Ejemplo 1 Se examinó a un grupo de 7 pacientes luego de un implante molar y f ueron tratados con un fármaco para aliviar posibles dolores y molestias post implante. Se les hizo un seguimiento (evaluación) a los 3, 7,15 y 30 días para ver si aparecía el dolor. Además, las valoraciones son binarias: 1=presenta dolor y 2=no presenta dolor.

Nota: Distinto a Kendal, donde las valoraciones van de 1 a 4 o de 1 a 10. Las hipótesis son: H: La proporción de pacientes con dolor se mantuvo ( fue igual) a lo largo del tiempo en el grupo de pacientes. Ho: La proporción de pacientes con dolor se mantuvo a lo largo del tiempo. H1: La proporción de pacientes con dolor ha variado a lo largo del tiempo.

   5% α

Nivel de Significación:

Prueba Estadística:

 0,05

 k  k  2 (k  1)  k  C j    C j    j 1  j 1  Q k

k

   

n

 C  R  j

 j 1

2

    

2

i

i 1

Nota: El valor k=4 (numero de mediciones) y n=7 (número de pacientes)

Contrastación: Q de Cochran

  Q  11,80

y

 p     0,008

Estadísticos de contraste N Q de Cochran

7

11,800a

gl Sig. asintótica

3

0,008

a. 0 se trata como un éxito.

Decisión: Ho se acepta.

35

Conclusión: Como el p valor es  p    0,008 mayor que el nivel de significancia α  5%  0,05 podemos concluir que se rechaza la hipótesis nula y se acepta la hipótesis alterna, entonces: H1: La proporción de pacientes con dolor ha variado a lo largo del tiempo. Nota: esta prueba no nos dice si el fármaco es efectivo, solo que existe una variación de la proporción de pacientes con dolor (puede haber disminuido o puede haber aumentado). Según la siguiente tabla: Frecuencias Valor  0

1

Evaluación a los 3 días

2

5

Evaluación a los 7 días

6

1

Evaluación a los 15 días

1

6

Evaluación a los 30 días

2

5

Solo podemos afirmar que el fármaco fue efectivo después de una semana (después de 7 días el dolor disminuyó).

VALIDACION DE INSTRUMENTOS DE RECOLECCION DE DATOS Los resultados de una investigación tienen como sustento el análisis de los datos obtenidos, por lo tanto es muy importante que los instrumentos utilizados para la recolección de datos sean válidos y confiables, porque de lo contrario arribaríamos a resultados y a conclusiones erróneas.

Validez y confiabilidad de un instrumento Validez. Es el grado en el que un instrumento, en verdad, mide la variable que se pretende medir. Por ejemplo, un instrumento diseñado para medir la inteligencia, debe medir la inteligencia y no la memoria. Existen dos tipos de validez: de contenido y de constructo.

Validez de contenido. Es el grado que un instrumento refleja un dominio específico de contenido de lo que se mide. Por ejemplo, una prueba de operaciones aritméticas no tendría validez de contenido, si solo incluye operaciones de adición y sustracción y no de multiplicación y división. Para obtener la validez de contenido se recurre al juicio de expertos.

Validez de constructo. La validez de constructo debe explicar el modelo teórico que subyace a la variable de interés. Para obtener la validez de constructo se hace uso del análisis de factores o cofactores o al análisis de covarianza.

36

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF