Estadística Medica

July 10, 2024 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download


Description

Estadística médica

B IB L IO T E C A D E L U N IV E R S IT A R IO M AN UA LES /M E D IC IN A

Estadística médica

DOMINGO A. LEDESMA

ERRNVPHGLFRVRUJ

El'DEBA EDITORIAL UNIVERSITARIA 1)E BUENOS AIRES

©1972 EDITORIAL UNIVERSITARIA DE BUENOS AIRES Rivadavia 1571/73 Sociedad de Economía Mixta Fundada por la Universidad de Buenos Aires Hecho el depósito de ley IMPRESO EN LA ARGENTINA - PRINTED IN ARGENTINA

INDICE

INTRODUCCION . . . : ................................................................. XI PRIMERA PARTE CONCEPTOS FUNDAMENTALES I.

CONCEPTOS GENERALES ................................................ Concepto de estadística, 3; Ubicación en el cuadro de las cien­ cias, 4; Relación con el cálculo de probabilidades, 4; Importancia en medicina, 4; El azar o casualidad, 4; Universo y muestra, 5: Observación y dato, 6; Registro y clasificación de los datos, 6; Tabulación, 7.

3

II. CONCEPTOS PARTICULARES............................................. Población o efectivo, 9; Tamaño, 9; Dispersión de los datos, 9; Ordenamiento de los datos, 10; Serie estadística, 10; Agolpa­ miento de los datos, 10; Intervalo o módulo, 10; Frecuencia, 11; Probabilidad, II; Ordenación de los grupos, 12: Distribución de frecuencias, 12; Ejemplo de distribución normal de frecuencias, 13; Ejemplo de distribución de Gosset "Student", 14; Ejemplo

9

son, 15.

*

III. REPRESENTACIONES GRAFICAS........................................ 17 Cuadriláteros, 17; Sectores, 18; Histograma, 20; Ejemplo de histograma, 21; Ejemplo, 22; Curvas, 22; Curva normal o de Gauss. 23. IV. PARAMETROS ESTADISTICOS ........................................... 25 Parámetros fundamentales, 25; Parámetros derivados, 25; Pará­ metros de posición, 26; Proposición de Cauchy, 30; Promedio y mayoría, 30; Desvío, 30; Parámetros de dispersión, 31; Media del universo, 34; Parámetros derivados, 3S; Promedio ponderado. 38; Error probable, 39; Error relativo, 39. Vil

ERRNVPHGLFRVRUJ

SECUNDA PARTE LA MUESTRA NORMAL NUMEROSA O MUESTRA NORMAL DE

PROPIEDADES DE LA MEDIA Y DEL DESVIO STANDARD Propiedad “A” de la media. 49; Propiedad “B" de la media. 55; Propiedad "A" del desvio standard. 57; Propiedad "B” del VIL VARIANCIA...................................................................... 61 la. observación. 61; 2a. observación. 62; 3a. observación, 63;

IX.

X.

ECUACION DE LA CURVA DE GAUSS ........................... 87 Cálculo de la ordenada "y”. 88; Significado de “y". 89; Cons­ trucción de la curva, 89; Arca subtendida a la curva. Area par­ cial, 91; Tablas de áreas subtendidas a la curva. Tablas de probabilidades, 92; Frecuencias teóricas de una muestra nor­ mal, 96. VARIACION DE LAS MUESTRAS

ERRNVPHGLFRVRUJ

TERCERA PARTE LA MUESTRA NORMAL POCO NUMEROSA O MUESTRA DE GOSSET "STUDENT"

CUARTA PARTE LA MUESTRA B1NOMIAL NUMEROSA O MUESTRA DE BERNOUILLI XIII. DISTRIBUCION BINOMIAL ............................................... 131 XIV. SERIE BINOMIAL DE BERNOUILLI................................... 145

148; Observaciones, 150; Cálculo de la frecuencia de un resullado determinado, 165. XV. PARAMETROS MEDIA Y DESVIO STANDARD EN LAS MUESTRAS BINOMIALES................................................. 177 Resultados en valores absolutos. 177; Resultados en valores 185. XVI. INTERVALO DE CONFIANZA DE LA MEDIA Y SIGNIFI­ CACION DE LA DIFERENCIAENTRE MEDIAS.....................201 Significación de la diferencia entre dos medias binomiales de la media, 203; Determinación del intervalo de confianza de muestra o la frecuencia de la media, 207. IX

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA

XVII.

MUESTRAS DE POISSON . Concepto, 219; Frecuencia de un resultado, 220; Obtención de la media, 221; La variancia, 223; Los límites del intervalo de confianza, 223.

XVIII.

XIX.

X

METODO DE PEARSON ..

ASOCIACION......................................................... Correlación, 263; Probabilidad de un coeficiente de o dón, 271; Regresión, 273; Tarjetas y dameros, 278; pruebas de correlación, 287; Análisis de la covarianza, 29

ERRNVPHGLFRVRUJ

INTRODUCCION

XI

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA Los libros de estadística existentes en plaza, algunos de ellos muy buenos, todos ellos extranjeros (un libro argentino similar al nuestro, el de KOHAN y CARRO, trata de la estadística aplicada a la psicología, a la sociología, a la educación y a las ciencias políticas, no a la medicinal, y los cursos de estadística a los que concurrimos, igualmente muy buenos, exigen conocimientos matemáticos que el común de nuestros médicos, no poseen. Esto les hace a ellos sumamente difícil la comprensión de la esta­ dística. Magnificas tablas, como las de GEIGY, necesitan explicaciones más elementales que las que ellas traen para ser manejables por la mayoría de los médicos que las necesitan. Compenetrados de esa necesidad de médicos y estudiantes, y ante su dificultad para obtener dichos conocimientos en los textos o en los cursos corrientes, que en gran parte se sitúan fuera de la realidad de sus necesi­ dades y de los conocimientos matemáticos que poseen, nos propusimos explicar con palabras sencillas y con nociones elementales los conceptos básicos de esta ciencia. Con éstos podrán todos comprender y manejar la mayoría de los problemas comunes de la estadística médica. En este libro diremos lo fundamental de esta materia, en sus aspectos generalmente más utilizados en medicina, y lo diremos sin recurrir a las matemáticas superiores, es decir, manteniéndonos siempre dentro de ¡os conocimientos de matemáticas del médico corriente. No obstante lo dicho, no estará de más que con la lectura de este libro el lector refresque sus conocimientos de matemáticas deI colegio nacional, releyendo algunos de sus textos. Sin ser de vulgarización, éste es un libro de estadística elemental, al alcance y para uso de médicos y estudiantes que leen trabajos científicos o que realizan tareas habituales de investigación. Es un resumen de los cursos de estadística médica dictados por el autor en la maternidad del policlínico "Profesor doctor Gregorio Aráoz Alfaro" de Lanús. y por lo tanto, está redactado con la experiencia dada por la enseñanza viva de la materia a los destinatarios del mismo. En él nos referiremos a una media docena de temas estadísticos fun­ damentales para la investigación médica. Nos liemos preocupado, en primer termino, por dar claros y precisos conceptos fundamentales. De esto nos ocupamos en la primera parte de! libro, la que abarca siete capí­ tulos. Después nos esforzamos por precisar las principales clases de mues­ tras que generalmente el médico tiene entre manos y las técnicas estadís­ ticas aplicables a cada clase. De ello nos ocupamos en las cuatro partes siguientes. Por último, damos algunas nociones aplicables a cualquier clase de muestra. De esto tratan las dos últimas partes. En resumen, los temas que tratamos en el libro son: XII

ERRNVPHGLFRVRUJ

INTRODUCCION 1. Conceptos fundamentales. 2. El estudio estadístico de Ias muestras numerosas con una distri­ bución normaI de las frecuencias de sus datos, o sea de lo que puede llamarse muestra de GAUSS. y de las técnicas que le son aplicables 3. El estudio estadístico de las muestras poco numerosas también con una distribución normal de la frecuencia de sus daros o muestras de GOSSET "STUDENT", y de ¡as técnicas correspondientes 4. El estudio de las grandes muestras con una distribución binomial de la frecuencia de sus datos, o muestra de BERNOUILLI, y sus técnicas 5. Las grandes muestras con un resultado poco numeroso y una dis­ tribución de frecuencia próxima a la binomial o muestras de POISSON y sus técnicas. 6. El método de PEARSON o de J i Cuadrado fx1) para la compara­ ción entre una muestra real y una teórica, y su técnica en los diversos 7. La asociación o relación estadística entre dos variables observadas simultáneamente en una misma muestra y sus técnicas. En lo posible hemos explicado los conceptos y los métodos o técnicas dando el porqué de los mismos, y sólo cuando ello exigía una profundi2ación matemática fuera del alcance del común de los médicos, nos con­ formamos con decir solamente cómo se hace. Por eso. algunos temas como Ji Cuadrado, se han explicado principalmente por medio de ejem­ plos. Estos son suficientes para capacitar al médico en la utilización del método en la mayoría de las circunstancias en que puede serle útil. En cambio, otros temas, como distribución binomial, se han explicado con cierto detenimiento, ya que es imprescindible tener bien claro lo que es el desarrollo de un binomio elevado para comprender el concepto de lo que es una muestra con una distribución binomial de sus frecuencias. Finalmente, hemos procurado ejemplificar todo al máximo posible dentro de la manualidad del volumen.

ERRNVPHGLFRVRUJ

XUI

ERRNVPHGLFRVRUJ

CONCEPTOS FUNDAMENTALES

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

CAPITULO I

3

ERRNVPHGLFRVRUJ

Por trabajar con números la estadística participa de las ciencias ma­ temáticas, pero al igual que en muchas otras ramas del conocimiento -física, química, etc.,- éstas son el instrumento que debe ser aplicado a una materia, en este caso las observaciones o experiencias similares valoRelación con el cálculo de probabilidades Por sus métodos matemáticos la estadística se halla relacionada con el cálculo de probabilidades y podría dccitsc que es un capítulo de él, pero mientras dicho cálculo se ocupa de los grandes números, de los conjuntos infinitos, la estadística se ocupa de los pequeños números, de los conjunImportancia en medicina La importancia de la estadística en medicina se debe a la capacidad de la primera en valorar la magnitud del azar en la segunda. El azar o casualidad resultados de la actividad médica, ya se trate de diagnósticos, pronósticos sea que observemos la aparición de un dato clínico o de laboratorio, que pronostiquemos la duración de una enfermedad o de un embarazo, que comprobemos la ventaja de un medicamento o de una técnica quirúrgica, etcétera, el resultado está siempre influido, en mayor o menor grado, por la casualidad. Es decir, los resultados médicos se hallan siempre influidos por un conjunto variable de factores invisibles e imponderables, que englobamos con el nombre de azar o casualidad. Es este conjunto de factores, desconocidos y variables, el que diverEstc azar pudo haber tenido una gran participación en los resultados, o, por el contrario, sólo una insignificante, pero de antemano eso no podemos saberlo; es decir, directamente, al azar no podemos medirlo. Necesitamos por lo tanto de algún procedimiento indirecto capaz de medir el tamaño, o sea la magnitud de la importancia del azar. Este mé-

ERRNVPHGLFRVRUJ

CONCEPTOS GENERALES Esta se basa en que si observamos un gran número de casos seme­ jantes, es lógico suponer que los factores desconocidos han de neutrali­ zarse en gran parte, por lo menos, mutuamente. De ahí que si estudiamos dos series paralelas en estas condiciones, en una de las cuales aparece o interviene un factor determinado que no interviene ni aparece en la otra, la diferencia de los resultados pueda lógicamente atribuirse a esc factor. Pero aun así, no estamos completamente seguros de haber neutrali­ zado totalmente al azar, o sea que la diferencia se deba exclusivamente al factor presente en una serie y ausente en la otra. Por eso. también aquí, para medir la magnitud de ese azar residual tenemos que recurrir también La magnitud de la influencia del azar se mide en porciento de proba­ bilidad. Un resultado puede deberse en un 100% a ella o en un 50% o en un 5%, etcétera. Cuando la influencia del azar en un resultado médico es pequeña, menos del S%, los estadísticos que se ocupan de cuestiones mé­ dicas aceptan que, prácticamente, puede considerarse que el resultado no vención del azar es superior al 5%, opinan que dicho resultado puede considerarse debido simplemente a la casualidad.

Dijimos que la estadística es un capítulo del cálculo de probabilida­ des. Este se ocupa de los valores numéricos de hechos similares, pero en general sólo se ocupa de los grandes números, de los grandes conjuntos, de aquellos que por ser infinitos se llaman universos de casos similares (o universos simplemente dicho). La estadística, en cambio, se ocupa preferentemente de los pequeños números, de los pequeños conjuntos, de los conjuntos finitos, extraídos naturalmente de aquel gran conjunto y que por ser fracciones de él se denominan muestras. Por ejemplo, si observamos el peso de un conjunto de niños recién nacidos, podremos comprobar lo que pesan un número determinado de ellos, pero no el de todos los recién nacidos habidos y por haber. El conjunto finito de recién nacidos sometidos a nuestra obser­ vación es ¡a muestra-, el conjunto infinito de todos los recién nacidos ha­ bidos y por haber es el universo (el universo de recién nacidos). La muestra es el elemento fundamental con que trabaja la estadística. Sin muestra no hay estadística.

ERRNVPHGLFRVRUJ

5

Observación y dato La muestra es el conjunto de observaciones valoradas cuantitativamen­ te y también el conjunto de los valores numéricos individuales. Estos, los valores numéricos individuales, se denominan “datos”. Por ejemplo, el conjunto de las observaciones de las horas dormidas por los pacientes del ejemplo dado anteriormente constituye los datos. El dato es el valor numé­ rico de la observación individual. Cuando las observaciones se clasifican cualitativamente (por ejemplo: gordos, medianos o flacos), el conjunto de observaciones de igual clasifi­ cación constituye una clase. A las clases se las simboliza genéricamente con una x minúscula. En este caso el valor de cada observación es igual a Registro y clasificación de los datos La observación o la clase y su dato deben, en primer término, 'er registrados, esto es, deben ser llevados a una planilla, a una ficha, a una tarjeta, a una hoja de cuaderno, etcétera. Hecho esto, las observaciones no clasificadas deben serlo, es decir, se las debe.agrupar en clases. Vimos que se llama clase a un conjunto de observaciones similares. A mayor abundamiento diremos que las observaciones difieren entre Si observamos niños recién nacidos, éstos pueden diferir por. el sexo (diferencia cualitativa) o por el peso (diferencia cuantitativa). El conjunto de los recién nacidos varones constituye la clase de los recién nacidos va­ rones; el conjunto de los que pesan 3000 g, la clase de los que pesan 3000 g, etcétera. El número de observaciones de una clase constituye su frecuencia. (frecuencia absoluta véase infra). Cuando una muestra está formada por un gran número de observa­ ciones (lo que ocurre especialmente cuando las diferencias son cuantita­ tivas) se juntan las observaciones similares en un solo grupo, constituyen­ do cada grupo una clase. El número de observaciones agrupadas en una clase constituye la frecuencia de ese grupo o clase. Es necesario fijar claramente los límites del grupo o clase, de modo que no haya duda de si una observación pertenece a un grupo u otro. Para ello conviene tomar como límites de los grupos valores inaccesibles a los métodos de medidas usados en la investigación. Si la balanza sólo es capaz de medir gramos, colocamos los límites a mitad de gramo, por ejemplo 0,5 g - 9,5 —19,5 - 29,5 g, etcétera.

ERRNVPHGLFRVRUJ

CONCEPTOS GENERALES En estos casos se toma como valor representativo del grupo o clase la semisuma de los limites del grupo (en el ejemplo dado, 5 g - 14,5 - 24,5 - etc.), es decir, se considera como si todas las observaciones di grupo pesasen ese valor medio. Puede haber en esto un pequeño erro pero generalmente las diferencias se compensan y el error no existe o s míLuego el dato también debe ser clasificado, esto es. reconocido como una cantidad continua o discontinua. Por ejemplo, si so trata del número de glóbulos rojos por milímetros cúbicos, el dato es discontinuo, pues en un volumen dado de sangre no puede haber sino un número entero de glóbulos rojos y la diferencia con otro volumen de sangre implicará tam-' bien un número entero de ellos. Pero'si se trata de la hemoglobina contenida en un volumen de san­ gre, el dato será continuo, ya que la cantidad será un número fraccionado de la unidad que se utilice (difícilmente un número entero de esa unidad) y podrá presentar toda la gama posible de valores intermedios entre un número entero de unidades y el siguiente. La diferencia con otro volumen de sangre será asimismo un número fraccionado de unidades, difícilmente Los datos discontinuos se suelen denominar también datos discretos. La presentación de éstos no ofrece dificultades. En cambio, cuando se tra­ ta de datos continuos es necesario aclarar si el valor registrado es el valor más próximo al valor real o si se trata de la parte entera de un valor real al que le sigue una fracción. Así. si se dice que una persona mide 1,60 m, es necesario aclarar si se han tomado los 60 cm por estar el valor real más próximo a esa medida que a 1,59 m o a 1,61, o si se dice 1.60 m cuando la talla real es 1,60 m o más, pero menos de 1,61. En el primer caso se habrán registrado como 1.60 las tallas reales desde 1,596 m hasta 1,605 m, y en el segundo, desde 1,600 a 1,609. Como se ve, si los datos son continuos debe aclararse la forma como se los ha tomado; si son discontinuos esta precaución es inneTabulación Finalmente, los datos deben ser tabulados, es decir presentados en una tabla, colocándolos en columna vertical (aunque puede hacérselo tam­ bién en línea horizontal). A partir de este momento se está en condiciones de iniciar el análisis estadístico propiamente dicho. Así la muestra de las horas de sueño pro­ ducidas por un hipnótico deben ser tabuladas como muestra el cuadro 1.

ERRNVPHGLFRVRUJ

EJEMPLO DE TABULACION (Horas de sueño producidas por un hipnótico

ERRNVPHGLFRVRUJ

CAPITULO II

CONCEPTOS PARTICULARES

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA Los dalos pueden hallarse más o menos uniformemente diseminados, o por el contrario, mostrar tendencia a confluir hacia los valores menores, medianos o mayores. Ordenamiento de los datos En la muestra los datos se presentan al observador en forma desorde­ nada. La primera tarea del tratamiento estadístico es ordenarlos, general­ mente de menor a mayor pero podría ser a la inversa. Serie estadística El resultado del ordenamiento es transformar un conjunto desorde­ nado de números en una serie ordenada de ellos. Por tratarse de los datos o valores de observaciones similares, el conjunto ordenado de los datos se denomina serie estadística. Cada uno de los datos toma ahora el nombre genérico de término de la serie. La serie consta de tantos términos como de observaciones la La x minúscula que simboliza genéricamente a los datos, simboliza igualmente a los términos. La serie estadística se parece a las otras series matemáticas (aritmé­ tica, geométrica, etc.) en que consiste en un conjunto ordenado de núme­ ros, pero se diferencia de ellas en que los términos pueden repetirse, saltearse y carecen de toda relación o razón con sus vecinos. Agrupamiento de los datos Frecuentemente en una muestra (y en una serie) hay datos repetidos, o de un valor tan próximo o parecido, que pueden darse por iguales, y por lo tanto, por repetidos. Cuando así ocurre en muestras muy numerosas, es decir, con una población de 30 o más, deben reunirse o agruparse estas obsetvaciones repetidas o similares. Es lo que se llama agrupación o agrupamiento de los Intervalo o módulo Cuando los grupos comprenden no solamente datos iguales, sino muy próximos, es necesario fijar los límites dentro de los cuales tendrán cabida los datos de cada grupo. La distancia entre los límites de cada grupo se denomina intervalo o módulo, 10

ERRNVPHGLFRVRUJ

CONCEPTOS PARTICULARES Por ejemplo, si se trata de una muestra formada por observaciones de hemoglobina expresada en porcentaje de un valor que se considera nor­ mal, podemos reunir los datos comprendidos entre SI y 60 en un solo gmpo, los entre 61 y 70 en otro, los entre 71 y 80 en otro, etcétera. En este caso decimos que el intervalo o módulo es 10. Como valor representativo del grupo se toma el equidistante a los límites del mismo. En los grupos del ejemplo dado se toman como repre­ sentativos los valores SS para el 1°, 65 para el 2°, 75 para el 3°, etcétera. Por lo tanto, se considera como si cada una de las observaciones del grupo valiera lo que el valor representativo del grupo. La realidad es que unos valen más y otros menos, pero la verdad es que muy probablemente esos más y esos menos, es decir esas diferencias, se compensarán o el error será muy pequeño, lo cual autoriza a proceder a dicho agrupamiento. Frecuencia Es el número o cantidad de observaciones iguales o semejantes de la muestra. Es. por lo tanto, la población de los grupos. Se denomina igual­ mente frecuencia absoluta. También, frecuencia es la relación entre esa cantidad o población del grupo y la cantidad o población total de la muestra. Se llama entonces frecuencia relativa. A esa frecuencia algunos autores la denominan proba­ bilidad. Se la simboliza generalmente por una f minúscula. En el primer caso, frecuencia es simplemente f. En el segundo, frecuencia =* -fEn el primer caso, la suma de las frecuencias es igual a la población de la muestra, n = 2 f. En el segundo, la suma de las frecuencias es igual a la unidad,

El número de observaciones de un grupo es la frecuencia de dicho Probabilidad Es la relación entre la cantidad de hechos equivalentes y la cantidad

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA total o infinita de hechos similares de ese universo. Esa cantidad infinita se suele simbolizar una veces por la unidad y otras veces por dentó. En este caso se habla de probabilida porcentualPor ejemplo, la probabilidad de que caiga cara una moneda arrojada al suelo puede expresarse por 0,5 o también por 50%. Ordenación de los grupos Si, como debe hacerse, el ordenamiento de los datos precedió al agrupamiento de ellos, los grupos ya estarán ordenados. De no haberse hecho asi, corresponde ordenar los grupos de acuerdo con el ordenamiento de los datos, es decir, primero los grupos correspon­ dientes a datos más pequeños y después los mayores. De este modo los grupos más numerosos quedan generalmente hacia la parte media de la serie de los grupos, pero no siempre ocurre asi y puede suceder lo conDistribución de frecuencias Con la ordenación de los grupos según la ordenación de los datos, quedan también ordenadas las frecuencias de acuerdo con la ordenación de los datos. Esta ordenación especial se denomina distribución de fre­ cuencias (d. de f.). La d. de f. es la serie de frecuencias de los datos ordenados, con espe­ cificación de los datos o de las clases a que correspondan. Al tabular los grupos, éstos van en la primera columna encabezada por una x, hallándose cada grupo representado por el dato repetido o representativo del grupo. En la segunda columna, encabezada por una f, va la frecuencia del grupo. Ya dijimos que la suma de esta columna (2f) es igual a la pobla­ ción de la muestra (n). En la tercera columna, encabezada por la multiplicación indicada f x van los productos de multiplicar el dato repetido o representativo del gru­ po por su frecuencia. La suma de esta columna (Efx) es igual al tamaño de la muestra (Sfx —T). Aun cuando las muestras pueden tener distribuciones de frecuencia muy variadas, en medicina las distribuciones más comunes son estas cua­ tro: 1) la de Gauss; 2) la Gosset "Student” (derivada de la anterior); 3) la de Bernouilli y 4) la de Poisson (vecina a la anterior). Las dos primeras corresponden a datos continuos y las dos segundas a datos discontinuos o discretos (véase clasificación de los datos). 12

ERRNVPHGLFRVRUJ

CONCEPTOS PARTICULARES Cuando las frecuencias de los valores más bajos son relativamente escasas, pero las de los siguientes aumentan progresivamente hasta alcan­ zar un máximo para luego disminuir progresivamente haciéndose cada vez más escasas, siendo el decrecimiento simétrico al crecimiento, la distribu­ ción se denomina Normal o de Gauss. Cuando una distribución de Gauss corresponde a muestras poco nu­ merosas, con una población de 60 o menos observaciones o clases, y sobre todo de 30 o menos, la distribución se denomina de Gosset "Student" (siendo “Student" el seudónimo del estadístico W. S. Gosset). Cuando la distribución está formada por valores que corresponden a los de los monomios del desarrollo de un binomio elevado o potenciado la distribución se denomina binomial o de Bemouilli. Y cuando esta distribución corresponde a una muestra numerosa, pero en la que algunas observaciones ocurren muy pocas veces, la distribución se denomina de Poisson. Ejemplo de distribución normal de frecuencias

ba entre 56 y 65 66 y 75 76 y 85 86 y 95 96 y 105 106 y 115 116 y 125 126 y 135 136 y 145

13

ERRNVPHGLFRVRUJ

Ejemplo de distribución binomial Se investigó el grupo sanguíneo de 36 personas hijos de padre y ma­ dre grupo AB y se encontró lo siguiente:

ERRNVPHGLFRVRUJ

CONCEPTOS PARTICULARES

Estas frecuencias pueden escribirse asi:

18 = 2X 3X 3

(3 + 3)2 = 3* + 2 X 3 X 3 + 3’ .

Ejemplo de distribución de Poisson Se ha dividido el territorio de la República en seis regiones, cada una con una población equivalente. En cada zona se han tomado al azar den localidades con una pobladón de diez mil habitantes. Se ha hecho el re­ cuento de albinos en cada una de ellas y se ha obtenido el siguiente resultado: N° de albinos

Porciento en ¡a población

15

ERRNVPHGLFRVRUJ

desarrollo del binomio elevado:

sea de los seis últimos resultados (véase m >adelante Distribución biamial, Serie de resultados). En efecto:

ERRNVPHGLFRVRUJ

CAPITULO III

REPRESENTACIONES GRAFICAS

SUMARIO: Representaciones gráficas. Cuadriláteros. Sectores. Repr.

Cuando se desea dar una impresión visual de las proporciones que guardan las poblaciones de los distintos grupos, se recurre al dibujo, con­ feccionando gráneos. Si los grupos son pocos, los gráficos más usados son los cudriláteros y los sectores. Cuadriláteros Cuando se utilizan cuadriláteros hay que cuidar de que si son rectán­ gulos y se los dibuja de pie, todas las bases se hallen en la misma linea horizontal, y si acostados, que sus extremos izquierdos se hallen sobre la misma línea vertical. En cualquier caso, la longitud de los cuadriláteros debe ser proporcional a la población de los grupos. Por ejemplo, si se quiere indicar que por cada 100 niños recién naci­ dos femeninos se encontraron 105 recién nacidos masculinos, la longitud del cuadrilátero que representa a las niñas deberá medir, por ejemplo, 100 mm y la del que representa a los niños, 105 mm. Estos cuadriláteros se dibujan separados uno de otros y no interesa la anchura que se les asigne, pero todos deben tener la misma, como se ob­ serva en el Cuadro 3.

ERRNVPHGLFRVRUJ

17

ESTADISTICAMEDICA

Cuadro 3 EJEMPLO DE REPRESENTACION GRAFICA: CUADRILATEROS lProporción de nacimientos según el sexo¡ Para dibujar los cuadriláteros generalmente se empieza por el corres­ pondiente al del grupo más numeroso, dándosele un tamaño que se con­ sidere apropiado a la página donde debe aparecer la ilustración. Sus medidas pueden ser, por ejemplo, base 2,5 cm y altura 10 cm. Los otros cuadriláteros deben tener la misma base, es decir 2,5 cm, y la altura debe ser proporcional a la del primero, teniendo en cuenta la población de ambos grupos. Asi, si se tratase de sólo dos grupos, uno de 900 varones y otro de 850 mujeres, la altura del rectángulo correspon­ diente a éstas se calcula por una simple regla de tres. 900 : 10 :: 850 : X 10 X 850

Cuando para las representaciones gráficas se recurre a los sectores de círculo, la población de la muestra se la equipara a los 360° del circulo y, proporcionalmente a la población de los grupos, se dibujan los sectores. 18

ERRNVPHGLFRVRUJ

REPRESENTACIONES GRAFICAS Los grados de círculo que corresponden a cada grupo se calculan apli­ cando también la regla de tres. Así, si la población de la muestra de recién nacidos es: n = 105 + 100 = 205, la regla de tres dice que los grados de círculo que corresponden al grupo de mujeres es: 205 : 360 :: 100 : X, X = 36s pacientes que tomaron

y la media (nt2) de los que tomaron el hipnótico “B" fue

Hubo, por lo tanto, una diferencia de 3 horas entre las horas medias dormidas por los pacientes de una y otra muestra. Se pregunta si esa dife­ rencia es significativa o no. Por comodidad en los cálculos tomaremos los cuadrados de los datos, es decir de las horas dormidas. 116

ERRNVPHGLFRVRUJ

MUESTRA NORMAL

Ex? = 300

Ex

£(X| - iü!)J + E(X; - ma) _ Ex? -

En una tabla de Gosset “Student" del 95% vemos que a 8 grt libertad t, = 2,30. Siendo nuestro E R (1,8) inferior a ta (2,30), la diferencia ei medias mi y mj no es significativa.

117

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA Con una media, como vemos, de 11,6 horas. Se comparó esta media (m3 = 11,6) con la media de la primera muesesta diferencia es ahora significativa. Como antes, por razones de comodidad en los cálculos, tomamos los cuadrados de los datos. Estos son

Ahora nuestro E.R. de la diferencia (= 239) es ligeramente superior a t» = 2,30; por lo tanto, la diferencia es ahora ligeramente significativa. Si deseamos una mayor precisión en la respuesta, recurrimos a la tabla de Gosset "Student" y vemos que una ts de 2,39 tiene una proba­ bilidad del 2 al 5% (más próxima a S que a 2; interpolando serta aproxi­ madamente del 4,6%). Es, pues, decimos, una diferencia apenas significativa, ya que en el 4,6% de las muestras obtenidas de un mismo universo puede darse una diferencia igual o mayor a la encontrada por

118

ERRNVPHGLFRVRUJ

CAPITULO XII

MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS SUMARIO. Signific

Su significación y determinación Cuando las personas o cosas que integran dos muestras son las mis­ mas, una diferencia puede ser significativa, y no serlo si se trata de personas o cosas distintas. La razón de ello es que entonces hay una ho­ mogeneidad mucho mayor, en las muestras. Asi, ocurre siempre que se hagan las observaciones pareadas en las mismas personas o cosas, una antes y otra después de la intervención de un factor en estudio; o una después de la intervención de un factor y otra después de la intervención de otro factor, sobre las mismas personas o cosas. Por lo demás, en estos casos, no se trata de la significación de una diferencia entre medias, sino de la significación de una media de un conjunto de diferencias. Ejemplo (Datos modificados del Southern Medica! Journal, 1950, 43. 678) A un grupo de pacientes se les suministró un hematinico y después de un tiempo sus valores medios en Hgb se compararon con los de un grupo control. La diferencia no resultó significativa; pero aquellos mismos valo­ res obtenidos en las mismas personas (y no en personas distintas usadas como control) mostró diferencias francamente significativas. Los datos son: 119

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA

tintas, lo que corresponde calcular es la significación de la diferencia entre Para comodidad de los cálculos vamos a tomar los cuadrados de los xl 148,84 127,69 216.09 129,96 132,25 161,29

163,84 174,-24 249,64 179,56 184^96

£ _

+ Zxf - (T, m, +Ta m,)

1142.68 + 916,12 - (13,76 X 82,6 + 12.30 X 73,8) 6 +6-2

ERRNVPHGLFRVRUJ

A DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS

Siendo nuestro error relativo (2,11) inferior a l,0 (2,23) la diferencia entre las medias de los pacientes a quienes se administró el hematínico y la del grupo control no es significativa. Pero si las muestras "A" y "B" hubiesen estado formadas por las mismas personas, es decir si los valores de la muestra “B" hubiesen sido los encontrados antes de suministrar el hematínico, y los de la muestra “A" los hallados después de dicho suministro, lo que correspondería cal* cular sería la significación de la media de las diferencias halladas, es decir También en este caso, por comodidad de los cálculos, vamos a tomar los cuadrados de los valores.

0,36 3,61 1.21 5,29 0,81 í d ! = 15,28 y j 2 d* - md X Td

y l 15,28 - (1,46 X 8,8)

ERRNVPHGLFRVRUJ

‘ Siendo el C.R. de nuestra media superior a ts , la me< tiva de diferencias reales. La media de las diferencias (1,46) es superior a 2,57 veces su error standard (como que es 4,86 veces superior a él), y por lo tanto es una • media significativa. Consultando una tabla de Gosset "Sludcnt" puede verse que la pro­ babilidad de una ts de 4,86 es inferior al 1%y aun al ¡í%; es decir que nuestra afirmación de que la media hallada es representativa de diferencias reales tiene una probabilidad de error de menos del 0,5%. Vemos asi que, cuando los valores que se comparan pertenecen a las mismas personas o cosas, la homogeneidad de la muestra hace que dife­ rencias no significativas entre personas o cosas distintas puedan resultar significativas. Significación de la diferencia entre dos o más muestras por el análisis de Dos o más muestras pueden comparaise estableciendo la significación de sus diferencias recurriendo a la comparación de uno de sus parámetros de posición, como, por ejemplo, sus medias, según vimos anteriormente en los capítulos X y XI o comparando uno de sus parámetros de dispersión, Habiendo dos o más muestras, pueden establecerse, a más de las va­ de las cuales las más importantes son la intermuestra y la ¡ntramuestra. La variancia global es la dispersión global de los datos en relación a la media global (M), dividida por la población o efectivo global (N) menos 1. Más exactamente, la variancia global (var.g) es la suma de los cuadra­ dos de las diferencias de cada uno de los datos de las muestras a la media global (es decir, a la media de todos estos datos), dividida por la pobla-

122 ERRNVPHGLFRVRUJ

MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS En la práctica el cálculo de la variancia global suele hacerse por el ir las diferencias, no de los datos a la media, método simplificado n lo cual los valores de los datos constituyen sino de los datos ias. En este caso la fórmula conceptual puede los valores de estas c reemplazarse por la d —



donde T es el tamaño global o suma de todos los datos y N el efectivo La variancia iniergrupo es la dispersión de las medias (m) de cada mues­ tra en relación con la media global (M) multiplicada por la población o efectivo de cada muestra (n) y dividida por el número de muestras (H) Más exactamente variancia intergrupo (var. ínter.) es la suma de los cuadrados de las diferencias de las medias (m) de cada muestra, a la medi­ da global (M) multiplicada por la población o efectivo de cada muestra (n) y dividido por el número de muestras (H) menos 1. v

. .

_ ni (mi - M)a + na (mi - M)* + ----

La variancia intergrupo expresa la dispersión de las medias “entre” las distintas muestras. En la práctica el cálculo de la variancia intergrupo se hace también por el método simplificado recién señalado, con lo cual la fórmula conceptual arriba vista queda reemplazada por la siguiente: Var inter = O í/" . + H /n2 + ...) -T * /N H- 1 donde Ti es el tamaño o suma de los datos de la muestra X| y T el tamaño o suma de todos los datos de todas las muestras. T, = I x ,

T=2 x

Vemos que el numerador del quebrado que expresa la variancia inter­ grupo es la resta de la suma de los sustraendos de los numeradores que por el método simplificado expresan la variancia parcial de cada muestra, 123

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA menos el sustraendo de la variancia global (véase la fórmula práctica o simplificada de la variancia global). La variancia intragrupo es la dispersión de los datos en relación con la media en cada muestra, dividida por el número total de observaciones (N) menos el número de muestras (H). Más exactamente, la variancia ¡ntragrupo es la suma de los cuadrados de las diferencias de los datos a la media de cada muestra dividida por la población o efectivo total de observaciones (N), menos el número de muestras (H). Var. ir

s S(xi - mi)1 + 2 (x2 - m2)a ■ N- H

La variancia intragrupo expresa la dispersión de los datos “dentro" de las distintas muestras. En la práctica el cálculo de la variancia intragrupo también se hace por el método simplificado, reemplazando la fórmula conceptual por la prác­ tica. Entonces, Var. ir

- 2 x2 - (H /n , + Tl/na +

Vemos que el numerador de este quebrado es la resta del minuendo del numerador que por el método simplificado expresa la variancia global menos la suma de los suslraendos de las variancias parciales. Teniendo a la vista las fórmulas simplificadas de estas tres variancias:

Var. Ínter. = T' 1 M| + Tl 1 "a ................. ) ~ T a /N Var intra. = S Xa - (Ti / n, + Ti / n, + ■■■) N -H puede comprobarse, que el numerador de la variancia global es igual a la suma de los numeradores de las otras dos variancias, y lo mismo ocurre con el denominador.

ERRNVPHGLFRVRUJ

MEDIA DE UNA DIFERENCIA DE DATOS DE OBSERVACIONES PAREADAS Esto permite calcular el numerador y el denominador de una de ellas A los numeradores se les suele llamar "sumas de cuadrados” o “sumas cuadráticas y a los denominadores “grados de libertad" Entonces la "suma cuadrática” de la variancia global es igual a la libertad" de la variancia global es igual a la suma de los "grados de li­ bertad" de las otras dos variancias. Esto es lo mismo que lo anterior dicho con otras palabras. La comparación de estas dos últimas variancias, esto es, de la íntergrupo y de la ¡ntragrupo, permite, calificar la significación de la diferencia de dos o más muestras por el método estadístico de R.A. Fisher deno­ minado "Análisis de las variancias", ligeramente modificado por vanos Para ello hay que dividir la mayor de ellas por la menor, obteniéndose loque se conoce como cociente F,,2 (F. es la inicial del apellido del creador del método). A continuación se averigua, en tablas especiales, el valor del cociente Las tablas especiales fueron confeccionadas por varios autores, entre ellos por G.W. Snedecor, y por van der Waerden, y otros, para distintos porcientos de probabilidad (5%, 1%, etc.), ver Apéndice Tabla 3, página 301. Estas tablas son de las llamadas de doble entrada, en las que el valor buscado está en la intersección de una columna vertical que corresponde al grado de libertad o denominador de la variancia mayor y una linea horizontal que corresponde al grado de libertad o denominador de la variancia menor. Si el cociente F ,,7 hallauo por nosotros al dividir la variancia mayor por la menor es mayor que el cociente F. encontrado en Ia tabla, la diferencia entre las muestras es significativa; si es igual o menor a él, no lo

ERRNVPHGLFRVRUJ

n, =10

n, = 10

n, = 12

T] = 1790a = 3204100 Ti = 20101 = 4040100 Ti = 2376’ = S645376 T? •/. n, = 3204100 ■/. 10 = 320410 T?



= 4040100 •/.10 =

Ti

•/. n*

= 5645376 ■/.¡2 =

Ti •/. n,

+ Ti

•/. n, + Ti •/.n, =

T

404010 470448 1194868

= T, + T, + Tj =

Ta •/. N = 6176a •/. 32 = 38.144.976 •/. 32 = 1.191.968

126

ERRNVPHGLFRVRUJ

6176

32400 31329 30625 28900 33124 32761 31329 32400 33489 34225 ----------■320582

39601 41209 40000 37636 38025 41616 42436 42849 40804 40000

36481 37636 40401 37249 38809 38025 41209 39601 39601 40401 42136 38809

2x1 = 404176

2x3 = 470658 2x2 = 2x1 + 2x1 + 2x1 = 119S416 n. + Ti ■/■n, + Ti •/■ n,) - T* H- 1

N_

868 - 1.191.968 _ 2900

Siendo F ,.j (= 76,7) mucho mayoi qu

127

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

CUARTA partí:

LA MUESTRA BERNOUILLI

BIN0M1AL

NUMEROSA

ERRNVPHGLFRVRUJ

O

MUESTRA

DE

ERRNVPHGLFRVRUJ

CAPITULO XIII

DISTRIBUCION BINOMIAL SUMARIO: Desarrollo de

131

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA El desarrollo de esle binomio es un polinomio formado por la suma de dos monomios. El primero de estos es a, que puede escribirse 1 a (uno por a) y también I a1 b° (uno por a elevada a uno por b elevada a cero) y el 1° es b, que puede escribirse I b o también -J- a° b '. Adoptamos esta última forma por razones que después comprenderemos; entonces; (a + b)1 —la1 b° + — j— a° b1.

Monomio 1 a' b° = I a

Hagamos ahora algunas observaciones: Ira. observación El número o cantidad de monomios es igual al exponente del binomio lás I. 2da. observación Cada monomio está formado por un coeficiente determinado seguido ar el producto de ambos términos del binomio, cada uno de ellos eleido a una potencia también determinada. 3ra. observación El coeficiente del 1er. monomio (y también del último) es 1. 4la. observación El coeficiente del 2 monomio es un quebrado cuyo numerador es el (ponente del binomio y cuyo denominador es la unidad. Sta. observación El ler. factor de los monomios es el ler. término del binomio, eleido, en el ler. monomio, al exponente del binomio, y en el 2 monolio, a este exponente menos 1. El 2do. factor de le 132

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA 5a. observación El coeficiente del 3er. monomio es también un quebrado cuyo nume­ rador es el numerador del 2° monomio multiplicado por el número que le precede en la serie natural de los números y el denominador, el denomi­ nador del 2 monomio multiplicado por el número que le sigue en la serie natural de los números. 6a. observación En el 1er. monomio aparece el 1er. término del binomio, elevado al exponente del binomio; en el 2°, elevado a dicho exponente menos 1. y en el 3°. elevado a dicho exponente menos 2. Es decir que el exponente de este 1er. término de los monomios, que en el primero es igual al ex­ ponente del binomio, disminuye en una unidad en cada uno de los mo­ nomios siguientes. 7a. observación El 2° factor de los monomios es el 2° término del binomio, elevado, en el 1er. monomio, a 0; en el 2°, a 1, y en el 3o, a 2. La suma de los exponentes de ambos factores de los monomios es igual en todos ellos, e igual al exponente del binomio elevado. Ser. ejemplo Desarrollemos en forma similar el binomio elevado (a + b)J N° de orden

ERRNVPHGLFRVRUJ

DISTRIBUCION BINOMIAL Observaciones Podemos repetir las mismas observaciones anteriores. En efecto: 1) El número de monomios es igual al exponente del binomio ele­ vado más 1. 2) Cada monomio está formado por un coeficiente seguido del pro­ ducto de ambos términos del binomio, elevados a un exponente deter­ minado. 3) El 1ro. (y el último) monomio tienen el coeficiente 1. 4) El coeficiente de los monomios, a partir del 2° está fotmado por un quebrado. Este quebrado, en el 2o monomio tiene por numerador el exponente del binomio elevado, y por denominador la unidad. En el 3 y siguiente los coeficientes tienen como numerador el numerador del coefi­ ciente anterior multiplicado por el número natural que le precede en la serie natural de los números y por denominador el denominador anterior multiplicado por el número natural que le sigue. Estos coeficientes se Daman coeficientes newtonianos, o monomiales (también suelen deno­ minarse "binomiales", por referirse a los monomios correspondientes al desarrollo de un binomio). 4lo. ejemplo Desarrollemos en igual forma el binomio (a + b)‘ 7V° de orden

Monomio

■t 3"

13S

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA 6„

6X SX 4X 3X 2 1X 2X 3X 4X 5

^ 6X SX 4X 3X 2X 1 1 X 2X 3X 4X 5X 6 Observaciones Podríamos repetir las mismas observaciones anteriores. 5o ejemplo Reemplacemos por números, no solamente el exponente, sino también los términos del binomio. Reemplacémoslos primeramente por números naturales, por ejemplo, (2 + 3)'. Y ahora desarrollémoslos como antes: /Vo de orden

Monomio



1 X 2 'X 3 ° =

1X2 X 1 - 2

t

| X 2 ° X 3 '=

IX 1X 3 = 3

Observaciones Podríamos hacer las observaciones del 1er. ejemplo. 6o ejemplo Desarrollemos ahora el binomio (2 + 3)1 AIo de orden

Monomio



1 X 2 'X 3 " =

I X 2* X 1 = 4

t

- X 21 X 3' =

2X 2‘ X 3'= 12

ERRNVPHGLFRVRUJ

DISTRIBUCION BINOMIAL Observaciones Podríamos repetir las observaciones del 2° ejemplo. 7o ejemplo Desarrollemos el binomio (2 + 3)J ÍV° de orden 1° 2°

Monomio 1 X 2S X 3o = 1 X 2! X 1 = 3 X 2 'X 3 '=

3X 2, X3I =

8 36

3X 2 X 2' X 3* =

3 X 2 'X 3 ! =

54

2o X 3S =

1X 1 X 3 ’ =

27

Las mismas que en el 3er. ejemplo.

Desarrollemos ol binomio

Monomio l X 2‘ X 3° = 1 X 2‘ X I =

64

-X 2 ! X3‘ = 6 X 2S X 3‘ — 576 — X2*X3* = 15X2* X3’ = 2160 1X2 )3 = 4320 = 15 X 2* X 34 = 4860

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA —— ——— — ———X 2, X 35 = 6X2- X3» =29.6 1X 2X 3X4X S 6XSX4X3X2XIX 2o X 31 = 1X1 X 3‘ = 1X2X3 X4 XS X6 Observaciones Las mismas de siempre. Reemplacemos ahora los términos del binomio por números quebra­ dos cuya suma sea igual a la unidad.

Desarrollemos el binomio U

+ 4 V - .■ - ,

'•

■ ( { ) • ( * ) • - ■ ( i) *

f

t

(Í)'(Í)'

-«-(i)

Observaciones

10° ejemplo Desarrollemos el binomio

( i -i)'138

ERRNVPHGLFRVRUJ

DISTRIBUCION BINOMIAL Valor del monomio

' «

-

‘(i)' »(I) (i) - í

Observaciones Las 8 de antes. 1 1 ° ejemplo Desarrollemos el binomio W

)

+ z

A" de orden

Monomio

'(;)■(!)

-

Valor

■er« - ¿ ■(i)’(i)- 5 (i)1 (i) (i)- i > ü )

m i j m ’ i! ,’ , 1X 2X 3 \ 2 / \2 )

;

Observaciones Las de siempre 12° ejemplo Binomio ^

j - 1* - 1

ERRNVPHGLFRVRUJ

139

ESTADISTICA MEDICA W° de orden i ( y '( f ) ‘

■ (!)*>

-

(t ) ( ! )

Observaciones Las de siempre 13° ejemplo Desarrollemos el binomio

(T Ai° de orden

7=i

Monomio

'■ ' (;)' (!)* - ■(I)-? f(i)' (D‘ - 2(i) (i) >• Sí (i)* (!)’.- (f)Ü) Observaciones Las mismas 8. t° ejemplo Binomio 140

ERRNVPHGLFRVRUJ

i !

DISTRIBUCION B1NOMIAL

Observaciones Las de siempre 16 ejemplo Binomio

V6

6 /

= l2 = l

ERRNVPHGLFRVRUJ

Monomio

N° de orden

Observaciones Las 8 de siempre Reemplacemos ahora los términos del binomio por números decimales cuya suma sea también igual a uno. 17° ejemplo Binomio (0,5 + 0,5)a Valor

Monomio

iV° de orden 1*

1 (0,5)’ (0.5)°

=

1 (0,5)’ X



y(0.S? (0,5)*

=

2(0,5) (0,5)

3'

7 F 2( 0,5)0 (°,S)3

=

X I (0.5)1

Observaciones Las de siempre. 180 ejemplo Binomio

(0.5 + 0,5)3

142

ERRNVPHGLFRVRUJ

1

0,25 0,50 0,25

DISTRIBUCION BINOMIAL N° de orden

Monomio

1° t

Valor

1 (0,5)3 (0,5)°

=

1(0,5)J X I

0,125

y(O.S)1 (0,5)'

-

3(0,5)3 (0,5)

0,375



7 T i (0’S)' (0•S),

=

3 (0.S) (0,S)J

0.375

4o

3X 2X 1 (0,5)° (0,S)J 1 X 2X 3V

=

1X1 (0,5)3

0.125

19° ejemplo Binomio (0,3 + 0,7)* = 1* = 1 N° de orden

Monomio

•Io

IX 0,3J X 0,7° ■=

ÍX O J’ X I

0,09

2•

2 X 0,3' X 0.71 =

2 X 0,3 X 0.7

0,42

3.

X 0,3° X 0,7a =

ERRNVPHGLFRVRUJ

1 X I X 0,72 0,49

143

ERRNVPHGLFRVRUJ

CAPITULO XIV

SERIE BINOMIAL DE BERNOUILU

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA ambiente la diabetes afecta al 4% de la población, una persona puede pertenecer a ese 4% o no pertenecer); presentar un síntoma cuando se padece una determinada enfermedad en la que dicho síntoma se presenta con una determinada frecuencia (si los fibromas uterinos ocasionan me* trorragias en el 50% de los casos, una paciente con fibroma puede per­ tenecer a ese 50% o no pertenecer a él) etcétera. Frecuencia de los resultados En estas seríes formadas por hechos que pueden ocurrir o no ocurrir, como consecuencia del dilema, los resultados se repiten con las frecuen­ cias indicadas por los monomios resultantes del desarrollo de un determi­ nado binomio elevado. El nombre de estas series es “series estadísticas con una distribución binomial de frecuencias", al que suele asociarse el nombre del gran matemático suizo del siglo XVII Jacobo Bemouilli. Suele decirse abrevia­ damente: Distribución binomial de Bemouilli. Recordemos que se habla de frecuencias cuando se trata de muestras, o de series, y de probabilidad cuando se trata de universos. En el primer caso se trata de la relación entre el número de veces que un dato se repite, y el número total de observaciones de la muestra (o sea, de térmi­ nos de la serie) y en el segundo la misma relación tomando como totali­ dad del universo la unidad o el centenar, es decir I ó 100. De modo que los valores de la distribución binomial de frecuencias son los mismos que los de la distribución bimial de probabilidades. Vamos a estudiar estas series de Bemouilli en la misma forma que lo hicimos con el desarrollo del binomio de Newton, esto es, mediante ejemEJEMPLO 1 Si arrojamos una moneda al aire, es posible que caiga “cara", pero es también posible que caiga "ceca", esto es que “no caiga cara". La probabilidad de que “caiga cara" es igual a la de que “no caiga cara", y si a la probabilidad de ambas juntas, a la probabilidad total, es decir, a la probabilidad de que “caiga cara más la de que no caiga cara" le damos el valor uno, el valor de la probabilidad de que "salga cara" es igual a la mitad, es decir a un medio, y otro tanto, la de que "no caiga cara". Esto significa que presumimos que arrojando infinidad de veces una moneda, la mitad de las veces "caerá cara” y la otra mitad "no caerá

146 ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI No podemos verificar esla hipótesis recurriendo a una experiencia infinita, pero de acuerdo con la ley de los grandes números, los resultados se acercan a ella en la medida en que aumenta el número de las expericnLa serie finita mis pequefla representativa de esta serie infinita sería una serie formada por dos términos, uno de los cuales fuera “cayó cara" Si al resultado “caer cara" le asignamos el valor 1 y al resultado “no caer cara" el valor 0, esa serie finita sería la siguiente:

Son estas frecuencias relativas, o probabilidades, las indicadas por los Esta es una serie de dos términos en la que éstos no se presentan mis que una vez; es decir la frecuencia relativa de cada uno de ellos es uno sobre dos. El valor de las frecuencias relativas de estos términos o frecuencia

El cuadro de los monomios resultantes del desarrollo de este binomio En dicho cuadro podríamos cambiar el titulo de la primer columna: (n° de orden) y poner “resultado”, y el de la 3a. (valor) y poner "fre­ cuencia de estos resultados". (Sobreentendiéndose frecuencia relativa). La frecuencia del resultado máximo* está dada por el valor del primer

ERRNVPHGLFRVRUJ

147

ESTADISTICAMEDICA E! cuadro quedaría entonces así: Resultado

Monomio

Frecuenciade este resultado

(Los valores de la última columna deben leerse uno sobre dos). Significado de los términos, y del exponente, del binomio, en relación con los resultados. Observación N°l En el binomio elevado ( y + y )', el primer término indica la pro­ babilidad del resultado “caer cara". Observación N°2 El 2 término del binomio elevado indica la probabilidad del resultado Observación N°3 El exponente del binomio indica el número de monedas arrojadas cada vez y también el valor máximo del resultado. Observación N°4 El valor del exponente más uno indica el número o cantidad de resul­ tados diferentes. Resumen Razonando sobre los resultados de arrojar una moneda, y calificando esos resultados desde el punto de vista de “caer cara" o “no caer cara" y dando al 1° el valor 1 y al 2° el valor 0, podemos construir una serie

148 ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI estadística con una distribución binomial de las frecuencias en la que éstas, es decir el número de veces que un término se presenta, están dadas por el valor de los monomios resultantes del desarrollo del binomio ele­ vado ( y + Observaciones En este binomio, el 1er. término es la probabilidad de "caer cara"; el 2°, la de “no caer cara”, y el exponenle tiene un triple significado; 1) Indica el número o cantidad de monedas arrojadas cada vez. 2) Indica además el valor del mayor de los resultados, es decir de los términos de la serie, y 3) El valor del exponente más uno indica el número o cantidad de resultados posibles, es decir de términos distintos de la serie. Ejemplo 2 Si en un bolillero hay tres bolillas iguales en todo menos en el color, y de las cuales una es roja, otra azul y la tercera verde, al abrir el bolillero una cualquiera de ellas puede salir,, siendo la probabilidad de hacerlo la misma para cada una de ellas. Si a la probabilidad total, es decir a la suma de las probabilidades de todas ellas le asignamos el valor 1, la probabilidad de salir una determi­ nada de las tres es igual a j y la de no salir dicha bolilla igual a \ . Esto significa que aceptamos que abriendo infinidad de veces el boli­ llero después de haber repuesto la bolilla extraída, en la tercera parte de las veces saldrá la bolilla roja y en las partes no saldrá la bolilla roja. La serie mínima representativa de esa serie infinita sería una finita de 3 términos, de los que el primero representaría el hecho de "salir la roja" y las 2 siguientes cada una el de "no salir la bolilla roja". Si al resultado de salir la bolilla roja le asignamos el valor I y al de "no salir la bolilla roja" el valor 0, esa serie mínima seria la siguiente:

149

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI indica el número de bolillas extraídas por vez; además el exponente indica el mayor valor de los resultados, es decir de los términos de la serie y el valor del exponente más uno el número o cantidad de resultados, esto es, de términos diferentes de la serie. EJEMPLO 3 Si arrojamos un dado sobre la mesa, puede salir el número "seis" o salir cualquier otro número, siendo la probabilidad de que salga el “seis" igual a la probabilidad de que salga cualquiera de los otros números, y si a la probabilidad total, es decir a la suma de probabilidades de todos ellos les damos el valor 1, la de “salir el seis" será igual a ~ y la de “no salir Si al resultado "salir el seis” le damos el valor I y al "no salir el seis” el valor 0, la serie mínima representativa de la serie infinita de arrojar un dado sobre la mesa es la serie de 6 términos. 1. 0, 0, 0. 0, 0 I (D. 0(5)

o también:

f.

*

Sr

Las frecuencias de estos resultados, o sea de estos términos, está dada por los valores de los monomios resultantes del desarrollo del binomio elevado ( i *

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

ESTADISTICAMEDICA Por fin, la probabilidad de que arrojando dos monedas no salga ni ira, equivale a que salgan dos y la probabilidad de es sultado es, como vimos, igual, también. Si al resultado "salir dos caras'' le asignamos el valor 2, al "salir 1 i" el valor 0, las probabilidades vistas significan que arrojando infinidad de veces dos monedas al mismo tiempo, en la cuarta parte de los casos caerán 2 caras, en los dos cuartas partes, o sea en la mitad de los casos, caerá una cara y en la cuarta parte restante no saldrá ninguna cara. La serie mínima representativa de esta serie infinita sería una serie de cuatro términos; cuyo primer término sería un 2, luego vendría un I; después otro I y por fin un 0. Así:

Observaciones

154

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI monedas arrojadas simultáneamente. También indica el mayor valor del resultado, y el número de resultados diferentes (si se le agrega 1). El desarrollo de este binomio elevado lo vimos en el ejemplo 10 de la clase anterior. Al cuadro correspondiente podemos cambiarle ios títulos y entonces obtener el siguiente:

La frecuencia del resultado máximo está dada por el valor del primer monomio y la del resultado mínimo por el del último. La tercera columna debe leerse uno sobre cuatro, dos sobre cuatro, y uno sobre cuatro, respectivamente. Resumen Razonando sobre los resultados de arrojar dos monedas, desde el punto de vista de "caer cara" o “no caer cara", hemos construido una serie con una distribuciún binomial de las frecuencias, las cuales respon­ den a los valores de los monomios resultantes del desarrollo del binomio elevado ( y + ? )’ • Observaciones En este binomio el 1er. término indica la probabilidad de salir cara arrojando una moneda; el 2° la de no salir cara, y el exponente el número de monedas arrojadas simultáneamente. A su vez este exponente indica el valor máximo de los resultados posibles, o sea de los términos de la serie, y el valor del exponente más uno el número o cantidad de resultados posibles, o sea de términos distintos de la serie.

ERRNVPHGLFRVRUJ

1SS

ERRNVPHGLFRVRUJ

Las combinaciones en que aparece una sola bolilla roja, si ísta es R |, son dos Ri - Vj y R, - Aj y las en que aparece la Rj también son dos Rj - V| y Ra - Ai; por lo tanto, las combinaciones o resultados en que aparece una sola bolilla roja, cualquiera de ellas que sea, son cuatro. La probabilidad de este resultado (una bolilla roja) es, por lo tanto, -5-. Y por fia las combinaciones en que no aparece ninguna bolilla roja son también 4, como puede verificarse fácilmente. Esta probabilidad (“ninguna bolilla roja”) es, por consiguiente, también igual, a -y . Es decir, hemos obtenido los mismos resultados que por los cálculos. Si al resultado “sacar 2 bolillas rojas” le damos el valor 2, al "sacar 1 bolilla roja” el valor I y al “ninguna bolilla roja” el valor 0, ía serie mínima representativa de la serie infinita de sacar bolillas de dos bolilleros con las condiciones dichas sería la siguiente 2, 1. 1, 1, 1, 0,0, 0,0 o sea 2(1), 1(4), 0(4) o también

ERRNVPHGLFRVRUJ

157

ESTADISTICA MEDICA el exponente indica el número de bolillas que se extraen al mismo tiempo, el mayor resultado obtenible y el exponente más 1, el número o cantidad de resultados diferentes que pueden extraerse. El desarrollo de este monomio lo vimos en el ejemplo 13 de la lecCambiando los títulos del cuadro visto podemos conféccionar el siguiente Resultado

Monomio

Frecuencias

Los valores de la 3a. columna deben leerse uno sobre 9, 4 sobre 9 y 4 sobre nueve, respectivamente. Resumen De nuevo hemos construido y visto una serie estadística con una repe­ tición de términos, o sea con una distribución de frecuencias, de índole binomial, en la que esta frecuencia está dada por los valores de los mo­ nomios resultantes del desarrollo del binomio elevado

Observaciones El ler. término de este binomio indica la probabilidad de un resultado en un caso individual, el 2° la probabilidad de no obtener ese resultado en ese caso individual, y el exponente el número de casos individuales. A su vez el exponente indica el valor del resultado máximo, o sea del término máximo de la serie, y el exponente más uno el número o cantidad de resultados distintos, o sea de términos diferentes de la serie.

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI Ejemplo 6 Si en vez de arrojar un dado arrojamos dos, el cuadro de resultados y frecuencias de esos resultados desde el punto de vista de sacar "seis" puede construirse sobre la base del desarrollo del binomio (4“ + T ) asl" Resultados

Monomio

Frecttencia

'a de todas las seríes posibles de ar

2 ( 1), 1 ( 10), 0 (25)

Vemos una nueva serie estadística con una distribución de frecuencias de tipo binomial, en la que la repetición de los términos, o sea la frecuen­ cia, está dada por los valores de los monomios resultantes del desarrollo del binomio elevado ( -j- + 4 )3•

ERRNVPHGLFRVRUJ

Observaciones El leí. término de este binomio implica la probabilidad individual de un resultado en un caso individual y el 2° la probabilidad de no obtener ese resultado en dicho caso individual, y el'exponente el número o can­ tidad de casos individuales en juego simultáneo, el valor máximo del re­ sultado obtenible y el exponente más I el número o cantidad de rebulta­ dos distintos que se pueden obtener. Ejemplo 7 En vez de 2 monedas arrojemos 3 y veamos la serie de resultados desde el punto de vista de caer cara. El cuadro de los resultados y frecuencias sería el siguiente, desarro­ llando el binomio

Resultado ■

Monomio .

' ( i H

t r

= ■(;)'

! ' « - ( * ) ■

'

Frecuencia

( * ) ■

3(1 ),

2 (3),

1 (3),

ERRNVPHGLFRVRUJ

0 (I)

5

i

f H Í Í ) , (3), - ( i ) , (3)‘-

• S ü í (*)•(*)'-(i)'

160

-

i

- i

SERIE BINOMIAL DE BERNOUILLI

que éstas están míos resultantes del desarrollo del binomio elevado ( -j + -j- f . Observaciones El 1er. término de este binomio indica la probabilidad individual de un resultado en un caso individual; el 2° la probabilidad individual de no obtener dicho resultado en el mencionado caso individual, y el exponente el número de casos individuales puestos en un juego simultáneamente, indicando además el valor máximo de los resultados, o sea de los términos de la serie; y el mismo más uno el número o cantidad de resultados, o sea de términos diferentes de la serie. Ejemplo 8 En vez de 2 bolilleros tengamos 3 en las mismas condiciones ante­ riores y construyamos la serie de resultados desde el punto de vista de que salgan bolillas rojas. El cuadro de resultados y frecuencias sería el siguiente, desarrollando el binomio elevado:

ERRNVPHGLFRVRUJ

Hemos visto una nueva serie estadística con una distribución binomial de frecuencias de la misma naturaleza que las anteriores. Ejemplo 9 Construyamos finalmente una serie con una distribución binomial de frecuencias recogiendo los resultados de arrojar 3 dados al mismo tiempo, ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI lis; desarrollando el binomio ele-

a * lesultados

f r

Monomios

Fi

•ayay-ay ! ( ; ) ' ( ! ) '

1 •

-

- > ( ; ) ’ (I)-

ma) ' ( ! ) ■ - (i) ( 9 ‘ i H í i

( ; ) • ( ! ) '- ■ ( ! ) •



La serie mínima sería pues: 3 (1),

2 (IS).

1 (75).

0 (125)

163

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA

de frecuencias. Observación: Vemos, pues, que cuando aumenta el número o cantidad de casos individuales que se observan simultáneamente, aumenta igualmente y en forma mucho mayor la complejidad de los cálculos necesarios para obtener el valor de los monomios. Por ejemplo, si arrojáramos 5 dados, el del binomio elevado.

Como siempre, el valor del primer monomio corresponde a la frecuen­ cia del resultado máximo y el de los que siguen a los resultados siguientes en orden descendente.

'( ! ) ■ ( ! / - '(i)'

=

4

i (;)’(;)■-10(1)7;)’- w a

e

n

y

a

r

e

-

» ( ; ) * ( ! ) ’-

5 (1),

4(25), 3 (250). 2 (1250).

-

w

w

-

1(!)‘

1 (3125),

ERRNVPHGLFRVRUJ

n s i

i

-m 0 (3125)

!E BINOMIAL DE BERNOUILLI

7776 25 7776 250 7776 1250 7776 3125 7776 3125 7776

3125 3125

Z/r= 1

n = 2 / = 7776

p> q

(o sea, cuando a > b).

p = q

(o sea, cuando a = b).

Corresponden a los re

)s cuando

Y corresponden a los resultados menores cuando p< q

(o sea, cuando a < b).

Cálculo de la frecuencia de un resultado determinado Si lo que nos interesa exclusivamente es saber cuál es la frecuencia con que en la serie se repite un resultado determinado, sólo tendremos que armar el monomio correspondiente a dicho resultado. Este monomio, como lo dijimos antes, está formado por tres factores: el 1° es el coeficiente binomial, el 2° es el primer término del binomio,

ERRNVPHGLFRVRUJ

165

ESTADISTICA MEDICA elevado a una potencia determinada, y el 3° es el 2° término del binomio elevado a otra potencia igualmente determinada. El coeficiente monomio! puede obtenerse siguiendo técnicas muy sencillas. En primer lugar digamos que el coeficiente del monomio corres­ pondiente al resultado máximo y al resultado cero es la unidad (de modo que nada puede ser más fácil que esto). El coeficiente de los monomios correspondientes a los otros resulta­ dos es un quebrado, y como tal, está formado por un numerador y un denominador. Estos pueden obtenerse por dos técnicas distintas. Primera técnica: El numerador es igual al producto del coeficiente del monomio an­ terior multiplicado por el exponente del primer término de este mismo monomio, y el denominador es igual al exponente del segundo término también del monomio anterior aumentado en una unidad. Ejemplo: desarrollo del binomio (a + b)‘

6X I 5+ 1

_ ~

_6 6

Segunda técnica El numerador del quebrado del monomio correspondiente al 2° resul­ tado, es decir al resultado cuyo valor coincide con el valor de exponente del binomio menos 1, es justamente el valor del exponente. 166

ERRNVPHGLFRVRUJ

El numerador del quebrado del monomio siguienle. es decir del co­ rrespondiente al resultado cuyo valor es el exponente del binomio menos 2. es el numerador anterior multiplicado por el número que le sigue en la serie descendente de los números naturales. El numerador del quebrado del monomio siguiente es igualmente el numerador del monomio anterior multiplicado por el número que le sigue en la serie descendente de los números naturales. Y asi todos, incluso el último. Pero éste, ya sabemos, al igual que el primero, vale 1; de modo que no hace falta calcularlo. Veamos ahora el Empecemos por el denominador del coeficiente del 2o monomio (del correspondiente al resultado que es igual al exponente menos I). En este coeficiente el denominador es 1. El denominador del coeficiente del monomio siguiente (del que co­ rresponde al resultado cuyo valor es igual al exponente menos 2), es el denominador anterior (I) multiplicado por el número que le sigue en la serie creciente de los números naturales, es decir, por 2. El denominador de los coeficientes de los monomios siguientes, hasta el último, es igualmente el denominador anterior multiplicado por el número que le sigue en la serie creciente de los números naturales. Ejemplo

(a + b)‘ Pongámoslos en columna frente a los resultados correspondientes: Monomios

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA

Si invertimos el orden de los factores de los denominadores (lo cual es perfectamente permisible, ya que el orden de los factores no altera el producto), esos coeficientes, a partir del correspondiente al resultado 4 y hasta el resultado 1, serian para el binomio

6 X SX 3X 2 X 6 XSX4

5X 4X 3X 2X os denominadores forVemos asi que en esos coeficientes, nan en la unidad, man series decrecientes completos de factores q sentido de que no ter­ los numeradores forman seríes incompletas, minan en la unidad. Como es sabido, las seríes decrecientes de fa unidad se denominan factoriales del símbolo matemático es un signo admirativo, y sus valore tan sido calculados por los matemáticos y colocados en tablas, las que men de calcularlos factoriales de nú'ez, lo cual es muy trabajoso cuando Apéndice, Tabla 8. página 308. os relativamente al os la serie natural is tablas, en ui de los números desde I hasta 100; en una segunda columna encontramos el valor del producto de la serie correspondiente al factorial, y en una tercera columna el logaritmo de ese valor.

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI Cuando se trata de factoriales de números todavía más elevados, es más cómodo manejarse con los logaritmos de los factoriales que con los factoriales mismos. En esos casos se puede recurrir a tablas de logaritmos factoriales. Una de tales tablas puede verse en Geigy, 6a. ed., p. 26, en la que se dan los logaritmos decimales de los factoriales desde 1 hasta 999. En esta edición, además, en la página siguiente tenemos el logaritmo de los factoriales recíprocos, es decir de I/n! Estas tablas nos permiten hallar, sin cálculo alguno, el valor de los denominadores de los coeficientes binomiales, que estamos estudiando. El valor de los numeradores, en cambio, por ser series incompletas de factores que no terminan en uno, no pueden hallarse en dichas tablas, sino que se lo debe calcular uno a uno en cada caso. Sin embargo, podríamos completar la serie de los numeradores y beneficiamos así con el uso de las tablas de factoriales, pero a fin de que el valor del quebrado no se alterara, tendríamos que multiplicar el deno­ minador por esa misma porción de serie que agregamos al numerador. En esta forma, tanto el numerador como el denominador podrían hallarse en las tablas. Por ejemplo, los coeficientes recién vistos podrían ser transformados en los siguientes, sin que su valor cambiara en el binomio (a + b)6

< I) (4 X 3 X 2 X 1) (6 X 5 X 4) (3 X 2 X 1)

4 X3X 2X 1 6X SX 4X 3X 2 5X4X3X2X1

X 3 X 2 X 1) (2 X 1) (6 X S X 4 X 3 X 2) (1) (5 X 4 X 3 X 2X 1)(1)

En esta forma “actual" el numerador es una serie completa de fac­ tores decrecientes hasta 1, es decir constituye el factorial del primer factor, y su valor puede hallarse en las tablas. 169

ERRNVPHGLFRVRUJ

A su vez los denominadores están formados por el producto de dos series decrecientes que terminan en 1, es decir están formados por el producto de dos factoriales cuyos valores también pueden hallarse en las tablas. Esta última forma facilita, por tanto, muchísimo la tarea de encon­ trar el valor de los coeficientes binomiales. Observaciones • 1) Observando estos coeficientes expresados en forma de factoriales, vemos que todos los numeradores no son más que el factorial del expo­ nente del binomio y 2) que los denominadores están formados por el producto del facto­ rial del resultado multiplicado por el factorial de la diferencia entre el exponente del binomio y el resultado; 3) si genéricamente el exponente del binomio lo simbolizamos por N y al resultado por R, el coeficiente binomial puede simbolizarse por una N y una R puestas una encima de otra y ambas encerradas entre parénEstos coeficientes responderían evidentemente a la fórmula

\m

/ N \ R /

» ____ R! (N -R )l

Es decir que el coeficiente del monomio correspondiente a cualquier resultado es igual al coeficiente binomial del exponente N sobre el resulY también es igual al factorial del exponente dividido por el producto del factorial del resultado multiplicado por el factorial de la diferencia entre el exponente y el resultado. Ejemplo ¿Cuál es el coeficiente binomial correspondiente al resultado 3 en el desarrollo del binomio (a + b)5? I 5 ) \ 3 /

Ni R! (N - R)1

S! 3! 2!

Recurriendo a una tabla de factoriales podemos reemplazar a estos por sus valores, entonces tendremos 170

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILLI 120 120 6 X 2 “ 12

10 .

Por el método originario el cálculo de este coeficiente hubiese sido

(D-m-T En este ejemplo hubiese sido más sencillo el método originario que el derivado, debido a que tanto el exponente como el resultado son números pequeflos; pero otra cosa hubiera sido si, por ejemplo, el problema hubie­ se sido: ¿cuál es el coeficiente binomial correspondiente al resultado 25 en el desarrollo del binomio (a + b)‘°°? En este caso el coeficiente, de acuerdo con el método originario, hubiera sido / 100 \ \ 25 /

100 X 99 X 98 X . . . X 26 (75 multiplicaciones) I X 2 X 3 X . . . X 75 (75 multiplicaciones) *

Es decirque para calcular este coeficiente por el método original necesitaríamos realizar nada menos que 150 multiplicaciones, lo cual evidentemente es una tarea larga y laboriosa. En cambio, por el método deducido el cálculo indicado es el siN! _ 100! R! (N - R)! “ 25! 75! ' Se recurre ahora a una tabla de factoriales, con lo cual tenemos / 100 \ \ 25 /

100! 25! 75!

9333 X 10'»_______ = 2425 X 10” 1551 X 10” X 2480 X lO'04

La magnitud de este coeficiente puede apreciarse por elexponente 23 del factor 10, lo cual nos dice que el valor de la cifraes superior aun 2 seguido de 23 ceros, o sea de unos 242 mil trillones. Pero también estos cálculos pueden verse facilitados recurriendo a tablas apropiadas de coeficientes binomiales como los que trae la obra citada de Geigy, sexta edición, pág 25, abajo y 70 a 77. La primera de estas tablas nos da directamente los resultados de los coeficientes que van de 171

ERRNVPHGLFRVRUJ

172

ERRNVPHGLFRVRUJ

SERIE BINOMIAL DE BERNOUILL! Vimos anteriormente que los otros factores de los monomios son los dos términos del binomio elevado, cada uno de ellos elevados, a su vez, a un exponente determinado cuyos valores son los que ahora debemos Digamos ante todo que esta parte del asunto es sumamente sencilla. En efecto, el primer factor del monomio se halla elevado invariable­ mente al resultado, y el segundo factor a la diferencia entre el exponente y el resultado.

ie binomial que responda

Las frecuencias de los (a + b)5 pueden obtenerse por las dos siguientes formas:

La primera forma es tabla de coeficientes binomiales o de sus logaritmos.

ERRNVPHGLFRVRUJ

173

R! r los métodos habituales de acuerdo con la siguiente planilla:

1250000,00 1663312,5

ERRNVPHGLFRVRUJ

PARAMETROS MEDIA Y DESVIO STANDARD

Probabilidad de un resultado Cuando una mueslra, o una serie estadística, presenta una distribución de frecuencias de carácter binomial, la solución del problema de la proba­ bilidad y el de la significación de un resultado puede verse extraordinaria­ mente simplificada. Ejemplo Problema. ¿Cuál es la probabilidad de que un matrimonio tenga por resultado 7 hijos seguidos todos ellos varones? Respuesta. Aceptando que la probabilidad de que un matrimonio tenga un hijo varón es igual a la de tener una hija mujer, la probabilidad de "tener un varón" es igual a -y y la de "no tener un varón” es también igual a -J-. Por lo tanto, las probabilidades de tener I. 2, 3 „., 7 hijos varones, en otros tantos partos seguidos, están dadas por los valores de los monomios correspondientes al desarrollo del binomio elevado

ERRNVPHGLFRVRUJ

I8S

ESTADISTICA MEDICA En este desarrollo el monomio correspondiente al resultado máximo, el correspondiente al exponente del binomio, es decir a 7, es decir el 1er. monomio, tiene como coeficiente la unidad, R1 q”* - x»

y la probabilidad de extraer dos muestras, una con una frecuencia del resultado (o media) y la otra con una frecuencia del resultado (o media)-jji , deuna muestracon un efectivo N, + N2 y unresultado Xi + Xa es igual al cocientede la probabilidad anterior dividido por la probabilidad de extraer esta muestra, es decir, , X, X, C?. C?- p».»«. qtN .-«.)+tN,-»,> Cg¡ C?; f Ñ 7’ “ Cn' ; ”. ’ p».**. q(N, + N ,)-tx, + x,) “ CJ. + N. Esta es la probabilidad de extraer un par de muestras en estas con­ diciones. Nosotros debemos conocer la probabilidad suma de todos los pares de muestras que cumplan la condición tercera, es decir, que Ai _ A3 . N, Na

X! _ Xa N, N, '

Si esta suma es'inferior al coeficiente de riesgo del 5%, la diferencia es significativa. Ejemplo En una región, entre 125 individuos (N| = 12S) se han encontrado bocios en 3 (X, =3), y en otra, entre 155 (N, = 155) no se ha encontrado ninguno (X3 = 0). ¿La diferencia hallada es significativa? Estamos en presencia de muestras en las que cada observación signi­ ficó una alternativa o dilema: o se estaba en presencia de un bocio o no se estaba. Se trata, por lo tanto, de muestras binomiales. En esta muestra, si bien la suma de efectivo, y aun los efectivos de cada muestra, supera a cien, "p” en una de ellas es igual a 77, = = 0,024 = 2,4% y en la otra es igual a jf*- = 0 = 0%; es decir que en ambas muestras (basta con una sola) “p” es menor del 10%. No podemos, pues, asimilarlas a una muestra normal. Para calcular la significación de la diferencia entre sus medias, debemos calcular la probabilidad de extraer de un mismo universo uno o varios pares de muestras con los mismos 212

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

Anlilog. 2,94343 = 0,08778 = 8,8% = f — , — . Es decir que este par de muestras puede obtenerse de un universo único con una frecuencia del 8,8%. Siendo esta frecuencia superior al 5%, la diferencia no es significativa. Otro ejemplo Con un determinado medicamento aplicado.a 16 pacientes se curaron 7 (Ni = 16; X| =7); con otro medicamento aplicado a 20 pacientes se curó 1 (Na = 20; X2 = 1). La diferencia entre y ^ ¿es o no sig­ nificativa? También aquí estamos ante un ejemplo en el cual cada observación significó una alternativa: el paciente se curó o no. Se trata entonces tam­ bién de muestras binomiales. La suma de los efectivos (16 + 20 = 36) es inferior a cien. Tampoco podemos, por consiguiente, asimilarlas a una muestra normal. También aquí para valorar la significación de la dife­ rencia entre sus medias debemos calcular la probabilidad de obtener de un universo único uno o varios pares de muestras cuyos efectivos sean los de nuestras muestras, cuya suma de resultados sea igual a la suma de resul­ tados de nuestras muestras, y cuya diferencia entre sus medias (o frecuen­ cia de los resultados) sea igual o mayor que la diferencia de las medias Dado que la probabilidad de que ocurra un hecho cuando él puede ocurrir de varías maneras posibles, es igual a la suma de las probabilidades de cada manera en particular, es necesario sumar las probabilidades de todos los pares de muestras que llenen las condiciones dichas. Aquí podemos tener tres pares de muestras, cada una con un efectivo de 16 y 20 pacientes, respectivamente, cuya suma de resultados sea igual a la suma de resultados de nuestras muestras y cuya diferencia entre sus medias sea igual o superior a la encontrada entre las medias de nuestras muestras. El primer par de muestras es el propio par hallado, en el que la diferencia es

.ÍL _ *L _ Z N,

Na

16

L

20 =

El segundo par podría ser uno cuya diferencia fuera

ERRNVPHGLFRVRUJ

INTERVALO DE CONFIANZADE LAMEDIA

N,

N,

16

20

'

Necesitamos conocer la suma de probabilidades de estos tres pares de lucstras. Si esta suma es inferior al coeficiente de riesgo del 5%, la dife* :ncia observada es significativa. Para el 1er. par tenemos

f ( M

ñ i

)

< (?)

=

¿!

Para el 2o par tenemos , „ f 16 ' 20

c(f)c(f) r /36 \

¿ j'A J 6!_ 8! 28! 16! 28!

< (“ )

'

¿ i

ERRNVPHGLFRVRUJ

. . . 818! 36!

ESTADISTICA MEDICA La suma de estas tres frecuencias (0,00756 + 0,00043 + 0,00416) es igual a 0,01215 = 1,2%. Siendo que en solo 1,2% de los casos podría obtenerse un par de muestras en las condiciones indicadas, y siendo esta probabilidad inferior al 5%, la diferencia encontrada en nuestras muestras es una diferencia significativa.

ERRNVPHGLFRVRUJ

Q u in ta p a r te

M U E S T R A S D E P O IS S O N

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

CAPITULO XVII

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

MUESTRAS DE POISSON Tomemos una tabla de funciones exponenciales (por ejemplo Geigy. 6a. ed., pág. 16) para ver el valor e“ 1. Ahí veremos e 1 = 0,367879 . 0,367879

0,061323 = 6%

Es decir que la frecuencia del resultado 3, si la media es del IVi, será del 6%. Esto significa que, a pesar de que la media en la población en general, es del 1%, en el 6% de las muestras que tengan una población o efectivo de 100 podrá hallarse el resultado 3. Naturalmente, el problema puede resolverse más fácilmente y sin cálculo alguno recurriendo a una tabla de distribución de Poisson por ejemplo, Lamottc, Estadística Bioló­ gica, Ed., Toray, pág. 52 ver Apéndice, Tabla 6). Estas son tablas de doble entrada, en las que la columna vertical corresponde a los distintos valores de la media y las líneas horizontales a los distintos valores del resultado. En nuestro caso habrá que leer el número que está en la intersección de la columna 1 con la horizontal 3. Dicho número es 0,0613. Esta es la fre­ cuencia buscada. La misma que habíamos calculado. Obtención de la media Algo parecido ocurre con la media. Cuando en una distribución binomial se desconoce el valor de "p”, no se puede hallar el valor de la media, puesto que en una distribución binomial ésta es igual a “p” (si se trata de porcentajes) o a “pN" (si se trata de valores absolutos). Pero si se trata de frecuencias muy escasas en muestras muy numerosas, es decir si se trata de una distribución de Poisson, el conocimiento de la frecuencia de un resultado cualquiera, hasta de un resultado nulo, nos permite co­ nocer la media. Por ejemplo, trabajando con virus no se puede saber, por los métodos comunes, la pululación media de ellos en los diversos cul­ tivos, por la razón de que no se los puede contar, pero como se puede saber la frecuencia con que aparecen cultivos indemnes, es decir en que la pululación es cero, podemos calcular el valor de la media aun cuando en este caso el resultado es nulo, obteniéndolo de la ecuación f(o )= ^ 0!

ERRNVPHGLFRVRUJ

221

ESTADISTICA MEDICA en la que vemos que e— « f(o) . de donde se saca que

m _ - |ogf(°) Supongamos que la frecuencia f(o) del resultado nulo, o sea de los cultivos indemnes o no pululados, sea 0,3679, es decir, f(o) = 0,3679 , entonces m

-log 0,3679 loge

- ( -1 + 0.S6S73) 0,43429

= » ~ 0.56S73 _ 0,43427 ^ 0,43429 ~ 0,43429 * ' Es decir que el número medio (m) de virus por cultivo es muy apro­ ximadamente igual a I. Naturalmente, el problema puede resolverse más fácilmente y sin cálculo alguno recurriendo a las Tablas de distribución de Poisson. como la recién vista, y buscando en la horizontal del resultado cero, es decir en la primera línea de la tabla, un valor de frecuencia igual o próximo al nuestro. Hallado éste, basta levantar la vista y leer a qué media corres­ ponde. Así encontraremos que en la primera columna se halla el valor 0,3679, el cual corresponde a la media uno: el mismo resultado obtenido por el cálculo. Como vimos que e

= f(o) .

también f(o) = 0,3679 = e-1" . Por lo cual, recurriendo a una tabla de funciones exponenciales como la de Geigy, 6a. ed., pág. 16, y buscando a qué m (en la tabla, aquí x) corresponde e-m = 0.3679 222

ERRNVPHGLFRVRUJ

MUESTRAS DE POISSON (o el valor más próximo a 0,3679). encontraremos que 0,367879 = e-1 de donde concluimos que es decir, el mismo resultado que el obtenido anteriormente.

En la distribución de Poisson la variancia tiene el mismo valor que la

Los limites del intervalo de confianza Los límites del intervalo de confianza tanto del resultado como de la media es posible fijarlos mediante el cálculo, pero éste debe hacerse por aproximaciones sucesivas, lo cual suele resultar muy laborioso; por este motivo es preferible recurrir a las tablas donde estos cálculos ya están realizados. (Por ejemplo, Lamoue. op. di., pág 80. Ver Apéndice, Tabla 7. También Geigy, op. cit., 6a. ed., pág. 107). Ejemplo ¿Cuáles son los limites del intervalo de confianza del 95% del resul­ tado “x" o "r" = 33 en una muestra cuya población “n" = 12.000? “x” o “r" = 33

“n” = 12.000

En las tablas dichas, en la horizontal correspondiente a ’T" (Lamotte) o a "x” (Geigy) —33, encontramos dos cifras. 22,7

y 46,3 (Lamotte)

22,715 y 46,345 (Geigy). Esto significa que, en valores absolutos, los limites del intervalo de confianza de nuestro resultado son; 223

ERRNVPHGLFRVRUJ

Lj .c j. = 22,715 y 46,345 de nuestra media son:

Significación de la diferencia entre dos medias que "p" o V sea inferior a (M (= 10%); Cap. 16.

224

ERRNVPHGLFRVRUJ

S exta P arte

Ji CUADRADO (X2) O METODO DE PEARSON

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

CAPITULO

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA Tendríamos así, en el papel, dos muestras de igual población y con iguales clases, una real y otra teórica, cuyas frecuencias de clases serían diferentes. Ante esa diferencia, dada por la distinta distribución de las frecuen­ cias, se planteará el problema de si es correcta o no nuestra hipótesis de que nuestra muestra real pertenece al mismo universo que la muestra teórica; es decir, si dicha diferencia es meramente casual y debida al azar, o si, por el contrarío, es significativa e indica una diferencia causal. Recuérdese que éste es el problema fundamental de la estadística. Ésta no trata de demostrar la igualdad entre dos muestras, ni es capaz de hacerlo. Los métodos estadísticos sólo se ocupan de la diferencia que hay entre ellas, estableciendo la probabilidad de que una diferencia hallada sea significativa, o no, de una diferencia real. En nuestro problema tendríamos que comparar, clase por clase, los valores de la distribución de la muestra real con los valores de la distribu­ ción de la muestra teórica, y calcular después la probabilidad de un re­ sultado igual. Este problema fue resuelto por Carlos Pearson en 1899, quien lo hizo calculando la probabilidad de obtener por azar muestras como la nuestra, es decir con el mismo efectivo y las mismas clases, sacando un gran nú­ mero de muestras con una población igual a la nuestra de un infinito formado por las mismas clases, pero con una distribución de frecuencia de dichas clases que obedeciera a una ley, hipótesis, razón, proporción o porcentaje, etcétera, como son, por ejemplo, la distribución binomial, la normal, etcétera. Pearson estableció un parámetro común a la muestra real y a la teó­ rica, al que Uamó X J i cuadrado y además calculó las probabilidades de su distribución de frecuencia. CONCEPTO X es la suma de los desvíos cuadráticos relativos obtenidos compa­ rando clase a clase las frecuencias absolutas observadas en cada clase real con las frecuencias absolutas calculadas para la clase correspondiente, en una muestra de la misma población que la muestra observada, pero cuyas frecuencias de clases sean las de dichas clases en el universo del que pro­ viene la muestra calculada. Los desvíos cuadráticos relativos (d.c.r.) se calculan dividiendo el cuadrado de la resta de la frecuencia absoluta observada en una clase menos la frecuencia absoluta calculada para dicha clase en la muestra teó­ rica, por la frecuencia absoluta calculada. Es decir: 228

ERRNVPHGLFRVRUJ

METODO DE PEARSON

“0" es la frecuencia absoluta o número de casos de la clase observada, y "C” la ídem de la misma clase calculada. Decimos que X3 es la suma de los devíos cuadraticos relativos, esto es

Tablas de X2- Significado de una probabilidad Pearson construyó, además, tablas en las que se dan las probabilidades de x3. Esas tablas son de dos tipos. En unas se dan las probabilidades aproximadas para x3 exactos (véase Treloar en Bancroft, H.. Introducción a la Bioestadistica. Ed. EUDEBA, 1960, págs. 162 y 163). En otras se dan las probabilidades exactas para valores aproximados de x3 (véase Geigy, Tablas científicas. 6a. ed„ págs. 36 a 39) (véase Extractos, pág. 230). Además las probabilidades pueden referirse a que ambas muestras no pertenezcan al mismo universo (integral de 0 a X3) (véase Geigy, tabla citada) o por el contrario a que pertenezcan al mismo universo (integral de X3 a infinito) (véase Geigy tabla citada). Hay, además, tablas reducidas, que, para nuestras necesidades médicas, suelen ser suficientes. (Véase M. Lamotte, Estadística Biológica, Ed. Toray, pág. 86.) En éstas se dan tos valores de los distintos grados de li­ bertad de x3 para un coeficiente de seguridad o intervalo de confianza del 95%. Cuando el valor hallado de Xa cae dentro de dicho intervalo, o sea es menor al indicado en la tabla, integral de X3 a infinito, la diferen­ cia no es significativa, siéndolo, en cambio, cuando es mayor. Cuando, en este último caso, se quiere saber la probabilidad del error de esta afirma­ ción (diferencia no significativa) hay que recurrir a las tablas completas, especialmente a aquellas que dan las probabilidades externas o derechas integral de x3 a infinito) (Geigy, tabla citada). X3 es tanto mayor cuanto mayor sea la diferencia entre ambas mues­ tras, y mayor, por lo tanto, la probabilidad de que ambas no pertenezcan al mismo universo (aumento de la integral de 0 a x3)- Simultáneamente será menor la probabilidad de x3 y menor la probabilidad de que ambas muestras pertenezcan al mismo universo (disminución de la integral de X3 a infinito). Tratándose de muestras médicas, se acepta que una probabilidad in­ terna o izquierda de x3 (integral de 0 a x3) superior a 0,95 (coeficiente 229

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

METODO DE FEARSON Grado de libertad Los valores de X1 aumentan con el grado de libertad, llamando asi al número de clases de la muestra teórica que puede variar su población o efectivo de clase sin afectar la población o efectivo de la muestra, la cual está fijada de antemano, pues debe ser igual al de la población de la mues­ tra real. Es evidente que si una muestra está formada por un número n de clases (tres, por ejemplo: n = 3), sólo podrán variar sus efectivos libremen­ te, n - 1 clases (en nuestro ejemplo, n - 1 = 3 - I = 2 clases); ya que, una vez fijado el efectivo o población de estas n - I clases, el efectivo o población de la clase restante queda automáticamente fijado, pueí debe ser igual al efectivo de la muestra menos la suma de los efectivos de las otras clases: es decir que esta última ciase carece entonces de libertad para variar su efectivo o población. El grado de libertad de una muestra teórica es igual, cuando más, al número o cantidad de clases menos uno. Y decimos cuando más porque si la muestra teó ca además de la condición de tener la misma población o efectivo que la muestra real tiene que satisfacer alguna otra condición, por ejemplo, que tenga algún otro parámetro del mismo valor que el de la muestra real, el grado de libertad será igual a la resta del número o cantidad de clases, menos el número o cantidad de condiciones. Por ejemplo, si la muestra teórica debe tener no sólo la población o efectivo igual a la muestra observada, sino también la media con igual valor que la media de la muestra real, el grado de libertad será n - 2. Y si, no sólo la población y la media deben tener igual valor en una y otra muestra, sino también el desvío tipo, el grado de libertad será n —3: etcétera. Cuando en vez de ser una sola la muestra observada son dos o varias las observadas al mismo tiempo, el grado de libertad de las muestras teó­ ricas que se calculan a! mismo tiempo es igual al producto del grado de libertad de las muestras por el número de muestras (m) menos uno. Por ejemplo: si el grado de libertad de las muestras es n —1, el grado de li­ bertad del conjunto de las muestras teóricas es (n - I) (m —1). Restricciones Al trabajar con x3 hay que tomar en cuenta las siguientes resfrie Io) Sólo se comparan frecuencias absolutas. 231

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

METODO DE PEARSON

± + i_ + ü = ± + i. + 11= 12 = 0,, 25

50

25

25

25 25

25

Grado de libertad n - 1 = 3 - 1 = 2. En una tabla reducida, de coeficiente de seguridad o intervalo de confianza del 95%, o en la columna correspondiente a una probabilidad de error del 0,05, vemos que el valor límite de xi es 5,99. Como nuestro nificativa. En resumen: X1 = 0,88 nos dice que la diferencia hallada es simple­ mente casual. Veamos otro ejemplo. Ejemplo n° 2. Compamción de una muestra real con una teórica; la diferencia es significativa. Probabilidad de error de esta afirmación. En otro sitio del mundo, otra muestra de cien personas nos da el siguiente recuento: 31 gordos, 56 normales, 13 flacos. Preguntamos ¿la diferencia hallada con la supuesta proporción universal de 25% gordos, 50% normales y 25% flacos, es casual? Veamos qué dice Xa las muestras a comparar son:

Total _ (31 -25)»

100 (56 - SO)2

10C (13 —25)* _ 36 +

La tabla reducida dice que el valor límite de xi es 5,99; como el valor de X3 hallado por nosotros es mayor, sacamos la conclusión de que 233

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA la diferencia es significativa. Una tabla de probabilidades de error muestra o indica que nuestro x2 hallado tiene una probabilidad externa o derecha (integral de x2 a infinito) comprendida entre 0,01 y 0,02. Por consiguien­ te, la probabilidad de error de nuestra conclusión (diferencia significativa) es de I al 2%. En resumen: la diferencia no es casual. La diferencia es significativa. Las muestras no pertenecen al mismo universo.

Supongamos que se trata de las longitudes halladas midiendo esquirlas óseas, y que las frecuencias de las clases de la muestra observada y las de la calculada teórica correspondiente a una distribución normal sean

n significativamente diferentes? Como en la muestra teórica las dos primeras clases, asi como la úl­ tima, están formadas por un número de observaciones menor a 5, reuni­ remos en cada muestra las tres primeras clases y las dos últimas. En esta forma, ninguna de las clases teóricas tendrá un efectivo menor de 5. Las muestras que comparar serán ahora 234

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

5,66 Siendo 7 el número de clases, el grado de libertad será uno menos, es docir 6. Para un Xí el valor límite o coeficiente de seguridad del 95% es 12,59; por consiguiente, siendo nuestro x’ inferior a ese valor, la dife­ rencia de nuestra muestra con la muestra teórica no es significativa. Ejemplo n° 4. Comparación de una muestra real con una teórica. Esta presenta clases cuyas frecuencias son menores de 5. No hay clases vecinas. Recurso de Yates. Cuando una clase calculada vale menos de 5 y no se dispone de clases vecinas para formar una clase más nutrida, se puede recurrir a la llamada “corrección por continuidad de Yates". Esta consiste en modificar los los valores observados y los calculados el valor 0,5 antes de elevar al cuadrado, según que la diferencia sea positiva o negativa, y tomando luego como probabilidad el término medio entre la probabilidad obtenida sin la corrección y con ella. Por ejemplo; De un total de 40 pacientes con la­ ringitis tuberculosa, a 10 se los trató con penicilina y a 30 con rayos ultravioleta y/o cauterio; de los primeros se curaron 3 y de los segundos gnificativas. Se recurre al método del xJ • 236

ERRNVPHGLFRVRUJ

Los valores calculados se obtuvieron suponiendo que no hay dife­ rencia de resultados siguiendo uno u otro procedimiento terapéutico; es curación, siempre que se efectuase en un número suficientemente grande de pacientes. No conocemos cuál es la probabilidad de curación en este universo común, por lo cual tomamos como estimación de ella la que nos el que de un total de 40 pacientes se curaron 5. En este supuesto (y ésta es la hipótesis que permite utilizar el método de x2), si en el total de pacientes se curaron , en 10 tratados con penicilina debieron curar Fijado este valor, los restantes se obtienen por simple resta de los Si el total de los tratados con penicilina fue 10 y los que calculamos que debieron curarse 1,25, los que no debieron curarse serán la diferencia 10 - 1,25 = 8,75. Si el total de curados con ambos procedimientos fue S y calculamos que los curados con penicilina debieron ser 1,25, los curados con el otro procedimiento serán la diferencia 5 -1 ,2 5 = 3,75. valor restante (26, 25). Vemos que de los valores calculados sólo uno es independiente de los Observamos, además, aquí, que de los valores calculados dos de ellos, 1,25 y 3,75, son menores que 5 y que no disponemos de clases vecinas para juntarlos y hacer una clase numerosa. No podríamos, por lo tanto, seguir adelante con el método de x2. Pero, si recurrimos al procedimiento de Yates, podremos armar los quebrados cuya suma es x2, como si no estuviéramos en infracción a una de las leyes del método. Entonces; 237

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

METODO DE PEAKSON Una probabilidad así significa que la diferencia entre la muestra .cal y la calculada puede deberse simplemente al azar; en otras palabras, que no hay diferencia entre ambos métodos de tratamiento. También podríamos razonar diciendo: habiendo obtenido dos valore., diferentes de x2 (3.6 y 1.8), podemos tomar el promedio como valor real. Entonces, v? .

3-é - 1-8

Para que la diferencia entre las muestras sea significativa, el valor de Xi tiene que ser superior a 3,84. Como es menor, no lo es. Como a Xi —2,7 le corresponde una probabilidad interna, o izquierda (integral de 0 a x2). del 90%, la diferencia cae dentro del margen de confianza del 95%. Por lo tanto, X2 = 2,7 no es significativo de dife-

- Ejemplo n°5. Comparación conjunta de 2 muestras con 2 clases cada una. Tabla de 2 X 2. La diferencia no es significativa. Deseando conocer la eficacia de una presunta vacuna para prevenir los resfríos, la administramos a un conjunto de 40 personas, tr las que obser­ vamos durante un cierto tiempo, al cabo del cual comprobamos que 10 se habían resfriado. Como control observamos a 160 personas del mismo medio ambiente, a las que administramos un placebo, o no administramos nada: y al cabo del mismo tiempo comprobamos que se habían resfriado 65. La pregunta que nos hacemos es la siguiente: ¿La diferencia observada es significativa de corresponder a universos diferentes, o pueden ser dife­ rencias casuales de muestras del mismo universo? Recurrimos al método X2Discusión y solución La planilla de operaciones la armamos de la siguiente manera: Colo­ camos en linea horizontal las distintas muestras y en columna vertical las distintas clases, dejando un espacio a la derecha de cada valor observado para colocar el valor que calcularemos después. Así:

ERRNVPHGLFRVRUJ

239

ERRNVPHGLFRVRUJ

METODO DE PEARSON libertad) es 1. Los valores colocados en la inmediata vecindad de la co­ lumna o de la Tüa de los totales, se obtienen restando de los totales correspondientes los valores ya obtenidos. La regla dice que el número de valores independientes o grado de libertad es igual al número de clases, o sea de datos originarios en fila, menos I (F - 1) multiplicado por el n° de muestras o sea de datos originarios en columna menos 1 (C - 1)- Es decir: Número de valores independientes o grado de libertad = (F - 1)X(C - 1). N° de val. indep. = (2 - I) X (2 - I) = 1 X I = 1 . Calculados los valores de acuerdo con la hipótesis, corresponde armar Dijimos que: « ..s - fc S l ’oniendo los quebrados en columna, tenemos: (o -ty c (10 - 15)a 15

_

] 1S

25 15

(30 - 2S)* 25

=

* 25

25 25

(6S - 60)* 60



(+ 5 >* 60

25

( - 5)’ 100

25 100

(95 - 100)1

1,66 1,00 =

0,41

-

0,25

! =

3,32

Observación I De paso observaremos que, tratándose de una tabla de 2 muestras con 2 clases cada una, o, como suele decirse, una tabla de 2 X 2, los cual'

ERRNVPHGLFRVRUJ

241

ESTADISTICA MEDICA numeradores son ¡guales, por lo cual basta calcular uno y ponerle después como denominador el valor calculado correspondiente. Observación 2

2

También pueden observarse que en estas tablas de 2 X 2 el valor de X puede obtenerse directamente de los valores observados y de sus sumas parciales y totales, los cuales pueden simbolizarse asi:

d

D

Entonces X1 =

(ad - cb)2 Z A BC D

, _ (10 X 9S - 65 X 30)2 200 75 X 125 X 40 X 160 Vemos que X3 es Xi- Este sub 1 indica el grado de libertad, o núme­ ro de valores independientes, el cual es de fundamental importancia para el paso siguiente, que es el de recurrir a la tabla de Ji Cuadrado. Recurriendo a una tabla reducida vemos que, para un valor indepen­ diente de 1, a un valor de x? de 3.84 le corresponde una probabilidad del 5%. Como nuestro x2 vale menos de 3,84, la diferencia no es significativa, simple casualidad. En otras palabras, las diferencias encontradas entre los valores obser­ vados en nuestros vacunados y no vacunados por un lado, y los valores 242

ERRNVPHGLFRVRUJ

METODO DE PEARSON calculados sobre la base o hipótesis de que la presunta vacuna es inoperan­ te por otro, no son diferencias significativas; son diferencias que pueden deberse simplemente a la casualidad. Esto es, que la vacuna no parece eficaz. Veamos otro ejemplo: Ejemplo n°6. Comparación conjunta de 2 muestras con 2 clases cada una - La diferencia es significativa - Probabilidad de error En una campana antimalárica, con el objeto de prevenir las recidivas se había venido empleando un tratamiento, que llamaremos A, en base de atebrina, exclusivamente. En eso se propone un tratamiento ligeramente diferente, que llamaremos B, en el cual al tratamiento anterior se le agrega plasmoquina. Se decide ponerlo a prueba. Para ello se administra el trata­ miento A a 139 pacientes y se observa el comportamiento durante cierto tiempo, comprobándose que del total, 106 presentaron recidivas. El tratamiento B, es decir el anterior más plasmoquina, se administra a 98 pacientes, y de ellos, en igual tiempo, 60 presentan recidivas. Se plantea la siguiente pregunta: ¿las diferencias anotadas son casuales o significativas? ¿La plasmoquina agregada mejora realmente los resulSohtción Se recurre a la prueba de Ji cuadrado, organizando la planilla de ope­ raciones en la siguiente forma:

Se sostiene la hipótesis de que ambas muestras pertenecen al mismo universo, o sea que la plasmoquina agregada no mejora los resultados y, por lo tanto, que el tratamiento B es lo mismo, desde el punto de vista de las recidivas, que el tratamiento A. Que las diferencias observadas obe­ decen a simple casualidad. 243

ERRNVPHGLFRVRUJ

Sobre la base de esta hipótesis se calcula cuál será la proporción de recidivas con cualquiera de los dos tratamientos. Para ello se juntan las dos muestras y se encuentra que sobre 237 pacientes tratados 166 presen­ tan recidivas. Según esta proporción, se calcula cuántos de los 139 pacientes que recibieron el tratamiento A debían presentar recidiva: 444* 139 = Con este resultado, calculamos los otros tres. (Valores independientes, por lo tanto, 1.) Ahora armamos los quebrados cuya suma es Ji cuadrado. (O - C)» (106 - 97,3)» 97,3 (33 - 41.7)1 (60 - 68,7)a 68,7 (38 - 29,3)» 29,3

Dijimos que tratándose de una tabla de 2 X 2 también podríamos proa „ (106 X 38 - 60 X 33)* 237 Xl “ 166 X 71 X 139 X 98

'

Consultando ahora una tabla reducida de X3>vemos que para un solo valor independiente una probabilidad del 5% corresponde a un Ji cuadra­ do de 3,84. Como nuestro xz cs mayor que 3,84, la diferencia entre ambas muestras es una diferencia significativa. En una tabla de probabili­ dades extemas (integral de x1 a infinito) podemos ver que la probabilidad

ERRNVPHGLFRVRUJ

de enor de esta afirmación (diferencia significativa) está entre el 1 y el 2%. Esto significa que en 100 pruebas similares a la nuestra sólo una vez se hallarán diferencias iguales o mayores que la encontrada por nosotros. Siendo ¿su una probabilidad muy escasa, es razonable aceptar que la dife­ rencia entre los valores observados y los calculados sobre la base de la hipótesis de la inoperancia del tratamiento B sobre el A es significativa. En otras palabras, que el tratamiento B logra combatir las recidivas en forma significativamente superior que el tratamiento A. Hasta ahora hemos visto aplicar el método de Ji cuadrado a proble­ mas que sólo implican 2 muestras con 2 clases de observaciones cada una. Pero las posibilidades del método rebasan estos limites y puede aplicarse a problemas con más de dos muestras, y con más de dos clases cada una. Veamos esto con ejemplos. Empecemos por un problema de varias muestras, aunque sólo con dos clases cada una.

En el tratamiento de la coqueluche se desea saber si hay diferencias reales en la eficacia (o ineficacia) de estos 4 agentes terapéuticos: estrep­ tomicina, suero humano, suero de conejo, cloramfenico!. Para esto se administró el 1° a 66 niflos; el 2° a 27; el 3° a SS y el 4° a 49. Además se observó el comportamiento de 45 a los que no se dio medicación alguna. Al cabo de una semana se recogieron los resultados, anotándose los éxitos registrados en cada uno de los cinco grupos, los cuales fueron: para la estreptomicina 38 éxitos; para el suero humano 13; para el suero de conejo 32; para el cloramfenicol 32, y para el grupo de control, al que no se hizo nada, 22. contrario, es una diferencia debida simplemente a la casualidad? Respuesta: Para su contestación se recurre al método del Ji cuadrado. La planilla de operaciones se dispone de la siguiente forma: 245

ERRNVPHGLFRVRUJ

246

ERRNVPHGLFRVRUJ

METODO DE PEARSON (32 - 31,l)1 31,1 (32 - 27,7)a 27.7

_

_

B 3! 31,1 (4¿£ 27,7

(22 - 25,5)a 25,5

_ ( - 2S,S)a 25,5

(28 - 28,6)a 28,6

.

(~ O-**)1 28,6

_ =

(23 - 23,9)a 23,9

= * 23,9

(17 - 21,3)a 21,3

3-7>’ 21,3

=

(3.5)a 19.S

0,81 31,10 18,49 27,70 6,65 25,50 0,36 28,60 5,29 11,70

(2.3)a 11,7

(14 —ll,7)a 11,7

(23 - 19,S)a 19.5

_

D _

0,81 23,90 13.69 21,30 12,25 19,50 x2 =

-2 90

Consultando una tabla de Xa aproximado, vemos que el valor limite de xi para un codicíente de seguridad o intervalo de confianza del 95% es 9,49. Siendo el valor hallado de nuestro Xa muy inferior a éste, las diferencias observadas entre las distintas muestras no son significativas. Esto significa que las diferencias entre los valores observados y los calculados pueden ser simplemente obra de la casualidad. En conse­ cuencia, ninguno de los medicamentos empleados tiene un éxito real mayor que el del simple no hacer nada. Veamos un ejemplo más, en el cual se comparan varias muestras, ahora con varias clases de observaciones cada una. Ejemplo n°8. Comparación conjunta de varias muestras con varias clases cada una. Se trata de saber si el volumen de la metrorragia de los desprendi­ mientos prematuros de placenta aumenta con la edad del embarazo. Para

ERRNVPHGLFRVRUJ

247

en inmaduros, prematuros y maduros. En cada una de estas muestras se valoró el volumen de la hemorragia en menos de 14 litro, entre 14 y 1 litro y más de 1 litro. El número de casos observados en cada categoría es el que aparece en la planilla. Para su solución se siguió el método de x*SOLUCION: Se confeccionó la planilla de operaciones en la siguiente

Se supone (hipótesis) que todas estas muestras pertenecen al mismo universo, que no hay diferencias reales en el volumen de las hemorragias por razón de la mayor o menor madurez del embarazo. En consecuencia, se considera que la frecuencia de observaciones de metrorTagias menores volumen (121) sobre el total de metrorragias (o sea, de partos de todas las edades) observado, es decir, 224. Por consiguiente, en una muestra de 33 partos inmaduros el número de metrorragias menores de 14 litro será En la misma forma calcularemos el número de metrorragias menores en muestras de 33 partos inmaduros y de 99 partos prematuros. Es decir, calculamos 4 valores independientes. Los restantes valores los calculamos restando del total la suma de los ya calculados. Una vez calculados los valores, podemos armar los quebrados cuya 248

ERRNVPHGLFRVRUJ

METODO DE PEARSON

(23 - 17,8)* 17,8

(5.2)* 17,8

27,04 17,80

(47 - 53,5)’ 53,5

(13.5)* 53,5

182,25 53,50

(51 - 49,7) 49,7

IL 2 ! 49,7

1.69 49,70

(4 - 7,7)* 7,7

(2.3)* 7,7

5,29 7.70

(29 - 23)* 23

(6)* 23

23

(19 - 21,3)* 21,3

0 3 )! 21,3

5,29 21,30

(6 - 7,5)* 7,5

ÍL 2 ! 7,5

2,25 7,50

(23 - 22,5)* 22,5

(03)* 22,5

0.25 22,50

(22 - 21)* 21

(1)* 21

1 21

Un extracto de tqbla, para 4 valores independientes, nos dice que una probabilidad del 5% corresponde a un Ji cuadrado del 9,49. Como nuestro x* tiene un valor menor de 9,49, las diferencias encon­ tradas carecen de significación. Es decir que las diferencias observadas en el volumen de las metrorragias por desprendimientos placentarios en partos de distintas edades pueden deberse simplemente a la casualidad. No hay prueba de que haya diferencia de volumen por razones de la edad del embarazo. Veremos ahora otra forma de aplicación o utilización de Xa• Este método permite averiguar si una distribución de frecuencias observadas

ERRNVPHGLFRVRUJ

ESTADISTICAMEDICA corresponde a una determinada distribución de frecuencias, c normal de Gauss, la binomial de Bemouilli, etcétera. Lo veremos mediante un ejemplo.

Veamos una aplicación de Ji cuadrado para resolver si una frecuencia observada corresponde a una frecuencia binomial de Bemouilli. De acuerdo con los datos recogidos en un censo de población existen 53.680 familias que constan de padre, madre y 8 hijos. Estas familias pueden agruparse en la siguiente forma, según el nú­ mero de hijos varones que poseen: N° DE VARONES

N°DE FAMILIAS

razón de las muertes producidas desde la formación seguían correspondiendo al desarrollo de un binoen cuenta que la natalidad masculina representa el

ío donde p = 0,515 q = 0,485 y N = 8,

250

ERRNVPHGLFRVRUJ

1 (0,515)» (0,485)° =

(0,515)»

- “ “ (O.SIS)7 (0,485)' = 8 (0.515)7 (0,48 r H (0,515)» (0.485)2 = 28 (0,515)» (0.48S) * (0,515)* (0.485)3 = S6 (0,515)* (0,485 ——— (0.5I5)4 (0.485)4 = 70 (0,515)4 (0,485 5)3 (0,485)» = 56 (0,515)3 (0,485 (0.5I5)2 (0,485)» = 28 (0.515)J (0, ~6 + |2 (°,S|S>' "1 ) es igual a (■7°2~J ° ° 1'1) =-1,36. El área que corresponde a un D.R. =-1,36 es, de acuerdo con las tablas, 0.4131. El área comprendida entre 80 y la media es el área correspondiente al D.R. del dato 80. Este D.R. = “°2~ j °°-4 =-0,91. El área que corres­ ponde a un D.R. =-0,91 es 0,3186. El área comprendida entre 70 y 80 es la diferencia entre las áreas correspondientes a ambos D.R.; es decir, es igual a 0,4131 - 0,3186 = = 0,0945. En una muestra de 200 personas, el 9,44% es igual a 0,0945 X 200 = 18,9 personas. En igual forma se calcula cuántas personas deberán estar, en una muestra de 200, dentro de los otros intervalos en que se han agrupado las frecuencias. Con los datos observados y con los calculados se arma la planilla de operaciones en la forma siguiente: 255

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA

2S6 ERRNVPHGLFRVRUJ

METODO DE PEARSON Nos hemos quedado, por lo

(1 8 - 17,4)’ 17,4

(0.6)’ I7¿

0,36 17,40

(17 - 18,9)’ 18,9

0.9)» 18,9

3,61 18,90

(27 - 28,3)’ 28,3

0.3)» 28,3

1,69 28,30

(36 - 34)’ 34

(2£ 34

4_ 34

(34 - 37,4)’ 37,4

(3,4)’ 37,4

11,56 37,40

(28 - 28,8)’ 28,8

(0.8)» 28,8

0,64 28,80

(23 - 19,2)’ 19,2

(3,8)’ 19,2

14,44 19,20

(17 - 18,7)’ 18,7

0.7)» 18,7

2,89 18,70

lo sub 7, porque 7 es el número de valores independíen­ lo de los valores calculados podía obtenerse restando de is otros 7 ya calculados. También la fórmula (C - 1) (F - 1) = (8 - 1) (2 -.1 ) = 7 X 1 = 7 nos da 7. ERRNVPHGLFRVRUJ

ESTADISTICAMEDICA En una tabla resumida de ii cuadrado vemos que para 7 valores inde­ pendientes, una probabilidad del 5% corresponde a un Ji cuadrado de 14. A nuestro Ji cuadrado, mucho menor, le corresponderá una probabilidad mucho mayor y, por lo tanto, las diferencias observadas no son signifiEs decir que la distribución de frecuencias observadas puede asimilarse a una distribución de frecuencia normal de Gauss, y, por lo tanto, que se está autorizado a utilizar el valor medio, el Sx y el D.R., de acuerdo con los métodos típicos de las distribuciones normales. Otro uso de Ji cuadrado es su aplicación al problema de la existencia de asociación entre dos o más variables observadas en un mismo sujeto. Cuando dos o más hechos se observan, no en sujetos distintos, sino en los mismos sujetos, cabe preguntarse si existe una relación o asociación Para obtener una respuesta a esta pregunta podemos utilizar el méUn ejemplo de esta índole lo tuvimos en el ejemplo n°8, en el que consideramos el volumen de la metrorTagia por desprendimiento prema­ turo de la placenta en partos de distintas edades de embarazo. Ante los hechos observados en aquella oportunidad podíamos habernos planteado el problema en el sentido de si entre la edad del embarazo y el volumen de la pérdida (en casos de desprendimiento prematuro de la placenta) existe o no alguna relación o asociación. En aquella oportunidad el planteamiento de la pregunta fue ligera­ mente diferente. Entonces se preguntó si el volumen de la metrorragia aumenta con la edad del embarazo. Como se ve, las dos formas de plan­ tear el problema en el fondo se refieren a lo mismo, a si existe o no aso­ ciación o relación entre el volumen de la metrorragia y la edad del emba­ razo (en casos de desprendimiento normoplacentario). Ya vimos en aquella oportunidad, que X1 es capaz de damos una res­ puesta y además cómo debe emplearse el método para obtener la con­ testación. Por eso no lo hacemos ahora. La respuesta fue un xa de 7,6, al que le corresponde una probabili­ dad del 10 al 20%, lo cual significa que las diferencias de volumen obser­ vados pueden deberse a la simple casualidad; en otras palabras, que, según Xa, no hay pruebas de que haya asociación o relación entre el volumen de la metrorragia y la edad del embarazo. Podríamos ver otro ejemplo de este tipo de problemas en el que Xa nos contesta lo contrario, esto es que si, que hay asociación entre los hechos observados. 258

ERRNVPHGLFRVRUJ

METODO DE PEARSON Se trata de saber si hay relación o asociación entre las reacciones inmunitarias que presenta el organismo humano ante los antígenos tuberculina y lepromina. El problema es el siguiente: Ejemplo n° 11. Xa como pruebas de asociación entre dos o más variables. Un grupo de 177 niños originalmente negativos a la tubcrculina y a la lepromina es vacunado con B C G. Controlados algún tiempo después, se observan los siguientes hechos: 95 dieron respuestas positivas a la tuberculina -y a la lepromina, y 24, negativas; 48 fueron positivos a la tuberculina y negativos a la lepromina, y 10, positivos a la lepromina y negativos a la tuberculina. La pregunta que se hace es la siguiente: ¿Existe alguna asociación entre las reacciones a ambos antígenos? En otras palabras,¿los tuberculina-positivos se hacen también en alguna medida, lepromina-positivos? Es decir: ¿Los tuberculina-positivos son más frecuentemente lepromina-positi­ vos que los tuberculina-negativos? Ji cuadrado puede damos la respuesta. Para ello se arma la planilla operativa de la siguiente manera:

Se postula (hipótesisj que no hay tal asociación, que en ese medio ambiente la frecuencia con que se dan los lepromina-positivos es la encon­ trada en el gran total de 177 niños de las dos muestras reunidas, y en consecuencia ésa será igualmente la proporción que deberá hallarse en el grupo de los 143 tuberculina-positivos, como en el de los 34 tuberculinanegativos. Con esta hipótesis se calculan los 4 datos, de los cuales uno sólo se hace con independencia de los otros tres. Con estos valores observados y calculados se arman los quebrados cuya suma será nuestra X?.

ERRNVPHGLFRVRUJ

259

ESTADISTICA MEDICA

(95 - 84,8)* 84.8

_ (10,2)* ~ 84,8

(10 - 20.2)a 20,2

= ”

(10,2)a 20,2

(48 - 58,2)* 58,2

_

(10.2)* 58.2

(24 - 13,8)a

_

(I0.2)a

Recurriendo a una labia de Xa probabilidad exacta, vemos que para un grado de libertad, una probabilidad del 5% corresponde a un x1 de 3,8; por lo tanto, a un xa mayor le corresponderá una probabilidad menor. Es decir que la diferencia hallada es significativa. Una tabla com­ pleta de integrales de x3 a infinito nos dice que la probabilidad de error de esta afirmación es menor del 15 por mil. Las diferencias encontradas son, por consiguiente, reales y significa­ tivas. En otras palabras: X3 no confirma la hipótesis de que no hay aso­ ciación. La conclusión es, por el contrario, que entre tuberculina-reacción y lepromina reacción hay relación o asociación. Ejemplo 0° 12. Xa en pruebas de correlación Ver página 287

ERRNVPHGLFRVRUJ

SEPTIMA PARTE

ASOCIACION: CORRELACION Y REGRESION

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

CAPITULO XIX

Correlación. Concepto Cuando son dos las variables observadas al mismo tiempo en cada objeto de la muestra, puede ocurrir que ambas están asociadas, es decir, reciprocamente relacionadas, o como se dice en estadística, que estén correlacionadas, o que no lo estén. Correlación es, por lo tanto, la rela­ ción reciproca u asociación que puede existir entre dos variables simultá­ neas de una misma observación. En este caso, una modificación cuantitativa en una de ellas irá acom­ pañada de otra modificación, también cuantitativa, en la otra. Esta asociación o correlación puede ser visible a simple vista con sólo observar un cuadro de valores o un diagrama de dispersión. Por ejemplo, en cinco pacientes de la sala se ha tomado simultánea­ mente el pulso y la temperatura y se ha obtenido el siguiente cuadro de TEMPERATURA 60 70 80 90 100

36,6 37.2 37.8 38.3 38.9

ERRNVPHGLFRVRUJ

263

ESTADISTICA MEDICA A simple vista puede apreciarse que a mayor temperatura corresponde un número mayor de pulsaciones, lo cual nos indica que pulso y tempe­ ratura están asociados, o correlacionados, estadísticamente. Si estos datos los representamos gráficamente en un sistema de ejes ortogonales, tendremos un diagrama de dispenión como el siguiente:

100 90 80 70 60 36

37

38

39

409

Temp.

En el diagrama vemos que los puntos representativos de las observa­ ciones simultáneas se distribuyen ordenadamente, es decir, que las que corresponden a una “y” de mayor valor corresponden igualmente a una “x" de mavor valor. En el diagrama, los puntos podrían agruparse formando una figura relativamente alargada, como aquí, o dispersarse por todo el campo sin mostrar tendencia a agrupamiento alguno. En este caso, en el que los puntos se distribuyen desordenadamente, diríamos que no hay evidencia gráfica de asociación o correlación, mientras que en el primero, en el que los puntos se agrupan formando una figura, diríamos que el diagrama muestra la existencia de una correlación entre las variables. Si la figura que forman los puntos es alargada, podemos imaginar que ella posee un eje, en cuyo caso ese eje podrá ser una línea recta o curva. Eso nos permitirá decir que el diagrama muestra una asociación rectilínea o curvilínea. Si el eje de la figura fuese una recta, ésta podría ser ascendente o descendente, considerándola de izquierda a derecha, y (a menos que sea 264

ERRNVPHGLFRVRUJ

horizontal, es decir paralela al eje de las x) tendría una rampa o pendiente más o menos pronunciada. En estos casos diríamos que el diagrama muestra una asociación rectilínea ascendente o positiva, en un caso, o des­ cendente o negativa, en el otro. El diagrama obtenido con los datos del pulso y la temperatura nos muestra una asociación o correlación rectilínea positiva o ascendente. El diagrama de dispersión de un8 muestra de distintas concentraciones de un soluto en un solvente, en la que se tomase nota simultánea de la concentración y de la dilución, nos mostraría una asociación o correlación rectilínea descendente o negativa, pues los puntos se ordenarían siguiendo una línea recta descendente o negativa, indicándonos gráficamente que a medida que disminuye la concentración aumenta la dilución. El diagrama de dispersión de una muestra de un conjunto de adolesuna asociación o correlación curvilínea ascendente al principio y tendien­ do a la horizontabilidad después, en la que la talla crece al principio con la edad pero cada vez menos, para no crecer más a partir de cierta edad. el servicio, nos mostraría una ausencia de correlación, ya que esas dos variables son independientes y sus puntos representativos se distribuirían desordenadamente sin tendencia a agruparse o confluir formando figura Dijimos que la asociación o correlación entre los datos observados simultáneamente en los objetos o sujetos de la muestra puede ser visible en el cuadro de valores, o en el diagrama de dispersión, pero, agregamos ahora, aún cuando esa asociación no sea visible a simple vista, el cálculo estadístico permite saber, con toda seguridad, si existe o no correlación entre las variables, y en caso de haberla, informamos acerca de su sentido Esta información nos la da el parámetro llamado Coeficiente de Co­ rrelación (C. de C.), el cual suele simbolizarse generalmente con una “r" minúscula. Este parámetro indica la existencia, el sentido y el grado de la Este coeficiente es, en principii

265

ERRNVPHGLFRVRUJ

en estas fórmulas “x” e "y" simbolizan cada una de las variables observa­ das simultáneamente. Esta fórmula puede presentarse asi: S(x —x ) ( y - y ) S, Sy

en la que el numerador ya no es la sumatoria de los productos de los desvíos reducidos, sino la variancia combinada (o covariancia) de los datos “X” e “y”: Como £ ~ *y ~ es la variancia conjunta de ambas variables de la muestra, o ••covarianza” , que suele simbolizarse por “p '\ uc

‘ ~

iTsTsy

sTs,

o sea, el coeficiente de correlación es igual a la covarianza dividida por el producto de las desviaciones standard de ambas series de variables. En este caso, si al hacer el cálculo de la covariancia, en vez de tomar las diferencias de los datos a la media, se toman las diferencias de los datos a 0, el resultado debe disminuirse en el cuadrado de la media com­ binada (co-media), es decir en el producto de ambas medias x e y. Entonces:

ERRNVPHGLFRVRUJ

Esta fórmula puede sufrir las siguientes transformaciones: 2 (x y) n x y 2 (x y) - n x y

la fórmula (5) puede presentarse así:

lísTS

2 (x y) - (2 x) y



)■ * "l : T * J -

33000 - 80 X 400

= 09 1J g

_ £ ( x y ) - n y y = 15161 - S X 37.76 X 80 = + ' ~ (n - 1)S, S,. 4 X 0,9 X 15,8 Este C. de C. obtenido (+ 1) nos confirma que entre temperatura y pulso hay correlación; que esa correlación es perfecta y que es positiva, es decir que la variación se hace en la misma dirección; esto es, que cuando aumenta una. aumenta también la otra y viceversa. Valor de la significación del coeficiente de correlación Si se extraen muchas muestras de un universo en el que no existe correlación entre dos variables, el valor medio de los C. de C. de esas muestras será cero; pero los coeficientes individuales de cada muestra pueden tener un cierto valor, por obra del azar, Estos valores se distribui­ rán alrededor de cero con un error standard (o desvío normal del C. de C.) aproximadamente igual al valor inverso de la raíz cuadrada de la población de la muestra menos uno.

donde n es el número de pares de observaciones simultáneas de la muestra considerada. Para conocer el valor de un C. de C-, se lo compara con su error standard S?. cuando el C. de C. (r) es por lo menos dos veces superior a su error standard (Sx). el C. de C. tiene real valor y significación; si no alcanza a valer dos veces su error standard (es decir, si el error standard (S?) es superior a V: r). el C. de C. pudo haberse obtenido por simple azar en un universo sin correlación.

ERRNVPHGLFRVRUJ

ERRNVPHGLFRVRUJ

ESTADISTICA MEDICA está precisamente en el limite entre un C. significativo y uno no signifiTambián podemos apreciar lo mismo calculando los límites del inter­ valo de confianza que están a dos errores standard a izquierda y a derecha del C. de C. Es decir: intervalo de confianza

= =

r ± 2 S? l i 2X0,5=111

Es decir que los límites de nuestro intervalo de confianza se extien­ den de 0 a 2. O lo que es lo mismo, que el valor de r podría ser 0. Cuando el valor hallado de r se diferencia mucho de 0 (como en este caso) y especialmente si el efectivo de la muestra no es muy elevado (n
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF