Fayad Camel

November 21, 2017 | Author: Andrés Curipoma | Category: Statistics, Scientific Method, Hypothesis, Science, Planning
Share Embed Donate


Short Description

Descripción: Bioestadistica...

Description

FAYAD CAMEL V. Profesor de Bioestadística – Escuela de Salud Pública – Universidad Central de Venezuela

ESTADÍSTICAS MÉDICAS Y DE SALUD PÚBLICA

IMPRESO EN LA UNIDAD ANDRES “VOISIN” IMPRENTA DE LA UNIVERSIDAD LA HABANA – CUBA 1968

CAPITULO I

CONTENIDO

PARTE I: METODOLOGÍA ESTADÍSTICA LA ESTADÍSTICA Y SUS RELACIONES CON EL METODO CIENTÍFICO Y CON LA MEDICINA 1.1 1.2 1.3 1.4

II

CONCEPTO EL METODO CIENTÍFICO LA ESTADÍSTICA Y EL METODO CIENTÍFICO LA ESTADÍSTICA Y LA MEDICINA 1.4.1.Usos en medicina individual 1.4.2.Usos en medicina colectiva LAS ETAPAS DEL METODO ESTADÍSTICO LA ETAPA DE PLANIFICACIÓN PLANIFICACIÓN DE LAS INVESTIGACIONES MEDICAS

III

3.1.GENERALIDADES 3.2.PASOS DE LA PLANIFICACIÓN 3.3.PRIMER PASO: PLANTEAMIENTO DEL PROBLEMA 3.3.1.Naturaleza e importancia del problema estudiado 3.3.2.Determinación de objetivos 3.4.SEGUNDO PASO: BÚSQUEDA Y EVALUACIÓN DE LA INFORMACIÓN EXISTENTE 3.4.1.Evaluación de trabajos individuales 3.4.2.Evaluación global del material estudiado 3.5.TERCER PASO: FORMULACION DE HIPÓTESIS 3.6.CUARTO PASO: VERIFICACIÓN DE LA HIPÓTESIS 3.6.1.Diseño de la investigación 3.6.2.Ejecución de la investigación 3.7.QUINTO PASO: CONCLUSIONES Y RECOMENDACIONES LA ETAPA DE RECOLECCION DE LA INFORMACIÓN

IV

PASOS EN LA RECOLECCION DE LA INFORMACIÓN

V

LOS ERRORES EN LAS OBSERVACIONES 5.1.GENERALIDADES 5.2.ERRORES DEPENDIENTES DEL OBSERVADOR 5.3.ERRORES DEPENDIENTES DEL METODO DE OBSERVACIÓN 5.4.ERRORES DEPENDIENTES DE LOS INDIVIDUOS OBSERVADOS 5.5.RELACION ENTRE LAS DIVERSAS FUENTES DE ERROR 5.6.CONTROL DE ERRORES EN LAS

PAGINA

VI

METODOS DE INFORMACIÓN

RECOLECCION

DE

LA

6.1.GENERALIDADES 6.1.1.Fuentes primarias de recolección 6.1.2.Fuentes secundarias de recolección 6.2.LA OBSERVACION 6.3.EL INTERROGATORIO 6.4.PRINCIPALES METODOS DE RECOLECCION 6.4.1.Encuestas y experimentos 6.4.2.Censo de población 6.4.3.Sistemas de registro VII

LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR 7.1.GENERALIDADES 7.2.UNIVERSOS Y MUESTRAS 7.3.VENTAJAS DEL EMPLEO DE MUESTRAS 7.4.DESVENTAJAS DEL EMPLEO DE MUESTRAS 7.5.CONDICIONES DE UNA BUENA MUESTRA 7.5.1.Cantidad de individuos en la muestra 7.5.2.Calidad de la muestra 7.5.3.Muestras representativas y muestras seleccionadas 7.6.CLASES DE MUESTRAS 7.6.1.Muestras de conveniencia 7.6.2.Muestras probabilísticas 7.7.DEMOSTRACION PRACTICA 7.8.ELECCIÓN ENTRE MUESTRAS PROBABILÍSTICAS Y DE CONVENIENCIA 7.9.METODOS PARA LA OBTENCION DE UNA MUESTRA PROBABILÍSTICA 7.10.DIFERENTES TIPOS DE MUESTRAS PROBABILÍSTICAS 7.10.1.Muestras por azar simple 7.10.2.Muestras sistemáticas 7.10.3.Muestras estratificadas 7.10.4.Muestras de conglomerados 7.10.5.Muestras por procedimientos combinados 7.11.ANALISIS DE LOS RESULTADOS DE LAS MUESTRAS 7.11.1.Valores del universo 7.11.2.Precisión de los resultados de la muestra

VIII

DISEÑO DE LOS FORMULARIOS 8.1.GENERALIDADES 8.2.ELABORACION DE LOS FORMULARIOS

LA ETAPA DE ELABORACIÓN DE LA INFORMACION IX

PASOS EN LA INFORMACION

X

REVISIÓN Y CORRECCION DE LA INFORMACION RECOGIDA

XI

CLASIFICACION DATOS

Y

ELABORACION

COMPUTACION

DE

DE

LA

LOS

XXVI

25.5.INTERPRETACIÓN DE CHI CUADRADO 25.6.PROBABILIDADES DADAS POR EL CHI CUADRADO 25.7.RELACIONES ENTTRE EL CHI CUADRADO Y LA CURVA NORMAL COMPARACIONES ENRE LOS PROMEDIOS ENTRE TRES O MAS MUESTRAS INDEPENDIENTES

XXVII

26.1.INTRODUCCIÓN 26.2.PRUEBA DE KRUSHKAL-WALLIS 26.2.1.Calculo e interpretación COMPARACIÓN ENTRE DOS MUESTRAS NO INDEPENDIENTES

XXVIII

27.1.GENERALIDADES 27.2.COMPARACIÓN DE LOS PROMEDIOS DE DOS MUESTRAS NO INDEPENDIENTES 27.2.1.Prueba de significación incorrecta 27.2.2. Prueba de significación correcta 27.3. COMPARACIÓN ENTRE LOS PORCENTALES DE DOS MUESTRAS NO INDEPENDIENTES 27.3.1. Comparación incorrecta 27.3.2.Comparación correcta 27.3.3.Prueba de Mc Nemar AJUSTE DE TASAS

Introducción La principal dificultad que se encuentra en la enseñanza de la Estadística a los estudiantes y profesionales de la Medicina, es quizás, la resistencia mental que ellos oponen a una disciplina, cuyo estudio considera que requiere profundos conocimientos matemáticos. Este libro, el cual es simplemente un resumen de mis lecturas y de los conocimientos adquiridos bajo la dirección de los profesores Dr. Shelly Hernández, John W. Ferlig y Leslic Kish, presenta la Estadística desprovista de toda complicación matemática y el lector constatará, que un buen conocimiento de las 4 operaciones elementales de la Aritmética, es absolutamente suficiente para llegar a dominar las técnicas estadísticas de utilización más corriente por los médicos y profesionales afines. Con tal finalidad, se ha presentado de todo detalle técnico innecesario, procurando dar énfasis a la Estadística como un método de raciocinio, pues se ha considerado, que es mucho más provechoso conocer las posibilidades y limitaciones de una técnica, aún cuando no se tenga ninguna destreza en su manejo, que dominar los más intricados secretos de su cálculo, cuando no se posee una visión acertada de su aplicación. El libro cubre el programa de Estadística seguido en el curso de Médicos Sanitaristas de la Escuela de Salud Pública de la Universidad Central. Su primera parte, la Metodología Estadística, constituye el material básico para los cursos de estudiante de Medicina y de Médicos Clínicos, aunque, como es obvio, algunos aspectos se estiman con más detalles en unos cursos que en otros. Con propósitos prácticos, siempre teniendo en mente la comodidad del estudiante, tres detalles ya utilizados en otros textos, se adoptaron en este libro: a. La numeración de los cuadros y gráficos corresponde a la página en la cual se encuentran, con lo cual el estudiante podrá localizarlos más fácilmente, cada vez que se hace referencia a ellos. b. Con el fin de facilitar la verificación de los cálculos aritméticos – lo cual se considera imprescindible en el aprendizaje de las técnicas expuestas-, la mayoría de los ejemplos son teóricos, pero el lector observará que ellos corresponden siempre, a problemas reales del campo de la medicina. c. Un asterisco (*) delante de un capítulo, de una sección o de un párrafo cualquiera, indica que se trata de material que ofrece cierta dificultad, lo cual amerita un estudio mucho más cuidadosa. Al terminan quiero agradecer al personal docente de la Escuela de Salud Pública y muy particularmente a los doctores A. Llopis y P. Urdancia, sus valiosos consejos en la redacción de algunos de los capítulos de este libro; a mis secretarios, los señores Iris de Piña e Irradia de López y la señorita de Vannes Khan, su interés en mecanografiar este material y al señor Claricio Cárdenas, su excelente labor en la ejecución del material gráfico incluido. Especialmente grato me resulta finalmente, expresar mis agradecimientos a las autoridades universitarios de la Universidad de Los Andes, sin cuya buena voluntad no hubiera sido posibles la edición de este libro. Caracas, noviembre de 1964.

PARTE I METODOLOGÍA ESTADÍSTICA

CAPITULO I LA ESTADÍSTICA Y SUS RELACIONES CON EL MÉTODO CIENTÍFICO Y CON LA MEDICINA 1.1

Concepto.

La estadística deriva su nombre del hecho de haber sido aplicada primeramente a la recolección de datos que permitieran la administración de los estados, pues con unos propósitos militares o impositivos –lo cual constituía la primera preocupación administrativa de los antiguos imperios-, los gobernantes necesitaban conocer cierta información referente al número y riquezas de sus súbditos. La palabra Estadística tiene hoy en día 2 significados diferentes. El término estadísticas, en plural es sinónimo de datos numéricos mientras que la estadística, en singular, es el método utilizado en el manejo de los datos anteriores, es decir el método de recolectar, elaborar, analizar e interpretar datos numéricos. A pesar de su concisión ésta definición nos permite entrever los vastos campos de acción de la Estadística, pudiéndose decir que no hay prácticamente rama del saber humano en donde no tenga utilización. Lo anterior no quiere decir que ella constituya el único mecanismo a través del cual se puedan obtenerse nuevos conocimientos, o que el solo hecho de manejar una gran cantidad de material numérico constituya un trabajo científico. La estadística, al menos la Estadística práctica que será la única parte estudiada en este curso, más que una ciencia es simplemente un método que enseña procedimientos lógicos de observación y análisis, necesarios de tener en cuenta para aprovechar al máximo las experiencias de otras ciencias. En tal sentido es un auxiliar irremplazable del método científico.

1.2. El Método Científico. Tan variables como los motivos que dan origen a determinada investigación, son los procedimientos que conducen a su realización. No hay en realidad reglas fijas que indiquen al científico cual debe ser el punto de partida de su investigación o que limiten la escogencia de los procedimientos que debe utilizar, pues en cualquier caso ellos varían de acuerdo a sus intereses e inquietudes, a su preparación previa y a los recursos y presupuesto con que cuenta. Bajo estas condiciones no puede hablarse del método científico como un camino único que conduce al descubrimiento de la verdad y mucho menos como un esquema rígido e inmodificable fuera del cual la investigación pierde su carácter científico. No obstante, es evidente que en las ciencias médicas al igual que en los otros ramos de las ciencias naturales, los hechos surgen y deben ser comprobados a través de la observación objetiva de los diferentes fenómenos. Sin embargo la observación aislada de determinado fenómeno sería estéril si no pudiera resumirse en una ley científica capaz de explicar racionalmente lo observado y a partir de la cual puedan hacerse generalizaciones valederas. Antes de Fleming, numerosos bacteriólogos habían visto la destrucción de sus cultivos en el laboratorio sin que tal observación fuera de ningún beneficio, pues no se indagaron las causas que podrían explicarla con el fin de extraer nuevos conocimientos y nuevas enseñanzas. Esa misma observación metodológicamente, analizada, condujo al científico inglés al descubrimiento de la Penicilina. De acuerdo a Bertrand Russel (31), las etapas del método científico pueden resumirse en los siguientes tres pasos: 1. Exacta observación del fenómeno que se estudia.

2. Formulación de una hipótesis, mediante la cual pueden explicarse los hechos observados. 3. Verificación de la hipótesis mediante nuevas observaciones. En la investigación real los pasos anteriores están tan íntimamente relacionados, que es imposible pretender que todos los investigadores sigan siempre el anterior esquema de la misma secuencia señalada. Se comprende por ejemplo que la formulación de una hipótesis previa es generalmente necesaria para saber cuáles hechos se deben observar, y a su vez, la formulación racional de tales hipótesis, requieren habitualmente ciertos conocimientos sobre el problema que se estudia. No es difícil sin embargo encontrar numeroso ejemplo en la literatura médica que ilustran la manera como los pasos anteriores se aplican en la investigación. Considérese al respecto, el descubrimiento del bacilo tuberculoso: Koch observó ciertas formas bacilares en los esputos de pacientes tuberculosos (primer paso), y como hipótesis de trabajo atribuyó a ellas la causa de la enfermedad (segundo paso), lo cual demostró más tarde, al comprobar que el bacilo se encontraba en los esputos de individuos tuberculosos y nunca en los procedentes de individuos sin enfermedad (tercer paso). No hay que creer que los pasos esbozados son privativos de las grandes investigaciones solamente, pues no es difícil entrever como ellos se siguen rutinariamente, quizás inconscientemente, aun en algo tan sencillo como la historia clínica de cualquier paciente. En efecto, en todo diagnóstico: a. Primero se recogen los datos sobre los antecedentes del enfermo, los cuales se complementan por inspección, palpación, percusión o auscultación. Es decir, se hacen determinadas observaciones. b. En segundo lugar se hace el diagnóstico, el cual al principio es solamente un diagnóstico provisional, es decir, una hipótesis de trabajo. c. Finalmente se hará la verificación del diagnóstico, mediante nuevas observaciones, con la ayuda del laboratorio y de otras técnicas especializadas, o en última instancia, observando los resultados del tratamiento, los cuales serán favorables cuando el diagnóstico fue correcto.

1.3. La Estadística y el Método Científico. La estadística cumple diferente papel en cada uno de los 3 pasos del método científico, siendo especialmente importante en la observación de fenómenos y en la verificación de las hipótesis. En la formulación de estas también tiene importancia aunque ello es un proceso en el cual intervienen sobre todo la intuición y la imaginación de los investigadores. a.

La estadística interviene en el primer paso de la investigación científica ayudando a que las observaciones fidedignas y exactas. Cada uno de los tres factores que intervienen en la observación. –Observador, método de observación e individuo observado –pueden ser una fuente de error que contribuya a que las observaciones sean incorrectas y como estas son el punto de partida de la investigación, se requiere de un método que permita la medición y el control de errores así determinados, con el fin de que las conclusiones tengan validez. Este método no es otro que la Estadística, la cual nos enseña que parte de la variabilidad registrada puede considerarse como real y que parte puede atribuirse a errores cometidos durante el proceso de observación de los fenómenos.

b.

En la verificación de las hipótesis también es importante la Estadística. Como la verificación de las hipótesis se hace siempre mediante nuevas observaciones, es necesario resumir adecuadamente los resultados de estas, pues la mente humana es incapaz de desentrañar la verdad que se encuentra en una gran cantidad de datos si estos no han sido previamente ordenados y clasificados. La Estadística al reducir a sencillas fórmulas numéricas el material recogido y presentarlo y resumirlo en cuadros y gráficos, ayuda a este proceso de síntesis mental, facilitando el análisis de los resultados.

c.

Finalmente, aunque la formulación de las hipótesis es ante todo un proceso de imaginación e intuición, la Estadística puede ayudar a ese proceso, pues al resumir convenientemente el resultado de las observaciones, facilitando el razonamiento y pone de presente relaciones que pueden concluir a la formulación de hipótesis racionales.

1.4

La Estadística y la Medicina.

Las consideraciones ya expuestas bastarían para explicar las relaciones existentes entre la Estadística y la Medicina, la ciencia está caracterizada por los complejos y variables fenómenos que estudia. Para medico clínico, lo mismo que para el sanitarista, el método estadístico es un instrumento invalorable a pesar de que a menudo se desconoce su gran utilidad. Al investigador médico que trata de probar una hipótesis de trabajo o que pretende simplemente extraer ciertas deducciones de las observaciones realizadas, la estadística le ayudara a decidir sobre el número de pacientes que debe estudiar para que sus conclusiones tengan validez, a recoger adecuadamente los datos pertinentes, a resumir y analizar convenientemente el material reunido y a presentar a otros el fruto de sus investigaciones. El estudiante por su parte, solo podrá evaluar más objetivamente la evidencia que otros investigadores le presentan, si es capaz de comprender el alcance y limitaciones de los datos numéricos que han servido de base a las conclusiones de estudio, y esa capacitación requiere un mínimo de conocimientos estadísticos. 1.4.1.

Usos en Medicina Individual.

En el campo de la clínica, al diagnóstico de cualquier enfermedad solo es posible llegar mediante la experiencia ganada a través del análisis estadístico de un conjunto de síntomas y signos observados en muchos individuos. Si decimos por ejemplo, que el signo de Koplick es patognomónico del Sarampión, es porque la clasificación estadística de las enfermedades, de acuerdo a sus síntomas y signos, nos ha mostrado que el Koplick solo se presenta en el sarampión y no en otra enfermedad. Un pronóstico a su vez no es otra cosa que la aplicación que el cálculo de probabilidades a un enfermo determinado. Si ante un paciente con fiebre Tifoidea predecimos que casi con seguridad se salvara, lo hacemos con confianza, pues el estudio estadístico de innumerables enfermos demuestra que la enfermedad cuando se trata correctamente, solo es fatal en aproximadamente un 30% de los casos. Finalmente, todo nuevo tratamiento requiere su ensayo experimental que demuestre si es realmente efectivo e inocuo. En tales ocasiones solo a través de la Estadística podemos analizar la evidencia recogida y decidir si los efectos observados son debido a la casualidad y si pueden ser lógicamente atribuidos al nuevo tratamiento. 1.4.2

Usos en Medicina Colectiva.

En el campo de la Salud Pública solo mediante procedimientos estadísticos podrá conocerse la composición y principales características de la población que se va a servir, los cambios que acontecen en ella, los riesgos a que está sometida y las necesidades que presenta. La planificación de las actividades de Salud Pública, el control de los programas que se estén desarrollando y la evaluación final de sus rendimientos y eficiencia solo podrá llevarse a cabo mediante procedimientos estadísticos. En tal sentido, la estadística es tan imprescindible para el trabajador de Salud Pública como lo es la contabilidad en las actividades de comercio e industria.

CAPITULO II LAS ETAPAS DEL METODO ESTADISTICO La aplicación de la Estadística a un problema determinado comprende las siguientes etapas: 1. 2. 3. 4.

Planificación del estudio. Recolección de la información. Elaboración de los datos recogidos. Análisis e Interpretación.

En el presente curso, se estudiaran los puntos más importante de cada una de estas etapas y aunque se pondrá más énfasis en la enseñanza de aquellas técnicas más necesarias al investigador médico, se procurara ante todo familiarizar al alumno con los principios básico del método estadístico. Hay buenas razones que justifican este proceder. Las técnicas estadísticas son muy numerosas y aquellas que son más apropiadas para determinados problemas pueden no ser convenientes para otros. En cambio los principios generales de método estadístico son universales en su utilización, no importa cuál sea la investigación que se realice o el ramo de conocimiento humano a que se aplique. Parece mucho más conveniente por lo tanto, conocer las posibilidades y limitaciones de una técnica aun cuando no se tenga ninguna destreza en su manejo, que dominar los más intrincado secretos de su cálculo cuando no se tiene una visión acertada de su aplicación.

CAPITULO III LA ETAPA DE PLANIFICACIÓN PLANIFICACIÓN DE LAS INVESTIGACIONES MÉDICAS 3.1 Generalidades. Aunque algunos de los más importantes descubrimientos científicos se ha debido a la casualidad (Rayos X, Penicilina, etc.), puede decirse que por regla general todo nuevo conocimiento ha surgido unas veces por la necesidad de encontrar solución práctica a determinado problema, y otras por curiosidad científica, que impulsa al investigador a llenar lagunas existentes en nuestros conocimientos o a explorar campos todavía no perfectamente conocidos. En estos últimos casos, planificar en esencial no solo para calcular el tiempo que durara investigación, el personal que se requiere y el presupuesto necesario, sino con el fin de que investigación se realice con metas perfectamente definidas, evitando improvisaciones durante desarrollo de la misma, que en general introduce fuentes de error capaces de invalidar desmeritar el estudio.

la la el o

Básicamente la etapa de planificación tiene por fin el estudio de los detalles concernientes a la recolección elaboración y análisis de la información, sobre la base de la cual se describirán las características de determinada población o se confirmara o negara determinada hipótesis de trabajo. Es obvio sin embargo que ninguna planificación podrá hacerse adecuadamente si antes no se ha definido claramente la naturaleza y objetivos de la investigación y si no se ha hecho una conveniente evaluación de los conocimientos que sobre el problema se poseen y de las hipótesis que se han formulado para explicarlo. 3.2 Pasos de la Planificación. Los diferentes pasos que deben considerarse en la etapa de planificación, se comprenderán fácilmente si se considera brevemente el procedimiento que se sigue habitualmente en cualquier investigación. Cuando intentamos realizar un estudio, comenzamos por hacer un planteamiento del problema en el cual estamos interesados. Consideramos su naturaleza e importancia y a grandes rasgos decidimos sobre los objetivos que perseguiremos en su realización. Luego tratamos de documentarnos convenientemente sobre dicho problema, haciendo una búsqueda y evaluación de la información existente, lo que nos llevara a su mejor conocimiento, nos enseñara nuevas técnicas y complementara nuestra previa experiencia, pero a la vez nos pondrá presente a un conjunto de fallas en nuestros conocimientos que conducirá a la formulación de hipótesis que pueden explicarlas. El paso siguiente es lógicamente la verificación de las hipótesis mediante la planificación y ejecución de la respectiva investigación, sobre la base de la cual podremos formular una serie de Conclusiones y Recomendaciones. Las anteriores consideraciones nos permiten esquematizar la planificación en los siguientes 5 pasos (45): 1. 2. 3. 4. 5.

Planteamiento del Problema. Búsqueda y Evaluación de la información existente. Formulación de hipótesis. Verificación de las Hipótesis. Conclusiones y Recomendaciones.

El estudio de alguno de estos puntos no es en realidad un problema estadístico, pero se detallaran a continuación, ya que su conocimiento y ordenada aplicación constituyen un método ideal de trabajo para cualquier investigador. 3.3. Primer paso: Planteamiento del problema. Al plantear el problema que se va a investigar, debe darse especial consideración a los siguientes puntos: a) Definición de la naturaleza e importancia del problema que se estudia. b) Determinación del objetivo final y de los objetivos inmediatos de la investigación. 3.3.1. Naturaleza e Importancia del Problema. Definir la naturaleza del problema que se estudia es explicar QUE vamos a estudiar. Es obvio que será imposible la planificación de las etapas posteriores si antes no se ha determinado claramente el problema que se trata de investigar. No basta por ejemplo, decir que se va estudiar la Fiebre Tifoidea, pues probablemente ningún investigador este en capacidad de cubrir todos los aspectos de esta enfermedad. Debe acentuarse explícitamente se vamos a evaluar una técnica diagnóstica, un nuevo tratamiento o algunos de sus aspectos epidemiológicos. Definir la importancia del problema es cuantificar su extensión y equivale a explicar POR QUE se va a estudiar. Un investigador puede abocarse al estudio de un problema por razones éticas. Estéticas o metafísicas, pero la mayoría de las veces, es el deseo utilitarista el que lo guía. 3.3.2. Determinación de Objetivos. Determinar el objeto final, significa dilucidar las posibilidades de aplicación práctica de la investigación, es decir, explicar PARA QUE se realice. De acuerdo a la finalidad de estudio, se decidirá sobre los datos que deben investigarse y sobre la precisión con que deben recogerse y se orientara el análisis en tal forma que se obtengan respuestas a las preguntas previamente formuladas. Determinar los objetivos inmediatos es explicar COMO se va a hacer la investigación, es decir, señalar la estrategia que se utilizara en los procedimientos generales que se usara en el desarrollo de la misma. 3.4. Segundo Paso: Búsqueda y evaluación de la información existente. Antes de proceder el estudio, el investigador debe revisar, en cuanto sea posible, lo que al respecto se haya hecho, con el fin de percatarse de lo que realmente se conoce sobre el y familiarizarse con las técnicas de estudio más convenientes para su propósito, pues solo en esa forma tendrá posibilidades de investigar con éxito lo que se propone. No basta sin embargo, conocer todo sobre determinado tópico se haya escrito, sino que debe hacerse una cuidadosa revisión de tales publicaciones. Debe en primer lugar, hacerse una búsqueda tan completa como sea posible haciendo uso de todos los medios bibliográficos al alcance. Luego, el material disponible se clasificara para su lectura por tópicos y de acuerdo a la investigación que se realice. La evaluación tiene dos partes: a) Evaluación de los trabajos individuales y b) Evaluación conjunta del material estudiado.

3.4.1. Evaluación de Trabajos Individuales. Para la evaluación de los diferentes trabajos, no pueden darse reglas fijas, sobre todo que ella depende en gran parte de la preparación de la persona que evalúa, pero quizás es de mucha utilidad, tratar de dar respuestas a las siguientes preguntas propuestas por Donald Mainland (23). ¿QUIÉN ¿POR QUÉ ¿CUÁL ¿DONDE ¿CUANDO ¿COMO ¿CUANTOS ¿QUE

hizo el estudio? lo hizo, o sea, ¿cuáles fueron sus propósitos y objetivos? fue el material estudiado? se hizo el estudio? se hizo? fue realizado? individuos estudiaron? conclusiones se obtuvieron?

Debe darse especial importancia, en primer lugar, a la manera como fueron recogidos los datos, pues los procedimientos y métodos empleados en la recolección, servirán de guía para juzgar sobre su precisión y limitaciones. En segundo lugar es preciso analizar cuidadosamente si las conclusiones fueron legítimamente derivadas del material estudiado si fue correctamente la interpretación de las asociaciones encontradas, pues hay muchos trabajos que a pesar de que fueron cuidadosamente planificados y convenientemente realizados, han sido analizados defectuosamente llegándose a conclusiones equivocadas. 3.4.2. Evaluación Global del material estudiado. La anterior evaluación nos permitirá destacar como inadecuados muchos de los trabajos evaluados, a la vez el de aceptar como correctas algunas conclusiones. Estas conclusiones deben analizarse ahora en su conjunto para ver si son consistentes entre sí o si existen algunas que son contradictorias. Justamente, la presencia de tales contradicciones revela tópicos que deben investigarse y guía al investigador hacia la Formulación de hipótesis que deben verificarse, mientras que conclusiones unánimes sobre el mismo problema, quizás nos lleven a abandonar o modificar nuestro primitivo plan de trabajo ya que por lo general no vale la pena duplicar un trabajo ya hecho. 3.5 Tercer paso: Formulación de la Hipótesis. En toda investigación (salvo aquellas esencialmente descriptivas) implícita o explícita, se trata de probar una hipótesis de trabajo. “La hipótesis es simplemente una explicación provisional de los hechos, que se anticipa con el fin de constatar que es cierta”. Ella permite centrar la observación sobre aquellos fenómenos que guardan relación con el problema que se estudia evitando que muchos hechos importantes pasen inadvertidos o que el investigador se pierda en un cúmulo de observaciones inconexas. La escogencias de la hipótesis que va a verificarse dependerá de la síntesis del investigador, de las necesidades existentes del personal y recursos con que cuenta, pero su formulación debe hacerse claramente, ya que el diseño, planificación y desarrollo de la investigación dependerá de la hipótesis que se trata de probar. 3.6 Cuarto paso: Verificación de la Hipótesis. La verificación de la hipótesis constituye la investigación propiamente dicha, en la cual se consideran dos aspectos: a) el diseño de la investigación y b) la ejecución de la misma. 3.6.1. Diseño de la Investigación.

Al diseñar la investigación se debe estudiar por adelantado cada una de sus diferentes etapas, es decir, todos los detalles relacionados con la recolección, elaboración y análisis de los datos. Es necesario determinar de antemano todo lo concerniente a las observaciones que se harán, al número de individuos que se estudiará y el procedimiento a utilizar en su escogencia, investigando cuidadosamente si existen factores éticos que pueden oponerse a la realización del estudio en la forma proyectada. Se considerara la época en la que se hará el estudio, el tiempo que durara, los gastos que determinara. Se hará la seleccio9n y entrenamiento del personal que va a colaborar y si es el caso, se buscara el asesoramiento de un estadístico que aconseje sobre el diseño del experimento proyectado. Es necesario definir los términos que se usaran en la investigación, pues frecuentemente aparentes resultados contradictorios sobre el mismo problema, se deben al uso de los mismos términos, con significados diferentes. Así por ejemplo, la población urbana de Venezuela fue respectivamente de un 30% y 54% según los censos de 1941 y 1950. Aun cuando el país tiende a un urbanismo progresivo, parte de la diferencia anterior se debe al distinto significado que se ha dado al termino urbano, pues en el primer censo se consideró como población urbana las localidades de 2500 o más habitantes, y en el segundo, las localidades de 1000 o más habitantes, es decir, que en todas las poblaciones entre 1000 y 2500 habitantes que no se consideraban como urbanos en 1941, si se consideraron como tales en el censo de 1950. Es importante sobre todo: a. Definir la unidad que se observa, con el fin de incluir a la totalidad de los individuos que presentan las características que se estudian y excluir a aquellos que no las presentan; b. Definir lo que se va a observar para que todos los individuos sean uniformemente estudiados. Así por ejemplo, si vamos a estudiar un número determinado de familias debe especificarse claramente quienes deben considerarse formando parte de ellas. Para un estudio sanitario deben incluirse todas las personas que vivan bajo un mismo techo aunque no tengan ningún parentesco, pues todas ellas participan de las mismas condiciones sanitarias, las cuales modifican con su presencia. En cambio para un estudio que tuviera por finalidad investigar la transmisión hereditaria de cualquier característica biológica, la familia incluirá solamente a personas con lasos consanguíneos, sin tomar en cuenta a los demás, aunque vivan bajo el mismo techo y aunque haya de por medio cualquier otro tipo de vínculo familiares o legales. Las definiciones que se adopten deben ser claras y precisas para evitar ambigüedades y con el fin de facilitar las comparaciones entre los diversos investigadores, deben escogerse cuando existen aquellas de aceptación universal. Finalmente debe hacerse un balance entre los recursos que se tienen y los que se necesitan para ejecutar la investigación conforme se ha planificado. Tal balance puede mostrar que los recursos con que se cuestan son suficientes o que no lo son. En el primer caso podrá proseguirse con la investigación pero en el segundo, habrá que decidirse por una de las siguientes alternativas 1) Aumentar –cuando ello sea posible-la cantidad o el rendimiento de los recursos que se poseen hasta el nivel necesario; 2) Planificar de nuevo la investigación de manera que pueda ejecutarse con los recursos existentes y 3) Diferir la investigación hasta tanto se pueda conseguir los recursos adicionales que se necesitan. 3.6.2. Ejecución de la Investigación. La ejecución de la investigación es la: Recolección, Elaboración y análisis de la información recogida, etapas que deben realizarse tal como han sido planeadas de antemano y cuyos detalles serán motivos de estudio a lo largo de este curso.

3.7. Quinto paso: Conclusiones y Recomendaciones. Ejecutado el estudio se considera si fue realizado conforme estaba planificado y con los resultados a la vista se concluirá si la hipótesis han sido verificadas o no haciéndose las recomendaciones pertinentes. No es de esperarse que todas las veces se verifiquen las hipótesis, pero aun cuando ello no se logre, el esfuerzo no ha sido en vano. En medicina experimental sobre todo, tan importante como probar que un tratamiento es bueno, puede ser demostrar que una droga que sé venía aplicando de rutina, no tiene ningún valor. Muchas drogas que por años se consideraron excelentes se han abandonado luego por ineficaces o perjudiciales. Muchos males se hubieran evitado si antes de su aplicación se hubiera exigido mayor evidencia sobre sus virtudes.

CAPITULO IV LA ETAPA DE RECOLECCION DE LA INFORMACIÓN PASOS EN LA RECOLECCION DE LA INFORMACIÓN Esta etapa tan a menudo olvidada, tiene para el investigador mucha más importancia que cualquier otra. Mientras que la elaboración y el resumen de los datos recogidos pueden ser delegados en un componente técnico estadístico, la recolección de la información tiene que ser vigilada constantemente por el propio investigador y realizada conforme a los planes previamente trazados. Como ya se ha advertido, solo si la información ha sido recogida de la manera correcta, podrán tener validez las conclusiones que de ella deriven. En el caso contrario, no se justifica siquiera el empleo de las Estadística, ya que ninguna técnica podrá corregir los errores presentes en los datos básicos recogidos. La decisión sobre los datos que van a recogerse y sobre la precisión con la que deben ser obtenidos depende primordialmente del propósito de la investigación y del material estudiado, siendo conveniente limitarse a recoger tan solo0 aquella información que va a ser utilizada pues el deseo de investigar muchos datos, en la esperanza de que algún día serán de utilidad, conspira contra la correcta obtención de aquellos que son realmente esenciales. Entre los principales puntos que deben considerarse al recoger la información y que serán motivo de los próximos capítulos figuran: a. Los errores que pueden cometerse en la recolección de los datos y la manera de controlarlos. b. Las ventajas y limitaciones de los diversos métodos empleados en la recolección de la información. c. Las condiciones que deben reunir los individuos que se estudian y los procedimientos más convenientes para su elección. d. El diseño de los formularios que servirán para registrar la información que se recoja.

CAPITULO V LOS ERRORES EN LAS OBSERVACIONES 5.1 Generalidades. Los integrantes de toda población, a la vez que poseen características que le son comunes presentan algunas diferencias que sirven para individualizarlos. Es justamente por la existencia de tales diferencias que se justifica el empleo de la Estadística, pues si todos los individuos de determinada población fueran exactamente iguales, bastaría describir uno de ellos, para tener una descripción acertada del conjunto. A lado de esta variación real, inherente a los individuos que se estudian, hay que considerar una variación sobreentendida o espuria que solo es en realidad, errores determinados por los factores que intervienen en toda observación, es decir dependientes de: 1. El observador: 2. El método de observación, y 3. El objeto o individuo observado. La presencia de tales errores determina por lo tanto que ninguna medición sea absolutamente exacta. Esto debe tenerse en cuenta cuando se comparan dos o más observaciones, con el fin de no dar mayor importancia a la existencia de pequeñas diferencias, las cuales pueden deberse simplemente al proceso de medición utilizada. Así por ejemplo, si un paciente mostró en un primer examen sanguíneo que tenía 4’000,000 de glóbulos rojos por milímetro cúbico y luego, tras un tratamiento con drogas anti-anémicas, un segundo contare señala 4’200,000, debemos considerar que parte de esta diferencia se debe a errores del análisis, antes de que podamos alegrarnos por el éxito del tratamiento. Por lo tanto, solo en la medida en que tales errores pueden controlarse, podrán conocerse la verdadera variabilidad que intentamos medir. 5.2 Errores dependientes del observador El grado diferente de preparación o entrenamiento de los observadores, su estado físico, el exceso de trabajo, las condiciones ambientales bajo las cuales trabajan, se reconocen como las principales causas de error de las observaciones. Con el fin de ilustrar este tipo de error, considérese la siguiente experiencia realizada hace algún tiempo en los Estados Unidos. A un grupo de cinco expertos radiólogos se entregaron en dos oportunidades diferentes-separadas una de otra por el lapso de dos meses-, las mismas 1256 radiografías de tórax, con el fin de diagnosticar la existencia de tuberculosis pulmonar. Las radiografías, de tamaño estándar (14 x 17 pulgadas), fueron leídas separadamente por cada radiólogo con los siguientes resultados: Cuadro 26 Resultados de la lectura de las mismas 1256 radiografías torácicas realizadas por Los cinco radiólogos diferentes en dos oportunidades distintas. Observador A B C D E Fuente: Bikelo y colaboradores / A.M.A.

Numero de Radiografías declaradas positivas Primera Lectura Segunda Lectura 118 59 83 96 106 Vol. 133 Pág.359 Febrero 1947.

139 78 88 69 88

Puede observarse en el cuadro que antecede, que en ninguna de las dos ocasiones las diferentes observaciones coincidieron en él número de radiografías patológicas (variación Inter.observadoras) y que para un mismo observador las lecturas dadas como patológicas son diferentes en las dos oportunidades (variación intra-observadores). Como en una y otra ocasión los diversos investigadores estudiaron exactamente las mismas 1256 radiografías, debemos concluir que tales discordancias no reflejan una variación real, sino simplemente, errores cometidos por quienes hicieron la lectura del material radiográfico. 5.3 Errores dependientes del método de observación. Todos los métodos de observación tienen errores más o menos importantes y de ahí la continua preocupación científica de mejorarlos o cambiarlos por otros más convenientes. Al estudiar las condiciones pulmonares de un paciente puede utilizarse la fluoroscopia y la fluorofotografía de Abreu o la radiografía corriente de 14 x 17 pulgadas, pero la eficiencia de estos métodos es muy diferente, como se observa en el siguiente cuadro: Cuadro 27 Eficiencia de diversos métodos en él diagnóstico de la Tuberculosis Pulmonar Método Radioscopia Fluorofotografía de Abreu Radiografía estándar

Eficiencia 70% 90% 95%

El cuadro muestra una marcada variación entre los diferentes métodos, siendo la radioscopia el menos conveniente (variación Inter.-métodos). Se reconoce además, que para cada método en particular hay una serie de factores que pueden conducir a falsear los resultados. Así por ejemplo, una baja del voltaje de la corriente eléctrica o una pérdida de potencia de los líquidos reveladores pueden dar radiografías de mala calidad que causan errores en su lectura (variación intramétodos). 5.4 Errores dependientes de los individuos observados. Fuera de la variabilidad real que presentan los individuos que se observan, hay también una variabilidad sobreañadida dependiente de ellos mismos, debido a las condiciones y al tiempo en que se estudian. La glicemia normal de varis individuos puede ser diferente por el solo hecho de que la sangre sea tomada a intervalos diferentes después de la comida o porque algunos pacientes hayan ingerido muchos hidrocarbonados y otros no (variación Inter.-individual). Se comprende además, que para un mismo individuo, los factores acabados de mencionar harán variar los resultados de una ocasión a otra (variación intra-individual). 5.5 Relaciones entre las diversas fuentes de error. A pesar de la clara distinción que hemos hecho entre las anteriores fuentes de error, no debe pensarse que ellos son completamente independientes. Si se recapacita sobre el ejemplo dado para ilustrar los errores dependientes del observador, puede admitirse que ellos dependen en gran parte del método de observación utilizado, pues no se escapa que mientras más perfecto sea éste, menores serán los errores cometidos. Si el método fuera tan perfecto, que al colocar una radiografía en una pantalla se encendiera una luz cuando existiera una lesión, sólo una persona ciega o que estuviera distraída, fallaría en el diagnóstico.

De la misma manera, muchos de los errores dependientes de los individuos que se observan, pueden atribuirse a condiciones relacionadas con el método de investigación y de ahí la necesidad de estudiar a los diferentes individuos en condiciones tan similares como sea posible. 5.6 Control de errores en las observaciones. Cualquiera que sea la causa de los errores anteriores, su control puede hacerse por reducción o medición. Reducirlos primero hasta donde sea posible; medirlos luego, cuando ya no puedan reducirse. 5.6.1. Reducción de los errores. La reducción de los errores se logrará de acuerdo a las causas que los determinan. Aquellos dependientes de los observadores, pueden reducirse aumentando la preparación y entrenamiento de los observadores, vigilando sus condiciones físicas y poniéndolos en las más optimas condiciones de trabajo. Para disminuir los errores causados por el método de observación, se procurará seleccionar las mejores técnicas conocidas, estandarizar los métodos a emplear y controlar constantemente el funcionamiento de los aparatos utilizados. Se procurará finalmente, que los individuos estudiados se investiguen en las más favorables y similares circunstancias con el fin de disminuir los errores que de ellos puedan depender. 5.6.2. Medición de los errores. Al hablar de la medición de los errores, nos referiremos al progreso de la evaluación de las diferentes técnicas y métodos de estudio. Aunque algunos de los errores cometidos se deben a la técnica en sí, y otros a los observadores que la utilizan, su separación es difícil y conviene considerarlos en conjunto. Cada investigador debiera estimar los errores que comente en el trabajo habitual con las técnicas e instrumentos de rutina y cada técnica debiera valorarse convenientemente, investigando los márgenes de error a que pueda conducir su aplicación. Los procedimientos para tal evaluación ya implican un proceso estadístico, cuyos fundamentos sólo se comprenderán en próximos capítulos, pero cuya utilidad ilustran los siguientes ejemplos: a. Si mediante todos los medios diagnósticos al alcance llegamos a la conclusión que en un grupo de personas hay 100 enfermos con lesiones pulmonares de tuberculosis y si mediante la radioscopia pulmonar descubrimos solamente 70, podremos concluir que la eficiencia de tal método es alrededor del 70%. Por lo tanto, si al practicar una radioscopia declaramos que determinado individuo no presenta tuberculosis pulmonar, es posible que una lesión mínima se nos haya escapado, ya que el método no es efectivo en el 100% de los casos. b. La mayoría de las veces, sin embargo, los errores que se comenten al realizar determinada medición se hacen unas veces por exceso y otras por defecto. El siguiente sencillo experimento, frecuentemente utilizado por los profesores de estadística, pone de presente la anterior afirmación. Si se traza una línea en el tablero y se pide a un grupo de estudiantes que estimen a simple vista su longitud, se constata que aproximadamente la mitad de los alumnos sobreestiman su valor, mientras que la otra mitad da valores inferiores a las reales. Se constata además, que casi invariablemente la verdadera longitud de la línea se encuentra aproximadamente a mitad del intervalo determinado por el mayor y la menor de las estimaciones hechas. Sobre la base de la anterior observación, no es difícil comprender que si un laboratorista quisiera por ejemplo, conocer la precisión de los exámenes hematológicos que realiza, podría hacer digamos, 20 preparaciones de una misma sangre y en cada una practicar el recuento de glóbulos rojos. Si los resultados encontrados varían entre 4.600.000 y 5.000.000. En tal caso y volviendo al ejemplo dado anteriormente, en el cual un paciente tenía originalmente 4.000.000 de glóbulos y

después de un tratamiento anti-anémico registraba 4.200.000, puede admitirse que la primera cifra pudo ser 3.800.000 ó 4.200.000 y la segunda 4.000.000 ó 4.400.000, es decir, que no hay evidencia definitiva a favor del mejoramiento del paciente.

CAPITULO VI METODOS DE RECOLECCION DE LA INFORMACIÓN 6.1. Generalidades Aunque en la mayoría de las investigaciones la información debe recogerse directamente de su fuente de origen, en muchas ocasiones suelen aprovecharse los datos previamente recogidos por otros individuos. En el primer caso se considera que la información ha sido recogida de fuentes primarias y se habla de fuentes secundarias de recolección en el segundo caso. 6.1.1. Fuentes primarias de recolección. Cuando la información no está registrada, habrá que recogerla directamente de su fuente de origen, es decir, de los individuos en donde puede suceder el fenómeno o encontrarse la característica en que estamos interesados. En tales ocasiones, sólo hay 2 procedimientos para recolectar la información: a. b.

La observación. El interrogatorio.

Aunque la observación y el interrogatorio son los 2 únicos procedimientos generales que permiten recoger información a partir de su fuente de producción, ellos, aislada y conjuntamente, forman 1 parte de métodos especiales que luego se estudiarán ( ) Cuando la información que nos interesa se encuentra registrada, como corresponde tan solo, buscarla y hacer buen uso de ella. A veces se halla publicada en textos o revistas y entonces es fácil encontrarla en cualquier buena biblioteca. Si por el contrario no está publicada, su obtención suele dificultarse a causa del carácter confidencial con que ha sido recogida, aunque resúmenes adecuados son generalmente fáciles de conseguir. De existir varias fuentes con la misma información, la escogencia una con preferencia a las otras debe basarse en 2 criterios: a. b.

Calidad de la información, y; Accesibilidad administrativa.

Aunque es obvio que entre diversas fuentes debe preferirse la de mejor calidad, muchas veces no hay lugar a tal escogencia, pues por razones administrativas o de otra índole, puede suceder que no se tenga acceso a alguna de ellas. Antes de conformarse con aprovechar la única disponible, debe evaluarse adecuadamente el material suministrado para constatar si reúne las necesarias condiciones de fidelidad y exactitud. 6.2. La Observación. La observación directa de los diferentes fenómenos ha sido el método clásico de la investigación científica y cuando es aplicable debiera ser el preferible, por ser el más objetivo. Sin embargo, este método es caro, pues requiere personal altamente especializado y no es conveniente cuando se estudian grandes masas humanas. Por otra parte, no puede aplicarse cuando se trata de 1

En un sentido general “observar significa ganar conocimientos por cualquiera de los órganos de los sentidos, y por lo tanto, el interrogatorio sería simplemente uno de los procedimientos de realizar observaciones, no habiendo razón de contrastar sus versiones y desventajas con las de la Observación, de la cual formaría parte. Los dos términos sin embargo sugieren procedimientos perfectamente diferenciables, mientras que en el interrogatorio hay participación activa del individuo que se estudia, en la Observación hay pasividad por parte de éste, a pesar de que en ciertas oportunidades se provocan sus reacciones. Los próximos párrafos no dejan ninguna duda sobre el significado que se ha querido dar a estos dos términos.

investigar las manifestaciones subjetivas de los individuos, su comportamiento pasado o sus actitudes futuras. Si en el estudio de un paciente se desea averiguar si tiene buen apetito o conocer qué enfermedad ha padecido anteriormente o a cuáles actividades se dedicará una vez mejorado, en tales casos tendremos que recurrir al interrogatorio. 6.3. El Interrogatorio. Las ventajas del interrogatorio no son otras que las limitaciones señaladas en la observación directa, siendo por lo tanto el único método a emplear cuando se averigua el pasado, el futuro o las manifestaciones subjetivas de los individuos. Tiene como desventajas, el apelar a la memoria y a la buena fe de los interrogados y dar diferentes resultados según el tipo de preguntas y la manera como son formuladas. El que un paciente registre entre sus antecedentes, el haber padecido determinada enfermedad, depende de que guarde memoria del tal acontecimiento y de que tenga voluntad de confesarlo, sobre lo cual influye desde luego, la claridad con que se haga el interrogatorio. Al interrogar a una persona, las preguntas que se le formulan deben ser concisas y claras, evitando aquellas ambiguas o capciosas y las que presuponen un hecho o sugieren una respuesta. Si se está interesado por ejemplo, en saber si un paciente consume vitaminas, lo lógico es preguntarle primero si las toma o no y luego en caso afirmativo, averiguar la frecuencia con que lo hace. Conformarse con preguntar si se toman vitaminas, no es suficiente, pues una respuesta afirmativa puede decir que se toman diariamente o una vez por semana o sólo ocasionalmente. Además siempre se procurará evitar aquellas preguntas que sugieren la respuesta. Si a una madre se le pregunta con cierto énfasis: ¿Usted le da a su niño vitaminas, no es verdad?, sería raro que ella respondiera que no. El interrogatorio puede ser directo o indirecto. El interrogatorio directo es aquel que se hace por medio de entrevistas y su ventaja principal es que puede complementarse con la observación directa. A un paciente puede preguntársele si ha tenido viruela y si contesta afirmativamente, puede constatarse su respuesta buscando las cicatrices indelebles que deja la enfermedad. En encuestas sociales es posible que la personalidad, clase social, la inflexión de la voz y la manera de preguntar del entrevistador, hagan varia las posibles respuestas. El interrogatorio indirecto habitualmente se hace mediante los cuestionarios postales. En general, es un método más barato y rápido, aunque sólo es posible para preguntas sencillas. Como inconveniente se señala el hecho de que generalmente es muy pequeño el número de personas que envían contestación, especialmente en poblaciones con alto personaje de analfabetismo y en tales casos, es posible que las personas que consten no representan a la totalidad de la población que se quiere conocer: 6.4. Principales métodos de recolección. La escogencia del método de recolección depende fundamentalmente del método de estudio, de la naturaleza de la información y de la forma en que esta se recoja (ocasional, periódica o continuamente). Entre estos métodos, cuyos detalles se verán posteriormente se escribirán a continuación: a. Las encuestas y los experimentos, como ejemplos de métodos utilizados cuando la información se recoge ocasionalmente. b. El método censal, como tipo de información recogida periódicamente c. El sistema de registros, como tipo de información recogida continuamente.

6.4.1. Encuestas y experimentos Generalmente se piensa que encuestas y experimentos difieren porque en las primeras la información se recoge mediante el interrogatorio y en los segundos, mediante la observación. La verdadera diferencia estriba sin embargo, en la naturaleza de los datos recogidos. En la encuesta, los datos ya existen y solo es necesario recogerlos. En el experimento los datos no existen y es necesario provocar su aparición. Cuando una nueva droga se introduce o un nuevo tratamiento se recomienda, no hay al respecto ninguna información registrada, simplemente porque no hay ninguna información existente. En dichos casos, es necesario planificar un estudio con el fin de producir dicha información y luego registrarla para subsiguientemente analizarla. En otras palabras, es necesario realizar un EXPERIMENTO. En tales ocasiones la observación directa es el método habitual de recoger la información, pero el interrogatorio puede ser también utilizado, como a menudo se hace en algunos estudios de Sociología. Hay otras ocasiones en que ya existe la información sobre la cual estamos interesados, pero no se halla registrada. En dicho caso solo tenemos que buscarla y registrarla convenientemente para su análisis posterior. Si queremos, por ejemplo, saber con que frecuencia se presentan quemaduras en los trabajadores del petróleo o cual es el sueldo medio de los profesionales de la medicina, nuestro trabajo consistirá solamente en buscar y registrar tal información. En dicho casos, la técnica consiste en hacer una ENCUESTA en el grupo de personas en el que estamos interesados. Tal encuesta puede hacerse por entrevistas personales o por medio de cuestionarios postales, adoptando de acuerdo a los propósitos del estudio, uno cualquiera de los sistemas que se describirán en el capítulo sobre Estadísticas de Morbilidad (Capitulo XXXII). 6.4.2. Censo de Población El tipo de información recogida periódicamente en el Censo de Población. Venezuela, como casi todos los países del mundo, se ha comprometido a efectuar un censo cada 10 años, habiéndose efectuado el último el 26 de Febrero de 1961. A menudo se cree que el Censo y la Encuesta difieren en cuanto a la población que cubren, pues mientras que el primero se referiría a la totalidad del universo, la segunda solo estudiaría una muestra de dicha población. Tal concepto es erróneo pues tanto el uno como la otra pueden cubrir a toda la población o solo a un segmento de ella. La diferencia esencial radica en la naturaleza de la información que se busca. En el Censo habitualmente se buscan datos generales de la población. En la encuesta, por el contrario, se trata de lograr información sobre un tema concreto, procurando profundizar en sus diferentes aspectos. El censo cuyos detalles se estudiaran en el capítulo XXIX, puede compararse con una fotografía de la nación en un momento determinado de su historia, siendo el medio mas seguro para conocer la composición y principales características de las poblaciones humanas. 6.4.3. Sistemas de Registro Mediante los registros se recoge la información continuamente, a medida que se va produciendo. Los detalles por ellos suministrados son datos dinámicos, y de ahí que puedan que puedan compararse con una cinta cinematográfica de la población, mediante el cual pueden compararse los cambios que acontecen en ella. Esta información se refiere unas veces a la totalidad de determinada población o país, como es el caso del Registro Civil de Nacimientos y Defunciones, y otra a fenómenos que suceden en determinada institución, como es el caso de las Historias Clínicas de los Hospitales. Los principios

generales sobre la organización de estos sistemas de registro, se estudiaran a propósito de las Estadísticas Vitales.

CAPITULO VII LA ELECCIÓN DE LOS INDIVIDUOS A ESTUDIAR 7.1 Generalidades. Ya dijimos que cuando la información no está registrada, habrá que recogerla directamente de su fuente de origen, es decir, de las personas en donde el fenómeno que nos interesa puede acontecer. El problema que se presenta en tales ocasiones, es la acertada escogencia de las personas que vamos a estudiar. Este problema se presenta, porque muchas veces resulta imposible y otras impráctico estudiar la totalidad de personas en donde puede encontrarse la característica en la que estamos interesados y en tales casos, nuestro estudio tiene que limitarse a un grupo de dichos individuos, es decir, a una muestra. No hay que olvidar, sin embargo, que aunque es la muestra la que observamos, es el universo lo que queremos conocer, pues el estudio no tendría ninguna trascendencia sino pudiéramos generalizar a la población los hechos observados en la muestra. Sin embargo, para que esta generalización sea posible, los individuos integrantes de la muestra deben ser escogido adecuadamente, y esto plantea una serie de dificultades que trataremos de estudiar en las próximas páginas. 7.2. Universo (Población) y muestras. Se entiende por universo o población la totalidad de individuos o elementos en los cuales puede presentarse determinada característica susceptible de ser estudiada. Una muestra a su vez, es una parte o grupo del universo. Así por ejemplo, si con el fin de conocer la estatura media de los 1500 alumnos de la Escuela de Medicina escogemos un grupo representativo de 200 de ellos, el universo en estudio estará formado por la totalidad de los 1500 alumnos, y la muestra constara de los 200 escogidos. Las anteriores definiciones ameritan algunas explicaciones. En primer lugar, las unidades que se estudian pueden ser personas, animales o cosas o pueden ser conglomerados de unidades, como ser una familia, una colonia de parásitos o un bloque de viviendas. En segundo lugar, los términos universo y muestra son conceptos relativos, pues un conjunto de individuos puede ser considerado como un universo para ciertos estudios o como una muestra para otros. Así por ejemplo, los alumnos de la Universidad Central constituyen una muestra con respecto a la totalidad de los universitarios del país, pero constituyen el universo para dicha universidad en particular. Los universos pueden ser finitos e infinitos. El universo se denomina finito, cuando está formado por un número limitado de unidades, como ser el número de alumnos de la Universidad, de médicos en Venezuela, etc. Se denomina infinito, cuando cuenta con un número limitado de unidades. El número de estrellas en el ciclo, son universos infinitos que nunca podrían ser cuantificados. En ocasiones, el universo que se estudia puede ser hipotético y entonces se le considera como infinito. Así por ejemplo, si con el fin de ensayar una nueva droga contra la Fiebre Tifoidea se la prueba en una muestra de 20 enfermos. El universo correspondiente, estará constituido por todos los pacientes que actualmente tienen la enfermedad y por todas las personas que alguna vez puedan adquirirla. Igualmente si a determinado individuo se le mide la tensión arterial en tres oportunidades diferentes esas tres mediciones constituyen el universo de infinitas mediciones que en dicho individuo pueden practicarse. 7.3. Ventajas del empleo de muestras. Hay varias razones por las cuales el estudio de una muestra es preferible al de la totalidad del universo.

Ante todo, es evidente que el estudio de muestras es el único practicable cuando se trata de universos infinitos o de universos limitados pero muy extensos, pues ningún investigador sería capaz de tratarlo en su totalidad. Lo mismo es valedero para aquellas investigaciones en las cuales el proceso de investigación destruye al individuo que se estudia, como en el caso en que se prueba la acción de ciertos casos en animales de experimentación. Pero aun en el caso en que se quiera estudiar un universo perfectamente limitado, debemos decidirnos por la muestra, pues su utilización tiene las siguientes ventajas: 1. Ahorra tiempo, dinero y trabajo 2. Permite una mayor exactitud en el estudio El primer punto no necesita mayores comentarios. Si queremos estudiar cualquier característica de los 20000 estudiantes de nuestra Universidad Central —digamos su metabolismo basal--- y para ello tenemos una muestra de 2000 alumnos, el tiempo, el dinero y el trabajo serian aproximadamente una décima parte del que se invertiría en el estudio de toda la población estudiantil. En efecto, como será menor el número de investigadores que intervienen en el estudio, será mucho más fácil conseguir buenos especialistas y entrenarlos uniformemente: como se necesitaran menos instrumentos de investigación, estos podrán vigilarse y calibrarse más cuidadosamente, y como serán menos los individuos a estudiar, será posible controlarlos más adecuadamente, de tal manera que todos ellos estén en la más óptimas condiciones de estudio. Todo lo anterior disminuirá los errores en las observaciones y por lo tanto, los resultados obtenidos tendrán mayor exactitud. 7.4. Desventajas del empleo de muestras Al lado de las ventajas señaladas, la única desventaja del uso de muestras, es el llamado error de muestreo, el cual sumado a los 3 tipos de errores antes mencionados, podría invalidar nuestro estudio. Este error por muestreo es una consecuencia e la variabilidad de las poblaciones. Como los individuos de toda la población son muy variables los diferentes grupos o muestras que podemos formar con ellos difieran también unos de otros y como nosotros solamente estudiamos una muestra para generalizar luego a toda la población, los resultados serán algo distintos según la muestra que hayamos escogido. Esta diferencia por el valor dado por la muestra y el verdadero valor del universo, constituye el error por muestreo, a condición desde luego, que en uno y otro caso se utilicen idénticos métodos de estudio, pues en caso contrario, gran parte de dicha diferencia pudiera ser debida a errores inherentes a los métodos empleados. Con el fin de aclarar el anterior concepto, supongamos una población de 4 personas que tuvieran respectivamente 5, 3, 2 y bolívares. El capital total de esta población es Bs. 20, o sea un promedio de Bs. 5 por persona (20/4=5). Si no se conociera dicho promedio y para averiguarlo se tomara una muestra de dos personas digamos las dos primeras (Bs. 5 y Bs. 3), concluiríamos a través de esta pequeña muestra que el capital promedio de cada persona de la población es Bs. 4 cuando en realidad vimos que era 5. Esa diferencia de 1 bolívar entre el valor de la muestra y el valor del universo constituye el error por muestreo. La presencia del error por muestreo parecía indicar que el estudiar una muestra en vez de la totalidad del universo, es desfavorable y no ventajoso como hemos indicado. Sin embargo conviene tener presente, en primer lugar, que el error por muestreo suele ser mucho menos importante que los errores debidos al observador, al método de observación y a los individuos estudiados, y en segundo lugar, que el error por muestreo puede medirse estadísticamente y en cierto modo puede disminuirse a voluntad, tan solo con aumentar el tamaño de la muestra.

Por lo tanto, como una muestra bien tomada permite el control de los errores debidos al observador, al método de observación y a los individuos estudiados y, como por otra parte, el error por muestreo puede medirse y disminuirse, se comprende fácilmente el por que hemos dicho que los resultados a partir de una muestra, son mucho más exactos que aquellos obtenidos del estudio de todo el universo. 7.5. Condiciones de una buena muestra. Por lo dicho anteriormente, se deduce que no todas muestras contienen información acerca de la población de donde proceden y por consiguiente, la muestra debe ser escogida de tal forma que la información buscada se encuentre en ella. Las condiciones que la muestra debe tener para que sea buena, es decir, para que rinda la mayor utilidad posible, son dos. La muestra debe ser adecuada en: a. cantidad, y b. calidad. 7.5.1. Cantidad de individuos en la muestra El que una muestra sea buena en cantidad, quiere decir que debe incluir un número óptimo y mínimo de individuos. Hay fórmulas estadísticas que estudiaremos luego, mediante las cuales podemos determinar el número de individuos que debemos incluir en cada investigación, pero mientras tanto, las siguientes consideraciones ayudaran a aclarar este punto. Supongamos una lista de alumnos de los cuales 15 sean hombres y una mujer. Si de esta lista extraemos el nombre de un alumno y este es un hombre, a nadie se le ocurriría tomar esto como evidencia para afirmar que todos los alumnos son del sexo masculino. Es evidente que en el ‘’mejor” de los casos, se necesitara extraer cuando menos dos nombres para poder afirmar que hay hombres y mujeres en el curso, pero podría suceder que los 15 primeros nombres que extraigamos sean de varones y en este caso extremo, sería necesario ver la totalidad de la lista para indicar con absoluta seguridad cual es la composición verdadera del curso. De la misma manera, si entre los 16 alumnos del curso hubiera 4 de cada una de las regiones geográficas del país, sería imposible afirmar tal hecho, con una muestra que tuviera menos de 4 individuos. Los ejemplos anteriores aunque aparentemente pueriles, permiten señalar que el número de individuo que deben incluirse en la muestra, depende de 2 factores, a saber: La frecuencia con la cual el fenómeno que se estudia se encuentra en el universo, pues es evidente que si una enfermedad se presenta tan solo en el 1% de la población, habrá necesidad de estudiar por lo menos 100 casos, para tener la posibilidad de hallar una persona enferma, mientras que, si su frecuencia fuera del 50%, al menos teóricamente, de cada 2 personas que se estudien se encontrara una enferma. La variabilidad del universo que se estudias, pues se comprende que si todos los individuos que lo forman fueran exactamente iguales, bastaría con estudiar uno solo para conocer todo el universo y en el caso opuesto, en que todos los individuos fueran completamente diferentes, habría que estudiarlos en su totalidad. 7.5.2. Calidad de la muestra El que una muestra sea buena en CALIDAD, quiere decir que debe reflejar fielmente las características del universo del cual procede y diferir de él, solo en el número de unidades incluidas.

Los aspectos referentes a la calidad de la muestra, son más importantes que los referentes a su cantidad y no debe pensarse que la calidad de la muestra depende de su cantidad. Si quisiéramos estudiar las características del pueblo venezolano, y nos empeñáramos en estudiar solamente a los habitantes de Caracas, aunque estudiáramos a todos ellos, nuestra muestra no seria todavía representativa de toso el país. 7.5.3. Muestras representativas y muestras seleccionadas Lo anterior quiere decir que si queremos generalizar que lo que es cierto en la muestra es cierto también en todo el universo entonces la muestra debe ser perfectamente representativa de él. Si la muestra no es representativa de su universo, se dice que es una muestra “seleccionada” y generalmente no es conveniente trabajar con tales muestras. En el lenguaje corriente se llama seleccionado algo que es excelente o de óptima calidad. En estadística por el contrario una muestra seleccionada suele ser mala, ya que por definición, ella no representa su universo. No quiere esto decir que una muestra seleccionada sea inútil significa tan solo, que es necesario considerar ciertas limitaciones en las conclusiones que de ello se deriven. Por lo demás una muestra seleccionada, que no es representativa para determinado problema puede ser representativa para otro. Así por ejemplo, los estudiantes de la Facultad de Ingeniería forman una mala muestra para un estudio que tuviera por fin, averiguar la proporción de hombres y mujeres en la Universidad Central pues pocas mujeres eligen esta carrera, pero formarían una muestra adecuada, si el problema fuera conocer el porcentaje de católicos en la Universidad, pues aparentemente no hay ninguna relación entre los sentimientos religiosos y la elección de la carrera que se estudia. La selección puede ser voluntaria o involuntaria. En el primer paso el investigador conoce las limitaciones del material que está estudiando y las conclusiones que deriven deben estar de acuerdo con ellas. Un investigador, por ejemplo que estudia las variaciones del paso de un grupo de escolares de 8 años, no podrá generalizar sus hallazgos a escolares de todas las edades sino exclusivamente al grupo de edad investigado. El segundo caso es más importante, porque como a menudo se agrupa dicha selección, se pretenderá generalizar a toda una población conclusiones que no le corresponde. Generalmente este error se comete por una de las tres causas siguientes: a. Porque se toma la muestra de solo un sector del universo, creyendo equivocadamente, que dicho sector constituye todo el universo. b. Si se quisiera estudiar por ejemplo, el ingreso promedio del obrero venezolano y para ello se obtuviera una muestra que incluyera solamente a trabajadores del Zulia, el promedio obtenido no sería válido para toda Venezuela, pues se sabe perfectamente que los salarios en el Zulia son muchos más altos que en el resto del país, a causa de las explotaciones petroleras. Una muestra adecuada debería incluir trabajadoras delos diversos estados y territorios de la nación. c. Como un segundo ejemplo, supongamos que se desea hacer un estudio para averiguar la letalidad de la fiebre tifoidea, o sea la proporción de enfermos de fiebre tifoidea que fallecen. Se sabe que la letalidad de la enfermedad varía en las diversas edades y depende del estado nutritivo del paciente y del momento en que se inicia el tratamiento. Una buena muestra por lo tanto, debe incluir pacientes de diversas edades, tanto desnutridos como bien nutridos en diferentes etapas de la enfermedad. Si para dicho estudio se escogiera la muestra en el Hospital Vargas de Caracas, tal muestro no nos revelaría la verdadera letalidad de la Fiebre Tifoidea, pues como se sabe, a dicho Hospital solo asisten personas adultas, generalmente pobres y desnutridos y en estado grave, pues los casos benignos permanecen en sus domicilios. Las conclusiones derivadas de un estudio como el anterior, podrían generalizarse solamente a enfermos de condiciones semejantes a los estudiados (adultos, desnutridos, etc.), pero sería erróneo pretender aplicarlas a otras circunstancias.

d. Porque el método de escogencia de los individuos no es al azar, cual como veremos enseguida es el único procedimiento que no garantiza una buena escogencia. Tal error se comete siempre que se trabaja con muestras de conveniencia. e. Porque una vez obtenida la muestra, existen circunstancias que nos impiden estudiar a, los individuos escogidos. La muestra puede haber sido escogida de toda la población y por un procedimiento al azar, con lo cual se elimina las dos causas de error acabadas de estudiar, pero si no es posible recoger la información de las personas que deben estudiarse, ciertos segmentos de la población no van a quedar representados, esto sucede por ejemplo, en encuestas mediante cuestionarios postales, pues en general quienes contestan pueden ser muy diferentes de quienes no lo hacen. En Venezuela por ejemplo, una encuesta en tal forma seria contestada solamente por una clase social relativamente alta, ya que los pobres son generalmente analfabetos. 7.6 Clases de muestras. Hay dos clases de muestras: a.- muestras de conveniencia b.- muestras probabilísticas. 7.6.1. Muestras de conveniencia o propositivas Entran en esta categoría todas aquellas muestras en las cuales los individuos se escogen sobre la base de la opinión de un experto por considerarlos representantes típicos del universo que se quiere conocer. Si se deseara, por ejemplo, averiguar los porcentajes de hombres y mujeres en la Universidad, en vez de obtener una muestra de las diferentes facultades que la integran, podríamos limitarnos al estudio de un grupo de alumnos de aquella Facultad que nos parezca muy representativa con relación al sexo de sus integrantes. Sin embargo la validez de los resultados obtenidos, dependerá exclusivamente del acierto que hayamos tenido al seleccionar como típica dicha facultad. Tal es la desventaja de este tipo de muestras: aun cuando sus resultados son bastantes fidedignos, estamos en incapacidad de juzgar objetivamente sobre su posición. Hace falta pues un mecanismo más objetivo de apreciación que ofrezca garantías de probabilidad y que a la vez nos permita medir la exactitud de los valores encontrados. Esto se logra con las muestras probabilísticas. 7.6.2. Muestras probabilísticas. Son aquellas en que cada individuo de la población tiene una posibilidad perfectamente conocida de ser incluido en la muestra. No es siquiera necesario que los diferentes individuos tengan una posibilidad de pertenecer a la muestra, basta con que tengan cualquier posibilidad (diferente de cero) de formar parte de ello y que la posibilidad sea conocida. La elección de una muestra probabilística requiere dos condiciones fundamentales. En primer lugar como acaba de mencionarse, es necesario que la probabilidad de elegir cada individuo sea perfectamente conocida, pues si no lo es, no será posible calcular los errores que pueda cometerse al hacer su escogencia. Así por ejemplo, muchas muestras de opinión pueden ser representativas de su universo, pero por no llenar el anterior requisito, estamos en incapacidad de juzgar objetivamente sobre su representatividad. En segundo lugar, es indispensable que los individuos se elijan al azar, sin permitir la intervención de ningún factor que favorezca la elección de unos en detrimento de los otros.

Elegir los individuos al “azar”, no quiere decir elegirlos sin ton ni son, a nuestra voluntad o a voluntad de otros, quiere decir elegirlos por un método perfectamente estudiado en tal forma que la voluntad no tenga ninguna participación en dicha elección, tal como se hace en el popular juego de la lotería o bingo, en el cual la obtención de cualquier número es obra de la suerte. Veremos enseguida, que solo para aquellos casos en los cuales el azar se utiliza como sistema de elección de los individuos, ha sido posible determinar y valorar la variación que es dado esperar entre diversas muestras. 7.7. Demostración práctica. Antes de segur adelante, conviene recurrir a una de la cualquiera de las demostraciones Ya clásicas, con el fin de entender la verdadera importancia del azar en la obtención de muestras. Con el fin vamos a presentar los resultados de una de esas demostraciones obtenidas en el último curso de médicos higienistas. La demostración consistió en colocar 500 metras blancas y 500 negras en una caja y después de mezclarlas cuidadosamente se pidió a los alumnos del curso que secaran, sin ver, muestras de 10 metras. Cada vez que se extraía una muestra se anotaba él número de metras blancas obtenidas y luego de retornar las 10 metras a la caja se mezclaban convenientemente antes de obtener otras muestras. En esta forma se obtuvieron 150 muestras en total, las cuales se presentan en el próximo cuadro, clasificadas de acuerdo al número de metras blancas. Antes de comentar los resultados obtenidos, obsérvese que esta demostración no es tan teórica como parece y que ella es equivalente a muchos problemas prácticos. La caja con 1000 metras blancas y negras pudiera ser una población de 1000 habitantes, unos sanos y otros enfermos, de la cual el un primer investigador obtuvo una muestra de 10 individuas con el fin de conocer el porcentaje de enfermos, luego un segundo investigador hizo lo mismo y así sucesivamente hasta que 150 personas distintas estudiaron dicha población. El examen del cuadro 46 revela varios puntos: a. Hay cierta variación en los resultados obtenidos con las muestras. No todas ellas arrojaron el mismo resultado. b. Como fueron los mismos observadores quienes por el mismo método estudiaron el mismo universo de metras, hay que concluir que la causa de la variación observada fue al azar c.

A pesar del variación presente, puede observarse que no todos los resultados se presentan en la misma frecuencia. La mayoría de los valores están muy cerca del verdadero valor de la población estudiada (50%) y los valores muy diferentes al del universo, van siendo mucho más raros, mientras mucho más se aparten de él. En realidad no hubo ninguna muestra en que no apareciera por lo menos una metra blanca, o en la cual todas las metras fueran blancas, a pesar de que en ocasiones puedan presentarse. Los resultados que con mayor frecuencia se presentaron fueron aquellos vecinos a la verdadera composición del universo de 1000 metras y de hecho. Hubo 36 muestras en las cuales el porcentaje de metras blancas fue de 50 %, valor exactamente igual al del universo

d. Puede observarse igualmente que los resultados no son desordenados, sino que presentan cierta simetría. En efecto, puede notarse que las frecuencias aumentan paulatinamente hasta llegar a un máximo, para decrecer luego en la misma forma si se unen los vértices de las barritas que señalan las frecuencias puede observarse que se forma una curva de campana. Esta curva cuyas características se estudiaran mas tarde, se conoce con el nombre de Curva de Gauss o Curva normal

Distribución de 150 muestras de 10 metras cada una, de acuerdo al número de metras blancas obtenidas. (Metras blancas en el universo: 50 %) Cuadro 46 Metras blancas por muestra 0 1 2 3 4 5 6 7 8 9 10 Total

Número de muestras obtenidas 0 3 6 20 30 36 28 18 8 1 0 150

Gráfico 46

Frecuencia

40 30 20 10 0 1

2

3

4

5

6

7

8

9

10 11

Metras blancas por muestra El hecho de que los resultados dados por el azar sigan una Curva normal es importantísimo, pues esta Curva es un modelo matemático perfectamente estudiado y por lo tanto, si el azar sigue une Curva normal, las leyes matemáticas que se apliquen a esta, podrán ser a aquel. La utilidad de esta conclusión solo será aparente en próximos capítulos, pero la demostración que se acaba de hacer nos indica que aunque los resultados dados por el azar son muy variables, dicha variación no es anárquica, sino perfectamente ordenada y perfectamente previsible, y de ahí la confianza que debemos tener cuando usamos dicho método para escogencia de las muestras.

7.8. Elección entre muestras probabilísticas y de conveniencia Como se ha visto, la diferencia entre muestras probabilísticas y muestras de conveniencia estriba en que estas últimas la posibilidad de que un individuo sea incluido en la muestra es desconocida como siendo imposible medir la exactitud de los resultados obtenidos. A causa de esto, siempre que sea posible deben utilizarse muestras probabilísticas, a pesar de que hay ocasiones- ilustradas en los siguientes ejemplos-en las cuales se precisa recurrir a muestras de conveniencia. a.- Muchas veces, por limitaciones nuestros recursos tenemos que estudiar un número de individuos menor que el que fuera deseado y entonces la opinión de un experto puede ser conveniente. Así por ejemplo, si al ensayar una nueva droga solo se tienen 5 o 6 dosis en vez de escoger los individuos al azar, pueden seleccionarse solamente casos graves, ya que se presume que la droga es efectiva en ella con mayor razón lo será en los casos benignos o corrientes de la enfermedad. Igualmente, si se quiere conocer cualquier característica de una población a través del estudio de unos pocos individuos se lograra una mayor exactitud, si se aprovecha de la experiencia que se tiene, para estudiar tan solo a individuos que presenten en promedio la característica que se investigue. b.- Otras veces, no se puede obtener una lista completa de la población que se va a estudiar, siendo por lo tanto imposible aplicar el azar. En tales casos, la selección de los individuos que se estudian envuelve un proceso de opinión. Finalmente, hay ocasiones en las cuales el principal interés está en localizar individuos con determinadas características en una población muy numerosa, digamos los enfermos tuberculosos de una comunidad en tales casos es preferible concentrarnos en el estudio de aquellos grupos en los cuales la experiencia señala que hay posibilidades de encontrar a los individuos buscados. 7.9 Métodos para la obtención de una muestra probabilística. Básicamente son dos los métodos para asegurar escogencia que una buena muestra: a. El método de la lotería. b. El método de los números al azar o aleatorio. El método de la lotería: consiste en colocar en un recipiente fichas con los nombres de todos los integrantes de la población que se va a estudiar y después de revolverlas bien, se extraerán tantas fichas como individuos se quieren obtener. Se comprende que la población es muy numerosa este procedimiento resulta poco práctico y por consiguiente, debe darse preferencia a la que describiremos a continuación. Las tablas de números al azar: son tablas con miles de números obtenidos con un procedimiento como el de la lotería, es decir, por su procedimiento al azar. Algunas de ellas contienen hasta un millón de dígitos y la que se inserta en la próxima página es solo un modelo obtenido en prácticas de clase. Aunque los números están agrupados de 5 x 5, tal distribución se hace simplemente con el fin de facilitar la lectura, siendo indiferente que esta se realicen hacia abajo, hacia arriba, horizontal o diagonalmente. Para utilizar estas palabras se empieza por numerar a los individuos de la población desde el uno en adelante y luego se extraerán tantos números como individuos vayan a incluirse en la muestra.

La tabla puede empezarse a leer en cualquier parte, pero debe escogerse al azar la columna y la fila de comienzo, para lo cual es suficiente colocar a siegas un dedo sobre el cuerpo de la tabla y empezar en ese sitio la lectura. Supongamos por ejemplo, que de una población de 5000 individuos previamente numerados del 1 al 5000 se desea extraer una muestra de 500. Como él número 5000 consta de 4 dígitos será necesario utilizar 4 columnas de la tabla sin que tenga importancia cuales sean. Si mediante el procedimiento mencionado sea decidido comenzar en la columna 7, fila 3, el primer individuo será él número 01954, el segundo número será 4321. Luego aparecerán los números 9183 y 6956 los cuales no se tomara en cuenta ya que la población solo consta de 5000 elementos y por lo tanto el tercer individuo que se escogerá será el 139. Al terminar estas columnas se continuara en la parte superior de la tabla con los números 2481, 2835, etc. (columnas 1 a 14) hasta que haya sido obtenida la muestra de 500. Cuadro 49 Tabla de números al azar ____________________________________________________________ Columnas Filas ____________________________________________________________

1-5

6-10

11-15

16-20

21-25

1 2 3 4 5

28596 95504 70426 25757 00076

75255 73814 01954 44321 39183

24813 28355 86694 02621 92696

25171 99264 53918 03392 62103

00935 20968 47721 19773 88027

6 7 8 9 10

05428 71540 66292 78168 68603

36956 80139 79184 15727 72198

09005 17632 81386 03388 93952

81983 61177 82260 16789 80082

53470 77333 29281 27661 56210

11 12 13 14 15

42641 25205 55563 11495 21729

60859 33559 62108 13819 72882

17445 52323 98633 86358 07456

45157 08309 31743 59582 22912

00820 53669 08345 87793 43280

16 17 18 19 20

68598 76384 17648 46105 81383

46869 54351 75770 03781 22762

37573 43621 89043 91384 60794

24965 64510 69826 80785 63630

75237 90654 94302 99901 30169

21 22 23 24 25

10395 35258 75014 20562 41987

09373 90303 35713 64270 61152

42604 15371 15138 51580 98447

35861 13264 81415 76136 93635

80689 28390 78187 74954 33871

26 27 28 29 30

15993 74230 57667 40917 70585

08117 97335 28151 21639 73790

66623 35355 44889 65973 74377

83885 21799 28879 30101 49114

12276 90234 50985 75678 53839

7.10 Diferentes tipos de muestras probabilísticas En el terreno práctico, las nociones anteriores suelen combinarse con el fin de lograr mayor precisión en el muestreo. Entre los numerosos modelos utilizados y que describiremos muy brevemente están: a. Muestras por azar simple b. muestras sistemáticas c. muestras estratificadas d. muestras de conglomerados e. muestras por procedimiento combinado o mixto. Con el fin de señalar las diferencias, ventajas y desventajas de estos procedimientos, tomemos el siguiente ejemplo teórico. Supongamos que en cada una de las 4 zonas geográficas del país hay 100 escuelas artesanales con 50 alumnos en cada escuela y que con el fin de estudiar determinada característica, resolvemos extraer una muestra de 2000 alumnos. Hay en total 400 escuelas con 20000 alumnos y la elección de los 2000 que vamos a estudiar podrá hacerse por cualquiera de los siguientes procedimientos. 7.10.1. Muestra por azar simple A partir de una lista con los nombres de los 20000 estudiantes del país se elegirán los 2000 que deben estudiarse, por el método de la lotería o con la ayuda de una tabla de números al azar. El procedimiento tiene tres inconvenientes: 1. Se necesita una lista detallada con todos los alumnos del país, lo cual no es fácil de obtener. 2. La muestra quedara tan dispersa, que probablemente haya necesidad de trasladarse a una apartada región, para estudiar uno o dos alumnos. 3. No hay garantía de que las 4 regiones estén adecuadamente representadas en la muestra, pues puede ser posible que mientras de una región se escojan 800 alumnos de otra se obtengan solamente 100 o 200. 7.10.2. Muestras sistemáticas. Como son 20000 alumnos de los cuales se estudiaran 2000, esto quiere decir que de cada 10 se estudiara uno. Para obtener una muestra sistemática, nos procuraremos una lista de tolos alumnos del país que numeraremos del 1 al 20000. Luego se escogerá al azar un número entre el 1 y el 10, el cual indicara el primer alumno que se va estudiar y completaremos la muestra tomando de la lista cada décimo niño. Si él número escogido fue 5, líos alumnos serán los correspondientes a los números 5, 15, 25, 35, etc. Cuando la lista está hecha al azar, este procedimiento es equivalente al descrito anteriormente y presenta sus mismos inconvenientes. Pero dada la sencillez de su aplicación, suele utilizarse en todos aquellos casos en los cuales existen ficheros o tarjeteros especiales con los nombres de cada uno de los individuos de la población que se investiga. Así por ejemplo, si en los archivos de un hospital hay 20000 historias clínicas numeradas del 1 al 20000 y se desea unas muestra de 1000 de ellas (una de cada 20), en vez de tomarnos la molestia de extraer 1000 números de tabla de dígitos al azar será fácil obtener un número del 1 al 20, digamos el 10, el cual indica la primera historia que se estudiara continuándose luego con cada 20 historias hasta completar las 1000 deseadas, o sea, que se escogerán las 10, 30, 50, 70, etc. Sin embargo, si la lista no está hecha al azar, la utilización de muestras sistemáticas puede conducir a serios errores. Considérese como ejemplo el siguiente caso extremo: 1000 parejas que van a contraer matrimonio acuden a obtener el correspondiente certificado de salud, cuya copia es archivada en el mismo orden que se examinaran las personas. Como por galantería la mujer

siempre se examinó de primero como los números impares corresponderán a historias de mujeres y los pares a historias de hombres. En tales circunstancias, si quisiéramos extraer una muestra sistemática del 10% de las historias con el fin de conocer por ejemplo, la edad promedio de los contrayentes y comenzamos digamos en él número 3, todas las historias corresponderían a mujeres (3, 13, 23, etc.). 7.10.3. Muestras Estratificadas En este sistema la población se divide primero en “estratos” y luego en cada uno de los estratos escogen al azar los que compondrán la muestra. Nuestro ejemplo hipotético, las cuatro zonas del país las consideraremos estratos diferentes de cada uno de los cuales escogeremos los individuos para completar los 2000 de la muestra. La escogencia se da con el método de la lotería o mediante una tabla de números al sustrayendo sucesivamente 500 alumnos de cada uno de las zonas. Esta al igual que los métodos anteriores requieren una lista detallada de todo los alumnos y a pesar de que la muestra puede ser demasiado dispersa hay garantía de que las 4 zonas estarán adecuadamente representadas. La estratificación es un procedimiento mediante el cual se utiliza la competencia que se tiene sobre el problema que se estudia, con el fin de dar mayor exactitud a los resultados. Así por ejemplo es que en promedio los días de hospitalización de los servicios de maternidad, pediatría, cirugía y medicina general son muy diferentes unos de otros, pues mientras que en la maternidad una parturienta dura por término medio 3 días, en cirugía esta cifra se acerca a 10 días. Este conocimiento puede utilizarse en el muestreo construyendo una muestra separada de cada uno de los 4 servicios y esperando luego sus resultados con lo cual hay 2 ventajas sobre el muestreo por azar simple: a) Se obtiene información separada para cada uno de los servicios. b) Se evita el riesgo que determinado momento quede inadecuadamente representado, pues de no hacerse la estratificación, puede darse el caso que la mayoría de la historias prolongan el servicio de maternidad, en el cual la hospitalización es menor y la muestra nos haría concluir erróneamente que el tiempo de permanencia en el hospital es menor de lo que en realidad es. 7.10.4. Muestras de Conglomerados En este procedimiento, en lugar de escoger a los individuos que van ha estudiarse. Se escogerá grupos o conglomerados de individuos. Como cada escuela tiene 50 alumnos, al escoger 40 escuelas tendremos los 2000 alumnos que queremos estudiar. En las muestras de conglomerado no se necesita tener una lista detallada de los alumnos pues basta con numerar las 400 escuelas del país para escoger las que se estudiaran. Por otra parte se evita la dispersión, pues aunque haya que estudiar una escuela en un pueblo lejano, al trasladarnos allí lo haremos, no por uno o dos alumnos sino por 50 lo cual se traduce en un ahorro de tiempo dinero y esfuerzos. El único inconveniente pudiera ser que las zonas no nos quedaran adecuadamente representadas. Además, las muestras de conglomerados no suelen dar resultados tan precisos como las obtenidas con las estratificadas. Mientras que en estas debe procurarse que cada uno de los estratos sea tan homogéneo como sea posible, en aquellas se obtendrán mayor precisión mientras más heterogéneos sean los individuos que conformen el conglomerado, pues en tal caso, cada conglomerado viene a ser como una población en miniatura.

7.10.5. Muestras por procedimiento combinado Como las muestras de conglomerados evitan la necesidad de tener una lista detallada de la totalidad del universo que se estudia evita la dispersión de la muestra y como a su vez la s muestras estratificadas aseguran la representatividad de los diferentes sectores de la población se comprende que una combinación elimina los 3 grandes inconvenientes del muestreo por azar simple. En nuestro ejemplo, una muestra estratificada de conglomerados se obtendría escogiendo separadamente 10 escuelas de cada una de las zonas del país (4x10x50=2000 alumnos). Habitualmente una vez que se escogen los conglomerados no se estudia la totalidad de las unidades que los forman sino que se escogen al azar algunas de estas unidades. En nuestro ejemplo note que para elegir los 2000 alumnos, cualquiera de las siguientes combinaciones será posible:

Tipo de combinación

Número de escuela

A B C D E

400 200 100 50 40

Alumnos estudiados por escuela 5 10 20 40 50

Total de alumnos estudiados 2000 2000 2000 2000 2000

E y A se escogen 5 alumnos de cada escuela pero 100 por ciento de alumnos están representados en una muestra. En E solo se escogen 40 alumnos, pero el 100 % de sus alumnos deben ser estudiados. Cualquier combinación de las anteriores podría ser escogida, pero con miras a una mayor precisión, esta aumentara mientras mayor sea el número de escuelas que se estudien (combinación A mejor que B esta mejor que C y así sucesivamente). Nótese sin embargo, que mientras más escuelas se estudien más dispersa quedara la muestra y en la combinación A sería necesario tener una lista de toda la población, con lo que se pierden las dos grandes ventajas de las muestras de conglomerados. 7.11. Análisis del resultado de la muestra Una vez obtenida la muestra y convenientemente resumidos los hallazgos, el paso siguiente es la generalización de los resultados de esta población de la cual procede. Dicha generalización exige 2 requisitos, A) estimar los valores del universo y b) juzgar sobre la posición de tales valores. 7.11.1 Valores del universo La estimación de los valores del universo depende del tipo de muestra que se haya utilizado. Cuando se trata de una muestra por azar simple o de una muestra sistemática, los resultados observados de ella pueden aplicarse directamente al universo. Si en el anterior ejemplo de los escolares encontramos que el 40% de los escolares de Venezuela son mujeres. Cuando la muestra es estratificada o de conglomerados, se resumirán rimero los resultados de cada estrato o conglomerado, y luego se estimara el valor global de todo el universo lo cual requiere la utilización de los llamados promedios ponderados, cuyo cálculo se estudiara en la sección 16.8. El caso de las muestras por procedimiento combinado es más complicado siendo aconsejable el asesoramiento de un técnico estadístico.

7.11.2 Precisión de los resultados de la muestra Si en la muestra estudiada se encontró que el 40% de los escolares son mujeres, podemos aplicar tal porcentaje de la totalidad de la población escolar de Venezuela, aunque se entiende desde luego, que dicha cifra es tan solo una aproximación. Cabe preguntarse cuán exacta es tal aproximación. Este problema será dilucidado en próximos capítulos y tratado especialmente en el capítulo XIX, pero mientras tanto, téngase presente que siempre que siempre que se hacen generalizaciones a partir de una muestra, se corre el riesgo de que los valores dados por ella no correspondan exactamente a los del universo. Sin embargo, aunque tal riesgo no puede eliminarse por cualquier procedimiento, puede reducirse convenientemente y estimarse con bastante exactitud a partir de los propios resultados de la muestra, a condición de que sea una muestra probabilística y que su tamaño sea adecuado.

CAPITULO VIII DISEÑO DE FORMULARIOS 8.1 Generalidades Cuando se hace un estudio, se recogerá tal cantidad de datos que será imposible confiarlos a la memoria. En tales caso, habrá necesidad de registrarlos en formularios adecuados como paso previo para su resumen y análisis. Bajo la denominación genérica de “formularios” se incluye toda forma impresa destinada a la recolección de datos, tal como las historias clínicas, las fichas epidemiológicas o tarjetas especiales que a la vez permiten recoger los datos, sirven para su computación. Los formularios deben ser planeados cuidadosamente, en tal forma que sean realmente útiles y que faciliten y no dificulten la obtención de los datos. Ellos deben ayudar a recoger la información de manera completa y eficiente, permitiendo uniformidad en las diferentes observaciones y evitando la recolección de datos inútiles o irrelevantes al estudio. El formulario debe permitir recoger dos tipos de datos: a. b.

Datos administrativos o de identificación. Datos sobre el problema que se estudia

Los primeros ayudaran a identificar las unidades en observación e incluyen el nombre de a persona, su edad, sexo, residencia y fecha de estudio. A través de ello puede medirse el rendimiento del personal y la distribución de algunas características en el tiempo y en el espacio. En cuanto a los segundos deben tener un propósito perfectamente definido y ser pertinentes al estudio. 8.2. Elaboración del formulario Antes de elaborar el formulario debe considerarse el propósito para el cual será utilizado y las circunstancias bajo las cuales se recogerá la información. Lo primero tiene importancia para decidir sobre los datos que en última instancia se recogerán y lo segundo, para la adopción del tamaño, forma y material más conveniente. Aunque es imposible dar reglas fijas para la correcta elaboración de un formulario, los siguientes puntos serán de utilidad: 1. Decidir sobre los datos que recogerán. Un formulario muy extenso, conspira con la exacta recolección de los datos y de allí que solo deban recogerse aquellos útiles y pertinentes al estudio. En esta decisión es conveniente: a. Hacer una lista de todos los datos de acuerdo a la finalidad del estudio. b. Considerar cuales datos son “factibles” de recoger de manera fidedigna y exacta. Averiguar si una persona es o no adicta a la s drogas heroicas, es una información deseable de recoger, pero generalmente no vale la pena investigarla, pues es raro que las personas Ester dispuestas a suministrarla. c.

Limitar los datos aquellos “prácticos” de recoger. Así por ejemplo hay ciertas reacciones serológicas mucho más específicas que el VDRL para el diagnóstico de la Sífilis, pero siendo más complicadas posiblemente se prefiera no utilizarlas.

d. Limitar la información aquella que se usará. Generalmente se recogen muchos datos pensando que algunos que hoy parecen sin importancia, posiblemente en el futuro sean de utilidad. Tal actitud es justificada, solo cuando se tiene la seguridad de que esta investigación adicional entorpecerá la recolección de los datos verdaderamente esenciales. 2. Decidir sobre el orden en que se asentarán los datos en el formulario. La distribución debe hacerse en manera lógica y ordenada y así por ejemplo, datos sobre la ocupación, vivienda, educación y otros referentes a las condiciones económicas y sociales no deben ser separados. 3. En general la parte superior del formulario debe reservarse para datos clarificativos y de identificación (nombre, dirección, área geográfica, etc.) y no ocuparla, como suele hacerse, con el nombre de la oficina que hace el estudio. 4. Considerar cómo se hacen las preguntas.-Esto tiene mucha más importancia en los formularios utilizados en ciertas encuestas sociológicas que en el caso de las historia clínicas o formularios afines empleados por el médico. 5. En todos los casos en que ciertas preguntas deben ser formuladas, se procurará un lenguaje simple, sin ambigüedades y como hemos señalado, se evitarán las preguntas insinuantes, poco explicitas o insuficientemente específicas. 6. Planear como se anotarán las respuestas. No es infrecuente el hecho que para anotar ciertas respuestas más o menos extensas, apenas se deja espacio para una o dos palabras, lo cual, como es lógico, impide recoger la información de manera completa. El espacio que se deje debe ser adecuado para las respuestas que se espere siempre que sea posible se adoptará el sistema que exija el esfuerzo menor. Obsérvese como la misma información del sexo puede consignarse de tres manera diferentes, aunque la segunda parece mucho más conveniente. a. ¿Sexo?............... Hombre b. Sexo Mujer

SI c. ¿Hombre?

NO

7. Determinar Las características del formulario. Con respecto a este punto vale la pena considerar: QUIÉN DE QUIÉN DONDE Y CUANDO CÓMO

¿Recogerá la información? ¿Será recogida? ¿Se registrará? ¿Se procesarán los datos?

De acuerdo a las anteriores preguntas, se deducirá sobre las formas, tamaño, material, color, etc. de los formularios.

a) Forma y tamaño: Aunque una sola página facilita considerablemente su manejo a forma y tamaño dependerá de la cantidad y extensión de los detalles que se van a recoger y de si el formulario se usará directamente o no para las computaciones. b) Material: Depende del empleo que se le dará al formulario, mientras que formularios que se van a usar justifican un material de óptima calidad, otros que solo se utilizaran una vez, como las órdenes para los exámenes de laboratorio, podrán ser hechos de papel corriente. c) Colores: Cuando en una misma dependencia se utilizan varios formularios, suele ser conveniente usar diferentes colores para distinguirlos fácilmente así por ejemplo, el Ministerio de Sanidad usa el color blanco para consulta de lactantes, rozado para escolares, amarillo para la consulta de prenatales, etc. d) Probar la operatividad del formulario. Antes de que el formulario sea impreso de forma definitiva, es conveniente probarlo en el terreno mediante un estudio piloto, para darse cuenta de las fallas que aun puedan presentar y hacer las correcciones necesarias. Muchas veces, solo después de múltiples experiencias puede llegarse a la adopción de un formulario definitivo. La historia clínica por ejemplo a pasado por tres diferente etapas, antes de que se empleara la forma que hoy se utiliza. Al principio era una simple hoja en blanco, en donde el médico anotaba los hallazgos de su examen, lo cual tenía como inconveniente, la falta de uniformidad de las observaciones haciendo imposible la comparación entre un grupo de pacientes y otro. Después se transformó en una lista interminable de preguntas, de la cual el médico no podría apartarse. Como se ha señalado, era un atentado contra la personalidad del médico y del paciente. Hoy en día, en la historia clínica, a manera de recordatorio para el médico, se señalan las grandes bases de datos que deben investigarse, pero se deja en libertad al profesional para investigarlos en la forma y en detalle que juzgue conveniente. 8. Redactar las instrucciones necesarias. Estas pueden imprimirse en el mismo formulario cuando no son muy extensas o en hojas aparte en caso contrario.

CAPITULO IX LA ETAPA DE ELABORACIÓN DE LA INFORMACIÓN PASOS EN LA ELABORACIÓN DE LA INFORMACIÓN Una vez recogida la información, es necesario revisarla cuidadosamente y luego resumirla y presentarla convenientemente, antes de que sea posible analizarla. Así por ejemplo, los datos referentes al peso de un grupo de 30 individuos, tal como aparecen a continuación, no revelan fácilmente ninguna característica del grupo: En cambio, los mismos datos ya elaborados, presentados en la forma que sigue,

permite

formarse juicio bastante exacto, sobre el conjunto de personas estudiadas: 73 66 52 63 64

69 68 55 62 61

72 52 63 56 64

67 61 60 58 57

63 68 58 51 56

62 64 54 59 56

Cuadro 61 Individuos de acuerdo a su peso

Peso en kilos 50-54 55-59 60-64 65-69 70-74 TOTAL

Número de personas 4 8 12 4 2 30

Al resumir los datos en tal forma, algunos detalles sobre las variaciones individuales se han perdido, pero las características generales del grupo se han conservado y son mas aparentes. En la etapa de elaboración se consideran los tres pasos siguientes, cuyos detalles se estudiaran en los próximos capítulos: 1. Revisión y Corrección de la información recogida. 2. Clasificación y Computación de los datos. 3. Presentación mediante Cuadros y Gráficos.

CAPITULO X REVISIÓN Y CORRECCION DE LA INFORMACIÓN RECOGIDA Es necesario revisar cada uno de los formularios recogidos, como fin de ver si los datos han sido registrados de manera completa y fidedigna, ya que las conclusiones que del estudio se deriven nunca podrán ser más exactas que los datos en los cuales se basan. Hay que ver ante todo si el formulario está completo o si existen omisiones, es decir, ver si todos los datos que debieron investigarse se encuentran asentados. Hay que fijarse luego si dichos datos son correctos. No siempre será posible decidir sobre la corrección o no de un dato, pero frecuentemente la existencia de otra información en el formulario y cierto conocimiento de la materia que se estudia, ayudara al respecto. Así por ejemplo, una persona nacida en 1950 puede aparecer como de 40 años, lo cual a todas luces es imposible, o un niño de 5 años aparecer con un peso de 50 Kilos, lo cual, indudablemente, es una equivocación. Cuando tales inexactitudes se comprueban, será necesario hacer las correcciones pertinentes cuando ello sea posible, u omitir de las computaciones finales los formularios incompletos e incorrectos. En este último caso se corre el riesgo de invalidar el estudio, pues generalmente se trabaja con muestras y la eliminación de unos cuantos individuos puede viciar los resultados. Una adecuado planificación de la investigación y una cuidadosa recolección de la información, serán la manera lógica de precaverse contra tales eventualidades.

CAPITULO XI CLASIFICACION Y COMPUTACIÓN DE DATOS La computación consiste simplemente en contar cuántos individuos presentan o no alguna característica especial o averiguar en qué forma se distribuyen de acuerdo a determinada escala de clasificación. Antes de que se haga cualquier computación, es necesario por lo tanto, haber decidido de antemano el criterio bajo el cual serán clasificadas las personas estudiadas, pues un grupo de individuos podrá clasificarse de muchas maneras diferentes, según la finalidad que se persigue: de acuerdo al sexo, la raza, la edad, etc. 11.1 Escalas de clasificación Como la presentación de los datos estadísticos y su análisis posterior depende en gran parte de la manera como están clasificados, algunas consideraciones al respecto son convenientes. 11.1.1 Condiciones de una buena escala Cualquiera que sea la escala que se escoja, debe reunir, entre otras, dos condiciones básicas: 1. Debe ser exhaustiva; 2. Las clases o subdivisiones de que consta deben ser mutuamente excluyentes. El que la escala sea exhaustiva significa que debe permitir la clasificación de cualquier individuo que se estudia. Una escala que dividiera las razas solamente en Blanca y Negra sería incompleta, ya que no permitiría la inclusión de personas de otros grupos raciales. El que las clases sean mutuamente excluyentes quiere decir, que no debe dejar dudas sobre donde incluir a cada una de las unidades en estudio.

Grupos de Edad Escala Incorrecta 0-5 5-10 10-15 15-20 etc.

Escala Correcta 0-4 5-9 10-14 15-19 etc.

Una escala como la de la izquierda es incorrecta, porque es ambigua y en un momento dado no se sabría donde incluir a un niño que tuviera exactamente 5 o 10 años de edad. La escala de la derecha evita tal confusión y es preferida por su sencillez y exactitud. 11.1.2. Diferentes tipos de escala Al estudiar a un individuo, podemos contentarnos con investigar simplemente si presenta o no determinada cualidad o atributo, o podemos, cuando ello sea posible, tratar de medir cuánto o qué cantidad posee de alguna particular característica. La anterior noción permite distinguir dos clases de escalas:

1. cualitativas, y 2. cuantitativas 11.1.2.1 Escalas (Variables) cualitativas. Las escalas cualitativas solo permiten distribuir a los individuos de acuerdo a ciertas características que le son comunes y por medio de las cuales pueden distinguirse de otros individuos que no las poseen. Al clasificar a un grupo de personas por sexo, raza, estado civil, región de donde proceden, enfermedad que padecen, etc., se está usando una escala cualitativa. Las escalas cualitativas pueden ser: a. Nominales: presenta modalidades no numéricas que no admiten un criterio de orden. Por ejemplo: El estado civil, con las siguientes modalidades: soltero, casado, separado, divorciado y viudo. A su vez, éstas se clasifican en binarias o dicotómicas (cuando tienen dos categorías ej. sexo) y Policotómicas (cuando tienen más de dos categorías ej. estado civil) b. Ordinales: presenta modalidades no numéricas, en las que existe un orden. Por ejemplo: La nota en un examen: suspenso, aprobado, notable, sobresaliente. c.

11.1.2.2. Escalas cuantitativas. Las escalas cuantitativas son mas precisas, porque a más de permitir la diferenciación entre unos individuos y otros, señalan cuan grandes son las diferencias observadas. La determinación del peso, la estatura, edad, pulso o tensión arterial de una persona, o la división de las familias por el número de hijos de que constan o de acuerdo a sus ingresos se hace mediante el uso de una escala cuantitativa.

Las escalas cuantitativas se dividen en: a. Continuas b. Discontinuas Una escala cuantitativa se denomina continua cuando cualquier valor intermedio entre 2 íntegros es posible. La edad de una persona por ejemplo, puede ser 40 años, o 40 años y 10 meses, o aún podría expresarse como 40 años, 10 meses, 5 horas, 15 minutos, etc. De la misma manera el peso de un hombre puede ser 60 Kilos, pero si se tuviera una balanza de precisión quizá podría anotarse como 60 kilos, 300 gramos, 20 centigramos, etc. Una escala se llama discontinua cuando solo admite valores de números enteros. Las familias clasificadas según el número de hijos o los escolares por el número de dientes cariados que tengan, son ejemplos de escalas discontinuas, porque una familia podrá tener 1,2.... 15 hijos; o un escolar 1,2... 20 caries, pero ningún valor fraccionado tendrá significado. La distinción entre escalas continuas y discontinuas es útil aunque su diferenciación en ocasiones no tiene razón de ser. El número de glóbulos rojos por persona es un ejemplo de escala discontinua, ya que no puede haber valores fraccionados, pero la discontinuidad es tan poco aparente, que tal escala se trata como si fue continua. En realidad, nadie podría señalar si una persona tiene 4.999.999 glóbulos rojos o exactamente 5.000.000. 11.1.3. Clasificación de los Datos Se comprende fácilmente que los individuos que se estudian pueden clasificarse según una escala única o de acuerdo a dos o más escalas a la vez. Teniendo en cuenta esta noción, los datos estadísticos podrán clasificarse en los tres tipos que a continuación se describen: 11.1.3.1. Distribuciones de Frecuencias. En un grupo de personas podemos averiguar primero cuantos hombres y cuantas mujeres hay, o investigar después, como se reparten de acuerdo a su raza. En uno y otro caso se está usando una única escala cada vez.

Individuos por Sexo Hombres 45 Mujeres 55 Total 100

Individuos por Raza Blancos 80 Negros 20 Total 100

Datos como los anteriores, en donde un grupo de individuos se clasifica de acuerdo a una única escala, sean su edad, peso, raza o estatura, reciben el nombre de Distribuciones de Frecuencia. 11.1.3.2. Datos de Asociación. Sin embargo, si se deseara saber cuántos hombres son de raza blanca o cuantas de las personas negras son del sexo femenino, los datos presentados anteriormente no permitirían responder tales preguntas. Para poder responderlas, las personas deben clasificarse simultáneamente, de acuerdo a las dos escalas: Cuadro 67 Individuos por Sexo y Raza Raza

Sexo Hombres Mujeres Total

B 36 44 80

N 9 11 20

Total 45 55 100

Note que el cuadro anterior resume los dos primeros, pero a partir de aquellos no puede elaborarse este último. Para su elaboración se requiere una nueva computación de datos. Casos como el anterior, en donde los individuos se clasifican simultáneamente de acuerdo a dos escalas, como ser raza y sexo, o edad y sexo, estatura y edad, etc., constituyen los llamados Datos de Asociación. 11.1.3.3. Series Cronológicas. Finalmente algunas veces la escala que se emplea es el tiempo, para mostrar la evolución de un fenómeno en relación a él. Tales series ilustradas a continuación, reciben el nombre de Series Cronológicas. Cuadro 68 Mortalidad por Tuberculosis – Caracas, 1952 – 1955 Año 1952 1953 1954 1955

Número de Defunciones 459 325 270 252

11.1.4. Subdivisiones o clases de la escala. Aunque las subdivisiones o clases de la escala suelen escogerse arbitrariamente, tal escogencia debe reunir ciertas condiciones. 11.1.4.1. Formación de las clases. Solo deben incluirse en una misma clase datos más o menos homogéneos. Si por ejemplo, de 100 casos de una enfermedad se presentan: 10 casos en menores de 1 año 12 casos en niños de 1 año 8 casos en niños de 2 años, etc. etc.

Es posible formar un solo grupo que incluya: Menores de 3 años: 30 casos Pues el número de casos es más o menos constante en cada año de edad (alrededor de 10 = 30/3) En cambio sí en el mismo ejemplo tuviéramos: 22 casos en menores de 1 año 7 casos en niños de un 1 año, y 1 caso en niños de 2 años __ 30 casos No convendría formar una sola clase, pues es evidente que hay una gran diferencia entre una y otro. 11.1.4.2. Número de clases. Si las clases son muy numerosas habría tantos detalles, que relaciones importantes pueden pasar inadvertidas. Si hay por el contrario muy pocas clases, importantes diferencias entre los individuos estudiados se pasarán por alto. El número de clases debe ser tal, que se evite el detalle innecesario, pero que no conduzca a la pérdida de más información de la que puede ser convenientemente ignorada. Al estudiar los habitantes de una población, grupos quinquenales de edad son perfectamente adecuados, pero ellos serían inconvenientes para clasificar los alumnos de una escuela, dado que en ésta, la variabilidad es muy poca. En todo caso, es preferible utilizar más clases que las necesarias, que utilizar menos de las que se necesitan, pues si las clases resultan muy numerosas, podrán unirse varias de ella a voluntad y en cambio será imposible subdividir una clase ya constituida, a menos que se hagan todas las computaciones nuevamente. Por lo general, 8 a 15 clases suelen ser adecuadas. 11.1.4.3. Límites de la Clase. Ya se ha señalado que con el fin de evitar ambigüedades, las clases se señalan como 50 – 54, 55 – 59 y no 50 – 55, 55 – 60, etc. Sin embargo los verdaderos límites de esas clases son algo diferentes de los anotados. Si estudiamos el peso de un grupo de personas y lo mismo es cierto siempre que el dato se aproxime al dígito más cercano, cualquier individuo que pese algo más de 49.5 kilos o algo menos de 50.5 kilos será registrado como peso de 50 kilogramos. Igualmente, un individuo que se registre con 54 kilos pero en realidad entre 53.5 y 54.5. Lo anterior debe tenerse presente, para poder determinar la amplitud y punto medio de cada clase, pero antes de ocuparnos de estos aspectos hay que advertir que en el caso de la edad, la determinación de los verdaderos límites es algo distinta. Como la edad no se aproxima al cumpleaños más próximo, sino que se registra como años cumplidos, un individuo de 50 años puede tener cualquier edad entre 50 y 50,999 años, o sea, prácticamente entre 50 y 51 años. 11.1.4.4. Amplitud de la Clase. Se entiende por amplitud de la clase, la diferencia que hay entre el máximo y el mínimo valor observados en dicha clase. Para su determinación deben tenerse en cuenta los verdaderos límites de la clase, tal como se explicó anteriormente. Por lo tanto, si la clase fuera 50-54 kilos, su amplitud no sería 4, pues como sus límites verdaderos son 49.5 y 54.5 kilos la amplitud sería: 54.5 – 49.5 = 5 De la misma manera, si se tratara de una escala de edades, como los límites son 50 y 54.999 la amplitud sería nuevamente 5.

Aunque generalmente es recomendable que todas las clases tengan la misma amplitud, pues con ello se facilitan muchos cálculos y en algunos problemas tal disposición no es posible, ya que deben fijarse de acuerdo a los datos que se estudian y al método que se ha resuelto utilizar. 11.1.4.5. Punto medio de la clase. Se obtiene tomando los verdaderos límites de la clase. Note por consiguiente si la escala fuera 50-54 años, los limites verdaderos serían 50 y prácticamente 55 años y el punto medio de la ecuación.

50 + 5 = 52.5 2

En cambio de una escala de peso, los limites verdaderos serian 49.5 y 54.5 Kilos, y el punto medio de la clase 104/2 = 52 kilos. 11.2. Métodos de Computación. Hay varios métodos de computación y la escogencia de uno influencia a los demás, depende del número de individuos que hay y de la complejidad del análisis que se intenta y de los recursos económicos con los que se cuenta. A continuación se tratara sobre los siguientes 5 métodos: 1. 2. 3. 4. 5.

Método de las listas Método de los palotes Tarjetas simples Tarjetas con perforaciones marginales Tarjetas tipo Hollerith.

11.2.1. Métodos de las listas Frecuentemente los resultados de un estudio se resumen en una larga lista, en la cual se destina una línea para anotar las características correspondientes a cada individuo. En tales casos, la computación se concentrara a buscar cuales individuos presentan determinada característica y a contarlos mentalmente marcándolos con un signo convencional (v) o (x), con el fin de facilitar la verificación al final. Cuadro 71 Lista de defunciones y características a ser tabuladas Nombre del paciente A.P. B.D. H.O. T.P. P.H. C.C. S.Q. E.G. I.P. P.V.

Sexo

Edad

Estado Civil

Residencia

Nacionalidad

M F F M M M M F F M

15 25 30 56 48 30 27 25 23 39

Soltero Casada Casada Casado Casado Casado Casado Soltera Casada Casado

Urbana Rural Urbana Rural Rural Urbana Urbana Urbana Urbana Urbana

Extranjero Venezolana Venezolana Venezolana Venezolana Venezolana Venezolana Venezolana Venezolana Venezolana

Atención Causa de Medica Defunción SI SI SI SI NO SI SI SI SI SI

TBC Eclampsia Neumonía Diabetes Accidente Neumonía Accidente TBC Eclampsia Diabetes

Como se comprende, el método solo es utilizable cuando son pocas las unidades que se estudian y siempre que no se pretenda clasificarlas por más de dos escalas a la vez. En el presente ejemplo, sería muy fácil contar cuantos individuos eran hombres o mujeres, o cuantos murieron por Tuberculosis o Neumonía, pero el trabajo sería interminable si quisiéramos hacer computaciones combinadas, con el fin de averiguar por ejemplo: cuantas mujeres extranjeras, menores de 30 años y que residían en el campo, murieron por determinada enfermedad. 11.2.2. Método de los palotes Consiste en poner en una hoja de trabajo un palote (/) por cada unidad que se cuenta, destacando cada quinta unidad con el fin de facilitar la computación final. Las computaciones pueden hacerse a partir de los formularios originales en los cuales se recogió la información, o a partir de una lista como la anterior que la resuma. 11.2.4 .Tarjetas con perforaciones marginales Prácticamente estas tarjetas pueden usarse en cualquier estudio que se haga y sólo cuando el número de casos es excesivo, digamos más de 5000, sería ventajoso utilizar las tarjetas tipo Hollerith, que lo describiremos. Con ellas el trabajo es rápido, relativamente dinámico y los errores en la computación se reducen al mínimo. 11.2.4.1. Descripción. Son tarjetas de tamaño variable. Con una serie de orificios en sus bordes, a cada uno de los cuales se le asigna la representación de una de las características que se estudian. Los datos que van a inscribirse en la tarjeta, puede encontrarse en los formularios especiales o pueden recogerse directamente en ella, caso en el cual se anotarán en su parte central. A veces, cuando se hacen encuestas sencillas, en vez de escribir los datos, pueden asentarse directamente en las tarjetas perforadas, marcando con tinta los orificios correspondientes que luego deban ser desmarginados. Observe que esto se ha hecho en la tarjeta que se reproduce en el gráfico 75. 11.2.4.2. Inscripción de los datos. Para facilitar la exposición volveremos al ejemplo anterior sobre la mortalidad de un grupo de personas en los cuales se investigaron los datos que enseguida aparecen, súper simplificados con propósito docente. Datos investigados Edad Sexo Estado Civil Residencia Nacionalidad Atención Médica Causas de muerte TOTAL

Información buscada Lactantes pre-escolares escolares o adultos Masculino o femenino Soltero casado viudo o divorciado Urbana o rural Venezolana o extranjera Recibió o no-atención médica Según los 17 grupos de la clasificación internaciona

Número de datos 4 2 4 2 2 2 17 33

GRAFICO 75

Tarjeta con perforaciones marginales utilizadas con los datos ilustrados en el texto (Nota: Loa orificios correspondientes a la edad, sexo, estado civil, ya han sido “abiertos”, mientras que los que indican residencia, nacionalidad, etc. Solamente están señalados. La tarjeta indica que se trata de un adulto hombre casado con residencia rural, extranjero, etc.)

Se podrá notar que como se investigaron en total 33 diferentes datos, al asignar un orificio a cada uno, la tarjeta en su forma más simple tendrá que constar de 33 perforaciones aunque luego veremos que algunas simplificaciones son posibles. 11.2.4.3. Utilización. A cada individuo se destinará una tarjeta distinta y la inscripción de los datos se hará mediante un “saca bocado”, con lo cual se destroza el orificio correspondiente, cortando la lengüeta que lo separa del borde. Debe tenerse cuidado de abrir convenientemente los orificios, pues de lo contrario, la tarjeta puede engancharse en las vecinas y noquear en un momento dado. 11.2.4.4. Computaciones. Al introducir un punzón por cualquier orificio de un bloque de tarjetas y levantarlo ligeramente, aquellas tarjetas en los cuales se han desmarginado el tal orificio, caerán en la mesa, mientras que en el punzón quedarán aquellas con los orificios intactos. Si en el ejemplo que nos sirve de ilustración, quisiéramos clasificar a los individuos según el sexo y el estado civil, procederíamos de la siguiente manera: 1.- Se toma el bloque de tarjetas, se acomoda convenientemente y se pasa el punzón por el orificio que representa el sexo masculino. Al levantar el punzón, caerá a la mesa las tarjetas con orificios ensanchados, es decir, las del sexo masculino, mientras que las del sexo femenino quedarán sostenidas en el punzón. Las tarjetas, por consiguiente, han quedado divididas en dos bloques: en uno están los hombres y en otro las mujeres. 2.- Tomando el primer bloque ( digamos el de hombres), se pasará el punzón por los orificios que representan el estado civil: primero por el “solteros” y luego sucesivamente por los “casados”,

“viudos” y “divorciados”, con lo cual el grupo de hombres quedarán divididos según su estado civil, restando solamente contar y anotar cuántas personas hay en estas categorías. 3.- El paso anterior se repetirá con el bloque de las tarjetas de las mujeres, con lo cual se habrá terminado la computación deseada. Si hubiéramos querido hacer las computaciones de acuerdo a tres variables a la vez, para averiguar por ejemplo, cuántas defunciones ocurrieron entre mujeres casadas extranjeras o entre hombres solteros venezolanos, bastaría con dividir en dos partes cada uno de los bloques de tarjetas obtenidas anteriormente aprovechando el procedimiento acabado de discutir. 11.2.4.5 .Codificación Al utilizar las tarjetas perforadas pueden recurrirse a ciertas simplificaciones, gracias a los cuales no habrá necesidad de utilizar un orificio diferente para cada dato que se inscriba. Para ello, antes de asentar los datos en las tarjetas, se hará una transformación previa, conocida como codificación. La codificación es simplemente una “clave”, mediante la cual cada dato se designa por un número. Así por ejemplo, si se estudia las diferentes causas de mortalidad, se puede convenir la tuberculosis es la enfermedad Nº 1; el cáncer la Nº 2, etc. De igual manera, si se estudian los 23 Estados y Territorios de la nación, puede designarse al distrito federal con el número 1 al estado Anzoátegui con el 2 y así sucesivamente. Con los datos así codificados, solo se necesitarán 4 orificios para inscribir hasta 10 características. Efectivamente, bastan solamente 4 dígitos (1, 2, 4 y 7) para representar cualquier número hasta el 9, pues para señalar el 6 se tomarán los números 4 y 2: para señalar el 9, se tomarán el 7 y 2: para indicar el cero, se dejarán todos los orificios intactos. 7 4 2 1 Decenas

7 4 2 1 unidades

Si los mismos 4 básicos dígitos se repiten de nuevo haciéndolos presentar las decenas, entonces 8 orificios serán suficientes y para representar hasta 100 características (del 00 al 99). 11.2.5. Tarjetas tipo Hollerith De las tarjetas que utilizan el procedimiento inventado por Hollerith, las más conocidas son las mundialmente famosas tarjetas IBM, cuyo uso requiere complicadas maquinarias electrónicas, por ello indicaremos solamente sus características, a pesar que es el sistema de computación más perfecto que se conoce. La utilización de moderadas unidades electrónicas permite clasificar varios miles de tarjetas por minuto y de ahí que el sistema sea irremplazable en las grandes compañías y en los servicios nacionales de estadística, que manejan millones de datos. 11.2.5.1. Descripción. La tarjeta IBM es una cartulina de material especial, que consta de 80 columnas, cada una con 10 filas numeradas del 0 al 9 (véase modelo anexo). Aunque a primera vista la tarjeta solo permite escribir datos que den un máximo de 800 computaciones (80 columnas por 10 filas), la verdad es que una sola tarjeta puede recibir datos que representen millones de combinaciones. 11.2.5.2. Requerimientos para su utilización. Para utilizar estas tarjetas es impredecible codificar los datos previamente, de acuerdo a los principios ya señalados. Como cada columna tiene 10

filas, cualquier característica que no tenga más de 10 subdivisiones, podrá inscribirse en una sola columna. Con 2 columnas se podrán inscribirse hasta 100 datos; con 3 columnas hasta 1.000, etc. Esta codificación explica porque dijimos antes que en la tarjeta podrían asentarse millones de combinaciones, pues como se desprenden de lo dicho, una característica que tuviera 100.000 (¡) subdivisiones, solo necesita 5 columnas.

11.2.5.3. Inscripción de los datos. La inscripción de los datos en la tarjeta se realiza haciendo pequeñas perforaciones rectangulares en los espacios que le corresponde, según el código adoptado. Dichas perforaciones se hacen eléctricamente con una máquina especial que tiene un teclado como una máquina de calculador. La computación de las tarjetas se hace en otras máquinas especiales, que no solo las encuentran y las separan de los grupos deseados, sino que llegan hasta totalizar e imprimir los resultados. GRAFICO 79 Tarjeta I.B.M.

CAPITULO XII CUADROS ESTADÍSTICOS 12.1. Características generales. La finalidad de los cuadros estadísticos es presentar en forma resumida e inteligible determinando material numérico. Aunque la disposición del cuadro variará de acuerdo a los datos que intenten resumir, hay algunos principios comunes que deben tener en cuenta. En todo cuadro debe considerarse: 1. 2. 3.

El título. El cuadro propiamente dicho. Las notas explicativas.

12.1.1. Título. Como los resultados deben entenderse fácilmente. Sin necesidad de recurrir al texto que acompañan, el título debe reunir las condiciones. a. Ser completo: un título que sea completo, debe indicar claramente cuál es el contenido del cuadro. En otras palabras, debe responder a las preguntas: ¿QUE?

¿COMO?

¿DONDE?

¿CUANDO?

QUE: se estudia, o sea, cual es el universo que se investiga. COMO: se estudia, es decir, de acuerdo a cuales características se clasifican los individuos investigadores. DONDE: o a que se refiere los datos CUANDO: o sea la época a que se refiere el estudio. b. Lo más conciso posible: el titulo debe ser breve, lo más conciso posible, aunque no debe sacrificarse la claridad a la concisión. Observe como el primero de los dos títulos siguientes es completo, pero le falta brevedad y no añade nada nuevo al segundo de ellos. Titulo no recomendable: “Cuadro de muestra la descripción de las defunciones habidas en el hospital Vargas de Caracas, durante el año de 1960, clasificadas de acuerdo con la edad de los fallecidos”. Titulo correcto: “Defunciones por edad y sexo, Hospital Vargas. Caracas. 1960”. 12.1.2. Cuadro propiamente dicho. Sucintamente, el cuerpo del cuadro consta de un conjunto de casillas o celdas, dispuestas en columnas y filas. En la primera columna y la primera fila tiene una finalidad diferente a las restantes, porque en ellas irán las diferentes subdivisiones de la clasificación que se adopte, a los encabezamientos que se indiquen a que se refieren los datos numéricos escritos.

La primera fila, es la de los ENCABEZAMIENTOS, los cuales indican a que se refieren los datos que van inscritos en las celdas subyacentes. Ellos al igual que las últimas, deben ser breves, pero suficientemente explícitos. Así por ejemplo, en vez de poner simplemente EDAD, es preferible poner “Edad en Años “o“ Edad en Meses “ según el caso. Igualmente, en vez de poner tan solo “TASAS“ debe indicarse: “Tasa de Mortalidad por 1.000“,”Tasas de Mortalidad por 100.000“, etc. La primera columna conocida como “COLUMNA MATRIZ“ se destina a asentar las diferentes clases de la escala de clasificación utilizada. Cuando las observaciones se clasifican de acuerdo a una única escala, digamos edad, las subdivisiones de esta, deben ir en esta columna (véanse cuadros 83 y 84). Cuando dichas observaciones se clasifican simultáneamente de acuerdo a dos escalas, digamos edad y sexo, cualquiera de estas dos características podrá ir en columna o matriz, según veremos luego (véase cuadro 86). 12.1.3. Notas Explicativas Con el fin de que no haya duda sobre el contenido del cuadro, este se acompaña a veces de notas explicativas, que pueden ir en la parte superior o inferior. Convencionalmente, las notas colocadas en la parte superior afectan todo el contenido del cuadro, mientras que aquellas que se colocan en la parte inferior, sólo se refieren a las cifras de determinadas celdas o de una fila o columna en particular. Lo cual se indicará con un pequeño número o letra (1) (a). Estas notas, repetimos, sólo se utilizan en ocasiones aunque en trabajos que no son originales, siempre deben ponerse al pie del cuadro, la fuente de donde se obtuvieron los datos, no son sólo por reconocimiento de sus autores, sino para que el lector en un momento dado, pueda consultar el trabajo original, de donde dichas cifras proceden. 12.2

Diferentes clases de cuadros.

De acuerdo a su finalidad los cuadros estadísticos pueden dividirse en dos categorías: a. b.

Cuadros de propósito general. Cuadros de propósito especial.

Los primeros, los cuales sirven de base para la construcción de los segundos, son cuadros extensos, de resumen, frecuentemente destinado a presentar material básico a otros investigadores y de ahí que cuando se publican se acompañan de extensas notas explicativas y de cuidadosa mención de los procedimientos y métodos utilizados en la recolección de los datos. Los segundos, son cuadros generalmente elaborados con propósitos analíticos. Habitualmente se intercalan en la presentación de trabajos y monografías originales y están destinados a mostrar determinadas relaciones sobre las cuales el autor quiere llamar la atención y que constituyen el núcleo de las conclusiones que de la investigación se derivan. Ellos serán los únicos a que haremos referencia en los próximos párrafos. Los cuadros más sencillos, son aquellos en que los individuos se agrupan de acuerdo a una escala única de clasificación. Cuando se clasifican simultáneamente en dos, tres o más escalas, son desde luego más complejos; aunque los mismos principios generales ya vistos son aplicables. 12.2.1. Presentación tabular de las Distribuciones de Frecuencia Si los individuos se clasifican de acuerdo a una única escala; el cuadro podrá hacerse como el que aparece a continuación:

Cuadro 83 Defunciones por accidentes, por grupos de edad. Venezuela, 1961 (Se excluyen 16 defunciones cuya edad se desconoce) Años de edad 0-4 5-14 15-24 5-44 45-64 65-84 TOTAL Columna matriz

Número de defunciones 501 453 605 931 499 218 3207

Fuente: Anuario de Epidemiología y Estadística Vital. En cuadros de este tipo, se acostumbra poner una columna más con la distribución porcentual de los casos, lo cual facilita grandemente las comparaciones: Cuadro 84 Defunciones por accidentes, por causas. Venezuela, 1961 Causas Número de defunciones Porcentajes Accidentes de transporte 1377 42,7 Sumersión accidental 438 13,6 Caídas accidentales 343 10,6 Envenenamientos 101 3,1 Otros accidentes 964 30,0 TOTAL

3223

100,0

Fuente: la misma del cuadro anterior. Obsérvese que aunque los dos cuadros anteriores se refieren a los mismos datos, los dos totales no son iguales, pues como indica la nota del primero, allí se excluyeron 16 defunciones de edad desconocida. 12.2.2. Presentación tabular de las series cronológicas Cuando la escala de clasificación es el tiempo, mostrando como varía un fenómeno en relación a él (series cronológicas) la elaboración del cuadro es muy semejante al cuadro anterior. Sin embargo, como tales cuadros sólo pretenden mostrar la variación de un fenómeno de una época a otra, en ellos se emite los totales y lógicamente, al no existir estos, será imposible el cálculo de la respectiva columna de porcentajes. No obstante, si el cuadro se refiere a lo ocurrido en una población cuyo número de habitantes ha variado a través de los años, es conveniente colocar una última columna que señale el número de veces que ocurrió el fenómeno estudiado por cada 1000, 10000 o 100000 habitantes. En otras palabras: las cifras absolutas se deben acompañar de los coeficientes o tasas respectivas, con lo cual se facilitará la comparación de los datos.

Cuadro 85 Defunciones por accidentes y tasas por 100.000 habitantes. Venezuela, 1957-1961 Años 1957 1958 1959 1960 1961

Número de defunciones defunciones por 100000 habitantes 2872 43,3 3255 47,3 3390 47,6 3217 43,7 3223 42,4

Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela 1957-1961. 12.2.3 Presentación Tabular de los Datos de Asociación Si los individuos se clasifican simultáneamente de acuerdo a dos escalas, por ejemplo: edad y sexo (Datos de Asociación), una escala irá en la vertical y otra la horizontal. El que una u otra vayan en la horizontal o en la vertical no cambia el significado del cuadro. Sin embargo, es conveniente poner en la vertical, aquella escala que presente más subdivisiones, ya que el ojo humano compara más fácilmente, números dispuestos de arriba abajo, que arreglados unos al lado de otros, en filas horizontales. Observe que como hay dos escalas la tabla debe tener dos totales. Estos suelen ponerse en la última columna y en la última fila, pero si se prefiere puede colocarse en la primera columna y en la primera fila. Téngase en cuenta también, que es posible presentar en el mismo cuadro tanto las cifras absolutas como los porcentajes o tasas correspondientes. Debe evitarse sin embargo que el cuadro quede con demasiadas columnas, pues en tal caso su interpretación se hará difícil. En tales ocasiones, es preferible presentar la información en 2 o más cuadros distintos. Cuadro 86 Defunciones por sexo y grupos de edad Venezuela, 1961 (Se excluyen 12 hombres y 4 mujeres cuya edad se desconoce) Años de edad 0-4 May-14 15-24 25-44 45-64 65-84 Total

Sexo Hombres Mujeres 275 226 288 165 519 86 835 96 400 99 115 103 2432 775

Ambos sexos 501 453 605 931 499 218 3207

Si los individuos se clasifican al mismo tiempo de acuerdo a tres escalas, como edad, sexo y causa del accidente, el cuadro aparecerá de la manera ilustrada en la próxima página. Queremos advertir, que aunque por dificultades técnicas, los encabezamientos de algunos cuadros del siguiente texto, fueron colocados verticalmente, es preferible sin embargo, por razones estéticas y para facilitar la lectura, disponerlos de forma horizontal.

Como observación final, recuérdese la importancia de numerar las diferentes columnas del cuadro cuando son muy numerosas, especialmente si han de hacerse referencia a ellas en el texto (verse cuadro 87) Cuadro 87 Defunciones por accidentes, por sexo, edad y causa externa que los produjo Venezuela, 1961 (Se excluyen 16 casos, cuya edad se desconoce) Causas del accidente

c

1140 170 712 258

344 110 191 43

241 45 101 95

58 32 20 6

649 206 330 113

2132 563 1354 515

228 102 74 52

92 59 28 5

101 18 9 74

43 34 9 3

311 181 62 68

775 321 182 202

1368 272 786 310

436 169 219 48

342 63 110 169

101 63 29 9

960 387 392 181

3207 954 1536 717

Mujeres 15 años 15-44 45 y más Ambos sexos 15 años 15-44 45 y más

C a u l a s

r a n s p o r m e r s i a í d a s n e n a m i e a s

Sexo y edad Hombres 15 años 15-44 45 y más

Fuente: la misma del cuadro anterior

12.3

Errores en la presentación tabular

Entre los errores que se cometen al elaborar un cuadro estadístico, deben evitarse especialmente los siguientes: a) Disposición incorrecta de los datos. Contrástese el cuadro anterior que es correcto con el que aparece a continuación, el cual ilustra generalmente un error cometido por los principiantes. El error consiste en que no se clasifica a cada individuo de acuerdo a tres escalas. En realidad son dos cuadros diferentes colocados el uno al lado del otro. Cuadro 88 Cuadro incorrecto que intenta presentar los datos del cuadro anterior Sexo Edades (años) 15 15-44 45 y más Total

Causas del accidente

M

F

Total

T

S

C

C

Otras

Total

563

391

954

272

169

63

63

387

954

1354

182

1536

786

219

110

29

392

1536

515

202

717

310

48

169

9

181

717

2432

775

3207

1368

436

342

101

960

3207

Por ejemplo, él no indica cuantos hombres o mujeres murieron en cada grupo de edad a causa de caídas accidentales, lo cual si puede ser determinado en el cuadro anterior.

b. Títulos y encabezamientos incompletos o inadecuados. El cuadro debe comprenderse fácilmente, sin necesidad de recurrir al texto que lo acompaña, lo cual será imposible si los títulos y encabezamientos son incompletos o insuficientemente claros. c. Cuadros que muestran solamente porcentajes. Por lo general, los cuadros no deben mostrar solamente porcentajes sin indicar las cifras de donde proceden, pues un porcentaje del 50% puede indicar 1 caso en 2, 10 en 20, 100 en 200, etc. Y como es obvio mientras menor sea el número de casos, menor valor tendrá el porcentaje. d. Cuadros sobre cargados. Cuadros que intentan mostrar muchos datos a la vez, resultan confusos e inadecuados. En tales casos es recomendable realizar varios cuadros separados. Cuadros sobrecargados. Cuadros que intentan mostrar muchos datos a la vez, resultan confusos e inadecuados. En tales casos es recomendable realizar varios cuadros separados. 12.4

Manera de leer un cuadro estadístico.

La lectura de un cuadro estadístico no debe de hacerse de forma desordenada. Existen ciertas reglas resumidas por W. Allen Wallis y Harry V. Robert, en su libro “Statics: A new Approach” las cuales trataremos de ilustrar en el siguiente cuadro, en el cual se resumen algunos de los resultados de una encuesta de morbilidad, realizada en la urbanización “23 de Enero” de Caracas. Las viviendas de esta urbanización comprenden 2 tipos: por una parte “bloques de apartamentos” de hasta 15 pisos de altura, y por otra parte “ranchos” en los cuales las condiciones sanitarias son desastrosas. Aun cuando la encuesta incluyó 22168 personas de todas las edades, solo nos referimos a un grupo de adultos. Cuadro 89 Porcentajes de enfermos por grupos de edad y sexo de la población adulta de los bloques y ranchos de la urbanización 23 de enero. Caracas, 1960. (Resultado de una muestra de 10983 personas mayores de 15 años. Como enfermo se consideró a toda persona que manifestó sufrir de alguna dolencia). Niños de edad (1) 15-24 25-34 35-44 45-54 55 y + Total

Bloques Hombres Mujeres (2) (3) 11.3 15.3 13.3 22.4 19.6 27.2 24.3 40.4 35.5 51.1 15.3 24.1

Total (4) 13.6 17.9 23.4 33.9 46.7 20.1

Hombres (5) 15.8 15.9 18.8 18.5 37.7 18.1

Ranchos Mujeres (6) 48.8 26.3 30.9 42.3 43.6 27.4

Total (7) 17.5 20.6 24.9 29.9 41.2 22.8

Hombres (8) 42.0 13.7 19.5 22.9 36.1 15.8

Total Mujeres (9) 15.8 22.9 27.8 40.8 49.9 24.6

Total (10) 44.4 18.3 23.6 33.1 ¿? ¿?

Fuente: basada en J. D. Maldonado y M. Pizzi “una encuesta de mortalidad en el sector oeste de la urbanización 23 de Enero. “Revista venezolana de sanidad y asistencia social. Vol. XXVI N. 1 marzo de 1960.

Los pasos a seguir son los siguientes: 1.- Leer cuidadosamente el título La lectura del título es necesaria con el fin de entender perfectamente a que se refiere el cuadro. En el caso presente, el título indica claramente que el cuadro se refiere a los adultos enfermos encontrados en la ciudadela 23 de Enero de caracas, distribuidos de acuerdo a su edad, sexo y

tipo de vivienda. Nos indicará también que los datos se expresan en forma de porcentajes. Tales hallazgos suelen presentarse en formas de las tasas que indican el número de enfermos cada 1000 o 100000 habitantes, pero aquí hemos preferido los porcentajes puesto que este es un término de más fácil comprensión para cualquier lector no familiarizado con los términos estadísticos. 2.- Leer las notas explicativas Las notas explicativas que acompañan al cuadro, permiten a que esté consultando su mejor comprensión. En nuestro ejemplo, vemos en primer lugar que no se estudian todos los habitantes de la urbanización sino solamente una muestra de 11000. Esto es importante pues ya sabemos que los resultados obtenidos están sometidos al error por muestreo. Aunque solo en próximos capítulos se aprenderá a medir este error, ya sabemos, no obstante, que su magnitud es pequeña cuando la muestra es suficientemente grande y de ahí la importancia que se nos haya aclarado que fueron 10983 las personas estudiadas. En segundo lugar la nota indica que el estudio se trata de persona mayores a 15 años, con lo cual se nos disipa cualquier duda que pudiéramos tener sobre a quienes se los consideró como adultos. Finalmente se especifica que como “enfermo” debe entenderse a cualquier persona que manifestase tener alguna dolencia. De nuevo, esta es una aclaración importantísima, por que el hecho de catalogar a un individuo como sano o enfermo, depende en gran parte de la persona que decide. Este será un punto que se discutirá posteriormente, pero debe señalarse desde ahora que cuando es el mismo paciente quien decide si se encuentra o no enfermo, se introduce una apreciable fuente de error, ya que frecuentemente tal decisión se presta para notables arbitrariedades. 3.- Averiguar las unidades de medida utilizadas. El encabezamiento de la primera columna explica que se trata de años de edad y no de meses y días. Quizás en el caso frecuente tal aclaración está demás, pero en otras ocasiones es necesario tener muy en cuenta este detalle. El título nos indica que no se están utilizando porcentajes, es decir que para cada grupo la cifra indica el número de personas enfermas por cada 100 entrevistados. Note por consiguiente, que las columnas y filas de totales no son la suma de porcentajes parciales, ni el promedio aritmético corrientemente utilizado. Son en realidad promedios, pero promedios ponderados que después se aprenderán a calcular. 4.- Fijarse en el promedio o porcentaje general del grupo. El cuadro muestra que el 20,5 % de las personas entrevistadas, es decir 1 de cada 5 personas, manifestó sentir alguna dolencia. Esta cifra es desde luego extremadamente elevada, pero como señalan los autores del trabajo, no deben de olvidarse que de este tipo de encuestas algunos tipos tienden a magnificar sus dolencias con el objeto de recibir atención médica. 5.- Relacionar el promedio general del grupo con cada una de las variables que se estudian. Las variables presentadas en el cuadro anterior son: edad, tipo de residencia y sexo, y ellas deben de analizarse separadamente. a. Edad: si nos fijamos en la última columna del cuadro, vemos que la morbilidad asciende constantemente, al ascender la edad de las personas estudiadas. En realidad el porcentaje de enfermos mayores de 55 años es tres veces mayor al del grupo de 15-24 años (45,7 versus 14,1%)

b. Sexo: Fijándonos en las últimas cifras de la penúltima y antepenúltima columnas-las de los hombres y mujeres en la población total-. Vemos que la morbilidad es mucho mayor en las hembras que en los varones (24,6% y 15,8% respectivamente).

Este hallazgo deberá de ser analizado posteriormente con mayor profundidad, pues como ya sabemos la morbilidad es mayor en las personas ancianas que en las jóvenes, si el grupo de mujeres tuviera más ancianas que el de los hombres, esto explicará por qué la morbilidad es mayor en ellas. Tipo de residencia: Con el fin de comparar la morbilidad en los bloques con la de los ranchos, se examinará las cifras al final de las columnas (4) y (7). Su examen revela que mientras que en los bloques el 20,1% de la población estaba enferma, en los ranchos las cifras ascendieron al 22.8% una diferencia del 2,7%. Aparentemente tal diferencia es mucho menor de la que era dado esperar, pues ya habíamos mencionado que las viviendas de los ranchos presentan condiciones higiénicas deplorables. Sin embargo, lo mismo que para el caso del sexo, tal diferencia amerita un examen más detallado pues como ya hemos encontrado una relación entre la morbilidad y la edad, tal diferencia podría explicarnos por qué la diferencia entre los bloques y los ranchos no son mayores, pues si en los bloques hubiera habido más ancianos que en los ranchos, su morbilidad se presentaría mucho más alta por este simple hecho. Hay desde luego procedimientos estadísticos que permiten mejorar tal comparación (ver tasas ajustadas), pero por el momento seguiremos nuestro análisis prescindiendo de ellos. Antes de proseguir el análisis podemos resumir nuestros hallazgos hasta el presente, diciendo que la morbilidad es mayor en los viejos que en los jóvenes, en las hembras que en los varones, que en los ranchos que en los bloques. 6. Relacionar entre sí los promedios o porcentajes de las variables que se estudian. Esto es necesario pues como hemos mencionado, puede haber alguna interacción entre ellas, que causen las diferencias observadas. a. Edad: Comparando las columnas de totales para la población de los Bloques y la de los Ranchos (columnas 4 y 7) se observa que el aumento de la morbilidad con la edad aparece en ambos lugares. Sin embargo, puede notarse, que hasta los 45 años, los porcentajes son mayores en los Ranchos, pero después de esta edad, se hacen superiores en los Bloques. Si examinamos ahora la influencia de la edad con respecto a los sexos, para lo cual veremos las cifras de la penúltima y antepenúltima columnas, se constata que el aumento de la morbilidad con la edad es constante. Pero también observaremos que dicho aumento es algo menor para los varones que para las hembras, pues mientras en los primeros la diferencia entre el grupo de 15 24 años y el de mayores de 55 años es de 24,1% (36,1%-12,0%) para las segundas es de 34,1% (49,9%-15,8%) Si se quiere examinar lo anterior con más detenimiento, pueden compararse separadamente, primero los hombres de los dos tipos de viviendas y luego las mujeres. Al hacer esta comparación, puede apreciarse que tanto para los bloques como para los ranchos, la edad parece jugar mayor papel en las hembras que en los varones y que para cada edad los porcentajes de aquellas, son sistemáticamente superiores a los de éstos. En conclusión, los cambios en la morbilidad relacionados con la edad, son más importantes en las hembras que en los varones. Para cada grupo particular de edad la morbilidad es superior en las mujeres que en los hombres, ya vivan en los bloques o en los ranchos.

b. Sexo: Comparando los totales para los dos sexos, separadamente para los bloques y para los ranchos (columna 2 versus 3 y 5 versus 6), concluimos que la influencia del sexo es prácticamente igual en ambos tipos de residencia (8,8 y 9,3 respectivamente), con una morbilidad mayor en las mujeres, conclusión que viene a confirmar nuestros hallazgos anteriores. c. Tipo de residencia: Si comparamos el total para los hombres de los Bloques con el de los Ranchos y luego hacemos lo mismo con las mujeres (columnas 2 versus 5 y 3 versus 6), concluimos como anteriormente, que la influencia del sexo es prácticamente semejante en los bloques y ranchos (2,8% para los hombres y 3,3% para las mujeres). 7. Buscar irregularidades en los datos. En el cuadro presente hay dos irregularidades que ameritan una investigación mas profunda. Los varones de 45-54 años de los ranchos presentan una morbilidad algo menor que los del grupo 3544 años y las mujeres del grupo 55 y más años de los ranchos, prácticamente tienen la misma morbilidad que las del grupo 45-54 años. Tales no parecen consistentes con los restantes del cuadro, aunque al consultar los datos originales de la encuesta nos damos cuenta que dichos porcentajes se basan en 92 y 78 personas respectivamente y por lo tanto podemos considerarlo como fluctuaciones debidas al tamaño relativamente pequeño de la muestra entrevistada 8. Conclusiones Finales. En conclusión, la lectura del cuadro anterior nos revela: a. La morbilidad es mayor mientras mayor es la edad de las personas. b. La morbilidad es mayor en los ranchos que en los bloques y en las mujeres que en los varones. c.

La influencia del sexo es semejante en los bloques y ranchos y por lo tanto, las diferencias observadas en los dos tipos de vivienda, no pueden ser atribuidas a distinta composición de los pobladores con respecto a los sexos.

d. La relación entre la edad y la morbilidad es más acentuada en las hembras que en los varones y por lo tanto la mayor morbilidad de aquellas pudiera ser debida a una composición estaría diferente. Sin embargo, este factor puede ser descartado, pues como vimos en el punto 6 las diferencias entre hombres y mujeres se mantienen para cada edad en particular. e. La relación entre la edad y la morbilidad es más acentuada en ranchos hasta los 45 años, pero sucede a la inversa a partir de esta época. Aparentemente la mayor morbilidad de los ranchos puede deberse en parte a una composición estaría diferente, y para despejar esta duda abría necesidad de recurrir a las llamadas tasas ajustadas (ver Estadísticas de Mortalidad) f.

Irregularidades de los datos en la población masculina de los ranchos, en el grupo de 45-54 años y en las mujeres mayores de 55 años pueden atribuirse a fluctuaciones causadas por el escaso número de personas examinadas en tale s grupos.

CAPITULO XII GRAFICOS 13.1 Características Generales. Los gráficos dan una idea mucho más sintética que los cuadros estadísticos. Unas veces su finalidad es simplemente tratar de mostrar a otras personas la evolución de determinado fenómeno, pues mientras que la interpretación de un cuadro estadístico requiere ciertos conocimientos, cualquiera puede comprender fácilmente que una línea ascendente traduce un aumento del fenómeno estudiado y que una línea descendente significa una disminución. Otras veces la finalidad del gráfico es ayudar al análisis de la información, poniendo de presente o aclarando ciertas relaciones poco aparentes en el material tabulado. Al igual que en los cuadros estadísticos, en los gráficos se considera: a. El título b. El gráfico propiamente dicho. c. Las notas explicativas. Sobre el título y las notas explicativas no es necesario insistir, pues todo lo que se dijo a propósito de los Cuadros, es valedero para los gráficos. 13.1.1 Escalas del gráfico y errores en su empleo. Dejando a un lado contadas excepciones que se señalarán a su debido tiempo, la mayoría de los gráficos presenta forma rectangular y se inscriben en las llamadas “coordenadas rectangulares”, que son aquellas formadas por la intercepción de dos líneas en ángulo recto. De estas dos líneas la horizontal o “abscisa” se destinará para las diferentes clases de la escala que se utiliza y la vertical u “ordenada”, para anotar la frecuencia o número de veces que se observa el fenómeno estudiado. A propósito de estas escalas es necesario recordar los siguientes principios: a. Las dos escalas deben ser de la misma longitud o algo mayor la horizontal que la vertical. En general, salvo ocasiones se señalarán oportunamente, las dos escalas deben guardar una proporción entre 1 a 1 y 1 a 2, es decir, que si la ordenada mide 10 cm. la abscisa debe medir entre 10 y 20. Esta exigencia se hace con el fin de no distorsionar el fenómeno que se estudia. b. Nótese en los tres primeros diagramas del gráfico 97 - los cuales representan el mismo fenómeno - , que cuando se exagera la escala vertical (diagrama A), se tiene la impresión de un descenso irreal y cuando se exagera la escala horizontal (diagrama B) parece que el fenómeno estudiado no ha variado. Una impresión correcta se obtiene en cambio, cuando se observa el diagrama C, en el cual hay un buen equilibrio en la longitud de las dos escalas. c.

De igual manera, para evitar la incorrecta apreciación de los hechos, las escalas deben comenzar en 0 (cero), pero sin embargo cuando los valores que se representan son muy elevados y con pequeñas fluctuaciones debe “partirse” el gráfico (diagrama E), para evitar diagramas como el D, poco vistoso y sin mayor utilidad, pues es difícil formarse juicio sobre las variaciones que se quieren representar. Ya veremos que en algunos diagramas tal partición de la escala no es aconsejable.

d. Cada escala debe ser rotulada de tal manera que se comprenda fácilmente que representa: edad en años o en meses, kilos o libras de peso, etc.

e. Como el gráfico de ninguna manera da una idea matemáticamente exacta de las fluctuaciones estudiadas – para ello están los cuadros con los datos originales-, las escalas no deben tener demasiadas subdivisiones. Aquellas que se utilicen deben ser por lo general, números redondos.

Gráfico 97 Ilustración de los errores más comunes en la elaboración de los gráficos

Principales gráficos Los principales gráficos se pueden apreciar en el siguiente esquema:

* DIAGRAMA DE BARRAS: - SIMPLES - DOBLES - COMPUESTAS

GRAFICOS A UTILIZAR

CUALITATIVAS

* DIAGRAMA DE SECTORES * PICTOGRAMAS

TIPO DE VARIABLES

DISCONTINUAS O DISCRETAS

CUANTITAITVAS * HISTOGRAMA * POLIGONO DE FRECUENCIAS

CONTINUAS

GRAFICOS A UTILIZAR

* DIAGRAMA DE FRECUENCIAS ACUMULADAS (OJIVA) * DIAGRAMAS DE PUNTOS (XY o DE DISPERSION) * DIAGRAMA SEMILOGARITMICO * DIAGRAMA DE CAJAS.

De acuerdo a lo señalado, pueden por consiguiente distribuirse dos clases de gráficos: aquellos destinados a mostrar las variaciones de determinado fenómeno y aquellos utilizados con fines analíticos, los primeros aunque muy demostrativos no son siempre los de mayor utilidad para el investigador. Dada la extraordinaria diversidad de gráficos existentes (2) solo nos referiremos a los más generalmente utilizados. Estudiaremos sucesivamente: 1. 2. 3. 4. 5. 6. 7. 8.

Diagrama de barras y sus diferentes modalidades Diagrama de sectores Histograma Polígono de frecuencias Diagrama de frecuencias acumuladas Diagrama semilogarítmico Diagrama de puntos Diagrama de cajas y bigotes.

13.2.1 Diagrama de barras y sus diferentes modalidades Es aquel en el cual el fenómeno que se estudia queda representado por una serie de rectángulos o barras, las cuales pueden dibujarse horizontal o verticalmente. Las barras deben ser de la misma anchura y el espacio que los separa no debe ser mayor que el espesor de ellas mismas. Dos detalles deben tenerse en cuenta cuando se utiliza este diagrama: Si los datos representados no están en alguna secuencia que debe conservarse, deben ordenarse de tal manera que las barras queden de mayor a menor, con lo cual se mejora la estética del gráfico y se captan mejor las variaciones que se estudian.

Si se quieren representar por ejemplo, las variaciones mensuales de un fenómeno durante determinado año, los meses deben colocarse ordenadamente de enero a diciembre cualesquiera que sean las cifras correspondientes, pues sería ilógico que por razones estéticas se empezara por marzo, seguido de noviembre, julio, etc. En cambio en el gráfico 101 las barras han sido correctamente ordenadas de mayor a menor, pues es indiferente que un tipo de vacunación se mencione de primero o de último. (Note que en el diagrama de barras los rectángulos están separados y en el Histograma van unidos)

(Note la escala vertical en el diagrama lineal, dos números consecutivos siempre están a igual distancia, pero no así en el semilogarítmico) La escala de la frecuencia debe comenzar siempre en O: Debe interrumpirse, pues de lo contrario la visualización del fenómeno será errada. Observe dicho error en el gráfico adjunto en el cual se representa dos enfermedades de la cual se conocieron 450 casos respectivamente. Gráfico 100 Correcta e incorrecta manera de numerar la escala de un diagrama de barras.

13.2.1.1. Diafragma de barras sencillas: Se utiliza para las distribuciones de frecuencias en escala cualitativa y cuantitativa discontinua. Puede utilizarse también para series cronológicas, cuando son pocos los valores que se quieren representar; especialmente cuando corresponde a observaciones periódicas, como ser la población de Venezuela en los censos de 1936, 1941,1950 y 1961. Para elaborar el diagrama se necesita tan solo dibujar las barras de tal manera, que en altura este en proporción con las cantidades que representan en el gráfico 101

Vacunaciones practicadas en la primera zona epidemiológica del Estado Lara en 1961

Tipo de vacunación Personas Antivariólica 16202 Doble 5239 Triple 15584 Antipolio 22591 Antifica 873 BCG 7752 Total 68241 Gráfico 101 Personas inoculadas BCG Antifica Antipolio Triple Doble Antivariólica 0

5000

10000

15000

20000

25000

13.2.1.2. Diagrama de barras dobles. Esta diagrama, (gráfico cuya idea puede hacerse extensiva para barras triples y cuádruples que se emplea para representar datos de asociación cuyas dos barras sean cualitativas (defunciones por sexo y causa, etc.). También se emplea cuando se quiere comparar dos distribuciones de referencias con relación al tiempo.

Gráfico 101 a. Distribución por tipo de instrucción y sexo.

13.2.1.3. Diagrama de barras compuestas. Las aplicaciones de este diagrama, el cual se esquematiza a continuación (gráfico 102) son muy semejantes a las del gráfico anterior, sobre el cual no tiene ninguna ventaja. Note sin embargo, que aunque los gráficos 101 no representan los mismos datos del cuadro 101 a, la comparación que tienen es algo diferente. En el gráfico 103 se intenta señalar para la causa de accidente la contribución de cada uno de los sexos. En el gráfico 102 se desea enfatizar la proporción en que intervienen las diferentes causas en la mortalidad de cada sexo. Gráfico 102 Defunciones por accidentes, por causa y sexo.- Venezuela, 1961

Cuadro 103 Defunciones por accidente por causa y sexos.- Venezuela 1961

Gráfico 103

13.2.2. Diagrama de sectores. Este diagrama, el cual es uno de los más frecuentes empleados se utiliza con fines comparativos, cuando se quiere mostrar los diversos componentes de una serie y con tal propósito a menudo se emplea el lugar de diagrama de barras sencillas, a pesar de que no tiene ninguna ventaja sobre el. En el pueden representarse cifras absolutas o porcentajes. Como círculo tiene 360º, la manera más fácil de elaborarlo es expresar los datos que se estudian en forma de porcentajes, pues en tal caso, el 1% corresponde al 3,6º del círculo. 13.2.2.1. Elaboración. En el cuadro 104 se presenta las muertes por diversos tipos de leucemias y aleucemias ocurridas en Venezuela. Como para representar cada 1% se necesitan 3,6º del círculo, los porcentajes se multiplicaran por 3,6 con el fin de averiguar cuántos corresponde a cada uno de los sectores, por ejemplo, el sector que representa la leucemia tendrá (15,2% x 3,6% = 55º) y el que representa la leucemia linfática tendrá 49º (13,6% x 3,6%= 49º) Cuadro 104

Defunciones por diversos tipos de Leucemia y Aleucemias. Venezuela 1961

Gráfico Nº 104 Defunciones por Leucemia y Aleucemia por formas clínicas

Venezuela 1961

Hechos los cálculos anteriores se inscribirán con un transporte sobre los correspondientes sectores sombreándolos diferentemente para distinguirlos entre sí. Para indicar que representa cada sector, puede usarse cualquiera de los procedimientos ilustrados en el gráfico 105. 13.2.3. Histograma. En el histograma el fenómeno que se estudia queda representado por una serie de rectángulos semejantes a los diagramas de barras. Sin embargo, las barras del histograma siempre se colocan verticalmente y deben ir unas al lado de las otras, sin que haya ningún espacio que las separe. Este gráfico se utiliza para representar distribuciones de frecuencia en escala cuantitativa continua, como ser la distribución de un grupo de individuos de acuerdo a su edad, peso, estatura, etc. 13.2.3.1. Elaboración. Para elaborar el histograma véase gráfico 109. Deben seguirse los pasos que a continuación se detallan, los cuales se encuentran esquematizados en el cuadro 107. 1. Antes de trazar el sistema de coordenadas, los datos originales deben ser transformados en tal forma, que para cada clase se obtengan el número de casos promedio por unidad de la escala para ello se buscara primero la amplitud de cada clase y se dividirá la frecuencia correspondiente por dicha amplitud. Observen el ejemplo que la primera clase tiene amplitud de 5 y como esa clase había 501 defunciones, al dividir 501 por 5, nos dará en promedio hubo 100 defunciones por cada año (omitiendo la fracción decimal). Igualmente para el grupo (5-14 años), la amplitud de la clase en 10 y dividiendo por 10 las 453 defunciones observadas, se obtendrán que en promedio se presentaron 45 por cada año de la vida.

Cuadro 107 Defunciones por accidentes, por grupos de edad.- Venezuela, 1961 (Datos que ilustran los pasos necesarios para la elaboración del histograma ilustrado en el gráfico 109)

Para entender la razón por la cual deben obtenerse estos promedios piénsese en una enfermedad que afectará por igual a todas las personas, sin distingos de edades y que en determinada colectividad hubiera producido 10 enfermos en cada uno de los años de la vida. Si los pacientes se agruparan por edades, lógicamente aquellos grupos que comprendan más años de edad mostraran más pacientes, dando la impresión de que la enfermedad tiene preferencia por esas edades, cuando en realidad se ha visto que tal preferencia no existe. Por lo demás, sino se obtuvieran los promedio, bastaría cambiar los grupos de edad para hacer variar la aparente preferencia de la edad. Observe la mencionada falacia, cuando los mismos 300 casos presentan, utilizando agrupaciones diferentes. Cuadro 108

2. Trazar el sistema de coordenadas 3. Enumerar las escalas. La ordenada debe comenzar en cero (O), pero como las frecuencias que se utilizaran para la elaboración del histograma, son los promedios acabados de obtener, el límite máximo de dicha ordenada estará dado por el máximo promedio obtenido. Observe en

nuestro ejemplo, que aunque se observaron 931 muertes en el grupo 25-44 años, la ordenada solo se numera hasta 100 ó 120, ya que el máximo promedio obtenido fue 100. Con respecto a la abscisa, no ha de olvidarse que l comienzo de una clase corresponde exactamente a la terminación de la clase que le precede. Note en el ejemplo que sirve de ilustración que el final de la primera clase 5, que es a su vez el comienzo de la segunda. Igualmente la segunda clase termina en 15 que es el comienzo de la tercera. Por lo tanto al numerar la escala, deben colocarse solamente las cifras que indican el principio de cada clase. Además debe evitarse un error común de los principiantes, que consiste en destinar igual longitud de la escala a clases que tienen igual actitud. En el ejemplo adjunto la primera clase comprende 5 años, la segunda y la tercera 10 y las restantes 20 años y por lo tanto si para la primera clase se dejan 5 milímetros para la segunda y la tercera se dejaran 10 y para las restantes 20. 4. La inscripción de los rectángulos debe hacerse teniendo en cuenta que la altura de cada uno es dada por la frecuencia que aparece en los datos originales, sino por los promedios obtenidos en el paso número uno. En nuestro ejemplo el histograma hecho con los datos originales no es correcto, como puede verse en el gráfico 109. Gráfico 109 Defunciones por accidentes, por grupos de edad.- Venezuela 1961

5. Un último detalle que se debe tener en cuenta es el siguiente: como la frecuencia en cada clase se ha dividido por la amplitud de clase para obtener el numero promedio de muertes por año de edad, en la escala vertical no debe ponerse simplemente “Defunciones”, sino que es necesario especificar las defunciones por año tal como hemos hecho en el grafico correspondiente 13.2.3.2 Caso especial de histograma. Según se recordara la relación entre varios números no se altera si se dividen por la misma cifra. Así por ejemplo, si en la progresión: 40 :20: 10:, cuya razón 2, se divide cada termino por 10, se obtiene la nueva progresión 4: 2:1, en el cual la razón sigue siendo 2, ósea, en ambas progresiones cada número es la mitad del que le precede.

40 . ___ .___ . ___ . ___. 20 . ___ . ___ . 10 .___ .

. ___ . ___ . ___ . ___ . 4 . ___ . ___ . 2 . ___ . 1

Este recordatorio permite comprender que cuando las clases de una serie tiene la misma amplitud (digamos 10), los rectángulos del histograma que representa dichas cifras guardara la misma proporcionalidad, sea que se escriban los datos originales, o los promedios que resulten de dividir la frecuencia de cada clase por su amplitud. Por consiguiente en aquellas ocasiones en que todas las clases de una serie tiene la misma amplitud, el histograma puede hacerse inscribiendo directamente las frecuencias dadas sin necesidad de obtener los promedios de casos por unidad de las escala pues exceptuando la graduación de la ordenada, los gráficos serán iguales obténgase o no los promedios mencionados En el ejemplo siguiente nótese que los histogramas elaborados con los datos originales de la segunda columna del cuadro 108 y con los promedios de las clases son exactamente iguales, pero que la numeración de la ordenada es diferente, pues en el último caso la escala es de 1/10 de la primera, pues como en cada grupo decenal se obtienen el promedio por año de edad, se han representado “defunciones por año de edad “

Grafico 110 Defunciones por accidentes, por grupos de edad. Venezuela. 1961.

nº de muertes 800

600

400

200

0 0

10 20 30 40

50 60 70 80 90

años de edad

Fuente: Datos de cuadro 108.

Todos los detalles mencionados a propósito del histograma son aplicables a la construcción del polígono de frecuencias y por lo tanto lo mismo que en aquel, es necesario obtener el número promedio de observaciones por año de edad cuando las clases son desiguales en amplitud. La diferencia entre estos dos diagramas estriba en que el polígono de frecuencia no se usa rectángulos, sino una serie de puntos que se colocan a la altura que ocuparían los rectángulos del histograma y en la parte media de cada clase. Luego para dar la idea de continuidad dichos puntos se reúnen para un trazo continuo.

Por regla general el histograma debe preferirse al polígono de frecuencias. Este debe destinarse a aquellos casos a los que se debe destinar más de una serie en el mismo gráfico, con fines comparativos. Si por ejemplo se quisiese comparar la distribución etaria de las defunciones por accidentes para los dos sexos no se lograrían ninguna claridad con la superposición de dos histogramas uno para cada sexo. La representación se hará correctamente en un polígono de frecuencias, inscribiendo sucesivamente los datos para hombres y mujeres. Gráfico 112 Comparación entre el histograma y el polígono de frecuencias

Fuente: Datos de cuadro 107.

Y, utilizando un trazado diferente para cada serie de datos cuyo significado se aclarara al lado De el gráfico (gráfico 103) (datos que ilustran la elaboración de un polígono de frecuencias)

Edades

Amplitud clase

Sexo Hombres

Mujeres

0-4 5 > 14 15-24 25-44 45-64 65-84

275 288 519 835 400 115

226 165 86 96 99 103

Total

2432

775

5 10 10 20 20 20

de Defunciones por año de edad Hombres Mujeres 55 29 52 42 20 6

Fuente: Anuario de epidemiología y estadística vital. Venezuela.

45 17 9 5 5 5

Gráfico 113 900 800 700 600 500

Hombres

400

Mujeres

300 200 100 0 0-4

5 > 14

15-24

25-44

45-64

65-84

13.2.4.1 Detalle adicional. Un gráfico todo semejante al polígono de frecuencias para la representación de las vías cronológicas sin embargo debe tenerse en cuenta un detalle adicional para su correcta elaboración

Gráfico 114

1950

1951 AÑOS

1952

1950

1951

1952

AÑOS

Si ven los esquemas adjuntos se observará que las subdivisiones del tiempo (años, meses, días, etc.) pueden colocarse entre dos ordenadas opuestas inmediatamente debajo de ellas En el primer caso el año comienza en una ordenada y termina en la siguiente, es decir, que para su representación se dispone de todo el espacio comprendido entre dos ordenadas. En tales ocasiones, la inscripción del punto que representa determinada frecuencia, se hará generalmente en la mitad de dicho espacio, salvo el caso de que se quiera descartar que la cifra corresponda al total para un periodo especifico. Si por el contrario, los años se han puesto debajo de las ordenadas los puntos correspondientes se inscribirán sobre ellas. 13.2.5 Diagrama de frecuencias acumuladas. Este diagrama se utiliza para representar distribuciones de frecuencia en escala cuantitativa con fines analíticos o para resumir ciertas series cronológicas cuando se tiene interés, no tanto en las fluctuaciones de un lapso a otro, sino en el efecto acumulado a través del tiempo. Antes de indicar la elaboración del diagrama obsérvese los datos presentados en el siguiente cuadro. Las dos primeras columnas del cuadro muestran las muertes accidentales en el país en

1961 por grupos decenales de edad. Sumando sucesivamente las defunciones ocurridas, en los diversos decenios se obtienen las cifras de la columna (3) que indican el número de defunciones ocurridas a determinada edad. Así por ejemplo, hubo 748 en el grupo “0-9 años” y por lo tanto, todas ellas fueron en menores de 10 años. Como luego aparecen 457 en el grupo de “10 a 19años” al sumar esta cifra a la anterior 748 + 457 = 1205), se tiene 1205 defunciones ocurrieron en personas menores de 20 años. Igualmente hubo 1847 en menores de 30 años, ósea, las 748 menores de 10 años + las 457 del grupo de 10- 19, y las 642 que el grupo de 20 a 29. Si se desea puede dividirse estas frecuencias acumuladas por la frecuencia general del grupo, y multiplicar * 100 para obtener los porcentajes acumulados que aparecen en la columna.

Cuadro 115 Defunciones por accidentes. Frecuencias acumuladas por grupos de edad. Venezuela, 1961. Edad en años

Número de defunciones

1 0- 9 10 > 19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 Total

2 748 457 642 466 340 244 156 76 81 3207

Frecuencias acumuladas Número Porcentajes 3 748 1203 1817 2313 2653 2891 3050 3126 3207

4 23.3 37.6 57.6 72.1 82.7 90.2 95.1 97.5 100

Fuente: Anuario de epidemiología y estadística vital, Venezuela.

Grafico 116 Defunciones por accidentes, frecuencias acumuladas por grupos de edad, Venezuela, 1961. 3500 3000 2500 2000 1500 1000 500 0 1

0- 9 10 > 19 20-29 30-39 40-49 50-59 60-69 70-79 80-89

Fuente: Datos del cuadro 115.

13.2.5.1 Elaboración. La elaboración del diagrama de frecuencias acumuladas se resume en los siguientes pasos: 1. Obtener las frecuencias acumuladas tal como se acaba de indicar. 2. Trazar el sistema de coordenadas y numerar las escalas. En la abscisa, se ponen intervalos de clase, en la misma forma indicada en el histograma. 3. La ordenada debe comenzar en cero y llegar hasta la cifra que corresponda al total del grupo. 4. Generalmente es preferible utilizar una doble escala como se ha hecho en el grafico 116 en el cual la escala vertical derecha muestra los porcentajes acumuladas (0% - 100%) y la izquierda el número de defunciones acumulada. 5. Inscribir las frecuencias acumuladas. Cada frecuencia queda representada por un punto, el cual debe colocarse al final del espacio destinado a la respectiva clase, para indicar el número de casos que hubo por debajo de dicho valor. Así por ejemplo, como aparecen 748 defunciones en el grupo “0-9 años” el punto debe ir encima del valor de la abscisa correspondiente a 10 años, significando que 748 defunciones ocurrieron en menores de 10 años. Igualmente, como hubo 1205 en menores de 20 años, el punto estará colocando encima del valor “ 20 años” de la abscisa 6. Unir los puntos inscritos, con una línea continua, para facilitar la lectura del gráfico. 7. El grafico de frecuencias acumuladas permite responder fácilmente preguntas como las siguientes: a. ¿Cuántas defunciones hubo en menores de determinada edad? b. Por ejemplo, para averiguar las muertes ocurridas en menores de 35 años, se levanta una vertical a esta edad hasta la curva del diagrama y se proyecta en la escala vertical izquierda, lo cual nos indica que por debajo de esa ocurrieron aproximadamente 2100 defunciones. c.

De las defunciones totales. ¿que porcentaje ocurrió por debajo de determinada edad?

d. Para el ejemplo anterior, se levanta una vertical hasta la curva y se proyecta en la escala de los porcentajes obteniéndose que aproximadamente el 65% de las defunciones fueron en menores de 35 años. e. ¿Por debajo de que edad ocurrió determinado porcentaje de las defunciones? f.

Por ejemplo, si se desea saber antes de que edad ocurrió el 50% de las muertes, se traza una horizontal desde esta cifra hasta la curva del diagrama y bajando luego una vertical hasta la abscisa, vemos que el 50% ocurre antes de los 26 años (Q) . En la misma forma podemos ver que el 25% de las defunciones ocurre antes de los 11 años (Q1) y el 75% antes de los 43 años (Q3). Desde luego, son valores aproximados y más adelante se estudiarán métodos matemáticos más exactos.

13.2.6. Diagrama Semilogarítmico. Es aquel cuya escala vertical tiene una escala logarítmica, mientras que la horizontal presenta una graduación aritmética como la utilizada en todos los gráficos vistos anteriormente. Con fines recordatorios, puede decirse que un logaritmo no es otra cosa que el número que indica cuantos ceros siguen a la unidad. Así por ejemplo, 100 tiene dos ceros y por siguiente su

logaritmo es 2, el número 1000 tiene tres ceros y su logaritmo es 3. Siendo 2 el logaritmo de 100 y 3 el logaritmo de 1000, cualquier número comprendido entre los anteriores, digamos 300, tendrá un logaritmo entre 2 y 3, es decir, que su logaritmo será 2 más alguna fracción. De lo anterior se deriva que los logaritmos 2, 3, 4, etc., representan números que están en progresión geométrica: 100, 1000, 10000, etc. Por consiguiente cuando se utiliza la escala logarítmica, aquellos números que representan una misma proporción, como ser: 1 y 2 o 3 y 6 ò 100 y 200 etc., quedaran en el gráfico separadas por una misma distancia, lo cual no sucede en la escala aritmética corriente. Esto puede apreciarse en el esquema de la próxima página. La escala consta de uno o varios ciclos exactamente iguales, de tal manera que si el primero representa los números del 1 al 10, el segundo representara los números del 10 al 100 y así sucesivamente. Note por consiguiente que la escala logarítmica, nunca empieza en cero. Su comienzo puede ser 0,1; 1 ò 10 ò 100 de acuerdo a los datos que se representan. En el comercio se consigue ya timbrado, papel de 1, 2 o más ciclos pero en ocasiones se desea hacer el gráfico más grande o más pequeño de lo que el papel timbrado lo permite. Para ello, utilizando el papel comercial, puede agrandarse o empequeñecerse la escala mediante procedimiento esquematizado en el gráfico 120. 13.2.6.1. Utilización del diagrama semilogarítmico. El papel semilogarítmico tiene, entre otros, los siguientes usos: a. Si se quieren representar en el mismo gráfico dos series cuyas cantidades son muy diferentes unas de otras, como ser las variaciones en él número de glóbulos rojos y de glóbulos blancos, o los casos y muertes de ciertas enfermedades, la escala aritmética no lo permitirá, como lo demuestra el siguiente ejemplo:

GRAFICO 120 PROCEDIMIENTOS PARA OBTENER CICLOS LOGARÍTMICOS MÁS PEQUEÑOS (A) O MÁS

GRANDES (B)

CUADRO 121 CASOS Y DEFUNCIONES POR TOSFERINA. ÁREA DE NOTIFICACIÓN ORGANIZADA VENEZUELA, 1956 – 1960 Años

Casos

Defunciones

1956 1957 1958 1959 1960

2.824 1.420 938 4.476 6.764

79 76 43 118 101

Fuente: Anuario de Epidemiología y Estadística Vital Venezuela 1961 Al utilizar una escala aritmética para representar estos datos se caería en una de las dos alternativas siguientes: 1. Si la escala presenta subdivisiones en 1000, las variaciones de los casos se apreciarían correctamente, pero como las defunciones presentan muchas pequeñas variaciones con referencia a ellos, quedarían prácticamente representadas por una línea recta, lo cual no permitiría apreciar los cambios en la mortalidad habida en el lapso. (Véase el grafico 122B). 2. Si para subsanar el anterior inconveniente se hicieran subdivisiones de 10 en 10, entonces el grafico tendría que tener varios metros de altura, para que permitiera inscribir los miles de casos presentados.

Gráfico 122 A DIAGRAMA SEMILOGARITMICO Frecuencias 7.000 5.000 CASOS 2.000 1.000 500

200 100

DEFUNCIONES

50

20 10 1956

1957

1958

1959

1960

AÑOS

Gráfico 122 B USO INADECUADO DE LA ESCALA ARITMÉTICA (No se aprecian las variaciones anuales en el número de defunciones) 7.000 6.000 5.000 4.000 3.000 CASOS 2.000

1.000 DEFUNCIONES 0 1.956

- AÑOS -

1.960

Fuente: Datos del cuadro 121 La representación correcta de los datos anteriores puede hacerse fácilmente utilizando el papel semilogarítmico. En el grafico 122 A la vez que se apreciaran las variaciones en él número de casos, se apreciaran también las ocurridas en las defunciones.

3. Muchas veces se tiene interés en comparar, no los cambios absolutos que presentan 2 o más series, sino los cambios relativos y en tales ocasiones, el papel Semilogarítmico es el adecuado. Considere por ejemplo, los siguientes datos: CUADRO 123 MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS VENEZUELA, 1953 – 1957 Tasas por 100.000 habitantes Año Tuberculosis Bilharziosis 1953 87.0 1.9 1954 74.0 1.5 1955 57.0 1.2 1956 45.0 1.0 1967 43.0 0.7 Fuente: Anuario de Epidemiología y Estadística Vital de Venezuela. 1961 Note que de 1953 a 1957, la Bilharziosis descendió en más del 60% y la Tuberculosis solamente en un 50%. Esto se aprecia correctamente en el diagrama Semilogarítmico pero en diagrama de escala aritmética aparece que la Tuberculosis hubiera descendido mucho más que la Bilharziosis GRÁFICO 124 MORTALIDAD ESTIMADA POR TUBERCULOSIS Y BILHARZIOSIS. VENEZUELA, 1953 – 1957 SEMILOGARITMICO

ARITMÉTICO

Tasas por 100.000 habitantes

Tasas por 100.000 habitantes

3.0

90 Tuberculosis Tuberculosis

2.0

60

30 1.0

Bilharziosis

Bilharziosis 0.1

0 1953

1954

1955

1956

AÑOS

1957

1953

1954

1955

1956

1956

AÑOS

Fuente: Datos del Cuadro 123 13.2.7. Diagrama de Correlación Este gráfico se utiliza para aquellos casos en los cuales a cada individuo que se estudia se le toman dos medidas diferentes, es decir, cuando cada individuo se clasifica al mismo tiempo en relación a 2 escalas cuantitativas como ser peso y estatura, edad y peso, etc.

En el gráfico cada individuo queda representado por un punto según la forma como estos puntos se agrupen, se podrá juzgar sobre el grado de asociación entre las dos variables, lo cual se estudiará en detalle posteriormente. 13.2.7.1Elaboración. Para elaborar el diagrama de Correlación, se procederá así: 1. Trazar el sistema de coordenadas. En este gráfico las dos escalas deben ocupar la misma longitud, es decir, si la ordenada mide 15cms; la abscisa también debe medir 15cms. 2. Numerar las escalas. No es necesario como en otros gráficos, que las escalas comiencen en 0. La numeración puede comenzar con el valor menor observado en los datos o con el número redondo inmediatamente inferior y terminará con el máximo valor observado o con el número redondo inmediatamente superior. 3. Como cada individuo va a ser representado por un punto, éste se colocará en la intercepción de 2 líneas imaginarias que pasen por los correspondientes valores.

Ejemplo: Con el fin de constatar si realmente los estudiantes que obtienen las mejores calificaciones en sus ejercicios son quienes presentan los mejores exámenes finales, un grupo de 20 estudiantes de estadística ha sido clasificado de acuerdo a las notas previas obtenidas en los ejercicios y a los resultados del examen final. El gráfico 126 representa los mencionados datos. Observe que en el diagrama se ha destacado el o valor correspondiente al individuo N 7, para mostrar cómo deben colocarse los puntos. Dicho valor corresponde a un estudiante que tenía una nota previa de 11 puntos y obtuvo 10 en el examen final. Detalles sobre la interpretación de los gráficos de correlación y sobre las asociaciones encontradas, serán dados al estudiar el Análisis de la Información recogida. NOTAS PREVIAS DEL EXAMEN FINAL DE 20 ESTUDIANTES DE METODOLOGÍA ESTADÍSTICA. ALUMNOS 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20

NOTA PREVIA 15 13 16 14 20 17 11 15 18 12 19 16 10 11 18 10 15 16 14 13

NOTA FINAL 13 12 18 16 18 18 10 16 18 11 17 16 9 13 15 8 15 17 13 14

Gráfico 126 25

20

15 NOTA PREVIA NOTA FINAL

10

5

0 0

5

10

15

20

25

13.2.8. Diagrama de Cajas – Bigotes Los diagramas de Caja-Bigotes (boxplots o box and whiskers) son una presentación visual que describe varias características importantes, al mismo tiempo, tales como la dispersión y simetría. Para su realización se representan los tres cuartiles y los valores mínimo y máximo de los datos, sobre un rectángulo, alineado horizontal o verticalmente. Una gráfica de este tipo consiste en una caja rectangular, donde los lados más largos muestran el recorrido intercuartílico. Este rectángulo está dividido por un segmento vertical que indica donde se posiciona la mediana y por lo tanto su relación con los cuartiles primero y tercero (recordemos que el segundo cuartil coincide con la mediana). Esta caja se ubica a escala sobre un segmento que tiene como extremos los valores mínimo y máximo de la variable. Las líneas que sobresalen de la caja se llaman bigotes. Estos bigotes tienen un límite de prolongación, de modo que cualquier dato o caso que no se encuentre dentro de este rango es marcado e identificado individualmente Ejemplo distribución de edades: Utilizamos la ya usada distribución de frecuencias (en tallos y hojas), que representan la edad de un colectivo de 20 personas. 36 25 37 24 39 20 36 45 31 31 4 29 23 41 40 33 24 34 40 1. Ordenar los datos 2. Para calcular los parámetros estadístico, lo primero es ordenar la distribución 3. 20 23 24 24 24 25 29 31 31 33 34 36 36 37 39 39 40 40 41 45 4. Cálculo de cuartiles

5. Q1, el cuartil Primero es el valor mayor que el 25% de los valores de la distribución. Como N = 20 resulta que N/4 = 5; el primer cuartil es la media aritmética de dicho valor y el siguiente: Q1 = (24 + 25) / 2 = 24,5 6. Q2, el Segundo Cuartil es, evidentemente, la mediana de la distribución, es el valor de la variable que ocupa el lugar central en un conjunto de datos ordenados. Como N/2 =10 ; la mediana es la media aritmética de dicho valor y el siguiente: Med.= Q2 = (33 + 34)/ 2 =33,5 7. Q3, el Tercer Cuartil, es el valor que sobrepasa al 75% de los valores de la distribución. En nuestro caso, como 3N / 4 = 15. Q2=(39 + 39) / 2 = 39 8. Dibujar la caja y los bigotes

El bigote de la izquierda representa al colectivo de edades ( Xmín, Q1) La primera parte de la caja a (Q1, Q2), La segunda parte de la caja a (Q2, Q3) El bigote de la derecha viene dado por (Q3, Xmáx). 9. Información del diagrama Podemos obtener abundante información de una distribución a partir de estas representaciones. Veamos alguna: La parte izquierda de la caja es mayor que la de la derecha; ello quiere decir que las edades comprendidas entre el 25% y el 50% de la población está más dispersa que entre el 50% y el 75%. El bigote de la izquierda (Xmím, Q1) es más corto que el de la derecha; por ello el 25% de los más jóvenes están más concentrados que el 25% de los mayores. El rango intercuartílico = Q3 - Q1 = 14,5; es decir, el 50% de la población está comprendido en 14,5 años.

CAPITULO XIV EL ANÁLISIS DE LA INFORMACIÓN: LOS ESTUDIOS DESCRIPTIVOS FACTORES QUE DETERMINAN EL METODO DE ANÁLISIS 14.1. Generalidades: El análisis de todo estudio, debe comenzar con una evaluación global de la información disponible y de la manera como fue recogida. Conviene examinar si los planes se cumplieron a cabalidad y si los datos se recogieron en la forma prevista y sólo una vez que se está seguro de la fidelidad de la información, podrá iniciarse el análisis estadístico propiamente dicho. Las técnicas de análisis estadístico son muy numerosas, y la escogencia depende, entre otros factores de: 1. 2. 3. 4.

El propósito del estudio. El tipo de información recogida. La escala de clasificación utilizada. El número de individuos estudiados.

En capítulos anteriores, ya se consideraron algunos aspectos referentes al tipo de información recogida (distribuciones de frecuencia, datos de asociación y series cronológicas) y a la escala de clasificación utilizada (cualitativa y cuantitativa). Consideramos ahora, la importancia que para el análisis tiene el propósito del estudio, y el número de observaciones estudiadas (series agrupadas o no agrupadas). 14.2 Estudios descriptivos y estudios comparativos. De acuerdo a su propósito, los estudios se clasifican en: - Descriptivos, y - Comparativos. En los estudios descriptivos interesa sobre todo, resumir adecuadamente la información y al mismo tiempo destacar las características importantes del grupo que se estudia. En los estudios comparativos interesa primordialmente averiguar si hay o no diferencias entre los dos o más grupos que se estudian y si dichas diferencias existen, hallar razones valederas que puedan explicarlas. Es de advertir que esta tajante diferenciación entre estudio; descriptivos y comparativos, es más bien aparente. En primer lugar, todo estudio comparativo debe comenzar con una descripción de los hallazgos encontrados, pues solamente después que estos han sido resumidos convenientemente, podrá hacerse con provecho las comparaciones deseadas. En segundo lugar, no debe olvidarse que en muchos estudios descriptivos la finalidad última es hacer ciertas generalizaciones a partir de los resultados observados, pues aunque por razones prácticas el investigador solo estudia una muestra de la población en que está interesado, su deseo es llegar al conocimiento de dicha población a través de los resultados de la muestra. Tal proceso de inducción exige técnicas, distintas a las utilizadas en la simple descripción de los datos, las cuales tienen mucho en común, con aquellas que se emplean en los estudios comparativos.

A pesar de las salvedades anteriores, con propósitos docentes se estudiarán separadamente las técnicas estadísticas que se emplean los estudios descriptivos y aquellas que se utilizan en las comparaciones de grupo, pues el perfecto conocimiento de las primeras, es imprescindible para poder estudiar las segundas. 14.3 Número de individuos estudiados Trátese de un estudio descriptivo o comparativo, la escogencia de las técnicas de análisis que se utilizarán, depende del número de individuos en los cuales se basa la investigación. Cuando el número de individuos observados es poco numeroso, los valores correspondientes se pondrán uno al lado del otro sin que haya necesidad de agruparlos en diferentes categorías. Se tienen entonces las llamadas series no agrupadas. Cuando por el contrario, el estudio incluye una cantidad apreciable de individuos, ningún análisis podrá hacerse si no se clasifican previamente en un determinado número de grupos o clases, tal como señalamos en el capítulo noveno. Tales datos así presentados reciben el nombre de series agrupadas. Las técnicas estadísticas de análisis serán distintas según se traten de series agrupadas o de series no agrupadas, siendo un poco más laboriosas las primeras 14.4 Técnicas de análisis de los estudios descriptivos. Las técnicas utilizadas en el resumen de los estudios descriptivos pueden esquematizarse en la forma siguiente: 14.4.1 .Distribuciones de Frecuencias Las distribuciones de frecuencia en escala cualitativa se resumen por frecuencias relativas (tasas, porcentajes, etc.) Si la escala es cuantitativa, pueden resumirse en la misma forma, pero generalmente se resumen mediante las llamadas tendencias centrales (promedio, mediana, modo) y medidas de dispersión (desviación, desvíos, percentiles, etc.) 14.4.2. Datos de Asociación Si las dos escalas son cualitativas, se resumirán en frecuencias negativas. Si una es cualitativa y la otra cuantitativa, podrá escogerse, de acuerdo con la finalidad del estudio, cualquiera de las medidas hasta ahora mencionadas y si ambas escalas son cuantitativas se emplearan el Coeficiente de Correlación o el Coeficiente de Regresión. 14.4.3. Series cronológicas Se resumen por medio de las tendencias calculadas, cambios porcentuales y técnicas de regresión.

CAPITULO XV DISTRIBUCIONES DE FRECUENCIAS EN ESCALA CUALITATIVA Razones, proporciones, porcentajes y tasas 15.1. Presentación tabular. Las formas más simples de presentar estos datos, son mediante un cuadro de dos columnas. En la primera se ponen las subdivisiones de la escala de clasificaciones que se utilizan y en la otra el número de individuos observados. Generalmente el cuadro se acompaña de una primera columna, en la cual se ponen los porcentajes respectivos. (Ver cuadro 84) 15.2. Presentación gráfica Pueden utilizarse el diagnóstico de barras o de sectores, pero la escala tiene muchas subdivisiones, siempre debe preferirse el número. En ellos pueden respetarse los números absolutos o los porcentajes respectivos. El grafico quedará igual en ambos casos, cuando solamente la numeración de la escala utilizada. (Ver gráfico 101 y 105) 15.3. Análisis: frecuencias relativas. El análisis de estos datos se hacen mediante frecuencias relativas. Bajo la denominación general de frecuencias relativas se incluye un conjunto de términos (razones, proporciones, índices, porcentajes, coeficientes, tasas) sobre cuya diferenciación no hay todavía un acuerdo completo. Desde el punto de vista práctico, la exacta definición de cada uno, tiene mucha menor importancia que comprender su utilización y aplicaciones. La importancia de las frecuencias relativas radica en que gracias a ellas pueden ponerse más fácilmente de presente, las relaciones que existen entre dos o más cifras de los datos que se estudian, facilitando la comprobación de diversos resultados. El dato aislado que en una ciudad hubo 100 de funciones y 500 en otra, es de indudable valor para ciertos propósitos, pero de poca utilidad para otros. Saber el número de defunciones en cada localidad es esencial para decidir sobre las facilidades médicas y hospitalarias que deben proveerse, pero si aspiramos a comparar el “riesgo de morir” en las dos poblaciones, es necesario relacionar el número de defunciones en cada ciudad con su número de habitantes, pues es obvio en el ejemplo presente, que si la segunda tiene 5 veces más habitantes que la primera, en ella deben haber más o menos 5 veces más defunciones. 15.3.1. Razones y Proporciones. Si suponemos que un grupo de 396 estudiantes está formado por 297 hombres y 99 mujeres:

Hombres Mujeres Total

297 99 396

Aunque es evidente el predominio de los hombres, la intensidad de esa relación se apreciará mejor, al dividir el número de hombres por el de mujeres, con lo cual podemos decir, que hay 3 hombres por cada mujer en dicho grupo (297/99=3).

Puede también dividirse el número de hombres por la totalidad de personas en el grupo (297/396 = ¾ = 75%), con lo cual se evidencia fácilmente, que cada 4 estudiantes, tres son de sexo masculino, es decir, que hay 3 hombres por cada mujer en dicho grupo de estudiantes. En el primer caso se ha relacionado el número de individuos en la categoría con el número de individuos la otra. En el segundo caso se ha relacionado el número de observaciones de una categoría, con el total general del grupo. La primera de tales frecuencias se denomina una “razón”; la segunda se llama una “proporción” cuando la serie que se estudia consta solamente de dos categorías hombres y mujeres o enfermos y sanos - puede usarse según las referencias una razón o una proporción -. Si la serie consta de tres o más categorías, no hay una manera única de calcular una razón en tales casos es preferible utilizar las proporciones. 15.3.2. Porcentajes. Un porcentaje es una proporción multiplicada por 100. Por consiguiente, para calcular porcentajes, basta dividir el número de individuos en cada categoría por el total del grupo y multiplicar el resultado por 100.. En nuestro ejemplo, el 75% de los estudiantes son hombres: (297/396) x 100 = 75%) y el 25% mujeres: (99/396) x 100 = 25%. El uso de los porcentajes tiene varias ventajas. En primer lugar, ellos permiten comparar fácilmente 2 o más series cuyos totales son diferentes, pues estos quedan convenientemente reducidos a 100. Note que si se tienen los 2 siguiente grupos de personas: Hombres Mujeres

297 99

Hombres Mujeres

255 85

Total

396

Total

340

El cálculo de los porcentajes nos permite señalar sin dificultad que la proporción de hombres en los dos grupos es semejante (297/396 =75% y 255/340 =75%), lo cual no era muy aparente antes de su cálculo. En segundo lugar, a través de los porcentajes se puede resumir la probabilidad de la ocurrencia de un hecho. En la ilustración anterior por ejemplo, hay un 75% de probabilidad de que una persona sea de sexo masculino (297/396) y un 25% de que sea de sexo femenino (99/396) 15.3.3. Tasas En toda la población es importante conocer su composición y los cambios que acontecen en ella. Al estudiar estos cambios, ni las razones, ni los porcentajes, a pesar de su utilidad, permiten analizar completamente la información disponible. Supóngase que en la población de San Pedro los accidentes automovilísticos hubieran sido clasificados como señala el siguiente cuadro:

Cuadro 133 Accidentes automovilísticos según sexo de los conductores. San Pedro, 1961 Sexo de los conductores Hombres Mujeres Total

Frecuencia Porcentajes 400 80% 100 20% 500 100%

La información anterior es desde luego útil. Los porcentajes calculados señalan, entre otras cosa, que al ocurrir un accidente hay un 80% de probabilidad que sea un hombre quien conduce, lo cual facilitará ciertas decisiones administrativas. Así por ejemplo, si se está planeando construir un hospital para atender conductores heridos o una cárcel para detenerlos, los porcentajes nos indican que aproximadamente un 80% de las camas hospitalarias o de las celdas carcelarias deben ser para hombres. Sin embargo sería un absurdo concluir sobre la base de la información anterior que los hombres tienen mayor peligro de verse envueltos en un accidente automovilístico o que las mujeres sean más cuidadosas al manejar. Con el fin de facilitar comparaciones como la anterior, siempre que se trate de medir el riesgo de que acontezca determinado fenómeno debe relacionarse con la población en la cual puede acontecer. Tales relaciones reciben el nombre general de tasas. Una tasa es simplemente un quebrado. El numerador, indica el número de veces que ocurrió determinado fenómeno en un área altamente limitada y en un período de tiempo perfectamente dado. El denominador indica el número de habitantes de la población en la cual puede ocurrir el fenómeno descrito en el numerador: Número de veces que ocurrió determinado fenómeno x 10

n

Población en la cual ocurrió el fenómeno

Como el numerador de la tasa nunca podrá ser mayor que su denominador, el resultado será menor que la unidad y para evitar casos de decimales, los resultados se multiplican por 100, 1000, 10000, etc. Pues es más fácil recordar por ejemplo, que la tasa de mortalidad en Venezuela en 1960 fue de 9 por 1000 que recordar que es 0.009. Teniendo en cuenta el concepto anterior, será muy fácil obtener y calcular cuantas tasas se quiera. Entre ellas, tienen importancia en Medicina: 1. 2. 3. 4.

Las tasas de mortalidad: las cuales expresan el riesgo de morir. Las tasas de morbilidad: que expresan el riesgo de adquirir determinadas enfermedades. Las tasas de natalidad: que miden el crecimiento de las poblaciones. Las tasas de letalidad: que indican cuan graves son las enfermedades.

Las tasas anteriores pueden calcularse para toda una población y separadamente para algunos de sus segmentos, como ser para determinado grupo de edad o determinado sexo. Además, unas veces pueden referirse a todas las causas en conjunto o solamente a una causa o grupo de causas en particular. Tasas que se refieren a toda la población y a todas las causas a la vez, se denominan “tasas crudas” y aquellas que se refieren sólo a parte de la población o a una determinada causa, se denominan “tasas específicas”. Pueden calcularse tasas específicas por edad, tasas específicas por causa, tasas a la vez específicas por edad y causa, etc. Una tasa puede hacerse tan específica como se quiera, desde que se disponga de los datos básicos necesarios. Al calcular estas diversas tasas, sólo habrá que tener en cuenta la población expuesta al riesgo, para que el denominador sea correcto. Como las poblaciones están cambiando continuamente, aumentando a causa de los nacimientos y de la inmigración, disminuyendo a causa de las defunciones y de la emigración, el número de habitantes es diferente al principio, a mediados o a fines del año. Por tal motivo la población especificada en el denominador, debe ser la de mediados de año, es decir la del 1° de Julio, pues se considera, que dicha población es intermedia entre la de principios y final de año.

15.3.3.1. Principales Tasas. Aun cuando estas tasas serán estudiadas en detalle posteriormente, a continuación se indica el cálculo de las más comúnmente empleadas:

Defunciones por todas las causas y en todas las edades ocurridas en determinada región durante determinado año. Tasa Cruda de Mortalidad:

x 1000 Población de la mencionada región para el 1° de Julio del año que se estudia

Ejemplo: La población de Venezuela para el 1-7-64 se estimó en 7.600.000 habitantes y en dicho año ocurrieron en el país un total de 55.466 defunciones. La tasa cruda de mortalidad fue por lo tanto: 55.466 x 1.000 = 7.3 por 1.000 habitantes 7.600.000 Total de nacimientos vivos habidos en determinada región durante determinado año Tasa Cruda de Natalidad =

x 1.000 Población de la mencionada región para el 1° de Julio del año que se estudia

En 1961 se registraron en Venezuela 340.433 nacimientos vivos, y la población se estimó en 7.600.000 habitantes. Su tasa cruda de natalidad fue por consiguiente: 340.433 x 1.000 = 44,7 por 1.000 habitantes 7.600.000

Tasa Cruda de Morbilidad: Habitualmente no se calcula, ya que salvo el caso de encuestas especiales, es imposible conocer la morbilidad total de una región.

Tasa de Mortalidad Específica por causa:

Defunciones por determinada causa habidas en determinada región durante el año en estudio x 100.000 Población de la mencionada región para el 1° de Julio del año respectivo

Ejemplo: Durante 1961 ocurrieron en Venezuela 1.312 defunciones por Tuberculosis. Como la población del país dicho año se estimó en 7.600.000 habitantes, la tasa de mortalidad específica por Tuberculosis fue:

=

1.312 x 100.000 17,3 por 100.000 habitantes 7.600.000

Defunciones por todas las causas en determinado grupo de edad Tasas de Mortalidad específica por edades: Población del correspondiente grupo de edad para el 1° de Julio del año estudiado

x 1.000

Ejemplo: La población venezolana de menores de 15 años fue estimada para 1961 en 3.400.000 habitantes. Dicho año ocurrieron en el país un total de 26.303 defunciones en personas menores de 15 años. La tasa de mortalidad en menores de 15 años fue:

=

26.303 x 1.000 7,7 por 1.000 3.400.000

Defunciones habidas por determinada causa en determinado grupo de edad Tasa de Mortalidad Específica por causa y por edades:

x 100.000 Población del correspondiente grupo de edad para el 1° de Julio del año de estudio.

Ejemplo: En 1961 ocurrieron en Venezuela 140 defunciones por Tuberculosis en el grupo de menores de 15 años. Como la población estimada para esas edades, fue de 3.400.000 habitantes, la tasa de mortalidad específica por Tuberculosis para menores de 15 años fue: 140 x 100.000 = 4,1 por 100.000 3.400.000

Número de enfermos por determinada causa conocidos en determinada región durante el año Tasa de Morbilidad Específica por causa:

x 100.000 Población de la región para el 1° de Julio del año en estudio

Ejemplo: En 1961 se conocieron en Venezuela 8.242 casos de Tuberculosis Pulmonar. Como la población del país era de 7.600.000 la tasa de morbilidad por Tuberculosis fue:

8.242 x 100.000 = 108,4 por 100.000 7.600.000

Defunciones por determinada causa Tasa de Letalidad:

x 100 Casos conocidos de la enfermedad en el mismo año y en la misma región

Ejemplo: En 1961 se conocieron en el país 861 casos de Fiebre Tifoidea, de los cuales fallecieron 26. La tasa de letalidad para la Fiebre Tifoidea fue por lo tanto: 26 × 100 = 3.0% 861 Es preciso hacer notar en ciertas ocasiones la población que sirve de denominador a la tasa no puede conocerse y es necesario empezar a estimarla por cualquier procedimiento. Como ejemplos se tienen: la tasa de mortalidad infantil y la tasa de mortalidad materna. La tasa de mortalidad infantil se refiere exclusivamente a las defunciones de niños que no han cumplido un año. Por consiguiente, en el denominador de la tasa debiera figurar él número de niños menores de un año. Esta cifra sin embargo nunca aparece con exactitud pues los datos censales son muy deficientes al respecto, y para estimarla se toma el número de nacimientos ocurridos en el año en la región que se estudia. De acuerdo a lo anterior la tasa de mortalidad infantil se calcula mediante la fórmula siguiente: Tasa de Mortalidad Infantil = Defunciones de niños menores de un año x 1.000 Nacimientos vivos Ejemplo: En Venezuela durante 1961 ocurrieron 18.137 casos defunciones de niños menores de 1 año y dicho año se registraron en todo el país 340.433 nacimientos vivos. La tasa de mortalidad infantil fue: 18.137 x 1.000 = 53.2 por 1.000 nacimientos vivos 340.433 Es decir, por cada 1.000 nacimientos vivos ocurridos, fallecieron 53 niños menores de 1 año. b) La tasa de mortalidad materna mide el riesgo de morir a causa de cualquier trastorno imputable directamente al embarazo, parto o puerperio. Como se desconoce el número de embarazadas parturientas y puérperas, dicha cifra se estima a través del número de nacimientos vivos ocurridos, quedando la tasa: Tasa Mortalidad Materna: Defunciones Maternas × 1.000 Nacimientos Vivos Ejemplo: En 1961 ocurrieron en Venezuela 378 defunciones por complicaciones del embarazo, parto y puerperio. Como en tal año se registraron 340.433 nacimientos vivos, la tasa de mortalidad materna fue: 378 x 1.000 = 1.1 por 1.000 nacimientos vivos. 340.433

CAPITULO XVI DISTRIBUCIONES DE FRECUENCIAS EN ESCALA CUANTITATIVA 16.1. Presentación tabular. Los cuadros que sirven para representar estos datos son en lo semejantes a los utilizados en otras distribuciones de frecuencias (cuadro 83). 16.2. Presentación gráfica. Cuando la escala es continua, la representación gráfica se hace en polígonos de frecuencia y preferentemente en histogramas (ver gráfico 109). En los raros casos en los cuales la escala es discontinua, debe utilizarse el diagrama de barras. 16.3. Análisis. Lo mismo que las series anteriores, las distribuciones de frecuencias en escala cuantitativa pueden analizarse mediante porcentajes, pero generalmente el análisis se efectúa mediante las llamadas constantes centrales y de dispersión. Las primeras (promedio aritmético, mediana y modo) señalan aquellas cifras alrededor de las cuales está la mayoría de las observaciones y las segundas (desviación estándar, percentiles, etc.) Señalan la manera como se distribuyen las observaciones con respecto a los anteriores valores centrales. El que se prefiera analizar una serie mediante porcentajes o mediante medidas centrales y de dispersión depende de la finalidad que se persigue en el estudio. La información dada por unos y otras es diferente y en ocasiones suelen utilizarse al mismo tiempo los dos tipos de medida. 16.4. Análisis mediante frecuencias relativas. Distribuciones de frecuencias en escala cuantitativa, pueden analizarse para ciertos propósitos mediante porcentajes y porcentajes acumulados. Cuadro 141 Escolares de acuerdo a su peso Peso en Kilos No. de Escolares Porcentajes 20-24 4 8.0 25-29 8 16.0 30-34 9 18.0 35-39 10 20.0 40-44 7 14.0 45-49 6 12.0 50-54 6 12.0 Total 50 100.0 Fuente: Datos hipotéticos para ilustración

Porcentaje acumulado 8.0 24.0 42.0 62.0 76.0 88.0 100.0

En muchas ocasiones como esta, el promedio puede ocultar diferencias importantes entre los individuos que se estudian, mientras que el simple análisis de los porcentajes puede ser mucho más ilustrativo. Supongamos por ejemplo, que el peso promedio normal para niños de la edad estudiada hubiera sido fijado en 35 kilos.

El promedio para este grupo de 50 escolares, calculado por el método que luego se estudiará es exactamente 37 kilos, el cual nos lleva simplemente a formarnos la impresión de que el grupo estudiado, presenta un estado nutritivo normal. Sin embargo, el análisis de los porcentajes nos muestra claramente que el 8% de los niños pesa entre los 24 kilos y que el 42% pesa menos de 35 kilos, o sea, que debido a nuestro patrón de normalidad, casi la mitad de estos escolares estarían desnutridos. 16.5. Constantes centrales en series no agrupadas.

� ) (µ para el caso de la muestra) 16.5.1. Promedio aritmético ( 𝑋

El promedio aritmético es la cifra que se obtiene al dividir la suma de todos los valores observados por el número de observaciones y se tienen 5 niños cuyos respectivos pesos son: 7, 4, 9, 6, y 4 kilos El promedio aritmético se obtendrá sumando las cifras anteriores y dividiendo por 5 que es el número de niños:

� =7+4+9+6+4 𝑋 5

=

30 5

=

6 kilos

Es decir, los niños pesan en total 30 kilos, y si todos ellos pesarán igual, esto es, si no existiera variación, el peso de cada uno sería de 6 kilos. 16.5.2. La Mediana (M) La mediana es aquella observación que divide la serie en 2 partes iguales, en tal forma, que la mitad de las observaciones son iguales o menores que dicho valor y la otra mitad, iguales o mayores que él. Para calcular la mediana, es necesario ordenar las observaciones de menor a mayor o viceversa. Por lo tanto, en el ejemplo anterior, la mediana no es 9, pues ordenando los datos de menor a mayor, se obtendría: 4, 4, 6, 7, 9 y la mediana será 6, a cada lado de la cual quedan 2 observaciones. Si en vez de un número impar de observaciones tuviéramos las 6 siguientes: 4, 5, 7, 8, 9, 10 se ve que no hay en realidad ninguna observación que “ocupe la mitad”, pues el límite estaría entre el 7 y el 8. En dichos casos, para obtener la mediana, se promediarán los 2 valores centrales, en este caso, los correspondientes a la 3ª y 4ª observaciones, es decir: 7 ÷ 8 = 7 1/2 2 16.5.3. El Modo (M) El modo, o valor de moda, es aquel que se observa con mayor frecuencia. En el primer ejemplo, en que los pesos eran: 7, 4, 9, 6, 4 kilos

El modo es 4, pues éste es el valor que se observa con mayor frecuencia. Obsérvese que si los valores fueran 7, 4, 8, 3, y 5, no hay en realidad ningún valor que se observe más frecuentemente que los otros. Lo mismo sucede si los valores fueran: 2, 2, 4, 4, 6, y 6 16.6. Constantes centrales en series agrupadas. 16.6.1. Promedio Aritmético Para calcular el promedio, se asume que cada uno de los individuos en determinada clase tiene un valor igual al punto medio de la clase. En el ejemplo que sigue, se ve que el punto medio de la primera clase es 22 (recuérdese sección II ), lo cual significa que cada uno de los 4 individuos de esa clase pesa 22 kilos y por lo tanto, los 4 pesarán en conjunto 88 kilos (22 × 4). Igualmente, el punto medio de la segunda clase es 27, o sea que cada individuo de los 8 que hay, pesa 27 kilos y por lo tanto, los 8 pesarán en total 216 kilos (27 × 8 = 216). Bastará entonces sumar estos productos para saber cuántos kilos pesa la totalidad de los individuos estudiados y dividir esta suma por el número de observaciones para encontrar el punto medio. En las 2 primeras columnas del siguiente cuadro aparecen los datos sobre el peso de 50 escolares y en las restantes, los cálculos necesarios para obtener el promedio, los cuales se resumen a continuación. Cuadro 144 Escolares de acuerdo a su peso (Cálculo del Promedio) Peso en kilos (1) 20-24 25-29 30-34 35-39 40-44 45-49 50-54 Total

No de Individuos fi (2) 4 8 9 10 7 6 6 50

Punto medio de la clase xi Peso total de cada clase fi xi (3) (4) 22 88 27 216 32 288 37 370 42 294 47 282 52 312 1.850

Aproximado a la unidad completa Promedio:

1.850 = 37.0 kilos

50 Los pasos seguidos en el cálculo anterior son los siguientes: 1. Averiguar el punto medio de cada clase (Columna 3). 2. Multiplicar el punto medio de cada clase por los individuos en ella (Columna 4) y sumar estos productos. 3. Obtener el promedio dividiendo la suma anterior por el número de individuos estudiados. 16.6.2. Mediana Para calcular la mediana se considera que los individuos de cada clase se encuentran uniformemente repartidos en ella. Así por ejemplo, en la clase 35-39, cuyos verdaderos límites son

34.5 y 39.5 kilos y cuya amplitud es 5, hay 10 individuos, o sea, que existe una diferencia de peso entre uno y otro igual a 0.5 kilos (5 /10 ÷ 0.5). Es como si el intervalo de la clase 34.5 a 39.5 en la cual hay 10 personas, se divide en 10 subintervalos de 0.5 de amplitud, en medio de cada uno de los cuales se encuentra un individuo. Como en la primera clase hay 4 personas, esto quiere decir que allí están los individuos del 1 al 4 y por consiguiente, como en la segunda clase hay 8, allí estarán los individuos del 5 al 12 y así sucesivamente. La colocación de los 10 individuos de la clase 34.5-39.5 (individuos 22-31) se hará como lo muestra el siguiente esquema: Colocación de los individuos

Con estas explicaciones podemos ilustrar el cálculo de la mediana tomando el mismo ejemplo utilizado en el cálculo del promedio en series agrupadas. Cuadro 146 Escolares de acuerdo a su peso (Cálculo de la mediana) Peso en kilos Intervalos verdaderos No. de escolares Frecuencias acumuladas (1) (2) (3) (4) 20-24 19.5-24.5 4 4 25-29 24.5-29.5 8 12 30-34 29.5-34.5 9 21 35-39 34.5-39.5 10 31 40-44 39.5-44.5 7 38 45-49 44.5-49.5 6 44 50-54 49.5-54.5 6 50 Total 50

Los pasos son los siguientes: 1. Escribir los verdaderos límites de cada clase. Esto no es esencial, pero es conveniente para el principiante. 2. Obtener a frecuencia acumulada de las observaciones por el procedimiento conocido (columna 4). 3. Averiguar cuál observación es la mediana, para lo cual: 4. Observación mediana

n =

50 = 25 2

5. Como la mediana es la observación número 25 y como hay 21 por debajo de 34.5 kilos (véase columna 4), se necesitan 4 observaciones más (25 – 21 = 4) de las 10 que hay en la siguiente clase. Puesto que se considera que dichas observaciones están a igual distancia una de otra, se tomará 4/10 de la amplitud de esta clase y se añadirá a 34.5 que es su comienzo, con el fin de obtener la mediana: Mediana = 34.5 + (4/10 x 5) = 34.5 + 2.0 = 36.5 kilos El lector observará que como se trata de un número par de observaciones (50), el valor de la mediana correspondería al promedio de las observaciones 25 y 26 y no a la observación número 25. Un atento examen del esquema anterior muestra que el individuo 25 tiene un peso de 36.25 y el individuo número 26 un peso de 36.75. El semipromedio de estos valores que sería la mediana es de 36.5 kilos. Si para facilidades de cálculo se asume que el primer individuo de esta clase (el número 22) está en el punto 35, en vez de estar en el punto 34.7, que es su verdadera colocación, lo estamos desplazando ½ subintervalo hacia la derecha. Para compensar este desplazamiento, en vez de formar el valor medio entre las observaciones 25 y 26 se tomará el valor de la número 25, como se ha hecho en la fórmula anterior, con lo cual obtenemos el verdadero valor investigado. a

16.7. Escogencia entre el promedio, la mediana y el modo ( ) De las tres constantes anteriores, el promedio aritmético puede ser más frecuentemente utilizado, quizás por la facilidad de su computación a pesar de que en muchas ocasiones la mediana o el modo resultan de mayor interés. a. El promedio aritmético como medida de resumen tiene la ventaja de tomar en cuenta la totalidad de los valores de la serie, aumentando o disminuyendo de acuerdo con ella pero a causa de esta propiedad, puede ser desventajosamente afectado por la existencia de valores anormalmente altos o anormalmente bajos. Por regla general, sin embargo, puede decirse que cuando la serie es más o menos simétrica, el promedio debe ser preferido a cualquier otra constante de resumen. b. La mediana por su parte debe ser utilizada cuando entre los valores que se estudian haya alguno muy diferente de los otros. Su valor extremo afectará el promedio por ejemplo, el tiempo de hospitalización de 5 niños con gastroenteritis fuera respectivamente: 2, 3, 4, 6 y 30 días El último valor, debido tal vez a alguna complicación de la enfermedad, hace aparecer la permanencia en el hospital mucho más larga de lo que generalmente es. El promedio:

2 + 3 + 4 + 6 + 30 45 = = 9 días 5 5 Es engañoso, pero en cambio la mediana, que es 4 días, tiene la ventaja de no tomar en cuenta los valores anormales extremos, dando una impresión más acorde de lo usual. Observe que si la última observación fuera 300 en vez de 30, el promedio ascendería a 63 días, pero la mediana continuaría siendo 4.

(a) Además del promedio aritmético ocasionalmente se utiliza el promedio geométrico y armónico cuya enseñanza se omite por constatarlo de escaso interés, pero cuyo cálculo se ilustra en el Apéndice.

Note que cuando dichos valores extremos no existen, el valor del promedio y de la mediana concuerda bastante bien y se hacen exactamente iguales si la serie es simétrica. Por ejemplo, si se tiene: 3, 5, 7, 9, 11 El promedio es 7 y la mediana también es 7. Hay además ocasiones en que debe usarse la mediana por no ser posible el cálculo del promedio. Tal sucede en aquellas series en las cuales la primera o la última clase no tienen límites precisos. Si en el ejemplo de los 50 escolares dado anteriormente, la primera clase hubiera sido “menos de 25 kilos“ o la última figurara como “50 kilos y más” se comprende que habría sido imposible calcular el promedio, a no ser que se fijaran arbitrariamente los límites de las mencionas clases. Exceptuando estas aplicaciones, la mediana no tiene ninguna ventaja sobre el promedio aritmético, pues su valor depende solamente del número de términos, sin tomar en cuenta los valores (∂) numéricos de estos . c.

16.8.

El modo finalmente, es la constante que se emplea cuando el interés se centra en conocer el valor que se presenta más frecuentemente. Tal sucede cuando se trata de determinar el periodo de incubación de una enfermedad o su duración habitual, casos en los cuales el promedio y la mediana pueden no ser convenientes a causa de sus defectos señalados. Promedios ponderados.

Hay ocasiones en que se quiere expresar en una sola cifra, los resultados de varios grupos de individuos, cada uno de los cuales ha sido resumido previamente mediante un promedio. Tal es el caso de las muestras estratificadas, en las cuales se calcula un promedio para cada estrato. En dichas ocasiones, el promedio general para los diferentes grupos no se obtiene promediando los promedios parciales, sino que es necesario tener en cuenta el número de observadores en que se basa cada promedio. Tal promedio recibe el nombre de Promedio Ponderado. Supongamos un grupo de 4 mujeres y otro de 6 hombres, cuyos pesos fueron los siguientes: Mujeres: 46, 48, 52 y 54 Hombres: 55, 38, 59, 60,61 y 67 El promedio general para estas 10 personas no es

Promedio = 50 Kilos promedio = 60 Kilos

50 + 60 = 55kg 2

El promedio correcto se obtiene ponderando cada promedio parcial por el número de personas que incluye. Como 50 fue el promedio para las 4 mujeres, el grupo de mujeres peso en total 200 kilos (4x 50) e igualmente los hombres pesaron en total 3360 kilos (6x60). Por consiguiente, las 10 personas pesaron 560 kilos en conjunto (200 + 360) y el verdadero promedio será: 560 ÷ 10 = 56 kilos. En resumen si tenemos los promedios etc., calculado respectivamente en

n1 , n2 , n3 observaciones

el promedio correcto será Promedio Ponderado =

(∂)

n1 x1 + n2 x 2 + n3 x 3 n1 + n2 + n3

En la Sección 32.10 se estudiará la aplicación de la Mediana en el cálculo del Índice Endémico

es decir, basta multiplicar cada promedio parcial por el número correspondiente de personas estudiadas, sumar luego estos productos y dividir por el número total de personas en los varios grupos. De la misma manera se procederá para promediar los porcentajes de varios grupos de individuos. Si los porcentajes de mujeres en 3 escuelas diferentes fueran:

Escuela N° de alumnos Porcentaje de mujeres A 48 50,00 B 60 70,00 C 30 40,00 El porcentaje global de mujeres, para las 3 escuelas, no sería:

50 + 70 + 40 160 = = 53,3% 3 3 El porcentaje verdadero sería:

(50% × 48) + (70% × 60) + (40% × 30) 7.800 56,5% = 138 48 + 60 + 30 16.9.

Medidas de dispersión.

16.9.1 Importancia de las medidas de dispersión. Supongamos que se tiene tres grupos de pacientes de 7 individuos cada uno y como ejemplo ilustrativo supóngase además que el primer grupo sufre de Gastroenteritis, el segundo de Bronquitis y el tercero de Amigdalitis. Si la permanencia hospitalaria de cada paciente fuera la que aparece a continuación: Enfermedades Gastroenteritis Bronquitis Amigdalitis

Días de hospitalización de los Pacientes 1, 3, 5, 7, 9, 11, 13 1, 2, 3, 7, 11, 12, 13 1, 5, 6, 7, 8, 9, 13

Sería fácil constatar los siguientes puntos: a. b. c. d. e.

Cada serie tiene el mismo número de observaciones, es decir 7 pacientes En los 3 casos la amplitud de la serie es la misma: de 1 a 13 días. Las 3 series tienen el mismo promedio, o sea 7 días. Las 3 series tienen la misma mediana, o sea 7 días. En cada serie el promedio y la mediana coinciden exactamente.

No obstante las similitudes señaladas, las 3 series son muy distintas, pues como puede apreciarse en el grafico siguiente: a. En el caso de la Gastroenteritis, los 7 pacientes se distribuyen uniformemente en el lapso de 1 a 13 días b. En el caso de la Bronquitis, los pacientes se agrupan en los extremos de dicho lapso (1 – 2 – 3 y 11 – 12 - 13). c. En el caso de la Amigdalitis, se agrupan hacia el centro ( 5 – 6 – 7 – 8 – 9 )

Grafico 151 Días de hospitalización de 3 grupos de pacientes

DIAS DE HOSPITALIZACION

ENFERMEDADES

GASTROENTERITIS

BRONQUITIS

AMIGDALITIS

Las anteriores anotaciones señalan que cuando se tienen un grupo de observaciones no basta conocer cuál es su promedio o su mediana, sino que además, es necesario tener una medida que indique claramente cómo se distribuyen las observaciones alrededor de ese promedio o esa mediana. (∂)

y el Intervalo Intercuartilar. Debe tenerse Con tal fin se utilizan la llamada Desviación Estándar en cuenta que cuando se busca el promedio aritmético, se debe calcular la Desviación Estándar y es el Intervalo Intercuartilar, pues este último se utiliza solamente para medir la dispersión alrededor de la mediana. Es decir: con el promedio se utiliza la desviación estándar y con la mediana, el intervalo intercuartilar. 16.9.2 Cálculo de la Desviación Estándar en series no agrupadas Como ilustración tonemos el ejemplo de la Bronquitis, dado anteriormente, es decir, los días de hospitalización de 7 pacientes que fueron: 1, 2, 3, 7, 11, 12, 13 Para el cálculo, se dispondrán los datos convenientes, tal como aparecen en el siguiente cuadro:

(∂)

La Desviación estándar D. E. suele representarse con la letra griega sigma minúscula ( σ ) y a veces se

coloca su valor después del signo ± que sigue al promedio ( x = 10 ± 2 indica que la D. E. = 2) Como ambos procedimientos se utilizan también para indicar el valor del Error Estándar que estudiaremos luego, con el fin de evitar confusiones, utilizaremos D. E. y E. E. respectivamente, al referirnos a estas constantes.

Cuadro 153

Días de hospitalización en 7 pacientes con Bronquitis (Cálculo de la Desviación Estándar) Pacientes 1 Primero Segundo Tercero Cuarto Quinto Sexto Séptimo Total

Días de hospitalización 2

Desviaciones (valor de cada observación menos promedio) 3 1-7 =-6 2 - 7 = -5 3-7=-4 7-7=-0 11 - 7 = + 4 12 - 7 = + 5 13 - 7 = + 6

1 2 3 7 11 12 13 49

Promedio =

Desviación Estándar =

∑d

2

=

n

Desviaciones al 2 cuadrado (d ) 4 36 25 16 0 16 25 36 158

49 = 7 días 7

154 = 22 = 4,7 días (∂) 7

Los pasos a seguir son los siguientes: 1. Averiguar el promedio: 49/ 7= 7 2. Buscar la diferencia que hay entre cada observación y el promedio (columna 3). Así por ejemplo: el primer paciente solamente estuvo 1 día hospitalizado es decir, 6 días menos que el promedio y en cambio el ultimo paciente estuvo 13 días, o sea, 6 días más que el promedio. Nótese que es necesario poner el signo (-) o (+) para distinguir, entre quienes están por debajo o por encima del promedio (desde luego el signo (+) no hay necesidad de ponerlo). La suma de esta columna debe ser igual cero (0). 3. Como la suma de la columna (3) será siempre igual a cero (0), no se podrá saber cuál es en promedio la desviación del grupo de observaciones. Para obviar este inconveniente se eleva al cuadrado cada desviación de la columna (4). la cual se totaliza luego. 4. El total de la columna ( 4) se dividirá por el número de observaciones que en nuestro ejemplo es 7, o sea 154/7=22. Esto quiere decir que en promedio cada paciente difiere en 22 unidades cuadradas del promedio general del grupo. 5. Como cada desviación la habíamos elevado al cuadrado y no tiene ningún significado hablar de días cuadrados o de kilos cuadrados, con el fin de volver a las unidades primitivas se extraerá la raíz cuadrada al anterior valor y dicha cantidad será la desviación estándar. En este ejemplo D. E. =

(∂)

22 = 4,7 días

cuando se calcula la Desviación Estándar d un pequeño grupo de individuos. Es más exacto dividir por (n - 1) que por (n), pero en grupos más o menos grandes, digamos más de 30 individuos, tal refinamiento no en necesario. Aunque es evidente que en el presente ejemplo la división debe hacerse por 6 y no por 7, los cálculos tratan de ilustrar el caso general y no el caso particular a que hemos hecho referencia.

16.9.3 Desviación Estándar en series agrupadas Los diferentes pasos que deben seguirse para el cálculo de la Desviación Estándar y explicaremos en seguida, aparecen resumidos en el siguiente cuadro, cuyas primeras cuatro columnas se utilizan para calcular el promedio, conforme ya se ha estudiado. Cuadro 155 Escolares de acuerdo a su peso (Cálculo de la Desviación Estándar)

Peso. Kg. 1 20 -24 25 - 29 30 - 34 35 - 39 40 - 44 45 - 49 50 - 54 Total

Número de individuos (f1)

Punto medio de clase (X1)

Producto X1*f1

Desviaciones (d)

2

3

4

5

4 8 9 10 7 6 6 50

22 27 32 37 42 47 52

88 216 288 370 294 282 312 1850

Promedio =

Desviación Estándar =

-15 -10 -5 0 +5 +10 +15

Desviaciones Desviaciones por número al cuadrado de individuos 2 (d ) (f1*d)(2*6) 6 7 225 900 100 800 25 225 0 0 25 175 100 600 225 1350 4057

1850 = 37,0 50

4,050 = 81 = 9.0 kilos 50

Los pasos son los siguientes: 1. Calcular el promedio por la técnica conocida para lo cual se utiliza las 4 primeras columnas del cuadro. 2. Buscar la diferencia entre el promedio, y cada uno de los puntos medios de las clases (columna 5). Estas cifras indican en cuantos difiere cada observación del promedio general del grupo. 3. Elevar al cuadrado las anteriores diferencias (columna 6). 4. Multiplicar reglón a reglón, las cifras de las columnas (2) y (6). Esto es necesario, pues las diferencias de la columna 6 se refiere a un solo individuo y por lo tanto, si en la primera clase hay 4 individuos y cada uno difiere 225 unidades cuadradas de su promedio, los 4 individuos diferirán en 900 unidades ( 4 x 225 ). 5. Sumar los productos de la columna (7), para saber la diferencia global entre todos los individuos y su promedio. 6. Dividir la suma anterior por el número de individuos estudiados 7. ( en nuestro caso n = 50 ). (∂) 8. Extraer la raíz cuadrada. Este último valor será la Desviación Estándar

(∂)

una fórmula que suele ahorrar trabajo es la siguiente:

D. E. =

∑fd

2 1 1

n

4.050 = 9 kilos 50

=

16.9.4 Utilización de la Desviación Estándar Hemos dicho que la Desviación Estándar indica en que formas se distribuye las observaciones alrededor del valor central representado por el promedio. Su utilidad se debe a que ella, junto con el promedio, ayuda a determinar los limites dentro de los cuales se encuentran las observaciones que se estudian, en tal forma, que basta conocer el promedio y la D. E. para reproducir toda la información contenida en los datos originales, salvo, desde luego, pequeñas variaciones. Esta interpretación se basa en las propiedades de la Curva Normal. 16.9.5. La Curva Normal La curva normal es una curva en forma de campana, perfectamente simétrica, de tal manera, que una perpendicular que pase por el vértice la divide en 2 mitades exactamente iguales. Dicha perpendicular representa el promedio aritmético (véase gráfico 158). Puede observarse que en cada mitad, la curva es primero cóncava hacia arriba, y luego cóncava hacia abajo, habiéndose dado el nombre de “punto de inflexión” a aquel en el cual la curva cambia de dirección. Hay por consiguiente, 2 puntos de inflexión, uno izquierdo y otro derecho. La distancia que separa a cada punto de inflexión de la línea central que representa el promedio, constituye una desviación estándar, aunque teóricamente, la curva nunca toca la horizontal para propósitos prácticos, puede considerarse que la totalidad de al área se encuentra comprendida entre 2 líneas verticales situadas a 3 D. E. a cada lado del promedio. Los matemáticos han demostrado que aproximadamente un 68% del área de todo el área de la curva se encuentra comprendida entre las 2 verticales que pasan por los puntos de inflexión, lo cual equivale a decir que el 68% del área se encuentra entre el promedio más una desviación estándar y el promedio menos una desviación estándar. Igualmente se ha visto que entre el promedio más menos 2, D. E. se encuentra aproximadamente el 95% del área de la curva y que prácticamente el 100% del área se encuentra entre el promedio (∂) más menos 3 D. E.

D. E. =

∑fx

2 1 1

n

−x

2

O sea: multiplicar cada una de las cifras de la columna (4) por el respectivo punto medio de la clase; sumar estos productos y dividir por el número de observaciones. Restar al resultado anterior el cuadrado del promedio y extraer la raíz cuadrada. (esta fórmula fue utilizada para e cálculo de la D. E. que aparea al final dela Pág. 199). Un método más abreviado se ilustra en el apéndice. Exactamente un 95% del área de la curva se encuentra entre el x ± 1,96 D. E. y un 99% entre x ± 2,58 D. E. Para fácil memorización dichas cifras se forman habitualmente como 2 y 2.8 D. E. Igual aproximación se utiliza en las diversas aplicaciones del error estándar que se verán posteriormente.

(∂)

GRAFICO 158 Curva Normal que muestra los porcentajes de su área total comprendidos entre diversos múltiplos de la desviación estándar.

En resumen, y usando una notación matemática:

x ± 1 D. E. Incluye aproximadamente el 68.27% del área de la curva x ± 2 D. E. Incluye aproximadamente el 95.45 % del área de la curva x ± 3 D. E. Incluye aproximadamente el 99.73 % del área de la curva Lo anterior es importante por dos razones principales. En primer lugar, porque ya señalamos que los resultados dados por el azar siguen una curva normal –punto que discutimos nuevamente en próximo capítulo- y en segundo lugar, porque se ha visto que casi todas las constantes fisiológicas de los individuos (peso, estatura, presión arterial, etc.). Y en general las diferentes características de la población, se distribuyen formando una curva normal. Y se quiere decir que las propiedades de la curva normal pueden servirse a cualquier característica que tengan una distribución normal y así por ejemplo, si la edad promedio de los individuos es 30 años y la D. E. = 3 años, entonces: •

Aproximadamente el 68% de los individuos tienen entre 27 y 33 años ( x ±1 D.E = 30 = 1 x 3 )



Aproximadamente el 95% de los individuos tienen entre 24 y 36 años ( x ± 2 D.E = 30 = 2 x 3 )

• •

Prácticamente todos los individuos tienen entre 21 y 39 años ( x + 3 D.E = 30 = 3 x 3 ). Si el promedio hubiera sido 30 años, pero D. E. = 1 año, entonces:

• • •

Aproximadamente el 68% de los individuos tienen de 29 a 31 años. Aproximadamente el 95% de los individuos tienen de 28 a 32 años. y prácticamente la totalidad tienen entre 27 y 33 años.

A través de los anteriores ejemplos puede verse como el promedio y la D. E. basta para resumir un estudio. Debe advertirse sin embargo, que:

a. Cuando la serie es muy pequeña como en el ejemplo de la página 155, las anteriores propiedades de la D. E. son difíciles de comprobar, y b. Para que la interpretación sea correcta se requiere que la característica estudiada semeje una curva normal, si tal similitud no existe, es preferible recurrir a la mediana y a los percentiles para resumir la serie y conformarse con analizar esta mediante el uso de porcentajes. 16.9.6 Intervalo Intercuartilar Antes de enseñar a calcular el intervalo intercuartilar debe definirse que se entiende por percentiles y cuartiles. 16.9.6.1 Percentiles y Cuartiles. El término percentil deriva de “por ciento”, y por lo tanto una serie de observaciones no puede tener más de 100 percentiles. Cada percentil indica el porcentaje de observaciones que en cada serie está por debajo de él. El 10º percentil es el valor por debajo del cual el 10% de las observaciones y el 25º percentil es el valor por debajo del cual se encuentra el 25% de las observaciones. Según esto, la mediana es simplemente el 50º percentil, ya que debajo de ella se encuentra el 50% de las observaciones, según lo estudiado anteriormente. Al 25º percentil suele dársele el nombre de “primer cuartil”, por debajo de este valor se encuentra el 25% de las observaciones, es decir la cuarta parte de estas. De la misma manera, al 75º percentil se le da el nombre de “tercer cuartil”, pues por debajo de él, dan tres cuartas partes de las observaciones. 16.9.6.2. Cálculo del primer cuartil. Para calcular el primer cuadril (Q1) se procederá de manera semejante como se hizo para el cálculo de la mediana, tomando el mismo ejemplo que sirvió para lograr el cálculo (ver el cuadro 146) se procederá en la siguiente forma: a. Buscar los límites verdaderos de las clases. b. Obtener la frecuencia acumulada de las observaciones. c. Averiguar cuál de las observaciones corresponde al primer cuartil, o sea: N = 50 / 4 = 12.5 d. Como el primer cuartil está situado en la posición 12.5 y como hay 12 observaciones por debajo de 29,5 kilos, se necesita ½ observación + (12.5 - 12 = 0.5) de las que hay en la siguiente clase. Como se ha asumido que las observaciones están igualmente escapadas se tomara 0.5/ 9 de la amplitud de la respectiva clase y se añadirá a su punto de comienzo, con el fin de obtener el valor del primer cuartil. Q1 =29.5 + (0,5 x 5)/9 = 29.5 + 0.27 = 29.77kilos 16.9.6.3 Calculo Del Tercer Cuartil. La observación correspondiente al tercer cuartil (Q3) será la: 3𝑁 4

= 𝑃3

Linf: límite real inferior

𝑃3 − 𝑓𝑎 𝑎𝑛𝑡

𝑄3 = 𝐿𝑖𝑛𝑓 + �

𝑓

�∗𝑖

f a ant: frecuencia acumulada anterior f: frecuencia modal i: intervalo Por lo tanto como hay 31 observaciones por debajo de 39.5 kilos se necesitan 6.5 observaciones más de las siete que hay en la próxima clase, o sea que debemos tomar 6.5 / 7 de la amplitud de la clase y añadirlo a su comienzo para averiguar el valor del tercer cuartil: Q3

=

39.5 + ( 6.5 x 5 ) / 7 = 39.5 + 4.64 = 44.14 kilos.

16.9.6.4 Intervalo Intercuartilar. El intervalo intercuartilar es aquel comprendido entre el primero y el tercer cuartiles. Su utilidad consiste en que dentro de los límites determinados por él, se encuentra el 50% de las observaciones “centrales”. Generalmente no afectadas por las fluctuaciones extremas de la serie. El intervalo intercuartilar mide la dispersión de los valores de la serie, pues mientras más próximos sus límites, mayor concentración de las observaciones alrededor de la mediana. Si los días de hospitalización de 2 grupos de pacientes es respectivamente: Primer grupo Md = 10 Q1 = 9 Q3 = 11

Segundo grupo Md = 10 Q1 = 3 Q3 = 18

A pesar de que la mediana es 10 para ambos grupos, se observa que en el primero el 50% de los pacientes tienen valores muy próximos a ella y en cambio, en el segundo grupo, la dispersión es muchísimo mayor. Sin la información adicional suministrada por el cálculo de los cuartiles Q1 y Q3, el resumen de la serie quedaría incompleto. En ocasiones se calcula la llamada desviación cuartana o cuartilar (Q), que es simplemente la mitad del intervalo intercuartilar:

𝑄=

𝑄3 − Q1 2

Si la serie es perfectamente simétrica, entonces: Md ± Q Engloba el 50% de las observaciones.

Si por lo contrario la serie es muy asimétrica, y en tales casos la desviación cuartana sugiere una interrelación errónea, razón por la cual, casi nunca se utiliza. 16.9.6.5 Percentiles en series pequeñas. Note que cuando el número de observaciones es muy pequeño, sólo se pueden calcular ciertos percentiles. Si hay 5 observaciones sólo pueden calcularse: en realidad 5 percentiles; si hay 7, podrán calcularse solo 7, etc. En tales casos, para calcular determinado percentil, se utiliza la fórmula:

𝑛+1 𝑥 𝑝𝑒𝑟𝑐𝑒𝑛𝑡𝑖𝑙 𝑑𝑒𝑠𝑒𝑎𝑑𝑜 100

Supóngase por ejemplo, que se tienen las siguientes observaciones: 2, 3, 5, 9, 11, 15, 18

De acuerdo a la formula anterior: a. El primer cuartil (25° percentil) será:

7+1 𝑥 25 = 2 100

b. Es decir, la observación número 2 cuyo valor es 3. c.

La mediana (50° percentil) será la observación número 4 cuyo valor es 9.

d. El tercer cuartil (75° percentil) será:

7+1 𝑥 50 = 4 100

7+1 𝑥 75 = 6 100

O sea la observación número 6 cuyo valor es 15.

CAPITULO XVII DATOS DE ASOCIACIÓN Como se recordará, se llaman datos de asociación a aquellos en los cuales los individuos se clasifican simultáneamente mediante dos escalas. Las escalas utilizadas pueden ser: 1. Ambas cualitativas. 2. Una cualitativa y otra cuantitativa. 3. Ambas cuantitativas. La presentación y análisis subsecuente de los datos dependerá de la división anterior: 17.1 Ambas Escalas Cualitativas. 17.1.1 Presentación Tabular Según se ha visto, una escala irá en la vertical y otra en la horizontal. Por lo general, aquella con más subdivisiones se coloca en la vertical, salvo en los casos en que una de las escalas es notoriamente más importante que la otra y por lo tanto debe ocupar dicho lugar. Como son dos escalas, el cuadro mostrará una fila y una columna de totales. Con fines analíticos, el cuadro suele llevar una o varias columnas con porcentajes o tasas, para facilitar su interpretación por lo general no conviene presentar cuadros exclusivamente con porcentajes, en ocasiones puede hacerse, pero en tales casos, debe editarse el número de observaciones sobre los que se basan dichos porcentajes, como se han hecho en los cuadros 165, 166, y 167. Cuadro 164 Defunciones por Leucemias y Aleucemias por formas clínicas y sexo. Venezuela, 1961

Formas clínicas

Sexo

Ambos sexos

Hombres Mujeres Linfoide 15 11 26 Mieloide 14 15 29 Agudas 51 40 91 Otras 23 22 45 Total 103 88 191 Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela, 1961. 7.1. 2 Presentación Gráfica. La presentación gráfica de estos datos en cualquiera de las formas del diagrama de barras (ver gráfico 102 y 103). 17.1.3 Análisis El análisis se hace mediante porcentajes, cuyo cálculo variara de acuerdo al propósito del estudio. Como un cuadro de asociación tiene una fila y una columna de datos, como además de un total general, pueden, por consiguiente, calcularse porcentajes de 3 maneras diferentes lo cual ilustraremos con los datos del cuadro anterior.

a. En relación al gran total. De las 191 defunciones, 26 fueron por leucemia linfoide, o sea, el 13,7%:

126 𝑥 100 = 13.7 191

El 53,9% de las defunciones fueron en hombres:

103 𝑥 100 = 53.9 % 191 Cuadro 165

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo. Venezuela, 1961

Formas clínicas

Sexo

Hombres Mujeres Linfoide 7.9 5.8 Mieloide 7.3 7.9 Agudas 26.7 20.9 Otras 12.0 11.5 Total 53.9 46.1 Fuente: datos del cuadro 164

Ambos sexos (N = 191) 13.7 15.2 47.6 23.5 100.0

b. En relación a los totales de la última columna. De las 26 defunciones por leucemia linfoide 15 fueron en hombres, o sea el 57. 7 %:

15 𝑥 100 = 57.7 % 26

y de las 29 por leucemia mieloide, 15, o sea el 51.7% ocurrieron en mujeres.

15 𝑥 100 = 75.0 % 2 Cuadro 166

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo. Venezuela, 1961 (Porcentajes en relación a los totales de la última columna)

Formas clínicas Linfoide (N = 26) Mieloide (N = 29) Agudas (N = 91) Otras (N = 41) Total (N = 191)

Sexo

Ambos sexos

Hombres Mujeres 57.7 42.3 48.3 51.7 56.0 44.0 51.1 48.8 53.9 46.1

(N = 191) 100.0 100.0 100.0 100.0 100.0

Fuente: datos del cuadro 164. c.

En relación a los totales de la última fila. De las 103 defunciones en el sexo masculino, 15, o sea el 14.6% fueron a causa de leucemia linfoide:

15 𝑥 100 = 14.6 % 103

y 51, o sea el 49,5% fueron por leucemia aguda:

51 𝑥 100 = 49.5 % 103 Cuadro 167

Defunciones por Leucemias y Aleucemias por formas clínicas y sexo. Venezuela, 1961 (porcentajes en relación a los totales de la última fila)

Sexo

Formas clínicas

Hombres (N = 103)

Linfoide Mieloide Agudas Otras Total

Ambos sexos (N = 191)

Mujeres (N = 88) 14.6 13.6 49.5 22.3 100.0

12.5 17.0 45.5 25.0 100.0

13.7 15.2 47.6 23.5 100.0

Fuente: datos del cuadro 164 Lo anterior señala que hay que saber escoger los porcentajes que se usarán. Por regla general puede decirse que los descritos en primer lugar no tienen mayor utilidad, pues en realidad contribuyen muy poco a la mejor interpretación del cuadro. En cambio, las otras dos clases son igualmente útiles, pues la información dada por ellos es algo diferente. En el ejemplo presentado, si el interés está en saber cuál de las formas clínicas de la enfermedad causa más muertes en cada uno de los sexos, los porcentajes calculados sobre los totales de la última fila son los más convenientes (cuadro 167). Si por el contrario se desea averiguar cuál de los dos sexos es afectado en cada forma clínica entonces los porcentajes en relación a los totales de la última columna son los adecuados (cuadro 166). Como un segundo ejemplo consideramos la información siguiente: Cuadro 168 Casos, defunciones y tasas de letalidad en enfermos de neumonía de acuerdo a tratamiento recibido Tratamiento

Número de defunciones

Terramicina 4 Penicilina 6 Sulfadiazina 6 Total 16 Fuente: Datos hipotéticos para ilustración

Numero de sobrevivientes 96 54 34 184

Número de Tasa de casos letalidad por 100 100 4 60 10 40 15 200 8

En el ejemplo presente es evidente que el mejor análisis consiste en comparar la letalidad habida en los diferentes tratamientos tal como el caso en el cuadro el cual señala claramente que los enfermos tratados con terramicina presentan la menos letalidad. Así 4 veces menos cuando se emplea sulfadiazina. Desde luego así hubiéramos podido llegar a las mismas conclusiones aunque no (4/16) a pesar que en el 50% de los casos estaba en dicho grupo (100/200) mientras solo el 20% de los casos recibió sulfadiazina (40/200) en dicho grupo se presentó el 37.5% de las muertes (6/16) 17.2 Una escala cualitativa y otra cuantitativa 17.2.1 Presentación tabular Se hace en la misma forma que en el caso anterior, colocando de preferencia la escala cuantitativa en la primera columna, salvo en el caso que la escala cualitativa tenga muchas subdivisiones (véase cuadro 196) 17.2. 2 Presentación gráfica Comúnmente se utiliza el polígono de frecuencia o el diagrama semilogarítmico. Cuando le frecuencia o tasa no difiere grandemente un de otra, se usa de preferencia el primero pero si tales diferencias son marcadas debe utilizarse el segundo (ver gráfico 113 y 122) Análisis Este tipo de datos puede analizarse mediante el cálculo de constantes centrales y de dispersión, o calculando, como en el caso anterior tasas y porcentajes. Por lo general los datos que maneja el medico clínico y el experimentador se resume mejor usando valores promédiales y de dispersión mientras que para el trabajador en salud pública o el demógrafo, el análisis con tasas y porcentajes es más útil. Lo anterior no quiere decir que datos susceptibles de un análisis no puedan ser analizados por el otro método. La escogencia es cuestión de lo que se quiera poner más de patente. De todas maneras recuérdese el siguiente principio: si no hay seguridad sobre que método usar debe utilizarse las tasas y los porcentajes Cuadro 169 Peso a nacer de 180 niños según el sexo Peso en gramos hombres 2000-2499 2500-2999 3000-3499 3500-3999 Total Fuente datos hipotéticos para ilustración

mujeres 8 20 50 16 94

total 12 25 35 14 86

20 45 85 30 180

En el cuadro anterior se calcula primero para los hombres y luego para las mujeres el promedio estándar y la desviación estándar respectiva podemos concluir que el promedio de al nacer de los niños 3144gr mientras que para las niñas es de 3047gr. Sin embargo para un sanitarista, quizás es importante conocer que el 43% de las niñas pesan menos de 3kg (37/86), mientas que solo el 30% de los niños pesan menos de 30kg (28/94).

17.3 Ambas escalas cuantitativas Entra en esta categoría todos aquellos casos en los cuales a cada uno de los individuos estudiados se le investiga dos medidas diferentes como ser cantidad de oxigeno inalado y CO2 exhalado, contenido de oxígeno en la sangra arteria y venosa edad y estatura, etc. 17.3.1 Regresión y correlación El análisis de cuadros presenta dos aspectos diferentes. Unas veces nuestros intereses esta en conocer si las dos variables están variadas y medir hasta qué punto los cambios en una pueden explicares por los cambios en la otra. En tal caso tenemos el problema de correlación y la unidad de medida es el llamado coeficiente de correlación (r). Otras veces cuando estamos seguros que existe un alto grado de variación entre 2 variables sea porque lo conozcamos por experiencia o porque así los indique el coeficiente de correlación previamente calculado el análisis se encamina a cuantificar la relación existente con el fin de predecir cuáles serán los valores de una variable, cuando se conocen los valores de la otra. En este caso se trata de un coeficiente de regresión y la medida utilizada es el coeficiente de regresión (b) Como se ve la explicación de un método no excluye precisamente el otro. Al estudiar las variaciones de cualquier característica debemos averiguar cuáles son los factores que pueden explicar dichas variaciones y una vez que lo hemos identificado podemos dedicarnos a medir en qué grado los cambios que ellos experimentan a las características que nos interesa. (Problema de regresión). Supóngase por ejemplo, que al estudiar la mortalidad por determinada enfermedad, se sospecha que hay una serie de causas que actúan sobre ella. Mediante técnicas de correlación precisaremos cuales de esas causas están más íntimamente ligadas con la enfermedad y cuando ya han sido identificadas, las técnicas de regresión ayudaran a determinar hasta qué punto cada una de esta causas es responsable por las variaciones observadas en la mortalidad. Hay sin embargo, ciertas limitaciones en la escogencia de la técnica más apropiada para cada caso. Muchas veces es muy fácil constatar que los valores de una escala están determinados o dependen de los valores de la otra. Así por ejemplo la estatura de un niño " depende " de su edad y la cantidad de oxígeno en la sangre venosa "depende" de la cantidad de oxígeno en la sangre arterial. Hablemos entonces de una escala independiente (x) y dependiente (y), y es justamente en tales casos cuando es correcto el ejemplo de las técnicas de regresión. Otras veces la anterior relación no es cierta. NO puede decirse que ciertos valores determinen los otros, si no que unos y otros varían conjuntamente. Así por ejemplo, es frecuente observar que al aumentar las pulsaciones, aumentan también las respiraciones, sin que por ello se pueda concluir que el aumento de las pulsaciones dependen del aumento de las respiraciones o viceversa, en tal caso no puede hablarse propiamente de un variable dependiente y otra independiente, sino de una mutua relación entre las dos. Las técnicas de correlación serán empleadas electivamente en tales ocasiones 17.3.2 Presentación tabular Si los individuos son pocos bastara con especificar a lado de cada uno, los valores de las observaciones hechas tal como puede verse al cuadro que acompaña al próximo gráfico, pero si son más de 50 o 60 se agruparan en clases.

17.3.3 Presentación gráfica Tratase de un problema de correlación o de regresión, la presentación se hará mediante el diagrama de puntos cuya elaboración se discutió anteriormente cuando se trató de la presentación de los datos estadísticos, sin embargo, como dicha representación será base para el análisis de los datos, insistiremos sobre ello en los párrafos siguientes. 17.3.4 Coeficiente de regresión En cualquier problema de regresión lo primero que se debe hacerse es un gráfico. Los principios generales para su elaboración ya fueron estudiados y el único detalle adicional que debe tenerse presente es de los valores de la variable independiente, se acostumbra colocarlos proporcionalmente en la abscisa, mientras que la ordenada se reserva a los valores de la variable dependiente. En el cuadro y grafico siguiente se presenta el peso y estatura de un grupo de alumnos ligeramente modificado para facilitar los cálculos. Cuadro 172 Estatura y peso del curso de estadística ALUMNOS 1 2 3 4 5 6 7 8 9 10

ESTATURA EN CENTÍMETROS 162 158 155 162 170 160 175 165 168 165

PESO EN KILOS 58 54 56 60 68 61 70 60 64 69

La distribución de los puntos del diagrama sugiere que la relación entre las dos variables puede ser resumida adecuadamente mediante una línea recta tal como la trazada en el gráfico. Claramente se observa que tales puntos tienden a agruparse alrededor de la línea y el peso aumenta uniformemente cuando aumenta la esta uniformemente cuando aumenta la estatura Grafico 173 Estatura y peso de un grupo de alumnos de metodología estadística

Peso

Estatura

Lógicamente, mientras más tienda los puntos a caer sobre la línea de regresión, más estrecha es la relación entre las 2 variables y constatarse que si a cada aumento de 1 cm corresponderá a un aumento de 2 kg entonces todos los puntos se dispondrían en una línea recta. Si por lo contrario no existiera ninguna asociación entre las 2 variables, de tal manera que altos pesos hubieran sido presentados distintamente por alumno distintos “altos” y “bajos”, los puntos tenderían a alejarse considerablemente de la línea, formando una especie de círculo o cuadrado. En tal caso se concluiría que no existe asociación entre las 2 variables y con ello se terminara el análisis. Si el fenómeno estudiado puede ser resumido por una línea recta, como en nuestro ejemplo podemos intentar resumir matemáticamente dicha relación, con lo cual nos será posible predecir los valores de la escala dependiente (Y) cuando se conoce los de la escala independiente (X). La medida estadística utilizada es el coeficiente de regresión (b) el cual indica q los valores en la escala dependiente cambia b unidades por unidad que cambia los valores de la escala independiente. En el método presente al utilizar el ejemplo que luego estudiaremos, encontramos que b = 0,80; lo cual quiere decir que por cada aumento de 1cm en la estatura se observa un aumento de 0,80 Kg. de peso. El coeficiente de regresión puede tener cualquier valor negativo. Si es positivo, significa que ambas variables disminuyen o aumenta a la vez; si es negativo, quiere decir que cuando una variable aumenta, la otra disminuye o viceversa; si fuere 0, tendríamos que para cualquier valor de la escala independiente habría siempre el mismo valor para la escala independiente, o que para cada valor de la escala independiente pudiéramos observar cualquier valor en la escala independiente (ver gráfico 1745). 17.3.4.1. Calculo del coeficiente de regresión. Es fácil aunque las operaciones son muy laboriosas.

GRAFICO 175

Cuadro 176 Talla y peso de un grupo de alumnos del curso de Metodología Estadística (Cálculo del coeficiente de regresión) Estatura (X) (2)

Peso ( Y)

(3)

162 58 168 54 155 56 162 60 170 68 160 61 175 70 165 60 168 64 163 69 1640 620 Media 164 Media 62

Desviaciones Desviaciones Desviaciones Desviaciones Producto del promedio del promedio de X al de Y al de la cuadrado cuadrado desviación dx dy dx2 dy2 (dx) (dy) (4) (X- X )

(5) (Y- Y )

2

-2 -6 -9 -2 6 -4 11 1 4 1 0

2

(6) (X- X )

-4 -8 -6 -2 6 -1 8 -2 2 7 0

b =

2

4 36 81 4 36 16 121 1 16 1 316

(7) (Y- Y )

2

16 64 36 4 36 1 64 4 4 49 278

(8) 8 48 54 4 36 4 88 -2 8 7 255

255 = 0,80 kilos 316

Los pasos a seguir en el cálculo del coeficiente de regresión se resumen a continuación: a. Disponer los datos como en el cuadro anterior. b. Obtener el promedio para cada una de las variables en estudio. c. Ver cuánto difiere cada observación de su promedio respectivo. Estas desviaciones se obtendrán primero para una variable y luego para la otra y se anotarán respectivamente en las columnas (4) y (5) del cuadro teniendo cuidado de indicar si son positivas o negativas. d. Elevar al cuadrado las anteriores desviaciones, anotando los cuadrados en las e. Columnas respectivas (6) y (7). f. Totalizar las dos columnas de cuadrados. g. Buscar el producto de las desviaciones obtenidas en el punto (3), para lo cual se multiplicara renglón a renglón las columnas (4) y (5) conservando los signos algebraicos. Totalizar luego estos productos. h. Calcular el coeficiente de regresión, para lo cual se divide el total de la columna de productos por el total de la columna dx2 (desviaciones cuadradas de los valores independiente)

∑ dxdy ∑ dx 2

=

255 = 0,80 kilos 316

17 .3. 4 .2 La línea de regresión.- La línea recta trazada en el grafico 173 recibe el Nombre de línea de regresión. Ella representa una inclinación de 0,8 kilos de peso por cada centímetro de estatura. Dicha línea se puede utilizar para predecir el peso de cualquier individuo cuya estatura se conozca, pero para ello, necesario poderla trazar con absoluta exactitud. La ecuación general de esta línea es:

Y = ( Y – b X ) + bX

En donde: Y = valor de variable dependiente que se quiere conocer dado determinado valor de la variable independiente.

Y y X = promedio de variables de estudio. b X

= coeficiente de regresión. = valor de la variable independiente para el cual se quiere conocer el correspondiente valor de la otra variable (Y)

Ejemplo: se quiere conocer el peso (Y) de un individuo que mide 180 centímetros de estatura (X). Mediante el cuadro 176 sabemos que:

Y

= 62

X = 164 b = 0,80 kilos además: X = 180, ser de la estatura del individuo cuyo correspondiente peso (Y) queremos conocer. Por lo tanto, reemplazando en la fórmula anterior: Y180 = 62 – (0,80 x 164) + (0,80 x 180) Y haciendo los cálculos cuidando poner correctamente los signos algebraicos: Y180 = 62 – 131,2 + 144,0 = 74,8 kilos Es decir, el peso de un individuo de 180 centímetros puede estimarse en 74,8 kilos. En la misma forma, si se quiere averiguar el peso de un individuo de 158 centímetros de estatura: Y158 = 62 – (0,80 x 164) + (0,80 x 158) = 57.2 kilos 3. 4. 3. Limitaciones en la utilización del coeficiente de regresión. El cálculo de b solo debe hacerse cuando el gráfico correspondiente señala que la relación estudiada es lineal. Si no se llena esta condición su cálculo no tiene ningún significado. Por lo demás, el coeficiente no puede aplicarse para predecir valores que excedan los límites de la serie en donde fue calculado. Así por ejemplo, es un hecho que la estatura depende de la edad, pero esto solo es cierto hasta el final de la edad del crecimiento y será absurdo averiguar cuál sería la estatura de un hombre de 50 años, utilizando el coeficiente de regresión. Finalmente, téngase presente que b no es una medida de la intensidad de la asociación que existe entre dos variables. Si b es 800 en lugar de 0,80, esto no significa que en el primer caso la asociación sea 1000 veces mayor que en el segundo caso. El valor de b depende de las unidades de medición que se empleen y puede constatarse con los datos del cuadro 176, en donde b = 0,80 kilos que si hubiéramos expresado el peso de los estudiantes en gramos, entonces b hubiera sido igual a 800.

17. 3. 5. Coeficiente de correlación En un problema de correlación no puede decirse que una variable sea independiente y otra dependiente. Si a un grupo de individuos tomamos el número de pulsaciones y respiraciones, sería igualmente valedero preguntarse qué cambios se producen en el número de pulsaciones al aumentar las respiraciones o viceversa. Para resumir los datos habría que calcular dos coeficientes de regresión: b’ que indicará los cambios en las respiraciones por cada pulsación que aumenta y b’’ que indicará los cambios en el número de pulsaciones al variar las respiraciones. Con el fin de reducir las dos constantes a una sola, se utiliza el coeficiente de correlación r, que es simplemente igual a la raíz cuadrada del producto de los dos coeficientes de regresión mencionados ( b’ y b’’). Por lo tanto: r=

b' xb' '

3. 5. 1. Cálculo del coeficiente de correlación. El cálculo del coeficiente de correlación se hace fácilmente con los datos de cuadro 176 para lo cual se tomará los totales de las 3 últimas columnas, pues siendo r = b' xb' ' , si se considera primero que la estatura, es la variable independiente, entonces, conforme ya se ha visto: b’ =

Σdxdy 255 = = 0,80 kilos Σdx 2 316

y si se considera luego que el peso es la variable independiente, entonces se calculará b’’, para lo cual solo variará el denominador del quebrado: b’’ =

Σdxdy 255 = = 0,91centímetros Σ dy 2 278

y por lo tanto:

r=

b' xb' ' =

255 255 x = 316 278

255 = 0,86 316 x 278

3. 5. 2. Valores de “r”. El coeficiente de correlación puede tener cualquier valor entre –1 y +1. Valores positivos indican que las dos variables aumentan o disminuyen al tiempo: valores negativos significan que cuando una variable aumenta, la otra disminuye o viceversa. (Véase gráfico 181). Si “r “es exactamente igual a –1 o +1, quiere decir que hay una perfecta asociación entre las dos variables, en el sentido de que por cada unidad que aumenta o disminuye una variable, la otra cambia siempre igual número de unidades. En dichas ocasiones los puntos en el gráfico caerían todos sobre una línea recta. Tal sería el caso si a cada aumento de una pulsación correspondiera siempre el mismo aumento en el número de respiraciones (esquema A) o si a cada aumento de una pulsación se observara siempre una misma disminución en el número de respiraciones (esquema B). Si “r “ = 0, significa que no hay ninguna asociación entre las dos variables, o que de existir, no es una relación lineal. El gráfico que entonces se obtendría sería semejante al del esquema C, lo cual

se observaría, si para cada número de pulsaciones pudiera encontrarse cualquier número de respiraciones. Sin embargo, valores de r = 0 o iguales a la unidad, son más bien teóricos. En primer lugar aunque no haya ninguna asociación entre 2 características, las variaciones causadas por el azar suelen dar una correlación aparente. En segundo lugar, aun tratándose de correlaciones perfectas, no es de esperar que r sea exactamente igual a 1, a causa de los errores que se cometa al hacer las observaciones. En la práctica pues, solo se observan valores intermedios entre 0 y ± 1 . Si las pulsaciones y las respiraciones aumentaran o disminuyeran al mismo tiempo, pero sin que a cada aumento de una pulsación corresponda siempre el mismo aumento en las respiraciones, se obtendría un gráfico como el esquema D. Finalmente, si cuando las pulsaciones aumentan las respiraciones disminuyen o viceversa, pero sin que haya la misma variación en las respiraciones por cada unidad que cambia las pulsaciones, entonces se observaría algo como el esquema E. Gráfico 181 Diagrama de puntos que ilustran diferentes grados de correlación A: r = + 1

B: r = - 1

C: r = 0

D: r = 0.50

E: r = - 50

3. 5. 3. Interpretación de “r”. En el ejemplo que nos sirvió para el cálculo del coeficiente de correlación encontramos que r = 0,86. Este valor no debe interpretarse como se hace corrientemente, en el sentido de que el 86% de las variaciones en el peso son causadas por las variaciones en la estatura. Para una interpretación, hay que obtener el Coeficiente de determinación que es la forma más 2 2 2 correcta debe tomarse r . En nuestro ejemplo r = (0,86) = 0,74, nos indica que un 74% de los cambios en el peso se explican por las variaciones de la estatura. Si se hubiera encontrado que r = 2 0,71 y por lo tanto r = 0,50 se concluiría que solo el 50% de los cambios observados en el peso son explicables por las variaciones en la estatura, quedando todavía un 50% de variación no atribuible a esta última variable. La anterior explicación ayuda a comprender por qué coeficientes de correlación menores de 0,50 son por lo general difíciles de interpretar, no debiéndose dar demasiada importancia a tales hallazgos. 17. 3. 5. 4.Recomendaciones finales. Al interpretar las asociaciones entre dos variables, deben tenerse en cuenta, finalmente, los siguientes principios: 1. Asociación no es sinónimo de causalidad. El que una variable aumente o disminuya al mismo tiempo que otra, no quiere decir que los cambios en una, son determinados por la otra. Así por ejemplo, en los últimos años la mortalidad por accidentes y la mortalidad por cáncer pulmonar han aumentado considerablemente sí que pueda decirse que la una sea causa de la otra. Evidentemente los asares de la vida moderna y otros muchos factores que han evolucionado con el tiempo determinan tales ascensos. 2. Las asociaciones encontradas no deben aplicarse indebidamente a valores que excedan los límites de las series estudiadas. Ya dijimos que la estatura aumenta con la edad, pero eso solo es válido hasta el final de la edad del crecimiento y a nadie se le ocurriría predecir la estatura de un adulto de 50 años en base a la anterior asociación. 3. El cálculo de coeficiente de correlación r sólo se justifica cuando el gráfico señala que la asociación estudiada puede ser convenientemente resumida por una línea recta. En algunas ocasiones el gráfico señala claramente que tal asociación no existe, pero si se calcular r podría llegarse a obtener un valor equívoco a causa de la presencia de una valor aberrante como en el caso esquematizado.

Gráfico 183 Diagrama de puntos que muestra una falsa correlación positiva

Por lo demás la relación existente puede no ser lineal. En el esquema próximo r = 0 a pesar de que existe una perfecta relación curvilineal. En ocasiones como esta el cálculo de la correlación es mucho más difícil y al asesoramiento por un técnico estadístico se hace imprescindible. 4. La interpretación del coeficiente de correlación se hará teniendo en cuenta el número de individuos estudiados. En las secciones 7.4 y7.7 señalamos que al obtener muestras repetidas de una población los promedios de estas no siempre eran iguales. a. Gráfico 184 Perfecta correlación curvilíneal en donde r = 0

De la misma manera, si muestras repetidas se extraen de determinado universo y para cada una se calcula el coeficiente de correlación o el de regresión, dichos coeficientes, como sucede en el promedio, pueden diferir del verdadero valor del universo en una cantidad más o menos apreciable. Sin embargo, mientras mayor sea el tamaño de la muestra, menor variabilidad presentarán dichos coeficientes y mayor será su validez. Se ha visto por ejemplo que aun en poblaciones en las cuales no existe ninguna asociación (r = 0 por lo tanto) es posible encontrar valores de r tan altos como 0,30 para muestras de 40 individuos, debido simplemente a accidentes del muestreo. Esta es una nueva dificultad para la interpretación del coeficiente de correlación, la cual debe tenerse siempre presente, para no dar mucha importancia a valores de r que se basen en muestras muy pequeñas. b. Cuando se estudia un grupo grande de individuos es necesario agrupar los datos en un número conveniente de clases, con el fin de facilitar las complicaciones, las cuales sin embargo siguen siendo muy laboriosas y se prestan a múltiples equivocaciones cuando se carece de práctica. Si el investigador no puede recurrir al asesoramiento de un técnico estadístico es preferible analizar los datos a la manera descrita anteriormente, pues el tiempo adicional consumido en tal análisis, queda compensado por errores de cálculo que han podido evitarse. Si la realización de una investigación ha exigido meses de trabajo, unas cuantas horas destinadas a su análisis estadístico no representa una inversión inútil.

CAPITULO XVIII SERIES CRONOLÓGICAS Las series cronológicas son aquellas que estudian la variación de un fenómeno a través del tiempo. El fenómeno estudiado puede referirse a: los casos o muertes de una enfermedad, al ingreso per cápita de una colectividad, al número de estudiantes universitarios, etc. El análisis de una serie cronológica puede tener por único propósito, describir la marcha histórica de un fenómeno. Sin embargo, habitualmente se persigue evaluar los cambios ocurridos por la introducción de alguna actividad particular o resumir la evolución de un fenómeno con miras a predecir su posible ocurrencia en el futuro. Cualquiera sea el propósito, el análisis de tales series es por lo general difícil, y aquí solo se explicarán las técnicas más corrientes, no debiéndose olvidar, que la presentación tabular y gráfica es paso previo indispensable para decidir sobre el análisis. 18.1. Presentación tabular. Como ya se vio anteriormente, el cuadro que resume una serie cronológica consta habitualmente de dos columnas: la primera se destina a la escala del tiempo y la segunda a la inscripción del número de veces que acaeció el fenómeno estudiado. Sin embargo, cuando se describen las variaciones de una población, es conveniente colocar una tercera columna de tasas, las cuales señalan la frecuencia con que se presentó el fenómeno por cada 1.000, 10.000 o 100.000 habitantes, etc., con lo cual se facilitan grandemente las comparaciones. Cuadro 187 Tuberculosis. Mortalidad estimada y tasas por 100.000 habitantes. Venezuela, 1956 – 1960

Año

1956 1957 1958 1959 1960

Número estimado de defunciones

2843 2835 2459 2275 2111

Tasa x 100,000 hab. 45,0 43,0 36,2 32,3 29,5

Fuente: Anuario de Epidemiología y Estadística Vital. Venezuela. 1960. 18.2. Presentación gráfica. Los gráficos utilizados para la presentación de las series cronológicas ya fueron descritos anteriormente, pudiéndose utilizar el papel aritmético corriente o el semilogarítmico. Se recordará, que cuando el interés está en conocer los cambios absolutos en el periodo, debe preferirse la escala aritmética, pero si por el contrario se desea estudiar los cambios relativos de la serie, el papel semilogarítmico es preferible. En los estudios médicos, por lo general el mayor interés se encuentra en conocer los cambios absolutos ocurridos: en averiguar por ejemplo, cuántas vidas se han salvado o cuántos casos de determinada enfermedad se han evitado, en tales ocasiones el gráfico en papel aritmético debe por consiguiente ser utilizado. 18.3 Análisis de las series cronológicas.

Los fenómenos cambian de intensidad en las diversas épocas del año (variaciones estacionales); presentan alzas y bajas de unos años a otros (ciclos anuales), y para largos periodos pueden permanecer más o menos estacionarios o manifestar una tendencia hacia el aumento o el descenso (tendencia secular). Considérese por ejemplo el caso de Tosferina en Venezuela. A partir de 1936 cuando se fundó el Ministerio de Sanidad, la enfermedad ha venido en franco retroceso gracias a las diversas medidas preventivas realizadas (tendencia secular hacia el descenso). Sin embargo cada cuatro años se observa un aumento en el número de casos pues los niños que nacen en el periodo forman una población de susceptibles que favorecen a la propagación de la enfermedad (ciclos anuales). Finalmente, puede constatarse que para cada año, la enfermedad tiene predominancia durante los meses de noviembre y diciembre, época del año en la cual parece que las condiciones ambientales son propicias para la multiplicación del bacilo (variación estacional). Es a consecuencia de la ocurrencia conjunta de estos tres tipos de variación, que el análisis de las series cronológicas se dificulta. Mientras que el examen de las tendencias seculares solo es factible cuando se hace abstracción de las pequeñas variaciones que ocurren cada año, se comprende fácilmente que los cambios anuales solo pueden interpretarse tomando en consideración las variaciones cíclicas y seculares del fenómeno. Desconocer la anterior interrelación ha conducido frecuentemente a numerosos errores de interpretación. Observe por ejemplo el esquema siguiente, el cual representa una enfermedad con exacerbaciones cada 10 años: 1940. 1950, 1960. Si un investigador estudiara el decenio 1950-1959, llegaría a l conclusión de que la enfermedad ha descendido considerablemente, pero si otro investigador estudiaría el decenio 1951-1960 concluiría que la enfermedad se ha incrementado. Una simple ojeada al grafico mostraría que la enfermedad continua estacionaria a pesar de lo asensos que aparecen cada 10 años. En cualquiera de los casos anteriores, el grafico de una serie cronológica es muy importante, pues de una simple mirada, podemos apreciar las variaciones habidas en lapso estudiado. Si se quiere no obstante expresar la magnitud de las variaciones observadas, será necesario recurrir a otros métodos, cuya escogencia depende de gran parte del aspecto que presenta los datos previamente acentuados en el gráfico. Cuando el grafico muestra que la serie asciende o desciende en forma más o menos lineal, el análisis es bastante sencillo y cualquiera de las técnicas que a continuación se describen pueden ser utilizadas GRAFICO 189 Enfermedades con ciclos epidémicos decenales

Si la serie presenta por el contrario muchas irregularidades o si el grafico muestra que su tendencia es más bien curvilínea, entonces el análisis es mucho más complicado. La suavización de los datos mediante el método de los promedios móviles descrito en la sección 18.3.1.3. puede servir de ayuda en la descripción de estas series. 18.3.1. Líneas de Tendencia Este método consiste en buscar la línea o curva que represente mejor los datos estudiados, en tal forma, que sin tenerse en cuenta las fluctuaciones menores, se destaque la tendencia general a través de los años. Dicha línea o curva viene a ser una línea promedio y mediante ella puede leerse en la ordenada, los valores que corresponden a las distintas fechas. Aunque existen técnicas matemáticas especiales para encontrar la mejor línea en cada caso, debido a su complejidad, solo mostraremos métodos aproximados más sencillos. 18.3.1.1 Línea de tendencia a mano libre. Una vez hecho el grafico con los datos correspondientes, se traza a mano una línea recta o curva, que aproximé lo más fielmente los hechos descritos, evitando prolongar el trazo más allá del periodo en cuestión. Desde luego, que si prolonga la línea un poco más allá del último año estudiado, se podrá predecir la intensidad del fenómeno en los años futuros. Sin embargo, tales estimaciones asumen que el fenómeno investigado varia en la misma forma que en el pasado, lo cual no siempre es verdadero, y de ahí que por lo general solo son correctas cuando se hacen por el inmediato futuro. Por lo demás, el método es solo aproximado, pues es difícil que dos personas distintas obtengan los mismos resultados. 18.3.1.2. Línea de tendencia usando semipromedios. Este método solo debe utilizarse cuando el grafico de los datos señala que ellos pueden ser representados por una línea recta. Con los datos del cuadro 187 se procederá de la forma siguiente: a. L os datos del periodo que se estudia se divide en dos grupos iguales y en cada uno se obtendrá el promedio respectivo. Si el número de años es impar como en el ejemplo presente , el año de la mita se incluirá en ambos promedios

Años Tasas 1956 45,0 1957 43,0 ……………………………… …………………… 1958 36,2 1959 32,3 1960 29,5 ……………………………………….

Por lo tanto los semipromedios serán:

124.2 45.0 + 43.0 + 36.2 = = 41.4 3 3

……… . . . ………

36.2 + 32.3 + 29.5 98.0 = = 32.7 3 3 b. En el grafico previamente elaborado se asentaran los dos semipromedios obtenidos, mediante dos pequeñas cruces. Cada cruz debe ir en la mitad del espacio destinado para el periodo. Puede verse en el grafico que sigue, que como el primer periodo se refiere a los años 1956, 1957 y 1958, el promedio se inscribe al frente del año 1957, que es el año central. Gráfico 191 Mortalidad Estimada Por Tuberculosis, Venezuela, 1956 – 1960

Fuente: datos del cuadro 187 18.3.1.3. Línea de tendencia con promedios móviles. Cuando las variaciones de las series son muy irregulares es a veces difícil captar con la claridad la tendencia general del fenómeno que se estudió. En tales ocasiones puede recurrirse a suavizar los datos mediante los promedios móviles. Según el número de términos de la serie, puede calcular promedios móviles que incluyen 3,5 o más años a la vez. En general, mientras mayor el número de años que se incluyen en la obtención de los promedios, más regular se hace la línea de tendencia, pero en esos casos, más probabilidad hay de que se pierdan importantes situaciones de la serie que se estudia y de ahí que el número de los escogidos, no debe ser tan numeroso. Para ilustrar la obtención de estos promedios, tomaremos los casos de Lepra, conocidos en el área de Notificación Organizada durante el periodo 1941-1960. Dicha área comprende aquellas regiones del país en las cuales los servicios sanitarios están bien organizados, en tal tema que los datos sobre morbilidad y mortalidad se conocen de manera bastante exacta.

Cuadro 192 Lepra. Casos notificados por 100000habitantes. Área de notificación organizada 1941 – 1960. (Cálculo de promedios móviles para 5 años) Años 1941 1942 1943 1944 1945 1946 1947 1948 1949 1950 1951 1952 1953 1954 1955 1956 1957 1958 1959

Casos x 100.000 habitantes.

Totales móviles 8,3 8,9 11,3 9,8 8,9 10,6 10,2 8,2 8,9 11,0 12,3 8,1 8,2 7,7 5,1 5,0 4,2 4,9 7,3

Promedios Móviles 47,2 49,5 50,8 47,7 46,8 48,9 50,6 48,5 48,5 47,3 41,4 34,1 30,2 26,9 26,5 26,7 -

9,4 9,9 10,2 9,5 9,4 9,8 1,1 9,7 9,7 9,5 8,3 6,8 6,0 5,4 5,3 5,3 -

Fuente. Anuario de Epidemiología y estadística Vital Venezuela 1960 Los datos del cuadro anterior pueden suavizarse calculando promedios móviles de 5 en 5 años. Para ello: a. Se sumaran las tasas de los 5 primeros años disponibles y esta cifra, la cual representa el total para el primer quinquenio, se colocara frente al año intermedio (1943). b. Los totales sucesivos se obtendrán excluyendo del total precedente el primer año del quinquenio y añadiéndole el siguiente año (1941 a 1945). (1942 a 1946) (1943 a 1947), etc. c.

Se obtendrán los promedios móviles dividiendo por 5 cada una de las cifras de la columna anterior.

d. Una vez obtenidos estos promedios, se inscribirán en el mismo grafico en el cual se hayan inscrito los datos originales.

Gráfico 193 Lepra; tasas observadas y promedios móviles, 1941-1960

Fuente: Datos de cuadro 192 Se observa en la serie anterior que no ha podido calcularse un promedio móvil para los 2 primeros y los 2 últimos años, pues ellos se basan en datos que no figuran en el cuadro. Si los promedios hubieran sido para tres años, en tal caso no se hubiera podido calcular el promedio para el primer año y para el último de la serie. A pesar del uso frecuente de los promedios móviles, ellos pueden ocultar oscilaciones importantes de la serie o dar origen a dar irregularidades ficticias. Puede observarse en la serie anterior que en los años en los cuales las tasas fueron elevadas, se hacen menos aparentes, pero el ascenso se manifiesta dos años antes y termina dos años después. 18.3.2 Variación promedio anual Consiste en averiguar mediante una simple resta, cual ha sido el aumento o el descenso absoluto observado en el periodo y dividir por el número de años correspondientes, con el fin de obtener la variación promedia anual. En el ejemplo del cuadro 187, como la enfermedad descendió de 45.0 en 1956 a 29.5 en 1960 o sea un descenso de 15.5 al dividir por 4 (1960 – 1956= 4), obtendremos que la tasa disminuyo 3.9 cada año. Observe que hemos dividido por 4 y no por 5, pues en el periodo solo hay en realidad 4 descensos anuales y no 5. Conviene insistir en dos observaciones finales: a) el método sólo debe utilizarse cuando la representación gráfica de los datos sigue más o menos una línea recta; b) proyecciones futuras solo deben hacerse para años inmediatos. Observe que de acuerdo a nuestros datos, puede estimarse que la tasa para 1961 será 25.6 (29.5 en 1960 – 3.9 = 25.6) pero si la proyección fuera para 1970 se obtendrían un valor negativo (29.5 – 10 x 3.9 =-9. 5. 18.3.3 Ascenso y descenso porcentual

Para obtener el ascenso o descenso porcentual para el período se buscara la diferencia existente entre los datos para el año inicial y los del año terminal del periodo y se dividirá por la frecuencia correspondiente al año inicial. El resultado se multiplicara por 100 para expresarlo en forma de porcentaje. En los da tos anteriores se ve que el cambio porcentual para el período fue de:

Se observara que en este cálculo, al igual que en el método anterior, sólo se toman en cuenta los valores del primero y del último año y el resultado siempre será igual cualesquiera que sean las cifras intermedias. De ahí que el método solo debe usarse, cuando los datos ascienden o descienden siguiendo una línea recta. 18.3.4. Línea de regresión en series cronológicas Cuando la serie estudiada puede resumirse adecuadamente por una línea recta, como en los datos del cuadro 187, las técnicas de regresión son aplicables. El cálculo del coeficiente de regresión da una mejor estimación del cambio anual que experimenta el fenómeno que se estudia, pues toma en cuenta todos los valores de la serie, y no solamente los valores inicial y terminal. Los cálculos son idénticos a los aprendidos en el capítulo XVII, pero reemplazados los años 1956, 1957, etc. por 1, 2, 3, etc.

b=

− 41.7 = - 4.17 10

Lo cual indica que en promedio, la tasa desciende en 4.17 cada año. La ecuación de la línea según se ha estudiado, será: Y= Y-

bX + bX = 37.2 – (- 4.17 x 3)+ (-4.17X) = 49.7 – 4.17 X

Si se desea saber cuál será la tasa a esperar en 1961 (sexto año de la serie); bastaría reemplazar por 6, la incógnita de la fórmula anterior: Y1961= 49.7 – (4.17 x 6)=49.7 – 25.0 = 24.7

CAPITULO XIX MEDICIÓN DEL ERROR POR MUESTREO: ERROR ESTÁNDAR Y SUS APLICACIONES 19.1. Introducción. Al resumir los resultados de un estudio mediante, cualquiera de las medidas estadísticas acabadas de ver (promedios, porcentajes, etc.), hay que tener en cuenta que tales constante pueden adolecer de los mismos defectos que presentan las mediciones individuales. Los errores debidos al observador, al objeto observado método de observación, pueden algunas veces desaparecer al utilizar una medida de resumen o hacer al contrario más aparentes. Un observador a causa de su impericia o fatiga puede registrar como negativos exámenes que en realidad son positivos. Una técnica defectuosa, la pérdida de potencia de los reactivos utilizados o la observación de los individuos bajo condiciones desfavorables, pueden conducir a cometer el mismo error .En tales casos, al resumir los resultados encontrados, el número de reacciones positivas será mucho menor de lo que en realidad es a causa de que se ha cometido un error sistemático en una misma dirección. Otras veces, los errores que se cometen no se hacen siempre en una misma dirección. Al tomar el metabolismo basal de un grupo de individuos , unas veces se peca por exceso y otras por defecto y en tales casos ,al resumir los resultados mediante un promedio por ejemplo, los errores en más o menos, tienden a compensarse y el promedio así calculado representara el verdadero valor o un valor muy cercano al que quiere conocerse. En realidad no existe ningún método estadístico que permita valorar exactamente los anteriores errores una vez cometidos. Una perfecta preparación de los observadores, un control adecuado de las técnicas y aparatos utilizados en las observaciones y la estandarización de un método que permita estudiar a todos los individuos en las mejores condiciones serán imprescindibles para reducir a un mínimo tales errores. 19.2 Error por muestreo Existe sin embargo otro tipo de error susceptible de controlarse estadísticamente. Conforme hemos mencionado previamente por lo general resulta imposible estudiar la totalidad de la población en la cual puede observarse determinado fenómeno, teniendo que limitarnos al estudio de una muestra de dicha población. Pero de la misma manera que los individuos difieren unos de otros, las diferentes muestras formadas con ellos diferirán también unas de otras, dando origen nuevamente a una nueva fuente de error. Ese error el cual se debe simplemente al hecho de que no estamos estudiando la totalidad del universo solo una porción de él, se conoce con el nombre de Error por Muestreo y el representante en realidad la diferencia que hay entre el valor dado por la muestra y el verdadero valor del universo que tratamos de averiguar a través del estudio de aquel. 19.2.1 Medición del error por muestreo: Error Estándar. La constante estadística que permite la medición del error por muestreo recibe el nombre de error estándar. Desde luego que cada una de las medidas de resumen conocidas tendrá su correspondiente error estándar. Podrá hablarse por consiguiente del error estándar del promedio, del error estándar de un porcentaje o del error estándar de coeficiente de correlación, etc. y las fórmulas utilizadas para su cálculo varían en cada caso.

19.2.2 Origen del Error estándar. Aunque es difícil explicar sucintamente el origen del error estándar los resultados de la demostración práctica comentados en la sección 7.7 y ayudaran a su comprensión. Según se vio entonces si de una población determinada se obtiene un número grande de muestras del mismo tamaño en cada una se calcula el promedio, estos promedios se distribuirán alrededor del verdadero valor del universo formando una curva normal. Por consiguiente como los promedios del conjunto de muestras extraídas de determinado universo se distribuye alrededor del verdadero valor del universo formando una curva normal, puede afirmarse: que ninguna muestra diferirá del valor del universo en más de tres veces la desviación estándar, pues ya se sabe que entre X la curva.

± 3D.E. se encuentra prácticamente el 100% del área de

Ahora bien, si con el fin de averiguar el verdadero valor del promedio de determinado universo, se obtiene una muestra y se calcula su promedio, esto no será exactamente igual al del universo, pero si conociéramos la desviación estándar de un conjunto de muestras extraídas de dicho universo bastaría tomar X ± 3D.E. para determinar los limites dentro de los cuales se encuentra el promedio del universo que se quiere conocer. Sin embrago, para calcular este desviación estándar habría necesidad de obtener, digamos 100 o 200 muestras diferentes, lo cual es impráctico, pues en la investigación real se extraen solamente una muestra y a partir de ella, se tratara de conocer la población de donde procede. No obstante, se ha demostrado que la desviación estándar de un conjunto de muestras obtenidas de determinada población, puede estimarse con bastante exactitud a partir de una sola muestra. Esta constante estadística, mediante la cual se estima la verdadera desviación estándar de un conjunto de muestras, que recibe el nombre de Error estándar. Con el fin de contestar que tan bien el error estándar puede estimar la desviación estándar de un conjunto de muestras, volveremos nuevamente a los resultados de la demostración de la sección 7.7 en dichas demostraciones como se recordara teníamos un universo de metras en el cual el 50% eran blancas y de él extrajeron 150 muestras de 10 metras cada una. El resultado es obtenido entonces los que se copian en el siguiente cuadro, en el cual se han añadido las dos últimas columnas para el cálculo del promedio y la desviación estándar. El promedio y la desviación estándar calculados por los métodos estudiados por el capítulo XVI son respectivamente (véase cuadro 200)

X

=

7420 = 49.5% 150

D.E =

407000 − (49.5) 150

2

= 16.3%

CUADRO 200 Distribución de 150 muestras de 10 metras cada una, de acuerdo al porcentaje de metras blancas obtenidas (Cálculo del promedio y la Desviación Estándar)

Porcentaje de metras blancas

N° de muestras observadas 0 3 6 0 30 36

0 10 20 30 40 50

FX 0 30 120 600 1.200 1.800

FX2 0 300 2.400 18.000 48.000 90.000

60

Calculemos ahora el error estándar de esta serie, para apreciar si él realmente estima la desviación estándar acabada de obtener. La fórmula para calcular el error estándar de un porcentaje, que será estudiada con más detalle en la sección 19.4.2., es la siguiente:

𝐸. 𝐸 = �

en donde:

𝑝∗𝑞 𝑛

p = porcentaje de metras blancas en el universo (50% en nuestro ejemplo). q = porcentaje de metras no blancas = 100 - p = 50% n = tamaño de la muestra (10 en nuestro ejemplo). Reemplazando en la fórmula los anteriores valores:

𝐸. 𝐸 = �

50 𝑥 50 = √250 = 15.8 % 10

Puede apreciarse que este valor estima con bastante exactitud la desviación, estándar calculada anteriormente, que fue 15.8%. 19.2.3. Desviación Estándar y Error Estándar. Antes de seguir adelante, conviene tener en cuenta la diferencia que hay entre la desviación estándar y el error estándar. La desviación estándar, como hemos señalado, sirve para indicar la variación que presentan los individuos de una muestra, alrededor de su promedio. El error estándar por su parte, mide la variación de un conjunto de muestras y puede considerarse, por lo tanto, como la desviación estándar de un conjunto de muestras.

Por lo tanto, si queremos describir la manera como se distribuyen alrededor del promedio los individuos de la muestra que estamos estudiando, debemos calcular la desviación estándar, pero si lo que deseamos es saber cómo se distribuyen los promedios de diferentes muestras alrededor del verdadero valor del universo, entonces debemos calcular el error estándar. 19.2.4. Interpretación del Error Estándar. Como este error no es otra cosa que la desviación estándar de un conjunto de muestras, los conceptos estudiados a propósito de esta son también aplicables a él y por lo tanto, podemos afirmar que:

� = 1𝐸𝐸 incluye aproximadamente el 68% de las observaciones. 𝑋 � = 2𝐸𝐸 incluye aproximadamente el 95% de las observaciones. 𝑋

AREAS DE LA CURVA NORMAL

Diferencia E.E: Diferencia observada, expresadas en unidades de curve normal. Esta columna también se refiere al intervalo comprendido entre el promedio y determinada múltiplo de la D.E.

P: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia igual o mayor de la observada o proporción de los individuos estudiados que se encuentran fuera de los limites comprendidos entre el promedio más sanos al múltiplo de la D.E indicado en la columna anterior. IP: Probabilidad de acuerdo a la curva normal, de encontrar una diferencia menor que la observada o proporción de los individuos estudiados que se encuentran entre los limites comprendidos entre el promedio más sanos múltiplo de la D.E. X

± 3 E.E. incluye aproximadamente el 100% de las observaciones.

Lo anterior puede expresarse en otra forma, quizás no correcta desde el punto de vista matemático puro, pero fácil de comprender para quienes poseen escasos conocimientos matemáticos. En vez de decir que entre el promedio del universo más o menos dos veces su error estándar se encuentra el 95% de los promedios de las muestras que de él puedan obtenerse, podría decirse que solo el 5% de las muestras extraídas de determinado universo, diferirán de él en más de dos veces el error estándar o lo que es lo mismo, si afirmamos que el verdadero promedio del universo se encuentra comprendido entre el promedio de la muestra más o menos dos veces su error estándar, tendremos la seguridad de estar en lo cierto en un 95% de las veces. (Recuérdese nota de la página 157). De la misma manera, al afirmar que el promedio del universo se encuentra comprendido entre el promedio de la muestra más o menos 3 veces su error estándar, tendremos la seguridad de estar en lo cierto, prácticamente en un 100 de los casos. 19.3. Certeza absoluta. Certeza relativa. La explicación anterior parecería indicar que al hacer afirmaciones como las ilustradas, debiera buscarse siempre una certeza del 100%, usando el promedio más o menos 3 veces el error estándar. Sin embargo, las siguientes explicaciones permitirán comprender por qué esto no es siempre posible. Cuando afirmamos un hecho, se tiene una de las siguientes posibilidades: • • • •

afirmar que es cierto, algo que en realidad es cierto. afirmar que es falso, algo que en realidad es falso. afirmar que es verdadero, algo que es falso. afirmar que es falso, algo que es verdadero.

Reconocer que es cierto o falso, algo que en realidad lo es, constituye la meta de todo investigador, buscándose evitar los errores envueltos en las 2 últimas afirmaciones. Sucede sin embargo, que en estadística, mientras más procuramos no cometer el primer error, mayores probabilidades tenemos de cometer el segundo. En el esquema siguiente se representan dos universos, uno de sanos y otro de enfermos. Si se toman 3 errores estándar a cada lado, se tendría la seguridad que ningún individuo enfermos dejaría de reconocer como tal, pero al mismo tiempo algunos sanos se están incluyendo como enfermos (falsos positivos), ahora estamos decidiendo que es cierto algo que en realidad es falso. Si no queremos cometer el anterior error, podemos tomar 2 lados estándar en lugar de 3 y entonces ningún individuo sano se incluirá como enfermo, pero en tal caso, algunos individuos realmente se dejarían de reconocer como tales (falsos negativos), es estamos reconociendo como falso algo que es realmente verdadero.

Gráfico 204 Lustración de los errores que pueden cometerse en la comparación de 2 muestras

Puede observarse que mientras más procuramos no cometer el primer error, más caemos en el segundo y viceversa. Por lo tanto, aspiramos a tener un 68%, un 95% o un 100% de certeza en nuestras afirmaciones, depende del problema de que se trate. El siguiente ejemplo servirá para aclarar este punto. Imaginemos un nuevo tratamiento sobre el cual se tienen favorables indicios en cuanto a su efectividad, pero cuya aplicación presenta cierta peligrosidad. Si el tratamiento es para una enfermedad relativamente benigna, como la difteria, descaremos tener una certeza así absoluta de que es efectivo, pues existiendo otros medios terapéuticos para la enfermedad, no correremos el riesgo de recomendar una su aplicación. 19.4. Cálculo del error estándar. Se ha señalado que cada una de las medidas de resumen tiene su correspondiente error estándar. A continuación se señalan las fórmulas utilizadas para calcular el error estándar de un promedio y el de un porcentaje. Otras fórmulas se explicarán a medida que sea necesario. 19.4.1. Error Estándar de un promedio (Error típico).

𝐸. 𝐸 =

𝐷. 𝐸

En su cálculo se seguirán los siguientes pasos:

√𝑛

1. Calcular el promedio de la serie. 2. Calcular la D.E. por el método conocido. 3. Dividir la D.E. por la raíz cuadrada del número de observaciones incluidas en la muestra. El valor así obtenido es el error estándar del promedio. 19.4.2. Error Estándar de un Porcentaje.

En esta fórmula:

𝐸. 𝐸 = �

𝑝∗𝑞 𝑛

p: es el porcentaje de personas que poseen determinadas características, y, q: el porcentaje de personas que no la poseen. Si en un grupo de personas que se estudian, el 25% son hombres. P = 25% y q = 75% Por lo tanto, conociendo “p” se conocerá el valor de “q”, pues q = 100 - p 19.5 Utilización del error estándar. El error estándar se utiliza para 3 fines principales: 1. Para conocer dentro de que límites se encuentra el verdadero valor del universo. 2. Para estimar el tamaño que debe tener una muestra para lograr determinada precisión. 3. Para saber si una muestra procede o no de determinado universo. Las dos primeras de estas aplicaciones se estudiarán a continuación y en cuanto a la tercera, será vista a propósito de los estudios comparativos. 19.6. Estimación de valor del universo. Aunque el investigador toma una muestra con el fin de inferir partir de ella el verdadero valor de la totalidad del universo, los resultados arrojados por la muestra no corresponden exactamente a los del universo. Si con el fin de calcular la estatura promedio de alumnos de la Universidad, estudiamos un grupo de 400 jóvenes encontramos que el promedio es 160 centímetros, esta cifra no representa exactamente el verdadero valor para todos los universitarios, aunque sí es una cifra muy aproximada. Pero, ¿qué tan aproximada es esa estimación? El cálculo del error estándar, nos permitirá dar contestación a esta pregunta. De acuerdo a la investigación que se haya realizado, se presentan los casos diferentes: 1. Estimar el promedio del universo. 2. Estimar el porcentaje del universo. El procedimiento general es el mismo, pero el cálculo del error estándar se hará utilizando las correspondientes fórmulas vistas anteriormente. 19.6.1. Estimación del verdadero promedio del Universo. Ejemplo: Con el fin de conocer la edad promedio de los 20.000 estudiantes de la Universidad Central, se estudió una muestra de 400 alumnos, encontrándose que su promedio fue 23 años y la desviación estándar 2 años. En base al resultado de esta muestra, se desea saber dentro de que límites se encuentra el verdadero promedio de los 20.000 estudiantes. Se desea poder hacer tal afirmación con un 95% de certeza. Procedimiento: El error estándar de la muestra (sección 19.4.1.) será:

𝐸. 𝐸 =

𝐷. 𝐸 √𝑛

2

=

√400

=

2 = 0,10 𝑎ñ𝑜𝑠 20

Como al tomar 2 E.E. a uno y otro lado del promedio tendremos una certeza del 95%, entonces:

X ± 2 E.E. = 23 ± 2 x 0,10 = 23 ± 0.2 es decir, que el promedio verdadero de la edad de los universitarios estaría entre 22,8 años y 23,2 años. Si los límites anteriores parecieran muy amplios, es decir, si se quisiera lograr mayor exactitud en los resultados, sería necesario aumentar el tamaño de la muestra, pues como señala la fórmula, mientras mayor el número de individuos estudiados, mayor el denominador del quebrado y menor por consiguiente el error estándar. Así por ejemplo, si en vez de 400 estudiantes se hubieran estudiado 1.600 y se hubiera encontrado el mismo promedio y la misma desviación estándar, entonces el error estándar sería:

𝐸. 𝐸 =

2

√1600

=

2 = 0,20 𝑎ñ𝑜𝑠 40

y los límites dentro de los cuales estaría la edad promedio de los 20.000 universitarios sería: 23

± 2 x 0.05 = 23 ± 0,1

es decir, entre 22,9 y 23, 1 años. 19.6.2 Estimación del verdadero porcentaje del universo. Ejemplo: Con el fin de conocer el porcentaje de personas vacunadas contra la viruela, en una población de 20 000 habitantes se estudió una muestra de 400 personas, de las cuales 300 estaban vacunadas, es decir, un 75%. En base al resultado anterior se desea saber dentro de que límites se encuentra el verdadero porcentaje de vacunados en la población. Se desea hacer tal estimación con un 95% de certeza. Procedimiento: El error estándar de la muestra se calcula mediante la fórmula:

E.E. =

pq n

en donde “p” porcentaje de personas vacunadas en la muestra (75%) y “q” porcentaje de personas no vacunadas, o sea, 100 – 75 = 25%

(E. E.) =

75 * 25 = 400

4.69 = 2.16

Como al tomar 2 errores estándar tenemos una certeza del 95%, podemos afirmar que el verdadero porcentaje de vacunados, estará entre:

75%

± 2 (2.16) = 75 ± 4.3, es decir, entre el 70.7 % y 79.3%

Lo mismo que en el caso anterior si estos límites parecen muy amplios y se desea mayor precisión, podrá lograrse aumentando el tamaño de la muestra. Así por ejemplo, si hubiera estudiado 1600 personas en vez de las 400 estudiadas y asumiendo que si hubiera obtenido el mismo 75% de vacunados el E.E sería:

75x 25 = 1.17 = 1.08 1600 y los límites estarían entre: 75

± 2 (1.08) = 75 ± 2.2, es decir, entre 72.8% y 77.2%.

19.7 Tamaño de la muestra (n). Algo que inquieta frecuentemente al investigador, es el tamaño de la muestra que debe utilizar. Esta preocupación es obvia, pues si la muestra es demasiado pequeña los resultados pueden carecer de validez y si es demasiado grande, quizás represente al gasto de energías y recursos. El tamaño de la muestra depende principalmente, de los siguientes factores: 1. Variabilidad del universo que se estudia, pues mientras más variable sea este, mayor ha de ser el tamaño de la muestra. 2. Precisión que se quiere en los resultados, es decir, magnitud del error que podemos tolerar. Se comprende que para afirmar el promedio del peso de un grupo de individuos está entre 40 y 60 kilos, se necesitará una muestra mucho más pequeña que si quisiéramos afirmar, que dicho promedio está entre 50 y 51 kilos. 3. Margen de certeza que se desea obtener (95% o 99%), pues para determinada precisión mientras mayor sea la certeza que se busca, mayor debe ser el tamaño de la muestra. 4. Como la precisión a que se aspire y la certeza que se desee, dependen del problema que se estudie, podemos señalar que el tamaño de la muestra dependerá en parte de la aplicación que se va a dar a los resultados que se obtengan (ver 19.3). Para fijar el tamaño de la muestra debemos en primer lugar decidir sobre el margen de certeza que deseamos y sobre la precisión que aspiramos en nuestros resultados. Luego, suponiendo por ejemplo, que deseemos un 95% de certeza, mediante la igualdad: precisión deseada = 2 E.E., nos será fácil despejar n. Como se ilustra en los siguientes párrafos en los cuales se estudia separadamente el caso de los promedios y de los porcentajes. 19.7.1 Tamaño de la muestra en la estimación de un promedio. Ejemplo: para conocer el promedio de peso de un grupo de escolares, se desea tomar una muestra, en tal forma que el promedio estimado no difiere más de ½ kilo del verdadero valor del universo, y que se pueda afirmar con un 95% de certeza que dicho resultado es correcto. Como se quiere tener un 95% de certeza, hay que tomar 2 errores estándar, pues ya sabemos que el 95% de las observaciones se encuentran en el intervalo determinado por:

x ± 2 E.E. Esto quiere decir que el promedio de la muestra no debe diferir en más de 2 E.E, del promedio verdadero del universo, o sea que si P es la precisión deseada o máximo error que podemos tolerar, entonces podemos escribir:

P = 2 E.E Y como ya sabemos que el error estándar del promedio es igual a:

D.E

, reemplazando en la

n igualdad anterior tendremos: P=2

D.E n

y por simple despeje algebraico encontramos que el tamaño de la muestra será: n=(

2 D.E 2 ) P

( ∗)

Antes que debamos responder cuál debe ser el número de individuos que hay necesidad de estudiar, es necesario conocer el valor de la Desviación Estándar. Es lógico que este valor solo puede conocerse una vez que se haya hecho la investigación, pero un valor aproximado puede obtenerse consultando la opinión de algún experto, o basándose en un estudio previo o recurriendo a una encuesta piloto. Generalmente un conocimiento de la población que vamos a estudiar nos permite predecir la variación que se encontrará. Así por ejemplo podemos decir casi con seguridad –sin que ello sea difícil- que el peso de los escolares presentará variaciones entre 30 y 48 kilos. Ahora bien, como la desviación estándar es aproximadamente 1/6 de la amplitud total de la serie (pues X ± 3D.E incluye la totalidad de la curva) podemos estimar, en el ejemplo dado, que: D.E. =

48 − 30 = 3 6

Si admitimos que para nuestro ejemplo presente D.E. = 3, entonces, con el fin de no cometer una equivocación mayor de ½ kilo (P = 0.50), el tamaño de la muestra sería: n=(

2X 3 2 2 D.E. 2 ) = ( ) = 144 0,5 P

Es decir, que nuestra muestra de constar aproximadamente de 150 individuos. 19.7.2 Tamaño de la muestra en la estimación de un porcentaje. Ejemplo: Se desea conocer con un 95% de certeza y sin cometer un error mayor de 3%, el porcentaje de mujeres que hay en la Universidad. Como se quiere tener un 95% de certeza hay que tomar 2 E.E. y por lo tanto; P, la precisión deseada sería: P = 2 E.E. y como se sabe que el error estándar de un porcentaje es igual a 2

pq /n reemplazando en la

equivalencia anterior:



Como

X

= 2.58 cubre el 99% de las observaciones, si se quisiera una certeza del 99% la fórmula quedaría: n =(

2.58 D.E p

)2

P=2

pq /n

de donde, finalmente, se deduce que el tamaño de la muestra será:

4 pq ( ∗) n = P2 De nuevo hay necesidad de tener un valor aproximado de p, es decir, conocer aproximadamente el porcentaje de mujeres en la Universidad. Este valor no necesita que sea muy preciso, pues note como p + q = 100, el producto de p x q es más o menos igual, si “p” varía dentro de los límites prudenciales: Si p = 40 entonces 40 x 60 = 2.400 Si p = 50 entonces 50 x 50 = 2.500 Si p = 60 entonces 60 x 40 = 2.400 Si en el ejemplo presente suponemos que alrededor del 20% de los estudiantes son mujeres (p = 20%), el número de individuos que debería tener la muestra con el fin de no cometer un error mayor del 3% (P = 3%) sería, de acuerdo a la fórmula anterior: n=

4 pq 4(20 X 80 ) 710 = = P2 P(3) 2 (3) 2

De la misma manera, si se supone que alrededor del 30% de los estudiantes son mujeres (p = 30%) y se quiere no cometer un error mayor del 5% (P = 5%), el tamaño sería: n=

4 pq 4(30 X 70) = = 336 P2 (5) 2

Desde luego, no es indispensable examinar exactamente 336 alumnos, ya que de acuerdo al “p” que encontraremos al tomar la muestra, el número anterior puede variar. La fórmula sólo nos da un dato aproximado, pero de todos modos, tal dato es mucho más útil que si se tomará arbitrariamente determinado número de individuos.



Si se deseara una certeza del 99% la fórmula quedaría: n=

6,6 pq P2

en donde 6,6 es el cuadrado de 2,58 ya que como se recordará, el intervalo de las observaciones.

X

= 2,58 E.E. cubre el 99%

CAPITULO XX ANALISIS DE LA INFORMACION: LOS ESTUDIOS COMPARATIVOS 20.1 Generalidades. Ya mencionamos anteriormente que la finalidad de los estudios comparativos es averiguar si existen diferencias entre 2 o más grupos que se estudian y tratar de determinar las causas capaces de explicarlas. El hecho de que entre 2 grupos de pacientes tratados diferentemente se encuentren ciertas diferencias, no debe hacernos concluir desde un principio que tales diferencias sean debidas a que un tratamiento es mejor que el otro. En efecto, si suponemos que tenemos 2 grupos de pacientes, el primero tratado con sulfadiazina y el segundo con Penicilina y que la letalidad fue respectivamente 5% y 2%, la diferencia del 3% pudiera ser debida a una de las siguientes causas: 1. Falta de comparabilidad entre los 2 grupos, es decir, que los 2 grupos de pacientes no tenían características semejantes. 2. Variación explicable por azar, pues según se ha visto, si 2 muestras son obtenidas del mismo universo, los resultados no siempre serán exactamente iguales. 3. Mayor efectividad de la Penicilina con respecto a la Sulfadiazina. Ahora bien, para poder concluir que el mejor resultado observado se debe a que la Penicilina es más efectiva, habrá que descartar primero las otras 2 posibles causas: Habrá que probar en primer lugar, que los grupos son comparables, pues de no serlo, ello ya sería una explicación adecuada de las diferencias observadas. Será necesario luego, demostrar que no es probable que el azar haya producido tales diferencias, pues si ellas pueden explicarse fácilmente por éste, no sería necesario recurrir a otras explicaciones. 20.2 Comparabilidad de los grupos. En medicina experimental, frecuentemente se busca evidenciar si algún tratamiento es mejor que otro, y para ello se requiere que los grupos que se están comparando están homogéneamente constituidos en relación a aquellas características que tienen relación con el problema que se estudia. Si por ejemplo, se está estudiando alguna enfermedad cuya mortalidad, depende en parte de la edad, estado nutritivo y sexo de los pacientes, los 2 grupos deberán estar igualmente constituidos con respecto a estos factores. Sucede sin embargo, que aunque igualemos los 2 grupos con respecto a las características que son conocidas, todavía pueden existir otras características desconocidas que influencian el fenómeno que se estudia. En tal caso, la única manera de igualar los 2 grupos es mediante el sistema al azar, el cual, a la larga, tiende a uniformizar su composición, haciéndolos equivalentes. Si al azar no se ha usado como sistema de elección de los individuos que se estudian, nunca se podrá estar seguro que los grupos son valederamente comparables y quedará duda si la diferencia observada en la comparación se debe a una afectividad real del tratamiento o a una falta de comparabilidad entre los grupos. El siguiente ejemplo ayudará a aclarar los conceptos expresados anteriormente.

Hoy en día no hay ninguna duda de que existe una estrecha relación entre el hábito de fumar y el cáncer de pulmón, pero ha sido imposible todavía probar de manera concluyente que el cigarrillo produce la enfermedad. Esta imposibilidad radica en que la asociación encontrada puede tener 3 explicaciones: 1. El cigarrillo produce cáncer. 2. El cáncer predispone al hábito de fumar (?) 3. Tanto el cáncer como el hábito de fumar son determinados por un tercer factor aún desconocido. CIGARRILLO FACTOR DESCONOCIDO CÁNCER

Nuestros actuales conocimientos médicos nos permiten descartar la hipótesis de que el cáncer induzca al hábito de fumar, pero la tercera de las explicaciones mencionadas todavía sigue en pie. Si se pudieran formar dos grupos al azar, de tal manera que a los individuos de un grupo se les ordenará fumar y a los componentes del otro se les prohibiera hacerlo, podría estudiarse del cáncer en unos y otros y cualquier diferencia encontrada podría atribuirse al cigarrillo, pues el azar al igualar los grupos, haría una distribución más o menos homogénea de todos los factores, conocidos o no, que pudieran influenciar la aparición de la enfermedad. Como tal experimento no es posible, en la primera práctica se toman 2 grupos tan semejantes como sea posible, pero nunca se puede igualar con respecto a todas las características conocidas que puedan tener relación con la enfermedad y como es obvio, tampoco aquellas que son desconocidas. En tales condiciones, de existir un factor desconocido que a la vez produjera el cáncer y el hábito de fumar, el grupo de grandes fumadores sería a la vez el que tuviera más cáncer y viceversa, y aunque exista una indudable asociación entre los 2 factores, dicha asociación no podría interpretarse en el sentido de que el hábito de fumar produce la enfermedad. Al comparar 2 o más grupos debe tenerse en cuenta que en ocasiones, especialmente cuando las muestras son muy pequeñas puede suceder que a pesar que el azar haya sido utilizado como sistema de elección, se presenten ciertas diferencias, debidas exclusivamente al hecho de que los resultados que se comparan no son realmente comparables. Vamos a suponer que con el fin de probar la hipótesis de que el estado nutritivo es mejor en las familias pudientes que en las pobres, se hubieran escogido muestras probabilísticas de 2 escuelas diferentes: la escuela A en donde asisten solamente niños ricos y la escuela B para los niños pobres. Supongamos que los resultados hubieran sido los siguientes:

Cuadro 217 Peso de dos grupos de alumnos, por sexo Alumno 1 2 3 4 5 6 7 8 9 10 11 12

Escuela A Sexo M M M M M M M M F F F F

Peso

Alumno 34 36 33 34 32 35 33 35 29 31 32 32

1 2 3 4 5 6 7 8 9 10 11 12

Escuela B Sexo M M M M F F F F F F F F

Peso 31 33 35 37 32 30 31 31 30 31 32 31

Escuela A: X = 396 / 12 = 33,0 kilos Escuela B: X = 384 / 12 = 32,0 kilos El investigador desprevenido, calculará los promedios respectivos para las dos escuelas y al encontrar que los alumnos de la Escuela A pesan un promedio 1 kilo más que los de la escuela B, daría por probada su hipótesis de trabajo. Pero son en realidad comparables los grupos anteriores?. Puede observarse en los datos precedentes que en la muestra de la Escuela A hay muchos más hombres que mujeres (8 vs. 4) y que en la Escuela B, sucede lo contrario. Como el peso es una característica que en gran parte depende del sexo, este factor no debe pasarse por alto al hacer la comparación. Si comparamos los promedios de los varones para las 2 escuelas y hacemos luego lo mismo con las hembras, encontraremos: Masculino:

X A= 272/ 8=34 Kilos;

Femenino: X A= 124/4=31 Kilos;

X B = 136/4 =34 Kilos X B = 248/8= 31 Kilos

Es decir, teniendo en cuenta el sexo no existe absolutamente ninguna diferencia entre dos escuelas; por lo tanto la diferencia controlada entre los dos promedios globales era una diferencia artificial, debida exclusivamente al hecho que se estaba comparando grupos que no eran comparables. Este ejemplo ilustra por consiguiente la necesidad de ver primeramente si los grupos que van a compararse son homogéneos con respecto a las características que tengan en relación con el problema que se estudia, pues de no serlo, una comparación global de los resultados seria inadecuada. 20.2.1 Importancia del grupo control Comparar, por lo tanto involucra la existencia de un patrón de comparación con el cual puedan contrastarse los resultados que estarás tratando de medir. Dicho de otra manera, en todo estudio en que se pretenda probar que el tratamiento es eficaz, o se trate de determinar causa y efecto, a lado del grupo experimental, debe haber un grupo control. Son pocas las ocasiones en que dicho grupo control no es necesario. Así por ejemplo, se ha señalado que, ningún control fue necesario para afirmar que la Estreptomicina era efectiva en el

tratamiento de la meningitis tuberculosa, ya que la experiencia había señalado que antes del advenimiento de la droga, la enfermedad era siempre mortal. De la misma manera, cualquier droga que pueda disminuir la letalidad de la rabia, no necesitar la existencia de un grupo control para decidir que es efectiva, pues ya sabemos que la enfermedad una vez declarada conduce inexorablemente a la muerte. En todas las otras ocasiones, el grupo control es imprescindible y para que él sea conveniente, debe ser escogido de tal forma, que sea perfectamente comparable con el grupo experimental. Este grupo control puede ser escogido de dos maneras: a. b. c. d.

control histórico control simultáneo individuo de grupo experimental como sus propios controles el universo como grupo control.

20.2.2 Control histórico En esta modalidad, los resultados son observados en el grupo experimental y compactados con aquellos obtenidos en épocas pasadas. Así por ejemplo, si se investiga la acción de una nueva droga sobre la viruela, la letalidad observada en los pacientes sometidos a nuevo tratamiento, se compara con la letalidad habitual observas en el pasado en pacientes con dicha enfermedad. Sin embargo, para que esta comparación fuera valedera, habría que estar seguro de que atrevas de los años no ha habido ningún cambio marcado en la virulencia de los gérmenes, en la susceptibilidad de los individuos, ni en las condiciones que favorece la interacción entre gérmenes y susceptibles. Como nunca tendremos certeza sobre los puntos anteriores, solo si se exceptúa los casos en los cuales hay grandes diferencias entre el grupo experimental y el control histórico, queda la duda sobre si dichas diferencias son debidas a la acción del nuevo tratamiento o que los grupos no son comparables. 20.2.3 Control simultaneo Por los motivos anteriores, el grupo control debe escogerse en tal forma, que los individuos que lo integran sean similares al grupo experimental, en todas aquellas características importantes en relación con el problema que se estudia. Es necesario que antes de asignar cada individuo al grupo respectivo, se decida de antemano si él va a ser incluido o no en la investigación, pues en caso contrario puede llegarse a una selección de la muestra. Hecha esta decisión los individuos se repartirán por cualquier procedimiento al azar que garantice, su correcta distribución. Entre estos procedimientos hay tres principales: 1. Alternación. Consiste en decidir al azar, el grupo al cual pertenezca el primer individuo escogido y los restantes, se distribuirían alternadamente en los diferentes grupos. El simple lanzamiento de una moneda a cara o sello decidirá el grupo al que ira el primer individuo, en el caso en que se estudien dos grupos. 2. Pareamiento. Si son dos grupos, se escogen primero pares de individuos que sean tan semejantes como sea posible, con respecto a determinado número de características (mismo sexo, misma edad, mismo peso, etc.) y luego, mediante al azar, se determina el grupo al que pertenecerán los integrantes de cada par. El mismo procedimiento general se aplica cuando se trata de más de dos grupos. 3. Azar simple. Los individuos se asignan a los grupos mediante el uso de tablas de números al azar, según lo explicado en el capítulo sobre muestreo. En la práctica, si son, dos grupos, se prepare una serie de sobres cerrados, la mitad para el grupo control y la otra mitad para el grupo experimental. Una vez que se decida que el individuo formara parte de la investigación, se tomara un sobre para decidir el grupo en que se incluirá.

20.2.4 Los mismos individuos como su propio grupo control. En ocasiones los mismos individuos hacen a la vez de grupo experimental y de grupo control, para lo cual se hacen determinadas indecisiones en cada individuo, antes y después de aplicarle las droga que se estudia o de someterlo al estímulo que se investiga. Este método debe utilizarse siempre que las condiciones de la investigación lo permitan. 20.2.5.1

El Universo como Grupo control.

Los resultados observados en una muestra que ha sido sometida a un estímulo especial, se comparan con lo que ocurre en el universo del cual fue extraída la muestra. 20.2.5.2

Eliminación del azar como causa de las diferencias observadas.

Una vez seguros que las muestras son comparables y Antes que tratemos de investigar las causas de las diferencias observadas, es necesario descartar la influencia del azar, pues ya sabemos que debido al error por muestreo, habitualmente se observan ciertas diferencias entre diversas muestras provenientes del mismo universo. No hay en realidad ningún procedimiento que nos indique con certeza absoluta cuales muestras proceden de un determinado universo y cuáles no, pero podemos aceptar el criterio de que aquellas muestras que ocurren con una frecuencia menor al 1% (0 al 5%) son tan improbables que en ausencia de información al respecto, se considerarán como provenientes de otro universo. El problema por lo tanto, se reduce a averiguar con qué frecuencia se presentan las diferentes muestras, cuando muestras repetidas se extraen de determinados universos. Ahora bien, se ha señalado que el azar es ordenado y al estudiar el error estándar, concluimos que:

X ± 1E.E. incluye al promedio del universo en el 68.2% de los casos. X ± 2E.E incluye al promedio del universo en el 95.4% de los casos.

X ± 2.58 E E. Incluye al promedio del universo en el 99 de los casos. X ± 3 E. E. Incluye al promedio del universo en el 99.7% de los casos. Lo anterior quiere decir que muestras cuyos promedios difieran del verdadero promedio del universo en más de dos errores estándar solo se presentan con una frecuencia inferior al 5% (100 % -95% = 5%) y aquellas que difieran en más de 3 errores estándar, solo aparecen con una frecuencia menor al 0.3%. Dicho de otra manera: si la diferencia entre el promedio de una muestra y el promedio del universo es mayor que 2 veces el error estándar, tal diferencia solo puede observarse por azar en menos del 5% de los casos y si dicha diferencia es mayor que 3 veces el error estándar su ocurrencia es mucho menor al 0.3%. Por consiguiente, si hemos adoptado el criterio de llamar improbables resultados que se presentan con una frecuencia menor al 5% designaremos como tales, todas aquellas diferencias mayores a 2 errores estándar. Igualmente, si adoptamos el criterio de llamar improbables solamente aquellos resultados que se presentan con frecuencia menor al 0.3%, se designaran como tales las diferencias que exceden a 3 veces el error estándar. Dichas diferencias, tan improbables en su aparición (menos del 1% o del 5%, según el criterio que se adopte), se denominan “estadísticamente significantes” o simplemente “significantes”.

El hecho de que clasifiquemos como improbables las muestras qu4e se presentan con frecuencia menor al 1% o al 5%, es una cuestión arbitraria que debe decidirse de acuerdo a cada problema particular. Al estudiar el error estándar, señalamos que mientras más exigente nuestro estándar acerca de lo que es improbable (1% en vez del 5%), más probabilidad hay de fallar en reconocer diferencias en realidad son verdaderas. Si por el contrario, rebajamos nuestro estándar (5% en vez del 1%), corremos el peligro de calificar como reales, diferencias que en verdad no lo son. Recuérdese sección 19.3. 20.2.6

Interpretación de la significancia estadística

A menudo el investigador cree terminada su responsabilidad concluyendo que el resultado es o no significante, lo cual se debe a que habitualmente se ignora el verdadero significado de estos términos. Un resultado se denomina significante cuando no puede explicarse fácilmente por azar, pero esto no quiere decir que no pueda haber sido producido por él. De la misma manera, un resultado se cataloga como “no significante”, cuando puede ser fácilmente producido por el azar, a pesar de que en el caso estudiad este no haya intervenido en su producción. Esta aclaración es necesaria porque un resultado significante no es una prueba concluyente de que existan diferencias reales, de la misma manera que un resultado no significante pruebe que ellas no pueden existir. El resultado significante o no significante es solo una evidencia más a favor o en contra de la hipótesis que se busca probar y corresponde al investigador reunir esta evidencia a cualquier otra disponible, antes de interpretar los hechos que ha observado. Al interpretar estos resultados hay 2 importantes limitaciones que deben tenerse en cuenta: a. Un resultado significante no puede interpretarse como evidencia de casualidad. En el estudio de Bradford Hill y Richard Doll, sobre cáncer pulmonar- Que ya hemos comentado -, la diferencia en la aparición de la enfermedad entre fumadores y no fumadores, es estadísticamente significante, pero por razones entonces explicadas, no puede concluirse que él habita de fumar sea el causante de la enfermedad b. Un resultado “estadísticamente significante” no tiene ninguna importancia si no es al mismo tiempo “prácticamente significante” no tiene ninguna importancia si no es al mismo tiempo “prácticamente significante”. Como veremos en próximos capítulos, mientras mayor sea el tamaño de la muestra, mayor será la probabilidad que determinada diferencia sea significante. Así por ejemplo, si un tratamiento A, cura el 20% de los pacientes y otro tratamiento B, al 22%, tal diferencia no es significante en grupos de 50 personas, pero si lo es en grupos de 10.000. Sin embargo, como el objetivo de averiguar si determinado resultado es o no significante, es tomar una acción subsecuente, tal diferencia del 2% es de muy escasa utilidad en el terreno práctico. 20.3.1.1

Pruebas de significancia estadística

Son numerosas las pruebas estadísticas utilizadas con la finalidad de medir la influencia del azar y cada una de ellas suele tener aplicaciones perfectamente definidas. La escogencia de la prueba más conveniente depende principalmente de los siguientes factores: a. Número de grupos que se comparan, es decir, según se trata de 2 grupos, o 3 o más. b. Número de individuos en cada grupo, pues si son pocos, las técnicas son por lo general mucho más difíciles. Tales pruebas no serán estudiadas en este curso.

c. Escala de clasificación utilizada, pues las pruebas estadísticas son mucho más fáciles cuando la escala es cualitativa. d. Grupos independientes o no. Cuando los individuos de un grupo son distintos a los del otro, las muestras se llaman independientes. En los casos en los cuales los individuos se usan como grupo control o cuando se escogen por pares semejantes antes de asignarlos al respectivo grupo, las muestras se llaman dependientes y las técnicas de análisis son diferentes a las del caso anterior. Teniendo en cuenta os anteriores puntos, podemos resumir de la manera siguiente, las técnicas de análisis que serán motivo de los próximos capítulos: A. Muestras independientes. 1. Comparación entre 2 grupos 1. Estudio resumido por frecuencias relativas 2. Estudio resumido por promedios

Pruebas de curva normal

b. Comparación entre más de 2 grupos: 1. Estudio resumido por frecuencias relativas: Prueba de Chi Cuadrado 2. Estudio resumido por promedios: Prueba de Kruskal Walles grupos no independientes c. Comparación entre dos grupos: 1. Estudio resumido por f. relativas. Pruebas modificadas de curva normal 2. Estudio resumido por promedios. d. Comparación entre más de 2 grupos: Debido a su dificultad no se estudiaran.

CAPITULO XXI COMPARACION ENTRE EL PROMEDIO DE UNA MUESTRA Y EL PROMEDIO DEL UNIVERSO EJEMPLO PRÁCTICO: Se investigará el número de pulsaciones por minuto en 16 hombres, presumiblemente normales, obteniéndose los siguientes resultados: Cuadro 225 Pulsaciones por minuto en 16 individuos normales. Individuos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Total

Pulsaciones x minuto

Desviaciones

70 66 82 64 65 88 82 70 70 84 85 68 84 76 65 65 1184

-4 -8 8 -10 -9 14 8 -4 -4 10 11 -6 10 2 -9 -9

Desviaciones al cuadrado 16 64 64 100 81 196 64 16 16 100 121 36 100 4 81 81 1140

PROMEDIO = 1.184/16 =74

D.E.=

1140 = 71.25 =8.45 16

Se desea saber con un 95% de certeza, si el promedio observado en este grupo se diferencia significativamente del valor de 70 pulsaciones, considerado como normal. 21.2. Discusión. Si de un universo de hombres normales, el promedio de pulsaciones fuera de 70 por minuto, se extrajeran repetidas muestras de individuos y para cada una se calcularía el respectivo promedio, es indudable que los promedios así obtenidos no serán del todo exactos. Ellos se distribuirán alrededor del verdadero promedio del universo (70 pulsaciones) formando, una curva normal alrededor de 70 y con una desviación estándar que se calcula mediante:

DE n

Esta fórmula se recordará, es el error estándar del promedio, donde “0” es la desviación estándar de la muestra que se está estudiando, calculada por el método previamente aprendido y “n” el número de personas estudiadas. Como ya sabemos que el promedio más o menos 2 EE, determina el límite dentro, del cual está el 95% de la muestra, solo quedará un 5% fuera de estos límites. Este 5% de muestras tan diferentes del universo y de aparición poco frecuente, debe considerare proveniente de otros universos, a no ser que se sepa de ante mano que proviene de él. El ejemplo que estamos estudiando el valor:

𝐷𝐸 8.45 = = 2,11 √𝑛 √16

y por lo tanto, los límites dentro de los cuales estará el 95% de la muestra será: 70

± 2 (2.11)

es decir, entre 65,78 y 74,22 pulsaciones por minuto. Gráfico 227 Posición de la muestra estudiada en relación a las zonas de significancia de la curva normal.

Como el promedio de nuestra muestra (74) se encuentra dentro de estos límites, podemos concluir que ella proviene de un universo cuyo promedio es de 70,o usando la terminología estadística, la muestra no difiere significativamente de 70. Anteriormente hay 2 procedimiento equivalente al anterior, que se suele emplear en su lugar: a. Puede dividirse la diferencia que existe entre el promedio de la muestra y el promedio del universo (74-70=4) por el error estándar:

Diferencia 74 − 70 4 = = 1,89 = 2,11 2,11 ErrorEs tan dar

y buscar este resultado en Tablas de Áreas de la Curva Normal (ver página 202), para conocer la probabilidad que existe de encontrar por azar una muestra que como la presente difiera en 4 pulsaciones del valor del universo. En nuestro ejemplo, buscando en tales tablas el valor 1,89 vemos que esta probabilidad es casi 6% y como hemos adoptado el criterio de que un fenómeno que se presente con una frecuencia mayor del 5% no es improbable, concluiremos como antes, que nuestra muestra no difiere significativamente de 70. b. Si no se está interesado en buscar la probabilidad del suceso, sino de saber solamente si el resultado es o no explicable por el azar, basta ver si el resultado de la división anterior (diferencia sobre E.E) es mayor o menor que 2. Si es menor que 2, se concluirá igualmente que la diferencia no es significante. 21.3. Resumen del procedimiento. Una vez obtenido el promedio y la D.E. del grupo que se estudia se seguirá los siguientes pasos: 1. Obtener la diferencia entre el promedio del grupo y el promedio general del universo: Diferencia = 74 – 70 = 4 2. Obtener el error estándar del grupo que se estudia mediante la fórmula: σ / n , en donde σ es la desviación estándar de la muestra y n el número de personas que se han observado:

E .E . =

8,45 8,45 = = 2,11 4 16

3. Dividir la diferencia obtenida en el punto (1) por el error estándar:

Diferencia 4 = = 1,89 E.E. 2,11 4. Buscar en una tabla de áreas de la curva normal, la probabilidad correspondiente al valor que se acaba de calcular o simplemente ver si es mayor que 2, según se ha indicado. 21.4 Efecto del tamaño de la muestra. Note que si la misma D.E.= 8,45 se hubiera obtenido en una muestra de 25 personas en vez de 16, entonces se hubiera concluido que el promedio de la muestra difería significativamente del promedio de 70 pulsaciones. En efecto en tal caso:

E .E =

y



σ 25

=

8,45 = 1,69 5

Diferencia 74 − 70 4 = = = 2,4 valor significante ( ∗). E.E 1,69 1,69

En esta prueba de significancia, al igual que en las otras que se ilustran en próximos capítulos, un resultado se clasificará como “significante” cuando la probabilidad de que aparezca por azar sea menor al 5% es decir, cuando Diferencia Error Estándar sea mayor que 1,96. Debe recordarse no obstante, que algunos catalogan como significantes, solamente aquellos resultados que pueden aparecer por azar 1% o menos de las veces (diferencia / E.E. igual o mayor que 2,58) y como “no significantes” cuando su aparición es igual o superior al 5%. Si se adopta este criterio, toda diferencia que se presente con una frecuencia entre el 1% y el 5% (diferencia / Error Estándar entre 1,96 y 2,58), se catalogará como resultado de

De una manera general, la fórmula DE / n señala, que el error estándar es directamente proporcional a la desviación estándar e inversamente proporcional a la raíz cuadrada de tamaño de la muestra. Mientras mayor el tamaño de ésta, menor será el error estándar y más probabilidades habrá de que determinada diferencia sea significante.

“significancia dudosa”, lo cual quiere decir que la decisión debe ser aplazada hasta que haya más evidencia disponible. Aunque este proceder es aparentemente acertado, parece una cautela innecesaria si se tiene siempre presente lo expuesto en la sección 20.31 a propósito de la interpretación de la Significancia Estadística (véase página 222).

CAPITULO XXII COMPARACIÓN ENTRE EL PORCENTAJE DE UNA MUESTRA Y EL DEL UNIVERSO 22.1 Problema práctico. En una epidemia de viruela mayor se presentaron 80 casos de los cuales murieron 24, o sea que hubo una letalidad del 30%. Como la fatalidad usual para esta enfermedad es 25%, se desea saber con un 95% de certeza, si la diferencia del 5% que se observa (30-25=5) puede ser explicada por azar. 22.2 Discusión. Si repetidas muestras de 80 casos fueron tomadas de un universo de enfermos cuya fatalidad es 25% y si en cada muestra se computara la tasa de letalidad, dichas tasas no serían exactamente iguales, sino que se distribuirían formando una curva normal, centrada en el verdadero valor del universo (25%) y con una desviación estándar dada por:

p´q´ n Esta fórmula es “error estándar de un porcentaje” en la cual: p´ es el porcentaje de casos que mueren en el universo (25%). q´ es el porcentaje de casos que se salvan en el universo (75%). n es el número de individuos estudiados, o sea 80. Se notará que esta es la misma fórmula estudiada en el capítulo XIX, pero mientras allí utilizábamos los valores p y q de la muestra, por no conocer los del universo, ahora usamos p´ y q´, es decir los correspondientes valores del universo, ya que siendo ellos conocidos, no es necesario estimarlos a partir de la muestra, en nuestro ejemplo, el valor

p´q´ n

es igual a 4,8% y según el criterio adoptado anteriormente, los límites de no - significancia estarán entre: 25% ± 2(4,8) , es decir, entre 15,4% y 34,6%.

Gráfico 231 Posición de la muestra estudiada en relación a las zonas de significancia de la curva normal

Como la letalidad del 30% observada en nuestra muestra se encuentra dentro de estos límites, se puede concluir que la observada diferencia del 5%, muy posiblemente fue obra del azar. En igual forma que el ejemplo del capítulo anterior, hay dos procedimientos alternativos: a. Dividir la diferencia que existe entre el universo y la muestra por el correspondiente error estándar:

Diferencia 30 − 25 = = 1,04 ErrorEstándar 4,8 y buscar en Tablas de Áreas de la Curva Normal (véase página 202), la probabilidad que existe de encontrar por azar una muestra que difiera de su universo en el porcentaje observado. En nuestro ejemplo, la probabilidad correspondiente a 1,04 es aproximadamente 30%, o sea, que 30 veces de cada 100, se encontrarán por azar, diferencias como la observada, lo cual desde luego, es una ocurrencia demasiado frecuente, para considerar significante. b. De una manera más breve, cuando no se está interesado en hallar la probabilidad de tal suceso, sino en saber simplemente si la diferencia es o no significante, se dividirá dicha diferencia por el error estándar y si el resultado es mayor que 2, se concluirá que es significante. En nuestro caso,

Diferencia 30 − 25 = = 1,04 ErrorEstándar 4,8 valor no significante, fácilmente explicable por el azar. 22.3 Resumen del procedimiento. 1. Se buscará la diferencia entre la letalidad usual de la enfermedad y la letalidad observada en la muestra que se estudia: Diferencia = 30% - 25% = 5% 2. Se calculará el error estándar del porcentaje mediante:

p´q´ n en donde como dijimos: p´ = 25% = porcentajes de casos fatales en el universo. q´ = (100-25) = 75% = porcentajes de casos que se salvan. n = número de enfermos estudiados en nuestra muestra. En nuestro ejemplo:

p´q´ 25 × 75 = = 4,8 n 80

E.E =

3. Se divide la diferencia obtenida en el punto (1) por el error estándar:

Diferencia 30 − 25 5 = = = 1,04 Estándar 4,8 4,8 4. Se ve si el último valor es mayor o menor que 2, y si es menor, se dirá que la diferencia observada no es significante, es decir, que muy posiblemente es debido al azar. 22.4 Observaciones. a. Si en vez de porcentajes estuviéramos usando por ejemplo, tasas por 1.000, el procedimiento sería el mismo, recordando tan sólo que p`+ q´ = 1.000. En el problema presente, si la mortalidad en el universo fuera 250 x 1.000 y la mortalidad en la muestra 300 x 1.000 entonces: p´ = 250, q´ =750

E .E =

y la diferencia: 300 – 250 = 50

250 × 750 = 48 ; y, 80

Diferencia 50 = = 1.04 , como anteriormente. E.E 48 b. Lo mismo que en el ejemplo del capítulo XXI, mientras mayor el tamaño de la muestra, mayor será la probabilidad de encontrar significancia estadística. Si la muestra hubiera sido cuatro veces mayor, el error estándar se hubiera reducido a la mitad:

E.E =

25 × 75 = 2,4 ; y, entonces: 320

Diferencia 30 − 25 = = 2,1 E.E 2,4

valor significante que indicaría que la diferencia observada no es fácilmente explicable por el azar, y entonces cabría suponer que el actual brote epidémico es de una gravedad mayor que la usual, o que el tratamiento últimamente empleado no es tan efectivo como el antiguo. En fin, la evidencia estadística se reunirá a cualquiera otra disponible con el fin de hacer las correspondientes deducciones.

CAPITULO XXIII COMPARACION ENTRE LOS PROMEDIOS DE DOS MUESTRAS INDEPENDIENTES 23.1 Ejemplo práctico. En un problema anterior se estudió el número de pulsaciones de 16 hombres normales y se encontró que el promedio fue de 74 por minuto, con una D.E. igual a 8,45. Supongamos que al mismo tiempo se estuvieran estudiando 16 mujeres, con los resultados que a continuación aparecen. Cuadro 235 Pulsaciones por minuto en 16 mujeres normales Individuos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Total

Pulsaciones por minutos

Desviaciones

76 72 79 65 70 88 80 76 78 84 86 74 84 78 70 72 1.232

Pr omedio =

D.E. =

-1 -5 2 -12 -7 11 3 -1 1 7 9 -3 7 1 -7 -5 0

Desviaciones al cuadrado 1 25 4 144 49 121 9 1 1 49 81 9 49 1 49 25 618

1.232 = 77 16

618 = 38,62 = 6,21 16

Se desea saber si el promedio de pulsaciones para los hombres difiere significativamente del de las mujeres o si la diferencia observada es fácilmente explicable por el azar. 23.2 Discusión. Aunque no hubiera ninguna distinción entre hombres y mujeres con respecto al número de pulsaciones por minuto, no quiere esto decir que los promedios de las dos muestras tengan que coincidir exactamente. En efecto, si repetidos pares de muestras de 16 individuos cada una, se extraen del mismo universo, en cada par se podrá computar el promedio para la primera y para la segunda muestras X 1 y X 2 respectivamente. La diferencia entre estos dos promedios (-) será unas veces cero y otras veces mayor o menor. De todas maneras, diferencias muy grandes, positivas o negativas serán extraordinariamente raras.

Estas diferencias se distribuirán en forma de una curva normal centrada en 0 (cero) y con una desviación estándar dada por la fórmula:

(E.E ) = X 1 − X 2

=

(E.E )12 + (E.E )22

Esta fórmula se conoce con el nombre de “error estándar de la diferencia entre 2 promedios”. En ella: (E.E)1 es el error estándar de la primera muestra y (E.E.)2 el error estándar de la segunda, que serán calculados en la misma forma previamente estudiada. Como ya sabemos que el promedio más o menos 2 errores estándar incluirá el 95% de las muestras, sólo se considerarán como provenientes de diferentes universos, diferencias ( X 1 - X 2 ) que se encuentran fuera de los límites determinados. En nuestro ejemplo: el valor

(E.E )12 + (E.E )22 , calculado por el método que luego se explicará,

es igual a 2,6 y por lo tanto, los límites dentro de los cuales estará el 95% de las diferencias entre pares de muestras procedentes del mismo universo será: 0 ± (2,6), es decir, entre –5,2 y +5,2 Gráfico 237 Posición de la diferencia observada en relación a las zonas de significancia de la curva normal

Como la diferencia entre los promedios de las dos muestras que estamos estudiando (77-74=3) se encuentra dentro de estos límites, se concluye que la diferencia observada no es significante. Alternativamente del mismo modo que hicimos en los problemas anteriores, podemos: a. Dividir la diferencia de los dos promedios (77-74=3) por el error estándar de la diferencia:

Diferencia 3 = = 1,1 E.E 2,6

CAPITULO XXIV COMPARACION ENTRE LOS PORCENTAJES DE DOS MUESTRAS INDEPENDIENTES 24.1 Problema práctico En un hospital se trataron por el método clásico, 80 casos de viruela mayor, de los cuales murieron 24, una letalidad del 30%. Otros 120 pacientes fueron sometidos a un nuevo tratamiento, sobre cuya efectividad existía favorables indicios, En este último grupo fallecieron 30 pacientes, una letalidad del 25%. Se desea saber si la diferencia del 5%, observada entre los dos grupos de pacientes, puede ser atribuida al azar o si se debe buscar otra explicación. Cuadro 240 Viruela, Casos y Defunciones, por tratamiento Tratamiento Tratamiento clásico Tratamiento nuevo TOTAL

Casos 80 120 200

Defunciones 24 30 54

Letalidad x 100 30.0 (p1) 25.0 (p2) 27.0 (p3)

24.2 Discusión Si una muestra de 80 y otra de 120 fueran tomadas del mismo universo de pacientes, aunque el tratamiento no tuviera efecto, la diferencia entre las dos tasas de letalidad no sería necesariamente 0 (cero). Por lo tanto si se tomaran repetidas pares de muestra y se calculara la diferencia en la tasa de letalidad de cada par, esas diferencias se distribuirían en una curva normal centrada en cero y con una desviación estándar dada por la fórmula:

(E.E) p1-p2 =

po qo po qo + n1 n2

La fórmula anterior llamada “error estándar de la diferencia entre dos porcentajes” y cuya aplicación luego veremos, nos da en nuestro ejemplo un valor igual a 6.4%.

Gráfico 241 Posición de la diferencia observada en relación a las zonas de significancia de la curva normal

Como X ± 2 E.E incluye 95% de las muestras, tomando E.E a cada lado del promedio, encontraremos que diferencias entre muestras, que se encuentran entre – 12.8% no se consideran como significantes y por consiguiente la diferencia de 5% observada entre nuestros dos grupos de enfermos (30%-25%=5%), puede haber sido producida por el azar. De la misma manera que en previos ejemplos: A) podemos dividir la diferencia observada por el error estándar de la diferencia, ósea:

5 Diferencia = 0.78 = 6.4 E.E buscar la probabilidad que existe de encontrar por el azar una diferencia como la observada. La probabilidad correspondiente a 0.78 es de 43% es decir, que de cada 100 veces habrá 43 en las cuales puede encontrarse por azar una diferencia como la anotada. Fenómenos que se presentan con esta frecuencia no son raros y por consiguiente, podemos concluir que no hay evidencia suficiente para afirmar que un tratamiento sea mejor que el otro. B) Ver simplemente si el resultado de la división anterior es menor que 2, caso en el cual la diferencia estudiada no es significante. 24.3 Resumen del procedimiento 1) Los datos deben colocarse como en el cuadro de la página anterior, con el fin de saber cuántas defunciones ocurrieron en los dos grupos juntos y conocer cuál fue la letalidad en el total de pacientes. Como en el total hubo 200 pacientes, de los cuales murieron 54 la letalidad conjunta fue del 27% es decir:

54 × 100 = 27% 200

Como no se conoce la letalidad del universo, esta letalidad conjunta de 27% se tomara como una buena estimación de aquella. Ella será p o , la probabilidad que un paciente muera y por lo tanto,

qo , la probabilidad que un paciente no muera, será igual a 100-27= 73%. 2) Se calculara el error estándar de la diferencia de los dos porcentajes mediante la fórmula:

po qo po qo + n2 n1 En el cual:

p o = letalidad global para los pacientes de los dos grupos (27%) q o = 100- p o = 100-27 = 73%.

n1 = número de individuos en la primera muestra (80) n2 = número de individuos en la segunda muestra (120) En nuestro ejemplo:

(E.E.)

27 × 73 27 × 73 + = 6.4 80 120

p1− p 2 =

3) Se averigua la diferencia entre la letalidad del primer grupo de pacientes y la del segundo: Diferencia = ( 30% - 25%) = 5%

4) Dicha diferencia se divide por el “Error estándar de la diferencia” encontrado en el punto (2), es decir:

Diferencia 30 − 25 5 = = = 0.78 E.E 6.4 6.4 5) Si el anterior valor es menor que 2 se concluirá, como en el caso presente, que la diferencia observada en la letalidad de los dos grupos de pacientes, no es significativa. 24.4 Observaciones. En algunos textos se utilizan en lugar que el anterior la formula siguiente:

p1 q1 p 2 q 2 + n1 n2 Es decir, en vez de tomar la letalidad conjunta de los 2 grupos

( p o ) , como estimación de la

letalidad de universo, se emplea la letalidad de la primera muestra estándar y la letalidad de la segunda muestra

( p1 ) para calcular su error

( p 2 ) para calcular el error estándar de ella.

Esta fórmula es errónea aunque suele dar valores muy cercanos a la formula correcta que explicamos en el texto, no debe utilizarse, pues en algunas ocasiones, especialmente cuando el tamaño de las dos muestras es muy diferente puede darse el caso que la formula correcta señale diferencias estadísticamente significantes y que la fórmula que estamos comentando, indique falta de significancia en los resultados. Considérese como ilustración de lo anterior los siguientes datos teóricos sobre 100 pacientes. Cuadro 244 Pacientes por tratamiento y resultado Droga

Casos

Defunciones

Letalidad

80

B

20

7 35% ( p 2 )

100

19 19% ( p 3 )

Total

12

15% ( p1 )

A

Aplicando la formula correcta:

po qo po qo 19 × 81 19 × 81 + = + = 9.8 n1 n2 80 20

E.E=

Diferencia 35 − 15 = = 2.1 significante. E.E 9.8 Aplicando la formula incorrecta:

E.E.=

p1 q1 p 2 q 2 15 × 85 35 × 65 + = 11.3 + = 80 20 n2 n1

Diferencia 35 − 15 = 1.8 no significante = 11.3 E.E.

CAPITULO XXV CHI CUADRADO X

25.1 Introducción La curva normal solo puede usarse cuando son dos los grupos que se comparan. Cuando quieren compararse 3 o más muestras, su aplicación es incorrecta a causa del siguiente hecho: “Al comparar 2 grupos, si tomamos 2 E.E., tenemos un 95% de certeza en nuestras afirmaciones y podemos estar equivocados en el 5% restante de los casos. Si comparamos 3 grupos, A, B, C, por el mismo procedimiento, habría que hacer tres comparaciones diferentes, A, vs B, A vs C, y B vs C y como en cada comparación se puede cometer el 5% de error, el error global cometido podría alcanzar el 15%. Si fueran 4 los grupos estudiados, habría 6 comparaciones diferentes y el error que pudiera cometerse alcanzaría al 30%. Cuando se desea comparar más de dos grupos, no puede aplicarse por lo tanto, las pruebes de significancia estudiadas hasta ahora. Si se quisiera comparar los promedios de varios grupos de individuos, habría que recurrir al llamado Análisis de la Variancia, cuya técnica por ser muy complicada, no se estudiara, aunque en el próximo capítulo ilustremos un procedimiento sencillo que permite hacer correctamente tales comparaciones. Cuando lo que se quiere comparar es una serie de porcentajes tasa, puede recurrirse a la llamada “Prueba de Chi Cuadrado”, cuya aplicación general se ilustrara en el siguiente ejemplo. 25.2 Ejemplo Práctico Tres drogas diferentes se ensayaron para el tratamiento del catarro común midiéndose su efectividad de acuerdo al porcentaje de pacientes que mejoraron dentro de las 24 horas siguientes a la iniciación del tratamiento. Los resultados de dicho tratamiento aparecen resumidos en el siguiente cuadro: Cuadro 247 Pacientes con catarro común por tratamiento y resultado Droga Droga A Droga B Droga C Total

Curación 12 27 21 60

Fracaso Total Pacientes Porcentaje de Curación 38 50 24.00 123 150 18.00 79 100 21.00 240 300 20.00

Se desea saber si las diferencias observadas se deben a distinta efectividad de los tratamientos empleados o si ellas pueden explicarse razonablemente por el azar. 25.3 Discusión El porcentaje general de curaciones para los 3 grupos tomados en conjunto fue de 20% (60 × 100/300=20%). Si tomamos dicho porcentaje como una buena aproximación de lo que sucede en el universo de donde proceden los pacientes que se estudian podemos darnos cuenta que si los tres tratamientos fueran eficaces en igual grado, el porcentaje de curaciones en cada uno de ellos fuera del 20% en vez de 24%, 18%, y 21% como se ha observado en los datos del problema.

Por lo tanto, asumiendo un porcentaje de curación de 20% para cada uno de los grupos, se podría calcular el número de pacientes que debiera mejorar con cada tratamiento. Así por ejemplo, en los pacientes del primer grupo, él número de curaciones seria 10 de las 12 observadas (20% de 50=10) y él número de persona s que no curaron seria c40, es decir 50 – 10 = 40. Igualmente de los 150 pacientes que recibieron la droga B, debieron curar 30 (20% 150 = 30) y de los que recibieron la droga C, debieron haber curado 20 en vez de 21 que curaron. Estas frecuencias teóricas (T) junto con las frecuencias observadas (O) en el experimento servirán de base para el cálculo de Chi Cuadrado. 25.4 Cálculo de Chi Cuadrado En el siguiente cuadro se resumen los cálculos necesarios para la obtención de explicaran a continuación.

X 2 los cuales se

Cuadro 248 Cuadro de Chi Cuadrado

Droga (1) A B C

O (2) 12 27 21

Curaciones Total (O-T) (3) (4) 10 2 30 -3 20 1

(O-T)2/T (5) 0.4 0.3 0.05

O (6) 38 123 79

Fracasos Total (O-T) (7) (8) 40 -2 120 3 80 -1

(O-T)2/T (9) 0.1 0.075 0.0125

Fuente de datos del cuadro 247 Los pasos a seguir son los siguientes: 1. Se obtendrán las frecuencias teóricas (T) correspondientes a cada una de las casillas del cuadro lo cual se logra según se acaba de explicar multiplicando el porcentaje global del cuadro por el total de pacientes en cada tratamiento. El mismo resultado puede obtenerse, multiplicando para cada cifra observada (O), los dos subtotales que le son comunes y dividiendo por el total general del cuadro. Así por ejemplo (véase en el cuadro 247) los dos subtotales para los 12 pacientes que curaron con la droga A, son: 50 y 60 y por consiguiente la respectiva frecuencia teórica será:

50 × 60 = 10 300 Igualmente para los 27 pacientes que curaron con la droga B los subtotales correspondientes son: 60 y 50 y la frecuencia teórica será:

60 × 150 =30 300 Estas frecuencias teóricas aparecen en las columnas 3 y 7 del cuadro anterior 2. Se restara cada valor observado (O) el correspondiente valor teórico (T) acabado de calcular (columnas 4 y 8)

3. Cada una de las diferencias anteriores (O- T) se elevara al cuadrado y se dividirá por la respectiva frecuencia teórica, o sea:

(12 − 10) 2 (27 − 30) 2 : ; etc 10 30 4. La suma de todos los resultados anteriores (columna 5 y 9) será el valor de Chi Cuadrado:

X2 =∑

(O − T ) 2 T

El cual en nuestro ejemplo dará:

X2 =

(12 − 10) 2 (27 − 30) 2 (79 − 80) 2 + + ......... + . = 10 30 80 =0.40+0.30+0.05+0.10+0.07+0.01=0.93

25.5 Interpretación de

χ2

De acuerdo a lo acabado de exponer es fácil arce cuenta de: a. Cuando las frecuencias observadas coinciden con las teóricas,

χ 2 = 0.

b. El valor de χ será mayor, cuanto más grandes sean las diferencias entre los valores observados y los teóricos. 2

c.

El valor de

χ 2 será mayor mientras mayor sea el número de grupos que se estudian..

De acuerdo a este último punto se comprende que para la interpretación de χ , es necesario tener en cuenta no solamente su valor, sino también el número de grupos y número de 2

características en las cuales se basa y así por ejemplo, un valor de χ significante o no hasta que no sepamos a cuántos grupos se refiere.

2

= 6 no podría decirse si es

En estadística se dice que es necesario conocer el “grado de libertad” de interpretarlo. La manera más fácil de calcular el “grado de libertad” de estudiando es la siguiente:

χ 2 en

χ 2 antes

de poder

la aplicación que estamos

a. Sin tomar en cuenta los totales, se ven cuántas columnas (c) y cuantos renglones (r ) tiene la tabla. b. Multiplicando: gl = (c – 1 ) x (f – 1 ); donde: c = columna y f = fila. Así se obtendrá el grado de libertad de

χ2.

En nuestro ejemplo, como son tres tratamientos, habrá tres renglones como en cada tratamiento se estudian “curaciones” y “fracasos”, habrá dos columnas. Por lo tanto, el “grado de libertad” será: (3 – 1 ) ( 2 – 1) = 2 x 1 = 2 Probabilidades dadas por X². Si se quiere saber cuál es la probabilidad correspondiente a cada valor de χ que pueda calcularse, se buscará en tablas especiales que existen para ello. En la práctica lo que generalmente interesa es saber si las diferencias observadas entre los grupos son fácilmente explicables por azar o no. 2

Si aceptamos el criterio de llamar significante toda diferencia que por azar pueda ocurrir sólo 5 veces o menos en 100 experimentos análogos, bastará conocer qué valor debe alcanzar χ para poderse llamar significante. En la tabla siguiente aparecen algunos de dichos valores ordenados de acuerdo al correspondiente grado de libertad. 2

En nuestro ejemplo encontramos que con 2 grados de libertad χ = 0,93. Como este valor está muy por debajo de 6,0 - valor dado por la tabla – concluimos que las diferencias observadas son fácilmente explicables por azar y no hay necesidad de recurrir a otras explicaciones. 2

Cuadro 251 Valores de la distribución de X²

25.6 Relación entre

χ2

y la Curva Normal.

Todos aquellos casos en que se comparan 2 grupos mediante la Curva Normal, pueden compararse también mediante Chi Cuadrada. En el ejemplo dado en la página 240, en el cual encontramos que: Diferencia 0.78 Error Estándar El cálculo de chi cuadrado nos daría:

= (24-21.6)² + (30-32.4)² + (56-58.4)² + (90-87.6)² = 0.608 21.6 32.4 58.4 87.6

En estos casos, cuando χ tiene 1 grado de libertad, su valor es exactamente igual al cuadrado de Diferencia/Error Estándar, es decir: 2

x²= ( Diferencia)² Error Estándar

o lo que es lo mismo:

√ x² = Diferencia Error Estándar En el ejemplo acabado de citar en el cual (diferencia/E.E) = 0.78 y

χ 2 = 0.608 note que:

0.608 = (0.78)² En la misma forma si

χ2=9

entonces Diferencia/ E.E = 3.

Si este último valor fuera igual a 2, chi cuadrado sería igual a 4. Debe recordarse que la anterior relación solamente es cierta cuando

χ 2 tiene 1 grado de

libertad.

CAPITULO XXVI COMPARACION ENTRE LOS PROMEDIOS DE TRES O MAS MUESTRAS INDEPENDIENTES.

26.1. Introducción. Con el fin de hacer correctamente comparaciones entre los promedios de tres o más muestras se utiliza la técnica de Análisis de la Variancia. Dicha técnica no está al alcance del estudiante corriente, pero en su lugar puede utilizarse la llamada prueba de Kruskal-Wallis, de aplicación sencilla y cuyos resultados son casi equivalentes a los del Análisis de la Variancia.

26.2 Prueba Kruskal-Wallis. Esta prueba consiste en dar un número de orden a cada una de las observaciones y calcular el valor “H” el cual puede interpretarse con la tabla de

χ2.

Con el fin de no distraerse en los cálculos aritméticos, supóngase que se ha tomado la estatura de los alumnos de cuatro escuelas diferentes y se desea saber si los cuatro promedios difieren significativamente o si tales diferencias pueden explicarse fácilmente por el azar.

26.2.1. Cálculo e Interpretación. Para efectuar la prueba se procederá de la siguiente forma: 1. Sin tomar en cuenta el grupo al que pertenece, se dará a cada observación un número de orden de uno en adelante, empezando por la menor y terminando por la mayor. Cuando hay varias observaciones iguales, a cada una se le dará el promedio del número que corresponda. Note en el cuadro siguiente que la menor estatura observada fue 135 y a ese individuo se le dio el número 1. Luego aparece un escolar con 136, a quien corresponde el 2 y otro de 137, a quien corresponde el número 3. Hay en seguida tres escolares de 138 centímetros, a quienes corresponderán los puestos 4, 5 y 6 pero no miden exactamente igual, se tomó el promedio de estos tres números (15/3 = 5) y a cada uno se le dio un valor de 5. Desde luego, el próximo valor (140 cm) no será 6 sino 7 pues los 3 valores con 5, que representan los escolares cuarto, quinto y sexto. En la misma forma se continuará, hasta dar un número de orden a cada observación.

Cuadro 254. Estatura en centímetros de los alumnos de cuatro escuelas. (Cálculo de la prueba de Kruskall-Wallis).

Escuela A Escuela B Escuela C Escuela D Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden Estatura N° de Orden 142 9 136 2 135 1 137 3 149 16 138 5 138 5 150 17,5 138 5 145 12 140 7 153 20 150 17,5 144 11 147 14 141 8 151 19 154 21 146 13 148 15 155 22

Suma T1 n X

66,5 5 146

143

10 76 7 144

27 4 140

83,5 6 147

2. Para cada escuela separadamente se suman los números de orden acabados de calcular (valores T1 del cuadro anterior).

3. Calcular el valor II, mediante la fórmula: H = [

12 x N(N+1)

T1² ] – 3 (N+1) n1

en donde: 12 y 3 son constantes invariables en cualquier prueba. N es el total de personas estudiadas: 22 en nuestro ejemplo. n1 es el número de individuos estudiados en cada escuela: 5, 7, 4, 6. T1 es la suma de los números de orden en cada uno de los grupos. En nuestro ejemplo: 66.5; 76.27; 83.5. Como indica la fórmula, cada una de las sumas (T1) debe elevarse al cuadrado y dividirse por el número de escolares en la respectiva escuela y luego sumar los resultados de tales divisiones. Por lo tanto aplicando la fórmula: H = [

12 22 (22+1)

(66.5² + 76² + 27² + 83.5²) ] – 3 (22 +1) 5 7 4 6

= [

12 (884.45+825.14+182.28+1162.04) ] –(3 x 23) 22 x 23 = [ 12 (3.053.88) ] - 69= 72.42-69= 3.42 506 4. Buscar en la tabla de x² el valor de “H” es o no significante, teniendo en cuenta que el número de grados de libertad es igual al número de grupos menos 1. En nuestro ejemplo, cómo eran cuatro escuelas los grados de libertad son: (4-1) = 3 Para que el valor “H” con tres grados de libertad sea significante cuando se desea un 95% de certeza, la tabla de x² muestra que debe exceder a 7.8. Como nuestro valor calculado fue 3.42, el cual está muy por debajo del valor d la tabla, concluimos que las diferencias en la estatura entre las cuatro escuelas, muy posiblemente se deban al azar.

CAPITULO XXVII COMPARACION ENTRE DOS MUESTRAS NO INDEPENDIENTES. 271. Generalidades. Cuando los individuos que se estudian sirven como su propio control como en el caso en el cual se le toma a cada individuo determinada medición “antes” y “después” de cualquier tratamiento, o cuando con fines comparativos dos métodos diferentes se aplican a los mismos individuos, es claro que en tales ocasiones, los valores que quieren compararse no son independientes. Así por ejemplo, sin con el fin de evaluar la acción hipertensiva de una droga se toma la presión arterial a un grupo de individuos “antes” y “después” de su aplicación, naturalmente que los valores después de aplicada la droga dependerán de la tensión original, pues una persona cuya tensión sistólica original sea de 150, posiblemente ascienda a 180, pero es dudoso que quien tenga inicialmente una tensión de 100, presente luego un valor de180. Los métodos apropiados para hacer estas comparaciones son algo distintos de los estudiados hasta ahora y lo mismo que en el caso de las muestras independientes, debe tenerse en cuenta si los resultados se han resumido mediante promedios o porcentajes. 27.2. Comparación de los promedios de dos muestras no independientes. En el capítulo XXIII se compararon las pulsaciones por minuto de 16 hombres y 16 mujeres, llegándose a la conclusión de que las diferencias observadas eran muy probablemente debidas al azar. Con el fin de comparar los resultados de la prueba estadística utilizada cuando las muestras son independientes, con la que debe utilizarse cuando las muestras no son independientes, vamos a suponer que los valores de los hombres corresponden a los de un grupo de individuos a quienes se les tomó el número de pulsaciones “antes” de inyectarle determinada droga “A” y que los valores dados entonces para las mujeres, corresponden al mismo grupo de individuos “después” de la inyección de la droga. Los resultados, copiados de los cuadros 225 y 235 son los siguientes: Cuadro 257 Pulsaciones por minuto en 16 individuos normales, antes y después de la aplicación de la Droga “A” (Cálculo del promedio y de la D.E. de los “cambios” observados) Individuos 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 Total

Antes de la droga 70 66 82 64 65 88 82 70 70 84 85 68 84 76 65 65 1184

Después de la droga 76 72 79 65 70 88 80 76 78 84 86 74 84 78 70 72 1232

Cambios Desviaciones (después antes) (cambios promedio) 6 3 6 3 -3 -6 1 -2 5 2 0 -3 -2 -5 6 3 8 5 0 -3 1 -2 6 3 0 -3 2 -1 5 2 7 4 0

Desviaciones al cuadrado 9 9 36 4 4 9 25 9 25 9 4 9 9 1 4 16 182

Antes de la inyección :¯Xa = 1.184/16 = 74 D.E .= 84.1 (tomado del cuadrado de 225) Después de la inyección: X¯d =1.232/16 = 77 D.E. = 6.21 (tomado del cuadrado de 235) Cambios observados:

Xe = 48/16 = 3 D.E. = √182/16 = 3.37

27.2.1. Prueba de significancia incorrecta. Si se considera erróneamente que las mediciones antes y después de la inyección de la droga son independientes, se aplicaría la prueba estadística vista en el Capítulo XXIII a propósito de la comparación de 16 hombres y 16 mujeres. En tal caso: (E.E.)1 = 8.41/√16= 2.11 (E.E.)2 = 6.21/√16= 1.55 (E.E.) de la diferencia = √(2.11)² + (1.55)² = 2.6 y conforme ya se vio: Diferencia E.E.

= 77 – 74 = 1.1 no significante 2.6

27.2.2. Prueba de significancia correcta. Para hacerse esta prueba debe trabajarse con los “cambios” observados de la manera siguiente: a. Buscar los cambios observados, restando para cada individuo el valor observado “Después” de la aplicación de la droga, el que se observó “Antes” de que ésta hubiera sido aplicada. Debe tenerse cuidado en conservar los signos (+) y (-).+ b. Sumar estos valores tomando en cuenta los signos algebraicos y dividir por el número de individuos estudiados para obtener el promedio de los cambios (X = 48/16=3). c.

Buscar las desviaciones entre cada cambio y su promedio (Xe).

Note por ejemplo, que el tercer individuo presenta un descenso en las pulsaciones (-3) y al restar a esta cifra el promedio (3), se obtiene: -3 – (3) = - 6 d. Elevar al cuadrado cada desviación y sumar la columna correspondiente para obtener la desviación estándar por el método conocido: D.E.. = √182/16 = 3.37 e. Calcular el error estándar de los cambios, por el procedimiento ya conocido. E.E. =

3.37 = 3.37 = 0.84 √16 4

f. Para la prueba de significancia, como el promedio de los cambios: Xe = Xd – Xa = (77 – 74) = 3

Entonces: Diferencia E.E.

=

3 – 0 = 3.6 valor significante 0.84

Note que la prueba correcta señala que las diferencias observadas son significantes, mientras que si se hubiera utilizado incorrectamente la prueba para muestras independientes, habríamos concluido que tales diferencias no eran estadísticamente significantes. 27.3 Comparación entre los porcentajes de dos muestras no dependientes. Muchas veces se evalúa la eficacia de una nueva técnica diagnóstica comparando los resultados que se obtienen con ella, con aquellos que se obtienen en lo mismo individuos con la utilización de otra técnica de reconocida eficiencia. 27.3.1 Comparación incorrecta. Si a cien niños se les hubiera aplicado PPD intradérmica en un antebrazo y PPD por escarificación en el otro para determinar cuál procedimiento es mejor, no se obtendrían todas las ventajas de este experimento si nos contentáramos con averiguar el porcentaje de niños positivos a cada una de las pruebas. Por lo tanto, la presentación de tales datos, no sería correcta en tal forma, ni tampoco sería correcta aplicar la prueba de significancia estadística estudiada en el capítulo XXIV, como si se tratara las muestras independientes. Cuadro 260 Resultados de la aplicación de PPD intradérmico y por escarificación a un grupo de 100 niños (Presentación inadecuada de los datos)

Vía de ubicación Intradérmica Escarificación Total

Resultado Negativo Positividad 30 70 20 80 50 150

Total

Aplicando esta prueba:

( E.E.)1 =

( E.E.) 2 =

E.E. de la diferencia =

25x75 = 4.33 100 25x75 = 4.33 100

(4.33) 2 + (4.33) 2 = 6.12

100 100 200

Porcentaje de positividad 30,0 20,0 25,0

por consiguiente:

Diferencia 30 − 20 = = 6.12 E.E.

1.63

no significante

27.3.2 Comparación correcta Con el fin de comparar correctamente los resultados del experimento anterior, ellos deben presentarse de tal manera, que se pueda averiguar cuantos niños fueron positivos o negativos a las dos reacciones a la vez y cuántos de quienes dieron positividad a una reacción fueron negativos a la otra o viceversa. Contraste el cuadro anterior, que no permite conseguir tal información, con el siguiente que sí la suministra: Cuadro 261 Resultados de la aplicación de PPD intradérmico y por escarificación a un grupo de 100 niños

Escarificación + 16* 14 64 6* 80 20

Intradérmico + Total

Total 30 70 100

Puede apreciarse que la diferencia de 10% entre 30% de positividad al PPD intradérmico y el 20% de positividad al escarificado, se debe al hecho de que hubo 16 individuos positivos a la primera prueba y negativos a la segunda, mientras que solo hubo 6 niños positivos a la escarificación y negativos a la reacción intradérmica, es decir: Intradérmica (+) pero Escarificación (-) 16 en 22 = 72,7% Escarificación (+) pero Intradérmica (-) 6 en 22 = 27,33% Si los niños hubieran estado divididos en 11 y 11, entonces las dos pruebas diagnósticas habrían mostrado la misma positividad. Puede averiguarse por lo tanto, si la discordancia anterior es significante, comparando con 50% cualquiera de los 2 porcentajes anteriores. Pues observe que 72.7% - 50% = a 22.7% e igualmente 50% - 27.3% = 22.7%. Para efectuar la prueba estadística, simplemente: a. Calcule el error estándar correspondiente a los 22 individuos en los cuales las pruebas no .

concordaron, tomando p = 50%, o sea:

E.E. =

p,q. = 22

50x50 = 22

2500 = 10.65 22

b. Divídase por este error estándar, la diferencia entre cualquiera de los 2 porcentajes en discordancia y 50%, o sea:

22.7 50% − 27.3% = = 2.13 significante. 10.65 E.E. Mientras que la prueba correcta que se acaba de efectuar muestra una diferencia significante entre el PPD intradérmico y el escarificado, la prueba incorrecta nos llevaba a una conclusión contraria. 27.3.3 Prueba de Mc. Nemar En lugar de la prueba acaba de explicar, puede utilizarse la prueba de Mc. Nemar que consiste en calcular Chi Cuadrado, en base, solamente a los valores en los cuales las dos reacciones no concuerdan:

Kahn

A C

+ -

Wasserman + B D

Si llamamos estos valores, A y D, respectivamente, el cálculo será sencillamente:

X2 =

( A − D) 2 A+ D

o sea, con los datos del ejemplo anterior:

X2 =

(16 − 6) 2 10 2 = = 4.5 (16 + 6) 22

2

Buscando este valor en la tabla de X (cuadro 251) vemos que es significante, conclusión idéntica a la alcanzada con la prueba aplicada en la sección anterior (27.3.2) Note de paso:

(2.13) 2 = 4.5 2

lo cual confirma nuevamente, que cuando x tiene solamente un grado de libertad, entonces:

(

Diferecia 2 ) = X2 E.E.

AJUSTE DE TASAS (Tasas corregidas o estandarizadas) Al querer comparar dos o más poblaciones que difieran en su composición por edad, sexo o raza, deben tenerse en cuenta estos factores para que la comparación sea correcta. Así por ejemplo, la tasa cruda de mortalidad en dos poblaciones puede diferir exclusivamente por el hecho de que en una de ellas la población sea más vieja que en la otra, a pesar de que las tasas específicas por edad sean semejantes. Desde luego que una comparación correcta podría hacerse comparando una a una las tasas específicas, por edades, pero cuando se desea resumir el estudio en una simple cifra, es necesario recurrir a un procedimiento que elimine la influencia del factor que está viciando la comparación. Para tal fin, son de utilidad las tasas corregidas. Aun cuando la explicación que sigue se refiere concretamente a la corrección de tasas por edades, el procedimiento es el mismo para la corrección de tasa por sexo, raza, etc. Pueden inclusive presentarse tasas corregidas simultáneamente por edad y sexo o por edad y raza; según se requiera. Población estándar Para él cálculo de las tasas corregidas se requiere una población estándar, sin que tenga mayor importancia la población que se escoja como tal. Si se comparan dos ciudades, la población estándar puede ser la suma del número de sus habitantes o puede escogerse una de ellas como población estándar. Si la comparación es entre varias ciudades de un mismo país, puede escogerse la población del país como estándar. La obtención de tasas corregidas puede hacerse por dos métodos: a) Método directo b) Método indirecto El método directo equivale a preguntarse cuál sería la mortalidad de la región que se estudia si ella tuviera la misma composición etaria que la población estándar o cual sería la tasa cruda de mortalidad de las dos o más regiones que se comparan, si ellas tuvieran la misma composición etaria. El método indirecto equivale a preguntarse cuál sería la mortalidad de la región que se estudia, si ella estuviera sometida a las mismas tasas de mortalidad por edades de la población estándar. Método directo. Con el fin de facilitar la verificación de los cálculos tomemos el siguiente ejemplo teórico, en donde se comparan los datos de dos poblaciones: la primera una población joven en progresión y la otra, una población vieja, estacionaria.

Cuadro 1 Habitantes, defunciones y tasas de mortalidad por grupos de edad, en las poblaciones de San Pedro y San Juan, 1960 San pedro

Grupos edad (1)

San juan Mortalidad por 1.000 habitantes

de

Habitantes (2) - 15 años 40.000 15 – 49 años 50.000 50 y + años 10.000 Todas las 100.000 edades

Defunciones (3) 400 300 200 900

(4) 10,0 6,0 20,0 9,0

Habitantes (5) 30.000 50.000 30.000 110.000

Mortalidad por 1.000 habitantes

Defunciones (6) 270 250 540 1.060

(7) 9,0 5,0 18.0 9,6

Puede verse en el cuadro que antecede que a pesar que las tasas por edad son menores en San Juan, su tasa cruda de mortalidad es mayor que la de san Pedro, lo cual se debe desde luego, a que en la primera ciudad hay un número mayor de personas de 50 y más años, edades en donde la mortalidad es mayor. Para la corrección de tasas por el método directo puede seguirse cualquiera de los dos siguientes procedimientos. Primer procedimiento. Los pasos a seguir, resumidos en el cuadro 366, son: 1) Escoger la población estándar y buscar su composición por grupos de edad. En este ejemplo, se ha tomado la suma de los habitantes de las ciudades, como población estándar (columna 2). 2) Averiguar el número de muertes que se habrían producido en esta población si ella hubiera estado sometida a las tasas de mortalidad de cada grupo de edad de la primera de las ciudades que se estudian. Para ella se multiplicara el número de habitantes en cada grupo etario de la población estándar por la tasa correspondiente observada en la primera ciudad (columna 2 x 3. La suma de estos productos será el total de muertes teóricas para la primera ciudad. 3) Repetir el paso anterior utilizando las tasas de la segunda ciudad (columna 2 x 5). 4) Dividir las muertes teóricas obtenidas en los dos pasos anteriores (total de columnas 4 y 6) por la población estándar total y dichos resultados representaran las tasas corregidas para las ciudades que se estudian.

Cuadro 2 Cálculos para la corrección de tasas por el método directo, utilizando como población estándar, la suma de los habitantes de las 2 ciudades

Grupos de edad

Habitantes en la población estándar

(1) -15 años 15 – 49 años 50 y + años Todas las edades

(2) 70.000 100.000 40.000

SAN Mortalidad por 1.000 habitantes (3) 10 6 20

210.000

PEDRO Mortalidad teórica(2) * (3) (4) 700 600 800

SAN JUAN Mortalidad por Mortalidad 1.000 teórica (2) * (3) habitantes (5) (6) 9 630 5 500 18 720

2.100

1.850

La tasa corregida par a las dos ciudades será: Para San Pedro

2.100 * 1.000 = 10.0 por 1.000 habitantes 210.000

Para San Juan

1.850 * 1.000 = 8,8 por 1.000 habitantes 210.000

Las tasas anteriores señalan, que se las dos poblaciones hubieran tenido una distribución etaria semejante, la tasa cruda de mortalidad de San Juan habría sido inferior a la de San Pedro y no superior como lo es en el ejemplo. De hecho, la tasa de San Juan es:

8,8 * 100 = 88% de la de San Pedro 10 Segundo procedimiento. Un habitante de San Juan podría preguntarse cuál sería la tasa de mortalidad de su ciudad, si ella tuviera la misma distribución etaria de San Pedro. En este caso podemos tomar como población estándar la de San Pedro. Los cálculos en todo semejantes al del ejemplo anterior, aparecen a continuación: Cuadro 3 Cálculos para la corrección de tasas por el método directo, tomando como población estándar la de la ciudad de San Pedro

Grupos de edad

Habitantes en la población estándar

(1) - 15 años 15 – 49 años 50 y + años Todas las edades

(2) 40.000 50.000 10.000 100.000

SAN Mortalidad por 1.000 habitantes (3) 9 5 18

JUAN Mortalidad teórica (2)*(3) (4) 360 250 180 790

La tasa corregida para San Pedro, que ha sido tomada como población estándar, será su misma tasa cruda de mortalidad (9 x 1.000). La tasa corregida para San Juan será:

790 * 1.000 = 7,9 x mil habitantes 100.000 De nuevo se observa que la tasa de San Juan, es:

7,9 * 100 = 88% de la de San Pedro 9 Método indirecto Los siguientes pasos esquematizados en el cuadro 369 resumen los correspondientes cálculos: 1. Escoger la población estándar y buscar su tasa cruda de mortalidad y sus tasas de mortalidad por grupos de edad (columna2. 2. Averiguar la distribución por edades de la población de cada una de las ciudades que se comparan ( columnas 3y5) 3. Averiguar las muertes teóricas que se producirían en la primera ciudad si estuviera sometida a las tasas de mortalidad de la población estándar. Para ello se multiplica cada una de las tasas de la población estándar (columna 2) por el correspondiente número de habitantes de la primera ciudad (columna 3. La suma de estos productos será el total de muertes teóricas en dicha ciudad (columna 4. 4. Repetir el procedimiento anterior para obtener el total de muertes teóricas en la segunda ciudad (columna 6. 5. En cada ciudad dividir el número total de muertes que realmente ocurrieron por el correspondiente total de muertes teóricas. Con esto se obtiene un factor correctivo que expresa la relación entre la mortalidad del aria estudiada y la mortalidad de la población estándar. 6. Obtener las tasas corregidas para las ciudades que se estudian, multiplicando los valores encontrados en el paso anterior por la tasa cruda de mortalidad de la población estándar. Cuadro 4 Cálculos para la corrección de tasas por el método indirecto, utilizando las tasas de mortalidad de una población teórica.

Grupos de edad

(1) - 15 años 15 – 49 años 50 y + años Todas las Ed.

Tasa de SAN mortalidad por 1.000 habitantes en Habitantes (b) la población estándar (a) (2) (3) 8 40.000 5 50.000 25 10.000 7 100.000

PEDRO

SAN

JUAN

Mortalidad teórica (2) * (3)

Habitantes (b)

Mortalidad teórica (2) * (5)

(4) 320 250 250 820.

(5) 30.000 50.000 30.000 110.000

(6) 240 250 750 1.210

(a) cifras teóricas, digamos para todo el país (b) cifras tomadas del cuadro 365 Como las muertes que relámete ocurrieron fueron (cuadro 365): San Pedro = 900 San Juan = 1060 Se calculará:

Factor correctivo para San Pedro

900 = 1,10 820

Factor correctivo para San Juan

1.060 = 0,86 1.240

Las tasas corregidas para las dos ciudades se obtendrán aplicando los anteriores valores para la tasa cruda de la población estándar, en este caso 7 x 1000:

Tasa corregida para San Pedro: 7 x 1,10 Tasa corregida para San Juan:

La tasa de San Juan es:

=

7 x 0,85 =

7,70 x 1.000 6,02

6,02 * 100 = 78% de la de San Pedro 7,7

Comparación de los dos métodos Aun cuando el método directo parece mucho más lógico que el indirecto, este último tiene como ventajas: 1. No requiere conocer la mortalidad por edades en las áreas que se comparan. 2. Cuando las poblaciones son pequeñas, sus tasas de mortalidad pueden presentar grandes fluctuaciones debidas al azar y en esos casos las tasas de población estándar por ser muy estables suministran una excelente mortalidad teórica.

Se habrá observado que según la población que se escoja como estándar las tasas obtenidas son diferentes. Sin embargo, la importancia relativa de dichas tasas, que es lo que importa conocer, permanece casi inmodificable. Puede verse que los ejemplos que sirvieron de ilustración, a pesar de que los valores que se encontraron para las dos ciudades variaron considerablemente según el método y la población estándar utilizada, el cambio relativo fue muy semejante en los tres ejemplos: 88%, 88% y 78% respectivamente. Debe tenerse en cuenta que las tasas corregidas no añaden ninguna nueva información a las tasas de mortalidad especificas por edades. Por el contrario mucha información se pierde y por lo tanto,

ellas no deben sustituir a las tasas específicas, cuyo análisis detallado es mucho más importante que el dato resumido de una tasa corregida.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF