Estadistica 1

November 15, 2017 | Author: Richard Ordoñez | Category: Sampling (Statistics), Measurement, Scientific Method, Probability, Science
Share Embed Donate


Short Description

Download Estadistica 1...

Description

Módulo Autoformativo

JOSÉ MIGUEL CUBILLOS MUNCA

Escuela Superior de Administración Pública Programa de Administración Pública Territorial

FUNDAMENTACIÓN

E stadistica 1

Núcleo

Estadistica 1

Unidad 2 Población, Muestra y Variable

31

2

32

Población, Muestra y Variable

Estadistica 1 OBJETIVOS

*

El estudiante estará en capacidad de identificar dentro de un problema social, las variables internas y externas que lo afectan.

*

El estudiante podrá delimitar la población y la muestra necesarias para abordar un problema de investigación.

INTRODUCCIÓN Aunque para muchos autores los conceptos de población, muestra y variable se limitan a unos renglones o en el mejor de los casos a una hoja, en este módulo se les ha dedicado todo un capítulo, ya que la claridad en su determinación es primordial para lograr un trabajo estadístico consistente. Muchos esfuerzos investigativos fracasan cuando no se ha delimitado claramente la población o cuando se ha tomado una muestra que no resulta adecuada para el propósito a indagar o que no responde al tamaño u otras características de la población. Además, cuando pretendemos estudiar las ciencias sociales como en nuestro caso, nos encontramos con el hecho de que las fórmulas son insuficientes para determinar los tamaños de las muestras adecuados, y además con que las variables de tipo cuantitativo y ordinal resultan insuficientes e incluso inadecuadas para estudiar algunos fenómenos. El hecho de la medición, exige mucha claridad conceptual, ya que no se limita a la cuantificación de datos sino que exige determinar el tipo de variable que será útil para el propósito investigativo. Hay que tener en cuenta hechos como que el investigador que realiza la medición no es un simple observador sino que puede influir en el comportamiento del objeto observado. Las investigaciones de tipo etnográfico y de investigación- acción son muy críticas en este aspecto. Para iniciar esa discusión se ha agregado un texto complementario que aborda un poco la epistemología de la medición. Al igual que en capítulo anterior se pretende que el estudiante haga la lectura y el trabajo propuesto en forma autónoma y que lleve los resultados a discusión en la sesión de grupo. Dependiendo de la organización de las horas de tutoría, se podrían trabajas los dos capítulos en el mismo encuentro.

33

2

34

Población, Muestra y Variable

Estadistica 1 Población, Muestra y Variable En trabajos de descripción, explicación o predicción, cualquiera que sea la fuente de los datos y cualquiera que sea el nivel crítico de nuestro trabajo afirmamos, generalizamos, extendemos a toda una población los resultados de una muestra. Aún en los juicios que hacemos en nuestra vida diaria acerca de personas, grupos humanos, efectos de programas, salud pública, delincuencia, drogadicción, clientelismo, violencia, etc., sólo contamos con una muestra aveces de tamaño muy pequeño. De ahí muchos errores de juicio. Los trabajos que incluyen todos los componentes de una población, no una muestra de ella, se llaman censos. Por razones de tiempo, costo y confiabilidad los censos se sustituyen por muestras. La razón de ser de las muestras se basa en el razonamiento de tipo inductivo, según el cual, a partir de casos podemos inferir la norma general, además, salvo las excepciones triviales, las cosas no se comportan de forma caótica sino que tienden a un orden. Por ello, cuando estamos frente a fenómenos demasiado multiformes, numerosos, extensos e inaccesibles, nos podemos conformar con las muestras. * ¿Como tiene un médico la seguridad de que el medicamento que prescribe va a resultar efectivo en su paciente? ¿el medicamento ya ha sido probado con todas las personas? Y cuando es un medicamento nuevo, que ya se experimentó en animales, y aunque ello no implica con total certeza que funcionará en personas, tampoco pudo ser probado en todos los animales. Comente con sus compañeros y escriba las conclusiones.

Una población de estudio está determinada por sus características definitorias. Por lo tanto, el conjunto de elementos que posea esta característica se denomina población o universo. Población de la investigación o de estudio es la totalidad del fenómeno a estudiar, donde las unidades de población poseen una característica común, la que se estudia y da origen a la población de datos de la investigación. Por ejemplo, si se quiere de terminar cual es el nivel de ingreso promedio de los habitantes de un municipio, tendremos una población de estudio que son las personas en edad y capacidad de trabajar, y una población de datos que serán los montos de los ingresos de cada persona de la población de estudio. De estas personas seleccionamos un grupo al cual le registraremos el monto de sus ingresos, obteniendo entonces una muestra. Entonces, una población es el conjunto de todas las cosas que concuerdan con una serie determinada de especificaciones. Cuando seleccionamos algunos elementos con la intención de averiguar algo sobre una población determinada, nos referimos a este grupo de elementos como muestra. Por supuesto, esperamos que lo que averiguamos en la muestra sea cierto para la población en su conjunto. La exactitud de la información recolectada depende en gran manera de la forma en que fue seleccionada la muestra.

Población de estudio es el conjunto de todos los entes a los cuales se les pueden aplicar las conclusiones de la investigación. Población de datos es el conjunto de las mediciones de una caracterís-tica en cada elemento de la población de estudio.

35

2

Población, Muestra y Variable

Cuando no es posible medir cada uno de los individuos de una población, se toma una muestra representativa de la misma. La muestra descansa en el principio de que las partes representan al todo y, por tal, refleja las características que definen la población de la que fue extraída, lo cual nos indica que es representativa. Por lo tanto, la validez de la generalización depende de la validez y tamaño de la muestra. Si usted desea saber mucho más... Leyes del método de muestreo. El método de muestreo se basa en ciertas leyes que le otorgan su fundamento científico, las cuales son: Ley de los grandes números: si en una prueba, la probabilidad de un acontecimiento o suceso es P, y si éste se repite una gran cantidad de veces, la relación entre las veces que se produce el suceso y la cantidad total de pruebas (es decir, la frecuencia F del suceso) tiende a acercarse cada vez más a la probabilidad P. Cálculo de probabilidades: La probabilidad de un hecho o suceso es la relación entre el número de casos favorables (p) a este hecho con la cantidad de casos posibles, suponiendo que todos los casos son igualmente posibles. El método de establecer la probabilidad es lo que se denomina cálculo de probabilidad. De estas dos leyes fundamentales de la estadística, se infieren aquellas que sirven de base más directamente al método de muestreo: * *

*

Ley de la regularidad estadística: un conjunto de n unidades tomadas al azar de un conjunto N, es casi seguro que tenga las características del grupo más grande. Ley de la inercia de los grandes números: esta ley es contraria a la anterior. Se refiere al hecho de que en la mayoría de los fenómenos, cuando una parte varía en una dirección, es probable que una parte igual del mismo grupo, varíe en dirección opuesta. Ley de la permanencia de los números pequeños: si una muestra suficientemente grande es representativa de la población, una segunda muestra de igual magnitud deberá ser semejante a la primera; y, si en la primera muestra se encuentran pocos individuos con características raras, es de esperar encontrar igual proporción en la segunda muestra.

Tipos de muestras. Muestreo aleatorio simple: la forma más común de obtener una muestra es la selección al azar, es decir, cada uno de los individuos de una población tiene la misma posibilidad de ser elegido. Si no se cumple este requisito, se dice que la muestra es viciada. Para tener la seguridad de que la muestra aleatoria no es viciada, debe emplearse para su constitución una tabla de números aleatorios.

36

Estadistica 1 Muestreo estratificado: una muestra es estratificada cuando los elementos de la muestra son proporcionales a su presencia en la población. La presencia de un elemento en un estrato excluye su presencia en otro. Para este tipo de muestreo, se divide a la población en varios grupos o estratos con el fin de dar representatividad a los distintos factores que integran el universo de estudio. Para la selección de los elementos o unidades representantes, se utiliza el método de muestreo aleatorio. Muestreo por cuotas: se divide a la población en estratos o categorías, y se asigna una cuota para las diferentes categorías y, a juicio del investigador, se selecciona las unidades de muestreo. La muestra debe ser proporcional a la población, y en ella deberán tenerse en cuenta las diferentes categorías. El muestreo por cuotas se presta a distorsiones, al quedar a criterio del investigador la selección de las categorías. Muestreo intencionado: también recibe el nombre de sesgado. El investigador selecciona los elementos que a su juicio son representativos, lo que exige un conocimiento previo de la población que se investiga. Muestreo mixto: se combinan diversos tipos de muestreo. Por ejemplo: se puede seleccionar las unidades de la muestra en forma aleatoria y después aplicar el muestreo por cuotas. Muestreo tipo: la muestra tipo (Master Simple) es una aplicación combinada y especial de los tipos de muestra existentes. Consiste en seleccionar una muestra «para ser usada» al disponer de tiempo, la muestra se establece empleando procedimientos sofisticados; y una vez establecida, constituirá el módulo general del cual se extraerá la muestra definitiva conforme a la necesidad específica de cada investigación.

Existen algunos requisitos que debe cumplir la muestra para que sea de utilidad, lo cual hace más relevante el tipo de muestreo, el tamaño y el procedimiento para recoger el dato. Por ello debemos dar respuesta a los siguientes interrogantes: ¿la manera de obtener la información es la más adecuada? ¿Los datos que tomamos si se refieren a la característica que se mide? ¿Es la muestra representativa de la población? ¿Se puede confiar plenamente en el dato? ¿Es aleatoria la muestra?.

Nos debemos asegurar que el ente que genera la información no la altere a voluntad por disimular alguna falencia personal o de grupo, por esnobismo, orgullo, prejuicio, tendencia a dar respuestas agradables y a responder lo que se considera aceptable por el grupo social. Ejemplo, si le preguntamos a una dama por el número de vestidos que hay en su armario, probablemente tenderá a aumentar el número. Si se indaga a una persona acerca de cuantas cervezas se tomó el ultimo día que salió de rumba, para determinar el promedio de consumo de cerveza por persona, tal vez esta tienda a decir que tomo mucho menos. El ejemplo más típico es el del ingreso, ya que es una tendencia muy generalizada el mentir acerca del nivel de ingresos.

37

2

Población, Muestra y Variable

Respecto a la representatividad de la muestra se debe considerar tanto el número como lo exhaustiva que sea, es decir que represente a todos los grupos de la población de estudio. Por ejemplo, no es representativa una muestra de 30 estudiantes para determinar la preferencia por las carreras universitarias en Colombia: No es representativa por el número. No es representativa una encuesta de preferencia electoral para presidente de la república en Colombia, aplicada telefónicamente, ya que se estaría excluyendo un grupo considerable de la población como es la mayoría de la rural y la urbana marginal que no tienen servicio telefónico.

La aleatoriedad busca evitar el sesgo de la muestra. Aleatorio significa al azar, es decir que cada elemento de la población tiene la misma probabilidad de ser incluido dentro de la muestra. Por ejemplo, cuando se pretende determinar la preferencia por el color del automóvil y para tomar la muestra recogemos la información del color de 200 autos particulares que pasan el lunes a las 10 AM por el puente de Matatigres al sur de Bogotá D.C., no es aleatoria, por que los autos de personas que nunca se movilizan por el sur no tendrían la misma probabilidad de ser tomados dentro de la muestra.

LAS VARIABLES Una vez que alcanzamos un conocimiento relativamente amplio del tema que se va a investigar, debemos dedicarnos a aislar, dentro del problema, los factores más importantes que en él intervienen. Por ejemplo: si se trata de un problema de comercialización, los aspectos fundamentales que deberemos estudiar serán la oferta y la demanda, las motivaciones del consumidor, la distribución, la publicidad y otros factores semejantes. Gracias a estos factores, estaremos en condiciones de construir el marco teórico dentro del que se inserta el fenómeno de nuestro interés. En aquellos casos en que sea posible llegar a un grado de aislamiento de los factores involucrados en el problema, resulta útil realizar un esquema de variables que nos permitirá organizar mejor nuestro marco teórico. Se pueden definir como todo aquello que vamos a medir, controlar y estudiar en una investigación o estudio. Por lo tanto, es importante, antes de iniciar una investigación, que sepamos cuáles son las variables que vamos a medir y la manera en que lo haremos. Es decir, las variables deben ser susceptibles de medición.

38

Variable es cualquier característica o cualidad de la realidad que es susceptible de asumir diferentes valores, ya sea cuantitativa o cualitativamente. Las variables pueden ser definidas conceptual y operacionalmente. La definición conceptual es de índole teórica, mientras que la operacional nos da las bases de medición y la definición de los indicadores. Es decir, que puede variar. Aunque para un objeto determinado pueda tener un valor fijo. Por ejemplo: una mesa; no puede ser, en sí, una variable. Pero, si nos referimos a la altura de una mesa, estamos en presencia de una variable. O sea, que esa cualidad de la mesa (la altura) puede asumir diferentes valores. No quiere decir que la altura de una mesa determinada deba variar, sino que el concepto genérico «altura de una mesa» puede variar de un caso a otro. Las variaciones pueden también producirse para un mismo objeto, y no sólo entre diferentes objetos. Por ejemplo: el caudal de un río.

Estadistica 1 El tiempo es siempre considerado una variable. También podemos decir que una variable es todo aquello que vamos a medir, controlar y estudiar en una investigación o estudio. Las variables pueden ser definidas conceptual y operacionalmente. Además de la definición de variables que aparece a continuación, complementaremos con una discusión que se presenta en la lectura complementaria del capítulo acerca de la medición. Para definir las variables, nos podemos basar en los indicadores, que constituyen el conjunto de actividades o características propias de un concepto. Por ejemplo, si hablamos de inteligencia, podemos decir que está compuesta por una serie de factores como la capacidad verbal, capacidad de abstracción, etc. Cada factor puede ser medido a través de indicadores. En otras palabras, los indicadores son algo específico y concreto que representan algo más abstracto o difícil de precisar. No todos los indicadores tienen el mismo valor. Es decir, aunque haya varios indicadores para un mismo fenómeno, habrá algunos más importantes que otros, y por lo general cualquier indicador que se tenga está basado en una probabilidad de que realmente represente al fenómeno.

Algunos criterios para escoger los indicadores: Se debe tener el menor número de indicadores de una variable, siempre y cuando éstos sean realmente representativos de la misma. Se deben poseer formas de medición específicas para cada indicador. Hay que tener en cuenta que los indicadores sólo poseen una relación de probabilidad con respecto a la variable. En la práctica, muchas de las características que nos interesan estudiar no son tan simples... Resulta muy sencillo medir y comparar la variable «cantidad de hijos que posee una persona», pero nos enfrentamos con una dificultad mayor si pretendemos conocer el «rendimiento de un estudiante». Cuando nos hallamos frente a variables complejas que resumen o integran una multiplicidad de aspectos diversos, debemos recurrir a subdividir o descomponer la variable en cualidades más simples y fáciles de medir. A estas sub - cualidades que en conjunto integran la variable se las denomina dimensiones de la misma. Dimensión es un componente significativo de una variable, que posee una relativa autonomía. Así, el patriarcalismo de una sociedad es una síntesis de un cierto tipo de organización familiar, determinados va-

39

2

Población, Muestra y Variable

lores individuales y pautas definidas de organización económica. Un ejemplo más simple: el tamaño de un objeto está determinado por su altura, largo y ancho. Cuando hablamos de «relativa autonomía», hacemos referencia a que las dimensiones pueden presentar diferentes valores unas de otras, pero siempre dentro de ciertos límites de congruencia. Si el largo de un objeto se modificara al variar su altura, no estaríamos en presencia de dos dimensiones de una misma variable, sino frente a dos variables diferentes, una de las cuales influye sobre la otra. Una misma cualidad puede considerarse como una variable en sí o como una dimensión de una variable mayor, según el enfoque y los propósitos que guíen cada investigación, pues se trata de definiciones de carácter instrumental que el científico realiza de acuerdo con la naturaleza del problema planteado. Si nos interesa conocer y distinguir a las personas de acuerdo a su nivel socio - económico, podemos descomponer esta variable en dos dimensiones: el nivel social y el nivel económico. Pero, si estamos estudiando el ingreso de las familias, debemos manejar el concepto «nivel económico» como una variable en sí y nos veremos en la necesidad de descomponerla en algunas de las dimensiones que la integran. Una calidad intervienen como variable en una investigación cuando nos es útil relacionarla como un todo con otra u otras variables. En cambio, debemos tomarla sólo como una dimensión cuando su sentido como cualidad aislada sea poco significante y deba agruparse con otras cualidades para poder ser relevante. Cada una de las variables y dimensiones que hemos aislado debe ser definida con la mayor rigurosidad posible, asignándole un sentido unívoco y claro para evitar que se originen ambigüedades, distorsiones e innecesarias discusiones sobre la terminología.

40

Clases de variables. Cualitativas. Sobre ellas no se construye una serie numérica. Por ejemplo: colores. Cuantitativas. Admiten una escala numérica de medición. Ejemplo: el índice de inflación. Categóricas. Tienen la característica de que todos los miembros de una categoría se consideran iguales en lo que se refiere a esa variable. Por ejemplo: las mujeres. Estas variables se subdividen en nominales y ordinales. Nominales. Los valores que pueden asumir sirven para clasificarlos pero no para ordenarlos. Ejemplo: Nombre del Barrio. En caso de usarse números, sólo se adoptan como nombres o identificaciones. Ordinales. Los valores que puede asumir la variable son categorías que conllevan un juicio de valor que exige comparar a los diferentes elementos de la muestra con respecto a esta variable con el objeto de establecer un orden. Es decir que los datos se organizan a través de las relaciones de igualdad, mayor o menor.

Estadistica 1 Medidas. Se pueden asignar numerales a las personas u objetos basándose en que poseen cantidades de alguna característica o propiedad. Experimentales o manipuladas. Cuando los investigadores establecen condiciones experimentales, crean o producen variables. Luego de haber precisado los factores que intervienen en un problema, de haberlos definido y analizado hasta determinar el tipo de condicionamiento que los une, habremos obtenido un conjunto de variables relacionadas entre sí de una cierta manera. Debemos entonces organizar estas relaciones observadas de modo tal que podamos construir un esquema coherente que exprese el cuadro general del problema. Una variable independiente es aquella que, dentro de la relación establecida, no depende de ninguna otra, aunque pudiera estar dependiente si estudiáramos otro problema. Son las condiciones manipuladas por el investigador a fin de producir ciertos efectos. La variable independiente es aquella propiedad de un fenómeno a la que se le va a evaluar su capacidad para influir, incidir o afectar a otras variables. La variable independiente por manipulación es la que el investigador aplica según su criterio, se hace en estudios de carácter experimental. Todo aquello que el experimentador manipula, debido a que cree que existe una relación entre ésta y la variable dependiente. La variable independiente asignada o seleccionada es la que el investigador no puede modificar, no es manipulable, pero se desea saber si influye sobre la variable dependiente.

La variable dependiente puede ser definida como los cambios sufridos por los sujetos como consecuencia de la manipulación de la variable independiente por parte del experimentador. Por ejemplo, si el investigador sostiene la hipótesis de que si administra una determinada droga a un grupo de niños, el grado de aprendizaje de éstos se incrementará. En este caso, la variable independiente estará representada por la droga manipulada por el experimentador, y la variable dependiente será el grado de aprendizaje de los niños. Al hablar de variables independientes y dependientes, debemos tener cuidado de no caer en el error de afirmar que la variable dependiente es causada por la variable independiente. A este tipo de conclusiones se puede llegar en muy contadas situaciones. En ciencias sociales, es conveniente hablar de relaciones entre variables, y no de causas. Una variable es interviniente cuando resulta un factor que interviene entre dos variables modificando o alterando con su propio contenido las relaciones que existen entre esos dos elementos. Por ejemplo: Variable A: alimentación que se recibe en la infancia (variable independiente). Variable B: nivel de inteligencia posterior de la persona (variable dependiente). Variable C: nivel socio - económico (variable interviniente que influye a A). Conviene analizar si la variable interviniente aparece a partir de la variable independiente, es decir, es posterior a ella y con anterioridad a la variable independiente, o si actúa como factor concerniente en la relación de variables. Es normal que una variable no sólo afecte a otra más, sino a varias simultáneamente, así como que una variable dependiente sea influida por dos, tres o más variables independientes.

41

2

Población, Muestra y Variable

Además de estas tres posiciones básicas que las variables pueden adoptar al relacionarse entre sí, existe una cuarta posibilidad que se refiere a las dos características del universo que ejercen una influencia de tipo difuso y general sobre todo el conjunto de los hechos considerados. Las variables contextuales indican el ámbito general donde se desarrollan los fenómenos que se estudian. Por ejemplo: los valores presentes en una sociedad, el tipo de estructura económica. La variable antecedente es la que se supone como «antecedente» de otra. Ejemplo: para realizar el aprendizaje se supone un grado mínimo de inteligencia. Por lo tanto, la variable inteligencia es antecedente de la variable aprendizaje. Una variable continua es aquella que puede asumir cualquier valor numérico y que puede cambiar en cualquier cantidad. Entre uno y otro valor existen infinitas posibilidades intermedias. Por ejemplo: la altura de una persona, el peso de un objeto, el rendimiento de un estudiante. Una variable discreta es aquella que tiene valores numéricos enteros previamente establecidos, los cuales no pueden cambiarse arbitrariamente. Cuando estas posiciones intermedias carecen de sentido, pues la variable se modifica de «a saltos» entre un valor y otro, y no en forma paulatina. Por ejemplo: la cantidad de hijos que puede tener una persona, el número de países que intervienen en una conferencia. Sin embargo, sí tiene sentido, y se emplea usualmente, calcular promedios sobre estas variables. Un caso particular de las variables discretas, es la variable dicotómica, que es aquella que sólo admite dos posibilidades: muerto/vivo; hombre/mujer. Las variables inter son aquellas que estudian simultáneamente varios grupos de sujetos. Las comparaciones se establecen entre (inter) los grupos. Las variables intra son aquellas que pueden estudiar al mismo grupo en diferentes

42

períodos. O sea, las comparaciones se establecen dentro de un mismo grupo. Las variables extrañas son todas aquellas que el investigador no controla directamente, pero que pueden influir en el resultado de su investigación. Deben ser controladas, hasta donde sea posible, para asegurarnos de que los resultados se deben al manejo que el investigador hace de la variable independiente, más no a variables extrañas, no controladas. En otras palabras, una variable extraña es una independiente no relacionada con el propósito del estudio, pero que puede presentar efectos sobre la variable dependiente. Por tal razón, un estudio bien diseñado es aquel que nos asegura que el efecto sobre la variable dependiente sólo puede atribuirse a la variable independiente y no a variables extrañas. Ejemplo: si deseamos evaluar el efecto de determinado método de enseñanza, podemos considerar que la inteligencia es una variable extraña. Otro ejemplo: si parte de la investigación consiste en la aplicación de pruebas psicológicas, y en el momento de la aplicación hay mucho ruido o se corta la luz, estas alteraciones pueden considerarse como variables extrañas.

Estadistica 1

Si usted desea saber un poco más revise esto... Algunos métodos para realizar el control de variables son los siguientes: Eliminación. Cuando sabemos que existe una variable extraña que puede alterar los resultados de la investigación, podemos controlarla mediante la eliminación. Constancia de condiciones. Si, por ejemplo, en un estudio experimental deseamos estudiar dos o más grupos de sujetos, éstos se deben someter exactamente a las mismas condiciones, tanto físicas como de lugar, manteniendo, de esta manera, constantes las circunstancias bajo las cuales se investiga. Balanceo. Cuando tenemos una variable extraña puede influir de manera definitiva en nuestro estudio y, si no la podemos eliminar ni igualar las condiciones de los grupos, deberemos recurrir al balanceo. Este mecanismo distribuye en forma equitativa la presencia de la variable extraña entre los grupos. Contrabalanceo. En algunas investigaciones se pide a los sujetos que respondan varias veces a un mismo estímulo o a varios estímulos diferentes. Esta serie de respuestas puede provocar en los mismos dos reacciones: por un lado, fatiga, porque los sujetos se cansan de estar respondiendo; por otro lado, aprendizaje, ya que después de presentar 2 o 3 veces el mismo estímulo el sujeto ya sabe cómo responder. Para evitar estos problemas, los grupos se pueden subdividir en subgrupos para que los efectos de la fatiga y/o aprendizaje queden anulados. Aleatorización. Este método de control es uno de los más sencillos y más utilizados en ciencias sociales, sobre todo cuando se llevan a cabo estudios experimentales. Se parte del postulado de que si la selección y distribución de sujetos en grupos de control fueron hechas al azar, podemos inferir que las variables extrañas, desconocidas por el investigador, se habrán repartido también al azar en ambos grupos, y así quedarán igualadas.

43

2

Población, Muestra y Variable

Lectura Complementaria.4 “Un Aporte a la Discusión sobre el Status Metodológico de las Variables y Escalas de Medición Introducción La ciencia moderna trajo consigo la observación sistemática, y con ella la medición. La medición en este contexto se transformó en una herramienta que, en algunos sentidos, adquirió suficiente trascendencia como para dirimir lo que era científico de lo que no lo era. Fue tal vez el positivismo el movimiento filosófico que más fuertemente estimuló y defendió el acto de observar, y en consecuencia de medir, como manera de deslindar el conocimiento científico de la metafísica. Así, las ciencias sociales, apegadas en sus inicios a los métodos etnográficos, esencialmente cualitativos, se orientaron en la búsqueda de técnicas y procedimientos que les posibilitaran la medición y, por ende, el estatuto de verdadera ciencia. La medición se transforma así en un acto propio de la ciencia, en detrimento de la reflexión u otras formas de producción de conocimiento. No obstante, surgen dificultades de la ciencia positiva para la resolución de nuevos emergentes, las que traen consigo discusiones y debates acerca del lugar que le cabe a la medición. El presente trabajo tiene por objeto aportar algunos elementos de juicio que contribuyan al esclarecimiento del concepto de medición y, desde allí, a la discusión sobre la naturaleza de las variables y sus escalas. La Naturaleza de la Medición Definir el acto de medir trae no pocas dificultades. Así, para Galtung (1965) la medición es un proceso de clasificación de unidades de análisis según alguna característica elegida; en tanto que Carmines y Zeller (1979) la definen como un

44

proceso de vincular conceptos abstractos con indicadores empíricos, proceso que supone una previa planificación de operaciones, tanto de clasificación como de cuantificación. En ambas definiciones se pondera el acto clasificatorio como la operación sine qua non de la medición. Para Hempel (1979) la asignación de clases como acto lógico, significa dividir un conjunto o clase de objetos en subclases. Los objetos clasificables constituyen los elementos o miembros del conjunto, en tanto que el universo del discurso es el conjunto mismo. Si bien las clasificaciones más elementales refieren a objetos concretos, también son susceptibles de clasificación las entidades abstractas. La pregunta que cabe ante esta afirmación de Hempel es, cómo se puede dar cuenta de objetos inobservables, o cómo no caer en cuestiones metafísicas. Como respuesta posible se puede invocar a Carmines y Zeller (1979) cuando dicen que medir implica vinculación de elementos inobservables, los conceptos, con elementos obser-

4

Aníbal R. Bar. Maestría en Epistemología y Metodología de la Investigación. Facultad de Humanidades. Universidad Nacional del Nordeste 3500 Resistencia (Chaco) República Argentina. Publicado en Cinta de Moebio No. 7. Marzo 2000. Facultad de Ciencias Sociales. Universidad de Chile. http://rehue.csociales.uchile.cl/publicaciones/ moebio/07/frames03.htm

Estadistica 1 vables, los indicadores empíricos. Dicho de otro modo, siendo que las leyes y conceptos no son estructuras posibles de medida en forma directa, sí lo son sus manifestaciones. Hasta qué punto las manifestaciones del fenómeno «muestran» lo que prescriben sus leyes es una cuestión que suscita continuos debates no sólo en el plano de la epistemología, sino en el de la propia disciplina. Otras concepciones refieren a qué tipo de cosa es lo que se mide. Así, Russell (1938), la significa como un método que permite establecer correspondencias entre magnitudes de un mismo género, y ciertas clases de números (integrales, racionales o reales). Campbell (1938) supone que medir es asignar numerales a las propiedades de los sistemas materiales según las leyes que presiden esos atributos. Stevens (1951) concibe el acto de medir como la atribución de numerales a los objetos o sucesos conforme con leyes o reglas. En las dos primeras definiciones la medición se centra en operaciones sobre las variables, en tanto que en la de Stevens, al igual que la de Galtung, sobre las unidades de análisis. Independientemente del concepto de medición, dicho acto sólo es posible a través de la operacionalización de las variables. Al respecto dice Hempel (1979), que para que los principios del operacionalismo permitan las construcciones teóricas de la ciencia excluyendo aquellas sin significado experiencial, deberá caracterizarse con precisión el tipo de oraciones que pueden usarse para dar cuenta de sentidos posibles de los términos no observacionales significativos sobre la base del vocabulario observacional. Hempel supone que esto propendería a una especificación de los conceptos y procedimientos lógico-matemáticos y evitaría la noción psicologista de operación mental. De todas maneras, la convención sigue siendo la única forma de asumir cuáles son las operaciones válidas y cómo deberán de interpretarse los resultados de los tests.

Samaja (1993), concibe a los indicadores como procedimientos aplicados a ciertas dimensiones relevantes de variables con el objetivo de realizar la medición. En este concepto aparecen nuevamente los dos elementos citados por Carmines y Zeller (1979), los conceptos y los indicadores empíricos, pero a diferencia de estos últimos, no asimila el indicador empírico con la dimensión observable. Samaja no concibe la presencia de dimensiones observables, sino dimensiones o conceptos inobservables a los cuales los procedimientos los tornan en tal. Posiblemente el diseño de dichos procedimientos se realiza en la planificación de operaciones previas a que aluden Carmines y Zeller en su definición. Las Escalas y los Niveles de Medición Se ha dicho que la medición, según distintas concepciones, se realiza sobre las unidades de análisis o sobre las variables, pero, es esta última la que posibilita la división en clases, ya que la primera es constante. Tanto para las escalas cualitativas como cuantitativas existen operaciones clasificatorias, o sea ubicación de las unidades de análisis en clases. Por ejemplo, dada una población puede decirse cuáles de los individuos son solteros, casados, divorciados o cualquiera otra categoría de la variable «estado civil». Para las mismas personas también se pueden estimar los valores, agrupados por intervalos de, estatura, peso, nivel de ingresos, o cualquiera otra variables expresada en cantidades.

45

2

Población, Muestra y Variable

Como se advierte en los ejemplos citados, la clasificación es un acto propio de la medición. Ahora bien, ambos casos difieren en los modos en que se manifiesta la variable. En el caso de «estado civil», el acto queda restringido a clasificar las unidades de análisis que muestran tal o cual característica; en los demás casos se puede estimar objetivamente no sólo la presencia o ausencia de determinado atributo, sino también la intensidad con que la propiedad se manifiesta, propiedad que se asume en cantidades. Entre las formas de clasificar variables por referencia al tipo de escala o nivel de medición, se hallan aquellas basadas en criterios de calidad-cantidad. No existe acuerdo pleno entre los autores acerca de las categorías de dicho sistema. Así, Bancroft (1976) y Cortada de Kohan (1994), conciben variables cualitativas, cuantitativas discretas y cuantitativas continuas. Incluyen entre las primeras a las que pueden ser divididas en clases separadas, mutuamente excluyentes; diferenciando éstas en dos categorías, sin ordenamiento o con él. Ambos autores consideran a las escalas como cuantitativas cuando éstas se expresan numéricamente, y cuando dicha expresión numérica no refiere sólo a orden. Estas escalas son discretas cuando sus valores asumen números enteros, y continuas cuando pueden tener cualquier valor en un ámbito finito de valores continuos. Lison (1976), no refiere directamente a variables, pero sí a clases de datos (escalas). Distingue tres clases de datos, de medición, de enumeración y de seriación. Define a los primeros como determinaciones cuantitativas acerca de propiedades susceptibles de variar de manera continua. El autor afirma que los datos de enumeración resultan de contar individuos y que dicha operación debe desarrollarse necesariamente por unidades discretas. Por último, concibe a los datos de seriación como observaciones en la que los objetos son clasificados por orden de mérito, sin que puedan darse valores exactos para el criterio adoptado.

46

Esta última clasificación no incluye a las variables discretas entre las de naturaleza cuantitativa. Lison las concibe en clases de datos diferentes, datos de medición, las cuantitativas continuas, y datos de enumeración, las discretas. Si se analiza los trabajos de Bancroft y Cortada de Kohan, se observa que ambos autores indican las mismas clases de gráficos para representar variables cualitativas y discretas. Formas de representación coincidentes no constituyen una casualidad, sino un rasgo común que debiera indagarse. Contar y medir no significan lo mismo, en tanto que lo primero alude al acto de determinar frecuencias en que se presentan ciertas unidades de análisis de un nivel inferior; lo segundo refiere a variaciones cuantitativas de las propiedades. Lo que aquí se sostiene es que las variables discretas no son variables cuantitativas y que operan en diferentes niveles de integración modificándose sólo en su dimensión numérica. Un ejemplo podría ser el que se cita a continuación, para la unidad de análisis «individuo», las variables que lo describen podrían ser, «estatura», «sexo», y «número de glóbulos rojos por mililitro de sangre». La variable «estatura» es cuantitativa y se expresa en escalas continuas de centímetros o metros; la variable «sexo» es cualitativa y se muestra en alguna de sus dos categorías, masculino o femenino.

Estadistica 1 Según Samaja (1993), las variables del nivel de anclaje pueden comportarse como unidades de análisis de nivel subunitario; esto es que tanto «estatura» como «sexo», podrán transformarse, previa entificación y objetivación en unidades de análisis. Por ejemplo el concepto de sexo (variable) podría transformarse en órganos sexuales o conducta sexual observable (unidades de análisis); o estatura (variable), en registro de estaturas (unidad de análisis). Lo que ocurre con la variable «número de glóbulos rojos por mililitro de sangre» es distinto; dicho atributo se convertiría, en el nivel subunitario, en «glóbulos rojos». En las dos primeras variables debió resignificarse el sentido a los efectos de la objetivación, en tanto que en la tercera se asumió una diferencia de mero número. Cuando se elabora una tabla de frecuencias para cualquier variable, se «introduce» sin advertirse, una nueva variable, esto es el número de veces que se presenta cierta unidad de análisis. Esta variable que puede describir tanto al nivel de anclaje, como a entidades de nivel superior (nivel supraunitario), es más ni menos, una variable discreta. En las variables discretas se cuenta dos veces, una, cuando se obtiene el número de veces con que se presenta el elemento al que refiere la variable, y otra cuando se cuentan las unidades de análisis. Resumidamente, puede decirse que las variables discretas son frecuencias de unidades de análisis cuya única propiedad común es justamente el número de veces que cierto objeto se presenta, independientemente de su naturaleza. Según Bateson (1997), el número es diferente que la cantidad, y esta diferencia es básica para cualquier clase de teorización en ciencias de la conducta. Para este autor, los números son el producto del recuento, y las cantida-

des el producto de la medición. Argumenta diciendo que se puede tener exactamente tres tomates, pero jamás podrá tenerse exactamente tres litros de agua, pues la cantidad es siempre aproximada. Bateson reconoce que los números más pequeños no se obtienen por recuento sino por reconocimiento de una pauta general, como por ejemplo los dígitos del sistema decimal; y que la percepción de esa pauta es holística. Diferencia así el número de la cantidad, a la que asimila con el mundo analógico y probabilístico.

El Número como Nombre, Orden o Medida Para Cohen y Nagel (1979), los números pueden tener por lo menos tres usos distintos, como rótulos o marcas de identificación; como signos que indican la posición de un grado en una serie de grados; o como signos que indican las relaciones cuantitativas entre cualidades. De lo dicho se desprende que sólo la última de las acepciones relaciona el número con la medición. Esta forma de concebir los números conduce a una clasificación de variables o escalas en función de los atributos que presenta una serie numérica. Dichos atributos son, el orden, la distancia y el origen. Las escalas nominales carecen de todas estas propiedades, y en este caso el número sólo puede adoptarse como nombre o identificación.

47

2

Población, Muestra y Variable

Las escalas ordinales, como su nombre lo indica, sólo poseen orden, es decir que organizan sus datos a través de las relaciones de igualdad, mayor o menor. Las escalas interválicas poseen atributos de orden, y distancia o estimación precisa de las unidades. Pero carecen de origen, o cero natural, o ausencia de la propiedad. No obstante estas escalas acuden a la utilización del cero convencional. Las escalas proporcionales o racionales son las únicas que cuentan con las tres propiedades y, por lo tanto, se constituyen en verdaderas series numéricas. Las dos últimas clases de escalas son las que realmente miden, no obstante, al carecer las interválicas de cero natural, no pueden establecerse proporciones. A menudo, datos provenientes de escalas ordinales numéricas son tratados como si fuera información verdaderamente cuantitativa, lo que constituye una falacia, pues no miden, aunque sí clasifican. En este caso se encuadran los tests psicométricos, los cuales únicamente pueden estimar el orden de puntuación, pero nunca la distancia entre dos valores. Con mucha frecuencia, las puntuaciones de dichos tests reciben tratamiento de variables interválicas y, consecuentemente, el cálculo de medidas de tendencia central y dispersión, además de otras operaciones derivadas de ellas. Dichas operaciones no son válidas por cuanto asignan a las escalas un status que en realidad no tienen. Otras veces, las puntuaciones «sirven» a ciertos tests como son los de correlación y regresión. Al respecto, dice Gould (1988), «...gran parte de la fascinación de las estadísticas radica en nuestro sentimiento visceral de que las medidas abstractas que resumen amplios cuadros de datos tienen que expresar algo más real y más fundamental que los

48

datos mismos. La técnica de correlación se ha prestado particularmente a ese tipo de abuso porque parece proporcionar una vía para hacer inferencias sobre la causalidad». Gould (1988) sostiene que el análisis factorial, una de las técnicas utilizadas en el campo de la psicología, a pesar de ser de un instrumento matemático, se inventó en un determinado contexto social y respondiendo a claros objetivos. Utilizar dicha técnica es asumir que el intelecto es una entidad física localizada en el cerebro, y que puede medirse como un valor numérico específico posibilitando clasificaciones unilineales de las personas en virtud de la «cantidad» que cada cual posea del mismo.

Estadistica 1 Conclusión Los conceptos de medición analizados dejan ver divergencias acerca de qué es lo que se mide; algunos autores aluden a que dicha operación se realiza sobre los atributos (variables), en tanto que otros, sobre los objetos (unidades de análisis). Los objetos como constantes que son en su naturaleza, no son medibles, sí, sus propiedades. Se puede ejemplificar diciendo que si las unidades de análisis son viviendas, todas ellas tienen en común una cierta estructura que las identifica como viviendas, y no otra cosa; en tanto que sus atributos: ubicación en el espacio, materiales que la constituyen, altura, etc. pueden mostrar diferencias de una vivienda a otra. Los objetos si bien no pueden ser medidos, sí pueden ser contados. En este sentido, las viviendas emplazadas en un barrio o ciudad podrán ser contadas, o bien, inferido su número. Si contar no es medir, entonces, las definiciones de Russell (1938), y Campbell (1938) sobre medición, parecen más apropiadas. Según se ha desarrollado aquí, el uso de escalas de medición involucra tres procesos diferentes, clasificar, contar y medir. Lo que aquí se ha llamado conteo y medición no son más que operaciones derivadas de la primera acción clasificatoria. En ambas situaciones, los valores de variables se expresarán numéricamente, aunque en un caso sólo se aludirá a frecuencias, y en la otra a variación cuantitativa de propiedades. Las discusiones sostenidas aportan a la idea de que las variables discretas constituyen un tipo de entidad diferente de las variables cualitativas y cuantitativas, aunque muestras propiedades de unas y otras.

El uso de variables discretas implica, primero, diferenciar las unidades de análisis a contar, de aquellas que también constituyen parte del universo del discurso, lo que supone una operación de clasificación, para luego proceder a la obtención de frecuencias. Se asemejan a las variables cualitativas en cuanto a que sus categorías se construyen sobre la presencia de ciertos atributos, sin ponderación cuantitativa de los mismos. Se parecen a las variables cuantitativas (proporcionales) en cuanto parecen poseer las tres propiedades de las series numéricas, orden, distancia y origen; aunque en lo que hace a la distancia, las variables discretas sólo asumen números enteros, pues la acción de contar se fundamenta en las propiedades de los números naturales. Esta diferencia es fundamental, ya que la presencia de números en las escalas discretas no se relaciona con intensidad de propiedades, sino con operaciones de enumeración. En lo concerniente a qué clase de propiedad es una variables discreta, puede decirse que aunque expresada como variable refiere a una unidad de análisis en tanto que da cuenta de algo constante como entidad. Lo que lo hace ser variable reside sólo en el número o frecuencia de aparición de la entidad significada. Finalmente si la recurrencia al uso de escalas, a los efectos de medir, implica una relación de isomorfismo entre la naturaleza lógica del sistema numérico y la estructura que se manifiesta en las propiedades que se miden; deberá de tenerse en cuenta que la escala construida al efecto deberá dar cabal cuenta de dicha relación isomórfica. Dicho de otro modo, deberá tenerse presente que la medición, en sentido estricto, sólo es lícita cuando es posible asimilar la variación de la propiedad con la variación cuantitativa.

49

2

Población, Muestra y Variable

Bibliografía

50

*

Bancroft H. 1976. Introducción a la bioestadística. Eudeba. Bs. As.

*

Bateson G. 1997. Espíritu y naturaleza. Amorrortu. Bs As.

*

Cohen M. y Nagel E. 1979. Introducción a la lógica y al método científico II. Amorrortu. Bs As.

*

Cortada de Kohan. 1994. Diseño estadístico. Para investigadores de las Ciencias Sociales y de la Conducta. Eudeba. Bs. As.

*

Gould S. J. 1988. La falsa medida del hombre. Orbis. Hispamérica. Bs. As.

*

Hempel C. 1979. La explicación científica. Estudios sobre filosofía de la ciencia. Paidos. Bs. As.

*

Lison L. 1976. Estadística aplicada a la biología experimental. Eudeba. Bs. As.

*

Samaja J. 1993. Epistemología y Metodología. Elementos para una teoría de la investigación científica. Eudeba. Bs. As.”

Estadistica 1 PROBLEMAS PROPUESTOS 1. En la situación expresada en la siguiente lectura encuentre las variables que intervinieron y clasifíquelas de acuerdo con todas las categorías estudiadas:

Ordenamiento territorial: el debate nacional Por: José Antonio Sánchez (Fragmento del artículo publicado en el Espectador el 31 de Julio de 2001 ...Los mismos gobernadores han criticado el enfoque del proyecto gubernamental. Guillermo Gaviria Correa, gobernador de Antioquia y presidente de la Federación de gobernadores, sostuvo que “es triste decirlo pero, a pesar de lo que se pregona y de las bondades que indudablemente tiene el proyecto, es quizás el más centralista de los casi once que se han presentado”. Si la suerte está del lado de los gobernadores y el Congreso aprueba el proyecto, podrían surgir nuevas dudas sobre la viabilidad que tendrían estos nuevos escenarios del ordenamiento territorial en el país. Jaime Castro se pregunta si el Gobierno central estaría dispuesto a “hacer nuevas transferencias a las regiones” para sostenerlas. “Tampoco es pensable que los departamentos cedan algunas de sus rentas a las regiones”, añade el ex constituyente liberal. Mucho menos, dice Castro, se podría exigir a los colombianos el pago de nuevos impuestos para financiar a las regiones. Conclusión: “No hay que hacerse ilusiones de que el proyecto va a ser el remedio para los problemas regionales del país, hay que ser realistas, requerimos un nuevo modelo de ordenamiento territorial”.

Orlando Fals Borda, el otro constituyente experto en el tema, señala el camino más expedito para fortalecer la autonomía regional. “No se necesita la ley orgánica de ordenamiento territorial, sino la aplicación inmediata del Artículo 306 de la Constitución Nacional”. Fals Borda insiste que con la suscripción de un protocolo entre los gobernadores de varios departamentos se pueden crear las Regiones Administrativas de Planeación (RAP), lo que sostuvo la semana pasada durante el encuentro de Regiones y Provincias que se realizó en Ibagué, pero este esfuerzo es sólo el comienzo. Los gobernadores de sur ven cómo el Gobierno central prepara una reforma de la Ley 60 que define las competencias de los entes territoriales y cómo sus reclamos de acabar con los institutos descentralizados (Sena, ICBF, Inurbe) para trasladar estas funciones a las regiones y exigir la creación de nuevos impuestos regionales, no producen mayor eco en Bogotá. Entonces, ¿cuál es la autonomía que están alcanzando? El mismo gobernador del Tolima, Guillermo Alfonso Jaramillo, el impulsor de esta idea de descentralización, reconoce que aún falta mucho para madurar la idea. “Hay que dilucidar un poco más en qué estamos de acuerdo”, dijo el mandatario durante el acto de clausura del encuentro de provincias. Incluso en la declaración final de este evento los gobernadores del sur se juegan dos cartas. La primera, insistir en su idea de conformar una re-

51

2

Población, Muestra y Variable

gión administrativa y de planificación con la adopción de un plan de desarrollo regional. Y la segunda, pese a las críticas, insistir en la aprobación de la ley de ordenamiento territorial, pero con un amplio consenso. Quizá la autonomía para estos seis departamentos aún esté en proceso de maduración. Por lo pronto, los mandatarios del sur recuperaron una herramienta que tenían extraviada sus antecesores: el poder de interlocución ante el Gobierno central. Por lo menos eso demostraron al obligar al Gobierno a escuchar sus quejas sobre el proceso de fumigación de cultivos ilícitos. Su interlocución podría ser clave en escenarios como la Comunidad Europea, donde están dispuestos a respaldar los programas de carácter social como los que quieren desarrollar en sus regiones. Entre tanto, la autonomía regional seguirá en veremos en Colombia. Mientras persiste el tira y afloje entre el Gobierno, la clase política anidada en el Congreso y los mandatarios regionales por el tema del ordenamiento territorial, Colombia podría estar perdiendo una oportunidad para desenredar el proceso de paz. Así lo estimaron varios expertos que acudieron a Ibagué a trabajar en el tema de la descentralización y la autonomía regional. “La reforma regional es una de las clases de la guerra y la paz”, dijo Jaime Castro. El ex constituyente aseguró que el poder actual no es suficiente para reinsertar a la guerrilla. “No hay cama pa tanta gente”, aseguró. Por eso, sostuvo que es necesario crear nuevos espacios en las regiones, en los que la guerrilla pueda participar en un futuro, cuando se firme un pacto de paz. Germán Jiménez, del Colegio de Estudios de Quirama, que defiende la idea de un Estado federal en Colombia, estimó que este esquema de ordenamiento territorial “podría ser útil en el marco de un acuerdo general con la guerrilla”. “Habría ciertas regiones en las que la guerrilla podría acceder a las gobernaciones. Valdría la pena intentar soluciones que le den relevancia a la guerrilla”, dijo Jiménez.

52

El experto coincidió que Colombia no puede llegar a un nivel intermedio de descentralización como el que asumió el estado español. “O se es una cosa o se es otra. Ponerse a inventar un nivel intermedio de autonomía regional es irrelevante”. Jiménez insistió en la adopción de un auténtico sistema federal. De hecho, en el segundo semestre de 1998, el Eln lanzó la propuesta de conformar unos cantones en Colombia en los que ellos, los guerrilleros, pudieran tener injerencia en los asuntos políticos-administrativos. La idea causó revuelo y el rechazo del establecimiento. Un año antes, en 1997, las Farc exigieron al Gobierno del entonces presidente Ernesto Samper la desmilitarización de 13.161 kilómetros cuadrados en el departamento de Caquetá para entregar a los soldados que habían sido secuestrados o tomados como prisioneros de guerra en la toma a la base militar de Las Delicias (30 de agosto de 1996). La experiencia se repitió después. El mismo grupo guerrillero exigió una zona desmilitarizada, de 42.000 kilómetros cuadrados en el Caguán, como condición para entablar las negociaciones de paz.

Estadistica 1

2.

Clasifique los siguientes items en variables y constantes, en el primer caso diga de cual tipo son:

* * *

Color de uniforme Intensidad de la luz de la luna Número de candidatos a la alcaldía de Bogotá en 1999 Altura de un árbol Velocidad de la luz

* * * *

* * * * *

El diámetro de la luna La inflación en U.S.A. Los volúmenes de EDA en los municipios de Colombia Las tasas de empleo Las clases de empleo

* *

La inflación en Colombia en enero de 2001.

π

* * *

Indice de inflación Indice de mortalidad infantil en Guatemala a junio de 2001. Altura de la torre Eifel Duración del vuelo Bogotá – Miami Nombre de los estudiantes

3.

Establezca la diferencia entre variable, dimensión e indicador.

4.

Tome un artículo del periódico, tome de él las variables que intervienen en el asunto descrito y clasifíquelas. A partir del mismo artículo ejemplifique los conceptos de indicador y dimensión de una variable.

5.

Para cada uno de los siguientes tipos de variable, escriba tres ejemplos diferentes relacionados con su carrera.

* * *

Edad de los estudiantes Número de pasajeros por día Número de países de América

Continua

Discreta

Inter

Intra

Cualitativa

Cuantitativa

Nominal

Ordinal

Categórica

53

2

Población, Muestra y Variable

6.

Diga que variables extrañas podrían afectar el siguiente trabajo:

El Instituto SINCHI esta desarrolla una investigación sobre Aspectos sociales del desarrollo humano sostenible de Caquetá y Putumayo Se busca caracterizar los asentamientos humanos (cabeceras municipales y áreas rurales) de los departamentos de Caquetá y Putumayo, desde las dimensiones social, económica, política y de organización e integración funcional del espacio, como punto de referencia para la planeación y la toma de decisiones sobre su ordenamiento y desarrollo.

7.

De las variables que aparecen en el siguiente caso, cual puede considerarse como extraña:

Se desarrolla una investigación sobre las causas y consecuencias sociales de la exclusión social como resultado de la raza o el origen étnico, y el alcance de las políticas y programas disponibles para combatirla; para descifrar las causas, costos y posibles soluciones destinadas a resolver el problema de la exclusión social por raza u origen étnico. El estudio agrupa datos de hogares relativos a los ingresos de los trabajadores, el capital humano y las características de las fuentes de empleo con series de tiempo sobre proporción de alumnos/profesor por estado durante 1960/2000. Esa información se utiliza para investigar la función de la raza, los antecedentes y diferencias familiares tanto en cantidad como calidad de la educación y sus resultados en el mercado en lo que se refiere a desigualdad entre blancos y afrocolombianos. Las conclusiones preliminares sugieren que la considerable ventaja de los blancos en la cantidad y calidad de la educación que reciben en comparación con los afrocolombianos explica gran parte la desigualdad en los ingresos sobre una base racial, lo cual también tiene una influencia importante en la desventaja intergeneracional de los afrocolombianos en lo que se refiere a capital humano. También se encuentra que los patrones de heterogeneidad en los resultados educacionales que son congruentes con el color de la piel desempeñan un papel importante en el acceso a fuentes de empleo mejor remuneradas y están condicionados a las características observadas del trabajador. El descenso en el nivel de empleo ha agravado también el problema.

54

8.

En los datos recolectados el ejercicio anterior, se acordó que 1 significaba ser negro o mulato, 2 ser blanco, 3 ser mestizo, 4 indígena y 5 otros. ¿La variable raza en este caso es cuantitativa por que los valores que toma son números?. Explique.

9.

Para cada variable que escribió en el ejercicio 5, diga otra clase a la que también pertenezca cada una.

10.

Construya un mapa conceptual acerca de la interdependencia entre variables.

11.

Elabore un cuadro sinóptico en el que se anoten de manera sucinta las características de cada tipo de muestra.

Estadistica 1 12.

Con la información del ejercicio No. 1. Si se quiere investigar la intención de voto de los congresistas acerca del proyecto de ley de ordenamiento territorial con el fin de poder decir algo con respecto a la posible viabilidad de la iniciativa, ¿Describa la población de estudio? ¿Cuál sería la población de datos? ¿Cuál sería la muestra a tomar y como se recolectaría?

13.

Con la información del ejercicio No. 1. Suponga que usted va a investigar cual es la opinión de las clases dirigentes del orden departamental y municipal acerca de la constitución o no de regiones administrativas y de planificación. Diga cuales serían:

* * *

La población de estudio La población de datos La muestra con base en la cual se va analizar el problema

14.

Al final del mismo texto se plantea la problemática referente al papel de la reforma del ordenamiento territorial frente al proceso de paz. Léalo nuevamente y:

* * * *

Defina un problema de investigación ¿Que elementos se tendrían en cuenta para la investigación? Plantee las hipótesis sobre los elementos relevantes ¿Cómo definiría una muestra para estudiar el problema y de que forma la recolectaría?

15.

Calificar las siguientes muestras entre aleatorias y sesgadas, dando la explicación correspondiente.

*

Población de estudio: Asistentes al encuentro de provincias. Objetivo del estudio: Determinar la preferencia entre dos cartas que según la lectura del ejercicio No. 1., se estaban jugando los gobernadores. Técnica de muestreo: Se interceptaron y encuestaron los 8 primeros asistentes que salieron del evento.

*

Población de estudio: Residentes en Bogotá D.C. Objetivo: Estimar la calificación que se da a la prestación del servicio de telefonía local para determinar cual es el operador que satisface más al cliente. Técnica de muestreo: En una cola de usuarios que se disponen a pagar la factura del servicio telefónico en un banco situado en un centro comercial durante un día, se hacen 2 preguntas a cada uno.

*

Población de estudio: Habitantes de Barranquilla entre 12 y 25 años. Objetivo: estimar los niveles de drogadicción entre la población adolescente y joven. Técnica de muestreo: se escogen al azar 5 personas de cada barrio que estén dentro del rango de edad y se les hace llenar un cuestionario escrito.

*

Población de estudio: Residentes mujeres en Bogotá D.C. Objetivo: estimar el nivel de popularidad del alcalde mayor dentro de la población femenina. Técnica de muestreo: Un encuesta

55

2

Población, Muestra y Variable

dor se ubicó en la entrada de un centro comercial, haciendo tres preguntas a una de cada cuatro mujeres que pasaba. Se repite el experimento durante ocho días en diferentes centros comerciales. *

Población de estudio: Habitantes del barrio X. Objetivo: Determinar cuales son las necesidades mas sentidas en el barrio para establecer luego un plan de desarrollo barrial que se pueda incluir dentro del municipal. Técnica de muestreo: Se aplica una encuesta de 10 preguntas a una persona adulta por cada casa esquinera del barrio.

16. A partir de la lectura complementaria y de su indagación personal haga un escrito de una página con sus conclusiones sobre la pregunta ¿Hasta qué punto las manifestaciones del fenómeno «muestran» lo que prescriben sus leyes?.

PROBLEMAS RESUELTOS 1.

Clasifique las siguientes variables a) b) c) d) e) f) g) h) i) j) k) l) m) n) o)

Número de habitaciones por casa Tipo de piso de la vivienda Precio por apartamento Combustible usado para cocina Área de locales comerciales Impuestos recaudados por año Tipo de gobierno Estratos socioeconómicos Peso de un adulto El ingreso familiar Marca de auto usado Tiempo de experiencia laboral en años y meses Número de llamadas telefónicas que se hacen en una línea por semana Numero de hijos por familia Barriles de petróleo bombeados por día

SOLUCIÓN. a) Discreta, ordinal, cuantitativa; b) nominal, cualitativa; c) discreta, ordinal, cuantitativa; d) continua, ordinal, cuantitativa; e) continua, ordinal, cuantitativa; f) continua, ordinal, cuantitativa; g) categórica nominal, cualitativa; h) categórica nominal, cualitativa; i) continua, ordinal, cuantitativa; j) discreta, ordinal, cuantitativa; k) categórica nominal, cualitativa; l) Discreta, ordinal, cuantitativa; m) discreta, ordinal, cuantitativa; n) discreta, ordinal, cuantitativa; o) continua, ordinal, cuantitativa.

56

Estadistica 1 2.

Se realiza un estudio sobre la edad promedio de las personas que entran a los casinos en Medellín en un año determinado. ¿Cuál es la población de estudio? ¿Cuáles son las variables de interés y de que tipo son? ¿Cuál es la población de datos? ¿Cuál sería una muestra adecuada para el propósito y como se recogería?

SOLUCIÓN. La población de estudio son todos las personas que asisten a los casinos de Medellín durante el año respectivo; la variable de interés es la edad la cual es discreta si se toma en años cumplidos, ordinal y cuantitativa; la población de datos es el conjunto de los valores de las edades de todos los miembros de la población de estudio. Una muestra, podría ser el escoger al azar 30 casinos de manera tal que se tomen de las diversas zonas de la ciudad. En cada uno de estos se ubicará un encuestador que a la salida verificará la edad en la cédula de 20 clientes que salgan después de haber participado en algún juego, así se tendrá una muestra con las edades de 600 personas. 3. * * * *

Para cada una de las siguientes características diga si es constante o variable. Un investigador toma un grupo de 30 vigilantes y de ellas identifica: Sexo Sueldo mensual Procedencia geográfica Ocupación

RTAS: Variable, variable, variable, constante. 4. * * * *

Un estudiante de Administración Pública basado en el grupo de personas del ejercicio anterior, toma las siguientes características. Identifique cada una de ellas como discreta o continua. Inflación Estatura Número de años cursados Número de hermanos

RTAS: Continua, continua, discreta, discreta. 5. * *

En los dos casos siguientes diga si se trata de una variable discreta o continua: Si estamos midiendo el número de familias que por piso habitan en un edificio de apartamentos. Se quiere medir el tiempo que tardan diferentes personas en desarrollar una prueba de habilidad manual.

RTAS: Discreta, contínua.

57

2

Población, Muestra y Variable

6.

Se busca determinar cual es la opinión de los habitantes de un municipio referente a una decisión que debe adoptar el concejo municipal, que por los bajos recursos propios debe optar entre anexar la entidad territorial a otro municipio vecino o aumentar significativamente los impuestos predial y de industria y comercio. Al momento de aplicar la encuesta se evidencia que la mayoría de los habitantes corresponden a población flotante cuya actividad económica se desarrolla en una ciudad cercana y que llegan sólo por temporadas de descanso a sus fincas de recreo, dinamizando el comercio local por esos días. Diga si hay una variable extraña y cual es.

SOLUCIÓN. En este caso puede considerarse como variable extraña el lugar donde los habitantes desarrollan su actividad económica, ya que esta puede incidir en el interés que tengan dichas personas en que el municipio siga siendo independiente. Otra variable extraña que puede influir en esta posición es el lugar de nacimiento de los pobladores, ya que si son de origen foráneo también podrían tener un interés diferente. 7.

En los siguientes casos calificar la técnica de muestreo aplicada:

Se pretende estimar la calidad del servicio público de acueducto en la ciudad de Bucaramanga, y para ello de aplica una encuesta puerta a puerta tomando 100 casas al azar pero teniendo en cuenta que se incluyan todos los barrios y además viviendas de los diferentes estratos. La encuesta se aplica el día sábado que es cuando se presume que la mayoría de personas están en la casa. SOLUCIÓN. Aunque hay estratificación y aleatoriedad en el muestreo, no se dice nada acerca de sí la cuota de cada parte de la muestra tomada es proporcional a las viviendas por cada estrato o por cada barrio. La muestra se recoge información de los distintos sectores pero dicha representatividad se ve cuestionada si no se establece que se tomó teniendo en cuenta la proporcionalidad de cada componente. El coordinador de una regional de la ESAP busca determinar si a los estudiantes les gusta la forma en que se les están dictando todas las clases, para ello unos monitores se ubican en la puerta de entrada de cada CETAP y le preguntan a 1 de cada 5 estudiantes que salen, durante un día. SOLUCIÓN. La forma de seleccionar al encuestado es aleatoria por que los estudiantes no toman un orden para salir, también se esta tomando una muestra representativa que incluye el 20 % de los estudiantes. SI es una regional con un gran volumen de estudiante podría resultar dispendioso el proceso.

58

Estadistica 1 BIBLIOGRAFIA

No creas todo lo que leas, pero sigue leyendo para que puedas creer. Reto al estudiante para que explore otros textos no incluidos aquí y contribuya con su crítica a mejorar muy pronto este texBUNGE, Mario. La Ciencia, su Método y su Filosofía. to. Los textos que se usaron como apoyo para el desarrollo de esta unidad fueron:

FERNANDEZ, Felipe; MONROY, Olga L.; RODRIGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. PARDINAS, Felipe. Metodología y técnicas de investigación en ciencias sociales. Siglo Veintiuno Editores. 27ª edición, corregida y aumentada. México, 1984. PEREZ MENDEZ, Alvaro. Estadística Descriptiva. Módulo Autoformativo. Escuela Superior de Administración Pública ESAP. Bogotá D.C., 1989. PERRY, Patricia Inés; MESA, Vilma María; FERNANDEZ, Felipe; GOMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. PICK, Susan y LÓPEZ, Ana Luisa. Cómo Investigar En Ciencias Sociales. 5ª edición. Editorial Trillas S.A. 1998 Obtención y Ordenamiento De Datos. México, 1994. SABINO, Carlos A. El Proceso De Investigación. Editorial Lumen - Humanitas. Argentina, 1996. TAMAYO Y TAMAYO, Mario. El Proceso De La Investigación Científica. 3ª ed. Ed. Limusa S.A.; México, 1998.

59

Estadistica 1

Unidad 3 Organización y Presentación de la Información

61

3

62

Organización y Presentación de la Información

Estadistica 1 OBJETIVOS *

Adquirir habilidad en la organización de datos esta dísticos en tablas, su conteo, ordenamiento y clasificación.

*

Al trabajar el capítulo, el estudiante logrará a partir de datos no agrupados, ordenarlos y elaborar una tabla de distribución de frecuencias y sus representaciones gráficas.

INTRODUCCIÓN

El contenido de esta Unidad es básicamente procedimental, por lo que se recomienda su trabajo en grupo o bien de forma autónoma si se part de unas orientaciones iniciales por parte del profesor. Esto por que requiere recordar algunas habilidades como la graficación de puntos en el plano para la elaboración de ojivas e histogramas, conceptos como el de intervalo y sumatorias. Para el trabajo con tablas es necesario apoyarnos en la hoja de cálculo, ya que se presentan unas actividades en Excel, las cuales buscan agilizar los cálculos repetitivos. Igualmente, nos sirve para la representación gráfica de los histogramas, polígonos de frecuencia y ojivas. Apóyese en los ejercicios resueltos para desarrollar los propuestos y tome nota de las dificultades para presentarlas al profesor en la sesión presencial.

63

3

64

Organización y Presentación de la Información

Estadistica 1 Recapitulación En las dos unidades anteriores vimos que: Los datos son colecciones de cualquier cantidad de observaciones relacionadas. Una colección de datos se conoce como conjunto de datos, y una sola observación es un punto de dato. Para que los datos sean útiles, necesitamos organizar nuestras observaciones, de modo que podamos distinguir patrones y llegar a conclusiones lógicas. Los especialistas en estadística seleccionan sus observaciones de manera que todos los grupos relevantes estén representados en los datos. Los datos pueden provenir de observaciones reales o de registros que se mantienen para otros propósitos. Los datos pueden ayudar a los responsables de tomar decisiones a hacer suposiciones bien pensadas acerca de las causas y, por tanto, de los efectos probables de ciertas características en situaciones dadas. También el conocimiento de tendencias adquirido de la experiencia previa puede permitir estar al tanto de posibles resultados y actuar en consecuencia. Cuando los datos son ordenados de manera compacta y útil, los responsables de tomar decisiones pueden obtener información confiable sobre el ambiente y usarla para tomar decisiones inteligentes. Los administradores deben tener mucho cuidado y asegurar que los datos utilizados están basados en suposiciones e interpretaciones correctas. Para ello, se utilizan las pruebas para datos:

¿De dónde vienen los datos? ¿La fuente es parcial? ¿Es posible que haya un interés en proporcionar datos que conduzcan a una cierta conclusión más que a otras? ¿Los datos comprueban o contradicen otras evidencias que se poseen? ¿Hace falta alguna evidencia cuya ausencia podría ocasionar que se llegue a una conclusión diferente? ¿Cuántas observaciones se tienen? ¿Representan a todos los grupos que se desea estudiar? ¿La conclusión es lógica? ¿Se ha llegado a conclusiones que nuestros datos no confirman? ¿Vale la pena usar los datos o debemos esperar y recabar más información antes de actuar? Con respecto a las muestras y poblaciones vimos que: Muestra y población son términos relativos. Una población es un todo y una muestra es una fracción o segmento de ese todo. El estudio de muestras es más sencillo que el estudio de la población completa, cuesta menos y lleva menos tiempo. Además, se ha probado que el examen de una población entera todavía permite la aceptación de elementos defectuosos, por tanto, en algunos casos, el muestreo puede elevar el nivel de calidad. Una población es un conjunto de todos los elementos que estamos estudiando, acerca de los cuales intentamos sacar conclusiones. Debemos definir dicha población de modo que quede claro cuándo un cierto elemento pertenece o no a la población. Una muestra es una colección de algunos elementos de la población, pero no de todos. Cualquier grupo que cumple con los requisitos de la población, puede constituir una muestra, siempre y cuando el grupo sea una fracción de la población completa. Una muestra representativa contiene las características relevantes de la población en las mismas proporciones en que están incluidas en tal población.

65

3

Organización y Presentación de la Información

ORGANIZACIÓN DE LOS DATOS Búsqueda de un patrón significativo en los datos: Existen muchas formas de organizar los datos. Podemos sólo colectarlos y mantenerlos en orden; o si las observaciones están hechas con números, entonces podemos hacer una lista de los puntos de dato de menor a mayor según su valor numérico. Pero si los datos son trabajadores especializados o los distintos tipos de automóviles que ensamblan todos los fabricantes, debemos organizarlos de manera distinta. Necesitaremos presentar los puntos de dato en orden alfabético o mediante algún principio de organización. Una forma común de organizar los datos consiste en dividirlos en categorías o clases parecidas y luego contar el número de observaciones que quedan dentro de cada categoría. Este método produce una distribución de frecuencias. El objetivo de organizar los datos es permitirnos ver rápidamente algunas de las características de los datos que hemos recogido: el alcance (los valores mayor y menor), patrones evidentes, alrededor de qué valores tienden a agruparse los datos, qué valores aparecen con mayor frecuencia, etc.

Datos tratados: conjunto de datos que ha sido objeto de algún tipo de ordenamiento o procesamiento. La forma más básica de organizar los datos es la tabla. Esta se compone de líneas y columnas y los elementos esenciales en esta son: * Título, en el que se destaca el objeto de la tabla. Respondemos aquí a que, cuando y donde; si es necesario se agregan notas con explicaciones. * Columna principal en que se anotan las categorías. * Encabezado de las columnas en el que se explica el objeto de cada una. * Cuerpo, es decir la parte que contiene la información. * Notas al pie con el objeto de aclarar ciertas operaciones y relaciones que se utilizan en la tabla; también se debe indicar en ella la fuente de información.

Datos sin procesar (Datos no ordenados): La información obtenida, antes de ser organizada y analizada, se conoce como datos sin procesar puesto que aún no han sido tratados mediante ningún método estadístico. La cantidad de datos más grande y los detalles más minuciosos pueden no contener la información más útil para la toma de decisiones administrativa. Una parte importante de la planeación de sistemas de información administrativa consiste en resumir y presentar los datos de modo que se pueda obtener la información crítica de manera rápida y sencilla.

66

Supongamos que el contador de una empresa comunitaria que produce y comercializa abrigos en cuero, presenta in informe semestral así: semestre enero – junio de 2001. Unidades vendidas: 38.810. Distribuidas así: ventas en Bogotá 17.850 unidades a $370.000 c/u por un total de $6.604.500.000; ventas a otras ciudades: 12.560 unidades a $410.000 c/u con un total de $5.149.600.000; ventas de exportación: 8.400 unidades a $480.000 c/u con un total de $4.032.000.000. Total de ventas: $15.786.100.000.

Estadistica 1 ¿Como son las cifras del informe? ¿Se captan con facilidad en una simple lectura?. Ahora si los organizamos en una tabla, preferiblemente, haciendo uso de una hoja de calculo tendremos lo siguiente:

Figura No. 3.1 Uso de la hoja de cálculo para elaborar tablas con facilidad. Como se puede ver, la información aparece mucho más organizada y nos ahorramos muchos cálculos. Veamos ahora las formulas que se utilizan en la hoja de calculo y notemos como, sólo requerimos introducir los datos básicos del problema: precio unitario y cantidad:

Figura 3.2. Formulas en una hoja de cálculo

67

3

Organización y Presentación de la Información

Otro aspecto importante es la elección de las unidades de medida de las magnitudes, se debe indicar si se trabaja con cientos, miles o millones. La buena elección de las unidades determina la claridad y el tamaño del cuadro. Un tipo especial y muy útil de tablas es el de arreglo cronológico o histórico, se utilizan para mostrar variaciones periodo a periodo ya sea de producción, poblaciones, agentes climáticos, etc. El periodo de tiempo depende de lo que se desee mostrar o comparar. Por ejemplo el siguiente cuadro muestra la variación del Índice de Precios al Consumidor en Colombia durante los primeros siete meses de 2.001. Figura 3.3. Hoja de cálculo con tabla de arreglo cronológico.

Los incrementos se calculan así: (Índice de período actual – índice de período base)/(índice de período base) Revisemos como se realizan los cálculos en la hoja y comparemos con la fórmula anterior.

Figura 3.4. Formulas usadas en la hoja de cálculo para tablas históricas Ordenamiento de datos utilizando su arreglo y distribución de frecuencias: Arreglo de datos: organización de los datos sin procesar por observación, tomados en orden ascendente o descendente. La ordenación de datos es una de las formas más sencillas de presentarlos, los forma en orden ascendente o descendente.

68

Estadistica 1 Ventajas: * * * *

Podemos notar rápidamente los valores mayor y menor de los datos. Podemos dividir fácilmente los datos en secciones. Podemos ver si algunos de los valores aparecen más de una vez en ese ordenamiento. Podemos observar la distancia entre valores sucesivos de datos.

En ocasiones, un ordenamiento de datos no resulta útil. Debido a que da una lista de todos los valores, es una forma incómoda de mostrar grandes cantidades de datos. Cuando se tienen estas tablas numerosas en hojas de cálculo se puede recurrir al uso de las tablas dinámicas. La distribución de frecuencias. Una forma en que podemos comprimir los datos es la tabla de frecuencias o distribución de frecuencias. Las distribuciones de frecuencias sacrifican algunos detalles, pero ofrecen nuevas perspectivas sobre los patrones de datos. Consisten en despliegues organizados de datos que muestran el número de observaciones del conjunto de datos que entran en cada una de las clases de un conjunto de clases mutuamente exclusivas y colectivamente exhaustivas. Asignación de frecuencias a cada uno de los valores de una variable o atributo. Se trabajan en estadística cuatro tipos de frecuencia, que se refieren a la misma característica pero nos brindan información diferente. Estas son: la frecuencia absoluta o número de veces que se repite un determinado valor de

una variable o atributo, la frecuencia relativa o porcentaje de veces que se repite un valor, la frecuencia acumulada o numero de datos que están por encima o por debajo de cierto valor y las frecuencias relativo-acumuladas o acumulado-relativas o porcentajes de la frecuencia acumulada respecto del total de datos. Características de las distribuciones de frecuencias relativas. Podemos expresar la frecuencia de cada valor como una fracción o un porcentaje del número total de observaciones. Para obtener este valor, dividimos la frecuencia de esa clase entre el número total de observaciones del conjunto de datos. La respuesta se puede expresar como una fracción, un número decimal o un porcentaje. La suma de todas las frecuencias relativas es igual a 1,00 o a 100%. Esto es así debido a que una distribución de frecuencias relativas aparea a cada clase con su fracción o porcentaje apropiados del total de datos. Por consiguiente, las clases que aparecen en cualquier distribución de frecuencias, ya sean relativas o simples, son completamente inclusivas. Todos los datos caen en una u otra categoría. Las clases son mutuamente exclusivas, es decir, ningún punto de dato cae en más de una categoría.

69

3

Organización y Presentación de la Información

En las distribuciones de frecuencias no aparecen clases que se traslapen. Podemos, también, clasificar la información de acuerdo con características cualitativas, como raza, religión y sexo, que no entran de manera natural en clasificaciones numéricas. Como clases de atributos cuantitativos, éstas deben ser completamente inclusivas y mutuamente exclusivas. La categoría «otros» se conoce como clase de extremo abierto cuando permite que el extremo inferior o el superior de una clasificación cuantitativa no estén limitados. Los esquemas de clasificación pueden ser tanto cuantitativos como cualitativos y tanto discretos como continuos. Las clases discretas son entidades separadas que no pasan de una clase discreta a otra sin que haya un rompimiento. Los datos discretos son aquellos que pueden tomar sólo un número limitado de valores. Los datos continuos pasan de una clase a otra sin que haya un rompimiento. Implican mediciones numéricas. Recordemos que, los datos continuos pueden expresarse con números fraccionarios o con enteros y las variables discretas son cosas que se pueden contar y las continuas son cosas que aparecen en algún punto de una escala. Construcción de una distribución de frecuencias: Lo primero es decidir el tipo y número de clases para dividir los datos. De acuerdo con la medida cuantitativa o un atributo cualitativo. Necesitamos decidir cuántos intervalos de clase distintos usar y el ancho de cada uno. Un intervalo de clase es un agrupamiento de valores de una variable. El número intervalos de clase depende del número de puntos de dato y del rango de los datos recolectados. Cuantos más puntos de dato se tengan o cuanto más grande sea el rango, más clases se necesitarán para dividir los datos. Como regla general, los estadísticos rara vez utilizan menos de 6 y más de 15 clases.

70

Debido a que necesitamos hacer los intervalos de clase de igual tamaño, el número de clases determina el ancho de cada clase, salvo cuando se requieran clases de extremo abierto. Una clase de extremo abierto es la que permite que el extremo superior o inferior de un esquema de clasificación cuantitativo no tenga límite. Ejemplo. Si tenemos que el instructor físico de una institución de formación deportiva tiene a su cargo 108 deportistas de 11 a 15 años; para analizar el comportamiento de las estaturas de estos los mide redondeando las alturas al centímetro más próximo y las anota en la ficha de registro de cada uno. Con los datos de las fichas elabora un listado en el que aparecen sin ningún orden. Estos corresponden a datos no ordenados. Luego procede a ordenar los datos elaborando un cuadro en el que aparecen las estaturas de menor a mayor, de manera que por cada dato que va contando coloca una raya al frente, haciendo con las rayas cuadros con una raya al través de manera que cada uno completo quedará formado por 5 rayas. Esto facilitará el conteo final de las rayas.

Tabla 3.1. Datos ordenados.

Estadistica 1 Alcance o rango de los datos: diferencia entre el mayor y menor valor de la serie. Rango = 162 – 125 = 37 Ancho de los intervalos de clase = (valor unitario siguiente después del valor más grande de los datos – valor más pequeño de los datos) / número total de intervalos Debemos utilizar el siguiente valor más alto de las mismas unidades, ya que estamos midiendo el intervalo entre el primer valor de una clase y el primer valor de la siguiente. Ancho de clase = (163 - 125) / 8 = 4,75 Hemos optado por tomar 8 clases. Redondeamos el ancho de clase a 5, quedando con un rango ajustado de 40. El exceso del rango ajustado lo distribuimos en el primero y el último intervalo. Así, los intervalos partirán desde 124 hasta 164. Ahora formamos intervalos de clase de ancho 5 con límites reales que se ubican en el punto medio entre el límite superior de una clase y el límite inferior de la siguiente. Luego observamos si hay ambigüedad en los datos, en este caso no la hay por que se redondearon las medidas al centímetro más cercano aplicando la regla del redondeo y así los datos son enteros. Cuando se presentan las ambigüedades utilizamos la expresión menor que el límite superior, de manera que este no quedará incluido en el intervalo, mientras el límite inferior si.

de clase y su valor es igual a la mitad de la suma de los límites superior e inferior de la clase. Luego de clasificar los datos en clases, contamos el número de datos que hay en cada clase y elaboramos la tabla siguiente. DISTRIBUCIÓN DE FRECUENCIAS ABSOLUTAS

Tabla 3.2. Distribución de frecuencia absoluta

Hallamos ahora las marcas de clase que corresponden al punto medio de un intervalo

71

3

Organización y Presentación de la Información

Representación gráfica de las distribuciones de frecuencias: Las gráficas dan los datos en un diagrama de dos dimensiones. Sobre el eje horizontal podemos mostrar los valores de la variable (la característica que estamos midiendo). Sobre el eje vertical señalamos las frecuencias de las clases mostradas en el eje horizontal. Las gráficas de distribuciones de frecuencias simples y de distribuciones de frecuencias relativas son de utilidad debido a que resaltan y aclaran los patrones que no se pueden distinguir fácilmente en las tablas. Atraen la atención del que las observa hacia los patrones existentes en los datos. Las gráficas pueden también ayudarnos a resolver problemas concernientes a las distribuciones de frecuencias. Nos permitirán estimar algunos valores con sólo una mirada y nos proporcionarán una verificación visual sobre la precisión de nuestras soluciones. Histogramas.

Polígono de frecuencias:

Un histograma consiste en una serie de rectángulos, cuyo ancho es proporcional al alcance de los datos que se encuentran dentro de una clase, y cuya altura es proporcional al número de elementos que caen dentro de cada clase. Si las clases que utilizamos en la distribución de frecuencias son del mismo ancho, entonces las barras verticales del histograma también tienen el mismo ancho. La altura de la barra correspondiente a cada clase representa el número de observaciones de la clase. Como consecuencia, el área contenida en cada rectángulo (ancho por altura) ocupa un porcentaje del área total de todos los rectángulos igual al porcentaje de la frecuencia de la clase correspondiente con respecto a todas las observaciones hechas.

Representación gráfica de la distribución de frecuencias en forma suavizada de una variable contínua con una línea que une los puntos medios de cada clase de un conjunto de datos, trazada a la altura correspondiente a la frecuencia de datos.

Un histograma que utiliza las frecuencias relativas de los puntos de dato de cada una de las clases, en lugar de usar el número real de puntos, se conoce como histograma de frecuencias relativas. Este tipo de histograma tiene la misma forma que un histograma de frecuencias absolutas construido a partir del mismo conjunto de datos. Esto es así debido a que en ambos, el tamaño relativo de cada rectángulo es la frecuencia de esa clase comparada con el número total de observaciones.

72

Son otra forma de representar gráficamente distribuciones tanto de frecuencias simples como relativas. Para construir un polígono de frecuencias señalamos éstas en el eje vertical y los valores de la variable que estamos midiendo en el eje horizontal. A continuación, graficamos cada frecuencia de clase trazando un punto sobre su punto medio y conectamos los resultantes puntos sucesivos con una línea recta para formar un polígono.

Estadistica 1 mero real de puntos, se conoce como polígono de frecuencias relativas. Este polígono tiene la misma forma que el polígono de frecuencias construido a partir del mismo conjunto de datos, pero con una escala diferente en los valores del eje vertical. Ventajas de los histogramas: Los rectángulos muestran cada clase de la distribución por separado. El área de cada rectángulo, en relación con el resto, muestra la proporción del número total de observaciones que se encuentran en esa clase. Ventajas de los polígonos de frecuencias: Es más sencillo que su correspondiente histograma. Traza con más claridad el perfil del patrón de datos. Se vuelve cada vez más liso y parecido a una curva conforme aumentamos el número de clases y el número de observaciones. Un polígono alisado mediante el aumento de clases y de puntos de dato se conoce como curva de frecuencias. Se añaden dos clases, una en cada extremo de la escala de valores observados. Estas dos nuevas clases que contienen cero observaciones permiten que el polígono alcance el eje horizontal en ambos extremos de la distribución. Un polígono de frecuencias es sólo una línea que conecta los puntos medios de todas las barras de un histograma. Por consiguiente, podemos reproducir el histograma mediante el trazado de líneas verticales desde los límites de clase y luego conectando tales líneas con rectas horizontales a la altura de los puntos medios del polígono. Un polígono de frecuencias que utiliza frecuencias relativas de puntos de dato en cada una de las clases, en lugar del nú-

Ojivas. Una ojiva gráfica de una distribución de frecuencias acumuladas absolutas o relativas. Una distribución de frecuencias acumuladas nos permite ver cuántas observaciones están por encima de ciertos valores, en lugar de hacer un mero registro del número de elementos que hay dentro de los intervalos.

Tabla: 3.3. Dis tribución de frecuencias absoluta, relativa y acumulada

73

3

Organización y Presentación de la Información

En ocasiones, la información que utilizamos se presenta en términos de frecuencias acumuladas «mayores que». La ojiva adecuada para tal información tendría una inclinación hacia abajo y hacia la derecha, en lugar de tener una inclinación hacia arriba y a la derecha. Figura 3.5. Ojivas “Mayor que” y “Menor que”

Podemos construir una ojiva de una distribución de frecuencias relativas de la misma manera en que trazamos la ojiva de una distribución de frecuencias absolutas. Sólo habrá un cambio: la escala del eje vertical. Del ordenamiento de datos podemos construir distribuciones de frecuencias. A partir de las distribuciones de frecuencias podemos construir distribuciones de frecuencias acumuladas. A partir de éstas podemos trazar una ojiva. Y de esta ojiva podemos aproximar los valores que tenemos en el ordenamiento de datos. Sin embargo, no podemos recobrar de manera normal los datos originales exactos a partir de cualquiera de las representaciones gráficas que hemos analizado. Tratamiento de una variable discreta: Se utilizan los diagramas de barras, diagramas de línea, pictogramas o pictógrafos y pasteles. Las frecuencias acumuladas de variables discretas se grafican por medio de una ojiva en forma de escalera, debido a que la frecuencia aumenta de a saltos. Las barras son menos llamativas que los pictogramas y los pasteles, pero en cambio proporcionan mas información y permiten una apreciación estadística más rigurosa. Se diferencian del histograma en que los rectángulos no se tocan entre sí; esto se debe a que, al ser la variable discreta, entre los valores sucesivos no hay valores intermedios.

74

Estadistica 1

Figura 3.6. Diagrama de barras usando la hoja de cálculo. En el diagrama anterior vemos que si estuviéramos comparando más categorías la gráfica se volvería difícil de observar. Sin embargo el diagrama de barras tiene entre sus ventajas el permitir presentar comparaciones entre entidades y a la vez las variaciones periódicas de estas medidas.

* Los títulos deben ser claros y todos los letreros y notas deben colocarse horizontalmente.

Los diagramas de línea son equivalentes a los diagramas hechos para las funciones en el plano cartesiano, trabajadas ya en el curso de matemáticas. Sin embargo, teniendo en cuenta que la información estadística se prepara para ser vista por otras personas, debemos tener en cuenta al trazar los diagramas de línea que:

* Si hay que mencionar puntos particulares de la curva, deben indicarse con notas al pie.

* El cero de la escala vertical siempre debe colocarse. Si se hace necesario interrumpir la escala vertical, esto debe mostrarse en forma clara y franca con una línea de zig-zag. * La línea debe trazarse mas gruesa que las coordenadas para que resalte, en especial si se tiene que trabajar con un solo color.

* Las unidades que se utilizan deben destacarse con claridad. * La longitud de los ejes se debe seleccionar de modo que la gráfica resulte balanceada a lo largo y a lo ancho.

* Al igual que en las tablas, indique siempre la fuente de información. Un pictograma es una representación de datos estadísticos por medio de símbolos que por su forma sugieren la naturaleza del dato. Se utilizan para mostrar comparaciones que impacten, llamando la atención del público en general, cualquiera que sea su nivel. La magnitud de los datos dados por los pictogramas son aproximaciones burdas y no sirven para análisis serios de estadística, por ello sólo se usan en publicaciones de interés general y no especializadas, para atraer la atención del público con presentaciones vistosas y llamativas de la información.

75

3

Organización y Presentación de la Información

Figura 3.7. Pictogramas o pictógrafos Los pictogramas anteriores resultan ser poco explícitos, por eso se debe indicar en el encabezado, con claridad, la cantidad que representa cada figura. Se deben utilizar figuras del mismo tamaño, como las de la figura y las aproximaciones se hacen por fracción de figura, mitad y hasta cuartos. Veamos el siguiente ejemplo:

CUBRIMIENTO DE LINEAS TELEFONICAS POR SECTOR Barranquilla 1999

Fuente: Empresas de telefonía básica local. Figura 3.8. Pictógrafos sobre cubrimiento de servicio telefónico. Los diagramas circulares o de pastel se utilizan para representaciones gráficas de distribuciones porcentuales. No resultan muy aptos para representaciones cronológicas por que hacen necesario dibujar círculos de igual radio, uno por cada año, mostrando en cada círculo la correspondiente distribución porcentual.

76

Estadistica 1 Los diagramas de pastel resultan ser un poco complicados de dibujar manualmente, sin embargo, con la ayuda de una hoja de cálculo resulta ser un trabajo muy fácil, que además brinda distintas posibilidades gráficas. Los siguientes datos corresponden al valor de las ventas de vehículos automotores de producción nacional en Colombia durante el año 2.000 y el correspondiente diagrama de pastel.

Figura 3.9. Gráfico de pastel en una dimensión usando hoja de cálculo.

El círculo completo tiene un área que equivale al 100%: un sector representa un tanto por ciento equivalente a la razón entre el ángulo que forman los radios que limitan el sector y 360 que son el total de grados de la circunferencia. Se ubica primero el sector de mayor valor partiendo de las doce del reloj, seguido por los otros en orden descendente. Así en la figura 3.7. tenemos: (597.997.215 / 1.176.458.620) X 360 = 50.8% X 360 = 183° (172.811.413 / 1.176.458.620) X 360 = 14.7% X 360 = 53° (177.858.532 / 1.176.458.620) X 360 = 15.1% X 360 = 54° (154.579.935 / 1.176.458.620) X 360 = 13.1% X 360 = 47° (573.211.525 / 1.176.458.620) X 360 = 6.2% X 360 = 22° En realidad el cálculo y el dibujo manual son dispendiosos. Afortunadamente los software para estadística y las hojas de calculo han simplificado el proceso, dejándonos la tarea de analizar el resultado.

77

3

Organización y Presentación de la Información

RECOMENDACIONES: *

Cuando se trabaja con muestras, recopilar el mayor número de datos posible.

*

Usar 5 clases como mínimo y 15 como máximo para agrupar los datos, en función del número de datos disponibles.

*

Trabajar con intervalos de clase de igual longitud.

*

Tener cuidado con la clasificación automática que hacen los paquetes estadísticos.

*

Al calcular frecuencias relativas – como proporción – trabajar con cuatro dígitos después de la coma, para evitar errores de redondeo en la suma.

*

Al dibujar un gráfico, no exagerar la escala vertical u horizontal. Un gráfico despro porcionado complica su interpretación y puede resultar engañoso a simple vista.

EJERCICIOS PROPUESTOS 1. Completar los elementos que faltan de la siguiente la siguiente tabla, referente a las exportaciones no tradicionales de Colombia en millones de dólares FOB, según el DANE:

78

Estadistica 1 2. Con el siguiente informe de consumo de energía eléctrica para usos comerciales y domésticos, elabore un cuadro que destaque el porcentaje de consumo de cada ciudad respecto del total nacional y porcentaje del consumo de cada una de las cuatro ciudades sobre el total de estas. Total en Colombia año 1982: 7.144.899 megavatios hora; Barranquilla: 563.953, Bogotá: 2.170.057, Medellín: 1.804.332 y Cali: 806.952. 3. A partir de la siguiente tabla elabore tres diferentes tomando en cada caso un país o grupo comercial de destino, en las que se muestren los incrementos respecto al año anterior y respecto a un año fijo de referencia. Colombia, destino de las exportaciones 1994-2001 / Millones de dólares FOB

1/La suma de los parciales no es equivalente al total de las exportaciones * Corresponde al período enero - mayo / Fuente: DANE

4. En una empresa industrial y comercial del Estado la nómina mensual por estamentos en miles de pesos fue: personal de administración $450.230, personal de ventas $ 580.415, producción $2.456.381. Elaborar un cuadro que destaque (a) El porcentaje de cada estamento respecto al total de la nómina, (b) el porcentaje de la nómina de pago de cada estamento respecto al total de ventas que fue de $11.456.985 para ese mes.

79

3

Organización y Presentación de la Información

5. Un colegio departamental tienen 1.470 alumnos y para su funcionamiento tiene el siguiente personal: un rector y dos vicerectores, cuatro coordinadores, 39 profesores, cuatro psicólogos, 7 vigilantes, 9 empleados de aseo y mantenimiento, 2 bilbliotecólogas y 3 secretarias. Elaborar un cuadro que muestre por personal, uno por cada tantos alumnos. 6. Complete el siguiente cuadro cronológico calculando los incrementos respecto a 1.985, calcule luego los incrementos respecto al año anterior y concluya acerca de las características del resultado que se obtiene:

7. bles.

Elabore un mapa conceptual acerca de las formas de representar gráficamente las varia-

8. Cree cinco ejemplos de pictogramas sobre temas que se relacionen con el tema de estudio de la carrera. Adicionalmente, critique el siguiente pictograma, señalando sus carencias y sus bondades.

80

Estadistica 1

9.

Para dividir un segmento de 60 centímetros e 4 partes, halle:

* * *

¿Cuántos puntos debe marcar? Si se pide que las partes sean iguales, indique los valores en que se deben colocar los puntos. Si el primer punto se coloca a 27 centímetros del extremo inicial separando una primera parte y se indica que las otras tres partes deben ser iguales, halle los valores en que debe colocar los puntos.

10. Si en una regla de 1oo unidades (100%) marca un punto en la mitad y luego otro punto en medio de la mitad superior, halle: * * * * *

En cuantas partes se dividió 100 Cuantas unidades hay hasta el primer punto marcado Cuantas unidades hay hasta el segundo punto marcado Que tanto por ciento expresa el segundo punto marcado Que parte de 100 es la distancia entre el segundo punto marcado y el final de la regla.

11. Un examen de estadística fue presentado por 40 alumnos y se calificó con puntos de 1 a 50. Los resultados obtenidos fueron: 31 13 34 32 31 29 7 39 27 30 37 36 38 36 29 38 12 41 30 27 11 29 13 26 35 29 34 9 46 12 27 19 41 32 36 38 44 14 39 40

81

3 * * * * *

Organización y Presentación de la Información

Ordene los datos. Halle el rango. Agrupando en las siguientes clases de igual anchura: malo, deficiente, regular, bueno y excelente, halle el intervalo. Halle los límites reales de clase y las marcas de clase. Elabore un cuadro de frecuencias relativas y acumuladas.

12. Usted esta estudiando las características generales del municipio de Chía para elaborar el plan de desarrollo municipal. Los datos que se muestran a continuación corresponden al uso del suelo en el municipio. Con base en ellos podemos ver el desarrollo del aspecto socio – económico en Chía.

Fuente: Grupo de consultoría Pedro Gómez y Cia. * *

¿Cuál es la variable de estudio, de que tipo es y cuantos valores toma? Represente gráficamente la información contenida en la tabla.

13. Un administrador público territorial pretende determinar que tipo de mecanismo prefieren las personas para elegir al candidato: el tarjetón o la papeleta. Uno de sus asistentes aplica una encuesta en un municipio cercano a Bogotá, Tabio, a 180 personas y encuentra que 30 no votan, 96 prefieren el tarjetón y 54 prefieren la papeleta. * * *

82

¿Cuál es la población de estudio? ¿cual es la muestra de estudio y su tamaño? ¿Es repre sentativa la muestra? ¿Cuál es la variable de estudio? Comente los resultados obtenidos por el asistente, con respecto a la variable que

Estadistica 1 él pretende medir. Proponga una manera de eludir el problema que presentan los resultados. *

Represente gráficamente la información obtenida.

14. Un estudiante de administración pública en Cúcuta, quiere saber cual es el candidato para alcalde de esa ciudad por el cual se inclinan la mayoría de los estudiantes de la universidad. Para eso, toma una muestra aleatoria de 80 estudiantes y cada uno de ellos da su voto a favor de uno de los siguientes candidatos: el del Partido Liberal, el del Partido Conservador o el Independiente. Los resultados son:

15. Con los datos de la tabla 3.1. construya una distribución de frecuencias con 12 clases. Incluya en estas las frecuencias absoluta, relativa y acumulada – relativa. 16. Para la distribución de frecuencia del ejercicio anterior dibuje el histograma y el polígono de frecuencia correspondiente. Dibuje también la ojiva a la izquierda y a la derecha. 17. Dibuje el histograma y el polígono de frecuencia correspondientes a la siguiente distribución de frecuencias.

83

3

Organización y Presentación de la Información

18. La siguiente distribución de frecuencias relativas nos muestra la población ocupada de manera informal en las siete ciudades principales (Bogotá D.C., Barranquilla, Cali, Medellín, Bucaramanga, Manizales y pasto) por grupo de edad en el año 2.000.

* * * *

Elabore la distribución de fre cuencia acumulada – relativa. Dibuje el histograma de frecuencias relativas. Dibuje la ojiva a la izquierda y la ojiva a la derecha. Plantee un tema de discusión a partir de los resultados obtenidos.

19. Investigue cuales son los datos de ocupación informal por edades para las mujeres en Colombia, en el último año. Elabore la tabla de frecuencias y desarrolle los mismos puntos que se exigen para el ejercicio anterior. 20. En la siguiente tabla se ven las áreas de los océanos en millones de millas cuadradas. Representar los datos usando: (a) un gráfico de barras y (b) un gráfico circular o de pastel.

PROBLEMAS RESUELTOS 1. Elaborar una tabla para destacar la proporcionalidad “uno por tantos” con los siguientes datos: en una industria de confecciones trabajan 84 costureras bajo el control de 7 supervisores encargados de la entrega de materiales y vigilancia del buen terminado de la confección. Interesa destacar la producción como resultado del control de un supervisor por cada doce operarios; la estadística de producción debe mostrar la variación de la producción al aumentar la relación un supervisor por tantos operarios. En cierta semana las costureras producen 420 vestidos, de los cuales en el control final se rechazan 32 por defectos de costura.

84

Estadistica 1 CONTROL DE PRODUCCION Semana del 2 al 6 de julio de 2000

Fuente: Planillas de producción diaria. 2. Las exportaciones mensuales colombianas durante el año 200, en millones de kilogramos fueron: 4.192, 6.934, 6.956, 4.017, 5.851, 6.641, 3.568, 5.216, 5.351, 3.053, 4.459, 9.814 elabore un cuadro cronológico en el que se evidencien los incrementos mes por mes y respecto al primer mes. Apóyese en la hoja de cálculo.

En la siguiente figura se pueden ver las operaciones aplicadas por la hoja de cálculo:

85

3

Organización y Presentación de la Información

3. Las áreas de los continentes (en millones de millas cuadradas) se recoge en la siguiente tabla. Representar los datos gráficamente. AREA DE LOS CONTINENTES

Fuente: Naciones Unidas Solución. Primer método. Gráfico de barras horizontales.

Resulta sencillo de hacer y de interpretar, sin embargo es más vistoso un diagrama de pastel. Segundo método. Diagrama de pastel. Para construirlo, hacemos que el área total, 51.5 millones de millas cuadradas, corresponda a los 360° del círculo. Así, un millón corresponde a 360°/51.5. Se deduce que África con 11.7 millones, ocupa un arco de 11.7/(360°/51.5) = 82° mientras que Asia, Europa, Norteamérica, Oceanía y América del Sur ocupan 128°, 13°, 66°, 23° y 48° respectivamente. Veamos.

86

Estadistica 1 4. Los pesos de 40 estudiantes varones, con precisión de 1 libra, figuran en la siguiente tabla. Construir una distribución de frecuencias.

Solución. Los pesos extremos son 176 y 119 lb, luego el rango es 176-119=57 lb. Si se usan 7 intervalos de clase, su anchura será 58/7=8.3 luego tomamos 9 por exceso. La tabla de frecuencia nos quedaría así:

5. Construir (a) un histograma y (b) un polígono de frecuencias para la distribución de pesos del problema anterior.

87

3

Organización y Presentación de la Información

Tenemos un histograma generado por el paquete estadístico, ahora veamos sobre este el polígono de frecuencia.

6. A partir de la siguiente distribución de frecuencia, construir una ojiva “mayor que” y una “menor que”.

Tendremos primero que ampliar nuestra tabla de distribución de frecuencias con el fín de facilitar el proceso de graficación, así:

A partir de estas obtenemos nuestras ojivas:

88

Estadistica 1 BIBLIOGRAFÍA Los textos que se usaron como apoyo para el desarrollo de esta unidad fueron:

LEVIN, Richard I.; RUBIN, David S. Estadística Para Administradores, Editorial PRENTICE HALL, Sexta Edición., 1996 MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PERRY, Patricia Inés; MESA, Vilma María; FERNANDEZ, Felipe; GOMEZ, Pedro. Matemáticas, Azar y Sociedad. Conceptos básicos de estadística. Universidad de los Andes: Una Empresa Docente, Bogotá D.C., 1998. PICK, Susan y LÓPEZ, Ana Luisa. Cómo Investigar En Ciencias Sociales. 5ª edición. Editorial Trillas S.A. 1998 Obtención y Ordenamiento De Datos. México, 1994. PORTUS GOVINDEN, Lincoyan. Curso Práctico de Estadística. Editorial Mc Graw Hill. Bogotá D.C., 1985. SPIEGEL, Murray R. Estadistica, 2da Edición. SCHAUM Mc. Graw Hill. Bogotá, 1998 TAMAYO Y TAMAYO, Mario. El Proceso De La Investigación Científica. 3ª edición Editorial Limusa S.A.; México, 1998.

89

Estadistica 1

Unidad 4 Tendencia Central

91

4

92

Tendencia Central

Estadistica 1 OBJETIVOS *

Dado un conjunto de datos agrupados o no, el estudiante podrá calcular medidas de tendencia central más conocidas como: media, mediana, moda, medias geométrica y armónica.

*

A partir de datos agrupados, calcular las medidas de posición relativa como cuartíles, decíles y percentíles

INTRODUCCIÓN

Una vez disponemos de los datos agrupados en el capítulo anterior, nos disponemos ahora a analizar las características de dichas distribuciones, para ello utilizamos medidas como las de dispersión, curtosis, sesgo y de tendencia central. Buscando simplificar el estudio de estas, abordamos primero las de tendencia central y para el próximo capítulo las demás. Las medidas de tendencia central se aplican tanto a datos agrupados como a los no agrupados, por lo que se presentan aquí para los dos casos. Adicionalmente se presentan las medidas relativas de posición que si bien no son todas clasificables como de tendencia central, si nos aportan mucho en cuanto a la medición de la forma como están distribuidos los datos. Para trabajar este capítulo y los siguientes es de gran ayuda la calculadora o el computador con un software de tipo estadístico como SPSS e incluso las funciones estadísticas de Excel. Se recomienda que la sesión presencial se aproveche con un taller práctico en el computador preparado por su profesor.

93

4

94

Tendencia Central

Estadistica 1 MEDIDAS DE TENDENCIA CENTRAL

En la unidad anterior vimos formas de presentar la información y a partir de ellas podemos concluir que: Los métodos gráficos son muy útiles para obtener una descripción rápida y general de los datos coleccionados y para presentarlos. Esto apoya, en muchos aspectos, el dicho de una figura vale mas que mil palabras. Por ejemplo, supóngase que deseamos discutir nuestros datos con un grupo de personas y que solamente podemos discutir los datos verbalmente. Estaríamos obligados a utilizar otras medidas descriptivas, al no poder presentar el histograma visualmente, que transmitirían a los interlocutores una imagen visual del histograma. Una segunda limitación, no tan obvia del histograma y de otras técnicas gráficas, es que son difíciles de usar para hacer inferencias estadísticas. Utilizamos probablemente el histograma muestral para hacer inferencias acerca de la forma y posición del histograma poblacional, que describe la población y que desconocemos. Nuestra información se basa en la suposición correcta de que existirá cierto grado de similitud entre ambos histogramas, pero nos enfrentamos entonces al problema de medir el grado de similitud. Sabemos cuando dos figuras son idénticas, pero esta situación no se presenta probablemente en la práctica. * Si los histogramas de la población y la muestra difieren, ¿Cómo podemos medir el gra-

do de diferencia o, concretamente, el grado de similitud? Se pueden superar las limitaciones del método gráfico para describir datos, utilizando medidas descriptivas numéricas. Las medidas de esta clase para una población se llaman parámetros. Las medidas descriptivas numéricas obtenidas a partir de una muestra, se denominan estadísticos. Con los histogramas y polígonos se puso en evidencia un significativo comportamiento de los datos en cuanto a la frecuencia con que se presentan los valores: algunos de estos valores son más frecuentes que otros. Además, se observó una clara tendencia de agrupación en el vecindario de los valores más frecuentes, haciendo que las curvas representativas adquirieran formas de campana. Por lo general, la mayor densidad de frecuencia está en la parte central de las gráficas, de aquí deriva el nombre de medidas de tendencia central. En estadística es costumbre usar letras griegas para designar los parámetros y las últimas letras minúsculas del alfabeto para los estadísticos.

95

4

Tendencia Central

Medida de tendencia central (o de posición) es toda aquella que indica el valor esperado de un punto de datos típico o situado en el medio. Cantidades numéricas que dan una idea sobre la ubicación de la distribución de frecuencias. * Si consideramos la variable, años de vida al morir de los colombianos varones, ¿existe algún valor de la variable que represente la mayoría de los valores del conjunto de datos? ¿Qué significado tiene la esperanza de vida al nacer de un colombiano varón? Media. Medida de tendencia central que representa el promedio aritmético de un conjunto de observaciones. La media para la población (parámetro) la simbolizamos como s y para la muestra (estadístico) la simbolizamos como Para calcular la media de datos no agrupados simplemente sumamos todos los datos y el resultado lo dividimos por el número total de estos, así:

Ejemplo. La media de los números 8, 3, 5, 12 y 10 es:

Para datos agrupados, el numerador de la expresión cambia. La sumatoria no es de cada dato, sino de los productos de las marcas de clase por las frecuencias absolutas.

Mediana. Punto situado a la mitad de conjunto de datos, medida de localización que divide al conjunto de datos en dos partes iguales. Se simboliza frecuentemente como Me. Para calcular la mediana de datos no agrupados necesitamos ordenarlos y tomar de estos, el más central. Si tenemos un grupo de 11 datos ordenados, la mediana será el 6°. Si tenemos 16 datos ordenados, la mediana será el promedio entre los datos 8° y 9°. Esa regla se aplica en general para cantidades impares y pares respectivamente.

96

Estadistica 1 Ejemplo. La mediana de los números 8, 3, 5, 12 y 10 es 8. Veamos. 3, 5, 8, 10,12 es claro que 8 es el más central. Para datos agrupados la mediana está dada por

Donde: L1 Limite inferior de la clase mediana. N Número de datos. ( f)1 Suma se frecuencias de las clases inferiores a la clase mediana. fMe Frecuencia de la clase mediana c ancho del intervalo de la clase mediana. La clase mediana es aquella en la cual se completa el 50% de los datos. Esto es facil mirarlo en las frecuencias relativo - acumuladas. Geométricamente la mediana es el valor de X (abscisa) que corresponde a la recta vertical que divide un histograma en dos partes de igual área. Moda. El valor que más a menudo se repite en un conjunto de datos. Está representado por el punto más alto de la curva de distribución de un conjunto de datos. Se simboliza frecuentemente como Mo. La moda puede no existir, e incluso no ser única en caso de existir. Una distribución con moda única se llama unimodal. En el caso de los datos agrupados donde se haya construido una curva de frecuencias para ajustar los datos, la moda será el valor (o los valores) de X correspondiente al pico máximo (o máximos) de la curva. A partir de una distribución de frecuencias puede deducirse con la ecuación

97

4

Tendencia Central

Donde: L1 fi fi-1 fi+1 C

Limite inferior de la clase modal Frecuencia absoluta de la clase modal Frecuencia absoluta de la clase anterior a la clase modal Frecuencia absoluta de la clase posterior a la clase modal Ancho del intervalo de la clase modal

Retomando el ejemplo del capítulo anterior referente a las estaturas de los deportistas, miremos en que consisten las medidas de tendencia central.

Para la media tenemos:

La mediana será:

Y la moda:

98

Estadistica 1 De las medidas de tendencia central, la media es la única que se presta a tratamientos algebraicos, con los que se demuestran varias propiedades de la media. También es posible obtener medias ponderadas de varias medias. Ejemplo. Durante diciembre un pequeño empresario vendió lechones a negocios en tres sectores de la ciudad, en el sector A vendió 35 a un precio promedio de $320.000, en el sector B vendió 19 por un precio de $286.500 y en el sector C vendió 9 por un precio promedio de $336.000. Calcular el precio promedio por lechón del total de las ventas del microempresario.

Evaluemos la siguiente situación, si tenemos los siguientes datos 3, 5, 7, 7, 8 que corresponden a la edad en que entran a la escuela los niños de una pequeña aldea, la media es (3+5+7+7+8)/5=6; *

¿Es el 6 un valor que puede representar a los demás? ¿Tiene coherencia decir que los niños de esta aldea inician el estudio en la escuela alrededor de los seis años?

Si cambiamos el valor extremo 8 por 23, los datos serán 3, 5, 7, 7, 23, cuya media es (3+5+7+7+23)/5=9. *

* * *

¿Podremos ahora decir que el 9 puede representar a los demás valores? ¿Tiene coherencia decir que las personas de esta aldea inician el estudio en la escuela alrededor de los nueve años? ¿Qué podemos concluir acerca de la media? ¿Cuál es la mediana de las dos series? ¿Qué podemos decir entonces ahora acerca de la mediana?

De las tres medidas de tendencia central que hemos estudiado, la media aritmética es muy sensible a los valores extremos, en tanto que la mediana y la moda no lo son. En el ejemplo anterior que la mediana por ser insensible a los valores extremos no varió al cambiar 8 por 18 y fue 7 en ambas series. La moda en ambas series también es 7 por ser el valor más frecuente.

99

4

Tendencia Central

Debido a la gran sensibilidad de la media a los valores extremos, a veces resulta que su valor produce efectos engañosos. Así, por ejemplo, si se está estudiando el ingreso diario de un grupo de personas y se tienen los valores 320, 400, 400, 400, 450, 500, 550, 2000, 2900, a esta serie le corresponde: Media Mediana Moda

880 450 400

Se observa que solo dos personas tienen ingresos altos y las siete restantes tienen salarios de 550 o menos, o sea que en este caso la media resultó atípica. La media de 450 y la moda de 400 resultan más representativas para esa distribución. El conocimiento de las tres medidas de tendencia central da una buena apreciación de la distribución de los valores. Pero si se debe hacer una apreciación con una sola medida, es mejor usar la mediana que corresponde al valor del medio. La siguiente gráfica nos muestra la ubicación de las medidas en una curva de distribución de frecuencias.

Figura 4.1. La curva de distribución de frecuencias y las medidas de tendencia central.

En la gráfica verificamos que: La media aritmética es un punto de equilibrio, similar al centro de gravedad, La mediana tiene la propiedad de que su ordenada divide el área bajo la curva en dos partes iguales. La moda es la abscisa correspondiente a la mayor ordenada o pico de la curva.

100

Estadistica 1 La gráfica nos muestra una distribución que no es simétrica lo cual hace que las tres medidas no se ubiquen en el mismo lugar. En una distribución simétrica las tres medidas de tendencia central son idénticas, y si la distribución se torna asimétrica no se produce cambio en la moda; la mediana y la media se corren en dirección de la asimetría. La asimetría es positiva hacia la derecha y negativa hacia la izquierda. En la simetría positiva la mediana aumenta por el mayor número de frecuencias hacia la derecha y la media aumenta mas, ya que hay un aumento en la frecuencia y el valor de las observaciones. En las asimetrías negativas ocurre lo contrario: la mediana disminuye y la media disminuye mas que la mediana. Al elegir la medida mas adecuada debemos recordar que: * * *

*

*

*

La medida de tendencia central que se debe utilizarse depende de la información que se tenga y el objetivo que se persiga. Si la distribución es aproximadamente simétrica, pueden utilizarse indistintamente las tres medidas, que resultan aproximadamente iguales. Si los datos no están ordenados, puede resultar más fácil el cálculo de la media aritmética que el de la mediana; la moda se encuentra por simple búsqueda del valor más frecuente. Si los datos son irregulares y hay lagunas en los valores de la clase mediana, esta medida de tendencia central no resulta muy buena ya que su ubicación puede resultar falsa. Si desea calcular totales, la única medida utilizable es la media aritmética. Así, si basados en una experiencia deseamos conocer en una empresa el posible gasto de energía eléctrica para el periodo futuro, la única medida utilizable es la media. Si deseamos ubicar las condiciones de una persona en una clase, la mediana resulta la medida más indicada ya que por comparación pone en evidencia si la persona esta por sobre la mitad o por debajo de ella.

Media Geométrica. Es útil en el cálculo de tasas de crecimiento y se define como la raíz n-ésima del producto de N términos positivos.

Así la media geométrica de 2, 4, 6, 12, 18 es

101

4

Tendencia Central

En este ejemplo se han usado los valores de la variable que va creciendo, para obtener el valor nominal de crecimiento promedio. Sin embargo, también se pueden usar los valores porcentuales de las tasas de crecimiento, expresando por ejemplo porcentajes de crecimiento continuo de 5%, 17%, 12% y 20% como 1,05; 1,17; 1,12 y 1,20 como factores dentro de la raíz. Véanse el ejercicio resuelto No. 1 del presente capítulo.

Recuerde que la extracción de una raíz se puede expresar como una potencia del exponente fraccionario. Esta operación es muy fácil de hacer con la calculadora usando la tecla Xy o la tecla X1/y.

La Media Armónica. Esta medida de una serie de números es el recíproco o inverso de la media aritmética de los recíprocos de los números de una serie. Se usa para encontrar modelos o comportamientos tipo, para ser utilizados en la elaboración y evaluación de proyectos.

Ejemplo. La media armónica de los números 2, 4 y 8 es

Para la media armónica de datos agrupados se tiene la siguiente ecuación.

Para la distribución de frecuencia de las estaturas de los deportistas, tenemos

102

Estadistica 1 La media geométrica de una colección de números positivos es menor o igual que su media aritmética, pero mayor o igual que su media armónica. La Media Cuadrática. Es un tipo de promedio que se utiliza frecuentemente en las aplicaciones físicas.

Ejemplo. La media cuadrática del conjunto 1, 3, 4, 5 y 7 es

MEDIDAS DE POSICION RELATIVA. Percentiles, Cuartiles, Deciles. A veces se desea conocer la posición que tiene una observación respecto de un conjunto de datos. Por ejemplo si se presentó un examen de admisión y se obtuvo una calificación de 640, interesaría conocer el porcentaje de participantes que obtuvieron una calificación menor que 640. Tal medida de posición relativa dentro de un conjunto de datos se llama centil o percentil. Si un conjunto de datos esta ordenado por magnitud, el valor central que divide al conjunto en dos partes iguales es la mediana. Extendiendo esa idea, la medida que divide el conjunto en cuatro partes iguales, es el cuartil. Los cuartiles se denotan como Q1, Q2 y Q3. El Q2 coincide con la mediana Me. Análogamente, los valores que dividen a los datos en 10 partes iguales se llaman deciles, y se denotan D1, D2, ..., D9, mientras que los valores que los dividen en 100 partes iguales son los que ya llamamos percentiles. El decil 5 y el percentil 50, coinciden con la mediana. Los cuartiles 1 y 3 coinciden con los percentiles 25 y 75 respectivamente. Ejemplo. Para la distribución de frecuencia correspondiente al grupo de deportistas tenemos que el primer cuartil tendrá el siguiente número de observaciones

103

4

Tendencia Central

El primer cuartil cae en el intervalo de clase 138.5 – 143.5; hay 14 deportistas en las tres clases anteriores, es decir, para completar los 27 de Q1 debemos hacer una interpolación lineal para los 13 que faltan así: En la clase que contiene el cuartil hay 24 observaciones en un ancho de 5 centímetros. 1 observación corresponde a 5/24 centímetros; 13 corresponden a 13(5/24)=2.7 centímetros Tomamos entonces el límite inferior de la clase, hasta donde sabemos que hay 14 observaciones y le agregamos la medida correspondiente a los 13 restantes. 138.5 + 2.7 = 141.2 centímetros. El primer cuartil es de 141.2 centímetros y quiere decir que el 25% de los deportistas tiene una estatura de 141.2 centímetros o inferior. El segundo cuartil que equivale a la mediana, lo podemos obtener así: Se ubica en el intervalo 143.5 – 148.5 de manera que Hasta 148.5 se encuentra el 62.0 % Hasta 143.5 se encuentra el 35.2 % Restando 5 centímetros corresponden a un 26.8 %

Podemos hallar cuantos centímetros corresponden al 50 % - 35.2 % = 14.8 % y sumárselos a los 143.5 centímetros del límite inferior. Podemos también hallar cuantos centímetros corresponden a 62.0 % - 50 % = 12 % y restárselos a los 148.5 centímetros del límite superior. En este caso parece ser la opción más fácil. Si lo hacemos en un paquete estadístico, estos cálculos pierden significado, sin embargo el practicarlos y descifrarlos nos ayudan a entender con claridad lo que estamos buscando.

104

Estadistica 1 Si 26.8 % corresponden a 5 centímetros; 1 % corresponde a 5/ 26.8; 12% corresponde a 12(5/26.8)=2.24 Restamos entonces a 148.5 - 2.24 = 146.26 que es el mismo valor que habíamos obtenido anteriormente con una fórmula para la mediana. Existen ecuaciones para calcular todos los deciles, cuartiles y percentiles, sin embargo como estos los aplica el programa contable en forma oculta, resulta valioso el procedimiento anterior para captar el significado de la medida. Obtuvimos que Q2 = D5 = P50 = Me = 146.6 *

Compare el procedimiento que se usó para calcular Q1 con el que se usó para Q2.

*

Vuelva a hacer el calculo pero usando para Q1 el pro ceso usado anteriormente para Q2 y viceversa.

*

¿Que concluimos a cerca del procedimiento?

*

Calcule ahora Q3.

EJERCICIOS PROPUESTOS 1. La población de un país creció en los últimos 5 años de 4.200.000 a 4.775.000; halle (a) la tasa de crecimiento total en los cinco años. (b) La tasa de crecimiento anual. 2. Los salarios aumentaron en los últimos 4 años en 8%, 9.6%, 7,75% y 11.3%, halle: (a) la tasa de crecimiento total en los cuatro años; (b) la media anual de crecimiento; (c) la media geométrica anual de crecimiento. 3. En una industria se ha controlado el tiempo que tardan tres obreros en ensamblar un motor. Uno demora 6 horas, otro 8 horas y un tercero demora5 horas. Halle el rendimiento de un obrero tipo que sirva de base para análisis financieros. 4. Una empresa de transportes tiene tres automotores diferentes que emplean en el recorrido entre dos pueblos 16, 15 y 12 horas respectivamente. Halle el tiempo que emplearía un automotor tipo que sirva de base para un estudio de costos.

105

4

Tendencia Central

5. En un concurso de méritos se tienen unas calificaciones de 8 personas en los diferentes aspectos a evaluar, cada aspecto tiene una ponderación y sus valores se indican entre paréntesis. Hallar (a) la media ponderada del grupo, (b) la media de cada concursante y (c) explique si en este caso tendrían alguna utilidad la media armónica, la media geométrica o la media cuadrática.

6. La población de un país aumentó en 4 años de 16.320.430 habitantes a 17.840.210; halle: (a) el porcentaje de aumento en los cuatro años; (b) el promedio geométrico anual. 7. El aumento en el consumo de energía de los usuarios de una empresa del servicio publico de energía eléctrica, fue en los últimos 5 años de: 28%; 12%; 19%; 24%; 22%; halle: (a) el porcentaje del incremento del último año con base en las ventas del servicio en el primer año; (b) el promedio geométrico de incremento anual. 8. La pérdida en el valor adquisitivo de la moneda de un país fue en los últimos 4 años de: 12%, 17%, 14% y 15%; halle: (a) el porcentaje de pérdida del valor del último año con relación al primer año; (b) el promedio geométrico de pérdida anual. 9. En cierta industria se controló la producción de un artículo y se encontró que la producción de tres obreros de una sección fue de 93, 84 y 102 piezas respectivamente; halle la producción de un obrero tipo para esta sección. 10. Halle el valor promedio para el kilogramo de mercancía adquirida en tres lotes así: 340 kilogramos a $2830 cada uno, 260 kilogramos a $3010 cada uno y 535 a $2750 cada kilogramo. 11. Al hacer un estudio del transporte público de una ciudad se midió el tiempo empleado por los buses en el recorrido de cierta ruta y se encontró los siguientes tiempos para los 5 buses asignados al recorrido: 7.3 horas, 6.8 horas, 7.4 horas, 6.4 horas y 7.6 horas; halle el tiempo que se debe asignar a un bus tipo para estudios económicos. 12. Un contratista recibe dos ofertas para pintar un edificio; una cuadrilla de obreros ofrece pintar el edificio en 28 días, otra cuadrilla se compromete a pintarlo en 35 días. El contratista decide entregar el trabajo a las dos cuadrillas para que trabajen simultáneamente. Halle el tiempo que emplearán en pintar el edificio.

106

Estadistica 1 13. En el municipio de Cota (Cundinamarca) para 1990 había un potencial electoral de 13.875. Unos politólogos deseaban saber cual de las edades representó mayor afluencia en las elecciones presidenciales de ese momento. Se tomó una muestra de 100 personas, teniendo en cuenta su edad dentro del proceso electoral. Esto con el fin de determinar cual fue la edad de los votantes que decidieron los resultados de la elección.

Los politólogos obtuvieron los siguientes datos: de 9.680 personas que votaron, se registraron las siguientes edades de 100 personas: 18 19 33 47 35 63 28 24 43

18 20 18 29 35 38 40 32 23

* * *

Identifique la población de estudio y la muestra de estudio. ¿Cuál es la variable que se quiere medir? ¿De que tipo es? Elabore una tabla de frecuencias para organizar la información y con base en ella haga un diagrama que le permita mostrar claramente cual fue la edad con mayor nivel de votación. A partir de la tabla de frecuencias calcule los deciles D3, D6 y D8. ¿Cuál es la medida de tendencia central más apropiada para el estudio de los politólogos? Explique la respuesta. Encuentre la mediana gráficamente a partir de la ojiva. Use papel milimetrado. Calcule la mediana para datos agrupados y compare el resultado con el obtenido gráficamente. ¿Cual es la edad de la persona mayor del 30 % de menor edad? Calcule el cuartil Q3 y los percentiles P35 y P85.

* * * * * *

23 24 29 39 23 35 34 30 21

20 19 40 40 27 46 29 19 37

19 21 19 21 33 41 39 30

70 21 52 55 21 34 28 27

19 26 24 30 18 23 50 29

47 20 23 21 19 36 48 53

32 65 44 18 34 19 20 27

43 19 20 45 61 20 23 44

43 71 34 41 37 26 20 32

45 21 24 61 18 40 37 21

14. Tres profesores de economía dieron notas medias en sus cursos, con 32, 25 y 17 estudiantes, de 79, 74 y 82 puntos, respectivamente. Hallar la puntuación media de los tres cursos. 15. Si el precio de un artículo se duplica en un periodo de 4 años, ¿Cuál es el porcentaje medio de crecimiento anual?

107

Tendencia Central

4

16.

¿Qué capital final se tendrá al cabo de 6 años, si se invierten U$ 1000 al 8% de interés anual?

17.

Hallar la moda de los datos del problema No. 13.

18. La tabla siguiente nos muestra el número de bodas en U.S.A. para hombres y mujeres de distintos grupos de edad durante 1984. * * * * * * * *

19.

108

Hallar la mediana de edad de hombres y mujeres en esas bodas. Hallar la media y la moda de la edad de hombres y de mujeres. ¿Por qué la mediana es una medida de tendencia central mas adecuada que la media en este caso? Comprobar la mediana por el método gráfico. Elaborar el histograma para varones y para mujeres. Hallar la edad de la mayor de las mujeres del 25% de menor edad al casarse. Hallar la edad del hombre más joven del 20% de mayor edad al momento de casarse. Hallar la edad de la mujer más joven de entre el 85% de las mujeres mayores.

El volumen de consumo de energía en 60 hogares durante un mes fue de:

Estadistica 1 * * * * * * * *

Elaborar una tabla de frecuencias. Dibujar un histograma y el polígono de frecuencias correspondiente. Hallar la media para datos no ordenados (apóyese en la calculadora con funciones estadísticas), luego halle la media para datos agrupados y diga si resulta ser apropiada. Calcule la moda y la mediana para datos agrupados. ¿Cuál es menor consumo del 35% de los hogares con mayor consumo de energía?. ¿Cuál es el mayor consumo del 40% de los hogares con menor consumo? ¿Entre que valores de consumo se encuentra el 80% de los hogares más cercano al consumo promedio? Halle Q1, Q3, D3, D4, D6, D7, P15, P45, P73 y P87.

EJERCICIOS RESUELTOS

1. Si el crecimiento de las ventas en un negocio fue en los últimos tres años de 26%, 32% y 28%, hallar la media anual de su crecimiento.

Solución.

La tasa de crecimiento es de 28.6% anual. 2. Un obrero puede pintar una casa en 6 días y otro puede pintarla en 8 días. Hallar el rendimiento de un obrero cuyo rendimiento sea representativo de los rendimientos de los dos obreros (obrero tipo) y comprobar el ejercicio.

109

4

Tendencia Central

Comprobación. Dos obreros tipo demoran en pintar la casa 6 6/7 ÷ 2 = 3 3/7 días. Los dos obreros del problema pintan en un día de la casa. En pintar toda la casa demoran

24/7

= 3 3/7 días.

3. El Departamento Administrativo del Medio Ambiente, buscando determinar el nivel de contaminación por bióxido de carbono (CO2) en el centro de Bogotá se hicieron 200 mediciones, cuyos datos se agruparon en la siguiente tabla de frecuencias. Hallar la media. Nivel de contaminación del aire por CO2 en el centro de Bogotá durante el 2001

Fuente: DAMA

4. Con los datos del ejercicio anterior calcular la moda y la mediana y a partir de estas determinar si la distribución tiene asimetría positiva o negativa. Primero debemos completar la tabla de frecuencias, para poder usar las frecuencias acumuladas.

110

Estadistica 1

Por el resultado vemos que la media es menor que la mediana y la moda, que son prácticamente iguales. Podemos pensar entonces que la distribución es asimétrica hacia la izquierda. A partir de ello tenemos argumentos para decir que los niveles de contaminación pueden tener variaciones, presentándose más casos de niveles inferiores al valor más típico que superiores. 5.

Con la información del ejercicio 3 calcular los cuartiles Q1 y Q3 y ubíquelos sobre el histograma.

Para el primer cuartil tenemos que se ubica en el intervalo 20 % a 22 % donde se completan los 256/ 4=64 primeros elementos. Hasta una concentración de CO2 de 20% hay 21 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 57 mediciones Cada medición corresponde a 2/57=0.035 %

111

4

Tendencia Central

De manera que para las mediciones que faltaban entre el límite inferior y las 64 mediciones, es decir a 64-21=43 tendríamos 0.035%x43=1.51% que le sumaremos al límite de clase inferior: 20 % + 1.51 % = 21.51 %. Podemos decir que una cuarta parte de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 21.51%. Este resultado preliminar también nos indica el considerable apuntalamiento que tendría el polígono de frecuencia para esta distribución. El cuartil 3 corresponde a 192 mediciones y se ubica en el intervalo de clase que va de 24 % a 26 %. Hasta una concentración de CO2 de 26% hay 240 mediciones Hasta una concentración de CO2 de 24% hay 167 mediciones Dentro de un ancho de clase de 2% hay 73 mediciones Cada medición corresponde a 2/73=0.0274 % De manera que para las mediciones que faltaban entre el límite inferior de la clase cuartílica y las 192 mediciones, es decir a 192-167=25 tendríamos 0.00274%x25=0.685% que le sumaremos al límite de clase inferior: 24 % + 0.685 % = 24.685 %. Podemos decir que tres cuartas partes de las mediciones hechas al nivel de contaminación en el centro de Bogotá, mostraron concentraciones inferiores a 24.685 % de CO2; o que una cuarta parte de las mediciones fueron iguales o superiores a 24.685 % de CO2 en el aire.

112

Estadistica 1 6.

Con la información del ejercicio 3 hallar D1, D6, P85.

Para el primer decil tenemos que se ubica en el intervalo 20 % a 22 % donde se completan los 256/10=26 primeros elementos. Hasta una concentración de CO2 de 20% hay 21 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 57 mediciones Cada medición corresponde a 2/57=0.035 % De manera que para las mediciones que faltaban entre el límite inferior y las 26 mediciones, es decir a 26-21=5 tendríamos 0.035%x5=0.18% que le sumaremos al límite de clase inferior: 20 % + 0.18 % = 20.18 %. Podemos decir que una décima parte de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 20.18%. Para el sexto decil tenemos que se ubica en el intervalo 22 % a 24 % donde se completan los 6x256/10=156 primeros elementos. Hasta una concentración de CO2 de 24% hay 167 mediciones Hasta una concentración de CO2 de 22% hay 78 mediciones Dentro de un ancho de clase de 2% hay 99 mediciones Cada medición corresponde a 2/99=0.02 % De manera que para las mediciones que faltaban entre el límite inferior y las 78 mediciones, es decir a 156-78=78 tendríamos 0.02%x78=1.58% que le sumaremos al límite de clase inferior: 22 % + 1.58 % = 23.58 %. Podemos decir que seis décimas partes de las observaciones arrojan una medición del nivel de contaminación por CO2 inferior a 23.58 %. El percentil 85 corresponde a 218 mediciones y se ubica en el intervalo de clase que va de 24 % a 26 %. Hasta una concentración de CO2 de 26% hay 240 mediciones Hasta una concentración de CO2 de 24% hay 167 mediciones Dentro de un ancho de clase de 2% hay 73 mediciones Cada medición corresponde a 2/73=0.0274 %

113

4

Tendencia Central

De manera que para las mediciones que faltaban entre el límite inferior de la clase percentílica y las 218 mediciones, es decir a 218-167=51 tendríamos 0.00274 % x 51 = 1.4 % que le sumaremos al límite de clase inferior: 24 % + 1.397 % = 25.4 %.

7. Si una empresa de energía quiere determinar el consumo de energía para un periodo futuro, ¿cual será la medida de tendencia central mas apropiada? Solución. Aunque para este propósito sería mas adecuado trabajar con una serie de tiempo o una curva de tendencia, definitivamente, la media resulta ser la medida de tendencia central que más se adecua a la pretensión de estimar un valor futuro ya que puede acercarse mas a la tendencia de la variable en cuestión, al contrario de la mediana que nos proporciona una información referente a un periodo ubicado en la parte central de nuestra distribución. 8. Si un jefe de recursos físicos necesita adquirir el calzado para proveer de dotación al personal que devenga menos de dos salarios mínimos, necesitamos saber cual es el valor más representativo de la talla usada por los empleados, con el fín de mantener mas cantidad en el stock, teniendo en cuenta que sacar un inventario persona por persona resulta difícil por la cantidad de personal que entra y sale de la entidad. ¿Cuál medida de tendencia central es la más adecuada? Solución. La moda resulta ser mas adecuada, por obvias razones, primero por que si indica el valor de la talla que se usa con más frecuencia, mientras que la media y la mediana podrían ser valores que no correspondan a ninguna talla.

114

Estadistica 1

Unidad 5 Dispersión y Asimetría

115

5

116

Dispersión y Asimetría

Estadistica 1 OBJETIVOS

* A partir de una distribución de frecuencia el estudiante estará en capacidad de determinar el grado de dispersión absoluta o relativa, usando las medidas correspondientes.

INTRODUCCIÓN En la unidad anterior se estudiaron las medidas de tendencia central que describen el comportamiento de los datos en una distribución de frecuencia. Pero las informaciones que esas medidas proporcionan son limitadas y nada nos dicen sobre la forma en que están diseminados o dispersos los datos con relación a la tendencia central; además, poco nos indican sobre un determinado dato con relación a los otros de la distribución. Por ejemplo al investigar acerca del nivel de ingreso por familia, si conocemos la media, la mediana y la moda, aún no sabemos nada acerca de si hay familias con ingresos muy por debajo o por encima del promedio, es decir no podemos evaluar como es la distribución del ingreso, si este esta concentrado en un valor alrededor de la tendencia central o si encontramos las familias equidistribuidas en distintos niveles de ingreso. Al estudiar la media aritmética y algunas de sus propiedades, se advirtió que de las medidas de tendencia central la media es la única que se utiliza en desarrollos matemáticos y que en esa valiosa propiedad radica su gran importancia y sus numerosas aplicaciones en el campo de la estadística. Entre las medidas de dispersión a estudiar en esta unidad están las que tienen relación con la media aritmética y que, al igual que la media, tienen propiedades algebraicas que les permiten intervenir en relaciones matemáticas que son la base estructural de los análisis estadísticos. Por sus propiedades algebraicas estas medidas de dispersión son las mas importantes y de más frecuente aplicación.

117

5

118

Dispersión y Asimetría

Estadistica 1 El estudio de la variabilidad de los datos, conocido en estadística como dispersión, tiene como objeto el describir y cuantificar por medio de medidas características (parámetros) la uniformidad que presentan los datos en estudio. Cuando los datos tratan de acumularse alrededor de un valor central característico se dice que hay poca dispersión. Cuando los valores individuales se alejan del valor central (media) se dice que existe mayor dispersión. Se hace necesaria entonces una medida que indique cual es el grado de dispersión o variación que tienen los datos, para poder describirlos con mayor precisión, lo mismo que para hacer posible la comparación de varios conjuntos de datos correspondientes a situaciones o escenarios diferentes. Partiendo de este concepto, la variación de los datos se da a lado y lado del punto correspondiente a la media y por tanto origina formas diferentes en la distribución de los elementos. Esta característica de las distribuciones que describe el grado de deformidad o sesgo hacia la derecha o izquierda de la media la conocemos como asimetría. Una distribución de datos es simétrica, cuando existe equilibrio en el número de elementos y en la separación de estos, que se encuentran a uno y otro lado del valor promedio respecto del cual se comparan o contrastan dichos valores es decir de la media. En el caso contrario se habla de asimetría, refiriéndonos a la deformidad o desequilibrio en la concentración de los datos alrededor de una medida de tendencia central que generalmente es la media.

La variabilidad es la característica fundamental de los elementos de una población, y la mayor parte del trabajo estadístico se dedica a su análisis. Los datos cuantitativos expresan la disparidad entre los valores individuales, y desde el punto de vista estadístico, la medida o descripción de esta disparidad es tan importante como la descripción de la tendencia que estos elementos pueden presentar alrededor de un valor característico. Las medidas de tendencia central y las de dispersión son complementarias en la medición de la forma en que están distribuidos los datos y por tanto resultan muy útiles al análisis estadístico. La media no sirve para expresar representatividad si no está acompañada por el valor de la dispersión o variabilidad que tienen los datos en torno a él, por que de lo contrario, la variación de los datos en la serie queda oculta. Si se encuentra que el valor de la dispersión es muy grande, debe concluirse que los datos de que se trata difieren entre sí en forma amplia y por consiguiente el promedio no los representa. Al contrario, si el valor de la dispersión es pequeño, significa que la diferencia entre el valor de la media y el de cada dato particular es pequeña y por tanto los datos son muy semejantes y la media los representa. En síntesis, la dispersión o grado de significación sirve para conocer cuan representativo es el valor de la media en una población de datos. Las medidas utilizadas para cuantificar la dispersión pueden ser absolutas cuando están expresadas en las mismas unidades de los datos; o relativas las que se expresan en forma de razón o proporción.

119

5

Dispersión y Asimetría

MEDIDAS DE DISPERSIÓN ABSOLUTA El Rango. Consideremos la situación siguiente. En dos ciudades diferentes se recolectaron muestras para determinar el ingreso diario promedio de un vendedor ambulante, con el fin de idear y aplicar políticas referentes a su seguridad social y para establecer el volumen de impuesto con que se le podría gravar. Los resultados se agrupan en la siguiente tabla de distribución de frecuencias: Niveles de ingreso de vendedores ambulantes en las ciudades AyB

Figura 5.1. Distribuciones con distinto rango * Observe los diagramas correspondientes a las distribuciones de frecuencia de los niveles de ingreso en cada ciudad, de acuerdo con esa observación determine en que ciudad existe mayor equilibrio en cuanto al ingreso. Explique su respuesta. * Calcule la media para las dos distribuciones. * ¿Sirve para comparar las dos distribuciones, emplear la media de cada una de ellas? ¿Por qué?

120

* ¿Qué significa, en términos de nivel de ingreso, que la media de los dos conjuntos de datos sean iguales? * ¿Por qué, a pesar de que la media de las dos distribuciones es aproximadamente la misma, ellas no reflejan que las dos ciudades tengan diferencias notorias en el vo-

Estadistica 1 lumen de ingreso de los trabajadores informales, en este caso los vendedores ambulantes? * ¿En cual de las dos ciudades se presenta un nivel de ingreso mas equilibrado y justo? Si usted prefiera la distribución de ingreso de la ciudad B, muy seguramente habrá notado que la diferencia entre los dos diagramas es la dispersión. El diagrama para la ciudad A presenta mayor variabilidad que el de la ciudad B, ello nos indica que el ingreso es más homogéneo en la ciudad A que en la ciudad B. Los datos para la ciudad A se encuentran más dispersos, puesto que el ingreso mínimo es menor que el ingreso mínimo en la ciudad B, y además, la medida del ingreso máximo obtenido en la ciudad A es mayor que el máximo ingreso de la ciudad B. En otros términos, podemos decir que en la ciudad A los ingresos de los vendedores ambulantes varían en intervalo más grande de valores. El rango es el tamaño del intervalo en el cual varían los elementos de un conjunto de datos numéricos y se calcula encontrando la diferencia entre el mayor valor y el menor valor de dicho conjunto. * El rango es una medida muy fácil de calcular. ¿Cree usted que el rango sirve para comparar eficientemente la dispersión entre los elementos de cualquier par de conjuntos? ¿Es universal?, Es decir, ¿sirve para todos los casos? Consideremos ahora la siguiente situación. En un concurso de méritos para la construcción de dos escuelas se presentaron diversas propuestas, las cuales obtuvieron las calificaciones que se representan en el siguiente diagrama:

Figura 5.2. Distribuciones con igual rango y diferente dispersión.

121

5

Dispersión y Asimetría

* Observe cuidadosamente los dos diagramas y diga que información nos proveen. * ¿Cuál gráfica, refleja mayor dispersión de los datos? ¿Para cuál escuela cree usted que se presentaron propuestas cuya calificación fue mas uniforme? * ¿Cuál es el rango de cada conjunto de datos? ¿Sirve en este caso el rango como medida adecuada para comparar la dispersión de los dos conjuntos de datos? Justifique su respuesta. * Determine cual es la causa por la cual el rango no es una buena medida de la dispersión que se aplique a todos los casos. Se vio en el segundo ejemplo que aunque tenemos dos distribuciones con distintos grados de dispersión, el rango resulta ser el mismo. La dispersión en la calificación de las propuestas para la escuela Bellavista es mayor que para la otra escuela. Tenemos entonces que el rango no refleja lo que la observación de la gráfica nos muestra como evidente. Al encontrar el problema de que el rango depende exclusivamente de los valores extremos mientras que la dispersión tiene que ver con todos los datos de la distribución, nos vemos en la necesidad de buscar otra medida de dispersión que supere esta dificultad. En conclusión, podemos decir que el rango es la medida más burda de dispersión, sin embargo tiene un gran valor dentro del diseño y análisis estadístico. Por basarse sólo en los extremos presenta algunos inconvenientes en su aplicación: * Por ser una medida de posición, puede estar afectada por un valor no característico o inusual dentro del conjunto de valores. * No es una medida de dispersión de todos los valores que intervienen en el análisis. * Es altamente sensible al número de elementos en estudio. Cuando se incrementa el tamaño de la muestra puede ocurrir que dentro de los nuevos valores aparezcan datos con mayor valor que el superior, o menor valor que el inferior, haciendo variar el valor del rango.

122

* Es la medida de dispersión menos fiable en especial si se le compara con la desviación típica que estudiaremos luego. También tiene como desventaja el ser poco estable. Sin embargo, el rango es una medida útil de la dispersión en especial cuando el tamaño de la muestra es pequeño. Una muestra es pequeña cuando el numero de datos es inferior a 30. Por ejemplo en muestras para el control de calidad donde usualmente el número de elementos no sobrepasa los 10. También es usual para expresar las variaciones en las temperaturas ambientales diarias, mensuales o anuales o para conocer la dispersión extrema en el comportamiento bursátil (valores máximo y mínimo de la cotización de las acciones), expresando el margen de beneficio de las transacciones.

Estadistica 1 Rango Intercuartil. Para eliminar la influencia de los valores extremos, en estadística se buscó una medida que analizara la situación del intermedio de la distribución, tomando la diferencia entre el tercer cuartil Q3 y el primer cuartil Q1 y que se llamó rango intercuartil. Rango Intercuartil Q = Q3 – Q1 Rango Semi-intercuartílico o desviación cuartil. Es la mitad del rango intercuartil.

Ejemplo. Para la distribución de frecuencia de las edades de los deportistas, que se trabajaron en las dos unidades anteriores, hallar Q y QD. Q = 151,7 – 141,2 = 10,5 centímetros. QD = 10,5/2 = 5,25 centímetros. Lo que permite decir que la mitad de los deportistas tienen una estatura con desviación respecto a la mediana hasta de ±5,25 centímetros. A pesar que el rango intercuartil y la desviación cuartil, como medidas de variabilidad de las observaciones son más adecuadas que el rango, presentan varios inconvenientes que demeritan su uso: *

No toman en consideración todos los valores de la distribución y puede ocurrir que los valores inferiores a Q1 o s uperiores a Q3 estén muy compactados o muy diversos, y los valores de Q y QD no cambiarían por ello. No es posible, conociendo sólo Q o QD, hacer la ubicación precisa de una observación dentro de la distribución. *

* Al igual que la mediana, que es el segundo cuartil, no tienen propiedades que les permitan intervenir en las relaciones matemáticas que utiliza la estadística.

123

5

Dispersión y Asimetría

Desviación Típica o Estándar. Para superar la dificultad de tropezar con las debilidades de las medidas anteriores de dispersión que no toman en cuenta todos los valores del conjunto y no solamente valores extremos o valores de cuartiles. ¿Cómo podemos medir la dispersión con una herramienta que verdaderamente represente la sensación de dispersión y que se aplique de manera universal a todos los casos?. La siguiente forma de llegar al concepto de desviación estándar fue propuesta por Perry y otros5 nos permite una fácil comprensión, veamos: Suponga que, para cada una de las situaciones representadas en las gráficas siguientes, se va a realizar este procedimiento, Primero, calcular, para cada valor, la distancia que hay de él a un dato fijo; segundo, sumar esas distancias; y tercero, emplear dicho resultado como medida de dispersión de la correspondiente distribución. * ¿Qué relación hay entre esas sumas de distancias? Es decir, ¿en que caso resultará mayor esa suma de distancias?

Figura 5.3. Distribuciones con diferente dispersión. * Generalizando la respuesta a la pregunta anterior, ¿qué relación hay entre la suma de distancias a un dato fijo para una distribución muy dispersa y la correspondiente suma de distancias para una distribución menos dispersa?

5 En este momento debe ser claro, que para medir la dispersión de un conjunto de datos, es necesario tener en cuenta la distancia que hay de cada uno de los datos del conjunto a otro

124

El ejemplo fue tomado del libro Matemáticas, azar y sociedad y que se cita en la bibliografía al final de esta unidad.

Estadistica 1 dato, que se va a tener como referencia. El problema consiste en determinar cuál es la mejor referencia. Veamos si conviene que el mínimo sea tal referencia. Considere cada una de las siguientes distribuciones: Distribución 1: 1, 2, 3, 4 Distribución 2: 5, 6, 7, 8 * ¿Alguna de las distribuciones es más dispersa que la otra? ¿Por qué? * Halle el mínimo de cada una de las dos distribuciones y calcule la distancia que hay de cada uno de los datos de la primera distribución al mínimo de dicha distribución (diferencia entre un valor de la distribución y el mínimo de la misma) y haga la suma de esas distancias. También calcule la suma de las distancias que hay de cada uno de los datos de la segunda distribución al mínimo de la misma. (Dé su respuesta completando la siguiente tabla.) * ¿Corroboran los números que encontró en el ítem anterior su intuición con respecto a la dispersión de las dos distribuciones que estamos analizando? Es decir, ¿se puede pensar que la suma de distancias de cada uno de los valores de la distribución al mínimo de la distribución es una buena medida de la dispersión?

Ahora, considere las distribuciones siguientes: Distribución 3: Distribución 4:

1, 4, 6, 9 1, 1, 2, 3

125

5

Dispersión y Asimetría

* qué?

¿Cuál de las dos distribuciones es más dispersa? ¿por

* Emplee el mismo criterio que se utilizó en la tabla anterior, para hallar los números que permitan comparar la dispersión de las dos distribuciones. (De su respuesta completando la siguiente tabla.)

*

Al usar ese criterio, ¿se corrobora su intuición?

Considere la distribución: Distribución 5:

1, 1, 1, 2, 2, 2, 3, 3, 3, 4, 4, 4

* Haga el diagrama de las distribuciones 1 y 5. ¿Intuitivamente, alguna de esas dos distribuciones es mas dispersa que la otra? ¿Cuál? * Emplee el mismo criterio para comparar la dispersión de las dos distribuciones 1 y 5. ¿Se corrobora su intuición? Observe que las distribuciones tienen la misma dispersión, el criterio que veníamos utilizando y que parecía ser un buen criterio para medir y comparar la dispersión de dos conjuntos, arroja una información que en este caso no sirve, pues es contrario a la evidencia. Por tanto, la suma de todas las distancias de los datos de un conjunto al mínimo no constituye una buena herramienta para medir la dispersión pues no es universal. * Comente la validez de esta afirmación: “La medida de dispersión definida anteriormente no sirve por que no tiene en cuenta el número de datos”

126

Estadistica 1 Considere entonces otro criterio para medir la dispersión: Se calcula la distancia de cada uno de los datos de la distribución al mínimo de dicha distribución; segundo, se hace el promedio de dichas distancias; y tercero, se emplea el resultado como medida de dispersión de los datos de la correspondiente distribución.

* Utilice este nuevo criterio para medir la dispersión de las distribuciones 1 y 5. Y, comente la bondad de este criterio. (Dé su respuesta empleando una tabla como la siguiente.)

Considere las siguientes distribuciones: Distribución 6: Distribución 7:

1, 5, 6, 7, 8 1, 2, 3, 4, 8

* ¿Intuitivamente, alguna de las dos distribuciones es más dispersa que la otra? Utilice el último criterio definido, - el promedio de las distancias de cada uno de los datos de la distribución al mínimo de la misma – para medir la dispersión de las distribuciones 6 y 7 y compararlas. ¿Se corrobora su intuición? ¿cuál es el problema?. Emplee una tabla como la siguiente:

127

5

Dispersión y Asimetría

Debe ser claro que la última “medida de dispersión” que hemos definido tampoco es una buena herramienta para comparar la dispersión de dos distribuciones pues depende de qué tan alejado esté el mínimo del resto de los datos de la distribución. Por tanto, aún no hemos encontrado cuál es la mejor referencia con respecto a la cual debemos medir las distancias. * Sugiera cuál es una buena referencia con respecto a la cual se deban medir las distancias, para obtener una medida de dispersión. Puesto que la media de una distribución es, en términos generales, un buen representante de la distribución, resulta natural pensar que la referencia que hemos estado buscando es esa medida. Bien, entonces definamos ahora como medida de dispersión el promedio de las “distancias” (diferencias entre los valores de la distribución y la media de la misma) de cada uno de los datos de la distribución a la media de la distribución. Para cada una de las distribuciones 1, 5 y 6 emplee la definición dada anteriormente para medir y comparar la dispersión de los datos de cada una de las tres distribuciones.

128

Estadistica 1 * ¿Le sorprende el resultado? ¿En que consiste y cómo se puede resolver el problema que hemos encontrado al definir así la medida de la dispersión? Usted debió encontrar que el problema reside en que los valores positivos (que corresponden a los datos por encima de la media) se anulan con los valores negativos (que corresponden a los datos por debajo de la media). En otras palabras, no se está haciendo el promedio de verdaderos valores de distancia. * vas?

¿Cómo lograr que todas las diferencias sean positi-

Como lo que nos interesa es la distancia de cada valor a la media, debemos obtener valores positivos (recuerde que no existen distancias negativas). Una posible manera de obtener valores positivos es elevar al cuadrado cada una de las diferencias obtenidas. (la otra forma es trabajar con el valor absoluto de las diferencias; sin embargo, no tomaremos ese camino.) Y, entonces, se puede pensar en definir una herramienta que mida la dispersión de una distribución, como el promedio de los cuadrados de las diferencias de cada uno de los datos a la media de la distribución. Verifique que al emplear esta última herramienta para medir y comparar la dispersión de cualquier par de distribuciones de las dadas anteriormente, el resultado que se obtiene corrobora la intuición correspondiente. Para ello compare las distribuciones 5 y 6.

129

5

Dispersión y Asimetría

Hemos encontrado, entonces, una herramienta que depende de todos los datos de la distribución y además tiene en cuenta el número de datos que hay en ella. Además, proporciona resultados que son coherentes con la observación y la intuición. Esta medida se conoce como varianza de la distribución. La varianza de un conjunto de datos numéricos es una medida de su dispersión y se define como el promedio de los cuadrados de las diferencias de cada valor a la media aritmética. En una cierta investigación se tomó una muestra de 10 niños y por cada uno de ellos se obtuvo una medida correspondiente a su estatura (en metros). A continuación se da la muestra de datos: {1.25, 1.32, 1.38, 1.25, 1.32, 1.20, 1.32, 1.32, 1.25, 1.25} * Determine la estatura promedio de ese conjunto de datos. – No olvide dar la respuesta en metros. – Además, utilice la varianza para calcular la dispersión de los datos. ¿En que unidades se expresa esta medida? Comente este hecho y sugiera alguna solución. Por razones como las que usted descubrió en el caso de las estaturas, en ciertas ocasiones, el valor más comúnmente empleado para medir la dispersión es el llamado desviación estándar que se define como la raíz cuadrada de la varianza. La desviación estándar de un conjunto de datos numéricos es una medida de su dispersión. Se define como la raíz cuadrada del promedio de los cuadrados de las distancias que hay de cada uno de los datos del conjunto a la media aritmética del mismo. Bastante didáctico ha sido el ejemplo que se tomo del texto de Perry y otros, fácilmente nos queda ahora construir y entender una fórmula que se pueda emplear para hacer el cálculo de la varianza y la desviación estándar.

130

Estadistica 1 Haciendo una bifurcación del procedimiento anterior podemos llagar también a otra medida que es la dispersión media, esta se obtiene cuando para superar el problema de que los valores negativos se anulen con los negativos, se utiliza el valor absoluto de las diferencias entre los valores y la media.

La desviación media es una medida de la dispersión bastante objetiva: cuanto mayor sea su valor mayor es la dispersión de los datos; sin embargo no proporciona una relación matemática precisa entre su magnitud y la posición de un dato dentro de la distribución. Por otra parte, al tomar los valores absolutos mide la desviación de una observación sin mostrar si está por encima o por debajo de la media aritmética. Desviación estándar de una muestra. Para calcular la varianza y la desviación estándar de una muestra, utilizamos las mismas fórmulas, sustituyendo N con n – 1.

¿Por qué utilizamos n – 1 como denominador en lugar de N? Los especialistas en estadística pueden demostrar que si tomamos muchas muestras de una población dada, si encontramos la varianza de la muestra para cada muestra y promediamos los resultados, entonces este promedio no tiende a tomar el valor de la varianza de la población, a menos que tomemos n – 1 como denominador de los cálculos. ¿Cómo se facilitan los cálculos?. Organizándolos es lo más fácil. Con el ejemplo que se ha venido trabajando de la distribución de frecuencia de las estaturas de los deportistas, veamos los pasos que se pueden seguir. * Podemos apoyarnos en una hoja de cálculo en la que utilizaremos cuatro columnas adicionales a la distribución de frecuencias, para realizar cálculos parciales.

131

5

Dispersión y Asimetría

* En la primera hallamos los productos entre la frecuencia absoluta y la marca de clase para cada intervalo. La sumatoria en la parte inferior de esta columna permitirá el fácil cálculo de la media. (para el ejemplo la media es de 15803/ 108=146.32. * En la segunda columna adicionada, hallamos las diferencias entre las marcas de clase y la media. * En la tercera columna, calculamos los cuadrados de las diferencias entre las medias y las marcas de clase, es decir el cuadrado de la columna anterior. * En la última columna calculará el producto de la columna anterior por la frecuencia. La sumatoria de esta última columna la podemos dividir fácilmente por el número de datos y obtenemos la varianza.

Ahora nos resulta muy sencillo calcular la varianza dividiendo el total obtenido en la última columna por el número de datos:

132

Estadistica 1 Teorema de Chevichef. No importa qué forma tenga la distribución, al menos 75% de los valores de la población caerán dentro de dos desviaciones estándar a partir de la media, y al menos 89% caerá dentro de tres desviaciones estándar. Estos son dos de los casos especiales del teorema, pero los más representativos. La descripción y explicación completa del teorema se sale de los fines del curso. MEDIDAS DE DISPERSIÓN RELATIVA. Si necesitamos comparar dos o más conjuntos de datos, por lo general no es posible la comparación utilizando la dispersión absoluta. Cuando las medidas de las observaciones son iguales, las dos medias pueden tener medias aritméticas diferentes; por estar expresadas en las mismas unidades las desviaciones estándar son comparables, pero no adoptan una correcta apreciación sobre las series que se comparan. Cuando las unidades de medida son diferentes, las medidas de dispersión absoluta no nos sirven para hacer la comparación. Otra dificultad que se tiene con las medidas de dispersión absoluta, se da cuando las muestras tienen tamaño de muestra diferente, por los cambios que introducen en las medidas en general cuando el tamaño de la muestra aumenta. Nos vemos ante la necesidad de buscar una medida de la dispersión que no se vea alterada o afectada por las unidades de expresión de los datos, ni por el tamaño de las muestras. Buscamos entonces, una medida universal para la dispersión. Coeficiente de variación. La desviación estándar no puede ser la única base para la comparación de dos distribuciones. Si tenemos una desviación estándar de 10 y una media de 5, los valores varían en una cantidad que es el doble de la media misma. Si, por otro lado, tenemos una desviación estándar de 10 y una media de 5.000, la variación con respecto a la media es insignificante. En consecuencia, no podemos conocer la dispersión de un conjunto de datos hasta que conocemos su desviación estándar, su media y cómo se compara la desviación estándar con respecto a la media.

133

5

Dispersión y Asimetría

Lo que necesitamos es una medida relativa que nos proporcione una estimación de la magnitud de la desviación con respecto a la magnitud de la media. El coeficiente de variación es una de estas medidas relativas de dispersión. Se relaciona la desviación estándar y la media, expresando la desviación estándar como porcentaje de la media. Esta medida resulta muy útil y objetiva en la comparación de distribuciones. En el ejemplo de las estaturas, el coeficiente de variación sería:

Coeficiente de desviación media. Por derivarse de la desviación media, es menos usado que el coeficiente de desviación estándar. Representa la participación porcentual de la desviación media en el promedio.

Este indicador se aplica casi exclusivamente a la comparación de dos situaciones. El resultado por si sólo no brinda mucha información. Coeficiente de desviación cuartil. Es una medida de dispersión aplicable cuando analizamos distribuciones con intervalos abiertos o con valores bastante extremos. Igualmente, para el calculo burdo de la dispersión de una serie.

134

Estadistica 1 Asimetria. Nos muestra la dirección de concentración respecto a la media, de los datos de una distribución, se puede apreciar gráficamente o expresarla matemáticamente usando el coeficiente de Pearson. Puede ser negativa si los datos tienden a acumularse a la izquierda de la medida de tendencia central y positiva si por el contrario tienden a acumularse a la derecha.

Figura 5.4. Asimetrías a la izquierda y a la derecha. En la asimetría a la derecha la media y la mediana se desplazan a la derecha de la moda, quedando la media situada entre las otras dos. En la asimetría a la izquierda, la media y la mediana se desplazan hacia la izquierda, quedando esta última ubicada en medio de las otras dos medidas de tendencia central. Coeficiente de Pearson. La asimetría se puede calcular en función de la media y la mediana así:

Curtosis.

Las curvas de distribución, comparadas con la curva de distribución normal, pueden presentar diferentes grados de apuntalamiento o de altura de la cima de la curva. Según su apuntalamiento las curvas reciben el nombre así: la curva normal se denomina mesocúrtica, leptocúrtica la de mayor apuntalamiento que la normal y platicúrtica la de menor apuntalamiento que la normal. Aunque existe método matemático para el cálculo de la curtosis, el simple gráfico nos brinda la información y la idea suficiente de la propiedad.

135

5

Dispersión y Asimetría

RECOMENDACIONES PRÁCTICAS: * Revisar cuidadosamente los datos antes de usarlos; verificar que no contengan errores; chequear en particular los valores extremos. * Elaborar histogramas o cualquier otro tipo de gráficos que permita visualizar la forma y las características principales de la distribución de frecuencias. * Diferenciar con precisión cuándo se hace referencia a un parámetro poblacional y cuándo a un estadístico muestral. * Usar en forma conjunta una media de posición y una de dispersión (como mínimo) para analizar el comportamiento de la variable. * Prestar atención a las ventajas y desventajas de las distintas medidas de posición y dispersión, para decidir correctamente su elección. * Calcular la media aritmética con los datos en bruto – sin agrupar – siempre que se requiera su valor exacto. * Dar preferencia al cálculo de la mediana como medida de posición, cuando la serie tiene pocos datos e incluye valores extremos. * No tiene sentido calcular la moda en series de datos sin agrupar. * Tanto la mediana como la moda son valores de la variable (no confundir con las frecuencias a las que están asociadas). * Comparar, siempre que se pueda, media, mediana y moda para determinar el sesgo de la distribución. * El rango o alcance es una medida de dispersión poco apropiada para describir series con muchos datos. * La desviación estándar es preferible a la varianza porque se expresa en las mismas unidades de la variable.

136

Estadistica 1 PROBLEMAS PROPUESTOS Los siguientes ejercicios, se basan en la información de esta tabla:

Fuente: DANE 1.

Defina y clasifique la variable cuantificada en la tabla anterior.

2. Diga cual es la medida más adecuada para expresar la dispersión del número de obras culminadas por trimestre. 3. Calcule el rango de las obras nuevas que se paralizaron por trimestre y explique el significado que puede tener esa medida. 4. Calcule la desviación estándar del número de casas que continúan en proceso por trimestre en la ciudad de Pereira. 5. ¿Cuál de las columnas de la tabla tiene el mayor grado de dispersión? ¿Por que utilizó esa medida para comparar?

137

5

Dispersión y Asimetría

6. Calcule la desviación media del total de obras que cada trimestre se encuentran en proceso, y diga el significado que puede tener esa medida, por ejemplo para un análisis de generación de empleo. 7. Investigue cuales fueron los ingresos totales de los municipios de su departamento durante los últimos cuatro años y determine cual fue el año con menor variación en los ingresos y cual de los municipios presenta la distribución más uniforme. (sugerencias, consulte en el DANE, o en la contraloría departamental) 8. Con los datos de la siguiente tabla que corresponden a la estadística de empresas para 1999. Si se sabe que el número de empresas en todos los ramos aumentó en 35 para el año 2000, determine la media y la varianza de la nueva variable y realice la interpretación del resultado obtenido. 9. En la siguiente tabla encontramos a que se dedican las empresas en Colombia. A partir de esos datos, encontrar la media del número de empresas por área, la desviación estándar, el coeficiente de variación y la forma de la distribución. Interprete y explique los resultados.

138

Estadistica 1 10. Construya un mapa conceptual con los elementos estudiados a cerca de la dispersión de datos. 11. Con los datos del ejercicio resuelto No. 3 de la unidad anterior determinar la desviación estándar, el tipo de distribución según el grado de curtosis y el sentido de la asimetría si la hay. Explique el significado y las implicaciones de cada resultado. 12. Explique el significado de la siguiente expresión “la inestabilidad en el precio del café obligó a los caficultores a crear un fondo que guardara dinero de las bonanzas para reponer en las crisis del precio” 13. Invente un escenario a manera de cuento o sociodrama en el que las medidas de dispersión relativa sean muy importantes. A partir de este explique la importancia de tales medidas. 14. En un artículo titulado “You aren’t paranoid if you think someone eyes your every move” (Usted no es paranoico si cree que alguien observa todo lo que hace), el Wall Street Journal señala que las grandes empresas compilan estadísticas detalladas acerca del comportamiento de cada persona. Afirma que Jockey Internacional sabe cuantos juegos de ropa interior posee; que Frito – Lay Inc, sabe que prefiere comer primero trozos de pretzels en paquete o enteros; y que, para concretar, Coca - Cola sabe que se ponen 3,2 cubos de hielo en cada vaso. ¿ha puesto usted alguna vez 3,2 cubos de hielo en su vaso? ¿Qué quería decir el artículo Wall Street Journal con esta afirmación? 15. Encuentre el rango de los precios del dólar durante el mes pasado y explique el significado del resultado. ¿Es apropiada la medida para determinar la variabilidad del dólar? 16. Encuentre un ejemplo relacionado con la administración pública y la realidad nacional en el que aplique la mayoría de las medidas de tendencia central y variabilidad estudiadas en este curso.

139

5

Dispersión y Asimetría

PROBLEMAS RESUELTOS 1. Con la información contenida en la siguiente tabla, calcular el índice medio de la tasa de cambio real por país, la desviación estándar para cada caso y el coeficiente de variación. Interpretar los resultados. Indice de la Tasa de Cambio Real Bilateral de Colombia Frente a Países Latinoamericanos 1999 – 2001

Fuente: Cálculos DANE con base en FMI Para la solución de este nos apoyaremos en la hoja de cálculo, veamos las operaciones:

140

Estadistica 1 Aunque en la figura no se alcanza a mostrar la totalidad de los datos, si es clara la operación que se describe en las últimas tres filas. En la fila 28 se calcula la media de los índices de tasa de cambio por país, como el promedio aritmético de los datos de la columna respectiva. En la fila 29 se calcula la desviación estándar poblacional de los mismos datos y en la fila 30 se calcula la relación entre la desviación típica o estándar y la media, que dándole formato de porcentaje a la celda de la hoja de cálculo, nos indicará el valor del coeficiente de variación estándar. Veamos el resultado:

A partir de la media vemos que el índice de la tasa de cambio real es mayor para México y Venezuela cuyos valores medios son 131.60 y 121.48 respectivamente, también son estos los que presentan mayor variabilidad con desviaciones estándar respectivas de 31.43 y 34.44, notemos que el tamaño de la media no en todos los casos aumentó proporcionalmente a la desviación estándar. Para el caso de Venezuela y México vemos que el índice de tasa de cambio para Venezuela es menor al de México pero la desviación estándar del mismo es mayor. Para Brasil y Ecuador se dan los menores promedios de índice de tasa de cambio, sin embargo las menores variabilidades se dan para los índices correspondientes a Chile y Perú, lo anterior nos evidencia que la media no nos puede afirmar nada acerca de la dispersión de los datos si no se acompaña de la desviación estándar o de la varianza. Otro aspecto a notar es que la desviación típica y el coeficiente de variación tienden a variar en el mismo sentido, sin embargo, a pesar que estamos comparando conjuntos de datos con tamaños iguales y con tipos de unidades iguales, vemos que por ejemplo al comparar las medidas de dispersión para Argentina y Bolivia tenemos que para los índices de tasa de cambio referentes a cada país, la desviación típica en el caso de

141

5

Dispersión y Asimetría

Argentina es menor que la correspondiente a Bolivia, sin embargo al evaluar el coeficiente de variación estándar encontramos que es relativamente mas disperso el conjunto de índices para Argentina que para Bolivia. Finalmente, vemos que si quisiéramos escoger para establecer actividades comerciales los países con los que la tasa de cambio permanezca más homogénea, entonces escogeríamos en orden a Chile, Perú, Bolivia y Argentina. 2. Con la información de la distribución de frecuencia que hemos usado en las unidades anteriores que se refiere a la estatura de un grupo de deportistas, evaluar la fiabilidad del teorema de Tchebisheff cuando afirma que por lo menos el 75% de las observaciones se encuentran entre 2 desviaciones estándar de la media. Ya se había calculado la media para la distribución que es 146.32, y la desviación estándar que corresponde a 7.37, entonces debemos mostrar que dentro del intervalo [146.32 – 2(7.37), 146.32 + 2(7.37)] = [131.58, 161.06] están el 75% o más observaciones. El resultado se nota sin necesidad de hallar el porcentaje total de datos incluidos en este intervalo. Veamos que dentro de dicho intervalo se ubican íntegramente cinco intervalos de clase y fracción de otros dos. Contando solamente las observaciones contenidas en los intervalos que están completos tenemos 98 (veamos los intervalos sombreados en la tabla siguiente) que corresponden ya al 90.74% de los datos. Como 90.74%¦75% vemos reafirmada la certeza del teorema de Tchebicheff.

Como es una distribución poco dispersa el teorema se hace mas cierto.

142

Estadistica 1 3.

Con la información del ejercicio anterior, encuentre el sesgo de la distribución.

Usemos el coeficiente de Pearson, La distribución es simétrica, podría decirse que no tiene sesgo o que su sesgo hacia la derecha es casi despreciable. 4. Determine cual medida de dispersión se puede aplicar al siguiente enunciado y calcúlela: “El precio interno del café presentó múltiples variaciones durante al año pasado, según información proporcionada por la Federación de Cafeteros el precio cambió en 23 oportunidades, el precio más alto registrado fue de $450.300 y el más bajo de $325.450 por carga” Con la información disponible sólo podemos hallar el rango, sin embargo no sabemos nada si esa variabilidad se vio afectada por un valor extremo, ni por cuanto tiempo se mantuvo cada uno, ni cuanto café se negoció a cada precio. El rango entonces fue de 450.300 – 325.450 = 124.850, como vemos una medida burda pero muy sencilla de calcular.

143

5

Dispersión y Asimetría

BIBLIOGRAFÍA

FERNÁNDEZ, Felipe; MONROY, Olga L.; RODRÍGUEZ, Liliana. Diseño, desarrollo y evaluación de situaciones problemáticas en estadística. Universidad de los Andes: una Empresa Docente. Bogotá D.C., 1998. HOEL, Paul G. Y JESSEN, Raymond J. Estadística Básica para Negocios y Economía. Compañía Editorial Continental S.A. 2da Edición. México, 1985. LEVIN, Richard I.; RUBIN, David S. Estadística Para Administradores, Editorial PRENTICE HALL, Sexta Edición., 1996 MENDENHALL, William. Estadística para Administradores. Traducido por Dirk Valckx Verbeeck. Grupo Editorial Iberoamérica. México, 1990. PORTUS GOVINDEN, Lincoyan. Curso Práctico de Estadística. Editorial Mc Graw Hill. Bogotá D.C., 1985. SPIEGEL, Murray R. Estadística. Traducido por Rafael Hernández Heredero. Editorial Mc Graw Hill. 2da Edición. Madrid, 1998.

144

Estadistica 1

Unidad 6 Probabilidad

145

6

146

Probabilidad

Estadistica 1 OBJETIVOS

*

Comprender y aplicar las reglas de la probabilidad de eventos. Usar adecuadamente las técnicas de conteo y análisis combinatorio.

INTRODUCCIÓN El reconocimiento del papel que juega el azar en todos los eventos cotidianos, hace parte de los cambios paradigmáticos que estamos viviendo. En física moderna se ha visto como cuando un haz de partículas pasa a través de una rendija sufre un proceso de difracción como si se tratare de una onda, haciendo que las partículas se desvíen en cantidades que no corresponden al parecer a ninguna regla (ello puede ser parte de las limitaciones que tenemos para tomar medidas en ese ámbito sin alterar el fenómeno, o puede ser simplemente producto del azar). La probabilidad intenta delimitar ese azar, en busca de no tanto medirlo con exactitud, sino de determinar la tendencia significativa que pueda presentar. La probabilidad se hace más útil en la actualidad dada la acogida que han tenido los métodos de la planificación prospectiva como el Delphi y su matriz de impactos cruzados. Se recomienda el estudio del capítulo en forma autónoma para luego en la sesión presencial abordar la revisión de los ejercicios resueltos y el despeje de dudas surgidas en el estudio del capítulo, posteriormente el desarrollo de ejercicios propuestos nuevamente de forma autónoma. Sin embargo, dependiendo de la dinámica del curso, el profesor podrá tomar otras estrategias para abordar este capítulo. Aunque la probabilidad tiene aplicabilidad en todos los espacios de la administración pública, la comprensión del tema se hace mucho más fácil de comprender si se aplica a situaciones no prácticas, tales como las que se presentan en ciertos juegos de azar, luego de ello si se podrán llevar estos conceptos a situaciones prácticas de nuestro campo de estudio. Por esta razón, las definiciones y las reglas de probabilidad se presentan en el contexto de modelos o problemas idealizados, pero se supone que las mismas reglas se podrán aplicar luego a situaciones de la vida real y en especial concernientes a lo que tiene que ver con el Estado.

147

6

148

Probabilidad

Estadistica 1 Azar y desconocimiento. El azar está relacionado con el desconocimiento. Un ejemplo nos puede ayudar; piense en un proceso industrial que produce grandes cantidades de un artículo determinado. No todos los artículos producidos son idénticos, cada artículo puede calificarse como “bueno’’ o “defectuoso’’. Si de toda la producción se escoge un artículo “a ciegas’’, ese artículo puede resultar bueno o defectuoso. Esta es una situación azarosa (o aleatoria) y la parte esencial de este azar es que no sabemos si el artículo seleccionado es defectuoso. Claro que con experiencia en el proceso es posible cuantificar de una manera numérica qué tan factible es que el artículo sea defectuoso o nó. Azar e incertidumbre. Hay otro concepto asociado al azar y es el de incertidumbre. Veamos un ejemplo. Respecto a una inversión, podemos estar contemplando invertir una cantidad de dinero. El retorno sobre la inversión puede ser fijo, como en el caso de una cuenta en un banco con interés fijo; pero pensemos en una empresa. El negocio puede resultar desde un gran éxito hasta un fracaso, es decir, la ganancia no es fija, sino que depende del éxito a obtener. Si no podemos evaluar qué tan factible es cada monto posible de la ganancia, tenemos una situación de incertidumbre. Por el contrario, si podemos tener una idea de qué tan probables son los diferentes resultados y entonces tendremos una situación de riesgo. Esta última es la que llamamos aleatoria o azarosa.

Hay experimentos que pueden repetirse o que pueden concebirse como repetitivos. Enumere tres ejemplos de situaciones que se puedan repetir. ¿El lanzar una moneda, leer la temperatura diaria, contar el número de funcionarios que llegan tarde al trabajo, son experimentos que pueden ser repetitivos? ¿Y, evaluar los niveles de solidaridad de las personas frente a catastrofes naturales, puede ser repetitivo? Explique. Un experimento en el que varios conejos están alimentados con diferentes raciones para determinar el crecimiento relativo debido a las propiedades de las raciones, sólo puede realizarse una vez con los mismos animales; sin embargo, el experimento puede considerarse como uno de un ilimitado número de experimentos similares. ¿Puede considerarse entonces como repetitivo?. Justifique su respuesta. La selección de una muestra de una población es un experimento repetitivo y es, naturalmente, el tipo de experimentos de particular interés en la solución de problemas estadísticos.

149

6

Probabilidad

Comencemos con los modelos sencillos, consideremos el experimento básico de lanzar una moneda dos veces, o lo que es lo mismo, lanzar dos monedas distintas simultáneamente una vez. En este experimento hay cuatro posibilidades designadas por: CC, CS, SC, SS; donde CS significa que se obtiene una cara en el primer lanzamiento y un sello en el segundo. Si el experimento consiste en lanzar tres monedas o un a tres veces, serán posibles ocho resultados: CCC, CCS, CSC, CSS, SCC, SCS, SSC, SSS; donde CSC significa sacar una cara en el primer lanzamiento, sello en el segundo y cara en el tercero. Un experimento como la valuación diaria del precio del dólar, sin embargo, tiene un infinito número de resultados posibles, puesto que el precio de una moneda en pesos es una variable de tipo continuo. Sin embargo haremos inicialmente los análisis de experimentos con un número finito de resultados posibles. Al estudiar el papel de la probabilidad dentro de un experimento, primero debemos decidir cuales de los resultados o eventos posibles, son de nuestro interés. Estos se deben definir de manera tal que sean excluyentes, es decir que en un experimento se presente un solo evento como resultado. En el experimento de lanzar tres veces al aire una moneda, lo que interesaba saber era si la moneda mostraba cara o sello en cada uno de los lanzamientos, por lo tanto todos los resultados posibles son los que escribimos anteriormente. Otro juego de azar de gran valor ilustrativo, es el que consiste en extraer una bola de una caja que contenga tres bolas rojas, dos negras y una verde. Aquí el interés está enfocado solamente en el color de la bola extraída y no en que bola salió en particular. Aquí hay tres posibles resultados del experimento correspondientes a tres colores. Analicemos ahora el ejemplo típico del lanzamiento de dos dados de diferente color (es decir que se puede diferenciar uno del otro, en caso contrario deberá lanzarse uno antes de otro) en el que se tiene el interés de saber el número de puntos mostrado en cada uno de ellos, tendremos entonces 36 resultados posibles, por que cada uno tiene seis resultados posibles, y estos resultados pueden combinarse de dos en dos, en todas las formas posibles. Tabla 6.1. Espacio muestral de un par de dados.

150

Estadistica 1 El primer número de cada par denota el número que saldrá en el primer dado y el segundo número representa la cantidad de puntos que salieron en el segundo. El conjunto de eventos que representan los resultados posibles de un experimento se llama espacio muestral. Así también, Cuando se tiene un espacio muestral llamamos, formalmente evento a cualquier subconjunto del espacio muestral. Decimos que un evento se realiza, cuando el resultado del experimento aleatorio es un elemento del evento, ello permite inferir que existen eventos formados por asociaciones de otros. Para el último ejemplo tenemos un espacio muestral de 36 eventos. El siguiente paso en la construcción de un modelo matemático para un experimento es asignarle a los eventos números que representen las frecuencias relativas con que se espera que estos ocurran. Aparte del espacio muestral, en cada experimento aleatorio hay una asignación primaria de probabilidades. Basados en la experiencia o en razonamientos de simetría, a cada elemento del espacio muestral le asignamos una evaluación de qué tan factible es. Esta evaluación se refleja en un porcentaje (número entre 0 y 1). Entre más factible sea el resultado, mayor es el porcentaje que se le asigna. Los casos extremos son:

ro de caras en dos cara y sellos sea menor o igual a 7.8'’, aunque el evento pueda resultar extraño en su definición, siempre sucede y tiene probabilidad igual a 1.

Un evento que no puede suceder (evento nulo), tiene probabilidad cero. Muchas veces estos eventos con probabilidad cero son imposibles por alguna contradicción lógica en su definición. Por ejemplo: “que la suma de dos dados sea nón y los dos dados tengan el mismo número’’. En el otro extremo hay eventos que siempre suceden y estos tienen probabilidad uno (eventos seguros). Por ejemplo: “que el núme-

Si el experimento de lanzar tres veces la moneda el aire se repitiera un gran número de veces y se registrara acumulativamente la proporción de los experimentos que dieran por resultado, por ejemplo, tres caras, podría esperarse una proporción aproximada a 1/8, por que se espera que cada uno de los ocho resultados ocurra con la misma frecuencia. En la práctica, los experimentos de esta clase, por lo general muestran que dichas esperanzas son justificadas, siempre y cuando la moneda

La asignación toma la forma matemática de una función y se llama función de probabilidad. El dominio de esta función es el espacio muestral y su codominio es el intervalo real [0, 1]. Esta función nos da las probabilidades de los eventos simples. Para un evento compuesto, simplemente sumamos las probabilidades de los elementos que lo componen.

151

6

Probabilidad

esté bien balanceada y que además se lance al aire vigorosamente. En virtud de estas consideraciones debe asignarse el número 1/8 a cada uno de los eventos del espacio muestral. En el espacio muestral se llama probabilidad del evento ei al número que se le asigna a tal evento y se representa como P{ei}. Así, en el experimento de lanzar tres monedas al aire, cada uno de los eventos e1, e2, e3, ... e8, posee la probabilidad 1/8. Si el experimento de seleccionar un número dígito de una tabla de números aleatorios, se hallará que cada no de los diez dígitos 0, 1, 2, ...9 aparece aproximadamente con la misma frecuencia relativa, y por consiguiente, que la frecuencia relativa experimental para cada uno de los dígitos tiende a 1/10. Con base en dicho experimento, deberá asignársele la probabilidad de 1/10 a cada uno de los eventos del espacio muestral. El experimento de lanzar dos dados se trata casi de la misma manera que el de lanzamiento de dados. ¿qué probabilidad le corresponde en este caso a cada evento del espacio muestral? La simetría y la experiencia sugieren que a cada punto del espacio de muestreo debe asignársele una probabilidad de 1/36. Para el experimento de sacar bolas de colores, la situación es un poco distinta de las anteriores. ¿Por qué podemos decir esto? ¿se espera en este caso que cada uno de los resultados ocurra con la misma frecuencia relativa? Explique por que. Si las bolas se mezclan bien dentro de la caja antes de cada extracción y además, siempre se vuelve a introducir entre la caja la bola extraída, de tal manera que el contenido de la caja no cambie, puede esperarse obtener una bola negra con el doble de frecuencia que una bola verde y una bola roja con el triple de frecuencia que una bola verde. Esto significa que si se repitiera el experimento un gran número de veces, podía esperarse que las frecuencias relativas para los tres eventos con-

152

? sistentes en sacar colores rojo, negro y verde tendieran a 3/6, 2/6 y 1/6, respectivamente. A partir de los experimentos anteriores evidenciamos la forma general de proceder para asignar probabilidades a cada uno de los eventos del espacio muestral. Si el experimento es de tal naturaleza que la simetría y otras consideraciones similares sugieren qué frecuencias rela-

Estadistica 1 tivas se esperan para los diferentes resultados, entonces se escogen estas como probabilidades para los eventos correspondientes. Estas fueron las bases para la asignación de probabilidades en el experimento del cara y sello, en el de las bolas de colores y en el de los dados. Si no hay consideraciones de simetría aplicables al caso, pero si se encuentran los resultados experimentales, entonces pueden emplearse como probabilidades las frecuencias relativas obtenidas en dicha experiencia. La asignación de probabilidades para los eventos del espacio muestral conformado por la selección aleatoria de dígitos estuvo basada parcialmente en la experiencia y también en forma parcial en la confianza que se tiene en el criterio de quienes hayan construido la tabla de números aleatorios. Hay varios métodos para construir tablas de números aleatorios, siendo algunos de ellos muy complicados. En todas estas tablas debe esperarse que cada dígito aparezca el mismo número de veces y que no existan patrones de secuencia de dígitos. Sin embargo, como a menudo tales conjuntos de dígitos están basados en dispositivos físicos, que se supone producen dígitos que poseen dichas propiedades, no es razonable esperar de un conjunto de tales dígitos que se comporten de esta manera ideal. Todo lo que puede esperarse es una buena aproximación. Invente una regla o truco para generar números de una cifra, de tal forma que parezcan lo más aleatorios posibles, que cada uno de los dígitos tenga la misma probabilidad de salir generado y que no se presente ningún patrón de secuencia. Que fundamento tiene la fe del apostador de chance en coger “la muela” (es decir el número terminado en el dígito que lleva más tiempo sin salir en dicha posición). Verifique si se cumple tal situación con los números con que terminaron las loterías de la última semana e improvise una conclusión. Lance una moneda que no esté deforme, veinticinco veces y contabilice los resultados. Láncela nuevamente 5 veces. ¿Tendieron los resultados de estos últimos intentos a compensar el evento que tuvo menos ocurrencia en los primeros 25 intentos? Repita el experimento tres veces o más si tiene dudas y escriba una frase concluyente al respecto. En un juego de cara y sello se obtuvieron 6 caras consecutivas, el jugador que va perdiendo apuesta nuevamente al sello por que considera que este ahora tiene más probabilidad de salir. ¿Es el azar un proceso autocorrectivo? ¿Qué validez tiene el razonamiento del jugador que aspira a recuperarse en el juego?

153

6

Probabilidad

Como las probabilidades asignadas a los eventos (los eventos equivalen a puntos en términos geométricos dentro de un espacio de muestreo) son las frecuencias relativas esperadas con base en consideraciones de simetría, o bien las frecuencias relativas de una larga serie de experimentos prácticos, las probabilidades deben ser números comprendidos entre 0 y 1 y la suma de todas ellas debe ser 1, porque la suma de un conjunto completo de frecuencias relativas siempre es uno. En los experimentos relativos a lanzar monedas al aire, extraer de una urna bolas de colores, o lanzar dados, obviamente las probabilidades deben sumar uno, puesto que se construyeron para que así fuera. Si las probabilidades para el experimento de los números aleatorios se hubieran basado totalmente en las frecuencias relativas obtenidas en una larga serie de experimentos, entonces esas probabilidades sumarán uno. Ahora bien, en toda situación experimental, ya sea académica o real, es privilegio del estadígrafo el asignar las probabilidades que él desee a los posibles resultados del experimento, siempre y cuando sean números entre cero y uno y, además, la suma total de ellos sea uno. Al asignar estos números, se guiará por la naturaleza de la situación y por su conocimiento de ella. Generalmente, es muy sencillo asignar probabilidades satisfactorias a los resultados posibles de los juegos de azar; sin embargo, éste no es el caso para la mayoría de los fenómenos que pueden estudiarse en la vida real. Por ejemplo, si el experimento consiste en seleccionar un individuo al azar de entre la población de una ciudad y el interés está enfocado en saber si el individuo morirá o no durante el siguiente año, entonces la única forma satisfactoria de asignar probabilidades aquí es aplicando la experiencia de las compañías aseguradoras. Si uno estuviera interesado en determinar correctamente las primas de seguros, sería necesario asignar las probabilidades de muerte para cada una de las edades. Generalmente estas probabilidades se toman iguales a los valores que proporciona la experiencia, muy amplia, de las compañías aseguradoras a través de

154

los años. Como las tasas de mortalidad han ido decreciendo a medida que transcurren los años, para casi todos los grupos de edades, toda tabla de mortalidad con base en la experiencia del pasado resultará obsoleta para predecir el futuro. Así pues, las probabilidades que se asignan con base en experiencias del pasado pueden no aproximarse mucho a las verdaderas frecuencias relativas existentes actualmente y, en consecuencia, las primas calculadas a partir de ellas no son muy exactas. Afortunadamente para las compañías de seguros, las primas calculadas con base en experiencias del pasado siempre son mayores que las que podrían obtenerse a partir de datos más recientes. En muchas situaciones de la administración pública existe muy poca experiencia sobre la cual se pueda basar la determinación de probabilidades. Aun para el tipo de

Estadistica 1 matemático basado en un conjunto de probabilidades dependerá, por cierto, del realismo con que se asignen dichas probabilidades. El papel principal del estadístico es usar las probabilidades dadas para calcular las probabilidades de diferentes acciones consideradas, y contribuir a la interpretación de esas probabilidades. El gerente público que provee las probabilidades iniciales debe tomar la decisión final, basado en las probabilidades calculadas de las diferentes acciones posibles y en su confianza en la exactitud de sus juicios de probabilidad originales.

situación que se presenta frecuentemente, la experiencia pasada puede no estar al día, como en el caso de las tasas de seguros que debe cobrar una aseguradora como la Previsora (empresa comercial del Estado). Para situaciones nuevas en los negocios puede no existir experiencia comparable que sirva de ayuda en la selección de las probabilidades. Cuando se presente cualquiera de estas dos situaciones, la asignación se fundará en el criterio del hombre de negocios, respecto de los diferentes posibles resultados por ocurrir. Una vez que estas probabilidades han sido asignadas, pueden tratarse matemáticamente como probabilidades verdaderas de la misma manera que las probabilidades que son asignadas por el uso de la simetría y de la experiencia para juegos de azar. La confiabilidad de un modelo

De acuerdo con la discusión anterior, concluimos que la probabilidad de un evento simple se interpreta como la frecuencia relativa teórica o ideal del evento o como la medida que da un individuo de su esperanza en la ocurrencia del evento. Esto no implica de modo necesario que la frecuencia relativa observada en la ocurrencia del evento tienda a su probabilidad para un número suficientemente grande de experimentos, ya que puede no haberse escogido en forma correcta el modelo; sin embargo, se espera que sea así. En esta forma, si suponemos que se tiene un dado homogéneo, podemos esperar que la frecuencia relativa observada de, digamos, que aparezca un 4, muestre tendencia hacia la probabilidad 1/6 a medida que se hace un mayor número de tiradas del dado; sin embargo, no debe uno preocuparse demasiado si no tiende a 1/6, debido a las imperfecciones en cualquier artículo manufacturado y debido a la dificultad de simular un experimento ideal. En este sentido, debe notarse que los operadores de casas de juego han tenido éxito financiero suponiendo que los dados se comportan tal como se espera. Es indudable que ellos han lanzado los dados un número de veces bastante alto para comprobar tales suposiciones. Desde luego que si la experiencia muestra que un dado no se comporta en la forma esperada, rápidamente se sustituye por otro. La construcción de modelos teóricos para explicar la naturaleza es la principal función de los hombres de ciencia. Si los modelos son realistas, las conclusiones derivadas de ellos serán probablemente rea-

155

6

Probabilidad

listas también. Es relativamente sencillo construir un modelo de probabilidad para juegos de azar, pero es más difícil construirlo para situaciones del ámbito de la administración pública donde existe muy poca experiencia sobre la cual fundar el modelo. La confiabilidad de un modelo de probabilidad para la gerencia pública dependerá obviamente de la cantidad de conocimiento que se tenga de la situación en cuestión. Evento Compuesto. Los resultados posibles de un espacio muestral se llaman eventos simples. Una colección de varios eventos simples es un evento compuesto. Por ejemplo el evento A de obtener exactamente dos caras en el experimento de lanzar tres monedas al aire es un evento compuesto formado por tres eventos simples que hacen parte de los ocho eventos del espacio muestral E. La probabilidad de que el evento compuesto ocurra es la suma de las probabilidades de los eventos simples de los cuales está compuesto. Veamos el ejemplo: E = {e1=CCC, e2=CCS, e3=CSC, e4=CSS, e5=SCC, e6=SCS, e7=SSC, e8=SSS} Evento compuesto A = {e2=CCS, e3=CSC, e5=SCC} Como cada evento simple tiene una probabilidad de ocurrencia de 1/8 entonces la probabilidad del evento compuesto A será de 3/8. P{A} = P(e2)+P(e3)+P(e5) = 1/8+1/8+1/8 = 3/8 Otro ejemplo, para el evento compuesto de obtener un dígito al azar menor que 4 en el experimento de números aleatorios, tenemos que está compuesto de cuatro eventos simples: 0, 1, 2, 3. Así la probabilidad del evento compuesto que podemos llamar B será: P{B} = P{0}+P{1}+P{2}+P{3} = 4/10 = 2/5 Ahora, para el evento compuesto de obtener una bola bien sea verde o roja, al extraer una de una urna que contiene tres rojas, dos negras y una verde. Represente el conjunto o espacio muestral de eventos posibles y luego halle la probabilidad del evento compuesto.

156

Estadistica 1 En muchos experimentos de juegos de azar, se espera que los diferentes resultados posibles ocurran con la misma frecuencia relativa; por consiguiente, a todos los puntos del espacio de muestreo para tales experimentos se les asigna Ia misma probabilidad, esto es, 1/n, donde n representa el número total de puntos en el espacio de muestreo. Esto es válido, por ejemplo, en los experimentos de lanzar monedas al aire, de seleccionar dígitos al azar y de tirar dados. En cambio, no es válido para el experimento de las bolas de colores. Cuando el experimento es de tipo sencillo, esto es, cuando todas las probabilidades de los eventos simples son iguales, resulta muy fácil calcular la probabilidad del evento compuesto. Para esto basta solamente sumar las probabilidades 1/n tantas veces como eventos simples comprenda el evento compuesto. Así, si el evento compuesto A, consta de un total de n(A) eventos simples, el valor de P(A ) puede expresarse mediante la fórmula simple.

{ }= n

n

Aun cuando no siempre es posible emplear esta fórmula en los problemas de la vida real, sí es más sencillo trabajar con ella en vez de hacerlo con la definición general que involucra la adición de probabilidades de cada evento simple; por esta razón la emplearemos en esta unidad para obtener fórmulas básicas. Puede demostrarse que las fórmulas así obtenidas son perfectamente válidas también para la definición general y, por consiguiente, son aplicables a todo tipo de problemas. Eventos derivados. Como los eventos son subconjuntos del espacio muestral, todas las operaciones con conjuntos se pueden llevar a cabo entre los eventos. Veamos algunos ejemplos de interpretación de algunas operaciones de conjuntos. Evento complementario. El complemento A’, de un conjunto A es la colección de los puntos que no están en el conjunto A. De aquí se deduce, después de un poco de reflexión, (reflexiónelo Ud.), que cuando no se realiza el evento A entonces se realiza el evento A’.

157

6

Probabilidad

Por eso es natural llamar al complemento del evento A el evento “no A’’. Por ejemplo si al tirar un dado balanceado A es el evento que el resultado sea menor que 3, entonces A = { 1, 2 } y A’ = { 3, 4, 5, 6 }. Desde el punto de vista de las probabilidades P(A’) = 1 - P(A). En el ejemplo, que acabamos de ver, del dado: P( 11, (c) x < 9, d) x < 9.5, (e) 9 < x < 12. 2. Una manera para obtener predicciones económicas es utilizar un enfoque de consenso. Se obtiene una predicción de cada uno de un gran número de analistas; el promedio de estos pronósticos es la predicción de consenso. Supóngase que las predicciones individuales acerca de la tasa principal de interés en enero de 1985 de todos los analistas económicos, tienen una distribución aproximadamente normal, con una media de 14% y una desviación estándar de 2.6%. Se selecciona al azar un solo analista de ese grupo. A) ¿Cuál es la probabilidad de que la tasa principal de este analista sea mayor que el 18%?. B) ¿Cuál es la probabilidad de que la predicción de la tasa principal de interés sea menor de 16%? 3. Suponiendo que la estatura (x) de varones en un colegio se encuentra distribuida normalmente con una media de 1.75 m y desviación estándar de 7.6 cm, usar la tabla del anexo 3, para calcular la probabilidad de que (a) x < 1.65 m, (b) 1.65 m < x < 1.75 m. 4. Suponiendo que su calificación en un examen en unidades estándar (z) es 0.8 y que las calificaciones están distribuidas normalmente, ¿qué porcentaje de estudiantes se espera que tendrán una calificación más alta que usted? 5. Suponga que tiene que establecer la restricción del máximo número de personas que pueden subir a un ascensor. Un estudio del uso de elevadores indica que si 8 personas ocupan el ascensor, la distribución de probabilidad del peso total de las 8 personas tiene una media igual a 1200 libras y una varianza igual a 9800 libras2. ¿Cuál es la probabilidad de que el peso total de ocho personas exceda de 1300 libras?¿1500 libras? 6. El coeficiente de inteligencia (CI) está casi normalmente distribuido con una media de 100 y una desviación estándar de 16. ¿Cuál es la probabilidad de que un individuo seleccionado al azar tenga un CI (a) menor que 80, (b) mayor que 140, (c) entre 95 y 105? d) ¿Qué valores centrales incluirán aproximadamente al 50% de los individuos? 7. La contraloría General de la República, decide el porcentaje de contratos u operaciones que debe investigar por entidad vigilada. Supóngase que lo hace seleccionando al azar 50 casos de una distribución normal con una

219

7

Introducción a las Distribuciones de Probabilidad

media de 1.55% de documentos por entidad y una desviación estándar de 0.45%. ¿Cuál es la probabilidad de que en un departamento en particular se revisen más del 2.5% de los contratos? ¿Cuál es la probabilidad de que en un departamento en particular se revisen menos del 1% de los contratos? 8. Un procesador de alimento afirma en las etiquetas de su producto que el peso neto es al menos de 16 onzas. La máquina que Ilena las latas no puede medir exactamente y se encontró que en un Ilenado la desviación estándar fue de 0.2 onzas. Si el procesador fija un aumento del 3% sobre la cantidad garantizada, ¿qué fracción de su producción no está de acuerdo con su afirmación? Suponga que las cantidades de alimento se distribuyen normalmente alrededor del valor aumentado. 9. Problemas con el nuevo sistema computarizado de una compañía telefónica, ocasionaron un enorme retraso en el proceso de recepción, solución y respuesta a reclamos de los clientes. Desde hace 10 meses que se implementó el cambio tecnológico, el 53% de las peticiones no han sido contestadas 45 días después de haberlas recibido, generándose también una alta tasa de silencios administrativos. Supóngase que la distribución del tiempo requerido por el departamento de peticiones quejas y recursos de esta compañía está distribuido normalmente con una desviación estándar de 10 días. ¿Calcule el tiempo promedio para contestar una petición? ¿Determine la probabilidad de que el tiempo necesario para contestar una petición sea de 60 días o más? (Suponer que es legalmente viable) 10. Un profesor de gimnasia de secundaria anuncia que califica los eventos atléticos individuales por resultados relativos a todas sus clases. Si da 20% de A’s y si la experiencia ha demostrado que el promedio es de 1.42 m y que la desviación estándar es de 10 cm para el salto de altura, ¿qué tan alto debe prepararse a saltar un estudiante si pretende obtener A? 11. Sea x el peso, en libras de un salmón rey atrapado en la desembocadura de un río y supóngase que x posee una distribución normal con media 30 y desviación estándar 6. Calcular la probabilidad de que si un pescador atrapa un salmón rey su peso sea de (a) al menos 41 libras (b) entre 20 y 40 libras inclusive. 12. Si un conjunto de mediciones se encuentra normalmente distribuido, qué porcentaje de las mediciones diferirán de la media (a) por más de una desviación estándar (b) por menos de tres cuartos de una desviación estándar?

220

Estadistica 1 13. Suponer que el tamaño (diámetro) de la cabeza de un hombre está aproximadamente distribuido en forma normal con media de 7 pulgadas y desviación estándar de 1 pulgada. Supongamos que usted administra una tienda de sombreros al menudeo y almacenará los sombreros en proporción al tamaño probable de la cabeza de los clientes, aproximadamente, ¿qué porcentaje de sus clientes tendrán entre 8 y 9 pulgadas de diámetro craneal? 14. Se dijo que de mil jóvenes de 13 años de edad, 390 tienen estaturas que distan menos de 1.4 pulgadas de la estatura media, que es 57.3 pulgadas. Hallar el valor de Q, aquí, sobre la hipótesis de distribución normal de estaturas. 15. El tiempo de espera que las personas esperan en la fila de cierta entidad pública, tiene una distribución normal con media de 16 minutos y desviación estándar de dos minutos. Encuentre el porcentaje de personas que esperan mas de 12 minutos. 16. El ingreso promedio anual de las mujeres adultas en Cúcuta es de $385.200 con una desviación estándar de $56.000. Se toma una muestra aleatoria de 100 mujeres de Cúcuta y se obtiene el ingreso promedio. Encuentre la probabilidad de que el ingreso promedio de esa muestra sea mayor de $2393.000. 17. Plantee 3 problemas relacionados con la carrera y que toquen los temas más relevantes de esta unidad y resuélvalos. (Se seleccionarán los tres mejores del curso.) 18. Use el paquete estadístico que este disponible en la universidad o al que usted tenga acceso (si usa el EVIEWS puede apoyarse en la referencia rápida del anexo 2) y desarrolle los ejercicios en este y verifique sus respuestas. Verifique también las respuestas de los ejercicios resueltos de esta unidad.

221

7

Introducción a las Distribuciones de Probabilidad

EJERCICIOS RESUELTOS 1. Obtenga P(0 ≤ z ≤1.63). (entiéndase como la probabilidad de encontrar un valor entre o desviaciones estándar y 1.63 desviaciones estándar) Esta probabilidad corresponde al área entre la media (z=0) y un punto z=1.63 desviaciones estándar a la derecha de la media. Solución. El área es la sombreada en la figura. Ya que la tabla del anexo 3 nos indica las áreas bajo la curva normal a la derecha de la media, solamente necesitamos encontrar el valor tabulado correspondiente a z=1.63. Se baja por la columna de la izquierda de la tabla hasta el renglón correspondiente a z=1.6 y se va luego por el renglón superior hasta la columna marcada con 0.03. La intersección de esta combinación de renglón y columna da el área de A=0.4484. 2. Calcular P(-0.5 ≤ z ≤ 1.0). Esta probabilidad corresponde al área entre z=-0.5 y z=1.0. Solución. El área requerida es igual a la suma de A1 y A2, mostrada en la figura. De la tabla del anexo 3 obtenemos A2 = 0.3413. El área A1 es igual al área correspondiente entre z = 0 y z = 0.5, o bien A1 = 0.1915. Por lo tanto el área total es A1 + A2 = 0.1915 + 0.3413 = 0.5328 3. El diámetro medio del interior de una muestra de 200 tubos producidos por una máquina es 0.502 pulgadas y la desviación típica es 0.0005 pulgadas. El uso de los tubos permitirá una tolerancia en el díametro de 0.496 a 0.508 pulgadas; de otro modo, se considerarán defectuosos. Determinar el porcentaje de tubos defectuosos, supuesto que los tubos producidos por esa máquina están normalmente distribuidos.

222

Estadistica 1 Solución. En unidades estándar, Proporción de tubos defectuosos = (área bajo la curva normal entre z = -1.2 y z = 1.2) =(doble del área entre z = 0 y z = 1.2) = 2 (0.3849) = 0.7698 ≈ 77% Luego el porcentaje de tubos defectuosos es 100% - 77% = 23%. 4. Hallar los valores de z, por ejemplo zo, tales que exactamente (hasta cuatro cifras decimales) 0.95 del área quede dentro de ± zo desviaciones estándar de la media. Solución. La mitad del área de 0.95 se encontrará a la izquierda de la medida y la otra mitad a la derecha, por que la distribución normal es simétrica. Por lo tanto, se desea encontrar el valor zo que corresponde a un área igual a 0.475 (la sombreada). Al referirnos a la tabla del anexo 3 se ve que el área 0.475 está en el renglón correspondiente a z = 1.9 y en la columna 0.06. Por lo tanto zo = 1.96. Nótese que el resultado está muy cerca del valor aproximado z = 2, que se utiliza en la regla empírica. 5. Sea x una variable aleatoria distribuida normalmente, con una media igual a 10 y una desviación estándar igual a 2. Encuentre la probabilidad de que x esté entre 11 y 13.6. Solución. Como primer paso, tenemos que calcular los valores de z, correspondientes a x = 11 y x = 13.6. Por lo tanto,

Estos valores de z se localizan bajo la curva normal como se muestra en la figura. La probabilidad deseada, P, es, por consiguiente el área entre estos dos valores de z, z1=0.5 y z2=1.80. Las áreas entre z=0 y z1, A1=0.1915, y entre

223

7

Introducción a las Distribuciones de Probabilidad

z=0 y z2, A2=0.4641, valores que se han obtenido de la tabla del anexo 3. La probabilidad P es igual a la diferencia entre las dos áreas A1 y A2; es decir, P = A2 – A1 = 0.4641 – 0.1915 = 0.2726 6. Ciertos estudios muestran que el rendimiento de la gasolina para automóviles pequeños (de gama baja) en Estados Unidos, tiene una distribución normal, con un rendimiento medio de 30.5 millas por galón y una desviación estándar de 4.5 millas por galón. Si un fabricante desea diseñar un auto de gama baja más económico que el 95% de los automóviles compactos vendidos en Estados Unidos, ¿Cuál debe ser el rendimiento mínimo del auto nuevo? Solución. Sea x una variable aleatoria distribuida normalmente con una media de 30.5 y una desviación estándar de 4.5. Se desea encontrar el valor xo, tal que P(x
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF