1 Estadstica General Procesamiento de Datos

January 23, 2017 | Author: Epi Zmaragdis | Category: N/A
Share Embed Donate


Short Description

Download 1 Estadstica General Procesamiento de Datos...

Description

ESTADÍSTICA GENERAL Apuntes del curso Ing. Sergio Aníbal Dopazo

2016

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

ESTADÍSTICA DESCRIPTIVA La Estadística es un método de descripción numérica de conjuntos numerosos, o sea, un método de descripción cuantitativa que utiliza al dato (numérico o no) como soporte objetivo. No se debe conceder a los datos estadísticos un valor o una precisión que no poseen. Para ser eficaz, la Estadística debe necesariamente simplificar. Cuando se describe una población según un carácter, todos los individuos que presenten la misma modalidad del carácter se consideran equivalentes. Se puede, ciertamente, considerar un número elevado de criterios de diferenciación entre los individuos, pero el costo de recopilación de la información se encuentra rápidamente entorpecido y el análisis complicado. Además, es necesario observar que los datos estadísticos no escapan de la regla general de las medidas, que es la de estar afectadas de error. Además, la Estadística no se ocupa de los casos raros, que, en general, son mal conocidos: la anécdota no pertenece al dominio estadístico. Las permanencias estadísticas no aparecen, en efecto, más que en conjuntos numerosos. Se puede concluir que la Estadística Descriptiva es una técnica de análisis de conjuntos numerosos; la misma se aplica a todos los dominios de investigación cuantitativa: investigación demográfica, económica, agronómica, biológica, industrial... No obstante, los métodos de recolección de información, la crítica de los datos recopilados, y más aún la interpretación de los resultados obtenidos, no son propiamente hablando, competencia de la Estadística Descriptiva. Numerosas críticas hechas a la Estadística se dirigen realmente al dominio en que se le aplica o a la interpretación que ella da a los resultados que expone y no a su método en sí. ¿QUÉ SON LOS DATOS? Para conocer las condiciones reales de algo (elemento, proceso, producto), es necesario medirlo. Para ello se utilizan instrumentos de medición, que pueden ser de distinta naturaleza, según lo que sea necesario medir. Existe la más variada gama de instrumentos, pero todos, a partir de las mediciones que se realizan con ellos, entregan información. Estas mediciones, estadísticas, son los Datos de la Realidad. Para no tener una imagen deformada de la realidad, se deben cumplir las siguientes condiciones: la medición, el registro de los datos y las operaciones realizadas con la interpretación de sus resultados, deben ser correctos. Si ello no ocurriera, tendremos una imagen deformada de la realidad, lo cual nos puede llevar a una acción equivocada. Los datos son los hechos y los números que se reúnen, analizan y resumen para su presentación e interpretación. Al estar reunidos, los datos recopilados se denominan en general conjunto de datos para el estudio. Los datos nos proveen una información que tiene un propósito definido, por eso tanto la forma en que se tomarán los datos como su misma naturaleza, quedan automáticamente determinadas por ese objetivo. Los elementos son las entidades acerca de las cuales se reúnen los datos, y una variable es una característica de interés de los elementos. En definitiva, los datos se obtienen anotando las mediciones de cada variable para cada elemento en el estudio, y al conjunto de mediciones, reunido para determinado elemento se llama observación. Dicha observación procesada de manera conveniente, se convierte en información vital. Las informaciones pueden ser cualitativas, no expresables en escalas numéricas, o cuantitativas, las cuales surgen de datos cuantitativos, expresables en escalas numéricas

Ing. Sergio Aníbal Dopazo

Página 1 de 120

ordenables. Estas informaciones cuantitativas son medibles o numerables, el número que surge es variable con cada modalidad medible y se llama variable estadística. OBJETIVO DE LA RECOLECCIÓN DE DATOS Todos los datos deben estar referidos al problema. En muchas empresas, existe la costumbre de guardarlos "por si llegaran a necesitarse" o con la intención de analizarlos "cuando haya tiempo"; estos datos no sirven, porque no responden al momento en que se va a efectuar la acción correspondiente. Los datos nos proveen una información que tiene un propósito definido, por eso tanto la forma en que se tomarán los datos como su misma naturaleza, quedan automáticamente determinadas por ese objetivo. La Buena Información sirve al Ente Central de todo este trabajo, quien es el que analiza y resuelve los problemas, en definitiva es: El Hombre Que Toma Decisiones (H.Q.T.D.). Para tomar estas decisiones racionales, se debe estar bien informado y para ello se debe remitir al pasado, sabiendo que las mismas influyen en el futuro. Hay que tener en cuenta que la acción se convierte luego en información, continuando el ciclo en la toma de decisiones cotidiana. Hoy, la calidad en la toma de decisiones, exige elegir métodos apropiados. Los métodos pueden ser: Subjetivos u Objetivos. Los subjetivos, dependen de la formación personal y profesional; en cambio los objetivos, dependen del conocimiento científico y de las herramientas existentes. Las acciones pueden ser de distinta naturaleza: corregir un proceso, rechazar o aceptar un lote, parar o no un proceso, realizar una reparación, comprar o no una máquina, etc. TIPOS DE DATOS a)

DATOS DE MEDICIÓN (variables): Son los que responden a una variable continua, en los que se registra el valor leído, seguido por la unidad de medida correspondiente.

b)

DATOS DE CONTEO (atributos): Son los que responden a una variable discreta, un lote no puede contener 2,5 unidades defectuosas.

c)

DATOS DE PONDERACIÓN: Son datos, en los que se asigna un valor a un atributo para cuantificarlo, se suelen aplicar en casos como ser: evaluación de texturas, sabores, grado de confort, etc., y normalmente se usan tomando como base un patrón de comparación.

Además, a los datos, podemos tipificarlos de la siguiente manera: d)

DATOS PARA COMPRENDER LA SITUACIÓN ACTUAL: Son datos que se recogen para tomar conocimiento de cuáles son las características de una determinada situación o población de estudio. La cantidad de datos a recolectar dependerá del nivel de seguridad pretendida en las conclusiones que de ellos obtengamos.

e)

DATOS PARA EL ANÁLISIS CAUSA/EFECTO: Son datos que se obtienen de a pares, para evaluar la relación existente (por ejemplo: entre un defecto y su causa aparente); esto implica realizar pruebas sucesivas hasta encontrar la causa verdadera del problema. Se utilizan herramientas estadísticas.

Página 2 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

f)

DATOS PARA EL CONTROL: Son datos que se toman de manera tal, que brinden una información que permita saber si una situación se encuentra o no en estado de control estadístico. Esto permitirá tomar la acción adecuada para mantenerla bajo control o para volverla a ese estado, según sea el caso.

g)

DATOS DE/PARA LA REGULACIÓN: Son datos que sirven de base para fijar los parámetros de funcionamiento de un sistema o proceso. Las especificaciones finales, estarán basadas en esos datos.

h)

DATOS PARA LA APROBACIÓN o RECHAZO; COMPRA o VENTA: Son datos que permiten tomar la acción de decidir sobre lo que se está evaluando.

ANÁLISIS DE DATOS Antes haremos algunas consideraciones sobre los datos. Para cumplir con los objetivos de la recolección de ellos, los datos deben cumplir ciertos requisitos: •

LOS DATOS DEBEN SER COMPLETOS: Debe registrarse toda la información requerida; un registro parcial no será compatible con el resto de la información y, por lo tanto, deberá ser descartado, lo que equivale a no haberlo tomado, o sea, que es trabajo desperdiciado. Se debe ser muy cuidadoso con los detalles que, en apariencia, no son de importancia (tales como: fecha, hora, número de máquina, orden de los datos, etc.).



LOS DATOS DEBEN SER HOMOGÉNEOS: Todos los datos deben ser tomados en las mismas condiciones, con el mismo instrumental (de igual nivel de calibración). Datos que no son homogéneos con el resto deberán ser descartados, y esto es esfuerzo desperdiciado.



LOS DATOS TIENEN VARIACIÓN: Al tomar una serie de mediciones de una característica dada, nos encontramos con que existen diferencias entre los valores leídos. Estas diferencias son explicadas en la Teoría de la Variación, que define que la variación es una ley natural. No existen en la naturaleza dos elementos exactamente iguales (idénticos). Estas diferencias son el efecto visible de las llamadas causas no asignables (o causas naturales de variación). Dichas causas siguen un patrón o un "Modelo Probabilístico": las leyes del azar. Estas leyes serán definidas por las matemáticas. También los datos pueden ser diferentes como consecuencia de otras causas, las cuales seguirán otras leyes de probabilidad.

El procesamiento de los datos nos provee información simple y vital referida a un único objeto de estudio. Entonces la estadística nos brinda, por medio del análisis, una serie de valores que representan al conjunto estudiado; por ello, es importante definir algunos conceptos fundamentales: VARIABLE:

Es una característica de interés de estudio de los Individuos. Trabajaremos con variables cuantitativas, éstas pueden ser discretas o pueden ser continuas: Variables Estadísticas Discretas: Son aquellas donde sus valores posibles son valores aislados, a saltos, o tienen un incremento fijo. Las mismas surgen del conteo o de la observación directa: la cantidad de hijos de una familia, la cantidad de piezas defectuosas de un lote, el número salido en un dado o en una ruleta, etc. Variables Estadísticas Continuas: Son aquellas donde sus valores posibles están en un número infinito y a priori, entre dos valores cualesquiera, existen infinidad de ellos.

Ing. Sergio Aníbal Dopazo

Página 3 de 120

Las mismas surgen de la medición o de su naturaleza intrínseca: el salario de un empleado, el beneficio anual de una empresa, la edad de una persona, el peso de un cuerpo, y, en general, todas las magnitudes. Para estudiar a estas variables se deben definir clases de agrupamiento, que pueden tener una amplitud constante o variable. Se debe aclarar, que la distinción entre variable estadística discreta y continua es, a veces, arbitraria. En realidad, toda medida es discreta, debido a una precisión limitada. Por ejemplo si se miden los diámetros de piezas mecánicas con una aproximación de centésima de milímetro (13,63 mm) esto significa que su diámetro está comprendido entre 13,625 mm y 13,635 mm; si se afirma que el diámetro es una variable continua, se debe a su naturaleza intrínseca, independientemente de la medida y de la noción de diámetro. Se puede convenir que una medida o una magnitud, que pueda tomar un gran número de valores posibles (aunque sean aislados), se representa por un intervalo de valores; por lo tanto será considerada como una variable continua. Como ejemplos particulares tenemos: los salarios de los empleados y los beneficios de una empresa. Para estudiar una variable estadística continua, se deben definir las clases o grupos de valores posibles, la amplitud de cada clase puede ser constante o variable. También, a las variables, se las puede clasificar en: dicotómicas (las cuales tienen dos posibles resultados) o no. INDIVIDUO:

Es la mínima parte de la Población que posee la característica objeto de estudio.

POBLACIÓN: Es el conjunto de todos los Individuos que poseen la característica a estudiar. También se la llama UNIVERSO. Los valores característicos distintivos de una población reciben el nombre de parámetros poblacionales o, simplemente, parámetros. Por su naturaleza, las poblaciones pueden ser discretas (unidades que se pueden separar entre sí) o continuas (no pueden separarse en unidades reales). Además, por su tamaño, las poblaciones se clasifican en finitas (de tamaño pequeño) e infinitas (de tamaño muy grande); sabemos que, en la práctica, el infinito no existe. LOTES:

Son particiones de una población infinita que, se supone, conservan los mismos parámetros.

Debemos aclarar que, casi siempre, en la práctica estos parámetros son desconocidos, ya que no se tienen todos los datos. Esto se debe a muchas causas: tiempo, costo, etc.; y, a veces, se nos hace difícil o imposible conocer a todos los individuos. Es, por eso, que la estadística usa muestras y por medio de ciertas metodologías permite Inferir sobre la población objeto de estudio. MUESTRAS: Es una porción de la población que se extrae para estudiarla. Los valores característicos distintivos de una muestra reciben el nombre de estadísticos o estimadores muestrales o simplemente estimadores. Estos se utilizan para estimar o inferir los parámetros de la población objeto de estudio.

Página 4 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

PROCESO ESTADÍSTICO DESCRIPTIVO DE LOS DATOS VALORES CARACTERÍSTICOS DE TENDENCIA (O POSICIONAMIENTO) CENTRAL: Por convención: los parámetros (valores característicos distintivos poblacionales) se identificarán con letras del alfabeto griego; en cambio, los estimadores (valores característicos distintivos muestrales) se identificarán con letras de nuestro alfabeto. Al tamaño de la población la indicaremos con “N” y al de la muestra con “n”. 

MEDIA (o Promedio): Es el promedio Aritmético (o sea, la suma de todos los valores observados dividido por el total de observaciones). Es un concepto matemático de equilibrio (baricentro o centro de gravedad) en donde todos los datos se encuentran en equilibrio matemático respecto de él. Hay otros promedios: como el Armónico (se utiliza para promediar razones; que indica la relación entre dos tipos diferentes de unidades de medida que pueden ser expresadas recíprocamente: Km/h., etc.; en dónde el numerador permanece constante y el denominador es lo que varia). También tenemos al Geométrico (se utiliza para promediar tasas de cambio, valores porcentuales como el interés mensual, etc.).



MEDIANA (o Valor Mediano): Es el valor de la variable que divide en dos efectivos iguales a los individuos observados ordenados por valor creciente del carácter (la posición que ocupa la mediana corresponde al total de los individuos observados divido 2; o sea, que el 50% son inferiores que ella y el otro 50% son superiores).



MODA (o Modo, o Valor Modal): Es el valor más frecuente de la variable, el valor dominante. Es el que está más repetido dentro de un conjunto observado. El más frecuente dentro de los más frecuentes. Un conjunto observado puede ser unimodal (moda única), puede ser plurimodal (varios valores modales) o puede ser amodal (carente de moda o todos los valores tienen la misma influencia).

VALORES CARACTERÍSTICOS DE DISPERSIÓN: 

DESVÍOS: Son la diferencia entre un valor cualquiera que puede tomar la variable y una característica de tendencia central (las más usadas son la mediana y la media aritmética). Se denominan: desvíos respecto de la mediana y desvíos respecto de la media. Indican la distancia a la que se encuentran los correspondientes valores respecto del valor tomado como referencia (alejamiento en magnitud y dirección). Por la propiedad que tienen los baricentros, la suma de todas las desviaciones con respecto a la media aritmética es igual a “cero”.



DESVÍO MEDIO: Es el promedio de los desvíos respecto de la media aritmética tomados en valor absoluto. Representa el promedio de la distancia de todos los valores respecto del promedio.



VARIANZA (o Variancia): Es el promedio de los desvíos respecto de la media aritmética elevados al cuadrado. Se elevan al cuadrado para que la sumatoria no sea nula. Representa la variabilidad que tienen los datos entre sí, o sea, el área de dispersión de los datos tomando como centro al promedio aritmético. Ésta tiene ciertas propiedades matemáticas, pero es de poca comprensión ya que las unidades de la variable se expresan al cuadrado ($², etc.).



DESVÍO ESTÁNDAR (o Standard, o típico): Es la raíz cuadrada de la varianza. Vuelve a llevar las unidades de la variable a su expresión original. Representa la variabilidad de los datos en promedio respecto de la media aritmética (o sea, el mismo concepto del desvío medio).

Ing. Sergio Aníbal Dopazo

Página 5 de 120



CUASIVARIANZA: Es una corrección que se le efectúa a la varianza, en vez de promediar a los desvíos cuadrados dividiendo por el total de datos, se divide por el total de datos menos uno. Se calcula cuando los datos provienen de una muestra extraída de manera aleatoria y, así poder estimar a la varianza de la población de donde proviene dicha muestra.



CUASI DESVÍO ESTÁNDAR: Es la raíz cuadrada de la cuasivarianza. Se calcula para estimar al desvío estándar de la población.



COEFICIENTE DE VARIACIÓN (o Dispersión Relativa): Es la relación que existe entre el desvío estándar y el promedio aritmético, multiplicado por 100. Indica en forma porcentual si la media aritmética es representativa del conjunto de valores característicos. Si se encuentra por debajo del 5%, diremos que el promedio aritmético es representativo de los datos; si está por encima del 5% y por debajo del 20%, diremos que sólo el promedio no basta para representar a los datos; en cambio si se encuentra por encima del 20%, los datos están tan dispersos que conviene fraccionar a la observación.



RANGO: Es la diferencia entre el valor máximo y el valor mínimo de un conjunto observado.

OTROS TIPOS DE VALORES: 

FRACTILES: Son valores que representan a una fracción del conjunto observado. Se usan cuando los anteriores valores característicos no representan al conjunto observado (o cuando el conjunto observado es muy disperso). Su cálculo es muy parecido al de la mediana. Los más conocidos o usados son: los cuartiles (que dividen en 4 partes al conjunto observado), los deciles (que lo dividen en 10 partes) y los percentiles (que dividen al conjunto observado en 100 partes). Cabe aclarar que al conjunto se lo puede dividir en partes no iguales (por ejemplo: 80/20 %, 70/30 %, etc.).

CARACTERÍSTICAS DE FORMA: 

COEFICIENTE DE ASIMETRÍA: Indica si la distribución de los valores del conjunto observado es simétrica o asimétrica. En el caso de distribuciones simétricas, los tres valores de tendencia central (la media, la mediana y la moda), coinciden; quiere decir que la distribución de los valores a un lado u otro del centro son iguales. En el caso de las asimétricas, los tres valores se alejan. Si es así, la distribución de los valores puede tener sesgo positivo o negativo. Si es sesgo positivo (asimetría derecha), tenemos Modo < Mediana < Pr omedio ; si es sesgo negativo (asimetría izquierda), tenemos Pr omedio < Mediana < Modo . Hay varias formas de calcular este coeficiente.



COEFICIENTE DE APLASTAMIENTO O DE AGUDEZA (o Kurtosis): Indica si la distribución de valores está o no concentrada alrededor de la moda. Además indica cuán aguda o aplastada es la distribución de los valores del conjunto observado. Hay varias formas de calcularlo.

A continuación veremos el cálculo de los conceptos enunciados para las distintas formas en las que se pueden recopilar los datos:

Página 6 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

PROCESAMIENTO DE DATOS REFERIDOS A VARIABLES DISCRETAS  DATOS INDIVIDUALES: Los datos se registran en forma individual y en forma ordenada. Supongamos una muestra de 13 individuos (n=13), correspondientes a una variable discreta (número que sale al tirar un dado), los “ri” correspondientes son: 2–2–3–3–3–3–4–4–4–5–5–6–6 ri = valor observado de la variable. n

∑r

i

MEDIA o PROMEDIO: r =

i=1

=

n

50 = 3,8461538461 5 13

MODO: Mo = ro = 3 = valor que más se repite , conjunto unimodal. MEDIANA: Me = re = 4 = valor que divide en dos partes al conjunto observado . Si el conjunto es impar, la Mediana es el valor central. La Mediana debe ser uno de los valores observados y depende de las observaciones sólo por su orden y no por su valor. Si la muestra fuera de 14 individuos (n=14), o sea cantidad par, la Mediana está indeterminada entre “re y re+1”. Siendo “re” el valor máximo de la primer mitad del conjunto y el “re+1” el valor mínimo de la segunda mitad. 1–2–2–3–3–3–3–4–4–4–5–5–6–6

La Mediana: está indeterminada entre 3 y 4: Me = re = 3 y 4 , o sea, 3 para la primer mitad y 4 para la segunda mitad del conjunto. La indeterminación dada en un conjunto par de datos discretos, se comprenderá mejor cuando procesemos los datos discretos de manera agrupada. Volvamos a nuestro ejemplo de 13 individuos: n

∑ (r

i

VARIANZA: S 2 =

−r

)

2

i= 1

=

n n

∑ (r

i

CUASIVARIANZA: S n2 −1 =

21,6923076923 = 1,6686390532 5 13

−r

i= 1

n−1

)

(cuando no se quiere estimar el valor de la varianza de la población)

2

=

21,6923076923 = 1,8076923077 (cuando se quiere estimar el 12 valor de la varianza de la población)

DESVÍO ESTÁNDAR: S = S2 = 1,2917581249 2 CUASIDESVÍO ESTÁNDAR: S n−1 = S n−1 = 1,3445044841

Ing. Sergio Aníbal Dopazo

Página 7 de 120

COEFICIENTE de VARIACIÓN (expresado en porcentual): 1,291758 C v =  S  ⋅ 100 = ⋅ 100 = 0,3359 ⋅ 100 = 33,59%  r 3,84615 1,344504 S o: C v =  n−1  ⋅ 100 = ⋅ 100 = 0,3496 ⋅ 100 = 34,96% r   3,84615 n−1

n

∑ (r

i

−r

i= 1

COEFICIENTE de ASIMETRÍA: As =

n S3

)

3

8,0591715976 0,6199362767 13 = 0,2876096444 = = 2,1554780546 2,1554780546

COEFICIENTE de KURTOSIS: n

∑ (r − r ) i

i =1

n S4

Ku =

4

71,8716431497 5 5,5285879346 13 = 1,9855892561 = = 2,7843562900 5 2,7843562900 5

 DATOS AGRUPADOS: Si los mismos datos observados en forma individual se agrupan por clase de observación (este procedimiento se justifica si la cantidad de datos observados es cuantiosa). Los datos se distribuyen en una tabla que se puede representar gráficamente. En este caso hay que introducir los conceptos de frecuencias: fai: frecuencia absoluta, es la cantidad de observaciones (individuos) pertenecientes a una clase o al valor de la variable observado. O sea que cada valor se repite con una frecuencia determinada. fi:

frecuencia relativa, es el porcentaje de observaciones (individuos) pertenecientes a una clase o al valor de la variable observado (frecuencia absoluta expresada en fracción). f fi = ai n

Fai: Frecuencia Acumulada absoluta izquierda, es la cantidad de observaciones (individuos) que se encuentran por debajo (o a la izquierda) de una clase o del valor de la variable i

observado. Fai = ∑ fai 1

Fi: Frecuencia Acumulada relativa izquierda, es el porcentaje de observaciones (individuos) que se encuentran por debajo (o a la izquierda) de una clase o del valor de la variable i

observado. Fi = ∑ fi 1

Página 8 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

Gai: Frecuencia Acumulada absoluta derecha, es la cantidad de observaciones (individuos) que se encuentran por encima (o a la derecha) de una clase o del valor de la variable k

observado. G ai = ∑ fai i

Gi: Frecuencia Acumulada relativa derecha, es el porcentaje de observaciones (individuos) que se encuentran por encima (o a la derecha) de una clase o del valor de la variable k

observado. Gi = ∑ fi i

k:



cantidad de clases o de ítems o de filas en las que se divide la variable observada.

Volvamos al ejemplo tratado en forma individual: Veremos el mismo ejemplo de la tirada de un dado con 13 observaciones de manera agrupada. Item o fila ri

fai

fi

Fai

Fi

Gai

Gi

1

2

2

0,153846154

2

0,153846154

13

1

2

3

4

0,307692307

6

0,461538461

11

0,846153846

3

4

3

0,230769231

9

0,692307692

7

0,538461539

4

5

2

0,153846154 11 0,846153846

4

0,307692308

5

6

2

0,153846154 13

2

0,153846154

Σ fai = n = 13

MEDIA: r =

1

Σ fi = 1

k 1 k 1 ⋅ ∑ ri ⋅ fai = ⋅ 50 = ∑ ri ⋅ fi = 3,846615384615 n i=1 13 i=1

MEDIANA: Me = re ; es el valor de la variable tal que se cumplen (en forma simultánea) las siguientes condiciones (para un total de conjunto impar): F(re −1) ≤ 0,5 y F(re ) ≥ 0,5 F(3) = 0,461538461 ≤ 0,5 y F(4) = 0,692307692 ≥ 0,5 La Frecuencia Acumulada relativa izquierda del valor 3 (que es el anterior a 4, re-1 = 3) es menor que 0,5 (se cumple la primer condición); y, la Frecuencia Acumulada relativa izquierda del valor 4 (re = 4) es mayor que 0,5 (se cumple la segunda condición). Por lo tanto: M e = 4 Se puede visualizar la obtención de la mediana mediante el trazado de una curva de frecuencias acumuladas. Esta curva también se define como curva de distribución; si tomamos a las frecuencias acumuladas relativas, esta curva describe una función llamada función de distribución. La misma es estrictamente creciente en el caso de las Variables Continuas, o bien, es una curva en escalera en el caso de las Variables Discretas. En el siguiente gráfico podemos apreciar que la Mediana es 4, resultado que obtuvimos de manera analítica.

Ing. Sergio Aníbal Dopazo

Página 9 de 120

Si el total del conjunto es par, también se cumplen las condiciones estipuladas: Supongamos el ejemplo de 14 tiradas de un dado visto en el procesamiento individual: Item o fila ri

fai

fi

Fai

Fi

Gai

Gi

1

1

1

0,07143

1

0,07143

14

1

2

2

2

0,14286

3

0,21429

13

0,92857

3

3

4

0,28571

7

0,5

11

0,78571

4

4

3

0,21428 10 0,71428

7

0,5

5

5

2

0,14286 12 0,85714

4

0,28572

6

6

2

0,14286 14

2

0,14286

Σ fai = n = 14

1

Σ fi = 1

F(2) = 0,21429 ≤ 0,5 y F(3) = 0,5 ≥ 0,5 F(3) = 0,5 ≤ 0,5 y F(4) = 0,71428 ≥ 0,5

Hay 2 valores que satisfacen las condiciones. Por lo tanto: M e = 3 y 4 . La mediana estaría indeterminada entre 3 y 4, o sea, Me = 3 para la primer mitad; y Me = 4 para la segunda mitad del conjunto. Se define entonces el intervalo mediano “3 – 4”, el cual se visualiza en el gráfico siguiente.

Página 10 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

En general, la mediana, es el valor de la variable estadística donde se cumple que F(re ) = 0,5 Esta ecuación tiene solución única en el caso de las variables continuas; pero puede o no existir o no ser única si la función de distribución presenta escalones, en el caso de las variables discretas. Si el total del conjunto es impar: la mediana es el valor “re”, tal que: F(re − 1 ) < 0,5 < F(re + 1 ) . Si el total del conjunto es par, se tiene que F(re ) = 0,5 : entonces la mediana está indeterminada entre los valores “re y re+1”, a este intervalo se lo denomina mediano. Volvamos a nuestro ejemplo de 13 individuos: Sigamos con el procesamiento de los datos.

MODO: Mo = ro = 3 (es el valor de la variable que tiene frecuencia absoluta máxima) VARIANZA: Con las mismas consideraciones anteriores (si se quiere o no estimar el valor de la varianza de la población): k 2 2 1 k 1 S2 = ⋅ ∑ fai ⋅ ri − r = ⋅ 21,6923076923 = ∑ fi ⋅ ri − r = 1,66863905325 n i=1 13 i=1

(

CUASIVARIANZA: Sn2−1 =

)

(

k 1 ⋅ ∑ fai ⋅ ri − r n − 1 i =1

(

)

2

=

)

1 ⋅ 21,6923076923 = 1,8076923077 12

DESVÍO STANDARD: S = S2 = 1,2917581249 2 CUASIDESVÍO STANDARD: Sn−1 = Sn−1 = 1,3445044841

COEFICIENTE de VARIACIÓN (expresado en porcentual): 1,2918 C v =  S  ⋅ 100 = ⋅ 100 = 0,3359 ⋅ 100 = 33,59%  r 3,84615 1,344504 o: C v =  S n−1  ⋅ 100 = ⋅ 100 = 0,3496 ⋅ 100 = 34,96% r   3,84615 n−1

Ing. Sergio Aníbal Dopazo

Página 11 de 120

COEFICIENTE de ASIMETRÍA: 3 1 k 1 ⋅ ∑ fai ⋅ ri − r ⋅ 8,0591715976 n i =1 13 As = = = S3 2,1554780546

(

)

k

∑ f ⋅ (r − r ) i

i =1

COEFICIENTE de KURTOSIS: 4 1 k 1 ⋅ ∑ fai ⋅ ri − r ⋅ 71,8716431497 5 n i =1 13 Ku = = = S4 2,7843562900 5

(

)

3

i

S

=

3

k

∑ f ⋅ (r − r ) i

0,6199362767 = 0,2876096444 2,1554780546

4

i

i =1

S

4

=

5,5285879346 = 1,9855892561 2,7843562900 5

Para las variables compuestas (aquellas que tienen unidades en el numerador y en el denominador), hay que tener cuidado a la hora de promediar ya que el simple promedio aritmético puede dar error. En la siguiente tabla mostraremos cómo se debe promediar en cada caso: Numerador

Varía

Constante

Varía

Denominador

Constante

Varía

Varía

¿Promedio?

Aritmético Armónico Armónico

Veamos un ejemplo, supongamos datos en un taller de manufactura sobre el tiempo de montaje de una pieza determinada: OPERARIO Cantidad de Piezas Fabricadas Tiempo Insumido en el Montaje (en minutos)

Fulano

1

10’

Fulano

1

11’

Fulano

1

12’

Fulano

1

11’

Fulano

1

10’

Fulano

1

10’

Fulano

1

12’

Fulano

1

11’

Fulano

1

11’

Fulano

1

10’

TOTAL

n = 10

108’

Página 12 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

¿Cuál es el tiempo estándar de fabricación? Se entiende por tiempo estándar, al tiempo promedio de fabricación por unidad de producción (en este caso minutos por pieza promedio). Por lo cual la variable debe estar medida en esa unidad: X 1 = 10 ; X 2 = 11 ; X 3 = 12 ; X 4 = 11 ; X 5 = 10 ; X 6 = 10 ; X 7 = 12 ; X 8 = 11 ; X 9 = 11 ; X 10 = 10 (variable medida en min/pza) n

∑X En este caso se usa el promedio aritmético: X =

i =1

n

i

=

108 = 10,8 min pza 10

¿Cuál es la productividad de Fulano? Se entiende por productividad, a la cantidad de unidades de fabricación promedio por unidad de tiempo (en este caso cantidad de piezas por minuto promedio). Por lo cual la variable debe estar medida en esa unidad: 1 1 1 1 1 1 1 1 1 1 ; X2 = ; X3 = ; X4 = ; X5 = ; X6 = ; X7 = ; X8 = ; X9 = ; X 10 = 10 11 12 11 10 10 12 11 11 10 (variable medida en pza/min)

X1 =

En este caso se usa el promedio armónico: n

X arm =

1

n

∑X i=1

=

10 = 0,0925 pza min 10 + 11 + 12 + 11 + 10 + 10 + 12 + 11 + 11 + 10

i

Si hubiéramos usado el promedio aritmético: n

∑X X=

i=1

n

i

=

1 10

+

1 11

+

1 12

+

1 11

+

1 10

+ 101 + 10

1 12

+

1 11

+

1 11

+

1 10

= 0,09303 pza (este resultado es erróneo) min

Veamos el error: si usamos el resultado del promedio aritmético para proyectar, en 108’ Fulano debería hacer 10,0472 piezas y no 10 piezas como realmente ha ocurrido. En cambio, si usamos el resultado del promedio armónico la proyección a 108’ da exactamente 10 piezas. Si en sólo 108’ minutos tenemos una diferencia de 0,05 piezas, la diferencia se incrementa en más tiempo de proyección.

Ing. Sergio Aníbal Dopazo

Página 13 de 120

PROCESAMIENTO DE DATOS REFERIDOS A VARIABLES CONTINUAS

Las variables continuas siempre deben ser agrupadas en intervalos de clase (o grupos de valores posibles). Si bien en el agrupamiento se pierde cierta información (los datos pierden su individualidad), se gana en el análisis. El número de clases a adoptar depende de la precisión que se requiera. En un número elevado de clases, aparecerán irregularidades accidentales que provienen del hecho de haber pocos individuos por clase. Al contrario, un número demasiado restringido de clases, conduce a una pérdida de información. La experiencia conduce a limitar el número de clases según el tamaño del conjunto a tratar: entre 5 y 7, o bien, entre 10 y 15. Como una guía aproximada de establecer el número “k” de intervalos, puede utilizarse la fórmula que Herbert Sturges propuso en 1926: ln(n) k = 1+ ln(2 ) La elección de las amplitudes de clases, está condicionada por la preocupación de obtener efectivos comparables de una clase a otra (es decir, del mismo orden de magnitud). Esta preocupación considera tomar clases cuyas amplitudes sean variables: pequeña amplitud donde el carácter estudiado es frecuente, y mayor amplitud donde el carácter es más raro (esta situación se observa en estudios socio-económicos). En el caso de la estadística industrial, en general se consideran por simplicidad, clases de amplitud constante. La experiencia indica que el agrupamiento en intervalos de clases de una variable estadística continua, se realiza aplicando no sólo técnica estadística sino también el conocimiento de la problemática a estudiar, proveniente de la actividad profesional del realizador. Veamos un ejemplo: Supongamos una muestra de 100 observaciones (o individuos) (n = 100), correspondientes a una variable continua, que corresponde al consumo diario de agua (medido en miles de litros) en una curtiembre: I = Intervalo de Clase Xi = consumo

Ci

fai = días obs.

fi

Fai

Fi

Gai

Gi

1

1

20 – 30

25

1

0,01

1

0,01 100

2

30 – 40

35

15

0,15

16

0,16

99

0,99

3

40 – 50

45

39

0,39

55

0,55

84

0,84

4

50 – 60

55

32

0,32

87

0,87

45

0,45

5

60 – 70

65

11

0,11

98

0,98

13

0,13

6

70 – 80

75

2

0,02

100

1

2

0,02

Σ fai = n = 100 Σ fi = 1

I:

número del intervalo de clasificación de la variable estadística continua.

Ai: Amplitud del intervalo de clase, es la diferencia entre el límite superior e inferior del intervalo. Las clases pueden tener una amplitud constante o variable. Xi inf – xi sup: límites inferior y superior, respectivamente del intervalo de clase correspondiente.

Página 14 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

Ci: Centro del intervalo o marca de clase, es el valor central del Intervalo. C i =

x i inf + x i sup 2

fai: frecuencia absoluta, es la cantidad de observaciones (individuos) pertenecientes a un intervalo de clase o cantidad de individuos cuyos valores se encuentran dentro del intervalo de clase. fi:

frecuencia relativa, es el porcentaje de observaciones (individuos) pertenecientes a un f intervalo de clase (frecuencia absoluta expresada en fracción). fi = ai n

Fai: Frecuencia Acumulada absoluta izquierda, es la cantidad de observaciones (individuos) que se encuentran por debajo (o a la izquierda) del valor de la variable (límite superior del i

intervalo). Fai = ∑ fai 1

Fi: Frecuencia Acumulada relativa izquierda, es el porcentaje de observaciones (individuos) que se encuentran por debajo (o a la izquierda) del valor de la variable (límite superior del i

intervalo). Fi = ∑ fi 1

Gai: Frecuencia Acumulada absoluta derecha, es la cantidad de observaciones (individuos) que se encuentran por encima (o a la derecha) del valor de la variable (límite inferior del k

intervalo). G ai = ∑ fai i

Gi: Frecuencia Acumulada relativa derecha, es el porcentaje de observaciones (individuos) que se encuentran por encima (o a la derecha) del valor de la variable (límite inferior del intervalo). Esta frecuencia se puede hallar como complemento de la frecuencia k

acumulada relativa izquierda. Gi = ∑ fi i

k:

cantidad de intervalos de clase en los que se divide y clasifica el conjunto observado.

i:

Id del intervalo de clase correspondiente.

 Veamos los datos del ejemplo representados gráficamente por el histograma:

Ing. Sergio Aníbal Dopazo

Página 15 de 120

k 1 k 1 ⋅ ∑ C i ⋅ fai = ⋅ 4930 = ∑ C i ⋅ fi = 49,3 miles de litros = 49.300 litros ; vemos como n i=1 100 i=1 el promedio refiere al baricentro del histograma (gráfico).

MEDIA: X =

MODO: En el caso de variables continuas no se puede identificar al modo (el mismo queda indefinido), solamente podemos identificar al intervalo de clase modal (Io) = que es el intervalo de clase de mayor frecuencia absoluta. En nuestro ejemplo: I o = I 3 = Intervalo 3 = 40 a 50 miles de litros , o sea el intervalo que va de 40.000 a 50.000 litros. Veamos la información de las Frecuencias Acumuladas gráficamente mediante las Curvas de Frecuencias Acumuladas:

Página 16 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

Fai Gai 10099 98

87 84

55 50 45

16 13

12 0

10

20

30

40

Me 50

Xi 60

70

80

El punto donde se cortan las dos curvas, corresponde a un valor de variable, en el eje de abscisas, que tiene por debajo a la mitad de las observaciones (o sea al 50%), y tiene por encima a la otra mitad de las observaciones. Dicho valor divide al conjunto de datos en dos mitades (este es el concepto de Mediana). MEDIANA: Me = X e , es el valor de la variable tal que: F( X e ) = 0,5 . En el caso de las variables continuas la mediana divide al histograma en dos áreas iguales. También, a la mediana, se la puede interpretar como el fractil (valor de la variable) que encierra al 50% de los valores, del conjunto observado, a su izquierda. A la mediana, se la puede calcular por interpolación lineal a partir de los extremos de los intervalos de la clase correspondiente. Para poder interpretar la ecuación de la misma, hay que identificar primero al intervalo de clase mediano: Ie, el cual contiene al 50% de las observaciones del conjunto, en este caso: I e = I 3 = Intervalo 3 De manera que el cálculo de la Mediana será:

( )

 n − Fa ( e −1)   = L inf3 + A 3 Me = X e = X ( 0 ,5 ) = L infe + A e ⋅  2  fae   

Ing. Sergio Aníbal Dopazo

(

)

 100 − F2  2 ⇒ ⋅   f3  

Página 17 de 120

 50 − 16  Me = X (0 ,5 ) = 40 + 10 ⋅   = 48,71794872 miles de litros = 48.717,94872 litros  39  VARIANZA: Con las mismas consideraciones anteriores (si se quiere o no estimar el valor de la varianza de la población): k 2 2 1 k 1 S2 = ⋅ ∑ fai ⋅ Ci − X = ⋅ 9451 = ∑ fi ⋅ Ci − X = 94,51 (miles de litros)2 n i =1 100 i=1

(

CUASIVARIAZA: Sn2−1 =

)

(

k 1 ⋅ ∑ fai ⋅ Ci − X n − 1 i= 1

(

)

2

=

)

1 ⋅ 9451 = 95,4646464646464646 (miles de litros)2 99

DESVÍO STANDARD: S = S 2 = 9,7216253785 miles de litros = 9.721,6254 litros CUASIDESVÍO STANDARD: S n−1 = S n2−1 = 9,7706011312 miles de litros = 9.770,6011 litros COEFICIENTE de VARIACIÓN (expresado en porcentual): 9,7216253785 C v =  S  ⋅ 100 = ⋅ 100 = 0,1971932125 ⋅ 100 = 19,72 %  X 49,3 9,7706011312 o: C v =  S n−1  ⋅ 100 = ⋅ 100 = 0,1981866355 ⋅ 100 = 19,82 % X  49,3 n−1

COEFICIENTE de ASIMETRÍA: 3 ) 1 k 1 ⋅ ∑ fai ⋅ Ci − X ⋅ 21131,39 n i =1 As = = 100 = 3 S 918,7908145225

(

)

COEFICIENTE de KURTOSIS: 4 1 k 1 ⋅ ∑ fai ⋅ Ci − X ⋅ 2563857 ,97 n i =1 100 Ku = = = S4 8932,1401

(

)

k

∑ f ⋅ (C i

−X

i

)

3

i =1

S3

k

∑ f ⋅ (C i

i

i =1

S

4

−X

)

) 211,3139 = = 0,2299914155 918,7908145225

4

=

25638,5797 = 2,8703736633 8932,1401

FRACTILES: Es el valor de la variable (dentro del conjunto) que encierra un cierto porcentaje (y%) de observaciones o individuos a su izquierda (o sea por debajo de ese valor). Al igual que la mediana (que es el fractil del 50%, ya que encierra a un 50% de individuos a su izquierda), hay que reconocer, primero, al intervalo de clase del fractil (Ix) que es el que contiene a dicho porcentaje de observaciones. Así tenemos, para el ejemplo que venimos desarrollando, que el valor “40”, es el fractil del 16%, porque encierra a un 16% de observaciones a su izquierda (por debajo) y a un 84% de observaciones a su derecha (por arriba). El valor “50”, es el fractil del 55%, porque encierra a un 55% de observaciones a su izquierda (por debajo) y a un 45% de observaciones a su derecha (por arriba). El valor “60”, es el fractil del 87%, porque encierra a un 87% de observaciones a su izquierda (por debajo) y a un 13% de observaciones a su derecha (por arriba). El valor “70”, es el fractil del 98%, porque encierra a un 98% de observaciones a su izquierda (por debajo) y a un 2% de observaciones a su derecha (por arriba). Para otros valores dentro de un intervalo, el fractil se calcula:

Página 18 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

 (n ⋅ y%) − Fa ( x −1)  X ( y %) = L infX + A I ⋅   fax   Veamos algunos ejemplos tomando como base el cuadro del consumo diario de agua: •

¿Cuál es el valor de la variable superado el 10% de los días (o sea que encierra a un 10% de las observaciones a su derecha o por arriba)? Lo que me están pidiendo es el fractil del 90%: éste se encuentra en el Intervalo 5 (I5).

))  (100 ⋅ 0,90 ) − Fa ( 4 )   90 − 87  X (0 ,90 ) = L inf5 + A 5 ⋅  = 62,72 miles de litros ; o sea que  = 60 + 10 ⋅   fa 5  11    el 90% de las observaciones, el consumo, se encuentra por debajo de “62.727,27 litros”, y, el 10% de los días (observaciones), se encuentra por encima de “62.727,27 litros”. •

¿Cuál es el valor de la variable superado el 40% de los días (o sea que encierra a un 40% de las observaciones a su derecha o por arriba)? Lo que me están pidiendo es el fractil del 60%: éste se encuentra en el Intervalo 4 (I4).

 (100 ⋅ 0,60 ) − Fa ( 3 )   60 − 55  X (0 ,60 ) = L inf4 + A 4 ⋅   = 50 + 10 ⋅   = 51,5625 miles de litros ; o sea fa 4  32    que el 60% de las observaciones, el consumo, se encuentra por debajo de “51.562,5 litros”, y, el 40% de los días (observaciones), se encuentra por encima de “51.562,5 litros”. •

¿Cuál es el valor de la variable superado el 90% de los días (o sea que encierra a un 90% de las observaciones a su derecha o por arriba)? Lo que me están pidiendo es el fractil del 10%: éste se encuentra en el Intervalo 2 (I2).

 (100 ⋅ 0,10 ) − Fa (1)   10 − 1 X (0 ,10 ) = L inf2 + A 2 ⋅   = 30 + 10 ⋅   = 36 miles de litros ; o sea que el fa 2  15    10% de las observaciones, el consumo, se encuentra por debajo de “36.000 litros”, y, el 90% de los días (observaciones), se encuentra por encima de “36.000 litros”. FRECUENCIA ACUMULADA IZQUIERDA RELATIVA (Porcentual Acumulado): Es el porcentaje de observaciones (individuos) que se encuentran a la izquierda (por debajo) de un valor determinado de la variable. Así tenemos, para el ejemplo que venimos desarrollando, que el 16% de las observaciones se encuentra a la izquierda (por debajo), del valor de variable 40, o sea que “F(40) = 0,16”. El 55% de las observaciones se encuentra a la izquierda (por debajo), del valor de variable 50, o sea que “F(50) = 0,55”. El 87% de las observaciones se encuentra a la izquierda (por debajo), del valor de variable 60, o sea que “F(60) = 0,87”. El 98% de las observaciones se encuentra a la izquierda (por debajo), del valor de variable 70, o sea que “F(70) = 0,98”. Para otros valores dentro de un intervalo, el porcentual acumulado se calcula:

Ing. Sergio Aníbal Dopazo

Página 19 de 120

F(X ) =

  1  X − L infX ⋅  ⋅ fax  + Fa ( x −1)  n  AI  

Veamos algunos ejemplos tomando como base el cuadro del consumo diario de agua: •

¿Cuál es el porcentaje de los días (observaciones) en los que el consumo se encuentra a la izquierda (por debajo) del valor de la variable 51 miles de litros (51.000 litros)? Lo que me están pidiendo es el F(51): se encuentra en el Intervalo 4 (I4).

   1  51 − L inf4 1  51 − 50  ⋅  ⋅ fa 4  + Fa ( 3 )  = ⋅  ⋅ 32  + 55  = 0,582 ; o sea que el 100  A4   100  10   58,2% de los días (observaciones), el consumo se encuentra por debajo de “51.000 litros”, y el 41,8% de los días (observaciones), el consumo se encuentra por encima de “51.000 litros”. F(51) =



¿Cuál es el porcentaje de los días (observaciones) en los que el consumo se encuentra a la derecha (por encima) del valor de la variable 32 miles de litros (32.000 litros)? Lo que me están pidiendo es el G(32), o sea el complemento del F(32): se encuentra en el Intervalo 2 (I2).

  1  32 − L inf2 1  32 − 30   ⋅  ⋅ fa 2  + Fa (1)  = ⋅  ⋅ 15  + 1 = 0,04 ; o sea que el 4% de 100  A2     100  10 los días (observaciones), el consumo se encuentran por debajo de “32.000 litros”, y por lo tanto el 96% de los días (observaciones), el consumo se encuentra por encima de “32.000 litros” (que responde a lo solicitado). F(32) =

JUGANDO CON LOS PORCENTUALES: Tomando como base el cuadro del consumo diario de agua •

¿Cuál es el porcentaje de los días (observaciones) en los que el consumo se encuentra entre los valores de variable 32.000 y 51.000 litros? Lo que me están pidiendo es: P(32 ≤ X ≤ 51) = F(51) − F(32) = 0,582 − 0,04 = 0,542 ; o sea que el 54,2% de los días (observaciones), el consumo se encuentra entre 32.000 y 51.000 litros.



De los días (observaciones) en los que el consumo está por debajo de 51.000 litros, ¿cuál es el porcentaje de esos días en los que el consumo se encuentre por encima de 32.000 litros? Lo que me están pidiendo es un porcentual condicional: P[( X ≥ 32) ∩ ( X ≤ 51)] P(32 ≤ X ≤ 51) 0,542 = = = 0,9313 ; o sea que el P( X ≤ 51) F(51) 0,582 93,13% de los días (observaciones) en los que el consumo se encuentra por debajo de 51.000 litros, el consumo está por encima de 32.000 litros.

(

)

P X ≥ 32 X 51 = ≤



De los días (observaciones) en los que el consumo está por debajo de 51.000 litros, ¿cuál es el porcentaje de esos días en los que el consumo se encuentra por debajo de 32.000 litros?

Página 20 de 120

Ing. Sergio Aníbal Dopazo

“Estadística General”

Tema: Estadística Descriptiva – Procesamiento de Datos

Lo que me están pidiendo es un porcentual condicional: P[( X ≤ 32) ∩ ( X ≤ 51)] F(32) 0,04 = = = 0,0687 ; o sea que el 6,87% de los P( X ≤ 51) F(51) 0,582 días (observaciones) en los que el consumo se encuentra por debajo de 51.000 litros, el consumo está por debajo de 32.000 litros. También se puede obtener como complemento de la pregunta anterior. Porque si el 93,13% de los días (observaciones) en los que el consumo se encuentra por debajo de 51.000 litros, el consumo está por encima de 32.000 litros; es lógico que el 6,87% de esos días (observaciones), el consumo esté por debajo.

(

)

P X ≤ 32 X 51 = ≤



De los días (observaciones) en los que el consumo está por encima de 32.000 litros, ¿cuál es el porcentaje de esos días en los que el consumo se encuentre por debajo de 51.000 litros? Lo que me están pidiendo es un porcentual condicional: P[( X ≤ 51) ∩ ( X ≥ 32)] P(32 ≤ X ≤ 51) 0,542 = = = 0,5646 ; o sea que el P( X ≥ 32) 1 − F(32) 0,96 56,46% de los días (observaciones) en los que el consumo se encuentra por encima de 32.000 litros, el consumo está por debajo de 51.000 litros.

(

)

P X ≤ 51 X 32 = ≥



De los días (observaciones) en los que el consumo está por encima de 32.000 litros, ¿cuál es el porcentaje de esos días en los que el consumo se encuentre por encima de 51.000 litros? Lo que me están pidiendo es un porcentual condicional: P[( X ≥ 51) ∩ ( X ≥ 32)] 1 − F(51) 0,418 = = = 0,4354 ; o sea que el 43,54% de P( X ≥ 32) 1 − F(32) 0,96 los días (observaciones) en los que el consumo se encuentra por encima de 32.000 litros, el consumo está por encima de 51.000 litros. También se puede obtener como complemento de la pregunta anterior. Porque si el 56,46% de los días (observaciones) en los que el consumo se encuentra por encima de 32.000 litros, el consumo está por debajo de 51.000 litros; es lógico que el 43,54% de esos días (observaciones), el consumo esté por encima.

(

)

P X ≥ 51 X 32 = ≥

Ing. Sergio Aníbal Dopazo

Página 21 de 120

Página 22 de 120

Ing. Sergio Aníbal Dopazo

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF