PROBABILIDAD

Share Embed Donate


Short Description

Download PROBABILIDAD...

Description

PROBABILIDAD 1. Consultar ejercicios variados sobre la distribución normal. Los alambres que se utilizan en cierta computadora deben tener una resistencia entre 0,12 y 0,14 ohms. Las resistencias reales de los alambres producidos por la compañía A tienen una distribución de probabilidad normal con una media de 0,13 ohms y una desviación estándar de 0,005 ohms. a) ¿Cuál es la probabilidad de que un alambre seleccionado al azar de la producción de la compañía A satisfaga las especificaciones? b) Si se utilizan cuatro de estos alambres en el sistema y los seleccionan de la compañía A, ¿cuál es probabilidad de que los 4 alambres satisfagan las necesidades? Solución: X = resistencia del alambre medida en ohms. X ∼ N (0,13; 0,000025) a) Probabilidad de que un alambre satisfaga las especificaciones: (

)

P (−2 ≤ Z ≤ 2) = Φ (2) – Φ (−2) = 0,9772 − 0,0228 P (−2 ≤ Z ≤ 2) = 0,9544 La probabilidad de que un alambre satisfaga las especificaciones con respecto a la resistencia es del 95,44 %. b) Probabilidad de que 4 alambres satisfagan las necesidades: P (4 satisfagan las especificaciones) = (0,6544)4 = 0,8297 La probabilidad de que 4 alambres seleccionados al azar de la compañía A y que satisfagan las especificaciones del 82,97 %. 2. Ejercicios sobre la distribución Binomial. Una tienda departamental tiene un sistema de cuatro alarmas que funcionan en forma independiente, cada una tiene una probabilidad de detectar a un intruso de un 95%. Sea Y la variable aleatoria el número de alarmas que detectan al intruso, ¿puede afirmarse que se trata de un problema para ser resuelto con una distribución binomial? Obtén la probabilidad de que al menos una alarma detecte a un intruso e interpreta. Sí, es una binomial con 4 elementos y p=0.95 P (Y=n)= (4n) *0.95n* (0.05)4−n La probabilidad de que al menos una alarma detecte al intruso es 1 menos la probabilidad de que le detecte ninguna. Y para que no le detecte ninguna es la probabilidad de que una no le detecte elevada a la cuarta. Eso lo sabemos de toda la vida aunque si se quiere se puede calcular con la fórmula P (Y=0)= (40)0.950⋅(0.05)4−0=1⋅1⋅0.054=0.00000625

Luego la probabilidad de ser detectado será 1 - 0.00000625 = 0.99999375 3. Ejercicios sobre la distribución de Poisson. La computadora marca Veloz se descompone a razón de 0.05 veces por hora de operación, siendo necesario darle servicio especializado de reparación. ¿Cuál es la probabilidad que no ocurran descomposturas en un periodo de trabajo de 8horas?, ¿Cuál es la probabilidad que ocurran por lo menos dos descomposturas en 40 horas? 4. CONSULTAR: a)

DIAGRAMA DE DISPERSION:

Es una gráfica del tipo X –Y cuyo objetivo es analizar la forma en que dos variables numéricas están relacionadas. El diagrama de dispersión se obtiene coleccionando los datos en pares de valores sobre dos variables (x, y). Las parejas de datos obtenidos se representan a través de puntos en una gráfica del tipo X – Y (ejes de coordenada cartesianos). El análisis de un diagrama de dispersión puede mostrar varios tipos de correlaciones entre las variables con un intervalo de confianza determinado. La correlación puede ser positiva ((Y aumenta con X)), negativa (Y disminuye con X), o nula (las variables no están correlacionadas). El diagrama de dispersión es una de las herramientas básicas de gestión de la calidad, muy útil al analizar las causas de un problema y para Identificar oportunidades de mejora continua. b)

COEFICIENTE DE CORRELACIÓN:

Mide el grado de intensidad de la posible relación entre las variables. Este coeficiente se aplica cuando la relación que puede existir entre las variables es lineal (es decir, si representáramos en un gráfico los pares de valores de las dos variables la nube de puntos se aproximaría a una recta). Se calcula aplicando la siguiente fórmula:

Es decir: Numerador: se denomina covarianza y se calcula de la siguiente manera: en cada par de valores (x, y) se multiplica la "x" menos su media, por la "y" menos su media. Se suma el resultado obtenido de todos los pares de valores y este resultado se divide por el tamaño de la muestra. Denominador se calcula el producto de las varianzas de "x" y de "y", y a este producto se le calcula la raíz cuadrada. Los valores que puede tomar el coeficiente de correlación "r" son: -1 < r < 1 Si "r" > 0, la correlación lineal es positiva (si sube el valor de una variable sube el de la otra). La correlación es tanto más fuerte cuanto más se aproxime a 1. Por ejemplo: altura y peso: los alumnos más altos suelen pesar más. Si "r" < 0, la correlación lineal es negativa (si sube el valor de una variable disminuye el de la otra). La correlación negativa es tanto más fuerte cuanto más se aproxime a -1.

Por ejemplo: peso y velocidad: los alumnos más gordos suelen correr menos. Si "r" = 0, no existe correlación lineal entre las variables. Aunque podría existir otro tipo de correlación (parabólica, exponencial, etc.) c)

REGRESIÓN:

El coeficiente de correlación lineal nos permite determinar si, efectivamente, existe relación entre las dos variables. Una vez que se concluye que sí existe relación, la regresión nos permite definir la recta que mejor se ajusta a esta nube de puntos.

Una recta viene definida por la siguiente fórmula: y = a + b*x Donde "y" sería la variable dependiente, es decir, aquella que viene definida a partir de la otra variable "x" (variable independiente). Para definir la recta hay que determinar los valores de los parámetros "a" y "b": El parámetro "a" es el valor que toma la variable dependiente "y", cuando la variable independiente "x" vale 0, y es el punto donde la recta cruza el eje vertical. El parámetro "b" determina la pendiente de la recta, su grado de inclinación. La regresión lineal nos permite calcular el valor de estos dos parámetros, definiendo la recta que mejor se ajusta a esta nube de puntos. El parámetro "b" viene determinado por la siguiente fórmula:

Es la covarianza de las dos variables, dividida por la varianza de la variable "x". El parámetro "a" viene determinado por:

a = y m - (b * x m) Es la media de la variable "y", menos la media de la variable "x" multiplicada por el parámetro "b" que hemos calculado. d)

MÉTODO DE MÍNIMOS CUADRADOS:

Mínimos cuadrados es una técnica de análisis numérico encuadrada dentro de la optimización matemática, en la que, dados un conjunto de pares (o ternas, etc.), se intenta encontrar la función que mejor se aproxime a los datos (un "mejor ajuste"), de acuerdo con el criterio de mínimo error cuadrático.”



∑ ∑





|∑ | ∑



e)



∑ |∑

|

VARIANZA TOTAL:

Si no consideramos la recta de regresión y deseamos medir la variabilidad del conjunto de datos que estamos usando, acudiremos a la varianza de Y, o varianza total. ̅ ∑ Si todas las muestras tienen el mismo tamaño:

Si las muestras tienen distinto tamaño:

f)

VARIANZA EXPLICADA:

Si sólo consideramos la variabilidad que presentan las predicciones (los valores situados en la recta), deberemos usar en la fórmula anterior los datos Y´ en lugar de Y (la media no cambia, según se indicó más arriba). Al resultado le llamaremos varianza explicada.

Siendo r el coeficiente de correlación de Pearson. Esto significa que la relación entre la varianza explicada y la total es el cuadrado del coeficiente r. A este cuadrado lo conocemos como Coeficiente de determinación y expresa el porcentaje de varianza que explica la línea recta. g)

VARIANZA NO EXPLICADA:

Por último, llamaremos varianza de error o residual a la que presentan los valores de Y comparados con sus pronósticos

A la raíz cuadrada de la varianza residual la llamaremos error típico de estimación, que es importante en la teoría de la Regresión. 5. REGLAS DE PROBABILIDAD: Existen tres reglas fundamentales para resolver problemas en donde se desea determinar la probabilidad de un suceso si se conocen las probabilidades de otros sucesos que están relacionados con él. Estas tres reglas son: Regla de la Adición, Probabilidad Condicional y Regla de la Multiplicación o Probabilidad Conjunta.

Regla de la Adición: Esta regla expresa la probabilidad de que ocurran dos o más sucesos a la vez, P (A U B). Puede presentarse de dos formas: Para conjuntos con intersección y para conjuntos mutuamente excluyentes. Veamos: Para conjuntos con Intersección: Esto se debe a que sumamos la probabilidad de A más la probabilidad de B, pero como ya habíamos sumado la intersección, entonces la restamos. P(A U B) = P (A) U P (B) = P (A) + P (B)

Para conjuntos con Mutuamente excluyentes: En este caso, no hay ningún problema en sumar ambas probabilidades. Probabilidad Condicionada: Es la probabilidad de obtener un suceso, dado que ya ocurrió otro. Es decir, si tenemos los sucesos A y B que pertenecen a un mismo espacio muestral S, y si la P (A) es diferente de cero, entonces esta probabilidad que esta designada por:

Para calcular esta probabilidad es necesario conocer tanto la probabilidad marginal de uno de los sucesos (P (A)) como la probabilidad de la intersección de ambos (o la probabilidad cuando ocurran los dos sucesos a la vez). Ejemplo 3: La probabilidad de que una persona tenga una cuenta de ahorros es de 0,65 y la probabilidad de que invierta en un CDT y ahorre en una cuenta de ahorros es de 0,30. Se seleccionó una persona al azar y resultó tener una cuenta de ahorros ¿Cuál es la probabilidad de que tenga también un CDT? Sea A = tener una cuenta de ahorros, B = tener un CDT

Regla de la Multiplicación o Probabilidad Conjunta: Esta regla expresa la probabilidad de que ocurra un suceso A y un suceso B. Pueden ocurrir dos formas: que el segundo suceso depende del primero o que ninguno dependa del otro, por lo tanto veremos estas dos formas: Para sucesos dependientes: NOTA: Si observas esta regla, puedes darte cuenta que se relaciona fuertemente con la Intersección entre conjuntos (y), es una multiplicación. Ejemplo 1: Se sacan dos cartas sin restitución (se saca la primera se observa y no se vuelve a meter) de una baraja de 52 cartas, ¿Cuál es la probabilidad de que ambas sean reyes? Sea R = sacar un rey Observe que lo que necesitamos es la probabilidad de sacar un rey en la primera carta y un rey en la segunda, es decir:

; Para sucesos independientes:

Ejemplo 2: Se sacan dos cartas con restitución una baraja de 52 cartas, ¿Cuál es la probabilidad de que ambas sean corazones? Sea C = carta de corazones

6. SUCESOS: Se llama suceso a cualquier subconjunto del espacio muestral. Diremos que un suceso A, ocurre si el resultado del experimento es uno de los sucesos elementales que pertenecen a A. 7.

SUCESOS DEPENDIENTES:

Dos o más eventos serán dependientes cuando la ocurrencia o no-ocurrencia de uno de ellos afecta la probabilidad de ocurrencia del otro (u otros). Cuando tenemos este caso, empleamos entonces, el concepto de probabilidad condicional para denominar la probabilidad del evento relacionado. La expresión P (AB) indica la probabilidad de ocurrencia del evento A sí el evento B ya ocurrió. Se debe tener claro que AB no es una fracción. P (AB) = P (A y B)/P (B) o P (BA) = P (A y B)/P (A) 8.

SUCESOS INDEPENDIENTES:

Dos sucesos son independientes entre sí, si la ocurrencia de uno de ellos no afecta para nada el que pueda producirse el otro: Ejemplo: el suceso estatura de los alumnos de una clase y el color del pelo son independientes: el que un alumno sea más o menos alto no va a influir en el color de su cabello, ni viceversa. Para que dos sucesos sean independientes tienen que verificar al menos una de las siguientes condiciones: P (B/A) = P (B) es decir, que la probabilidad de que se dé el suceso B, condicionada a que previamente se haya dado el suceso A, es exactamente igual a la probabilidad de B. Ejemplo: la probabilidad de que al tirar una moneda salga cara (suceso B), condicionada a que haga buen tiempo (suceso A), es igual a la propia probabilidad del suceso B. P (A/B) = P (A) es decir, que la probabilidad de que se dé el suceso A, condicionada a que previamente se haya dado el suceso B, es exactamente igual a la probabilidad de A. Ejemplo: la probabilidad de que haga buen tiempo (suceso A), condicionada a que al tirar una moneda salga cara (suceso B), es igual a la propia probabilidad del suceso A. P (A ^ B) = P (A) * P (B) es decir, que la probabilidad de que se dé el suceso conjunto A y B es exactamente igual a la probabilidad del suceso A multiplicada por la probabilidad del suceso B. Ejemplo: la probabilidad de que haga buen tiempo (suceso A) y salga cara al tirar una moneda (suceso B), es igual a la probabilidad del suceso A multiplicada por la probabilidad del suceso B.

9. SUCESOS COMPATIBLES: Dos sucesos, A y B, son compatibles cuando tienen algún suceso elemental común. Si A es sacar puntuación par al tirar un dado y B es obtener múltiplo de 3, A y B son compatibles porque el 6 es un suceso elemental común. 10.EVENTOS: Se conoce como evento estadístico al subconjunto de un espacio muestral. Se trata de los posibles resultados que pueden obtenerse de un experimento aleatorio. 11.EVENTOS MUTAMENTE EXCLUYENTES:  Son aquellos en los que si un evento sucede significa que el otro no puede ocurrir. Si bien suelen usarse en teorías científicas, también son parte de las leyes y los negocios. Como resultado, entender los eventos mutuamente excluyentes puede ser importante para una variedad de disciplinas.  Eventos o sucesos mutuamente excluyentes son sucesos que por su propia naturaleza jamás podrían coexistir, por lo tanto o es uno o es el otro, por ejemplo... El clásico de lanzar una moneda, un evento puede ser obtener cara, y otro evento obtener cruz, pero nunca pueden ocurrir los dos eventos al mismo tiempo, si lanzas una moneda o te cae cara o te cae cruz, no te puede caer en las dos... (Claro está en un solo tiro) 12.EVEMTOS COMPLEMENTARIOS: Dos eventos se denominan complementarios cuando su unión da el espacio muestral y su intersección es vacía. La suma de las probabilidades de dos eventos complementarios es igual a 1. 13. TECNICAS DE MUESTREO: Inferencia estadística Estudia cómo sacar conclusiones generales para toda la población a partir del estudio de una muestra, y el grado de fiabilidad o significación de los resultados obtenidos. Muestreo probabilístico Consiste en elegir una muestra de una población al azar. Podemos distinguir varios tipos de muestreo: Muestreo aleatorio simple Para obtener una muestra, se numeran los elementos de la población y se seleccionan al azar los N elementos que contiene la muestra. Muestreo aleatorio sistemático Se elige un individuo al azar y a partir de él, a intervalos constantes, se eligen los demás hasta completar la muestra. Por ejemplo si tenemos una población formada por 100 elementos y queremos extraer una muestra de 25 elementos, en primer lugar debemos establecer el intervalo de selección que será igual a 100/25 = 4. A continuación elegimos el elemento de arranque, tomando aleatoriamente un número entre el 1 y el 4, y a partir de él obtenemos los restantes elementos de la muestra. 2, 6, 10, 14,..., 98.

Muestreo aleatorio estratificado Se divide la población en clases o estratos y se escoge, aleatoriamente, un número de individuos de cada estrato proporcional al número de componentes de cada estrato. En una fábrica que consta de 600 trabajadores queremos tomar una muestra de 20. Sabemos que hay 200 trabajadores en la sección A, 150 en la B, 150 en la C y 100 en la D.

Un muestreo puede hacerse con o sin reposición, y la población de partida puede ser infinita o finita. En todo nuestro estudio vamos a limitarnos a una población de partida infinita o a muestreo con reposición. Si consideremos todas las posibles muestras de tamaño n en una población, para cada muestra podemos calcular un estadístico (media, desviación típica, proporción,...) que variará de una a otra. Así obtenemos una distribución del estadístico que se llama distribución muestral. Conceptos de Muestreo Estadístico En estadística un muestreo es la técnica para la selección de una muestra a partir de una población. En el muestreo, si el tamaño de la muestra es más pequeño que el tamaño de la población, se puede extraer dos o más muestras de la misma población. Al conjunto de muestras que se pueden obtener de la población se denomina espacio muestral. La variable que asocia a cada muestra su probabilidad de extracción El muestreo: es una herramienta de la investigación científica. Su función básica es determinar que parte de una realidad en estudio (población o universo) debe examinarse con la finalidad de hacer inferencias sobre dicha población. El Muestreo es más que el procedimiento empleado para obtener una o más muestras de una población; el muestreo es una técnica que sirve para obtener una o más muestras de población. Este se realiza una vez que se ha establecido un marco muestral representativo de la población, se procede a la selección de los elementos de la muestra aunque hay muchos diseños de la muestra. Al tomar varias muestras de una población, las estadísticas que calculamos para cada muestra no necesariamente serían iguales, y lo más probable es que variaran de una muestra a otra. Muestreo Estadístico: son aquellos que se basan en el principio de equi-probabilidad. Es decir, aquellos en los que todos los individuos tienen la misma probabilidad de ser elegidos para formar parte de una muestra y, consiguientemente, todas las posibles muestras de tamaño n tienen la misma probabilidad de ser elegidas. TÉCNICAS DE SELECCIÓN DEL MUESTREO A TRAVÉS DEL MUESTREO ESTADÍSTICO  Muestreo probabilístico: Forman parte de este tipo de muestreo todos aquellos métodos para

los que puede calcularse la probabilidad de extracción de cualquiera de las muestras posibles. Este conjunto de técnicas de muestreo es el más aconsejable, aunque en ocasiones no es posible optar por él.

 Muestreo estratificado: Consiste en la división previa de la población de estudio en grupos o

clases que se suponen homogéneos respecto a característica a estudiar. A cada uno de estos estratos se le asignaría una cuota que determinaría el número de miembros del mismo que compondrán la muestra.  Muestreo sistemático: Es la elección de una muestra a partir de los elementos de una lista según un orden determinado, o recorriendo la lista a partir de un número aleatorio determinado.  Muestreo por conglomerados: Cuando la población se encuentra dividida, de manera natural, en grupos que se suponen que contienen toda la variabilidad de la población, es decir, la representan fielmente respecto a la característica a elegir, pueden seleccionarse sólo algunos de estos grupos o conglomerados para la realización del estudio.  Muestreo errático: También se llama sin norma. La muestra se realiza de cualquier forma, valorando únicamente la comodidad o la oportunidad en términos de costes, tiempo u otro factor no estadístico. Al realizar un muestreo en una población podemos hablar de muestreos probabilísticas y no probabilísticas, entre estas técnicas o procedimientos están:  Muestreo simple: Este tipo de muestreo toma solamente una muestra de una población dada para el propósito de inferencia estadística. Puesto que solamente una muestra es tomada, el tamaño de muestra debe ser los suficientemente grandes para extraer una conclusión. Una muestra grande muchas veces cuesta demasiado dinero y tiempo.  Muestreo aleatorio simple: Es aquel en que cada elemento de la población tiene la misma probabilidad de ser seleccionado para integrar la muestra. Una muestra simple aleatoria es aquella en que sus elementos son seleccionados mediante el muestreo aleatorio simple. 14. DISTRIBUCIÓN T-STUDENT: En probabilidad y estadística, la distribución t (de Student) es una distribución de probabilidad que surge del problema de estimar la media de una población normalmente distribuida cuando el tamaño de la muestra es pequeño. Surge, en la mayoría de los estudios estadísticos prácticos, cuando la desviación típica de una población se desconoce y debe ser estimada a partir de los datos de una muestra. Existen dos versiones de la prueba t-Student: una que supone que las varianzas poblacionales son iguales y otra versión que no asume esto último. Para decidir si se puede suponer o no la igualdad de varianza en las dos poblaciones, se debe realizar previamente la prueba F-Snedecor de comparación de dos varianzas. √ ⁄ Donde Z tiene una distribución normal de media nula y varianza 1, V tiene una distribución de chicuadrado con grados de libertad. Z y V son independientes. V > 0; la distribución t es simétrica con respecto al origen y la función de densidad tiene su valor máximo cuando t=0 La esperanza y varianza de una distribución t-student son:

15. DISTRIBUCIÓN CHI CUADRADO: Es una prueba útil para variables categóricas y estadística, es aplicable cuando la variable nominal está compuesta por dos o más categorías. Tiene dos aplicaciones:  La prueba de bondad de ajuste Chi-cuadrada.  La prueba Chi-cuadrada de asociación. Ambas pruebas se utilizan para determinar si las frecuencias observadas (O) en las categorías difieren significativamente de las frecuencias esperadas (E). Es una prueba estadística para evaluar hipótesis acerca de la relación entre dos variables categóricas. CARACTERÍSTICAS: La distribución X2 se lee con grados de libertad G.L =(N° de filas -1)* (N° de columnas -1). No tiene valores negativos. El valor mínimo es cero (0). Todas las curvas son asimétricas. Cuando aumentan los G.L las curvas son menos elevadas y más extendidas a la derecha. Se utiliza para variables medidas en escala nominal u ordinal. Las fórmulas son: ∑|

|

ACID EN BASE DE DATOS: ACID son siglas que significan Atomicity, Consistency, Isolation, Durability o, en español, Atomicidad, Consistencia, Aislamiento y Durabilidad. En informática, ACID es un conjunto de características o propiedades que garantizan que las transacciones en una base de datos son fiables. En el contexto de bases de datos, una transacción es una única operación sobre los datos. Un ejemplo de una transacción más compleja es la transferencia de fondos de una cuenta a otra, la cual implica múltiples operaciones individuales. Si un sistema supera la prueba ACID, significa que es fiable. Propiedades ACID  Atomicidad: cualquier cambio de estado que produce una transacción es atómico. Es decir, ocurren todos o no ocurre ninguno. En otras palabras, esta propiedad asegura que una operación se realiza o no se realiza, por lo tanto no puede quedar el sistema a medias.  Consistencia: propiedad que asegura que una transacción no romperá con la integridad de una base de datos, pues respeta todas las reglas y directrices de ésta.  Aislamiento: propiedad que asegura que no se afectarán entre sí las transacciones. En otras palabras, dos o más transacciones sobre los mismos datos no generarán un problema.  Durabilidad: propiedad que asegura la persistencia de una transacción, es decir, una vez que la transacción quedó aceptada no podrá deshacerse aunque falle el sistema. Formas Normales Las formas normales son aplicadas a las tablas de una base de datos. Decir que una base de datos está en la forma normal N es decir que todas sus tablas están en la forma normal N. En general, las primeras tres formas normales son suficientes para cubrir las necesidades de la mayoría de las bases de datos. El creador de estas 3 primeras formas normales (o reglas) fue Edgar F. Codd. Primera Forma Normal (1FN) Una tabla está en Primera Forma Normal sólo si todos los atributos son atómicos. Un atributo es atómico si los elementos del dominio son indivisibles, mínimos. La tabla contiene una clave primaria. La tabla no contiene atributos nulos. Si no posee ciclos repetitivos. Una columna no puede tener múltiples valores. Los datos son atómicos. (Si a cada valor de X le pertenece un valor de Y, entonces a cada valor de Y le pertenece un valor de X) Esta forma normal elimina los valores repetidos dentro de una BD

Segunda Forma Normal (2FN) Dependencia Funcional. Una relación está en 2FN si está en 1FN y si los atributos que no forman parte de ninguna clave dependen de forma completa de la clave principal. Es decir que no existen dependencias parciales. En otras palabras podríamos decir que la segunda forma normal está basada en el concepto de dependencia completamente funcional. Una dependencia funcional es completamente funcional si al eliminar los atributos A de X significa que la dependencia no es mantenida, esto es que A Є X, (X – {A}) -x-> Y. Una dependencia funcional es una dependencia parcial si hay algunos atributos que pueden ser removidos de X y la dependencia todavía se mantiene, esto es A Є X, (X – {A}) -> Y. Por ejemplo {SSN, PNUMBER} HOURS es completamente dependiente dado que ni SSN HOURS ni PNUMBER HOURS mantienen la dependencia. Sin embargo {SSN, PNUMBER} ENAME es parcialmente dependiente dado que SSN ENAME mantiene la dependencia. Tercera Forma Normal La tabla se encuentra en 3FN si es 2FN y cada atributo que no forma parte de ninguna clave, depende directamente y no transitivamente, de la clave primaria. Un ejemplo de este concepto sería que, una dependencia funcional X->Y en un esquema de relación R es una dependencia transitiva si hay un conjunto de atributos Z que no es un subconjunto de alguna clave de R, donde se mantiene X->Z y Z->Y. Por ejemplo, la dependencia SSN->DMGRSSN es una dependencia transitiva en EMP_DEPT de la siguiente figura. Decimos +son mantenidas, y DNUMBER no es un subconjunto de la clave de EMP_DEPT. Intuitivamente, podemos ver que la dependencia de DMGRSSN sobre DNUMBER es indeseable en EMP_DEPT dado que DNUMBER no es una clave de EMP_DEPT. Forma Normal de Boyce-Codd (FNBC) La tabla se encuentra en BCNF si cada determinante, atributo que determina completamente a otro, es clave candidata. Cuarta Forma Normal (4FN) Una tabla se encuentra en 4FN si, y sólo si, para cada una de sus dependencias múltiples no funcionales X->->Y, siendo X una super-clave que, X es o una clave candidata o un conjunto de claves primarias. Quinta Forma Normal (5FN) Una tabla se encuentra en 5FN si: La tabla esta en 4FN No existen relaciones de dependencias no triviales que no siguen los criterios de las claves. Una tabla que se encuentra en la 4FN se dice que está en la 5FN si, y sólo si, cada relación de dependencia se encuentra definida por las claves candidatas.

Las formas normales se corresponden a una teoría de normalización iniciada por el propio Codd y continuada por otros autores (entre los que destacan Boyce y Fagin). Codd definió en 1970 la primera forma normal, desde ese momento aparecieron la segunda, tercera, la Boyce-Codd, la cuarta y la quinta forma normal. Una tabla puede encontrarse en primera forma normal y no en segunda forma normal, pero no al contrario. Es decir los números altos de formas normales son más restrictivos (la quinta forma normal cumple todas las anteriores). La teoría de formas normales es una teoría absolutamente matemática, pero en el presente manual se describen de forma más intuitiva. Hay que tener en cuenta que muchos diseñadores opinan que basta con llegar a la forma BoyceCodd, ya que la cuarta, y sobre todo la quinta, forma normal es polémica. Hay quien opina que hay bases de datos peores en quinta forma normal que en tercera. En cualquier caso debería ser obligatorio para cualquier diseñador llegar hasta la forma normal de Boyce-Codd. PRIMERA FORMA NORMAL (1FN) Es una forma normal inherente al esquema relacional. Es decir toda tabla realmente relacional la cumple. Se dice que una tabla se encuentra en primera forma normal si impide que un atributo de una tupla pueda tomar más de un valor. La tabla: TRABAJADOR DNI

Nombre

Departamento

12121212 A

Andrés

Mantenimiento

12345345G

Andrea

Dirección Gestión

Visualmente es una tabla, pero no una tabla relacional (lo que en terminología de bases de datos relacionales se llama relación). No cumple la primera forma normal. Sería primera forma normal si los datos fueran: TRABAJADOR DNI

Nombre

Departamento

12121212 A

Andrés

Mantenimiento

12345345G

Andrea

Dirección

12345345G

Andrea

Gestión

Esa tabla sí está en primera forma normal. SEGUNDA FORMA NORMAL (2FN) Ocurre si una tabla está en primera forma normal y además cada atributo que no sea clave, depende de forma funcional completa respecto de cualquiera de las claves. Toda la clave principal debe hacer dependientes al resto de atributos, si hay atributos que depende sólo de

parte de la clave, entonces esa parte de la clave y esos atributos formarán otra tabla. Ejemplo: ALUMNOS DNI

Cod Curso

Nombre

Apellido1

Nota

12121219A

34

Pedro

Valiente

9

12121219A

25

Pedro

Valiente

8

3457775G

34

Ana

Fernández

6

5674378J

25

Sara

Crespo

7

5674378J

34

Sara

Crespo

6

Suponiendo que el DNI y el código de curso formen una clave principal para esta tabla, sólo la nota tiene dependencia funcional completa. El nombre y los apellidos dependen de forma completa del DNI. La tabla no es 2FN, para arreglarlo: ASISTENCIA ALUMNOS DNI

Nombre

Apellido1

12121219A

Pedro

Valiente

3457775G

Ana

Fernández

5674378J

Sara

Crespo

DNI

Cod Curso

Nota

12121219A

34

9

12121219A

25

8

3457775G

34

6

5674378J

25

7

5674378J

34

6

TERCERA FORMA NORMAL (3FN) Ocurre cuando una tabla está en 2FN y además ningún atributo que no sea clave depende transitivamente de las claves de la tabla. Es decir no ocurre cuando algún atributo depende funcionalmente de atributos que no son clave. Ejemplo: ALUMNOS DNI

Nombre

Apellido1

Cod Provincia

Provincia

12121349A

Salvador

Velasco

34

Palencia

12121219A

Pedro

Valiente

34

Palencia

3457775G

Ana

Fernández

47

Valladolid

5674378J

Sara

Crespo

47

Valladolid

3456858S

Marina

Serrat

08

Barcelona

La Provincia depende funcionalmente del código de provincia, lo que hace que no esté en 3FN. El arreglo sería: ALUMNOS DNI

Nombre

Apellido1

Cod Provincia

12121349A

Salvador

Velasco

34

12121219A

Pedro

Valiente

34

3457775G

Ana

Fernández

47

5674378J

Sara

Crespo

47

3456858S

Marina

Serrat

08

PROVINCIA Cod Provincia

Provincia

34

Palencia

47

Valladolid

08

Barcelona

Forma Normal de Boyce-Codd (FNBC) (BCFN) Ocurre si una tabla está en tercera forma normal y además todo determinante es una clave candidata. Ejemplo: TUTORÍAS DNI

Asignatura

Tutor

12121219 A

Lenguaje

Eva

12121219 A

Matemáticas

Andrés

3457775G

Lenguaje

Eva

5674378J

Matemáticas

Guillermo

5674378J

Lenguaje

Julia

5634823H

Matemáticas

Guillermo

Esa tabla está en tercera forma normal (no hay dependencias transitivas), pero no en forma de Boyce - Codd, ya que (DNI, Asignatura) -Tutor y Tutor-Asignatura y Tutor-/-(DNI ,Asignatura). En este caso la redundancia ocurre por mala selección de clave. La redundancia de la asignatura es completamente evitable. La solución sería: TUTORÍAS ASIGNATURASTUTOR

DNI

Tutor

12121219 A

Eva

Asignatura

Tutor

12121219 A

Andrés

Lenguaje

Eva

3457775 G

Eva

Matemáticas

Andrés

5674378 J

Guillermo

Matemáticas

Guillermo

5674378 J

Julia

Lenguaje

Julia

5634823 H

Guillermo

En las formas de Boyce-Codd hay que tener cuidado al descomponer ya que se podría perder información por una mala descomposición

Cuarta forma normal (4FN). Dependencias Multivaluadas Dependencia multivaluada Para el resto de formas normales (las diseñadas por Fagin, mucho más complejas), es importante definir este tipo de dependencia, que es distinta de las funcionales. Si las funcionales eran la base de la segunda y tercera forma normal (y de la de Boyce-Codd), éstas son la base de la cuarta forma normal. Una dependencia multivaluada de X sobre Y (es decir X->>Y), siendo X e Y atributos de la misma tabla, ocurre cuando Y tiene un conjunto de valores bien definidos sobre cualquier valor de X. Es decir, dado X sabremos los posibles valores que puede tomar Y. Se refiere a posibles valores (en plural) y se trata de que los valores de ese atributo siempre son los mismos según el valor de un atributo y no del otro. Ejemplo: Nº Curso Profesor Material 17

Eva

1

17

Eva

2

17

Julia

1

17

Julia

2

25

Eva

1

La tabla cursos, profesores y materiales del curso. La tabla está en FNBC ya que no hay dependencias transitivas y todos los atributos son clave sin dependencia funcional hacia ellos. Sin embargo hay redundancia. Los materiales se van a repetir para cualquier profesor dando cualquier curso, ya que los profesores van a utilizar todos los materiales del curso (de no ser así no habría ninguna redundancia).

Los materiales del curso dependen de forma multivaluada del curso y no del profesor en una dependencia multivaluada (no 25 Eva 3 hay dependencia funcional ya que los posibles valores son varios). Para el par Nº de curso y Profesor podemos saber los materiales; pero lo sabemos por el curso y no por el profesor. 25

Eva

2

Cuarta forma normal (4FN) Ocurre esta forma normal cuando una tabla está en forma normal de Boyce Codd y toda dependencia multivaluada es una dependencia funcional. Para la tabla anterior la solución serían dos tablas: Nº Curso

Material

17

1

Nº Curso

Profesor

17

2

17

Eva

25

1

17

Julia

25

2

25

Eva

25

3

Un teorema de Fagin indica cuando hay tres pares de conjuntos de atributos X, Y y Z si ocurre X>>Y y X->>Z (Y y Z tienen dependencia multivaluada sobre X), entonces las tablas X, Y y X, Z reproducen sin perder información lo que poseía la tabla original. Este teorema marca la forma de dividir las tablas hacia una 4FN

QUINTA FORMA NORMAL (5FN) Dependencias de JOIN o de reunión Una proyección de una tabla es la tabla resultante de tomar un subconjunto de los atributos de una tabla (se trata de la operación proyección, , del álgebra relacional). Se dice que se tiene una tabla con dependencia de tipo JOIN si se puede obtener esa tabla como resultado de combinar (mediante la operación JOIN del álgebra relacional) varias proyecciones de la misma.

Quinta forma normal (5FN) Ocurre cuando está en 4FN y además no hay proyecciones que combinadas formen la tabla original, o si las hay son consecuencia de aplicar la clave principal. Es la más compleja y polémica de todas. Polémica pues no está claro en muchas ocasiones está muy claro que el paso a 5FN mejore la base de datos. Fue definida también por Fagin. En definitiva una tabla está en 5FN si está en 4FN y no hay restricciones impuestas por el creador de la base de datos. Es raro encontrarse este tipo de problemas cuando la normalización llega a 4FN. Se deben a restricciones muy concretas.

Ejemplo: Proveedor

Material

Proyecto

1

1

2

1

2

1

2

1

1

1

1

1

Indican códigos de material suministrado por un proveedor y utilizado en un determinado proyecto. Si ocurre una restricción especial como por ejemplo: Cuando un proveedor nos ha suministrado alguna vez un determinado material, si ese material aparece en otro proyecto, haremos que el proveedor nos suministre también ese material para ese proyecto. Eso ocurre en los datos como el proveedor número 1 nos suministró el material número 1 para el proyecto 2 y en el proyecto 1 utilizamos el material 1, aparecerá la tupla proveedor 1, material 1 y proyecto 1. La dependencia que produce esta restricción es lejana y se la llama de reunión. Para esa restricción esta división en tablas sería válida:

Proveedor

Material

Material

Proyecto

1

1

1

2

1

2

2

1

2

1

1

1

Esa descomposición no pierde valores en este caso, sabiendo que si el proveedor nos suministra un material podremos relacionarle con todos los proyectos que utilizan ese material. Resumiendo, una tabla no está en quinta forma normal si hay una descomposición de esa tabla que muestre la misma información que la original. Normalmente se crean tablas en quinta forma normal cuando en la misma tabla hay muchos atributos y es casi inmanejable o cuando hay muchos registros y pocos atributos. En el caso de que haya muchos atributos se divide la tabla en dos donde la clave es la misma en ambas tablas.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF