ESTADÍSTICA PARA INVESTIGADORES CON MATLAB

February 17, 2017 | Author: Gilberto Naranjo Rodriguez | Category: N/A
Share Embed Donate


Short Description

Download ESTADÍSTICA PARA INVESTIGADORES CON MATLAB...

Description

FACULTAD DE INGENIERÍA. PROGRAMA: INGENIERÍA DE SISTEMAS

mean

PROBABILIDAD Y ESTADÍSTICA CON MATLAB® PARA INVESTIGADORES Curso básico Héctor José Pabón Ángel MSc.

2011

UNIVERSIDAD

~1~ CUNDINAMARCA SECCIONAL UBATÉ

DE

PROBABILIDAD Y ESTADÍSTICA CON MATLAB® PARA INVESTIGADORES

POR:

HÉCTOR JOSÉ PABÓN ÁNGEL MSc.

UNIVERSIDAD DE CUNDINAMARCA SECCIONAL UBATÉ PROGRAMA DE INGENIERÍA 2011 2

CONTENIDO Pág. 8 8 8 9 9 11 11 14 17 21 23 24 27 29 30

1. 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 1.10 1.11 1.12 1.13 1.14

ELEMENTOS DE MATLAB® INTRODUCCIÓN ALGUNAS OPERACIONES BÁSICAS CON MATLAB® LOS NÚMEROS EN MATLAB® Y LOS FORMATOS NUMÉRICOS OPERACIONES ARITMÉTICAS FUNCIONES MATEMÁTICAS DE MATLAB® VECTORES MATRICES CREACIÓN DE MATRICES ESPECIALES OPERACIONES CON MATRICES CADENAS DE IMPRESIÓN SOLUCIÓN DE ECUACIONES LINEALES GRAFICACIÓN CON MATLAB® SUBPLOT DEFINICIÓN DE FUNCIONES

2. 2.1 2.2 2.3 2.4 2.5 2.6 2.7 2.8 2.9 2.10 2.11 2.12 2.13 2.13.1 2.13.2 2.13.3 2.14 2.14.1 2.14.2 2.14.3 2.14.4

PROBABILIDAD INTRODUCCIÓN ESPACIO MUESTRAL EVENTO COMBINATORIA PROBABILIDAD DE UN EVENTO PROBABILIDAD CONDICIONAL EVENTOS INDEPENDIENTES VARIABLES ALETAORIAS DISTRIBUCIONES DISCRETAS DE PROBABILIDAD DISTRIBUCIÓN CONTINUA DE PROBABILIDAD ESPERANZA MATEMÁTICA VARIANZA DISTRIBUCIONES DISCRETAS Distribución binomial Distribución hipergeométrica Distribución de Poisson DISTRIBUCIONES CONTINUAS Distribución normal Distribución 2 (o JI-cuadrado) Distribución t de Student Distribución F

32 32 32 32 33 34 36 37 37 38 40 41 43 45 45 47 48 50 50 57 58 59

3. 3.1 3.1.1 3.1.2

ANÁLISIS ESTADÍSTICO ESTADÍSTICA DESCRIPTIVA Estadígrafos de posición Estadígrafos de dispersión

61 61 66 66

4. 4.1 4.2

TEORÍA DE MUESTREO INFERENCIA ESTADÍSTICA PRUEBA DE HIPÓTESIS

72 75 75 3

5. 5.1 5.2 5.3

AJUSTES DE CURVAS Y REGRESIÓN INTRODUCCIÓN REGRESIÓN LINEAL SIMPLE DIAGRAMAS DE DISPERSIÓN APÉNDICE 1 APÉNDICE 2 APÉNDICE 3 APÉNDICE 4 GLOSARIO BIBLIOGRAFÍA FUENTES DE INFORMACIÓN ELECTRÓNICA

4

88 88 88 89 98 99 100 101 103 108 111

LISTA DE FIGURAS Pág. FIGURA 1.1 FIGURA 1.2 FIGURA 1.3 FIGURA 1.4 FIGURA 1.5

Gráfica de la función y = ex+10 Gráfica de malla para la superficie Z = -3X + Y Gráfica de la superficie z = Varios gráficos en una misma ventana utilizando la función subplot Varios gráficos en una misma ventana utilizando la función

27 28 28 29 30

subplot

FIGURA 1.6 FIGURA 2.1 FIGURA 2.2 FIGURA 2.3 FIGURA 2.4 FIGURA 2.5 FIGURA 2.6 FIGURA 2.7 FIGURA 2.8 FIGURA 2.9 FIGURA 2.10 FIGURA 2.11 FIGURA 2.12 FIGURA 2.13 FIGURA 2.14 FIGURA 3.1 FIGURA 3.2 FIGURA 3.3 FIGURA 3.4 FIGURA 3.5 FIGURA 3.6 FIGURA 3.7 FIGURA 3.8 FIGURA 3.9 FIGURA 3.10 FIGURA 5.1 FIGURA 5.2 FIGURA 5.3 FIGURA 5.4 FIGURA 5.5 FIGURA 5.6 FIGURA 5.7 FIGURA 5.8

Gráfica de la función f(x) = ex – 2x/(1 + x3) (a) Diagrama de Venn de eventos mutuamente excluyentes (b) (disyuntos) Diagrama de Venn de la variable aleatoria X del ejemplo 2.7 Histograma de probabilidad Distribución acumulada discreta Distribución de Poisson con  = 2 y k ≤ 10 Función de densidad de la variable aleatoria normal X con  = 0 y = 1 Distribuciones normales con  = -3,  = 0 y  = 3 y  constante Distribuciones normales con igual media 0 y varianzas diferentes Histograma del ejemplo 2.27 Histograma del ejemplo 2.28 Función de distribución acumulada para la curva normal Distribución 2 con 2, 4, 6 y 8 grados de libertad con azul, verde, rojo, azul claro, respectivamente Distribución “t” con 1 (azul), 2 (verde), 5 (rojo), 100 (azul claro) grados de libertad Distribuciones F con 8 y 12 grados de libertad (azul), y 12 y 24 grados de libertad (verde) Gráfico de sectores (pie) Histograma de frecuencias con seis clases del ejemplo 3.2 Diagrama de barras verticales Diagrama de barras horizontales Gráfico de racimo Polígono de frecuencias (rojo) Histograma y curva normal Histograma y curva normal Asimetrías Curtosis No existe relación entre los vectores de datos x e y Relación lineal positiva Relación lineal negativa Relación curvilínea Línea recta de ajuste por mínimos cuadrados Ajuste lineal y cuadrático Regresión lineal para la data del ejemplo 5.1 y límite de confianza de y Gráfico de la distribución acumulativa normal de las desviaciones de la línea que aparece adecuada en la figura anterior 5

31 33 38 39 39 48 50 51 52 52 53 57 58 59 60 64 64 64 65 65 65 67 69 69 70 89 89 90 90 91 92 94 94

FIGURA 5.9 FIGURA 5.10

Recta de regresión estimada de las notas de Matemática I respecto al puntaje de ingreso a la universidad Gráfico de la distribución acumulativa normal de las desviaciones

6

95 96

LISTA DE TABLAS Pág. TABLA 2.1 Datos de estudiantes de la Universidad X TABLA 3.1 Clases vs frecuencias TABLA 5.1 Data de la variable independiente x, y la variable dependiente y

7

36 64 93

PROBABILIDAD Y ESTADÍSTICA CON MATLAB® PARA INVESTIGADORES ¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯¯

1. ELEMENTOS DE MATLAB® 1.1 INTRODUCCIÓN En esta sección se discutirán algunos tópicos de programación con MATLAB®. El nombre de MATLAB® es una abreviatura de “Matrix Laboratory”. MATLAB® es un paquete para computación numérica extremadamente potente. Con MATLAB® se pueden dar comandos directos, como una calculadora de mano o se pueden escribir programas. MATLAB® existe como un programa de aplicación primaria con una librería bastante amplia de módulos de programas llamados “Toolbox standard”. Los Toolbox de MATLAB®, contienen una librería amplia para resolver muchos problemas prácticos de estadística, tales como interpolación, regresión, medidas de tendencia central, medidas de dispersión, inferencia estadística, graficación, entre otros muchos temas. MATLAB® es un paquete de software matemático basado en matrices. Está altamente optimizado y es un sistema muy confiable. Muchas tareas numéricas pueden ser expresadas en forma concisa en el lenguaje del álgebra lineal sin mucha dificultad como ocurriría en otro lenguaje de programación no optimizado para matemáticas. 1.2 ALGUNAS OPERACIONES BÁSICAS CON MATLAB® El prompt >> está dado por el sistema y se requiere dar para ejecutar un comando MATLAB® Es posible incluir comentarios en el espacio de trabajo de MATLAB®, escribiendo “%” después de la sentencia, para indicar que es un comentario. Ejemplo 1.1 >>% este es un comentario que no es ejecutable.

Ejemplo 1.2 Para buscar ayuda en un tópico específico, se puede escribir: >>help format %busca ayuda sobre format

Un punto y coma colocado al final de una expresión hace que la ejecución del comando no sea visible al usuario. Sin el punto y coma, se muestra el resultado de la ejecución.

8

Ejemplo 1.3 Uso del punto y coma. >>A=[1 2 3;4 5 6;7 8 9]; % no muestra la matriz >>A=[1 2 3;4 5 6;7 8 9] % muestra la matriz

1.3 LOS NÚMEROS EN MATLAB® Y LOS FORMATOS NUMÉRICOS Las variables numéricas son almacenadas en MATLAB® en doble precisión, formato de punto flotante. Es posible forzar algunas variables a otros tipos, pero no de una manera fácil y esta capacidad no es necesaria por ahora. Por defecto, la salida a la pantalla es de cuatro dígitos a la derecha del punto decimal. Ejemplo 1.4 Para determinar el formato de salida de pantalla, se usa el comando format, así: >>format short %formato con cuatro dígitos decimales >>pi ans = 3.1416 >>format long % formato con 14 cifras decimales >>pi ans = 3.14159265358979 >>format short e %notación científica corta >>pi ans = 3.1416e + 000

Como parte de su sintaxis y su semántica, MATLAB® está previsto para dar valores excepcionales. Más infinito (+) está representado por Inf, menos infinito (-) por –inf, y “no es un número” por NAN (not a number). Estos valores excepcionales se encuentran a menudo a través de cálculos en MATLAB®. 1.4 OPERACIONES ARITMÉTICAS La aritmética en MATLAB® sigue las reglas y uso de los símbolos de la computación estándar para los signos de las operaciones aritméticas. Símbolo

Efecto

+ *

Adición o suma Substracción o resta Multiplicación o producto 9

/ ^  pi, e

División Potencia Conjugada transpuesta Constantes

En el presente contexto se considerarán estas operaciones como operaciones aritméticas con escalares. Ejemplo 1.5 >>(4-2+3*pi)/2 ans = 5.7124 >>a=2; >>b=sin(a); >>2*b^2 ans = 1.6537

Las operaciones aritméticas con MATLAB® son mucho más potentes que éstas del ejemplo 1.5, como se verá más adelante. Hay algunas operaciones aritméticas que requieren gran cuidado. El orden en el cual la multiplicación y la división se especifican es especialmente importante. Ejemplo 1.6 El orden de ejecución de las operaciones siguen un orden estricto de acuerdo a la prioridad establecida por MATLAB® >>a=2; >>b=3; >>c=4;

Aquí, ante la ausencia de paréntesis, las dos operaciones se ejecutan de izquierda a derecha como sigue: >>a/b*c ans = 2.6667

Las operaciones aritméticas ejecutadas es equivalente a (a/b)*c, que es diferente a: a/(b*c) >> a/(b*c) ans = 0.1667 10

1.5 FUNCIONES MATEMÁTICAS DE MATLAB® Todas las funciones matemáticas estándar, llamadas funciones elementales que se necesitan en este curso están disponibles en MATLAB® usando sus nombres matemáticos usuales. Símbolo abs(x) sqrt(x) sin(x) cos(x) tan(x) log(x) exp(x) atan(x) acos(x) asin(x) cosh(x)

Efecto Valor absoluto Raíz cuadrada Función seno Función coseno Función tangente Función logaritmo natural Función exponencial Función tangente inversa Función coseno inversa Función seno inversa Función coseno hiperbólico

sinh(x)

Función seno hiperbólico

Nótese que las funciones trigonométricas su argumento debe estar en radianes (o número puro) y no en grados. Ejemplo 1.7 Calcular cos(pi/3) >> cos(pi/3) ans = 0.5000

Como se dijo antes, las variables aparecen como escalares. De hecho, todas las variables en MATLAB® son arreglos. Un aspecto importante de MATLAB® es que se trabaja muy eficientemente con arreglos y las tareas principales son mejor trabajadas con arreglos. 1.6 VECTORES En MATLAB® la palabra vector puede ser realmente interpretada como una lista de números. Estrictamente, podría ser una lista de otros objetos no numéricos, pero por ahora, decir esto es más que suficiente y llena las expectativas del curso. Hay dos clases básicas de vectores en MATLAB®: vector fila y vector columna.

11

Ejemplo 1.8 Definir un vector fila y un vector columna >> x=[1 2 3 4 5] %define el vector x x= 1 2 3 4 5 >> y=[1;2;3;4;5] %define el vector columna y y= 1 2 3 4 5 >> x(3) %muestra el tercer elemento del vector x ans = 3 >> y(5) %muestra el quinto elemento del vector columna ans = 5 >> z=x(4)+3*x(2)+y(5) z = 15

Los dos puntos tienen un especial y potente rol. Básicamente, permite una forma fácil de definir un vector de números igualmente espaciados. Hay dos formas básicas de definir un vector en MATLAB® con esta la notación, utilizando los dos puntos. La primera se hace con dos argumentos separados por dos puntos, como sigue: Ejemplo 1.9 Definir un vector x con elementos igualmente espaciados por una unidad. >> x=-2:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a 1 x= -2

-1

0

1

2

3

4

La segunda es con tres argumentos separados por dos veces los dos puntos y tiene el efecto de especificar el valor inicial : espaciamiento : valor final. Ejemplo 1.10 Definir un vector y espaciando igualmente sus elementos con incrementos de 0.5 >> y=-2:0.5:4 %crea un vector que empieza con -2 y termina con 4 con incrementos de a 0.5 y= -2.0000 -1.5000 -1.0000 -0.5000 2.5000 3.0000 3.5000 4.0000

0

0.5000

12

1.0000

1.5000

2.0000

Ejemplo 1.11 También se puede utilizar la notación con dos puntos como sigue: >> z=x(2:6) %crea el vector z con los elementos desde x(2) hasta x(6) z= -1

0

1

2

3

>> w=y(2:6) %crea el vector w con los elementos desde y(2) hasta y(6) w= -1.5000

-1.0000

-0.5000

0

0.5000

MATLAB® tiene otros dos comandos para definir vectores de una manera adecuada. La primera se llama función linspace, que se usa para especificar un vector con un número dado de elementos igualmente espaciados entre un punto inicial y un punto final. Ejemplo 1.12 Definir un vector x en un intervalo dado con n elementos. >> x=linspace(1,2,5) %crea el vector x con 5 elementos en el intervalo [1,2] x= 1.0000

1.2500

1.5000

1.7500

2.0000

En el ejemplo 1.12, el vector x tiene 5 elementos acomodados entre 1 y 2, igualmente espaciados. El otro comando es llamado función logspace, que es similar a la función linspace, excepto que los elementos crecen igualmente espaciados en forma logarítmica, y también valor inicial

según 10

valor final

y 10

.

Ejemplo 1.13 Definir un vector x en forma logarítmica con n elementos >> x=logspace(1,5,5) x= 10

100

1000

10000

100000

Ejemplo 1.14 Se pueden usar vectores con MATLAB® para generar tablas de valores de funciones. >> x=linspace(0,1,11);%crea el vector x con 11 valores entre 0 y 1 >> y=cos(x);%crea el vector y con los 11 valores de cos(x) >> [x',y']%escribe los dos vectores x, y como columnas ans = 0

1.0000

0.1000 0.2000

0.9950 0.9801

0.3000

0.9553

0.4000

0.9211 13

0.5000

0.8776

0.6000

0.8253

0.7000 0.8000

0.7648 0.6967

0.9000

0.6216

1.0000

0.5403

Nótese que se utilizó el apóstrofe  para transponer los vectores, es decir, para convertir las filas en columnas. Ejemplo 1.15 Otra forma de usar los dos puntos es como sigue: >> y=sqrt(4+2*(0:0.3:2.4)') y= 2.0000 2.1448 2.2804 2.4083 2.5298 2.6458 2.7568 2.8636 2.9665

1.7 MATRICES Una matriz es un arreglo bidimensional de valores numéricos que obedecen las reglas del álgebra lineal. Para entrar una matriz, se listan todos los elementos de la matriz de la primera fila separados por espacios en blanco o comas, separando la primera fila de la segunda por punto y coma y así sucesivamente hasta la última fila, encerrando todos los elementos con corchetes. Para entrar una matriz de 3x4 de números se procede así: Ejemplo 1.16 Definir una matriz numérica de dimensión 3x4. >> A=[1 2 3 4;5 6 7 8;8 10 11 12]%crea la matriz A de tres filas y 4 columnas A= 1

2

3

4

5 8

6 10

7 11

8 12

Ejemplo 1.17 Si se quiere convertir un vector fila, en vector columna, se procede: >> [1 2 3]’ %el apóstrofe transpone el vector 14

ans = 1 2 3

Ejemplo 1.18 Los elementos de las matrices se pueden manipular de muchas maneras. >> A A= 1

2

3

4

5

6

7

8

8 10 11 12 >> A(2,3)%escribe el elemento localizado en la segunda fila y tercera columna ans = 7

Ejemplo 1.19 Se puede seleccionar una submatriz, de la siguiente forma: >> A([1 2 3],[1 2 3]) ans = 1 5

2 6

3 7

8

10

11

>> A([1:3],[1:3]) ans = 1 5

2 6

3 7

8

10

11

Ejemplo 1.20 Se puede borrar un elemento o un grupo de elementos de un vector o una matriz, asignando a esos elementos la matriz nula (cero), [ ]. >> x=[1 2 3 4 5 6]; >> x(4)=[ ] x= 1

2

3

5

6

>> A(:,1)=[ ] A= 2 6

3 7

4 8

10

11

12 15

Ejemplo 1.21 Para intercambiar dos filas de una matriz A, se digita el siguiente script: >> B=A([3 2 1]) B= 10

6

2

>> B=A([3 2 1],:) B= 10 6

11 7

12 8

2

3

4

>> A A= 2

3

4

6 10

7 11

8 12

Ejemplo 1.22 Para cambiar la segunda fila de una matriz A de 3x3 a [2 2 2], se ejecuta el siguiente script: >> A=[1 2 3;4 5 6;7 8 9] A= 1 4

2 5

3 6

7

8

9

>> A(2,:)=[2 2 2] A= 1

2

3

2 7

2 8

2 9

Ejemplo 1.23 Para cambiar la segunda columna de una matriz A de 3x3 a [2 2 2]’ se ejecuta el siguiente script: >> A=[1 2 3;4 5 6;7 8 9] A= 1

2

3

4

5

6

7 8 9 >> A(:,2)=[1 1 1] A= 1 4

1 1

3 6

7

1

9 16

1.8 CREACIÓN DE MATRICES ESPECIALES Hay muchas funciones incorporadas en MATLAB® que se utilizan para crear vectores y matrices especiales. Se tienen ejemplos como: Ejemplo 1.24 Crear la matriz cero. >> A=zeros(2,3)%crea la matriz A de 2 filas y tres columnas de ceros A= 0 0

0 0

0 0

>> A=zeros(3)%crea la matriz cuadrada A de ceros de orden 3 A= 0

0

0

0 0

0 0

0 0

Ejemplo 1.25 Crear una matriz de unos >> A=ones(2,3) A= 1

1

1

1 1 1 >> A=ones(3) A= 1 1

1 1

1 1

1

1

1

>> A=ones(2,3)' A= 1

1

1 1

1 1

Ejemplo 1.26 Crear la matriz identidad >> I3=eye(3) I3 = 1

0

0

0

1

0

0

0

1

>> I5=eye(5) 17

I5 = 1

0

0

0

0

0 0

1 0

0 1

0 0

0 0

0

0

0

1

0

0

0

0

0

1

Ejemplo 1.27 Crear una matriz diagonal >> x=[1 2 3]; >> A=diag(x) A= 1 0

0 2

0 0

0

0

3

>> A=diag([4 5 6]) A= 4 0

0 5

0 0

0

0

6

Ejemplo 1.28 Para extraer la diagonal de una matriz almacenada en memoria, se usa el nombre de la función diag, pero poniendo como entrada una matriz y presentando como salida alternativa un vector. >> A=diag([1 2 3]) A= 1

0

0

0

2

0

0

0

3

>> u=diag(A) u= 1 2 3

Ejemplo 1.29 Crear la función length y la función size, la cual se usa para determinar el número de elementos de un vector o una matriz. Estas funciones son muy útiles cuando se trata de matrices de tamaño desconocido o tamaño variable especialmente cuando se escriben bucles (loops). >> x=1:10 %crea el vector x de enteros entre 1 y 10 18

x= 1

2

3

4

5

6

7

8

9

10

>> length(x)%proporciona el número de elementos del vector x ans = 10

Ejemplo 1.30 Ahora se define el comando size, el cual retorna dos valores, correspondientes a las filas y columnas de la matriz en cuestión, donde el primer número corresponde a las filas y el segundo a las columnas. >> A=[1 2 3 4;5 6 7 8] A= 1 5

2 6

3 7

4 8

>> size(A) ans = 2

4

>> size(A') ans = 4

2

Ejemplo 1.31 Crear la matriz de raíces cuadradas de una matriz A, usando la función sqrt para obtener una matriz B cuyos elementos son las raíces cuadradas de los elementos de la matriz A. >> A A= 1

2

3

4

5

6

7

8

>> B=sqrt(A) B= 1.0000

1.4142

1.7321

2.0000

2.2361

2.4495

2.6458

2.8284

Ejemplo 1.32 Crear una matriz triangular superior de una matriz dada A, usando la función triu >> A=[1 2 3;4 5 6;7 8 9] A= 1

2

3

4

5

6

7 8 9 >> U=triu(A) 19

U= 1

2

3

0 0

5 0

6 9

>> U=triu(A,1) U= 0

2

3

0

0

6

0 0 0 >> U=triu(A,2) U= 0 0

0 0

3 0

0

0

0

Ejemplo 1.33 Crear una matriz triangular inferior, usando la función tril >> U=tril(A) U= 1

0

0

4 7

5 8

0 9

>> U=tril(A,-1) U= 0

0

0

4 7

0 8

0 0

>> U=tril(A,-2) U= 0

0

0

0

0

0

7

0

0

Ejemplo 1.34 Crear una matriz aleatoria nxn usando la función rand >> R=rand(3) %siempre va a salir una matriz diferente por ser aleatoria R= 0.8147

0.9134

0.2785

0.9058

0.6324

0.5469

0.1270

0.0975

0.9575

>> R=rand(2) %siempre va a salir una matriz diferente por ser aleatoria R= 20

0.9649

0.9706

0.1576

0.9572

1.9 OPERACIONES CON MATRICES Las operaciones básicas con matrices son la adición, substracción y multiplicación. Cuando dos matrices tienen el mismo tamaño, se pueden sumar y restar. También se puede multiplicar una matriz por escalar. Ejemplo 1.35 >> A=[-1 2 5 0; 1 -2 4 2; 1 2 3 4] A= -1 1

2 -2

5 4

0 2

1

2

3

4

>> B=[0 1 0 1; 2 -1 -4 3; 2 1 4 1] B= 0

1

0

1

2 2

-1 1

-4 4

3 1

>> A+B ans = -1

3

5

1

-3

0

5

3 3 >> A-B

7

5

-1 -1

3

ans = -1 -1

1 -1

5 8

-1

1

-1

3

>> 2*A-3*B ans = -2

1

10

-3

-4 -4

-1 1

20 -6

-5 5

>> B=B' %aquí se hace B igual a B transpuesta por conveniencia para efectuar la multiplicación B= 0 1

2 -1

2 1

0

-4

4

1

3

1 21

>> B*A %de esta manera se pueden multiplicar, pues el número de columnas de la primera debe ser igual al número de filas de la segunda. ans = 4 -1 0 3

0

14

6

4

16 -4 -2 20

12 2 8 10

>> A*B %en general A*B es diferente de B*A ans = 2 -24

20

0

-6

18

6

0

20

Ejemplo 1.36 Matemáticamente la operación de división de matrices no está definida, mas sin embargo se pueden realizar algunas operaciones adicionales como sigue: >> a=[1 2 3]; >> b=[2 -1 4]; >> c=a./b c= 0.5000 -2.0000 >> c=a.*b

0.7500

c= 2 -2 >> c=a.^2

12

c= 1 4 >> c=a.^a

9

c= 1 4 >> c=a.^b

27

c= 1.0000 >> B=B'

0.5000

81.0000

B= 0 2

1 -1

0 -4

1 3

2

1

4

1

>> C=A.*B C= 0

2

0

0

2 2

2 2

-16 12

6 4 22

>> C=C.^(1/2) C= 0 1.4142

1.4142 1.4142

0 0 0.0000 + 4.0000i 2.4495

1.4142

1.4142

3.4641

2.0000

1.10 CADENAS DE IMPRESIÓN Las cadenas son matrices cuyos elementos son caracteres. En aplicaciones más avanzadas tales como computación simbólica, la manipulación de cadenas es un tópico muy importante. Para el presente propósito, sin embargo, se necesitarán algunas herramientas limitadas al manejo elemental de tales cadenas. Ejemplo 1.37 >> nombre=' Hector'; >> apellido=' Pabon'; >> apellido=apellido' apellido = P a b o n

Ejemplo 1.38 Las matrices tipo “string” también pueden ser creadas como sigue: >> nombres=['Hector';'Pabon '] %las dos cadenas deben ser de la misma longitud, o completarse con blancos nombres = Hector Pabon

Ejemplo 1.39 La función disp toma únicamente un argumento, el cual puede ser ambos, o una matriz de caracteres o una matriz numérica. >> x=0:0.5:2*pi; >> y=cos(x); >> disp([x' y']) 0 0.5000

1.0000 0.8776

1.0000

0.5403

1.5000 2.0000

0.0707 -0.4161 23

2.5000

-0.8011

3.0000

-0.9900

3.5000 4.0000

-0.9365 -0.6536

4.5000

-0.2108

5.0000 5.5000

0.2837 0.7087

6.0000

0.9602

Ejemplo 1.40 Se pueden imprimir cadenas más complicadas con la función fprintf. Esta es esencial en los comandos de programación C, que se usan para obtener un amplio rango de especificaciones de impresión. >> fprintf('Mi nombre es: \n Hector Pabon \n') %donde \n es el comando de nueva línea Mi nombre es: Hector Pabon

Ejemplo 1.41 La función fprintf display

tiene especificaciones del número de dígitos en el

>> raiz2=fprintf('La raiz cuadrada de 2 es: %1.6f',(sqrt(2))) La raiz cuadrada de 2 es: 1.414214 >> raiz2=fprintf('La raiz cuadrada de 2 es: %1.6e',(sqrt(2))) La raiz cuadrada de 2 es: 1.414214e+000

1.11 SOLUCIÓN DE ECUACIONES LINEALES Para resolver un sistema de ecuaciones lineales de la forma: Ax = b, se puede ejecutar un comando de MATLAB®, de la siguiente manera: >>x = A\b % con A como una matriz no singular.

Ejemplo 1.42 Resolver el siguiente sistema de ecuaciones lineales:

>> A=[1 1 1;2 3 1;1 -1 -2]; %matriz de los coeficientes de las variables >> b=[2;3;-6]; %matriz de los terminos independientes >> x=A\b x= -1 1 2 24

Hay un pequeño número de funciones que pueden ser mencionadas a continuación: Ejemplo 1.43 Reducir una matriz A a la forma escalonada reducida por filas. >> rref(A) ans = 1

0

0

0

1

0

0

0

1

Ejemplo 1.44 Encontrar el determinante de una matriz A, usando la función det. >> det(A) ans = -5

Ejemplo 1.45 Encontrar el rango de una matriz, usando la función Rank. >> rank(A) ans = 3

Ejemplo 1.46 Encontrar la inversa de una matriz A no singular, usando la función inv. >> format rat %formato de la forma p/q >> inv(A) ans = 1 -1

-1/5 3/5

2/5 -1/5

1

-2/5

-1/5

Ejemplo 1.47 Encontrar la matriz aumentada [A b], la cual es una combinación de coeficientes de la matriz A y el lado derecho es el vector b del sistema lineal Ax = b. >> C=[A b] %escribe la matriz aumentada del sistema de ecuac. lineales C= 1 2

1 3

1 1

2 3

1

-1

-2

-6

>> rref(C) %lleva a la forma escalonada reducida por filas ans = 1 0 0 0 1 0 0 0 1 25

-1 1 2

Ejemplo 1.48 Descomposición LU de una matriz A, utilizando la función lu. >> [L,U]=lu(A) L= 1/2

1/5

1

1

0

0

1/2

1

0

U= 2

3

1

0 0

-5/2 0

-5/2 1

1

1

1

2

3

1

1

-1

-2

1

1

1

2

3

1

1

-1

-2

>> L*U ans =

>> A A=

Las raíces de un polinomio p(x) se pueden hallar utilizando la función roots, como roots(p). Ejemplo 1.49 Hallar las raíces del polinomio p(x) = 3x2 + 5x -6 >> p=[3 5 -6]; >> r=roots(p) r= -2.4748 0.8081

La función polyval se utiliza para evaluar un polinomio pn(x) en un punto particular x. Ejemplo 1.50 Hallar el valor de la función polinómica p3(x) = x3 – 2x + 12, en el punto dado x = 1.5 >> coef=[1 0 -2 12]; >> sol=polyval(coef,1.5) sol = 12.3750

26

1.12 GRAFICACIÓN CON MATLAB® Con MATLAB® se pueden realizar gráficas de 2 o 3 dimensiones de curvas y superficies. El comando plot se utiliza para generar gráficos de funciones bidimensionales. Primero se divide el intervalo en subintervalos de igual anchura. Luego se entra la expresión para la variable dependiente y en términos de la variable independiente x, y finalmente se crea el gráfico. Ejemplo 1.51 >> x=-2:0.1:2; >> y=exp(x)+10; >> plot(x,y) >> plot(x,y),grid %grid permite hacer las rejillas o cuadriculado

FIGURA 1.1 Gráfica de la función y = ex+10

Por defecto, la función plot conecta los puntos por medio de segmentos de línea sólida. Otras posibilidades que se pueden usar para cambiar la apariencia de la gráfica son: >> plot(x,y,'o'),grid >> plot(x,y,'*'),grid >> plot(x,y,'x'),grid >> plot(x,y,'.'),grid >> plot(x,y,'+'),grid >> plot(x,y,'-'),grid >> plot(x,y,'.-'),grid >> plot(x,y,'o-'),grid >> x=-2:0.1:2;% crea una malla para los ejes x , y >> y=x; >> [X,Y]=meshgrid(x,y); 27

>> Z= -3*X+Y; >> mesh(X,Y,Z)

FIGURA 1.2 Gráfica de malla para la superficie Z = -3X + Y

10

5

0

-5

-10 2 1

2 1

0

0

-1

-1 -2

-2

Ejemplo 1.52 Para crear una superficie de z = -5 ≤ y ≤ 5, se escriben las siguientes instrucciones:

en el dominio de -5 ≤ x ≤ 5,

>> x=linspace(-5,5,20); >> y=linspace(-5,5,20); >> [X,Y]=meshgrid(x,y); >> R=sqrt(X.^2+Y.^2+1)+eps; % este eps evita la división por cero en el origen >> Z=sin(R)./R; >> surf(X,Y,Z)

FIGURA 1.3 Gráfica de la superficie z =

28

1.13 SUBPLOT Muchas veces es conveniente colocar más de una figura en una misma ventana. Esto es posible con el comando gráfico llamado función subplot, lo cual se puede hacer como se muestra a continuación: Ejemplo 1.53 >> x=-2:0.1:2; >> y=x; >> [X,Y]=meshgrid(x,y); >> Z=2+(X.^2+Y.^2); >> subplot(2,2,1); mesh(x,y,Z); title('meshplot'); >> subplot(2,2,2); surf(x,y,Z); title('surfplot'); >> subplot(2,2,3); surfc(x,y,Z); title('surfcplot'); >> subplot(2,2,4); surfl(x,y,Z); title('surflplot');

FIGURA 1.4 Varios gráficos en una misma ventana utilizando la función subplot

>> x=linspace(-2*pi,2*pi); >> subplot(2,2,1); >> plot(x,cos(x));axis([-6.5 6.5 -1.2 1.2]); title('cos(x)') >> subplot(2,2,2); >> plot(x,cos(2*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(2x)') >> subplot(2,2,3); >> plot(x,cos(3*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(3x)') >> subplot(2,2,4); >> plot(x,cos(4*x));axis([-6.5 6.5 -1.2 1.2]); title('cos(4x)') 29

FIGURA 1.5 Varios gráficos en una misma ventana utilizando la función subplot

1.14 DEFINICIÓN DE FUNCIONES La sintaxis para definir funciones desde el editor de MATLAB®, tiene la siguiente forma: function = nombre_funcion(entrada de argumentos)

Ejemplo 1.54 Para definir la función f(x) = ex – 2x/(1 + x3), se escribe: >> x=(0:0.2:2); >> fx=fn2(x); >> [x',fx'] %genera la siguiente tabla: ans = 0

1.0000

0.2000

0.8246

0.4000 0.6000

0.7399 0.8353

0.8000

1.1673

1.0000 1.2000

1.7183 2.4404

1.4000

3.3073

1.6000 1.8000

4.3251 5.5227

2.0000

6.9446

Correspondiente al siguiente gráfico: >>plot(x,y) 30

FIGURA 1.6 Gráfica de la función f(x) = ex – 2x/(1 + x3)

31

2. PROBABILIDAD 2.1 INTRODUCCIÓN La probabilidad está asociada con muchas tendencias en eventos aleatorios naturales que siguen una cierta regularidad si el proceso se repite un suficiente número de veces. Por ejemplo, se puede considerar el evento del lanzamiento de una moneda no cargada. Si el experimento se repite un número suficiente de veces, en forma continua en un gran número de ensayos, se puede esperar que se logren el mismo número de caras que de sellos. Intuitivamente se puede decir que la probabilidad de obtener una cara es la misma que la de obtener un sello en una moneda justa (no cargada) y que ésta es de 0.5 o del 50%. 2.2 ESPACIO MUESTRAL Al conjunto de todos los resultados posibles de un experimento estadístico se le llama espacio muestral y generalmente se representa con la letra S. A cada resultado en un espacio muestral se llama elemento o punto del espacio muestral. Por ejemplo, al lanzar una moneda el conjunto muestral S está conformado por dos elementos: cara y sello. Ejemplo 2.1 En un experimento de lanzar un dado cúbico (seis caras) el espacio muestral está conformado por los puntos muestrales: S = {1, 2, 3, 4, 5, 6} 2.3 EVENTO En cualquier experimento el hecho de que ocurra cierta circunstancia se llama evento, por ejemplo al lanzar un dado corriente, un evento puede ser el hecho de obtener un número par, en cuyo caso está conformado por tres puntos muestrales: A = {2, 4, 6} Matemáticamente se puede definir un evento A como un subconjunto de un espacio muestral S. También se puede definir el complemento de un evento A con respecto a S como el conjunto de todos los elementos de S que no pertenecen a A y se denota como: A. En el ejemplo 2.1, el complemento está conformado por A = {1, 3, 5} La intersección de dos eventos A1 y A2, se representa con los símbolos A1A2, y es el evento que contiene todos los elementos comunes que pertenecen a A1 y A2. Dos eventos A1 y A2 son mutuamente excluyentes o disyuntos si A1A2 = , es decir, cuando no hay puntos muestrales comunes. 32

FIGURA 2.1 (a) Diagrama de Venn de eventos mutuamente excluyentes (disyuntos)

A2

A1

(b) Eventos que no son mutuamente excluyentes

A2

A1

La unión de dos eventos A1 y A2 se representa con el símbolo A1υA2 y es el evento que abarca a todos los elementos de A1 o A2 o a ambos. 2.4 COMBINATORIA Una combinación es el número posible de seleccionar r objetos de un total de n elementos, sin importar el orden. (1)

Ejemplo 2.2 Con MATLAB® se pueden generar combinaciones de un conjunto de n elementos tomados en partes de r elementos. Para el caso de un conjunto X = {1, 2, 3, 4, 5}, tomando subconjuntos de a dos elementos, se procede de la siguiente forma: >> v=[1 2 3 4 5] >> c2=combnk(v,2) c2 = 4 3

5 5

3

4

2 2

5 4

2

3 33

1

5

1

4

1 1

3 2

>> c4=combnk(v,4) c4 = 1

2

3

4

1 1

2 2

3 4

5 5

1

3

4

5

2

3

4

5

Una permutación es un arreglo de todos o parte de un conjunto de objetos. Desde luego que aquí sí importa el orden. Si se tienen tres letras diferentes como X = {v, e, a}, permutadas todas tres aparecen palabras diferentes como VEA, AVE, EVA …, que son palabras completamente diferentes. (2)

>> v=['e' 'v' 'a']; >> perms(v) ans = ave aev vae vea eva eav >> perms(0:2)%crea un vector con componentes 0, 1 y 2 y los permuta ans = 2

1

0

2 1

0 2

1 0

1

0

2

0 0

1 2

2 1

2.5 PROBABILIDAD DE UN EVENTO La probabilidad de un evento A es la suma de los pesos de todos los puntos muestrales de A. Así que: 34

P() = 0 ; P(S) = 1 ; 0 ≤ P(Ak) ≤ 1,

(3)

Para una población consistente de K posibles resultados, solamente una de los cuales puede ocurrir, para cada ensayo del experimento, se puede deducir la siguiente relación: P(A1) + P(A2) + P(A3) + … + P(Ak) = 1,

(4)

Ejemplo 2.3 Se lanza un dado (cúbico) una vez, ¿Cuál es la probabilidad de que caiga un número par? Solución. El espacio muestral para este experimento es: S = {1, 2, 3, 4, 5, 6}. A representa el evento de que caiga un número par, A = {2, 4, 6}, entonces la probabilidad de A es, P(A)=número de casos favorables/número de casos posibles = n/N = 3/6 = 0.5 = 50%. Si A1 y A2 son dos eventos cualesquiera se tiene que: P(A1 U A2) = P(A1) + P(A2) – P(A1  A2)

(5)

Pero si A1 y A2 son mutuamente excluyentes se tiene que: P(A1 U A2) = P(A1) + P(A2)

(6)

Ejemplo 2.4 ¿Cuál es la probabilidad de obtener al lanzar un dado un número par o un número mayor que 3? Solución. El espacio muestral es: S = {1, 2, 3, 4, 5, 6}, el evento A1 = {2, 4, 6} y A2 = {4, 5, 6}. A1A2 = {4} por tanto P(A1 U A2) = 3/6 + 3/6 – 1/6 = 5/6, utilizando (2) para sucesos que no son mutuamente excluyentes. Ejemplo 2.5. Se lanza un par de dados. ¿Cuál es la probabilidad de obtener 10 puntos u 11 puntos? Solución. El espacio muestral para este caso es: S = {(1,1),(1,2),(1,3),(1,4),(1,5),(1,6),(2,1),(2,2),(2,3),(2,4),(2,5),(2,6),(3,1),(3,2),(3,3),(3,4), (3,5),(3,6),(4,1),(4,2),(4,3),(4,4),(4,5),(4,6),(5,1),(5,2),(5,3),(5,4),(5,5),(5,6),(6,1),(6,2), (6,3), (6,4),(6,5),(6,6)} P(A1) = P({(4,6),(5,5),(6,4)} = 3/36 P(A2) = P({(5,6),(6,5)}) = 2/36 Por tanto, P(A1UA2) = 3/36 + 2/36 = 5/36, aplicando (3), ya que A1 y A2 son mutuamente excluyentes. 35

Ahora, si A1 y A2 son eventos complementarios, se tiene que: P(A1) + P(A) = 1

(7)

Ejemplo 2.6 Se lanza un dado. ¿Cuál es la probabilidad de no obtener un número múltiplo de 3? Solución. La probabilidad de obtener un número múltiplo de 3 es: P({3,6}) = 2/6 = 1/3. Por tanto, la probabilidad de no obtener un número múltiplo de 3 es: 1 - P({3,6}) = 1 - 1/3 = 2/3 aplicando (4). Ejemplo 2.7 Al lanzar tres monedas, se quiere determinar la probabilidad de obtener exactamente dos caras. Solución. El espacio muestral es: S = {ccc, ccs, csc, scc, css, scs, ssc, sss}. La probabilidad P({ccs, csc, scc}) = 3/8 2.6 PROBABILIDAD CONDICIONAL La probabilidad condicional de A2 dado A1, que se denota por P(A2|A1), se define como: P(A2|A1) = P(A1A2) / P(A1), si P(A) > 0; De (5), se puede obtener: P(A1A2) = P(A1) P(A2|A1);

(8) (9)

Ejemplo 2.8. Se tiene la siguiente tabla de estudiantes de la Universidad X TABLA 2.1. Datos de estudiantes de la Universidad X ESTUDIANTES DE PROGRAMA “A” 70 90 160

HOMBRES MUJERES TOTAL

ESTUDIANTES DE PROGRAMA “B” 80 60 140

TOTAL

Se va a seleccionar un estudiante al azar para ser becado. Los eventos son: H: seleccionar a un hombre I: seleccionar a un estudiante de ingeniería P(I) = 160/300 = 16/30 P(H  I) = 70/300 = 7/30 P(H | I) =

= 7/16, según (5) 36

150 150 300

Visto directamente desde la tabla 2.1 se obtiene el mismo resultado: P(H 7/16

|

I) = 70/160 =

2.7 EVENTOS INDEPENDIENTES Dados dos eventos A1 y A2, se dice que estos eventos son independientes siempre que: P(A1|A2) = P(A1), lo cual significa que la ocurrencia de A2 no incide en la ocurrencia de A1 Dicho de otra forma: dos eventos A1 y A2 son independientes sí y solo si: P(A2|A1) = P(A2)

y

P(A1|A2) = P(A1)

(10)

De otra forma A1 y A2 son dependientes. Ejemplo 2.9 Suponga que se tiene una tula con 20 balotas, de las cuales 15 son rojas y 5 azules. Se seleccionan dos balotas al azar una después de otra, sin reemplazamiento. ¿Cuál es la probabilidad de obtener dos balotas azules? Solución. Sea A1 el evento de obtener una balota azul en la primera extracción y A2 el evento de obtener una balota azul en la segunda extracción. P(A1A2) es la probabilidad de obtener una balota azul en la primera extracción y otra balota azul en la segunda extracción. P(A2|A1), es la probabilidad de obtener una balota azul en la segunda extracción, dado que la primera extracción fue también una balota azul (sin reemplazamiento). Según (6) se tiene: P(A1A2) = P(A1) P(A2|A1) = (5/20)(4/19) = 1/19 = 5.26% aproximadamente. Dos eventos son independientes sí y solo si P(A1A2) = P(A1) P(A2); 2.8 VARIABLES ALETAORIAS Una variable aleatoria es una función que asocia un número real con cada elemento del espacio muestral. Ejemplo 2.10 Se tienen tres monedas. Se lanzan todas tres simultáneamente. El espacio muestral es S = {ccc, ccs, csc, scc, ssc, scs, css, sss}, como en el ejemplo 2.7 Se define ahora variable aleatoria como una función que asocia un número real con cada elemento del espacio muestral. En el ejemplo 2.7, si se asocia el número de caras para cada elemento del espacio muestral, se tiene:

37

FIGURA 2.2 Diagrama de Venn de la variable aleatoria X del ejemplo 2.7 S X

0

ccc ccs csc scc ssc scs css sss

1 2 3

Se ve en la figura 2.2 que, la variable aleatoria X tiene como elementos X={0, 1, 2, 3}. Si un espacio muestral S posee un número finito de posibilidades o un número infinito con tantos elementos como números enteros positivos existen, se llama entonces, espacio muestral discreto. Si el anterior no fuese el caso, es decir, si S contiene un número infinito de posibilidades con tantos elementos como números reales existen en un segmento de línea, se llama espacio muestral continuo. 2.9 DISTRIBUCIONES DISCRETAS DE PROBABILIDAD El conjunto de parejas ordenadas (x, f(x)) es una función de probabilidad o distribución de probabilidad de la variable aleatoria X, si se cumple que para cada valor posible de x: f(x)  0 =1 P(X = x) = f(x) Según el ejemplo 2.10, f(x)  0, ya que f(0) = 1/8, f(1) = 3/8, f(2) = 3/8, f(3) = 1/8. >> x=[1/8 3/8 3/8 1/8]; >> y=[0 1 2 3] >> bar(y,x,’r’)

Se ve también claramente que

= 1/8 + 3/8 + 3/8 + 1/8 = 1

38

FIGURA 2.3 Histograma de probabilidad

La distribución acumulada F(x) de una variable aleatoria X con distribución de probabilidad f(x) es: F(x) = P(X ≤ x) =

, para - < x < 

(

)

Según el ejemplo 2.10, F(2) = P(X ≤ 2) = f(0) + f(1) + f(2) = 1/8 + 3/8 + 3/8 = 7/8 FIGURA 2.4 Distribución acumulada discreta

>> x=[1/8 4/8 7/8 8/8]; >> y=[0 1 2 3]; >> bar(y,x,'g') 39

2.10 DISTRIBUCIÓN CONTINUA DE PROBABILIDAD La probabilidad de una función aleatoria continua tiene algunas particularidades a tener en cuenta, como por ejemplo que P(X=x) para un valor particular x de la variable aleatoria X es cero, por tanto se toman intervalos para poder calcular su probabilidad. Si se desea calcular la probabilidad de que un estudiante de Ingeniería de la Universidad de Cundinamarca Seccional Ubaté tenga un índice de masa corporal1 de 20, la variable aleatoria se sabe que es continua y P(x=20) = 0, por propiedades de la integral definida. La función de densidad de probabilidad de una variable aleatoria continua se define como sigue: P(a < x < b) =

(12)

Una función f(x) es una función de densidad de probabilidad para la variable aleatoria continua X, definida en el conjunto de los , si cumple las siguientes condiciones:  

f(x)  0, para cada x    =1 



P(a < x < b) =

La distribución acumulada F(x) de una VAC X (variable aleatoria continua X) con función de densidad f(x) es: F(x) = P(X ≤ x) =

para - < x < 



(13)

Como consecuencia de la anterior definición se puede anotar que: P(a < X < b) = F(b) - F(a)

(14)

Ejemplo 2.11 Para la función de densidad definida como sigue: ,

-1 < x < 2

f(x) = 0,

para cualquier otro valor en 

Hallar: a) P(-1 < X < 2); b) P(-1 < X < 1); c) P(1 < X ≤ 2) 1

Índice de masa corporal es igual a: peso(kg)/altura2 (m)

40

Solución. Se utiliza el método de Simpson para calcular la integral de f(x), como ya se definió anteriormente. function SN=simpsonR(fn,a,b,n) %Regla trapezoidal compuesta h=(b-a)/n; s=(feval(fn,a)+feval(fn,b)); for k=1:2:n-1 s=s+4*feval(fn,a+k*h); end; for k=2:2:n-2 s=s+2*feval(fn,a+k*h); end; SN=(s*h)/3;

function y=fn(x) y=(1/3)*x.^2; a)>> simpsonR('fn',-1,2,10) ans = 1 b)>> simpsonR('fn',-1,1,10) ans = 0.2222 c)>> simpsonR('fn',1,2,10) ans = 0.7778

2.11 ESPERANZA MATEMÁTICA Sea X una VA con distribución de probabilidad f(x). La media o valor esperado de X es:  = E(X) =  = E(X) =

; para X discreta  

; para X continua

(15) (16)

Ejemplo 2.12. Al lanzar un dado (cúbico), la VAD se anota en la siguiente tabla, lo mismo que sus valores de probabilidad: X P(X = x)

1 1/6

2 1/6

3 1/6

4 1/6

E(X) = 1(1/6) + 2(1/6) + 3(1/6) + 4(1/6) + 5(1/6) + 6(1/6) = 21/6 = 3.5 41

5 1/6

6 1/6

Lo anterior se interpreta como que si se lanza un dado un gran número de veces y luego se promedia los distintos puntajes que se han obtenido entonces la media tiende a 3.5 Ejemplo 2.13 Supóngase que la variable aleatoria X se representa por el número de puntos que marca un dado corriente y la nueva VA como Y = 2x, los valores de esta variable son: {2, 4, 6, 8, 10, 12}. Los valores de probabilidad asociados son: Y P(Y = y)

2 1/6

4 1/6

6 1/6

8 1/6

10 1/6

12 1/6

E(Y) = 2(1/6) + 4(1/6) + 6(1/6) + 8(1/6) + 10(1/6) + 12(1/6) = 42/6 = 7 E(X) = 3.5 implica 2E(X) = 2(3.5) = 7 = E(2X) Ejemplo 2.14 Calcular E(X – 3). Solución. Aquí se tiene que E(X – 3) = E(X) – E(3) = 3.5 – 3 = 0.5, por propiedades del valor esperado. Propiedades del valor esperado:     

E(c) = c E(cX) = cE(X) E(X + c) = E(X) + c E(X + Y) = E(X) + E(Y) E(aX + bY) = aE(X) + bE(Y)

Ejemplo 2.15 Sea X la VAC que define la vida en horas de cierta bombilla doméstica. La función de densidad de probabilidad es: ,

x > 100

f(x) = para cualquier otro valor en 

0,  = E(X) = 

 

=



= -20000(1/x)|

=



=



= 200 horas

Si se quiere integrar utilizando el método de Simpson, se procede así: >> SN=simpsonR('fn',100,100000,1000000) SN = 1.0 42

=



=

function y=fn(x) y=20000/x^3;

Como se ve, f(x) cumple con la condición para la cual el área bajo la curva es 1. function y=fn(x) y=20000/x^2; >> SN=simpsonR('fn',100,100000,1000000) SN = 199.8

Que es aproximadamente 200 horas como se calculó manualmente para esta integral definida que es realmente fácil de calcular. 2.12 VARIANZA Sea X una VA con distribución de probabilidad f(x) y media , la varianza de X, para X discreta es: 2 = E[(X - )2] =  (17) Si X es continua se tiene: 2 = E[(X - )2] =

 



(18)

La raíz cuadrada de la varianza 2 se denomina desviación estándar de X. Ejemplo 2.16 Hallar la varianza para la VAD del “dado” del ejemplo 2.12. Solución. Como ya se sabe en el ejemplo 2.12,  = 3.5. 2 = E[(X - )2] = (1 - 3.5)²(1/6) + (2 - 3.5)²(1/6) + (3 - 3.5)²(1/6) + (4 - 3.5)²(1/6) + (5 3.5)²(1/6) + (6 - 3.5)²(1/6) = 2.9167 La desviación estándar es:  = 1.7078 >> E=((1-3.5)^2)/6 + ((2-3.5)^2)/6 +((3-3.5)^2)/6 +((4-3.5)^2)/6 +((5-3.5)^2)/6 +((63.5)^2)/6 E= 2.9167 >> s=sqrt(E) s= 1.7078 43

Ejemplo 2.17 La demanda mensual de un cierto artículo en una cadena de hipermercados es una VAC que tiene densidad de probabilidad: 2(2x-1),

1 SN=simpsonR('fn',1,2,10) SN = 1

Ahora se calcula  function y=fn(x) y=2*(x*(x-1)); >> SN=simpsonR('fn',1,2,10) SN = 5/3

Ahora se calcula E(X2) >> SN=simpsonR('fn',1,2,10) SN = 17/6 >> s2=17/6 - (5/3)^2 s2 = 1/18

44

(19)

2.13 DISTRIBUCIONES DISCRETAS 2.13.1 Distribución binomial. Si p es la probabilidad de éxito y q la probabilidad de fracaso, entonces la probabilidad P de que obtengan x éxitos en n ensayos, es el término del desarrollo binomial de (p + q)n, así: P(X=x) =

px qn-x

, x = 0, 1, 2, 3, …, n y 0 para cualquier otro valor de x,

(20)

Ejemplo 2.18 La probabilidad de que un estudiante que ingresa a la universidad se gradúe es de 0.6. Calcular la probabilidad de que 20 estudiantes que ingresan: 1. Ninguno se gradúe 2. Que se gradúen la mitad 3. Que se gradúen todos Solución. Se tiene que n = 20, p = 0.6 y por tanto q = 0.4, pues p + q = 1. Para n grande como en este caso es conveniente utilizar MATLAB® para agilizar los cálculos. 1. Que ninguno se gradúe >> p=binopdf(0,20,0.6) p= 1.0995e-008

Lo que es lo mismo que p = 1.0995 x 10-8 = 0.000000010995 un valor cercano a 0 2. Que se gradúen 10 >> p=binopdf(10,20,0.6) p= 0.1171

La probabilidad de que se gradúen la mitad dada en porcentaje es 11.71% 3. Que se gradúen todos los 20 >> p=binopdf(20,20,0.6) p= 3.6562e-005

Que es un valor bastante pequeño: p = 3.6562x10-5 = 0.000036562 Ejemplo 2.19 Encontrar la probabilidad de que diez personas que se encuentran en una reunión un sábado, a lo más 2 hayan nacido en este mismo día de la semana. 45

Solución. El trabajo más dispendioso del cálculo de probabilidades es cuando estas son acumuladas como en el presente ejemplo. En los libros aparecen al final, tablas que permiten solucionar el problema pero con algunas limitaciones, por lo incompletas y dispendiosa la forma de encontrarlas. En este caso se tiene que calcular P(x ≤ 4), que es probabilidad binomial acumulada. Se tiene que p = 1/7, q = 6/7, x = 0, 1, 2, 3, 4. >> p=binocdf(2,10,1/7) p= 0.8384

Ejemplo 2.20 Encontrar la probabilidad de que diez personas que se encuentran en una reunión un sábado, por lo menos 2 hayan nacido en este mismo día de la semana. Solución. Se tiene que p = 1/7, q = 6/7, x = 2, 3, 4, 5, 6, 7, 8, 9, 10. >> p = 1-binocdf(1,10,1/7) %se calcula la probabilidad complementaria p= 0.4292

O también utilizando la forma larga que es poco funcional, pero que sirve como prueba: >> y = binopdf(2,10,1/7) + binopdf(3,10,1/7) + binopdf(4,10,1/7) + binopdf(5,10,1/7) + binopdf(6,10,1/7) + binopdf(7,10,1/7) + binopdf(8,10,1/7) + binopdf(9,10,1/7) + binopdf(10,10,1/7) y= 0.4292

En general, para calcular con MATLAB® la probabilidad binomial acumulada p(x ≤ 7) para n = 20 y p = 0.3, se procede de la siguiente manera: >> p=binocdf(7,20,0.3) p= 0.7723

Ejemplo 2.21 De 100 monedas que son extraídas de una alcancía y puestas sobre una mesa, ¿Cuál es la probabilidad de que entre 50 y 70 monedas inclusive se encuentren mostrando cara? Solución. Se va a calcular P(50 ≤ x ≤ 70). >> p=binocdf(70,100,0.5)- binocdf(49,100,0.5) %se supone p=0.5 46

p= 0.5398

La media y la varianza de la distribución binomial b(x; n, p) son:

 = np

y

2 = npq

(21)

Ejemplo 2.22 Encuentre la media y la varianza del ejemplo 2.21 Solución. n = 100; p = ½ ; q = ½

 = np = 100(1/2) = 50 2 = npq = 100(1/2)(1/2) = 25 2.13.2 Distribución hipergeométrica. La distribución de probabilidad aleatoria hipergeométrica X, el número de éxitos en una muestra aleatoria de tamaño n que se selecciona de m artículos de los que k se denominan éxito y m-k fracaso, es:

h(x, m, n, k) =

,

x = 0, 1, 2, …, n

(22)

Esta distribución se aplica cuando de un grupo de m artículos, de los cuales k tienen cierta característica, son tomados n artículos, para saber el número de los seleccionados que tienen la característica mencionada x. Ejemplo 2.23 Se tienen 200 artículos de los cuales 50 son defectuosos. Si son tomados 10 artículos al azar, calcular la probabilidad de que salgan: a) exactamente cinco defectuosos b) cinco o menos defectuosos. Solución. m = 200; k = 50; n = 10. Con MATLAB se utiliza el siguiente comando: h = hygepdf(x, m, k, n) a) Para p(x = 5) >> h=hygepdf(5,200,50,10)%m = 200; k = 50; n = 10. h= 0.0558

b) Para p(x ≤ 5) Se utiliza el siguiente comando: hc = hygecdf(x, m, k, n) >> hc = hygecdf(5,200,50,10) hc = 0.9829 47

2.13.3 Distribución de Poisson. En una distribución binomial cuando n es grande, por lo general mayor de 50, y p, la probabilidad de éxito de un evento, se acerca a 0, mientras que q la probabilidad de fracaso se aproxima a 1 de tal manera que el producto np = , es menor o igual a 5, debe utilizarse la distribución de Poisson. También puede considerarse el caso cuando p es bastante grande cercana a 1 y también  > 5. En estos dos casos se puede aplicar esta distribución. P(x = k) = e  / k! -

k

(23)

Donde e es la base de los logaritmos naturales e = 2.71828182,  = np, k = número de casos favorables. La distribución de Poisson es utilizada en las líneas de espera, número de bacterias en un cultivo, insectos por unidad de superficie, número de fallas de una máquina por unidad de tiempo, entre otras. FIGURA 2.5 Distribución de Poisson con  = 2 y k ≤ 10

>> p0=poisspdf(0,2) p0 = 0.1353 >> p1=poisspdf(1,2) p1 = 0.2707 >> p2=poisspdf(2,2) p2 = 0.2707 >> p3=poisspdf(3,2) p3 =

0.1804

>> p4=poisspdf(4,2) p4 = 0.0902 >> p5=poisspdf(5,2) p5 = 0.0361 >> p6=poisspdf(6,2) p6 =

0.0120 48

>> p7=poisspdf(7,2) p7 =

0.0034

>> p8=poisspdf(8,2) p8 = 8.5927e-004 >> p9=poisspdf(9,2) p9 = 1.9095e-004 >> p10=poisspdf(10,2) p10 = 3.8190e-005 >> k=0:10 k= 0 1

2

3

4

5

6

7

8

9

10

>> p=[p0 p1 p2 p3 p4 p5 p6 p7 p8 p9 p10]; >> plot(k,p,'o',k,p,'*'),grid

Ejemplo 2.24 Si la probabilidad de que una persona se contagie debido a la aplicación de una vacuna es de una en diez mil. ¿Cuál es la probabilidad de que se contagien con el virus de la vacuna exactamente 5 personas en una población de 20,000 vacunados? ¿Cuál es la probabilidad de que se contagien menos de 5 personas en la misma población? Solución.  = np = 20000(1/10000) = 2 a) Exactamente 5 personas >> p=poisspdf(5,2) p= 0.0361 >> p=poisscdf(5,2) p= 0.9834

b) Cinco o menos de 5 personas >> p=poisscdf(5,2) p= 0.9834

Ejemplo 2.25 Durante un experimento en un laboratorio de física, el número promedio de partículas radiactivas que pasan a través de un contador en un milisegundo es 4. ¿Cuál es la probabilidad de que seis partículas entren al contador en un milisegundo dado? Solución. k = 6;  = 4; >> p4=poisspdf(6,4) p4 = 0.1042 49

La media y la varianza de la distribución de Poisson p(k, ) tienen el valor . 2.14 DISTRIBUCIONES CONTINUAS 2.14.1 Distribución normal. La función de densidad de la variable aleatoria normal X (VAN), con media  y varianza 2 es: y = n(x, , ) = 

e-(x-)/2²

(24)

Propiedades de la curva normal    

La moda, ocurre donde la curva tiene el máximo, es decir en x =  La curva es simétrica con respecto al eje vertical  El eje de las abscisas es asíntota horizontal El área bajo la curva es igual a 1

En las variables continuas, no tiene sentido referirse a probabilidades de la forma p(x = k), de manera que sólo se tratarán probabilidades acumuladas. Con MATLAB© la función y = normcdf(k, , ) calcula p(x < k) con media  y desviación estándar  Ejemplo 2.26 Calcular p(x < 20) con  = 25, y,  = 3 >> y=normcdf(20,25,3) y= 0.0478

FIGURA 2.6 Función de densidad de la variable aleatoria normal X con  = 0 y  = 1

50

>> nu=0; >> ro=1; >> x=linspace(-2.5,2.5,100); >> y=(1/(sqrt(2*pi)*ro)*exp(-(x-nu).^2)/2*ro^2); >> plot(x,y)

Una variable aleatoria continua (VAC) X que tiene su gráfica en forma de campana como la figura 2.6 se llama variable aleatoria normal (VAN). La función matemática correspondiente a la figura 2.6 con  = 1 y  = 0, es: f(x) =

e-(x-)/2²

(25)

f(x) depende de dos parámetros: 2 y  que son la varianza y la media, respectivamente. >> nu=-3;sigma=2; >> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); >> nu=0;sigma=2; >> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); >> nu=3;sigma=2; >> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); >> plot(x,y1,x,y2,x,y3)

FIGURA 2.7 Distribuciones normales con  = -3,  = 0 y  = 3 y  constante

>> nu=0;sigma=1; >> x=linspace(-2.5,2.5,100); >> y1=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); >> nu=0;sigma=2; >> y2=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); 51

>> nu=0;sigma=4; >> y3=(1/(sqrt(2*pi)*sigma)*exp(-(x-nu).^2)/2*sigma^2); >> plot(x,y1,x,y2,x,y3)

FIGURA 2.8 Distribuciones normales con igual media 0 y varianzas diferentes

Ejemplo 2.27 Para una distribución binomial con n = 5 y p = 0.5 calcular la distribución de probabilidades para la variable aleatoria X. Solución. >> x=0:5 x= 0 1 2 3 >> p=binopdf(0:5,5,0.5)

4

p=

0.3125

0.0313

0.1562

5 0.3125

0.1562

0.0313

>> bar(x,p)

FIGURA 2.9 Histograma del ejemplo 2.27

52

Ejemplo 2.28 Para una distribución binomial con n = 10 y p = 0.3 calcular la distribución de probabilidades para la variable aleatoria X. Solución. FIGURA 2.10 Histograma del ejemplo 2.28

>> x=0:10 x= 0

1

2

3

4

5

6

7

8

9

10

>> p=binopdf(0:10,10,0.3) p= 0.0282 0.0001

0.1211

0.2335

0.2668

0.2001

0.1029

0.0368

0.0090

0.0014

0.0000

>> bar(x,p,'r')

Ejemplo 2.29 Calcular la probabilidad de obtener 4, 5 o 6 caras en 9 lanzamientos de una moneda, mediante aproximación binomial y mediante la normal. Solución. p = 0.5; q = 0.5; n = 9;  = np = 9(0.5) = 4.5;  =

=

= 1.5

>> p=binopdf(4,9,0.5)+binopdf(5,9,0.5)+binopdf(6,9,0.5)%calculando con distribución binomial cuadro a cuadro p= 0.6563 >> p=binocdf(6.5,9,0.5)-binocdf(3.5,9,0.5)%calculando con distribución binomial acumulada entre los límites superior e inferior p= 0.6562

Ahora se calcula un valor aproximado utilizando la normal:

53

>> y=normcdf(6.5,4.5,1.5)-normcdf(3.5,4.5,1.5)%se toman los límites superior e inferior del intervalo y= 0.6563

Observe que utilizando MATLAB© no es necesario normalizar2, como se acostumbra de manera regular. La distribución de una VAN con media 0 y varianza 1 se llama distribución normal estándar. Ejemplo 2.30 Hallar el área bajo la curva normal: Z = -1.20 y Z = 2.40 Solución. >> y=normcdf(2.4,0,1)-normcdf(-1.2,0,1)% como Z está normalizada, se tiene que la media es 0 y la desviación estándard es 1 y= 0.8767

Ejemplo 2.31 Calcular el área bajo la curva normal, a la izquierda de Z = -1.78 Solución. >> y=normcdf(-1.78,0,1) y= 0.0375

Ejemplo 2.32 Calcular el área bajo la curva normal, a la derecha de Z = 1.78 Solución. >> y=1-normcdf(1.78,0,1) y= 0.0375

Ejemplo 2.33 Las estaturas de los varones de la Universidad de Cundinamarca se encuentran distribuidas normalmente con media 170 cm. y desviación estándar 4 cm. Calcular: a) ¿Cuál es la probabilidad de que un estudiante tenga una estatura superior a 1.72 cm? b) ¿Qué porcentaje de estudiantes tendrá una estatura entre 160 cm. y 170 cm?

2

Z = (x - )/

54

Solución. a) Probabilidad de que un estudiante tenga una estatura superior a 172 cm. >> y=1-normcdf(172,170,4) y= 0.3085

En términos de porcentaje: 30.85% de los estudiantes miden más de 172 cm. b) Porcentaje de estudiantes que miden entre 160 cm y 170 cm. >> y=normcdf(170,170,4)- normcdf(160,170,4) y= 0.4938

En términos de porcentaje, el 49.38% de los estudiantes miden entre 160 cm y 170 cm. Ejemplo 2.34 En una distribución binomial de frecuencias, donde p = 0.2, encontrar la probabilidad de obtener al menos 10 éxitos en 50 experimentos. Solución. p = 0.2; q =0.8; n =50;  = np = 50(0.2) = 10;  =

=

=2.8284

>> yc=normcdf(10.5,10,2.8284)%cálculo utilizando la distribución normal yc = 0.5702 >> yc=binocdf(10,50,0.2)%cálculo utilizando la distribución binomial yc = 0.5836

Ejemplo 2.35 Si una distribución normal tiene  = 20 y  = 3, encuentre la probabilidad de que una variable, seleccionada al azar, sea mayor de 30 o menor de 15. Solución. >> y30=normcdf(30,21,3) y30 = 0.9987 >> y15=normcdf(15,21,3) y15 = 0.0228 >> p=1-(y30-y15) p= 0.0241

Expresado en porcentaje: p = 2.41% 55

Ejemplo 2.36 Se analizó una muestra de cinco bebidas gaseosas de un mismo sabor y una misma marca y se encontró que su contenido de agua era, en mililitros: 20, 19, 22, 18, 22. Obtener el intervalo de confianza al 0.95, para estimar el contenido medio de agua de todas las gaseosas de este tipo. Solución. >> [mediamuestral,destipicamuestral,interconfianza]=normfit(x,0.05) mediamuestral = 20.2000 destipicamuestral = 1.7889 interconfianza = 17.9788 22.4212

Interconfianza (17.9788, 22.4212) representa el intervalo de confianza al 95% para la media poblacional. >> [mediamuestral, destipicamuestral, interconfianza]=normfit(x,0.01) mediamuestral = 20.2000 destipicamuestral = 1.7889 interconfianza = 16.5167 23.8833

Ahora, Interconfianza (16.5167, 23.8833) representa el intervalo de confianza al 99% para la media poblacional. Si se desea calcular el intervalo de confianza al 95% de los valores de una distribución normal (0, 1), la solución consiste en calcular los valores de la inversa de una normal en los puntos 0.025 y 0.975, así: >> x=norminv([0.025 0.975],0,1) %intervalo de confianza al 95 por ciento x= -1.9600

1.9600

>> x=norminv([0.01 0.99],0,1) %intervalo de confianza al 99 por ciento x= -2.3263

2.3263

>> x=norminv([0.1 0.9],0,1 %intervalo de confianza al 90 por ciento) x= -1.2816

1.2816 56

Más adelante se resolverá este mismo ejemplo, utilizando la distribución t-student para comparar los resultados obtenidos. FIGURA 2.11 Función de distribución acumulada para la curva normal

2.14.2 Distribución 2 (o JI-cuadrado). Una variable aleatoria continua X se dice que tiene distribución 2, con  grados de libertad, si su función de densidad está definida como: f(x) =

x/2 e-x/2, x > 0;

(26)

f(x) = 0, en cualquier otro caso, donde  es un entero positivo. La función 2, de distribución acumulada p = chi2cdf(x,v) en MATLAB® es la función que devuelve la probabilidad acumulada p con v grados de libertad con valores en x. Ejemplo 2.37 Hallar la probabilidad para x = 2, con una función de distribución acumulada 2 y 3 grados de libertad, luego hacer el proceso inverso, es decir, calcular x dado p. Solución. >> v=3; >> x=2; >> p=chi2cdf(x,v) %calcula la probabilidad acumulada de chi-cuadrado con x=2 y v=3 grados de libertad p= 0.4276 >> x=chi2inv(p,v) %calcula el valor de x con la probabilidad calculada p, y 3 grados de libertad x= 2.0000 57

Esta función de probabilidad es muy importante en la inferencia estadística. Es un concepto importante en la prueba de hipótesis y en la estimación estadística. Los problemas con distribuciones de muestreo, análisis de varianza y estadística no paramétrica exigen un importante uso de 2. La media y la varianza de la distribución 2 son:  = , y 2 = 2 FIGURA 2.12 Distribución 2 con 2, 4, 6 y 8 grados de libertad con azul, verde, rojo, azul claro, respectivamente

>> x=0:0.1:16;%dominio en el intervalo [0, 16] >> p2=chi2pdf(0:0.1:16,2);%recorrido con 2 grados de libertad >> p4=chi2pdf(0:0.1:16,4);%recorrido con 4 grados de libertad >> p6=chi2pdf(0:0.1:16,6);%recorrido con 6 grados de libertad >> p8=chi2pdf(0:0.1:16,8);%recorrido con 8 grados de libertad >> plot(x,p2,x,p4,x,p6,x,p8)%dibuja la gráfica

2.14.3 Distribución t de Student. Se utiliza en las pruebas de hipótesis, cuando se conoce la desviación estándar poblacional , no importa el tamaño de la muestra ya sea pequeña o grande. Una muestra es pequeña cuando n es menor o igual que 30 y se considera grande cuando n es mayor que 30. Cuando se desconoce la desviación estándar poblacional , ésta se puede reemplazar por la desviación estándar muestral s, siempre que la muestra sea grande, de acuerdo a las consideraciones anteriores. Si n ≤ 30 la desviación estándar se simboliza por ŝ cuando no se le ha hecho ninguna corrección. Generalmente ŝ es menor que , por lo tanto se hace necesario hacerle algunas correcciones en su cálculo, con el fin de convertirla en un buen estimador de , como se verá más adelante. 58

Estas y otras consideraciones se tendrán en cuenta más tarde para el estudio de la inferencia estadística, en su debido momento. La función de distribución “t” con v grados de libertad está dada por:

h(t) =

(1+t2/v)-(v+1)/2 , -< t < 

(27)

FIGURA 2.13 Distribución “t” con 1 (azul), 2 (verde), 5 (rojo), 100 (azul claro) grados de libertad

>> x=-5:0.1:5; >> t1=tpdf(x,1); >> t2=tpdf(x,2); >> t3=tpdf(x,5); >> t4=tpdf(x,100); >> plot(x,t1,x,t2,x,t3,x,t4)

2.14.4 Distribución F. Sean X e Y dos variables aleatorias independientes que tienen distribuciones 2 con v1 y v2 grados de libertad, respectivamente. Entonces la distribución de la VA, F =

, está dada por: [(ʋ1 + ʋ2)/2](ʋ1/ʋ2)ʋ1/2 f ʋ1/2 – 1 h(f) = ------------------------- -------------------- , (ʋ1/2) (ʋ2/2) (1 + ʋ1f/ʋ2)(ʋ1+ ʋ2) /2 0 en cualquier otro caso, 0 < f < 

(28) se denomina distribución F con v1 y v2 grados de libertad. 59

(28)

FIGURA 2.14 Distribuciones F con 8 y 12 grados de libertad (azul), y 12 y 24 grados de libertad (verde)

>> x=0:0.01:4; >> y1=fpdf(0:0.01:4,8,12); >> y2=fpdf(0:0.01:4,12,24); >> plot(x,y1,x,y2)

La distribución F se utiliza para el caso de dos muestras para obtener inferencias acerca de las varianzas de población. A menudo se encuentra la situación en que se requiere la comparación entre dos varianzas de población; es decir, determinar si la variabilidad de una población difiere de la otra. La distribución F se utiliza para estos casos. Este tema se tratará más adelante, cuando se trabaje inferencia estadística.

60

3. ANÁLISIS ESTADÍSTICO 3.1 ESTADÍSTICA DESCRIPTIVA Una de las etapas más importantes en el proceso de investigación se relaciona con la sistematización y análisis de la información y se denomina esta etapa como análisis estadístico de la información, y es una disciplina que se define como la ciencia de la recolección, análisis, interpretación y presentación de información que puede expresarse en forma numérica3. Dada una serie de datos, se puede dibujar un histograma y calcular las medidas de tendencia central: media, mediana, moda, media geométrica, media armónica y las medidas de dispersión como: rango, varianza, desviación estándar, desviación media, etc4. La estadística como disciplina no debe confundirse con el concepto de “una estadística”. En este contexto no debe confundirse también “estadístico” con el profesional de la estadística, se refiere pues a algunas medidas calculadas con respecto a una muestra como la media aritmética muestral o la desviación estándar muestral. La primera es el proceso necesario para manejar y analizar información (data) con el fin de apoyar de manera sistemática al investigador, para que identifique las leyes que guían o regulan los fenómenos o problemas estudiados. Una estadística es una característica o un resultado numérico a partir de una muestra de elementos. Relacionado con el concepto de una estadística se encuentra el de parámetro (poblacional), que es el valor de una característica de una población total o Universo y ya no de una muestra de la misma5. La muestra se refiere a un subconjunto de elementos tomados del universo o población que a su vez incluye a todos los elementos6. Ejemplo 3.1 Dados los siguientes datos de notas de un grupo de 10 estudiantes en determinada asignatura, hallar la tabla de frecuencia absoluta y la frecuencia en porcentajes. Solución. >> x=[4.5 3.0 3.0 4.0 2.5 5.0 3.5 4.0 3.5 3.5];%data >> x=sort(x)%ordena el vector ascendentemente

3

VÉLEZ B. Eduardo. Análisis de la información. ICFES. Módulo 4. pp. 9. ARBOLEDA Q. Dairon y ÁLVAREZ J. Rafael. MATLAB®. Aplicaciones a las Matemáticas Básicas. Universidad de Medellín. pp. 30. 5 VÉLEZ B. Eduardo. Op.Cit. pp.10. 6 IBID. pp. 11. 4

61

x= 2.5000

3.0000

3.0000

3.5000

3.5000

3.5000

4.0000

4.0000

4.5000

5.0000 >> tabla=tabulate(x) tabla = 2.5000 3.0000

1.0000 2.0000

10.0000 20.0000

3.5000

3.0000

30.0000

4.0000 4.5000

2.0000 1.0000

20.0000 10.0000

5.0000

1.0000

10.0000

>> tabulate(x) Value Count Percent 2.5

1

10.00%

3 3.5

2 3

20.00% 30.00%

4

2

20.00%

4.5 5

1 1

10.00% 10.00%

Ejemplo 3.2 Dada la siguiente serie de datos, calcular las medidas de tendencia central y de dispersión, además hacer la representación de datos agrupados. Dado un examen de matemáticas de 60 estudiantes de dos cursos paralelos de la misma asignatura, obtuvieron las siguientes calificaciones: 40, 33, 28, 25, 11, 21, 22, 17, 22, 19, 17, 16, 28, 26, 20, 15, 21, 20, 19, 24, 10, 29, 23, 34, 24, 33, 26, 14, 13, 18, 28, 23, 28, 21, 29, 24, 11, 31, 25, 18, 25, 26, 20, 34, 22,30, 27, 32, 35, 39, 18, 29, 16, 37, 28, 29, 10, 34, 29, 38 Solución. function d=dataset11 d=[40 33 28 25 11 21 22 17 22 19 17 16 28 26 20 15 21 20 19 24 10 29 23 34 24 33 26 14 13 18 28 23 28 21 29 24 11 31 25 18 25 26 20 34 22 30 27 32 35 39 18 29 16 37 28 29 10 34 29 38]; >>data=dataset11; %lee la función de datos y los guarda en data >> max(data)%obtiene el elemento máximo de data ans = 40 >> min(data)%obtiene el elemento mínimo de data ans = 10 62

>> sum(data) %obtiene la suma de todos los elementos del vector data ans = 1464 >> data=sort(data) % ordena dataset11 en forma ascendente data = Columns 1 through 34 10 10 11 11 13

14

15

16

16

17

17

18

18

18

19

19

20

20

20

22

22

23

23

24

24

24

25

25

25

26

26

26

Columns 37 through 60 27 28 28 28 28 28

29

29

29

29

29

30

31

32

33

33

34

34

34

21

35

21

37

21

38

22

39

40

>> tabulate(data) Value Count Percent 10 11

2 2

3.33% 3.33%

12

0

0.00%

13 14

1 1

1.67% 1.67%

15

1

1.67%

16 17

2 2

3.33% 3.33%

18

3

5.00%

19 20

2 3

3.33% 5.00%

21

3

5.00%

22 23

3 2

5.00% 3.33%

24

3

5.00%

25 26

3 3

5.00% 5.00%

27 28

1 5

1.67% 8.33%

29

5

8.33%

30 31

1 1

1.67% 1.67%

32

1

1.67%

33 34

2 3

3.33% 5.00%

35

1

1.67%

36 37

0 1

0.00% 1.67%

38

1

1.67% 63

39

1

1.67%

40

1

1.67%

TABLA 3.1 Clases vs frecuencias Clases

Clase 1

Clase 2

Clase 3

Clase 4

Clase 5

Clase 6

Intervalos Frecuencia

10-15 7

16-20 12

21-25 14

26-30 15

31-35 8

36-40 4

>> y=[7 12 14 15 8 4]; % y es el vector de frecuencias de las 6 clases >> pie(y) % hace el gráfico de sectores

FIGURA 3.1 Gráfico de sectores (pie)

FIGURA 3.2 Histograma de frecuencias de dataset11 con seis clases

Código: >> hist(data,6)%histograma con seis clases

FIGURA 3.3 Diagrama de barras verticales

Código: >> bar(y,'g') %diagrama de barras verticales 64

FIGURA 3.4 Diagrama de barras horizontales

FIGURA 3.5 Gráfico de racimo

Código: Código: >> barh(y,'r')%diagrama de barras horizontales >> stem(y,'r')%gráfico de racimo

Ahora se escribe el script para un histograma con distribución acumulada, así: >> data=dataset10; n=length(data); b=80:20:240; nn=hist(data,b); maxn=max(nn); cs=cumsum(nn*maxn/n); bar(b,nn,0.95,'y') axis([70,250,0,maxn]) >> box off >> hold on >> plot(b,cs,'k-s')

FIGURA 3.6 Histograma de nueve clases, distribución acumulada de los datos dataset10

65

3.1.1 Estadígrafos de posición >> xmedia=mean(data) %calcula la media aritmética xmedia = 24.4000 >> xmedian=median(data)%calcula la mediana xmedian = 24.5000 >> xgeomed=geomean(data)%calcula la media geométrica xgeomed = 23.1568 >> xarmedia=harmmean(data) %calcula la media armónica xarmedia = 21.7846 >> xmoda=mode(data) moda = 28 Media Aritmética

Mediana

Media Geométrica

Media Armónica

Posición de la mediana:

Md = xi Si ni = Max{ fj } j  {1, 2, 3,…, k}

Fuente: MAGRAB, Edward B. et al. An Engineers’s Guide to MATLAB®.

3.1.2 Estadígrafos de dispersión >> xmad=mad(data)%calcula la desviación media absoluta xmad = 6.1000 >> xrango=range(data)%calcula el rango = max(data)-min(data) rango = 30 >> xstd=std(data) %calcula la desviación estándar xstd = 7.4815 >> xcvar= var(data) %calcula la cuasivarianza xcvar = 55.9729 >> xvar1=var(data,1)%calcula la varianza Xvar1= 55.0400 >> riq=iqr(data) %rango intercuartílico q3-q1 riq =

Moda

10 66

Desviación Media Absoluta

Cuasivarianza

Varianza

Desviación Estándar Muestral

Fuente: http://es.wikipedia.org/wiki/Dispersi%C3%B3n_(matem%C3%A1ticas)

FIGURA 3.7 Polígono de frecuencias (rojo)

>> marcas=[8 13 18 23 28 33 38 43]; %marcas de clase >> y=[0 7 12 14 15 8 4 0]; % frecuencias >> hold on; bar(marcas,y); plot(marcas,y,'r')

Ejemplo 3.3 Con el mismo vector de datos, calcular: rango intercuartílico, cuartiles 1, 2 y 3, percentiles 10, 25, 50 y 80, coeficiente de asimetría, kurtosis, momento de orden 2 centrado en el origen, e interpretar los resultados. Solución. >> q1=quantile(data, 0.25)% calcula el cuartil 1 q1 = 19 >> q2=quantile(data,0.50) % mcalcula el cuartil 2 q2 = 24.5000 >> q3=quantile(data, 0.75)% calcula el cuartil 3 q3 = 29 67

El cuartil 1, indica que una cuarta parte de los estudiantes tienen notas por debajo de 19 El cuartil 2, indica que la mitad de los estudiantes tienen notas por debajo de 24.5. Nótese que el cuartil dos, corresponde a la mediana. El cuartil 3, muestra que las tres cuartas partes de los estudiantes tienen notas por debajo de 29. El rango intercuartílico corresponde a la diferencia entre el cuartil 3 y el cuartil 1, o sea, el 50% de estudiantes están en ese rango, entre 19 y 29. >> percentiles=prctile(data, [10 20 25 50 75 90]) %calcula los percentiles 10, 20, 25, 50, 75, y 90 percentiles = 14.5000

18.0000

19.0000

24.5000

29.0000

34.0000

El resultado anterior muestra: p10 = 14.5 p20 = 18.0 p25 = 19.0 p50 = 24.5 p75 = 29.0 p80 = 34.0 de 34.

El 10% de los estudiantes tienen notas por debajo de 14.5 El 20% de los estudiantes tienen notas por debajo de 18.0 Observe que es el mismo cuartil 1 Observe que es la mediana, el cuartil 2 y el percentil 50 Observe que es el cuartil 3 El percentil 80 indica que el 80% de los estudiantes tienen notas por debajo

>> coefasimetria = skewness(data)% calcula el coeficiente de asimetría coefasimetria = 0.0186

El coeficiente sesgo o de asimetría es un número que mediante su signo se puede determinar si los datos tienen distribución simétrica o sesgada. El coeficiente de sesgo o de asimetría, se interpreta del siguiente modo7:   

Si es igual a cero, entonces los datos se distribuyen de manera simétrica. Si es mayor que cero, entonces los datos son sesgados a la derecha. Si es menor que cero, entonces los datos son sesgados a la izquierda.

Para el caso de estudio, los datos son sesgados ligeramente a la derecha, como se ilustra en la figura 3.8, mostrado a continuación.

7

CHAO L. Lincoln. Estadística para las ciencias administrativas. McGraw Hill Latinoamericana. Bogotá, 1993. pp. 64-65

68

FIGURA 3.8 Histograma y curva normal

>> histfit(data);colormap([1 1 0]) >> k=kurtosis(data) k= 2.3859

FIGURA 3.9 Asimetrías

Fuente: http://www.tuveras.com/estadistica/estadistica02.htm

El coeficiente k de curtosis se interpreta de la siguiente manera8: Si k = 3 implica que los datos presentan forma de una normal estandarizada (ver polígono de frecuencias y la curva normal). Si k > 3 implica que los datos se presentan más empinados que los de la normal estandarizada.

8

CHAO L. Lincoln. Op Cit. pp. 65-66

69

Si k < 3 entonces los datos se presentan más aplanados que los de la curva normal, como es el caso de estudio: k = 2.3859. >> moment(data,2)% momento de orden 2 ans = 55.0400 >> s2=var(data,1)% calcula la varianza S2 = 55.0400

Obsérvese que el momento de orden 2 es la misma varianza. FIGURA 3.10 Curtosis Leptocúrtica

Mesocúrtica

Platicúrtica

0.8 0.7 0.6 0.4

0.5

0.35

0.4

0.3 0.25

0.3

0.2 0.18

0.2

0.16 0.14

0.2

0.15

0.12

0.1

0.08

0.1

0.06

0.1

0.04

0.05

0.02

0 -2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

0 -2.5

0 -2.5

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

-2

-1.5

-1

-0.5

0

0.5

1

1.5

2

2.5

2.5

Coeficiente de variación. También es una medida relativa de dispersión. Determina el grado de dispersión de un conjunto de datos relativo a su media aritmética. Si se ha realizado un estudio estadístico en dos poblaciones diferentes, y se quiere comparar resultados, no se puede acudir a la desviación estándar para ver la mayor o menor homogeneidad de los datos, sino a otro parámetro: el coeficiente de variación el cual se define como el cociente entre la desviación estándar y la media aritmética. CV = Ejemplo 3.4 En una exposición de ganado se estudia un conjunto de vacas con una media de 500 kilos y una desviación estándar de 50 kilos. Y se observa también un conjunto de ovejas con una media de 40 kilos y una desviación estándar de 10 kilos. ¿Qué grupo de animales es más homogéneo? Solución. Un razonamiento falso sería decir que el conjunto de ovejas es más homogéneo porque su desviación estándar es más pequeña, pero si se calcula el coeficiente de variación para ambos se notará que no es así: CVV = 50/500 = 0.1 = 10% CVO = 10/40 = 0.25 = 25% 70

Por tanto, es más homogéneo el conjunto de las vacas9. Ejemplo 3.5 Quince estudiantes del grupo A de matemática I obtuvieron las siguientes notas definitivas al final del periodo: 25 34 26 45 23 36 29 32 33 44 31 30 35 40 20 y el grupo B de 20 estudiantes obtuvo las siguientes notas: 36 45 23 37 39 44 39 20 20 29 39 46 28 30 35 36 28 29 40 38 de la misma asignatura. El docente desea averiguar cuál de estos dos grupos es más homogéneo (más parejo), teniendo en cuenta las notas definitivas obtenidas. Solución >> x=[25 34 26 45 23 36 29 32 33 44 31 30 35 40 20]; >> y=[36 45 23 37 39 44 39 20 20 29 39 46 28 30 35 36 28 29 40 38]; >> stdx=std(x) stdx = 7.2230 >> stdy=std(y) stdy = 7.8168 >> xmedia=mean(x) xmedia = 32.2000 >> ymedia=mean(y) ymedia = 34.0500 >> CV1=std(x)/mean(x) CV1 = 0.2243 >> CV2=std(y)/mean(y) CV2 = 0.2296

Promedio aritmético del grupo 1 es: 32 Promedio aritmético del grupo 2 es: 34 Coeficiente de variación del grupo 1 es 22.43% Coeficiente de variación del grupo 2 es 22.96% Se puede observar que: el grupo 1 tiene un promedio más bajo que el grupo 2, pero el grupo 1 es más homogéneo que el grupo 2.

9

http://recursostic.educacion.es/descartes/web/materiales_didacticos/unidimensional_lbarrios/parametros_est.htm

71

4. TEORÍA DE MUESTREO Tanto en las ciencias exactas como en las ciencias sociales, la mayoría del conocimiento existente se debe a experiencias basadas en inferencias a partir de la observación y del análisis de un número limitado de eventos.10 De la calidad y representatividad que ese número limitado de eventos (muestra) tenga, dependerá la bondad o el defecto (la precisión o el error) del conocimiento generado y, precisamente por esto, es relevante identificar cómo se debe seleccionar una buena muestra11. El primer paso para lograrlo, es tener claridad de que un muestreo es un proceso por medio del cual se seleccionan probabilísticamente elementos de un universo o población con la finalidad de estimar, con un determinado grado de precisión, algunas características de la población en su totalidad12. De manera que, la lógica del muestreo consiste en estimar parámetros de la población a partir de estadísticos obtenidos de una muestra, aun cuando nunca se pueda afirmar con absoluta seguridad cuáles son esos parámetros. Esto, que aparentemente es un problema, realmente no lo es, ya que en la práctica lo importante es asegurar que el parámetro se encuentre dentro de cierto rango y esto lo permite la denominada teoría de la estimación que identifica la precisión de las estimaciones; es decir, identifica la probabilidad de que el valor real del parámetro se encuentre dentro de unos límites especificados13. Es necesario es entender que la teoría del muestreo permite estimar tamaños adecuados de muestra, indispensables para obtener una estimación con cierto grado de precisión. Para lograrlo, es necesario definir qué es un intervalo de confianza, qué es un grado de de significancia y qué es una distribución muestral. El grado de confianza se refiere a la probabilidad de que el valor real de un parámetro, se encuentre dentro de los límites especificados en la estimación que se quiere calcular14. El intervalo de confianza corresponde a un intervalo de valores, dentro de los cuales se espera que esté el parámetro con cierto grado de confianza o con riesgo de error conocido; para ello es necesario determinar primero la estimación puntual.

Cuando de una población de tamaño N se toman, por ejemplo, muestras de tamaño n un número infinito de veces, la distribución de cualquier estadístico calculado, por ejemplo de

10

VÉLEZ, Eduardo B. El Análisis de la Información. ICFES, Módulo 4. Serie Aprender a Investigar. Bogotá D.C. 1990. pp. 80. 11 Ibid. pp. 80 12 Ibid. pp. 81 13 Ibid. pp. 81 14 Ibid. pp. 81

72

su media aritmética, recibe el nombre de distribución de muestreo. Esto es importante, porque la distribución de muestreo de muchos estadísticos se aproxima a la curva normal y así se puede estudiarlos de manera adecuada15. Un intervalo de confianza permite verificar las hipótesis planteadas acerca de parámetros poblacionales. Existe intervalos de confianza bilaterales y unilaterales. En el contexto de estimar un parámetro poblacional, un intervalo de confianza es un rango de valores (calculado en una muestra) en el cual se encuentra el verdadero valor del parámetro, con una probabilidad determinada. La probabilidad de que el verdadero valor del parámetro se encuentre en el intervalo construido se denomina nivel de confianza, y se denota 1-. La probabilidad de equivocarse se llama nivel de significancia y se simboliza como . Generalmente, se construyen intervalos con confianza 1- = 95% (o significancia =5%). Menos frecuentes son los intervalos con  = 10% o  = 1% Para construir un intervalo de confianza, se puede comprobar que la distribución normal estándar cumple: p(-1.96 < z < 1.96) = 0.95 Luego, si una variable x tiene distribución N(,), entonces el 95% de las veces se cumple:  -1.96 ≤  ≤ 1.96 Despejando  en la ecuación se tiene: x - 1.96



≤  ≤ x+1.96



El resultado es un intervalo que incluye a  el 95% de las veces. Es decir, es un intervalo de confianza al 95% para la media  cuando la variable x es normal y  es conocido16. En cuanto a definición de población, el concepto de población o universo en estadística, va más allá de lo que comúnmente se conoce como tal. Una población, se precisa como un conjunto finito o infinito de personas u objetos que presentan características comunes. También, una población es un conjunto de todos los elementos que se están estudiando, acerca de los cuales se intenta sacar conclusiones17. Por ejemplo, si el elemento es una persona, se puede estudiar las características edad, peso, nacionalidad, sexo, etc. Los elementos que integran una población pueden corresponder a personas, objetos o grupos (por ejemplo, familias, fábricas, empresas, etc). Las características de la población se resumen en valores llamados parámetros.

15 16 17

VÉLEZ, Eduardo B. Op Cit. pp. 82 http://escuela.med.puc.cl/recursos/recepidem/EPIANAL9.HTM http://www.scribd.com/doc/5181091/Estadistica-y-poblacio-y-muestra

73

En cuanto a la muestra, la mayoría de los estudios estadísticos, se realizan no sobre la población, sino sobre un subconjunto o una parte de ella, llamado muestra, partiendo del supuesto de que este subconjunto presenta el mismo comportamiento y características que la población. En general el tamaño de la muestra es mucho menor al tamaño de la población, porque de esta manera ahorra un gran esfuerzo. Los valores o índices que se concluyen de una muestra se llaman estadígrafos o estadísticos y estos mediante métodos inferenciales o probabilísticos, se aproximan a los parámetros poblacionales18. A continuación se muestra la sintaxis de MATLAB con respecto a algunas funciones o comandos relativos a los conceptos examinados anteriormente.

SINTAXIS MATLAB® normfit19 [muhat,sigmahat] = normfit(data) [muhat,sigmahat,muci,sigmaci] = normfit(data) [muhat,sigmahat,muci,sigmaci] = normfit(data,alpha) [...] = normfit(data,alpha,censoring) [...] = normfit(data,alpha,censoring,freq) [...] = normfit(data,alpha,censoring,freq,options

Descripción >>[muhat,sigmahat] = normfit(data) %devuelve el estimativo de la media , y la desviación estándar , de la distribución normal dada en la data. >>[muhat,sigmahat,muci,sigmaci] = normfit(data) % devuelve el intervalo de confianza al 95% para los parámetros estimados de la media y desviación estándar en los arreglos muci y sigmaci, respectivamente. La primera fila de muci contiene las cotas inferiores de los intervalos de confianza para µ, la segunda fila contiene las cotas superiores. La primera fila de sigmaci contiene las cotas inferiores de los intervalos de confianza para σ, y la segunda fila contiene las cotas superiores. >>[muhat,sigmahat,muci,sigmaci] = normfit(datos,alpha) % devuelve el intervalo de confianza al 100(1 - alfa)% para el parámetro estimado, donde alfa es un valor en el intervalo o rango [0 1], especificando el ancho del intervalo de confianza. Por defecto, alfa es 0.05, lo cual corresponde a un intervalo de confianza del 95%.

Ejemplo 4.1 El contenido de siete contenedores similares de un ácido son 9.8, 10.2 10.4, 9.8, 10, 10.2, 9.6 litros. Encuentre el intervalo de confianza del 95% para la media de todos los contenedores si se supone que la distribución es aproximadamente normal. 18

http://www.scribd.com/doc/15268123/Conceptos-Basicos-de-Estadistica-I 1984-2008 The MathWorks, Inc. MATLAB®

19

74

Solución. >> x=[9.8, 10.2 10.4, 9.8, 10, 10.2, 9.6 ]; %datos >>alfa=0.05 %alfa por defecto es 0.05 >>[muhat,sigmahat,muci]=normfit(x,alfa) % muhat: media de la muestra; sigmahat: desviación estándar de la muestra sn-1 y muci: intervalo de confianza al 95% muhat = 10 sigmahat = 0.2828 muci = 9.7384 10.2616

El intervalo en cuestión es: 9.7384 <  < 10.2616 4.1 INFERENCIA ESTADÍSTICA Se basa en las conclusiones a la que se llega por la ciencia experimental basándose en información incompleta (de una parte de la población). La inferencia estadística es una parte de la Estadística que permite generar modelos probabilísticos a partir de un conjunto de observaciones. Del conjunto se observaciones que van a ser analizadas, se eligen aleatoriamente sólo unas cuantas, que es lo que se denomina muestra, y a partir de dicha muestra se estiman los parámetros del modelo, y se contrastan las hipótesis establecidas, con el objeto de determinar si el modelo probabilístico es el adecuado al problema real que se ha planteado. La utilidad de la inferencia estadística, consiste en que si el modelo se considera adecuado, puede usarse para la toma de decisiones o para la realización de las previsiones convenientes. La inferencia estadística, parte de un conjunto de observaciones de una variable, y a partir de estos datos “infiere” o genera un modelo probabilístico; por tanto, la inferencia estadística es la consecuencia de la investigación empírica, cuando se está llevando a cabo, y como consecuencia de la ciencia teórica, cuando se están generando estimadores, o métodos, con tal o cual característica para casos particulares. La inferencia estadística es, en consecuencia, un planteamiento inductivo20. 4.2 PRUEBA DE HIPÓTESIS En ingeniería e investigación hay muchas situaciones donde uno tiene aceptar o negar una hipótesis acerca de un parámetro. Una hipótesis estadística puede considerarse

20

http://www.mitecnologico.com/Main/InferenciaEstadistica

75

como una aseveración sobre los parámetros de una o más poblaciones. Una población es la totalidad de las observaciones de la cual se ocupa el investigador en el problema. Una muestra es un subconjunto de una población. Desde que se utilizan distribuciones de probabilidad para representar poblaciones, una hipótesis estadística puede considerarse como una aseveración sobre la distribución estadística de la población21. Por ejemplo, supóngase que se tiene un parámetro  que ha sido obtenido de n muestras de una población, y se está interesado en determinar si este parámetro es igual a o. El procedimiento para la prueba de hipótesis requiere:   

Formular una hipótesis, llamada hipótesis nula, Ho La forma de prueba estadística apropiada, qo. Seleccionar un nivel de confianza (tener en cuenta que: 100(1-)% es el nivel de confianza para ). Comparar la prueba estadística para un valor que corresponde a la magnitud de la prueba que se puede esperar que ocurra naturalmente, q.



Basado en las respectivas magnitudes de qo y q, la hipótesis nula tiene dos posibilidades, ser aceptada o rechazada. Si la hipótesis nula es rechazada, entonces se acepta la hipótesis alternativa, la cual se denota como H1. Hay tres casos posibles a considerar: Ho :  = o Ha :   o

Ho :  = o Ha :  > o

Ho :  = o Ha :  < o

Existen dos tipos de errores que se pueden cometer en la prueba de hipótesis: Error tipo I : Rechazar la hipótesis nula Ho cuando es verdadera. Error tipo II : Aceptar la hipótesis nula Ho cuando es falsa; esto es, cuando realmente  = 1. SINTAXIS MATLAB® ttest h h h h h

21 22

= = = = =

22

ttest(x) ttest(x,m) ttest(x,y) ttest(...,alfa) ttest(...,alfa,tail)

MAGRAB, Edward et al. An Engineer’s Guide to MATLAB© pp. 401 1984-2008 The MathWorks, Inc. MATLAB®

76

h = ttest(...,alfa,tail,dim) [h,p] = ttest(...) [h,p,ci] = ttest(...) [h,p,ci,stats] = ttest(...)

Descripción >>h =ttest(x) % realiza una prueba t de la hipótesis nula donde los datos en el vector x son una muestra aleatoria de una distribución normal con media 0 y varianza desconocida, frente a la alternativa de que la media no sea 0. El resultado de la prueba es devuelto en términos de h. Si h = 1 indica un rechazo de la hipótesis nula con un nivel de significancia del 5%. h = 0, indica un error al rechazar la hipótesis nula en el 5% de nivel de significancia. h=ttest(x,m) % realiza una prueba t de la hipótesis nula donde los datos del vector x son una muestra aleatoria de una distribución normal con media m y varianza desconocida, frente a la alternativa de que la media no sea m. h=ttest(x,y) % realiza una prueba t para un par de variables en que la hipótesis nula de los datos es la diferencia x-y que constituyen una muestra aleatoria de una distribución normal con media 0 y varianza desconocida, frente a la alternativa de que la media no sea 0. Se debe tener en cuenta que x e y deben ser vectores de la misma longitud, o matrices del mismo tamaño. h=ttest(…,alfa) %ejecuta la prueba en (100*alfa)% nivel de significancia. Por defecto, cuando no se especifica alfa, esta es de 0.05. h=ttest(…,alfa,tail) % ejecuta la prueba segun la alternativa dada por “tail” Hay tres opciones para la cola (“tail”): ‘both’ : La media no es 0 (o m). Se realiza por defecto, cuando la cola no se especifica. (prueba de dos colas). ‘right’ : La media es mayor que 0 (o m) (prueba de cola derecha) ‘left’ : La media es menor que 0 (o m) (prueba de cola izquierda) h ttest(…,alfa,cola,dim) % trabaja junto a la dimensión dim de x, o de x-y para una prueba de par de variables. Usar [] para pasar por defecto valores predeterminados para m, alfa, o tail. [h,p] = ttest(…) % devuelve el valor p de la prueba. El valor de p es la probabilidad, bajo la hipótesis nula, de observar un valor como extremo o más extremo de la prueba estadística. t=



Donde es la media muestral, μ = 0 (o m) es la media poblacional hipotética, s es la desviación estándar muestral, y n es el tamaño de la muestra. Bajo la hipótesis nula, la prueba estadística tendrá una distribución t de Student con n - 1 grados de libertad. [h,p,ci]=ttest(...) % retorna un intervalo de confianza de 100*(1 – alpha)% de la media 77

poblacional o de la diferencia de medias poblacionales para una prueba apareada. [h,p,ci,stats]=ttest(...) %devuelve la estructura stats con los siguientes campos: tstat : Valor de la prueba estadística. df : Grados de libertad de la prueba. sd : Desviación estándar muestral.

Para probar la veracidad o no de una hipótesis acerca de la media poblacional, el MATLAB® asume la distribución normal cuando es conocida la media poblacional  y la distribución t-student cuando no se conoce . Según esto, se utilizan las funciones ztest o ttest para comprobar la hipótesis nula. La forma de utilizar estas funciones se hace de la siguiente manera: Ejemplo 4.1 Considérese los datos de dataFci. Se quiere determinar si existe alguna diferencia estadísticamente significativa entre las medias de estas muestras con un 95% de confianza. Así, la hipótesis es: Ho: 1 = 2 H1:   2 Solución. Se usa ttest2 para determinar la validez de esta hipótesis. La función ttest2 es: [h,p,ci]=ttest2(x1, x2, alfa) Donde x1 y x2 son los datos, alfa = , h = 0 si Ho y h = 1 si H1, p = p-valor; esto es: p = 2*(1-tcdf(t0,n-1)) Para un intervalo de confianza de dos colas; t0 = to está definido en la cuarta columna del caso 4, y ci(1) = l y ci(2) = u son los límites de confianza inferior y superior, respectivamente. Así, el script es: >> [x1,x2]=dataFci; >> [h,p,ci]=ttest2(x1,x2,0.05) h= 0 p= 0.6775 ci = -0.7819

1.1724

Ejecutando el anterior script, se obtiene h = 0; esto es, que no se puede rechazar la hipótesis nula, p = 0.6645, ci(1) = -0.7550, y ci(2) = 1.1855 son los límites de confianza 78

inferior y superior, respectivamente, de la diferencia entre las medias. Basado en el valor de p, se ve que están solamente 100(1-0.6445)=35.55% de confianza Basado en el valor de p, se ve que se está a sólo 100(1-0.6445) = 35.55% de confianza en que existe una diferencia estadísticamente significativa entre los medios, el cual es sustancialmente inferior al valor deseado de nivel de confianza del 95%. Por tanto, la hipótesis nula no puede ser rechazada. Ejemplo 4.2 El vendedor de cierta marca de automóvil afirma que el kilometraje medio del modelo XW es de 45.425 Km por galón de gasolina. Un ente gubernamental de Pesas y Medidas, cree que el vendedor está generando falsas expectativas a los clientes. Nueve automóviles de este modelo son sometidos a prueba con un galón de gasolina y dan el siguiente resultado de kilómetros recorridos: 45.425 Km 41.640 Km 37.854 Km 39.747 Km 43.532 Km 41.640 Km 47.318 Km 37.854 Km 39.747 Km. ¿Se rechazará o se aceptará la afirmación del vendedor? Utilizar un nivel de significancia de 0.01 ( = 1%). Solución. Ho = 45.425 Km/galón Ha  45.425 Km/galón Formato: [h,sig,ci] = ttest(x, , , tail) Entrada: x : data (si es menor que 30 se utiliza t-student como en este caso)  : media poblacional (44.425 Km/galón)  : significancia (0.01) Si tail = ‘both’, entonces la curva tiene dos colas y Ha :   0 Si tail = ‘right’, entonces la curva tiene una cola a la derecha y Ha :  > 0 Si tail = ‘left’, entonces la curva tiene una cola a la izquierda y Ha :  < 0 Salida: Si h = 0, entonces se acepta la hipótesis nula. Si h = 1, entonces se rechaza la hipótesis nula. ci : intervalo de confianza sig : significancia >> x= [45.425 41.640 37.854 39.747 43.532 41.640 47.318 37.854 39.747]; >> [h,sig,ci]=ttest(x,45.425,0.01,’both’) 79

h= 1 sig = 0.0085 ci = 37.9730

45.3064

h = 1, significa que debe rechazarse la hipótesis nula, es decir, que lo que afirma el vendedor no es creíble bajo una certeza del 99% sig = 0.0085 es menor que 0.01 o 1% , luego se rechaza la hipótesis nula. ci = [37.9730 Km/galón , 45.3064 Km/galón] es el intervalo en el que puede desempeñarse el carro, respecto al kilometraje que afirma el vendedor del automóvil XW, con una significancia del 1% Como la media poblacional  es 45.425 km, no cae dentro del intervalo de confianza 0.99 = 99% = (1-), es así que se rechaza la hipótesis nula. Ejemplo 4.3 Probar la hipótesis de que la distancia media requerida para poder frenar un automóvil que va a 20 Km/h es de 25 metros. Con base en una muestra de 100 conductores se obtiene que la distancia media es 27.3 metros, con una desviación estándar de s = 2.1 metros. Utilizar un nivel de significación de 5%. Solución. Entrada: x: vector de 100 distancias con media 27.3  = 0.05 s = 2.5761 m = 25 Ho :  = 25 Ha :   25 function d=dataset12 d=[30 30 28 26 26 24 22 30 31 29 29 26 28 26 30 25 31 30 29 26 30 29 23 34 24 30 26 24 23 28 28 23 28 31 27 24 31 28 25 28 25 26 30 24 27 30 27 32 35 29 28 29 26 27 28 29 30 24 29 28 25 24 26 30 29 28 24 28 30 23 26 27 25 24 27 29 30 24 25 28 28 28 30 26 27 25 24 25 31 26 24 30 27 28 25 26 24 27 26 28]; >> data=dataset12; >> sigma=2.1; >> alfa=0.05; >> m=25; 80

Salida: >> h = ztest(data,m,sigma,alfa,'both') h= 1

Como h = 1, se rechaza la hipótesis nula, es decir, que la distancia media requerida para frenar es diferente de 25 metros, a un nivel de significancia del 5%. SINTAXIS MATLAB ztest

23

h = ztest(x,m,sigma) h = ztest(...,alpha) h = ztest(...,alpha,tail) h = ztest(...,alpha,tail,dim) [h,p] = ztest(...) [h,p,ci] = ztest(...) [h,p,ci,zval] = ztest(...) Descripción h = ztest(x,m,sigma) Ejecuta una prueba de hipótesis z (normal), donde la data proviene de una distribución con media m, y que devuelve el resultado de la prueba en términos de h. Cuando h = 0 indica que la hipótesis nula Ho (“que la media es m”) no puede ser rechazada a un nivel de significancia del 5%. Los datos se supone que provienen de una distribución normal con desviación estándar sigma. h=ztest(...,alpha) %Ejecuta una prueba de nivel de significancia del (100*alfa)%. Por defecto, cuando no se especifica alfa da por sentado que alfa es 5% o 0.05. h=ztest(...,alpha,tail) %Ejecuta la prueba contra la alternativa especificada por la “string cola”. Hay tres opciones para la string tail ‘both’ : La media no es m (prueba de dos colas). Esto es por defecto, cuando la cola no se especifica. 'right' : La media es más grande que m (prueba de cola derecha). 'left' : La media es más pequeña que m (prueba de cola izquierda). La cola debe ser una cadena simple, incluso cuando x es una matriz o un arreglo n-dimensional. >>h=ztest(...,alpha,cola,dim) % trabaja junto con la dimensión dim de x. Usar [] para pasar por defecto valores de ‘alfa’ o ‘tail’

23

The MathWorks, Inc. MATLAB® 1984-2008.

81

>>[h,p] = ztest(...) %devuelve el valor p de la prueba. El valor de p es la probabilidad, bajo la hipótesis nula, de observar un valor como extremo o más extremo de la estadística de prueba.

z=



Donde ẍ es la media muestral, μ = m es la media poblacional hipotética, σ es la desviación estándar, y n es el tamaño de la muestra. Bajo la hipótesis nula, la prueba estadística tendrá una distribución normal estandarizada N(0,1). [h,p,ci]=ztest(...) % devuelve un intervalo de confianza 100*(1 – alfa)% de la media poblacional [h,p,ci,zval]=ztest(...) % devuelve el valor de la prueba estadística

Ejemplo 4.3 De una población con distribución normal, constituida por 500 fichas que se encuentran en un archivador, se extrajo una muestra de 16 observaciones como sigue: 56 45 46 37 56 41 43 36 45 56 49 62 43 60 49 72 56. Se sabe que la desviación estándar poblacional  =10, pero es desconocida la media poblacional ( = 50 verdadera). Cometiendo un riesgo  = 0.05 (nivel de significancia 5%), probar la hipótesis de que la media poblacional sea igual a: (a) 40, (b) 49, (c) 50, (d) 51 y (e) 60. Solución. (a) Ho :  = 40 Ha :   40  = 0.05  = 10 >> x=[56 45 46

37

56

41

43

36

45

56

49

62

43

60

49

72

>> m=40; >> sigma=10; >> alfa=0.05; >> h = ztest(x,m,sigma,alfa,'both') %prueba de hipótesis h= 1

Como h = 1 se rechaza la hipótesis nula, es decir, que no es cierto que  = 40. (b) Ho :  = 49 H1 :   49  = 0.05  = 10 >> m=49; >> sigma=10; >> alfa=0.05; 82

56] ;

>> h = ztest(x,m,sigma,alfa,'both') h= 0

Como se sabe h = 0 significa que se acepta que  = 49 y  verdadera es 50, se está aceptando algo falso que es un error tipo II. (c) Ho :  = 49 H1 :   49 >> m=50; >> h = ztest(x,m,sigma,alfa,'both') h= 0

Aquí se acepta la hipótesis nula Ho = 50, lo cual es verdadero y no se está cometiendo ningún error. (d) Ho :  = 51 H1 :   51 >> m=51; >> h = ztest(x,m,sigma,alfa,'both') h= 0

Se acepta la hipótesis nula, por lo tanto se está cometiendo un error de tipo II porque se sabe que la media poblacional verdadera es 50. (e) Ho :  = 60 H1 :   60 >> m=60; >> h = ztest(x,m,sigma,alfa,'both') h= 1

Como h = 1, se rechaza la hipótesis nula y por tanto no se comete ningún error, ya que se rechaza algo falso. Ejemplo 4.4 Encuentre el intervalo de confianza para la media muestral al 95% de nivel de confianza, según los datos dados en dataset10.

83

Solución. Si se tiene el nivel de confianza del 95%, entonces el programa para determinar el intervalo de confianza de la media es: function d=dataset10 d=[105 160 157 190 199 121 160 172 156 110 97 196 151 76 115 120 150 171 229 133 245 221 175 101 193 181 181 237 158 123 163 154 201 142 167 160 168 170 148 146 207 228 183 149 171 194 158 180 150 169 134 131 153 200 163 184 208 167 118 158 218 180 174 186 87 165 133 176 143 135 199 178 154 174 176 145 135 158 141 149]; clc disp([' ']) meen=mean(dataset10); L=length(dataset10); q=std(dataset10)*tinv(0.975,L-1)/sqrt(L); disp([' ']) disp([' Media muestral = ' num2str(meen)]) disp([' ']) disp(' Intervalo de confianza para la media muestral al 95% de nivel de confianza: ') disp([' ']) disp([' ' num2str(meen-q) '
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF