Solucionario Miller

March 22, 2018 | Author: Christian Jacinto | Category: Technology, World Wide Web, Sampling (Statistics), Statistics, Websites
Share Embed Donate


Short Description

Descripción: Solucionario del libro...

Description

MANUAL PARA EL PROFESOR Estadística y Quimiometría para Química Analítica Cuarta edición

James N. Miller Jane C. Miller

www.librosite.net/miller

Madrid  México  Santafé de Bogotá  Buenos Aires  Caracas  Lima  Montevideo San Juan  San José  Santiago  São Paulo  White Plains

i © Pearson Educación, S.A.

Los usuarios estarán autorizados a, por los medios puestos a su disposición, visualizar, imprimir y descargar el material de esta página únicamente para uso personal y sin fines comerciales, pero eso no les permite borrar o corregir ninguna marca registrada, copyright u otro aviso de propiedad. Los usuarios no podrán distribuir, transmitir, reproducir o publicar electrónicamente o de cualquier otra forma ninguna parte de los datos sin previo consentimiento escrito de Pearson Educación, S.A. Asimismo, tiene la obligación de hacer uso correcto de la Página y de los servicios conforme a la Ley, moral y buenas costumbres generalmente aceptadas y con fines lícitos. Se reservan el resto de los derechos. DERECHOS RESERVADOS © 2002 respecto a la primera edición en español por: PEARSON EDUCACIÓN, S.A. Núñez de Balboa, 120 28006 MADRID MILLER, N. J. Y MILLER, J. C ESTADÍSTICA Y QUIMIOMETRÍA PARA QUÍMICA ANALÍTICA ISBN: 84-205-3514-1 Depósito legal: M.29.356-2002-09-18 PRENTICE HALL es un sello editorial autorizado de PEARSON EDUCACIÓN, S.A. Traducido de: Instructor’s Manual, Statistics and Chemometrics for Analytical Chemistry Fourth Edition Copyright © 2001 por Pearson Education Limited ISBN: 0-13-026466-0 Edición en español: Equipo de traducción: Web Editor: Concepción I. Ramírez De Antón Assistant Web Editor: Esther Martín González Colaboración: Marta Encinas, Olivia Ocaña y Roberto Lorente Equipo técnico: WebMaster: Luis Pérez

ii © Pearson Educación, S.A.

Contenido Capítulo uno: Guía para algunas fuentes de material complementario Introducción Revistas especializadas y artículos de opinión La World Wide Web (WWW)

1 1 7

Capítulo dos: Soluciones completas a los ejercicios Ejercicios del Capítulo 1 Ejercicios del Capítulo 2 Ejercicios del Capítulo 3 Ejercicios del Capítulo 4 Ejercicios del Capítulo 5 Ejercicios del Capítulo 6 Ejercicios del Capítulo 7 Ejercicios del Capítulo 8

9 11 12 21 27 36 43 48

iii © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

CAPÍTULO UNO

Guía para algunas fuentes de material complementario Introducción Los profesores de estadística del campo de las ciencias analíticas siempre quieren actualizar sus conocimientos sobre el tema, así como ampliar sus ejemplos numéricos y las aplicaciones existentes. Este material se puede utilizar para enseñar a los estudiantes nuevos métodos estadísticos y ejercicios para su aplicación en experimentos individuales de laboratorio, en proyectos o en clases prácticas. El creciente interés en la aplicación de la estadística a la química demuestra que, actualmente, han surgido muchas fuentes de este nuevo material: aquí señalamos algunos de los recursos más accesibles, cuyo nivel coincide con el del libro de texto. Hemos sido selectivos de forma inevitable y deliberada, especialmente con el material disponible en Internet, que prolifera rápidamente y varía en gran medida en cuanto a calidad. Muchas páginas web se basan en los materiales de las clases impartidas en universidades de países angloparlantes. Como tales, estos materiales pueden constituir sólo un módulo, o una parte de un módulo, y también pueden servir como información complementaria a una serie de clases específicas. Obviamente, los profesores deben utilizar este material de forma adecuada. Por otra parte, Internet se utiliza cada vez más para facilitar material adicional (datos, software, etc.) que completa los artículos de investigación. Este fenómeno supone un claro desarrollo atractivo del que más adelante se exponen algunos ejemplos. Los materiales recomendados en esta sección deberían considerarse como complementarios a los mencionados en las secciones de Bibliografía al final de cada capítulo del libro Estadística y Quimiometría para Química Analítica, 4ª edición, 2002. Estas secciones bibliográficas hacen referencia a libros de texto tradicionales, muchos de los cuales son estudios generales sobre aspectos de la estadística en lugar de estar enfocados a la química analítica. No obstante, todos los materiales mencionados en el libro de texto pertenecen a estudios químicos y la mayoría cubren específicamente los problemas analíticos.

Revistas especializadas y artículos de opinión Existen dos revistas de investigación reconocidas que publican estudios sobre la aplicación de la estadística a los problemas químicos, y especialmente analíticos. Estas revistas son Journal of Chemometrics (publicado por Wiley) y Chemometrics and Intelligent Laboratory Systems (publicado por Elsevier). A pesar de que, probablemente, los trabajos de investigación publicados en estas revistas sean demasiado complicados o detallados para suscitar el interés de los lectores de nuestro libro de texto, ambas publican artículos de opinión sobre métodos quimiométricos. Algunos tienen carácter tutorial y son mucho más relevantes. Además de los estudios del Journal of Chemical Education y The Analyst, sobre los que se debatirá en secciones posteriores, muchas otras revistas contienen importantes estudios y artículos de opinión en este campo. La revista Analytical Chemistry (publicada por la American Chemical Society) y Analytica Chimica Acta (publicada por Elsevier) son las más notables, siendo especialmente valiosos los extensos estudios bienales y los listados de referencias publicados por Analytical Chemistry. El último de estos estudios, realizado por el profesor B.K. Levine, aparece en Analytical Chemistry, p. 72 (2000) 91R-97R. Contiene 120 referencias del periodo que oscila entre noviembre de 1997 y noviembre de 1999. Como su propio título indica, ‘Chemometrics’ (Quimiometría), trata casi exclusivamente de los métodos más avanzados, explicados en el Capítulo 8 del libro de texto. El material se divide en cinco secciones principales: (1) resolución de curvas multivariantes, aplicada principalmente a señales cromatográficas solapadas o señales espectroscópicas; (2) calibración multivariante, haciendo especial hincapié en el uso de mínimos cuadrados parciales; (3) reconocimiento de patrones;

1 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

(4) relaciones estructura-propiedad; y (5) análisis multidireccional aplicado a conjuntos de datos de tres factores. No se ha llevado a cabo ningún estudio significativo acerca de los métodos estadísticos convencionales y elementales. Un estudio anterior realizado por el mismo autor (Analytical Chemistry, p. 70 (1998) 209R-228R) era más completo (con alrededor de 600 referencias) y trataba un mayor número de métodos y de áreas de aplicación, incluida la optimización y el uso de métodos estadísticos básicos. Otra publicación periódica que ofrece fuentes de información útiles es Trends in Analytical Chemistry (Elsevier). El nivel de muchos de sus estudios se adecua tanto a estudiantes graduados como a no graduados y, a menudo, contiene artículos sobre estadística y quimiometría. Una entrega especial reciente (números 9-10, 1999) estaba dedicada por completo a la metrología en química. Varias revistas están por completo o en su mayor parte dedicadas a la evaluación estadística propiamente dicha de métodos analíticos, pruebas de aptitud y otras comparaciones interlaboratorio y a la optimización y diseño experimental en el análisis. Entre estas revistas, la más reconocida es la Journal of the Association of Official Analytical Chemists (JAOAC), que se publica en Estados Unidos. Esta revista también publica artículos sobre el desarrollo de nuevos métodos analíticos, pero las importantes funciones reglamentarias de muchos miembros de la AOAC garantiza que existe un gran énfasis en muchos aspectos relevantes del análisis de datos. Window on Chemometrics, de la Royal Society of Chemistry, es una guía muy útil para el desarrollo y el uso de la estadística y la quimiometría. Es una publicación mensual que contiene títulos y resúmenes de artículos de opinión y artículos de casi 250 revistas de todo el mundo. Los resúmenes se presentan en seis secciones: (1) técnicas generales y estadística; (2) calibración y validación; (3) programas informáticos, sistemas expertos y aplicaciones; (4) espectrometría; (5) cromatografía; y (6) otras técnicas analíticas. En el ejemplar de marzo de 2000, la cantidad de resúmenes en estas secciones fueron de 21, 25, 24, 43, 40 y 12, respectivamente, que son 165 resúmenes en total, lo que demuestra la importancia que se otorga a la aplicación de la estadística a la química. Journal of Chemical Education Esta revista (JCE) también es publicada por la American Chemical Society y está dedicada a la enseñanza de la química a todos los niveles, desde la escuela hasta la universidad. Las tasas de suscripción son relativamente bajas e incluyen el acceso a la versión electrónica de la revista, que contiene material complementario muy valioso. Además de sus publicaciones originales (véase a continuación), JCE ofrece artículos de opinión sobre nuevos libros de texto y software, junto con una amplia gama de materiales didácticos en CD-ROM. La importancia (y dificultades) de los métodos estadísticos para estudiantes de química se refleja en muchos ejemplares de JCE. A continuación resumimos algunos ejemplos de trabajos de investigación publicados a lo largo de los últimos cinco años, que guardan relación con los temas tratados en nuestro libro de texto: el último ejemplar de JCE fue el de junio de 2000. Algunos de los trabajos describen ejercicios de laboratorio, donde la evaluación estadística apropiada de los datos es especialmente importante, mientras que otros ofrecen comentarios y consejos sobre la elección de los métodos y el empleo adecuado o erróneo de la estadística sin guardar relación con un método o experimento específicos. 2000 De Levie, R.: “Spreadsheet Calculation of the Propagation of Experimental Imprecision”, JCE, nº 77, p. 534. Este breve trabajo muestra cómo todas las hojas de cálculo disponibles se pueden utilizar para calcular la precisión global de un experimento por etapas múltiples mediante la diferenciación numérica. Se recomienda el uso de un macro (el autor proporcionará macros para Microsoft Excel 95 ó 97). Se ha tomado uno de los ejemplos algebraicos del trabajo de Andraos de 1996 (véase el resumen del año 1996).

2 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Edmiston, P.L. y Williams, T.R.: “An Analytical Laboratory Experiment in Error Analysis: Repeated Determination of Glucose Using commercial Glucometers”, JCE, nº 77, p. 377. El experimento explicado en este estudio utiliza tiras desechables de bajo coste que incorporan reactivos enzimáticos para determinar la presencia de glucosa en soluciones acuosas. El producto coloreado se mide en un fotodetector de reflectancia simple. Las mediciones simples permiten aplicar contrastes anómalos y que los estudiantes comparen sus resultados entre sí o con los estándares de referencia. También se puede utilizar el mismo método para proporcionar pequeños proyectos, permitiendo a los estudiantes indagar en la validación del método, el muestreo y las variables de muestra, los errores sistemáticos, etc. Los datos necesarios se pueden recopilar rápidamente utilizando un sistema analítico realista que resulta atractivo para los estudiantes. Zielinski, T.J.: “Symbolic Software in the Chemistry Curriculum”, JCE, nº 77, p. 668. Este estudio promueve el uso educativo de programas como Mathcad, que cada vez adquieren más popularidad. La aplicación de Mathcad a los problemas de regresión lineal y no lineal se demuestra de forma breve con dos ejemplos de S. H. Young y A. Wierzbicki. En el sitio web de JCE se pueden encontrar los archivos necesarios: el usuario necesita Mathcad y Adobe Acrobat. 1999 Burdge, J.R., MacTaggart, D.L. y Farwell, S.O.: “Realistic Detection Limits from Confidence Bands”, JCE, nº 76, p. 434. Se trata de un trabajo excelente y completo que describe cómo se pueden obtener los límites de detección mediante bandas de confianza de rectas de regresión ponderadas y no ponderadas. El método se compara detalladamente con métodos más sencillos que utilizan la desviación estándar de medidas en blanco (véanse las páginas 125-127 del libro de texto) y, además, incluye una extensa bibliografía. El método de banda de confianza ha sido aprobado por una serie de organismos oficiales y parece ser un buen candidato a convertirse en el método estándar para límites de detección; así pues, este artículo es importante, aunque pueda tener mayor relevancia para investigadores que para estudiantes. Bruce, G.R y Paramjit, S.G.: “Estimates of Precision in Standard Addition Analysis”, JCE, nº 76, p. 805. Este interesante estudio es un buen ejemplo de las dificultades que pueden encontrar un usuario de métodos estadísticos incauto. Los autores explican cómo han calculado sus estudiantes la desviación estándar de concentraciones de analito determinadas por el método de adiciones estándar (véanse las páginas 127-130 del libro de texto). El método correcto emplea la Ecuación (5.12) del libro de texto, pero algunos estudiantes aprovecharon la ventaja del hecho de que la concentración de prueba resulta (de forma correcta) de a/b, siendo a y b la ordenada en el eje y y la pendiente de la línea recta, respectivamente. Estos estudiantes utilizaron la Ecuación (2.12) para combinar los errores de la pendiente y la ordenada para obtener una desviación estándar de la concentración. Este segundo método (incorrecto) proporciona desviaciones estándar más pequeñas que la Ecuación (5.12). La razón de la discrepancia es que la Ecuación (2.12) supone que las fuentes de error que se combinan son independientes. Este no es el caso en el experimento de adiciones estándar, donde los errores en a y b proceden de la misma línea recta. (Véase también el trabajo de Meyer en el resumen del año 1997). Muranaka, K.: “Teaching Statistical Methods”, JCE, nº 76, p. 469. Este breve apunte, con una réplica de K.A. Thomasson, hace referencia al trabajo publicado en JCE, nº 75, p. 231 (véase el resumen del año 1998). En este trabajo se destaca la importancia de la distinción entre los contrastes de una y dos colas en la aplicación de la Q de Dixon, y del uso de los valores críticos correctos (los valores originales de Dixon tienen errores tipográficos).

3 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Pandey, S., Borders, T.L., Hernández, C., Roy, L.E., Reddy, G.D., Martinez, G.L., Jackson, A., Brown, G. y Acree, W.E., Jr.: “Comparison of Analytical Methods: Direct Emission versus First-Derivative Fluorometric Methods for Quinine Determination in Tonic Waters”, JCE, nº 76, p. 85. Este estudio describe el uso del espectro de emisión de quinina y sus derivados directos en la determinación de este compuesto en muestras de agua tónica. Los métodos de regresión convencional se utilizan para calcular los valores R2 para los gráficos de calibrado y los resultados obtenidos utilizando los dos métodos se comparan mediante los contrastes F y t. El método se puede ampliar calculando también los valores de R’2. 1998 Caballero, J.F. y Harris, D.F.: ”There Seems to be Uncertainty about the Use of Significant Figures in Reporting Uncertainties of Results”, JCE, nº 75, p. 996. Breve apunte sobre el redondeo de resultados, argumentando que muchos autores utilizan demasiadas figuras significativas en la práctica. Thomasson, K., Lofthus-Mershcman, S., Humbert, M. y Kulevsky, N.: “Applying Statistics in the Undergraduate Chemistry Laboratory: Experiments with Food Dyes”, JCE, nº 75, p. 231. Este estudio describe experimentos sencillos en los que a los estudiantes se les hace entrega de dos colorantes alimenticios comunes con espectros de absorción bien separados. Las medidas repetidas de varias muestras sirven para estudiar el rechazo de los valores anómalos mediante el test Q. También se describe la comparación de dos soluciones similares con los contrastes F y t y el uso de los mínimos cuadrados lineales en la determinación de las concentraciones de los colorantes en las bebidas sin alcohol. Contiene propuestas para ampliar el estudio de las mezclas de colorante. 1997 Harris, D.C.: “Nonlinear Least-Squares Curve Fitting with Microsoft Excel Solver”, JCE, nº 74, p. 119. Este estudio muestra, con la ayuda de un ejemplo numérico en el que se utiliza la ecuación de van Deemter, cómo se utiliza el solucionador de Excel en el ajuste de curvas. El método se aplica a la regresión no ponderada, y a la ponderada con las ponderaciones obtenidas a partir de desviaciones estándar medidas. Lieb, S.G.: “Simplex Method of Nonlinear Least Squares – A logical Complementary Method to Linear Least-Squares Analysis of Data”, JCE, nº 74, p. 1008. Este artículo probablemente sea más adecuado para profesores e investigadores que para alumnos. Explica cómo el método de optimización simplex es eficaz en la producción de ajustes de mínimos cuadrados cuando las funciones matemáticas que describen el sistema no son lineales. Se utiliza un programa FORTRAN para realizar los cálculos. Además, se facilitan dos ejemplos y una herramienta para el análisis de errores. Meyer, E.F.: ”A Note on Covariance in Propagation of Uncertainty”, JCE, nº 74, p. 1339. Este breve apunte destaca que, si el error global en un experimento deriva de dos (o más) fuentes de error que no son independientes, las ecuaciones de las que se obtiene el error global (véase la Sección 2.11 del libro de texto) deben incluir un término adicional de ‘covarianza’. En el ejemplo propuesto (medida de la presión de vapor del agua como una función de la temperatura) éste término adicional es negativo; así pues, el error en el resultado final (una determinada temperatura de ebullición) es más preciso que el obtenido con el supuesto de que las fuentes de error son independientes.

4 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Vitha, M.F. y Carr, P.W.: “A Laboratory Exercise in Statistical Analysis of Data”, JCE, nº 74, p 998. La ponderación de grandes cantidades de píldoras de vitamina E es la base de los experimentos detallados en este estudio. Los resultados se utilizan para calcular la estadística descriptiva básica (media, mediana, etc.), aplicar contrastes de significación que incluyen la aplicación del contraste chi-cuadrado para probar la normalidad, y estudiar la distribución muestral de la media. También se menciona el hecho de que las ponderaciones de las píldoras se desvían significativamente de la distribución normal; así pues, se ofrece la oportunidad de demostrar el teorema del límite central. 1996 Andraos, J.: “On the Propagation of Statistical Errors for a Function of Several Variables”, JCE, nº 73, p. 150. A pesar de que las ecuaciones para la propagación de error en casos sencillos son bien conocidas (véanse las páginas 36-39 del libro de texto), a menudo resulta difícil aplicarlas a situaciones reales donde participan muchas variables o funciones matemáticas complejas. El autor resuelve una ecuación general para estos ejemplos avanzados, después muestra cómo ésta se reduce a las ecuaciones conocidas en casos sencillos y las aplica a varios ejemplos de cristalografía y química física. The Analyst Publicación mensual de la Royal Society of Chemistry (RSC, Cambridge, Reino Unido) que supone una excepcional fuente de material. La política editorial de la revista siempre ha dedicado un especial interés al uso adecuado de la estadística en los trabajos de investigación, de ahí la utilización continua en los ejemplos del libro de texto de los datos presentes en dichos trabajos. Por otra parte, con la finalidad de promover el uso correcto de la estadística, la revista ha publicado frecuentes artículos de opinión sobre los métodos estadísticos: algunos de estos artículos tienen una clara intención tutorial, mientras que otros investigan los progresos experimentados recientemente en áreas específicas. The Analyst también es el órgano de publicación de estudios del subcomité de estadística del Comité de Métodos Analíticos de la división analítica de la RSC. Este subcomité ofrece asiduamente informes muy influyentes sobre principios y aplicación de nuevos métodos estadísticos, el uso indebido de métodos ya establecidos, el desarrollo y uso de estudios interlaboratorio y otros muchos temas relacionados con la estadística y la quimiometría. A continuación ofrecemos una lista de artículos e investigaciones editadas por The Analyst. 1999 Mullins, E.: “Getting More from your Laboratory Control Charts”, Analyst, nº 124, p. 433. Guía informativa. 1998 Despagne, F. y Massart, D.L.: “Neural Networks in Multivariate Calibration”, Analyst, nº 123, p. 157-158. Artículo íntegro. Lowthian, P.J., Thompson, M. y Wood, R.: “The Interpretation of Data from Collaborative Trials: Comparison of the Harmonised Protocol with the AMC Robust Method”, Analyst, nº 123, p. 2803.

5 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

1997 Comité de métodos analíticos: “Handling False Negatives, False Positives and Reporting Limits in Analytical Proficiency Tests”, Analyst, nº 122, p. 495. Horwitz, W. y Albert, R.: “The Concept of Uncertainty as Applied to Chemical Measurements”, Analyst, nº 122, p. 615. Kane, J.S.: “Analytical Bias: the Neglected Component of Measurement Uncertainty”, Analyst, nº 122, p. 1283. 1996 Olsen, E.: “Effect of Sampling on Measurement Errors”, Analyst, nº 121, p. 1155. Thompson, M. y Fearn, T.: “What Exactly is Fitness for Purpose in Analytical Measurement?”, Analyst, nº 121, p. 275. Thompson, M. y Lowthian, P.J.: “Statistical Aspects of Proficiency Testing in Analytical Laboratories: 1. Ranking of Participants on Scores is Misleading. 2. Testing for Sufficient Homogeneity. 3. Confirmatory Statistical Test for Scheme Organisers”, Analytical, nº 121, pp. 1589, 1593, 1597. 1995 Comité de métodos analíticos: “Internal Quality Control of Analytical Data”, Analyst, nº 120, p. 29. Thompson, M. y Ramsey, M.H.: “Quality Concepts and Practices Applied to Sampling – An Exploratory Study”, Analyst, nº 120, p. 261. 1994 Comité de métodos analíticos: “Is My Calibration Linear?”, Analyst, nº 119, p. 2363. 1993 Miller, J.N.: “Outliers in Experimental Data and Their Treatment”, Analyst, nº 118, p. 445. Guía informativa. 1992 Comité de métodos analíticos: “Proficiency Testing of Analytical Laboratories: Organisation and Statistical Assessment”, Analyst, nº 117, p. 97. 1991 Miller, J.N.: “3. Basic Statistical Methods for Analytical Chemistry”, “2. Calibration and Regression Methods”, Analyst, nº 116. Artículo de opinión.

6 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

1989 Miller, J.C. y Miller, J.N.: “Basic Statistical Methods for Analytical Chemistry. 1.Statistics of Repeated Measurements”, Analyst, nº 113, p. 1351. Artículo de opinión.

La World Wide Web (WWW) La variedad de recursos estadísticos que se pueden encontrar en la Telaraña Mundial (World Wide Web) es muy amplia y está continuamente cambiando, aunque, como se mencionó anteriormente, su calidad y relevancia son muy variables. Además del material complementario de la revista JCE arriba indicada, los sitios web que aparecen a continuación y que se han visitado recientemente forman son fuentes muy valiosas de información y de software. Un buen punto de partida en el campo de la quimiometría es el sitio www.infometrix.com/chemometrics/chemometrics.html, que ofrece una gran variedad de enlaces. Este sitio web conduce al lector por los distintos departamentos universitarios y su personal académico, principalmente de Estados Unidos y Europa, haciendo hincapié en la investigación y enseñanza de la quimiometría. Entre los recursos que se encuentran en la sección de Estados Unidos destacan los enlaces a Center for Process Analytical Chemistry de la Universidad de Washington, Seattle; y a Food Science and Technology group de la Universidad Cornell. Estos sitios web incluyen resúmenes de proyectos de investigación, obras de referencia, etc. Http://gepasi.dbs.aber.ac.uk/home.html es la página principal de un grupo líder en Reino Unido de quimiometría con sede en Aberystwyth (Universidad de Gales). Proporciona referencias a los últimos trabajos realizados por este grupo, junto con información general, tutoriales y enlaces a otros sitios web. Uno de los sitios web más interesante y con enlaces de gran utilidad es www.acc.umu.se/~tnkjtg/chemometrics/, dirigido por Johan Trygg. Entre todos los tutoriales de fácil acceso que ofrece este sitio, se encuentra una magnífica introducción a la estadística multivariante realizada por Mike Wulder, que se puede visualizar en la siguiente dirección www.pfc.cfs.nrcan.gc.ca/profiles/wulder/mvstats/intro_to_ms.html. El sitio de la Universidad de Umea (www.anachem.umu.se/eks/pointers.htm) proporciona una colección de enlaces (por ejemplo, en la sección “The Analytical Chemistry Springboard”, el salto a la química analítica) a softwares, así como a cursos e hipertextos de varias instituciones de enseñanza superior. Entre los que destaca “The Virtual Classroom” (la clase virtual) de la Universidad de Akron; Ohio, Estados Unidos, donde James K. Hardy proporciona tanto material elemental como avanzado sobre estadística y quimiometría. Uno de los enlaces que se encuentra en este sitio, http://ull.chemistry.uakron.edu/chemometrics/, contiene una amplia lista de temas que abarca secciones desde una visión general sobre estadística (“Basic Statistics”) y Anova (“Simple ANOVA”), pasando por el rechazo de datos (“Rejection of Data”) y la calibración (“Calibration”) hasta temas más complejos como la calibración multivariante (“Multivariate Calibration”) y las redes neuronales (“Neural Networks”). En cada tema se incluyen transparencias claras y sencillas. Es importante observar que el material de este servidor, tiene derechos de autor y no se deben hacer copias del contenido sin la autorización del autor. Otro sitio web de carácter educativo y con sede en Estados Unidos, en este caso de la Universidad de Massachusetts en Dartmouth, se encuentra en la dirección www.umassd.edu/1Academic/CartsandSciences/Chemistry/. Aquí se puede encontrar material, tanto en forma de texto como en diagramas, que comprende la presentación de datos a través de histogramas, estadística básica como la media, la desviación estándar, la distribución normal y contrastes de significación sencillos como el contraste F y el contaste t, además de métodos de contraste de datos anómalos. Aunque la mayor parte del material de este sitio sólo está disponible para los estudiantes que se hayan registrado y que tengan una clave, todos los usuarios de Internet tienen acceso a la unidad de estadística.

7 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Uno de los sitios más importantes es el denominado “Chemometrics World” en www.wiley.co.uk/wileychi/chemometrics, perteneciente a la misma editorial que Journal of Chemometrics. Además de incluir publicidad de esta revista, también recoge numerosa información y enlaces a bases de datos, software, obras de referencia, etc. Dada la gran variedad de software disponible para realizar cálculos estadísticos, un campo de estudio importante y actual es la validación de dichos programas, es decir, ¿proporcionan resultados exactos cuando se aplican a los conjuntos de datos estándar? Dichos conjuntos de datos son aportados por el National Institute of Standards and Technology, en Estados Unidos, a través de su sitio web www.nist.gov. El programa Valid Analytical Measurement (VAM), en Reino Unido, ofrece un sitio web con información sobre la validación, así como páginas de gran utilidad para la formación. Dicho material se puede encontrar en la dirección www.vam.org.uk/, que también incluye enlaces de interés. Royal Society of Chemistry en www.chemsoc.org también incluye información educativa y enlaces. Aunque esté cambiando y creciendo continuamente, hasta el momento no parece ofrecer material que esté directamente relacionado con la estadística y la quimiometría. El sitio de American Chemical Society, www.acs.org, ofrece una gran cantidad de material educativo para estudiantes de todas las edades, en la que se incluye un curso on-line titulado Basic Statistical Analysis of Laboratory Data. Es necesario pagar una cuota para inscribirse a este curso. Todos los sitios web que se han mencionado anteriormente ofrecen material más o menos relacionado con la química. Sin embargo, la World Wide Web proporciona acceso a numerosos sitios relacionados con la enseñanza de estadística en general, aunque la mayor parte contiene información concerniente a química y, de hecho, en ocasiones utiliza ejemplos de química y de campos afines. Computer Teaching Initiative (CTI), a través de su página www.stats.gla.ac.uk/cti, ofrece un acceso bien presentado y práctico para adquirir este tipo de material. Aunque CTI ha sido sustituido por otra organización, su página principal todavía permanece en activo y ofrece una enorme gama de recursos. La mayoría de los programas de estadística más conocidos están revisados de forma exhaustiva y, en ocasiones, se pueden descargar versiones de prueba de forma gratuita. Programas como DISCUS y Analyse-It son de especial interés en este contexto, los cuales están diseñados para mejorar los servicios de cálculo y de enseñanza disponibles a través de Microsoft Excel.

8 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

CAPÍTULO DOS

Soluciones completas a los ejercicios Ejercicios del Capítulo 1 Ejercicio 1. El laboratorio A ha obtenido un resultado de la media exacta de 41,9 g l -1 (muy próximo al valor correcto) y una pequeña dispersión de resultados: todos los valores están entre 41,1 y 42,5 g l -1. Así pues, estos resultados son precisos e insesgados. La exactitud de cada medición individual es buena, así como la media. Los errores aleatorios son pequeños y los errores sistemáticos, o bien son pequeños, o bien se han anulado mutuamente en gran medida. El laboratorio B ha obtenido el mismo valor de la media exacta, pero la dispersión de los resultados es mucho mayor (rango 39,8-43,9 g l -1). Aparentemente, no hay sesgo (aunque, de nuevo, es posible que dos o más errores sistemáticos se hayan cancelado entre sí), pero hay grandes errores aleatorios (es decir, los datos son muy imprecisos) y cuatro de los seis resultados individuales tienen una exactitud muy pobre. Las mismas estimaciones muestran que el laboratorio C ha obtenido resultados precisos aunque sesgados (la media, 43,2 g l -1, y todas las lecturas individuales muestran una exactitud pobre). Los resultados del laboratorio D son imprecisos y sesgados, aunque (seguramente, por azar) una de las lecturas, 42,2 g l -1, es bastante exacta. El laboratorio E ha obtenido una serie de resultados que parecen precisos y no sesgados, a excepción del valor final. La exactitud de esta última interpretación es tan pobre que, en la práctica, debería comprobarse como un resultado anómalo (véase la Sección 3.7): si la comprobación mostrara que se puede rechazar el valor atípico, con un margen de confianza razonable, los resultados restantes serían muy parecidos a los del laboratorio A. Este ejemplo permite a los estudiantes adquirir práctica en el uso apropiado de los términos exactitud, precisión, sesgo, y errores aleatorios y sistemáticos. Los resultados del laboratorio E también exigen que los estudiantes analicen detenidamente las mediciones individuales y que aprendan a estar al tanto de las anomalías. Ejercicio 2. El segundo grupo de seis resultados obtenido por el laboratorio A tiene la misma media que el primer grupo, lo que confirma que este laboratorio produce resultados sin un sesgo significativo (errores sistemáticos pequeños o de autoanulación). Sin embargo, en el segundo grupo de resultados la dispersión es mayor (precisión más pobre: el rango es 40,843,3 g l-1). Así pues, a pesar de que el valor medio es exacto, al menos dos de las interpretaciones individuales no lo son. Los resultados reflejan la diferencia entre repetibilidad (es decir, precisión dentro de días) y reproducibilidad (precisión entre días). Puede pedir a los estudiantes que identifiquen los factores que contribuyen a los errores aleatorios más grandes en las mediciones entre días, tales como la utilización de piezas distintas en los aparatos, la estabilidad de las muestras y los reactivos, las variaciones en la temperatura del laboratorio, etc. Ejercicio 3. Los preparados de anticuerpos monoclonados se obtienen siguiendo la fusión de una célula productora de anticuerpos (célula de plasmática) con una célula (cancerosa) del mieloma anormal. El resultado es que todos los anticuerpos generados son idénticos, en contraste con los anticuerpos obtenidos a partir de mezclas normales de células plasmáticas, que muestran una heterogeneidad pronunciada. Así pues, en un experimento del tipo descrito, el número de sitios de unión por molécula debe ser un número entero (evidentemente, dos en este caso). Por tanto, los resultados son precisos, pero muestran una clara evidencia de sesgo hacia valores bajos. Este sesgo es, probablemente, un artefacto del método experimental utilizado en la determinación del número de sitios de unión. En este ejemplo, la falta de exactitud tanto de los resultados individuales como del valor medio (que no necesita ser calculado) tiene poca importancia, dado que la respuesta correcta es obvia.

9 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Los estudiantes deberían darse cuenta de que este es un caso bastante raro de un experimento en el que el resultado correcto puede deducirse claramente a partir del resultado experimental, permitiendo así que se averigüen el grado de sesgo y la exactitud de forma inmediata. Debería invitar a los estudiantes a considerar otros casos en los que surge la misma situación, por ejemplo: el número de moléculas de agua de la cristalización en un complejo inorgánico es normalmente un número entero. Ejercicio 4. (i) Al igual que muchos analitos bioquímicos, la concentración de lactato en sangre humana varía ampliamente entre pacientes sanos (aproximadamente 5-20 mg 100 ml -1 en adultos) y también varía, en menor grado, en el mismo individuo en distintos momentos. Si se analiza ésta última variación (intraindividual), la exactitud no será importante, pero se necesitarán mediciones precisas; los errores experimentales deben ser pequeños si se comparan con las variaciones individuales. Si se realiza una sola medición para comprobar si el individuo se encuentra o no dentro del “intervalo normal” de lactato en sangre, se requerirá menos precisión, pero un sesgo más grande podría llevar a un diagnóstico equivocado. (ii) El contenido de uranio de los minerales se estudia con vistas a una extracción económicamente rentable del elemento. Así pues, no es necesaria una gran precisión, pero un sesgo considerable (positivo o negativo) podría provocar decisiones económicamente desastrosas. (iii) En este análisis, la velocidad es esencial, de manera que son poco importantes la exactitud y la precisión. A medida que el paciente intoxicado se recupera, debería controlarse el nivel de la droga en el plasma sanguíneo para asegurarse de que va descendiendo. Dado que se trata del estudio de una pauta, la precisión es más importante que la falta de sesgo. (iv) Una vez más, el objetivo principal es detectar cambios en el resultado del análisis. Dado que estos cambios pueden ser muy pequeños, es necesaria una buena precisión para detectar cualquier pauta, pero la exactitud no es tan esencial. Un requisito muy importante es la estabilidad y la reproducibilidad diaria del aparato de medición; en la práctica, éste instrumento debería graduarse todos los días con ayuda de un estándar de estabilidad probada. Es de esperar que los estudiantes utilicen el sentido común y la pericia estadística al responder estas preguntas, que son una manera de recordar que factores tales como el coste, la velocidad, etc. suelen ser tan importantes en la práctica como la precisión, el sesgo, etc. Ejercicio 5. (i) En este experimento, la fuente de error más probable es que la muestra tomada no es representativa del metal en conjunto, y por tanto, puede proporcionar un valor completamente engañoso para el grueso del contenido de Fe (el muestreo se trata en el Capítulo 4). Surgirán errores sistemáticos si la reducción de Fe(III) a Fe(II) no es completa, o si hay un error de indicador considerable. Los errores sistemáticos distintos del error de muestreo pueden comprobarse con la ayuda de una muestra de metal estándar (éstas muestras están disponibles comercialmente, acompañadas de un valor Fe certificado). Otro problema, que no se resuelve necesariamente utilizando la muestra estándar, es la posibilidad de que otros elementos en estados de oxidación bajos sean valorados con sulfato cérico, proporcionando un resultado falsamente elevado para el hierro. Los errores aleatorios en el análisis volumétrico se tratan en las primeras secciones del capítulo en el libro de texto. (ii) Además de los errores sistemáticos que se tratan en el apartado (i), la formación y/o extracción quelatante incompleta presentarán los mayores problemas en este caso. De nuevo, esos errores podrían detectarse con la ayuda de una muestra de metal de contenido conocido de Fe. Si se aplica el procedimiento experimental a dicho material de referencia y la recuperación de Fe es 3S + 6A, o bien 2S > 4A, o bien S > 2A. El Esquema 2, que implica menos muestreos pero más análisis, resulta más económico sólo si el coste de muestreo es mayor que el doble del coste del análisis. Se puede animar a los estudiantes a que consideren casos opuestos en los que el proceso de muestreo sea el paso menos económico (por ejemplo, cuando los materiales a granel son tóxicos, radiactivos, casi inaccesibles, etc.) y otros factores relevantes como el tiempo que llevan los pasos de muestreo y de análisis. Ejercicio 2. Este es un ejemplo sencillo de cálculos del ANOVA con un factor de efecto 2 aleatorio: aparte del error inevitable en la medida, varianza 0, cualquier variación que se produzca en la concentración de albúmina día a día también será aleatoria, con una varianza 12. A continuación se muestran los cálculos de la salida del ANOVA proporcionados por Excel.

21 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Anova de un factor RESUMEN Grupos Fila 1 Fila 2 Fila 3 Fila 4

Frecuencia 3 3 3 3

Suma 186 169 142 170

Promedio 62 56,333 47,333 56,667

Varianza 1 0,333 5,333 6,333

ANOVA Fuente de  variació n Entre días Dentro de días

SC

gl

CM

F

Valor P

F crít

332,92 26,00

3 8

110,97 3,25

34,15

6,58E­05

4,066

Total

358,92

11

La tabla muestra que la aplicación del contraste F en la comparación de las variaciones 2 entre días y dentro de días (0) da un valor F de 34,15, superior al valor crítico (P = 0,05, contraste de una cola) que es 4,066. La probabilidad de que esto ocurra de forma aleatoria (0,0000658) es mínima, así que podríamos inferir con bastante seguridad que la variación entre 2 días es significativamente mayor que 0. Por tanto, la variación día a día o variación muestral, 2 1, viene dada (véase la Sección 4.3) por (cuadrado medio entre días  cuadrado medio dentro de días)/n = (110,97 – 3,25)/3 = 35,91. Estos cálculos son relativamente fáciles con la ayuda de Excel o de un programa similar. El punto más importante que se debe destacar es que la variación entre días no es una medida directa de 21, ya que incluye una contribución de 20. Los estudiantes también han de tener en cuenta que las concentraciones de proteínas, como la albúmina, en una persona varían en realidad de un día a otro e, incluso, de una hora a otra. Asimismo dependerán de factores como la alimentación, la posición (es decir, si el individuo se encontraba de pie, sentado o tumbado durante la toma de la muestra) y, claro está, su estado de salud. Todos estos factores contribuirán a la “variación muestral”, a menos que se tomen las precauciones adecuadas; por ejemplo, tomar la muestra a la misma hora todos los días. Ejercicio 3. Este ejemplo también requiere el uso de ANOVA con un factor de efecto aleatorio, pero teniendo en cuenta que cualquier variación en las concentraciones de halofuginona en las diferentes partes del hígado está más allá del control experimental. De esta manera, la tabla de ANOVA en Excel abajo indicada es muy parecida, y puesto que los números de las muestras y las medidas repetidas son las mismas que en el Ejercicio 2, el valor crítico de F es el mismo. En este caso, el valor experimental de F también es mayor, por lo que el cuadrado medio entre muestras es demasiado grande como para que se deba únicamente a un error de medida 2 aleatorio. El valor de 0 viene dado por el cuadrado medio dentro de muestras, es decir, 0,000175 y la varianza muestral, 21, viene determinada como en el caso anterior por: (0,000831  0,000175)/3 = 0,000219. Anova de un factor RESUMEN Grupos Fila 1 Fila 2 Fila 3 Fila 4

Frecuencia 3 3 3 3

Suma 0,7 0,61 0,6 0,68

Promedio 0,2333 0,2033 0,2 0,2267

Varianza 0,000233 0,000233 1E­04 0,000133

22 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

ANOVA Fuente de  variación Entre muestras Dentro de muestras

SC

gl

CM

F

Valor P

F crít

0,002492 0,0014

3 8

0,000831 0,000175

4,746

0,03475

4,066

Total

0,003892

11

Utilizando los mismos principios que en el Ejercicio 1 podemos conocer la varianza total para los dos esquemas de muestreo tal y como aparece a continuación: Esquema 1: 2 = (0,000175/4) + (0,000219/6) = 0,00008025. Esquema 2: 2 = (0,000175/[2  3]) + (0,000219/3) = 0,0001022. Ejercicio 4. El problema más evidente al determinar la capacidad del proceso, , es que no se debe permitir que las variaciones en la media del proceso influyan en el resultado. Esto se consigue calculando un número de distintas estimaciones de  en varias ocasiones y realizando el promedio de los resultados. En este caso, si se calculan las seis muestras por separado, sus varianzas son 2,607, 0,697, 1,487, 3,633, 6,417 y 1,927. La media de estos valores es 2,795, cuya estimación de  es 1,672. Con un cálculo alternativo y, quizás, más sencillo se puede determinar el rango, R, para cada muestra. Del valor medio, R, se obtiene la estimación de  mediante la Ecuación (4.4). En este ejercicio, los valores de rango son 3,4, 2,0, 2,8, 4,1, 5,9 y 2,5. La media de dichos resultados es 20,7/6 = 3,45. Si esto lo dividimos entre el valor apropiado de d1, que es 2,059, obtenemos 1,676 (este valor no es igual que el anterior, ya que la relación entre la desviación estándar y el rango tan sólo es exacta cuando se realiza la media de un número infinito de muestras). Utilizando el valor anterior, las líneas de aviso del diagrama de Shewhart para la media se encuentran a 50  (2  1,672)/4 = 50  1,672 y las líneas de acción a 50  (3  1,672)/4 = 50  2,508. Por otra parte, las líneas de aviso y de acción para este diagrama vienen determinadas por las Ecuaciones (4.9) y (4.10), donde los valores de W y A (0,476 y 0,750, respectivamente), junto con el valor de R, 3,45, dan como resultado 50  1,64 y 50  2,59, respectivamente. Así, podemos comprobar de nuevo que, por la misma razón, estos resultados no son exactamente iguales que los derivados del valor de . Las líneas de aviso y de acción del diagrama de control para el rango, para el que el valor objetivo es R = 3,45, vienen dadas por las Ecuaciones (4.5)(4.8). Por tanto, los resultados obtenidos son: la línea de aviso inferior se encuentra a 3,45  0,2888 = 1,00; la línea de aviso superior a 3,45  1,935 = 6,68; la línea de acción inferior a 3,45  0,097 = 0,33 y la línea de acción superior se encuentra a 3,45  2,579 = 8,90. Obsérvese que la desviación estándar realizada en las 24 medidas a la vez es 2,33. Esto significa aproximadamente un 40 por ciento más que el valor estimado anteriormente, al tratar las 6 muestras por separado; es decir, es un resultado que destaca la importancia de determinar el valor de  sin depender de fluctuaciones en la media del proceso. El análisis de los datos originales indica que dichas fluctuaciones son de gran importancia en este ejercicio. Ejercicio 5. A continuación (Figura 4.A) se muestra una representación gráfica de Youden para dos muestras de este conjunto de datos: las líneas señalan las medias de las medidas en la muestra A (7,01) y en la muestra B (7,75), y se muestra la línea de 45 a través del punto (7,01, 7,75). Como ocurre en la mayoría de los ensayos de colaboración, los errores sistemáticos predominan, por lo que los resultados obtenidos por los diferentes laboratorios son tan bajos como ca. 3 ppm y tan altos como ca. 12 ppm para los mismos materiales. Hay menos errores aleatorios: 13 de los 15 puntos se encuentran en los cuadrantes (+, +) y (, ), mientras que si los errores aleatorios predominaran, aparecerían números de puntos aproximadamente iguales en cada uno de los cuadrantes. El error aleatorio para un laboratorio concreto viene determinado por la distancia perpendicular del punto para dicho laboratorio desde la línea de 45. De acuerdo con este criterio, tan sólo los laboratorios 4 y 15 muestran unos errores aleatorios de gran importancia.

23 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 4.A Estas conclusiones están respaldadas por los cálculos numéricos (véase abajo). Se calculan los valores de D (diferencias entre los dos resultados) para cada laboratorio (proporcionando resultados como 1,2, 0,9, 2,0, etc.) y su media es 0,74. Del mismo modo, se hallan las sumas de los dos valores, T (18,8, 8,5, 22,2, etc.) y sus medias son 14,75. Las medias obtenidas se pueden utilizar para determinar los valores de (D  D) (0,46, 0,16, 1,26, etc.) y los valores de (T  T) (4,05, 6,25, 7,45, etc.), así como sus cuadrados. Por tanto, la Ecuación (4.15) muestra que la varianza de la medida, s2r , viene dada por 22,22/28 = 0,793, 2 mientras que la Ecuación (4.16) muestra que la varianza total, sR, es 308,76/28 = 11,027. En el sentido estricto de la palabra, debemos afirmar que estas dos varianzas difieren de forma significativa al calcular F = 11,027/0,793 = 13,905. El valor crítico (P = 0,05, contraste de una cola) de F14.14 es 2,48, por lo que la varianza global es claramente mucho mayor que la varianza de la medida aleatoria. Es obvio que la varianza global está sujeta a la varianza, debido a los 2 errores sistemáticos entre los laboratorios, sL, que vienen determinados por la Ecuación (4.17) como (11,027 0,793)/2 = 5,117. (Como se manifiesta en el libro de texto, este cálculo es una forma más sencilla del ANOVA de dos factores: véase el Capítulo 7). Por último, se observa que la media global de todas las medidas es 14,75/2 = 7,38 ppm. La desviación estándar global es 11,027 = 3,32 ppm, de manera que la desviación estándar relativa es 332/7,38 = 45%. Este resultado es mucho más alto que el valor que se predice mediante la relación de Horwitz para medidas a un nivel de aproximadamente 7,5 ppm (cerca del 12 por ciento), por lo que podríamos concluir que existen dificultades específicas para realizar las determinaciones del nivel de cadmio de forma exacta, o bien que los laboratorios implicados en este ensayo no reunían las condiciones previas normales de las pericias analíticas.

24 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

A

B

8,8 3,8 10,1 8 5 5,2 6,7 9,3 6,9 3,2 9,7 7,2 6,5 9,7 5 Medias: 7,007

10 4,7 12,1 11 4,7 6,4 8,7 9,6 7,5 2,8 10,4 8,3 6,8 7,2 6

D -1,2 -0,9 -2 -3 0,3 -1,2 -2 -0,3 -0,6 0,4 -0,7 -1,1 -0,3 2,5 -1

T 18,8 8,5 22,2 19 9,7 11,6 15,4 18,9 14,4 6 20,1 15,5 13,3 16,9 11

7,747

-0,74

14,753

D–D -0,46 -0,16 -1,26 -2,26 1,04 -0,46 -1,26 0,44 0,14 1,14 0,04 -0,36 0,44 3,24 -0,26

T–T 4,047 -6,253 7,447 4,247 -5,053 -3,153 0,647 4,147 -0,353 -8,753 5,347 0,747 -1,453 2,147 -3,753

(D – D)2 0,212 0,026 1,588 5,108 1,082 0,212 1,588 0,194 0,02 1,3 0,002 0,13 0,194 10,498 0,068 Sumas: 22,216 Varianzas: 0,793

(T – T)2 16,376 39,104 55,453 18,034 25,536 9,944 0,418 17,195 0,125 76,621 28,587 0,558 2,112 4,608 14,088 308,757 11,027

Ejercicio 6. Este problema se resuelve utilizando los valores tabulados (n = 5) de W y A (para el diagrama de Shewhart para la media), y de w1, w2, a1 y a2 (para el diagrama de rangos), junto con las Ecuaciones (4.9) y (4.10) en el caso del diagrama de la media y con las Ecuaciones (4.5)(4.8) para hallar el diagrama de rangos. Los resultados pueden resumirse de la forma siguiente: Diagrama de la media: W = 0,377. Las líneas de aviso están en 120  (0,377  7) = 120  2,64. A = 0,594. Las líneas de acción están en 120  (0,594  7) = 120  4,16. Diagrama de rangos: w1 = 0,365. La línea de aviso inferior está a 7  0,365 = 2,56. w2 = 1,804. La línea de aviso superior está a 7  1,804 = 12,63. a1 = 0,158. La línea de acción inferior está a 7  0,158 = 1,11. a2 = 2,358. La línea de acción superior está a 7  2,358 = 16,51. Con estos resultados queda clara la asimetría de las líneas en el diagrama de rangos. Ejercicio 7. En este ejemplo el valor de  es 0,6 mg 100 ml-1, de manera que el diagrama de Shewhart para la media puede representarse con las líneas de aviso y de acción en 80  (2  0,6)/4 y 80  (3  0,6)/4 mg 100 ml-1, es decir, en 80  0,6 y 80  0,9 mg 100 ml-1, respectivamente. El diagrama se muestra en la Figura 4.B (puesto que los niveles de alcohol medidos tienden a caer, solamente toman importancia en este ejercicio las líneas de aviso y acción inferiores). Si se aplican criterios más sencillos, el proceso (que en este caso es de tipo analítico) únicamente se detendría el día 15, es decir, cuando hay dos puntos sucesivos fuera de la línea de aviso inferior. Este resultado no es adecuado, ya que como se refleja claramente en el diagrama, a partir del día 8, aproximadamente, existe una tendencia descendente en los resultados con un promedio de aproximadamente 80 mg 100 ml -1 durante los primeros cinco días y sólo de 79 mg 100 ml -1 durante los últimos cinco días. A veces se aplican otros criterios para averiguar dichas tendencias en el diagrama de Shewhart: en este caso, el criterio de seis puntos decrecientes sucesivos haría que el proceso se detuviera el día 13.

25 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 4.B El diagrama sumacu (véase la Figura 4.C) muestra claramente que la media del proceso inicia una tendencia descendente a partir del día 8 ó 9 y, de esta manera, identifica esta tendencia cuanto antes. Desde los días 12 ó 13 en adelante, la pendiente de la representación sumacu es más o menos constante, indicando que la media del proceso se ha desplazado a un valor nuevo y uniforme, como se observa más arriba.

Figura 4.C

26 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 5 Ejercicio 1. Cuando se aplica la Ecuación (5.2) a este conjunto de datos, se obtiene un valor r = -0,8569, lo cual indica que, en efecto, existe una correlación negativa entre la concentración de mercurio y la distancia del punto de medición desde el polarógrafo. Podemos confirmar este hecho mediante la aplicación de la Ecuación (5.3), que demuestra que t = (0,8569 × 2)/0,5155 = 3,325. El valor crítico de t (P = 0,05, n - 2 = 4 grados de libertad) tiene un valor inferior, 2,78. Esto confirma que el valor de r es significativo al nivel de probabilidad escogido. No obstante, este resultado tiene que interpretarse de forma cautelosa por dos motivos. Primero, porque no es lo mismo correlación que causalidad; es decir, el hecho de que dos conjuntos de mediciones estén correlacionados no significa necesariamente que un conjunto de resultados se produzca como consecuencia directa del otro: pueden estar vinculados por azar. Hace algún tiempo se demostró que, durante un período de varios años, el problema de disentería en Escocia tuvo una fuerte correlación negativa con el índice de precios al por menor, pero ¡difícilmente podría deducirse que la disentería contribuyera a mantener bajos los precios!. En el caso de los análisis de mercurio, es posible que los niveles de mercurio estén relacionados con otra fuente de contaminación, como un derrame oculto de mercurio. Y segundo, hemos de tener en cuenta que el coeficiente de correlación, r, contraste sólo las relaciones lineales. Incluso si la contaminación de mercurio se origina en el polarógrafo, creeríamos que estaría relacionado con la distancia desde el instrumento mediante una ecuación cuadrática inversa, o similar. Este es un buen ejemplo de la necesidad de aplicar el sentido común (en este caso, el sentido químico) a la interpretación de resultados estadísticos. Ejercicio 2. En este ejemplo, la aplicación de la Ecuación (5.2) da un valor r muy superior: 0,99982. Una representación gráfica de calibrado lineal nos parecería por tanto perfectamente adecuada para este conjunto de mediciones. Sin embargo, un analista avispado se daría perfecta cuenta de que las diferencias entre los valores sucesivos de y disminuyen, mientras que x aumenta: estas diferencias son 0,148, 0,144, 0,140, 0,136 y 0,134; Esto indica que, en sentido estricto, se podría trazar una curva con dichos datos. Un análisis de los residuos de y, obtenidos al trazar una línea recta (véase el Ejercicio 9) nos llevaría a la misma conclusión, a pesar de que tal procedimiento apenas es necesario en este caso. En la práctica, los errores analíticos resultantes del uso de una gráfica de línea recta serían muy pequeños, pero este ejemplo enfatiza la necesidad de examinar cuidadosamente cualquier dato antes de aplicar posibles métodos estadísticos inadecuados. Ejercicio 3. Las Ecuaciones (5.4) y (5.5), aplicadas a esta serie de datos, dan b = 0,02516 y a = 0,002107, respectivamente. También podemos mostrar que x = 15, y = 0,380,

Σ (x - x ) i

i

2

Σx i

i

2

= 2275 y

= 700. Los residuos individuales de y, (yi - ŷi ) son +0,0009, -0,0009, -0,0028,

+0,0104, -0,0074, -0,0062 y +0,0060. Estos residuos (como se esperaba) suman cero y la suma de sus cuadrados es 0,000247. La Ecuación (5.6) muestra que sy/x = 0,00703. Las Ecuaciones (5.7) y (5.8) dan sb = 0,000266 y sa = 0,00479, respectivamente. Estas desviaciones estándar pueden utilizarse para proporcionar intervalos fiables para b y a al multiplicar por t = 2,57 (P = 0,05, 5 grados de libertad). Por lo tanto, estos intervalos de confianza al 95% son 0,0252  0,0007 y 0,0021  0,0123 respectivamente, usando en cada caso 4 cifras decimales. A continuación se presenta el cálculo simplificado de Excel para este ejercicio (omitiendo toda la sección del ANOVA):

27 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Resumen de los resultados Estadística de la regresión R múltiple 0,99972 R cuadrado 0,99944 R cuadrado ajustado 0,99933 Error estándar 0,00703 Observaciones 7,00000

Ordenada en  el origen X Variable 1

Coeficientes Error estándar 0,002107 0,004787

Inferior al 95 % ­0,0102

Superior al 95 % 0,0144

0,02516

 0,0245

0,0258

0,000266

Como en el Ejemplo 5.9.1, la pendiente de la gráfica, b, se describe como “X Variable 1”, debido a que proporciona el coeficiente para el término x en la Ecuación (5.1). El término “error estándar” se utiliza para describir sy/x en la parte superior de la tabla, así como sa y sb en la parte inferior. Ejercicio 4. (a) Puesto que la ecuación de la línea de calibrado (véase el Ejercicio 3) es y = 0,002107 + 0,02516x, es decir, x = (y - 0,002107)/0,02516, un valor de y de 0,456 corresponde a un valor de x de 18,04 ng ml-1. El valor de sx0 (Ecuación 5.9) es 0,00703/0,02516 {1 + 1/7 + [(0,456 - 0,380)2/(700 × 0,025162)]}0,5 = 0,300. El valor de t utilizado para convertir esta desviación estándar en un intervalo de confianza vuelve a ser 2,57; así pues, los límites de confianza para la concentración son 18,04 ± (2,57 × 0,300) = 18,04 ± 0,77 ng ml-1. (b) En este caso, es necesario comprobar en primer lugar si se puede omitir el posible dato anómalo de 0,347. Podemos calcular Q = (0,347 - 0,314)/(0,347 - 0,308) = 0,033/0,039 = 0,846. Este resultado excede (por muy poco) el valor crítico (P = 0,05, n = 4) de 0,831 (Tabla A.5), por lo que la medición 0,347 se puede rechazar, dejando tres medidas cuya media es 0,311. Esto corresponde a una concentración de 12,28 ng ml -1. El valor de sx0 de la Ecuación (5.10) con m = 3 es 0,195; así pues, con t = 2,57, como anteriormente (el número de soluciones estándar, y de ahí el número de grados de libertad, no ha cambiado), los límites de confianza vienen dados por 12,28 ± (2,57 × 0,195) = 12,28  0,50 ng ml-1. Resulta instructivo comparar este intervalo de confianza con el obtenido en la sección (a) de este ejercicio. Como ya se demostró en la página 139 del libro de texto, se prevé que los cálculos de regresión no ponderados, donde se supone que un error en la dirección de y es independiente de x, den intervalos de confianza similares para todas las estimaciones de concentración. En este ejemplo, la principal diferencia entre los cálculos de las secciones (a) y (b) es la utilización de mediciones repetidas de y0 en la sección (b), y de aquí el uso de la Ecuación (5.10) en lugar de la (5.9) para calcular sx0. En ambas ecuaciones, el término importante dentro de la raíz cuadrada es casi siempre el primero, que en la sección (a) es 1 y en la (b) es 1/3. Por eso, se espera que la precisión de las mediciones repetidas sea mejor mediante un factor cercano a 1/3 ó 0,58. En la práctica, esto se mejora mediante un factor de 0,50/0,77 = 0,65 porque el segundo término idéntico en la raíz cuadrada (1/7 = 0,1429) en las dos ecuaciones suaviza significativamente el efecto de las mediciones repetidas. El tercer término dentro de la raíz cuadrada es el más pequeño para la mayoría de las rectas de calibrado: por ejemplo, en la sección (a) es (0,076) 2/(700 × [0,02516]2) = 0,0130. Ejercicio 5. El problema se resuelve usando los datos del Ejercicio 3. Si el límite de detección se define como aquella concentración que proporciona una señal que excede el ruido de fondo en tres desviaciones estándar, y si el ruido de fondo y la desviación estándar vienen dados por a y sy/x respectivamente, entonces el LOD es el valor de x correspondiente a un valor de y de a + 3sy/x = 0,002107 + (3 × 0,00703) = 0,02319. El valor de x correspondiente es (0,02319 0,00211)/0,02516 = 0,84 ng ml-1. Si aplicamos la definición alternativa, aunque ahora menos utilizada, usando a + 2sy/x , entonces el valor de y es 0,01617, y el valor de x correspondiente es, como cabría esperar, dos tercios del valor anterior, es decir, 0,56 ng ml -1. Esto será cierto para una línea de pendiente dada, con independencia del valor de la ordenada a, y el LOD se determinará dividiendo 3sy/x (o 2sy/x , etc.) entre la pendiente. (Se suma el valor de a en 3sy/x

28 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

para obtener el valor crítico de y, pero luego se le vuelve a restar cuando este valor de y se convierte al mismo LOD). Se puede plantear el interrogante sobre si la ordenada en el origen sirve para algo en el contexto de los LOD. Podría argumentarse que sí es importante, ya que ayuda a determinar el valor de y correspondiente al LOD. Una vez establecido el último valor para cualquier experimento de calibrado, se considerará que un material que dé una lectura en el instrumento inferior a éste valor, no contendrá una cantidad significativa de analito. Ejercicio 6. Los primeros pasos de un cálculo de las adiciones estándar son iguales a los de una gráfica de calibrado tradicional: la aplicación de las Ecuaciones (5.4) y (5.5) da b = 0,005349 y a = 0,2569, respectivamente. La concentración del material de una prueba viene dada por la razón a/b = 48,0 ng ml-1. En estos cálculos, resulta útil hacer una rápida comprobación del resultado: la suma de la misma cantidad de oro debería dar, aproximadamente, el doble de la señal en el instrumento. En este caso, la solución, en la que el nivel de oro añadido es 50 ng ml -1, tiene una absorbancia de 0,528, lo cual es justamente casi el doble del valor de 0,257 obtenido en las muestras originales de agua de mar. El valor de sy/x (Excel) es 0,003694 y es fácil demostrar que y = 0,4441 y

(5.12) muestra, por tanto, que sxE

Σ (x – x ) i

i

2

= 4.200. La Ecuación

(0,4441)2 1 + 8 (0,005349)2 × 4200

0,003694 viene dado por 0,005349

0,5

= 0,9178. Como hay 6 grados de libertad, t = 2,45 (P = 0,05), con lo que los límites de confianza para la concentración vienen dados por 48,0 ± (2,45 × 0,9178) = 48,0 ± 2,2 ng ml-1. En estos cálculos hay que tener en cuenta dos puntos: el primero es que, de todos los términos de la raíz cuadrada en la Ecuación (5.12), el segundo es con mucho el mayor, al contrario que sucede normalmente con las Ecuaciones (5.9) y (5.10). Esto se debe en gran parte a que el numerador de este término es y 2, es decir, y0 aquí es cero por la extrapolación al eje x. El segundo punto a tener en cuenta es si éste método de extrapolación empeora sobremanera (es decir, amplía) los límites de confianza para un cálculo de concentración, comparado con un experimento de calibrado tradicional. Hemos visto que en el último método los límites de confianza para la recta de regresión divergen de la línea con concentraciones altas y bajas (Figura 5.6), así que, en base a esto, se esperaría una pérdida de precisión usando el método de las adiciones estándar. No obstante, las estadísticas de las adiciones estándar son diferentes, como se puede comprobar al comparar las Ecuaciones (5.10) y (5.12). El primer término dentro de la raíz cuadrada en la primera ecuación (1/m) no está presente en la segunda ecuación. Esto ocurre porque el valor de y0 está fijo en cero exactamente en la segunda ecuación, es decir, como si se hubiera establecido un número infinito de mediciones, m, para determinar su valor. Como resultado, a pesar de que el tercer término dentro de la raíz cuadrada de la Ecuación (5.12) sea ahora apreciable (como ya hemos notado), la precisión global del método de las adiciones estándar normalmente no difiere mucho de la de un experimento de calibrado tradicional que usa técnicas y aparatos análogos. Ejercicio 7. Dado que se realizan mediciones repetidas en cada estándar en este ejercicio, se pueden calcular los errores aleatorios en la dirección de y para cada punto de la gráfica y realizar un cálculo de regresión ponderada. Cuando se hayan calculado los valores medios de y y sus desviaciones estándar, los datos se pueden resumir de la siguiente manera: Concentración, ng ml-1 (x) Intensidad (unidades arbitrarias) (y) Desviación estándar (s)

0 10 20 30 40 50 4,0 21,2 44,6 61,8 78,0 105,2 0,71 0,84 0,89 1,64 2,24 3,03

La recta de calibrado no ponderada se determina a partir de las dos primeras filas de esta tabla. Aplicando las Ecuaciones (5.4) y (5.5) como en los ejercicios anteriores, los valores de b y a resultan ser 1,982 y 2,924, respectivamente. Estos valores pueden usarse para mostrar que las soluciones de prueba proporcionan intensidades de fluorescencia de 15 y 90 unidades tienen concentraciones de quinina de 6,09 y 43,9 ng ml -1, respectivamente. Unos sencillos cálculos más profundos indican que y = 52,47,

Σ (x  x )

29 © Pearson Educación, S.A.

i

2

= 1.750, y sy/x = 2,991. La

Estadística y Quimiometría para Química Analítica, 4ª Edición i

Ecuación (5.9) se puede utilizar para mostrar que sx0 = 1,767 para las dos concentraciones: dado que los dos valores de y0 están situados casi simétricamente por encima y debajo de y, el tercer término dentro de la raíz cuadrada en esta ecuación es prácticamente igual en cada caso. Usando un valor t de 2,78 (4 grados de libertad, P = 0,05), los intervalos de confianza para las dos concentraciones pueden escribirse como 6,1 ± 4,9 y 43,9 ± 4,9 ng ml -1. Es preciso observar que el valor sy/x obtenido de este cálculo no ponderado depende de si las 30 mediciones originales fueron introducidas de forma separada en la hoja de cálculo, o si primero se calcularon los promedios de los seis grupos de cinco mediciones y luego se introdujeron dichos promedios (en cuyo caso, la diferencia es muy pequeña). En la práctica, es muy posible que los seis materiales de ensayo estuvieran preparados, y cada uno fuera medido cinco veces para proporcionar un único punto en la gráfica de calibrado. En tal caso, se tendrían que introducir los seis promedios en la hoja de cálculo. Pasamos ahora a la recta de regresión ponderada. El primer paso consiste en calcular las ponderaciones para cada punto usando sus desviaciones estándar. La Ecuación (5.13) muestra que las ponderaciones en orden de valores ascendentes de x son 2,23, 1,59, 1,42, 0,42, 0,22 y 0,12. Como estaba previsto, dichas ponderaciones suman 6, que es el número de puntos de calibrado. Y, como se esperaba, las ponderaciones son mayores cuando x es pequeño, dando lugar a una región donde las desviaciones estándar son pequeñas, y por tanto, donde la línea debe pasar cerca de esos puntos. Con la ayuda de las Ecuaciones (5.14) y (5.15) podemos determinar la pendiente y la ordenada en el origen de la línea ponderada, dando valores de bw y aw de 1,964 y 3,483, respectivamente. Estos resultados son bastante similares a las propiedades correspondientes de la línea no ponderada, incluso aunque el esparcimiento de los puntos es notorio (véase la Figura 5.A, donde se representa la recta de regresión no ponderada), y proporcionan valores de concentración de 5,87 y 44,1 ng ml -1, respectivamente, para las soluciones con valores y0 de 15 y 90. Una vez más, estos valores se aproximan a los obtenidos a partir de la recta no ponderada. La importancia de usar una recta ponderada se demuestra cuando se calculan los límites de confianza para estas concentraciones. Para conseguirlo, primero es necesario calcular mediante la interpolación las ponderaciones correspondientes a los valores y0 de 15 y 90. Una revisión de los datos de arriba muestra que las ponderaciones de 1,80 y 0,18 serían razonables. El uso de estas ponderaciones con la Ecuación (5.16) proporciona valores sx0w de 0,906 y 2,716 respectivamente para las dos concentraciones, y por tanto los límites de confianza son 5,9 ± 2,5 y 44,1 ± 7,6 ng ml -1, respectivamente. Como se esperaba para un cálculo de regresión ponderado, y conforme a la realidad experimental, los límites de confianza para el valor de concentración más bajo son más reducidos que los de concentración más alta.

30 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 5.A Ejercicio 8. Es más fácil manejar datos de este tipo sobre la comparación de métodos usando Excel o alguna hoja de cálculo similar, ya que sus resultados proporcionan toda la información necesaria. En este ejemplo, es de suponer que el método ESI es el “nuevo” método que proporciona los valores de y, mientras que el método gravimétrico se espera que tenga errores aleatorios pequeños (véase el Capítulo 1) y que, por tanto, proporcione los valores de x. Los resultados de Excel (omitiendo los elementos del ANOVA) son los siguientes: Resumen de los resultados Estadística de la regresión R múltiple R cuadrado R cuadrado ajustado Error estándar Observaciones Coeficientes Ordenada en  el origen X Variable 1

0,9697 0,9404 0,9329 16,7264 10

4,4837

Error estándar 8,6939

Estadístico t 0,5157

Valor P 0,6200

Inferior al 95% ­15,5646

Superior al 95% 24,5319

0,9629

0,0857

11,2346

0,0000

0,7653

1,1606

A partir de este resumen obtenemos un coeficiente de correlación (“R múltiple”) de 0,9697. La ordenada en el origen, a, de la gráfica está en 4,48 y su intervalo de confianza, 15,56  +24,53, incluye cero. La pendiente, b, es 0,963 y su intervalo de confianza, 0,765 1,161, incluye 1. En general, se puede concluir, por tanto, que la concordancia entre ambos métodos es buena, y no se dan indicios de diferencias sistemáticas entre ellos. Debemos, no obstante, prestar atención a dos críticas de este método: primero, la revisión de los datos muestra que los materiales de ensayo contienen, ya sea niveles muy bajos de sulfuro, o ya sea entre 100 y 200 mg. La comparación de métodos resultaría más convincente con un esparcimiento aún mayor de los valores a través del intervalo, y quizás con más datos globales; a pesar de que, en la práctica, el analista pueda tener muy tener poca o ninguna elección en estos temas. Segundo, hay que recordar que la recta de regresión de y sobre x aquí

31 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

determinada asume errores aleatorios en x sin importancia, al menos comparados con los errores aleatorios en y. Aunque posiblemente esto resulte válido en este ejemplo particular, el método mostrado se usa a menudo en casos donde las suposiciones no pueden justificarse en absoluto. Ejercicio 9. Cuando se muestran los datos (véase la Figura 5.B), parece como si la gráfica fuera aproximadamente lineal hasta un valor de absorbancia de 0,7-0,8. Cuando se examina todo el conjunto de datos usando Excel y se determinan los residuos (véase la tabla de resultados de los residuos), se averigua que esta última muestra una tendencia de negativo a positivo y otra vez a negativo. Resultados de los residuos Observación 1 2 3 4 5 6

Valor previsto de Y 0,117 0,187 0,303 0,536 1,001 1,467

Residuos ­0,067 ­0,017 0,017 0,064 0,069 ­0,067

Figura 5.B La suma de cuadrados de los residuos es 0,019 y el coeficiente de correlación es 0,9936. Cuando se repiten estos cálculos, quitando el último punto (300, 1,4), el coeficiente de correlación sube hasta 0,9972, y la suma de cuadrados de los residuos (véase la tabla a continuación) desciende hasta 0,004. Esto nos sugiere claramente que este punto debería omitirse si deseamos representar una gráfica de línea recta. Al omitir el quinto punto (200, 1,07), también se consiguen mejoras más profundas aunque más pequeñas (la suma residual de cuadrados es 0,00068, r es igual a 0,9980), pero a costa de obtener un intervalo de linealidad aún más corto. En la práctica, por tanto, el quinto punto de la gráfica bien podría mantenerse como parte de la porción de línea recta.

32 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Resultados de los residuos Observación 1 2 3 4 ­5

Valor previsto de Y 0,088 0,167 0,299 0,564 1,092

Residuos ­0,038 0,003 0,021 0,036 ­0,022

La explicación para muchos experimentos de este tipo, donde la gráfica de calibrado parece ser lineal cerca del origen, aunque indique desviaciones negativas en valores altos de x, radica en que la relación entre x e y es de tipo curvilíneo, cuya función se acerca a una línea recta en valores bajos. Las gráficas curvilíneas se explicarán en ejemplos posteriores, pero merece la pena fijarse en que una curva cuadrática resulta mucho más conveniente para este (completo) conjunto de datos que una lineal. Mediante métodos que se describirán más detalladamente en posteriores ejemplos, la línea recta y = 0,0703 + 0,00465x da R´2 = 0,9839, y la ecuación cuadrática, que es y = -0,0063 + 0,0068x - 7106x2, da R´2 = 0,9997. Ejercicio 10. Para resolver este problema, se determinan, como siempre, las dos rectas de regresión no ponderadas derivadas de las dos filas de datos (dados los subíndices 1 y 2). Los resultados son: a1 = 0,0014; b1 = 0,0384; a2 = 0,1058; b2 = 0,012. La coordenada x del punto de intersección de estas rectas, xI, viene dada por la Ecuación (5.18), y es igual a (0,0014  0,1058)/(-0,012  0,0384) = 0,1044/0,0504 = 2,07. Esto nos sugiere que se ha formado un complejo DPA-Eu 2:1. Los valores sy/x para las líneas 1 y 2 son 0,002224 y 0,000966, respectivamente. El valor conjunto s2(y/x)p viene dado por la Ecuación (5.20), y el resultado es 3,85  106. Esto, a su vez, nos permite calcular s2∆a = 2,72  105, s2∆b = 3,57  106 y s2∆a∆b = 8,99  106 (Ecuaciones 5.215.23). Estos valores, junto con un valor t de 2,201 (P = 0,05, 11 grados de libertad), proporcionan los coeficientes de la ecuación cuadrática (5.19), que en orden son 0,002519, 0,010430 y 0,010768. La solución a esta ecuación proporciona los límites de confianza para xI de 1,97 y 2,17, es decir, xI = 2,07 ± 0,10. Este cálculo es obviamente aburrido (y es crucial retener un montón de números significativos para obtener soluciones precisas para la ecuación cuadrática), y sería aconsejable escribir (por ejemplo) una hoja de datos en Excel para llevarlo a cabo, si es que se va a utilizar de forma habitual. Ejercicio 11. Problemas de este tipo se resuelven fácilmente usando (por ejemplo) Excel. Primero, se introducen los datos en una hoja de cálculo, usando la columna A para los datos de absorbancia (y) y B para los datos de la concentración (x). Puesto que queremos estudiar las ecuaciones cúbica y cuadrática, también necesitamos los valores x2 y x3; las funciones de Excel nos proporcionan dichos datos en las columnas C y D (pueden necesitarse pasos similares en programas estadísticos como el Minitab para calcular estos términos). La función de regresión de Excel proporciona por tanto los resultados para las ecuaciones cúbica y cuadrática, usando las columnas B y C para los “valores de X” en el primer caso, y las columnas BD en el segundo. Los resultados comentados debajo se pueden resumir de la forma siguiente: Ecuación cuadrática: y = 0,0165 + 0,600x - 0,113x2: R2 = 0,9991; R´2 = 0,9981 Ecuación cúbica: y = -0,0055 + 0,764x - 0,383x2 + 0,117x3: R2 = 0,9999; R´2 = 0,9997. Estos resultados sugieren que un ajuste cúbico, que tiene el mayor valor de R´2, es mejor que uno cuadrático. Hemos de fijarnos en que los resultados ANOVA sugieren que, en el ajuste cúbico, los coeficientes para x2 y x3 no difieren significativamente de cero (P = 0,05). No existe duda sobre esto debido en parte al pequeño número de medidas.

33 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Datos Absorbancia, y 0,084 0,183 0,326 0,464 0,643

Concentración, x 0,123 0,288 0,562 0,921 1,42

x2 0,015129 0,082944 0,315844 0,848241 2,0164

x3 0,001861 0,023888 0,177504 0,78123 2,863288

F 1064,67

F significativa 0,000938

Ajuste cuadrático Estadísticas de regresión R2 R2 ajustado Error estándar Observaciones

0,9991 0,998 1 0,00963 5

ANOVA Regresión Residual Total

gl 2 2 4

SC 0,197381 0,000185 0,197566

Coeficientes Ordenada 0,017 Coeficiente 0,600 x Coeficiente ­0,113 x2

CM 0,09869 9,27E­05

Error estándar 0,011859 0,039530

Estadístico t 1,39239 15,17153

Valor P 0,29841 0,00432

Inferior al 95% ­0,03451 0,42965

Superior al 5% 0,06754 0,76982

0,024830

­4,546

0,04514

­0,21971

­0,00604

F 4767,64

F significativa 0,010646

Ajuste cúbico Estadísticas de regresión R2 R2 ajustado Error estándar Observaciones

0,9999 0,9997 0,00372 5

ANOVA Regresión Residual Total

gl 3 1 4

SC 0,197552 0,000014 0,197566

Coeficientes Ordenada Coeficiente x Coeficiente x2 Coeficiente x3

CM 0,065851 1,38E­05

Estadístico t ­0,71290 15,57018

Valor P

­0,006 0,764

Error  estándar 0,007749 0,049077

0,60572 0,04083

Inferior al 95% ­0,10399 0,14056

Superior al 95% 0,09294 1,38771

­0,383

0,077247

­4,95858

0,12669

­1,36455

0,59848

0,117

0,033262

3,52456

0,17600

­0,30540

0,53987

Ejercicio 12. En este caso, la aplicación de Minitab muestra que para una línea recta, un ajuste cuadrático y un ajuste cúbico, los datos son: Línea recta: R2 = 0,924; R´2 = 0,909. Ajuste cuadrático: R2 = 0,979; R´2 = 0,968. Ajuste cúbico: R2 = 0,979; R´2 = 0,957.

34 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

La aplicación de una ecuación cúbica no mejora R2, y reduce R´2, con lo cual podemos concluir que, en este caso, un ajuste cuadrático será lo mejor: la ecuación ajustada es y = -15,4 + 7,04x - 0,0365x2. Esto se confirma mediante el coeficiente cúbico muy pequeño de la ecuación cúbica ajustada, y = -18,3 + 7,39x - 0,0456x2 + 0,000063x3. Vemos que tanto el ajuste cúbico como el cuadrático dan unas ordenadas en el eje y algo negativas. No obstante, la tabla del ANOVA muestra que, en cada caso, las ordenadas no difieren significativamente de cero. Los resultados del Minitab se adjuntan a continuación: obsérvese que este programa proporciona valores de R2 y R´2 en porcentajes más que en decimales. Regression Analysis: Straight Line The regression equation is y = 38.7 + 3.55 x Predictor Constant x

  Coef  38.70 3.5497

StDev  24.74 0.4559

   T 1.56 7.79

    P 0.179 0.001

S = 34.16      R­Sq = 95.5%      R­Sq(adj) = 93.2%

Analysis of Variance Source Regression Error Total

DF  1  5  6

   SS 70731  5835 76566

   MS 70731 1167

    F 60.61

    P 0.001

Regression Analysis: Quadratic The regression equation is y = – 15.4 + 7.04 x – 0.0365 x*x Predictor Constant x x*x

Coef ­15.41  7.037 ­0.03645

  StDev   22.40   1.124 0.01141

    T ­0.69  6.26 ­3.20

    P 0.529 0.003 0.033

S = 20.26      R­Sq = 97.9%      R­Sq(adj) = 96.8%

Analysis of Variance Source Regression Error Total

DF  2  4  6

   SS 74924  1642 76566

Source x x*x

DF  1  1

Seq SS 70731  4193

   MS 37462   410

35 © Pearson Educación, S.A.

    F 91.26

    P 0.000

Estadística y Quimiometría para Química Analítica, 4ª Edición

Regression Analysis: Cubic The regression equation is y = ­18.3 + 7.39 x – 0.0456 x*x + 0.000063 x*x*x Predictor Constant x x*x x*x

    Coef   ­18.30    7.389 ­0.04557 0.0000633

    StDev     36.96     3.460   0.08432 0.0005783

    T ­0.50  2.14 ­0.54  0.11

    P 0.654 0.122 0.626 0.920

S = 23.35      R­Sq = 97.9%      R­Sq(adj) = 95.7%

Analysis of Variance Source Regression Error Total

DF  3  3  6

   SS 74931  1635 76566

Source x x*x x*x*x

DF  1  1  1

Seq SS 70731  4193     7

   MS 24977   545

    F 45.82

    P 0.005

Ejercicios del Capítulo 6 Ejercicio 1. Si se ordenan los valores en orden creciente respecto al tamaño, se obtiene: 9,84, 9,89, 9,91y 10,20. La mediana es el valor medio, en este caso se encuentra entre 9,89 y 9,91 a 9,90 ml. La media equivale a 9,96 ml: este valor es mayor que tres de los cuatro valores originales porque el valor 10,20 ml la eleva. Puede que el valor 10,20 ml sea un dato anómalo: esto se puede comprobar mediante el contraste de Grubbs. La desviación estándar de los 10,20  9,96 cuatro valores es 0,163, obteniendo un valor de G = = 1,475. El valor crítico de 0,1627 un contraste de dos colas (dos colas, porque antes de que se recopilaran los datos no había ningún indicio que hiciera pensar que quizás hubiera un valor, por regla general, elevado) es 1,481. Por lo tanto, el valor de 10,20 no se puede rechazar como dato anómalo. Si fuera rechazado, la media sería 9,88 ml y la mediana 9,89 ml. Esto muestra cómo la media es sensible a los valores extraordinariamente bajos o elevados y cómo la mediana no lo es. Ejercicio 2. Comparado con la mediana, los valores experimentales proporcionan signos de  + 0 +  + + + + (en el que “0” indica que los valores son del mismo tamaño). De hecho, se tienen ocho lecturas, de los cuales seis son positivos (+). En la Tabla A.9 del Apéndice 2, la probabilidad de que dos (o menos) de los ocho signos sean de un tipo y de que los seis restantes (o más) sean de otro es 2 × 0,144 = 0,288. El resultado es mayor que 0,05, por lo que se mantiene la hipótesis nula de que los datos podrían proceder de una población simétrica con un contenido en azufre de la mediana del 0,10 por ciento. En el contraste de rangos y signos, primero se calculan las diferencias entre la mediana planteada como hipótesis y los valores de los datos, que son 0,01, +0,02, 0, +0,01, 0,02, +0,07, +0,02, +0,04, +0,01. Se desprecia el valor de 0 y prescindiendo del signo se ordenan los valores restantes de menor a mayor para tener como resultado 0,01, 0,01, 0,01, 0,02, 0,02, 0,02, 0,04, 0,07. A continuación se incorporan sus signos y se obtiene 0,01, +0,01, +0,01, +0,02, +0,02, 0,02, +0,04, +0,07. Los números entonces se jerarquizan dependiendo de su orden en la lista y a estos rangos se les asigna el mismo signo que el del valor de los datos correspondiente. Los valores con magnitud 0,01 comparten las posiciones 1, 2 y 3, por lo que

36 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

se les asigna a cada uno la posición 2. Los valores con magnitud 0,02 comparten las posiciones 4, 5 y 6, de manera que se les atribuye a cada uno la posición 5. Así, las posiciones con sus signos son 2, +2, +2, +5, +5, 5, +7, +8. Los rangos positivos suman 29 y los negativos 7. La menor de estas cifras, es decir, 7, se toma como el estadístico del contraste. En la Tabla A.11 del Apéndice 2, el valor crítico de n = 8 para un contraste de dos colas (a P = 0,05) es 3. Como el valor observado es mayor, se mantiene de nuevo la hipótesis nula. Utilizando Minitab, se puede calcular más rápidamente. A continuación se muestra la salida impresa: El contraste de los signos para la mediana Sign test of median = 0.09000 versus not = 0.09000

sulphur

N 9

Below     1

Equal     1

Above     7

    P       Median     0.0703   0.1100

Como el valor P obtenido es mayor que 0,05, no se rechaza la hipótesis nula a este nivel de significación. Ejercicio 3. Este es un ejemplo en el que los datos están emparejados: el orden de los valores para, por ejemplo, los resultados IDR no se podría cambiar sin alterar el significado de los datos. Los datos se pueden analizar mediante el contraste de los signos o el contraste de rangos y signos. Si a los valores de los resultados IDR se les restan los valores de los resultados EID, los signos de las diferencias son +, , +, +, +, +, +, +, 0, +. Si se desprecia el valor de “0”, tenemos nueve signos: uno negativo y el resto positivo. En la Tabla A.9 del Apéndice 2, la probabilidad de que ocho de los nueve signos sean iguales es de 0,020 × 2 = 0,04. El resultado es significativo a P = 0,05, por tanto la hipótesis nula (que los métodos proporcionen el mismo resultado) puede rechazarse. Para el contraste de rangos y signos, se necesitan las diferencias de signos, que son: +0,2, 0,1, +0,2, +0,1, +0,2, +0,1, +0,1, +0,4, 0, +0,4. Si se desprecia el valor de “0” y se ordenan los valores de menor a mayor, obtenemos: 0,1, 0,1, 0,1, 0,1, 0,2, 0,2, 0,2, 0,4, 0,4. Cuando se incorporan sus signos, el resultado es –0,1, +0,1, +0,1, +0,1, +0,2, +0,2, +0,2, +0,4, +0,4. Por tanto, las posiciones con sus signos son –2,5, +2,5, +2,5, +2,5, +6, +6, +6, +8,5, +8,5. De modo que el estadístico del contraste toma el valor 2,5 (es decir, equivalente a la suma de los rangos negativos), muy inferior al valor crítico de 5 para P = 0,05 (véase la Tabla A.11 en el Apéndice 2) y de ahí que la hipótesis nula sea rechazada de nuevo: existen pruebas que indican que los dos métodos proporcionan resultados diferentes. Sin embargo, obsérvese que el resultado del contraste de rangos y signos debería interpretarse con cautela, si existen muchas posiciones empatadas, como ocurre tanto en esta pregunta como en la anterior. Ejercicio 4. La aleatoriedad de los valores se puede contrastar mediante el contraste de rachas de Wald-Wolfowitz. En primer lugar, la mediana se calcula ordenando los valores en orden ascendente según el tamaño, teniendo como resultado: 17, 19, 21, 22, 23, 24, 25, 25, 26, 30. La mediana se encuentra entre el quinto y el sexto valor a 23,5. Si comparamos todos los valores de la lista original con este valor, obtenemos los siguientes signos +, +, +, , , , , , +, +, donde el signo “+” indica un valor mayor que la mediana y el signo “” un valor menor que la mediana. Por tanto, existen tres rachas en una lista con cinco signos negativos y cinco positivos. Teniendo en cuenta la Tabla A.10 del Apéndice 2, para M = N = 5 el número de rachas es significativo (a P = 0,05), si es menor que tres. Como consecuencia, el resultado obtenido no es significativo y no existen indicios de que la sucesión observada no sea aleatoria. Ejercicio 5. Existen dos muestras independientes. El contraste rápido de Tukey conlleva el cálculo del número total de medidas en las dos muestras que no están incluidas en la región de solapamiento. Si combinamos las dos muestras y se incluyen en una lista ordenándolas en orden ascendente, obtenemos: 66, 68, 71, 79, 79, 86, 88, 90, 91, 104, 120, donde los valores de la cerveza aparecen subrayados. La hipótesis nula consiste en que no existe ninguna diferencia entre los valores de la mediana de las poblaciones de “cerveza” y de “cerveza rubia”; por el contrario, la hipótesis alternativa implica que la “cerveza” produzca valores mayores que

37 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

la “cerveza rubia”. En esta lista el valor más elevado es un valor de “cerveza” y el más bajo es un valor de “cerveza rubia”, por lo que merece la pena continuar con el contraste. Son tres (es decir, 66, 68 y 71) los valores de “cerveza rubia” que son más pequeños que todos los valores de “cerveza” y también hay un empate (79) que se cuenta como 0,5 en el cálculo del valor de T. El siguiente paso es contar el número de valores de “cerveza” que son mayores que los valores de “cerveza rubia”: hay dos (es decir, 104 y 120). En conjunto existen 3,5 + 2 = 5,5 valores que no se encuentran en la región de solapamiento y el T estadístico es 5,5 para el contraste rápido de Tukey. En este caso, es conveniente un contraste de una cola, ya que se espera de antemano que los valores de la cerveza rubia sean más bajos que los de otro tipo de cerveza. El valor crítico para P = 0,05 es 6: se rechaza la hipótesis nula, si T es mayor o igual que este valor. Por lo tanto, en este caso, no se rechaza la hipótesis nula de las medianas iguales. En este ejemplo creemos que, si la cerveza rubia y la otra clase de cerveza son distintas, la cerveza rubia produce niveles de alcohol en la sangre inferiores a la cerveza de otro tipo. De este modo, debería existir un número pequeño de casos en los que la cerveza rubia produjera un nivel de alcohol en la sangre superior al del otro tipo de cerveza. El contraste U de Mann-Whitney implica encontrar el número de valores de “cerveza rubia” que supere a cada uno de los valores de “cerveza”. Valor de “cerveza”

Valores más grandes de “cerveza rubia”

Número de valores más grandes

79 88 90 104 120

79 (empate), 86, 91 91 91 -

2,5 1 1 0 0

La suma total de la tercera columna, es decir, 4,5, es el estadístico del contraste. Teniendo en cuenta la Tabla A.12, la hipótesis nula es rechazada, si el estadístico del contraste es menor o igual a 5 (P = 0,05), de manera que para este contraste se rechaza precisamente la hipótesis nula. Este resultado es contrario al obtenido con el contraste de Tukey; lo cual no resulta sorprendente, puesto que el contraste de Tukey es menos consistente que el contraste U de Mann-Whitney. En una situación como esta, en la que la hipótesis nula sólo se rechaza en un contraste, se necesitaría disponer de más datos para aclararla. El contraste de Mann-Whitney también se puede llevar a cabo utilizando el programa Minitab. A continuación se muestran los resultados de un contraste de una cola para los datos cerveza/cerveza rubia (beer/larger). Se puede observar que el programa ajusta los empates. Intervalo de confianza y contraste de Mann-Whitney beer larger

N = N =

5 6

Median = Median =

90.00 75.00

Point estimate for ETA1 – ETA2 is 

18.50

96.4 Percent CI for ETA1 – ETA2 is (­1.01, 41.00) W = 40.5 Test of ETA1  =  ETA2

vs

ETA1  >  ETA2 is significant at 0.0339

The test is significant at 0.0336 (adjusted for ties)

En caso de que se necesite un contraste U de Mann-Whitney de dos colas, tanto el número de valores de la Muestra 1 que son más grandes que todos los valores de la Muestra 2, como el número de valores de la Muestra 2 que son más grandes que todos los valores de la Muestra 1 se obtienen de la misma forma que se ha mostrado anteriormente. El estadístico del contraste es el valor más pequeño de estos dos valores y el valor crítico de un contraste de dos colas se toma de la Tabla A.12 del Apéndice 2.

38 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Las hipótesis que comportan tanto el contraste U de Mann-Whitney como el contraste rápido de Tukey se basan en que las muestras se extraen de poblaciones con la misma forma y, por tanto, con la misma varianza. Sin embargo, los contrastes no muestran ninguna hipótesis sobre cuál es esta forma. Es necesario compararlo con un contraste t, para diferenciar dos medias (utilizando las Ecuaciones (3.2) y (3.3)), lo cual implica que las distribuciones son normales con varianzas iguales. Hay que destacar que si las poblaciones son normales, entonces el contraste U de Mann-Whitney es casi tan consistente como el contraste t y, puesto que puede utilizarse cuando las poblaciones no son normales, se puede emplear en más campos que el contraste t. Como consecuencia, el contraste U de Mann-Whitney ofrece una interesante alternativa al contraste t en muchas situaciones y es indudablemente uno de los métodos no paramétricos más utilizado. Ejercicio 6. En este ejercicio, en el que los datos aparecen en forma de ordenaciones, es adecuado realizar los cálculos con un coeficiente de correlación ordinal. La tabla que se muestra a continuación indica las ordenaciones del personal académico y de los estudiantes medidas por los espectrómetros, junto con los valores de d, la diferencia entre las dos ordenaciones asignadas y d2. Obsérvese que d siempre equivale a 0. Espectrómetro

Ordenación de los estudiantes

A B C D E F G Totales

Ordenación del personal académico

3 1 5 4 7 6 2

5 3 6 2 4 7 1

d

d2

2 2 1 2 3 1 1 0

4 4 1 4 9 1 1 24

Por lo tanto, el valor del coeficiente de correlación ordinal de Spearman (véase la Ecuación (6.4)) es: rs = 1 

Σ

6 d2

= 1

6  24 = 0,571. 7 (49  1)

n (n  1) Un contraste de colas es adecuado en este caso, puesto que no existe ningún motivo para suponer, antes de realizar el contraste, que cualquier correlación será, por ejemplo, positiva antes que negativa. El valor crítico para un contraste a P = 0,05 es 0,786, por lo que no hay evidencia para rechazar la hipótesis nula de no correlación entre el personal académico y los estudiantes. 2

Ejercicio 7. Si tomamos las distancias como los valores de x y los niveles de mercurio como los valores de y, obtenemos las pendientes: b14 = 0,1250, b25 = 0,2278, b36 = 0,0133. La mediana de estos valores es 0,1250. Este valor ahora se utiliza para calcular las ordenadas en el origen, ai, utilizando ai = yi  bxi. Esto tiene como resultado: a1 = 2,5750, a2 = 2,9750, a3 = 2,2375, a4 = 2,5750, a5 = 2,1625, a6 = 3,0750. Si se ordenan estos valores en orden ascendente, se obtiene: 2,1625, 2,2375, 2,5750, 2,5750, 2,9750, 3,0750. La mediana de estos valores se encuentra entre el tercer y el cuarto valor, es decir, 2,575. Por tanto, la recta de regresión que se consigue con el método de Theil es y = 0,125x + 2,575. Los coeficientes son excepcionalmente similares a los obtenidos con el método de mínimos cuadrados, que son a = 2,573 y b = 0,122.

39 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 8. En la tabla abajo indicada se colocan los valores observados en orden ascendente. En la segunda columna se proporcionan los valores estandarizados resultantes de la ecuación z =

(x  ) , siendo  = 1,0 y  = 0,2. En la tercera columna aparece la frecuencia 

acumulada (f.a.) y en la cuarta, se proporcionan los valores de la función de distribución acumulada (f.d.a.) con un salto de 1/10 = 0,1. Obsérvese que el valor de 1,3 g 100 ml -1 está duplicado en los datos originales, por lo que, en el diagrama, el salto correspondiente es el doble de la altura normal. x 0,4 0,7 0,8 0,9 1,0 1,1 1,3 1,5 1,8

z

F.a.

3,0 1,5 1,0 0,5 0,0 0,5 1,5 2,5 4,0

1 2 3 4 5 6 8 9 10

F.d.a. (observada) 0,1 0,2 0,3 0,4 0,5 0,6 0,8 0,9 1,0

La Figura 6.A muestra esta función de distribución acumulada y la f.d.a. para una distribución normal. En la Tabla A.1 del Apéndice 2 del libro de texto, aparecen los valores para representar gráficamente esta última. La máxima diferencia entre las dos curvas tiene lugar justo antes del salto en z = 1,5 y es equivalente a aproximadamente 0,333. En este caso, se utiliza el método de Kolmogorov para contrastar una distribución concreta, es decir, la que tiene especificada su media y desviación estándar con antelación (contraste de una cola): el valor crítico adecuado es, entonces, 0,241 (P = 0,05, n = 10: Tabla A.14). En este caso, se rechaza la hipótesis nula, por lo que esto no significa que la media y la desviación estándar especificadas sean necesariamente los valores que mejor se ajustan a los datos. La Figura 6.A. indica que las funciones de distribución acumuladas para la distribución normal y la observada coinciden en sus centros, de esta manera la elección de la media era más o menos correcta. Sin embargo, la distribución observada se encuentra más extendida que la distribución normal propuesta, esto indica que el valor especificado para la desviación estándar era demasiado bajo. En la práctica, la media y la desviación estándar de los datos experimentales son 1,08 y 0,41, respectivamente. Si se repite el cálculo anterior tomando estos valores como estimaciones de  y , respectivamente, los valores de z cambian a 1,65, 0,93, 0,68, 0,44, 0,19, 0,05, 0,54, 1,02 y 1,75. La Figura 6.B muestra esta función de distribución acumulada y de nuevo, se compara la f.d.a. de la distribución normal. En este punto, las dos curvas están muy próximas entre sí con una máxima diferencia de 0,105, justo por debajo del salto en z = 0,54. En este caso, el método se utiliza para contrastar la normalidad de una distribución cuyas media y desviación estándar no se especifican con antelación (contraste de dos colas). Por lo que no es de extrañar que los valores críticos que se van a utilizar sean menores: aquí el valor crítico (n = 10, P = 0,05: Tabla A.14) es 0,262. Puesto que el valor observado es mucho más bajo que éste, se puede mantener la hipótesis nula: los datos se ajustan muy bien a esta distribución normal. Esta forma modificada del método de Kolmogorov-Smirnov fue introducida por W.H. Lilliefors y, por tanto, también se la conoce con el nombre de contraste de Lilliefors.

40 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 6.B Existe un método alternativo, menos formal, para analizar estos datos que consiste en utilizar una representación de probabilidad normal tal y como aparece en la Sección 3.12. Dicho diagrama, que se obtiene con Minitab, se muestra a continuación en la Figura 6.C. Los puntos se sitúan próximos a una línea recta, confirmando que los datos proceden probablemente de una distribución normal. Sin embargo, los valores de la media y de la desviación estándar obtenidos a partir del diagrama (en la parte derecha) indican que, aunque la media se acerque a 1, la desviación estándar no es igual que el valor propuesto de 0,2, sino que es igual que el valor de 0,41, que se calcula directamente a partir de los valores de la muestra individual.

41 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Figura 6.C Ejercicio 9. La salida impresa que abajo indicada muestra los resultados del contraste de Kruskal-Wallis que se obtuvieron utilizando Minitab. El estadístico del contraste aquí se denomina H y se ha producido una corrección en los empates. El resultado del contraste se da como un valor P, que en este caso es mayor que 0,05. Como consecuencia, la hipótesis nula de ninguna diferencia entre las muestras de aceite se mantiene en P = 0,05. Contraste de Kruskal-Wallis Kruskal­Wallis Test on Ni (ppm) C8 N 1 6 2 6 3 6 Overall      18

Median  15.95  16.90  18.10

Average Rank 6.5 8.7     13.3 9.5

Z 1.69 0.42  2.11

H = 4.97  DF = 2 H = 4.98  DF = 2

 P = 0.083  P = 0.083  (adjusted for ties)

Como ocurre con el contraste U de Mann-Whitney, el contraste de Kruskal-Wallis da por supuesto que las distribuciones de las poblaciones tienen la misma forma, pero, a diferencia de ANOVA, no tiene por qué ser necesariamente normal.

42 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 7 Ejercicio 1. En este ejemplo se debería utilizar un ANOVA de dos factores. Los dos factores son “método” (method) y “solución” (solution): el primero es controlado y el segundo es aleatorio. Como no hay réplica, no es posible determinar si existe algún tipo de interacción entre los dos factores. Los resultados del análisis con Minitab aparecen a continuación: Analysis of Variance (Balanced Designs) Factor Method Solution

Type fixed fixed

Levels      3      4

Values     A     1

B 2

C 3

4

Analysis of Variance for chloride Source Method Solution Error Total

DF  2  3  6 11

      SS 0.012017 0.011092 0.028183 0.051292

      MS 0.006008 0.003697 0.004697

   F 1.28 0.79

    P 0.345 0.543

F­test with denominator: Error Denominator MS = 0.0046972 with 6 degrees of freedom Numerator Method Solution

DF  2  3

      MS 0.006008 0.003697

   F 1.28 0.79

    P 0.345 0.543

Como el cuadrado medio entre soluciones es menor que el residual, el efecto de las distintas soluciones no es significativo. La comparación del cuadrado medio entre métodos con el residual da un valor de F = 1,28. El valor P correspondiente es 0,345, por lo que el método no tiene un efecto significativo en P = 0,05. Ejercicio 2. Éste es otro ejemplo en el que se debería utilizar ANOVA de dos factores sin réplica. Los dos factores son “suelo” y “día”. La tabla que aparece a continuación muestra los resultados del análisis utilizando Excel con ‘suelo’ como factor fila y ‘día’ como factor columna. Anova: dos factores sin réplica RESUMEN Fila 1 Fila 2 Fila 3 Fila 4 Fila 5

Cálculo 3 3 3 3 3

Suma 218 220 226 226 220

Promedio 72,6666 73,3333 75,3333 75,3333 73,3333

Varianza 66,3333 41,3333 6,33333 102,333 34,3333

Columna 1 Columna 2 Columna 3

5 5 5

362 348 400

72,4 69,6 80

27,3 6,8 23,5

ANOVA Fuente de variación Filas Columnas Error

SC 18,6667 289,6 211,733

Gl 4 2 8

Total

520

14

CM 4,66667 144,8 26,4667

F 0,17632 5,47103

43 © Pearson Educación, S.A.

Valor P 0,94436 0,03182

F crít 3,83785 4,45897

Estadística y Quimiometría para Química Analítica, 4ª Edición

El cuadrado medio entre suelos (filas) es menor que el residual, luego no hay diferencias significativas entre los suelos. La comparación entre el cuadrado medio entre días (columnas) y el residual da lugar a F = 5,47. El valor P asociado es 0,031816. Como éste es menor que 0,05, la diferencia entre días es significativa al nivel del 5 por ciento. Se puede calcular la varianza de la variación entre días (supuestamente) aleatoria, σd2, en base a que el cuadrado medio entre días es igual a σ02 + cσd2, donde σ02 se calcula mediante el cuadrado medio residual y c = 5, el número de suelos analizados cada día. El resultado es 144,8 = 26,47 + 5 × σd2. Así pues, σd2 = 23,7 y σd = 4,9. La representación en Excel proporciona información adicional muy útil en forma de medias y varianzas para los distintos niveles de los diferentes factores. Las medias para los diferentes suelos (filas) no varían mucho (como cabría esperar del resultado no significativo para este factor), mientras que las medias para los diferentes días (columnas) sí varían bastante. Puede comprobarse que las medidas descienden del día 1 al día 2, y luego aumentan bruscamente del día 2 al día 3. Ejercicio 3. Éste es otro ejemplo de ANOVA de dos factores sin réplica. Los factores son el compuesto orgánico (“Compound”) y la relación molar (“Ratio”); ambas son variables controladas. Los siguientes resultados se obtuvieron con Minitab y muestran que la relación molar (valor P = 0,482) no tiene un efecto significativo, pero el compuesto sí (valor P = 0,031). Analysis of Variance (Balanced Designs) Factor Compound Ratio

Type fixed fixed

Levels      4      3

Values      1      1

2 2

3 3

4

Analysis of Variance for % Recovery Source Compound Ratio Error Total

DF  3  2  6 11

     SS 12611.6  1168.2  4237.2 18016.9

    MS 4203.9  584.1  706.2

   F 5.95 0.83

    P 0.031 0.482

F­test with denominator: Error Denominator MS = 706.19 with 6 degrees of freedom Numerator Ratio Compound

DF  2  3

    MS  584.1 4203.9

   F 0.83 5.95

    P 0.482 0.031

Se debe aplicar el sentido común a éstas y otras mediciones; los datos sugieren que el comportamiento de la difenilamina es muy distinto del mostrado por los otros tres compuestos. La toma de medidas duplicadas es necesaria para determinar si está presente algún efecto de interacción. En la práctica, con los duplicados sería suficiente.

44 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 4. El efecto principal del factor A resulta de la diferencia media en respuesta cuando A cambia del nivel bajo al alto, manteniendo fijos los niveles de C y T. Hay cuatro pares de respuestas que proporcionan una estimación del efecto del nivel de A, como se muestra en la tabla siguiente: Nivel de C

Nivel de T

Nivel de P + 

Diferencia

  + +

 +  +

0,084 0,049 0,082 0,051

0,015 0,027 0,015 0,029

0,099 0,076 0,097 0,080

Total = 0,086 Así pues, el efecto promedio de A = 0,086/4 = 0,0215. De forma similar, se puede obtener que el principal efecto de C = ¼ [(0,097 - 0,099) + (0,082 - 0,084) + (0,080 - 0,076) + (0,051 - 0,049)] = 0,005 y el efecto principal de T es -0,0265. Considérese ahora el efecto de la interacción entre A y C. Las dos primeras cifras de la última columna de la tabla anterior dan el cambio en la respuesta cuando P cambia del nivel alto al bajo con C en el nivel bajo. Su promedio es ½ [ 0,015 + (0,027)] = 0,021. Las dos últimas cifras en la misma columna proporcionan el cambio en respuesta cuando P cambia del nivel bajo al alto con C en el nivel alto. Su promedio es ½ [0,015 + (0,029)] = -0,022. Así pues, el efecto de interacción AC = ½ [0,022  (0,021) = -0,0005. Utilizando un método similar, el efecto de interacción AT = 0,0065 y el efecto CT = 0,0025. Téngase en cuenta ahora la interacción entre los tres factores. La interacción AT calculada anteriormente se puede dividir en dos partes con relación al nivel de T. Con T en el nivel bajo, la estimación de la interacción sería ½ [0,015  (0,015)] = 0, y con T en el nivel alto sería ½ [0,029  (0,027)] = -0,001. La interacción de los tres factores se estima por la mitad de su diferencia entre estas dos estimaciones, es decir, ½ [0,001  0] = 0,0005. También se puede emplear Minitab para obtener estos efectos, tal y como aparece a continuación. La columna “Coef” se refiere a otra manera de describir el modelo, con +1 indicando el nivel alto de un factor y 1 el nivel bajo. Para obtener más información, consúltese el manual Minitab. Estos coeficientes no añaden nada al cálculo realizado. Ajuste factorial fraccional Estimated Effects and Coefficients for Response Term Constant A C T A*C A*T C*T A*C*T

Effect ­0.02150  0.00050 ­0.02650 ­0.00050 ­0.00650  0.00250 ­0.00050

Coef  0.07725 ­0.01075  0.00025 ­0.01325 ­0.00025 ­0.00325  0.00125 ­0.00025

45 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Analysis of Variance for Response Source Main Effects 2­Way Interactions 3­Way Interactions Residual Error Total

DF  3  3  1  0  7

Seq SS 0.00232950 0.00009750 0.00000050 0.00000000 0.00242750

Adj SS 0.00232950 0.00009750 0.00000050 0.00000000

    Adj MS 0.00077650 0.00003250 0.00000050 0.00000000

F * * *

P * * *

En este ejemplo, al contrario de lo que sucede en el Ejemplo 7.7.1, no hay mediciones repetidas y, por tanto, no se puede estimar el error residual. Por este motivo aparecen los asteriscos en la columna ‘F’ de la tabla anterior. Si se considera que la interacción de tres factores no es importante, se podría utilizar este efecto para calcular el cuadrado medio residual. La suma de los cuadrados se puede calcular de los efectos utilizando: Suma de cuadrados = número total de medidas × (efecto)2/4. Para las interacciones de dos factores, el resultado es 0,0000005, 0,0000845 y 0,0000125 para AC, AT Y CT, respectivamente. La suma de todo es 0,0000975, como aparece en la tabla de Minitab anterior. Los cuadrados medios serán iguales a estos valores dado que cada suma de cuadrados tiene 1 grado de libertad. Se pueden comparar los cuadrados medios con el cuadrado medio residual (como se estimó a partir de la interacción de tres factores) para obtener los valores F de 1, 169 y 25, respectivamente. El valor crítico de F1.1 es 161,4 (P = 0,05), lo que indica que existe una interacción significativa entre el tiempo que una solución puede permanecer y la presencia de agitación. Esto tendría sentido si habláramos en términos físicos. Puesto que la interacción entre A y T es significativa, no hace falta analizar estos factores de forma separada. Sin embargo, el efecto principal de C sí puede ser analizado. Éste tiene una suma de cuadrados (y, por tanto, un cuadrado medio) igual a 0,0000005. Como esta cifra es igual al cuadrado medio residual (interacción de tres factores), el efecto es claramente no significativo. Ejercicio 5. En este ejercicio se puede aplicar un ANOVA de dos factores, siendo los dos factores “laboratorio” y “muestra”. Se han realizado medidas repetidas y, por tanto, es posible investigar cualquier interacción entre estos factores. La representación en formato Excel se proporciona a continuación. Anova: dos factores con réplica ANOVA Fuente de variación Muestra Columnas Interacción Dentro de muestras Total

SC 5,06778 0,18778 0,10222 0,365 5,72278

gl 2 2 4 9 17

CM 2,53389 0,09389 0,02556 0,04056

F 62,4794 2,31507 0,63014

Valor P 62,4794 2,31507 0,63014

F crít 4,25649 4,25649 3,63309

La interacción no es significativa porque su valor P es 0,653, que es mayor que 0,05. Al no haber una interacción significativa, se puede probar la diferencia entre laboratorios (columnas). La diferencia no es significativa porque el valor P (= 0,154) de nuevo es mayor que 0,05. También se puede probar la diferencia entre las muestras: en este caso, la diferencia es muy significativa (valor P = 0,00000528). Sin embargo, esta diferencia no interesa en este ejemplo. Ejercicio 6. (a) Cuando no existe ninguna restricción en el número de experimentos que se van a llevar a cabo ni en el grado de optimización necesario, se utiliza el método de la razón aurea para determinar los puntos de iniciación. El intervalo total = 9 - 5 = 4. Este intervalo se divide entre 1,618 y se obtiene 2,47. Así pues, los puntos de iniciación están en 5 + 2,47 = 7,47 y 9 2,47 = 6,53.

46 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

(b) Cuando se requiere un grado de optimización específico, se utiliza el método de la serie de Fibonacci. El intervalo original necesita una reducción de 4/0,1 = 40. El primer número de Fibonacci por encima de 40 es F9 = 55, lo que indica que se necesitan nueve experimentos para alcanzar el resultado deseado. La fracción necesaria para fijar los puntos de iniciación es F7/F9 = 21/55. El punto de iniciación más bajo está en (4 + [4 × 21/55]) = 6,53 y el punto de iniciación más alto es (9 - [4 × 21/55]) = 7,47. Estos valores son los mismos que los que se obtienen en el apartado (a). Esto es debido a que el cociente Fn/Fn – 2 tiende al cociente de oro a medida que n tiende a infinito: por ejemplo, F9/F7 = 1,61764... y (1 + 5)/2 = 1,618033.... Si el grado de precisión necesario es amplio (es decir, n es amplio), entonces los dos métodos proporcionan el mismo resultado. (c) Si sólo se van a realizar seis experimentos, entonces se utiliza de nuevo el método Fibonacci para fijar el punto de iniciación. El cociente utilizado para determinar los puntos de iniciación es F4/F6 = 5/13. Los puntos de iniciación son (4 + [4 × 5/13]) = 6,54 y (9 - [4 × 5/13]) = 7,46, que de nuevo son similares a los resultados obtenidos para el método del cociente de oro. El grado de optimización alcanzado es 1/F6 = 1/13, de manera que el rango de pH óptimo se definirá entre un intervalo de 4/13 = 0,31 unidades de pH. Es interesante comparar los resultados de los apartados (b) y (c) con la reducción en el rango original que se habría alcanzado si los experimentos se hubieran espaciado a intervalos iguales. En el apartado (b) la reducción habría sido 2/(9+1) = 1/5, comparada con 1/40; para (c), la reducción habría sido 2/(6 + 1) = 2/7, comparado con 1/13. Ejercicio 7. El vértice 1 debería rechazarse porque da la respuesta más baja. El nuevo vértice (8) se calcula como aparece en la siguiente tabla, donde los valores han sido expresados con una cifra decimal. Normalmente, los cálculos se realizarían utilizando una hoja de cálculo o se podrían automatizar usando una computadora incorporada.

Vértice 2 Vértice 3 Vértice 5 Vértice 6 Vértice 7

A 6,0 2,5 2,5 2,5 3,3

Factores B C 4,3 9,5 11,5 9,5 4,3 9,5 4,3 9,5 6,7 12,5

D 6,9 6,9 9,7 6,9 7,7

E 6,0 6,0 6,0 9,6 7,0

(i) Suma (ii) Suma/5 (iii) Vértice rechazado (1) (iv) Desplazamiento (v) Vértice 8

16,8 3,4 1,0 2,4 5,8

31,1 6,2 3,0 3,2 9,4

38,1 7,6 6,0 1,6 9,2

34,6 6,9 5,0 1,9 8,8

50,5 10,1 2,0 8,1 18,2

47 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicios del Capítulo 8 Ejercicio 1. Minitab incluye una opción para estandarización de variables, es decir, se resta la media a cada valor y las diferencias resultantes se dividen entre la desviación estándar. Variedad A A A A A B B B B B C C C C C

Sucrosa 0,45975 1,22599 1,11652 1,99223 1,44491 -1,07274 -0,63489 -0,19703 -0,63489 -0,85381 -0,85381 -0,96328 -0,08757 -0,19703 -0,74435

Glucosa -1,73547 -0,91167 -1,07643 -1,90023 -0,08787 1,55973 0,90069 0,73593 0,57117 0,40641 0,07689 0,73593 0,57117 0,40641 -0,25263

Fructosa -1,29107 -0,32812 -0,54211 -0,54211 -1,29107 -0,32812 -0,54211 -0,11413 -0,32812 -0,32812 0,31385 0,74183 1,70478 2,34675 0,52784

Sorbitol -0,00475 -1,00240 -1,28745 -1,00240 2,06181 -0,36105 -0,57484 1,42047 -0,78862 -0,57484 0,70786 -0,71736 0,42281 0,92164 0,77912

Los siguientes datos se obtuvieron utilizando Minitab para realizar un análisis discriminante lineal con variables estandarizadas. Discriminant Analysis Linear Method for Response: Variety Predictors: Sucrose Glucose Fructose Sorbitol Group Count

   A    5   

  B   5

C 5

Summary of Classification Put into Group A B C Total N N Correct Proportion

     ....True Group....     A     B     5     0     0     5     0     0     5     5     5     5 1.000 1.000

N = 15

N Correct = 15

    C     0     0     5     5     5 1.000

Proportion Correct = 1.000

Summary of Classification with Cross­validation Put into Group A B C Total N N Correct Proportion

     ....True Group....     A     B     5     0     0     5     0     0     5     5     5     5 1.000 1.000

N = 15

N Correct = 15

    C     0     0     5     5     5 1.000

Proportion Correct = 1.000

48 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups       A A  0.0000 B 50.3433 C 88.4046

      B 50.3433  0.0000 15.8055

      C 88.4046 15.8055  0.0000

Linear Discriminant Function for Group    A      B       C ­14.538 ­2.439  ­8.782  15.039 ­3.697 ­11.342  ­1.829  2.931  ­1.102  ­9.612  0.363   9.249  ­2.191 ­0.229   2.421

Constant Sucrose Glucose Fructose Sorbitol

Obsérvese que las funciones discriminantes lineales difieren de aquellas que se obtienen utilizando variables no estandarizadas (véase el Ejemplo 8.5.1). No obstante, los resultados de la clasificación cruzada son los mismos. La sucrosa y la fructosa tienen los mayores coeficientes, lo que significa que podrían ser las variables más efectivas en la discriminación entre variedades. El análisis siguiente muestra el resultado de una discriminación linear utilizando sólo estas dos variables (estandarizadas). Discriminant Analysis Linear Method for Response: Variety Predictors: Sucrose Fructose Group Count

   A    5  

 B  5

C 5

Summary of Classification Put into Group A B C Total N N Correct Proportion

    ....True Group....     A     B     5     0     0     5     0     0     5     5     5     5 1.000 1.000

N = 15

N Correct = 15

    C     0     0     5     5     5 1.000

Proportion Correct = 1.000

Summary of Classification with Cross­validation Put into Group A B C Total N N Correct Proportion

    ....True Group....     A     B     5     0     0     5     0     0     5     5     5     5 1.000 1.000

N = 15

N Correct = 14

    C     0     1     4     5     4 0.800

Proportion Correct = 0.933

49 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups     A     B A  0.0000 37.0231 B 37.0231  0.0000 C 68.4299  8.8113

   C 68.4299  8.8113  0.0000

Linear Discriminant Function for Group     A     B    C Constant ­11.227 ­1.291 ­6.526 Sucrose  12.773 ­4.234 ­8.539 Fructose  ­8.155  0.888  7.267

Utilizando solamente estas dos variables, la tasa de clasificación es 15 de 15, como antes. La clasificación cruzada proporciona una tasa de éxito de 14 sobre 15 para las dos variables, en comparación con 15 sobre 15 usando las cuatro variables. Es interesante observar la eficacia que tienen estas variables por sí mismas en la discriminación entre variedades. En cada caso, la tasa de éxito de la clasificación cruzada solamente es 10 de 15. El diagrama (véase la Figura 8.A) del valor (estandarizado) de la sucrosa frente al de la fructosa muestra claramente los tres grupos separados y también muestra por qué cada variable, por separado, no es buena para la discriminación entre grupos.

Figura 8.A

50 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Ejercicio 2. (a) El dendrograma de la Figura 8.B muestra dos grupos claros con pertenencia a los grupos dependiendo de si el arroz está o no limpio.

Figura 8.B (b) La matriz de correlación es la siguiente: K Ni Mo

    P  0,954 ­0,531  0,150

     K

    Ni

­0,528  0,117

­0,527

Los valores críticos para un contraste de dos colas siendo P = 0,05 son ±0,497 y siendo P = 0,01 son ±0,623. Así pues, existe una correlación positiva altamente significativa entre P y K; una correlación negativa significativa entre P y Ni, Ni y K, y Ni y Mo; y ninguna correlación significativa entre K y Mo y entre Mo y P. (c) El resultado del análisis de componentes principales utilizando Minitab es el siguiente: Principal Component Analysis Eigenanalysis of the Correlation Matrix Eigenvalue Proportion Cumulative

2.4884  0.622  0.622

1.1201  0.280  0.902

0.3464  0.087  0.989

0.0451  0.011  1.000

Variable P K Ni Mo

   PC1  0.577  0.572 ­0.509  0.283

   PC2  0.340  0.366  0.357 ­0.789

   PC3 ­0.239 ­0.186 ­0.783 ­0.544

   PC4  0.703 ­0.710 ­0.021 ­0.035

51 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Una representación de las puntuaciones (véase la Figura 8.C) muestra dos grupos bien definidos correspondientes a las variedades limpio (P) y sucio (U).

Figura 8.C La Figura 8.D muestra la representación de las puntuaciones, donde los grupos son el arroz crecido en la estación húmeda (W) y el arroz crecido en la estación seca (D). En este caso, no existe separación de los grupos.

Figura 8.D

52 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Tampoco existe separación en grupos con relación a la variedad, como se puede comprobar en la representación de puntuaciones de la Figura 8.E.

Figura 8.E Así pues, el ACP confirma el análisis en (a), es decir, la separación en grupos viene determinada por la cualidad limpia o sucia del arroz. (d) Los resultados del análisis anterior indicarían que el ADL no sería eficaz en la determinación de la variedad de arroz, midiendo la concentración de los elementos K, Mo, Ni y P. Sin embargo, el resultado de realizar un ADL utilizando los valores estandarizados proporciona los siguientes datos de Minitab. Discriminant Analysis Linear Method for Response: Variety Predictors:  P  K  Ni  Mo Group Count

    A     8  

   B    8

Summary of Classification Put into Group A B Total N N Correct Proportion

    ....True Group....     A     B     8     0     0     8     8     8     8     8 1.000 1.000

N = 16

N Correct = 16

Proportion Correct = 1.000

Summary of Classification with Cross­validation Put into Group A B Total N N Correct Proportion

    ....True Group....     A     B     7     1     1     7     8     8     7     7 0.875 0.875

N = 16

N Correct = 14

Proportion Correct = 0.875

53 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

Squared Distance Between Groups       A       B A  0.0000 20.8607 B 20.8607  0.0000 Linear Discriminant Function for Group       A       B Constant  ­2.608  ­2.608 P  18.016 ­18.016 K ­19.319  19.319 Ni ­0.051   0.051 Mo ­1.198   1.198

Con esto se demuestra que es posible discriminar de forma efectiva entre variedades. Los coeficientes de la función discriminante lineal indican que las concentraciones de P y K son las más eficaces en la discriminación entre variedades. El resultado de ADL utilizando estos dos elementos es el siguiente: Discriminant Analysis Linear Method for Response: Variety Predictors:  P  K Group Count

    A  B     8  8

Summary of Classification Put into Group A B Total N N Correct Proportion

    ....True Group....     A     B     8     0     0     8     8     8     8     8 1.000 1.000

N = 16

N Correct = 16

Proportion Correct = 1.000

Summary of Classification with Cross­validation Put into Group A B Total N N Correct Proportion

    ....True Group....     A     B     7     0     1     8     8     8     7     7 0.875 1.000

N = 16

N Correct = 15

Proportion Correct = 0.937

Squared Distance Between Groups       A       B A  0.0000 16.2190 B 16.2190  0.0000 Linear Discriminant Function for Group       A       B Constant  ­2.027  ­2.027 P  14.176 ­14.176 K ­15.341  15.341

La discriminación es casi tan buena como con los cuatro elementos. 54 © Pearson Educación, S.A.

Estadística y Quimiometría para Química Analítica, 4ª Edición

El diagrama (véase la Figura 8.F) del valor estandarizado de P frente al de K resulta muy revelador.

Figura 8.F Los dos grupos, uno abajo a la izquierda y el otro arriba a la derecha, corresponden a si el arroz está limpio o sucio; de esta variable depende, en su mayor parte, la variación en P y K. No obstante, también es posible la separación efectiva en relación con la variedad porque, en general, la concentración de P es mayor que la concentración de K para la variedad A y la concentración de P es menor que la concentración de K para la variedad B.

55 © Pearson Educación, S.A.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF