Estadıstica Basica Con R y R Comander PDF

September 23, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Estadıstica Basica Con R y R Comander PDF...

Description

 

http://www.elsolucionario.blogspot .com .com

LIBROS UNIVERISTARIOS Y SOLUCIONARIOS DE MUCHOS DE ESTOS LIBROS LOS SOLUCIONARIOS CONTIENEN TODOS LOS EJERCICIOS DEL LIBRO RESUELTOS Y EXPLICADOS DE FORMA CLARA VISITANOS PARA DESARGALOS GRATIS.

 

Estad´ıstica B´ asica con R y R–Commander

 

tad d´ıs ısttica Esta B´ asica con R y R–Commander (Versi´ on Febrero 2008) on Autores: A. J. Arri Arriaza aza G´ omez omez F. Fern´ an dez Pal andez Palac ac´´ın M. L´ ooz pezM´ S´ arquez nchez M.A. Mu˜ nopez noz aanchez arquez S. P´erez er ez Pl Plaz azaa A. S´ anchez Navas anchez

 

c 2008 Universidad Copyright   Universidad de C´ adiz. Se conce adiz. concede de permiso para copiar, distribuir distribuir y/o modificar modific ar este docume documento nto bajo los t´ erminos de la Licen erminos Licencia cia de Docume Documentac ntaci´ i´ o n Libre de on GNU, Versi´ on 1.2 o cualquier otra versi´ on on posterior publicada por la Free Software Founon dation. datio n. Una tradu traducci´ cci´ o n de la licencia on licencia est´ a inc inclui luida da en la secci´ seccion on titula ´ titulada da “Licencia de Documentaci´ on Libre de GNU”. on

c 2008 Universidad de C´ Copyright   adiz. Permission is granted to copy, distribute and/or adiz. modify this document under the term termss of the GNU Free Documentation Documentation License, License, Version 1.2 or any later version version published by the Free Software Software Foundation Foundation.. A cop copy y of the license is included in the section entitled “GNU Free Documentation License”.

Edita: Servicio de Publicaciones de la Universidad de C´adiz adiz C/ Dr. Mara˜ non, n´ o ´n, 3 11002 C´ adiz adiz http://www.uca.es/publicaciones

ISBN: Dep´osito osito legal:

 

´ Indice general

Pr´ ologo

V

1. In Introdu troducci ccioon . . . . . . . . . . . . . . . . . . . . . . . . . . 2. His Histor tory y (Hist´ (Hist´ orico)

V

. . . . . . . . . . . . . . . . . . . . . . VII I

3. Lice Licencia ncia de Documen Documentaci´ taci´ on Libre de GNU . . . . . . . . . IX 4. GN GNU U Fre Freee Doc Docum umen enta tati tion on Li Lice cens nsee . . . . . . . . . . . . . . XIX XIX

1

2

Comenzando con R . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

1

1. In Introdu troducci cci´´on . . . . . . . . . . . . . . . . . . . . . . . . . .

1

2. Ins Instal talaci aci´´on de R y R–Commander . . . . . . . . . . . . . .

3

3. Eje Ejecuc cuci´ i´ on de Rcmdr . . . . . . . . . . . . . . . . . . . . . .

4

Analis a lisis ´ is Exp Explo lora rato tori rio o de Dat Datos os Uni Unidi dime mens nsio iona nall . . . .

5

1. La orga organiz nizaci aci´on ´on de la informaci´on . . . . . . . . . . . . . .

6

 

II

 

´Indice general 

2. Na Natu tura rale leza za de lo loss ca cara ract cter eres es:: Atr Atrib ibuto utoss y Var aria iabl bles es . . . .

8

3. An An´´alisis de atributos . . . . . . . . . . . . . . . . . . . . . 11 4. An An´alis ´a lisiis de de var aria iabl bles es or orde dena nada dass . . . . . . . . . . . . . . . . 13 5. An An´´alisis de variables de escala . . . . . . . . . . . . . . . . 17 6. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20

3

Analisi alisiss Exp ´ Explor lorato atori rio o de Datos Datos mu multi ltidim dimens ension ional al . . . 23 1. Ti Tipo poss de re rela laccio ione ness en entr tree car carac acte tere ress . . . . . . . . . . . . . 24 2. An An´alis ´a lisis is de re rela laci cion ones es en entr tree dos dos at atri ribu buto toss . . . . . . . . . . 25 3. An An´alis ´a lisis is de re rela laci cion ones es en entr tree dos dos var aria iabl bles es . . . . . . . . . . 31 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 50

4

Distribuciones de Probabilidad . . . . . . . . . . . . . . . . . . . . 55 1. Distribuc uciiones di disscretas . . . . . . . . . . . . . . . . . . . . 58 2. Distribuciones continuas . . . . . . . . . . . . . . . . . . . 64 3. Gen Genera eraci´ ci´ on de valores aleatorios . . . . . . . . . . . . . . . 73 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 75

5

Inferencia cl´ asi sic ca en pobl pobla acio ione ness Nor Norma malles. . . . . . . . . 81 1. Conceptos fundamentales . . . . . . . . . . . . . . . . . . . 81

 

III 2. Infere Inferencias ncias sobre una una poblaci´ poblaci´on . . . . . . . . . . . . . . . 85 3. In Infe fere renc nciias so sobr bree do doss po pobl blac aciion onees

. . . . . . . . . . . . . . 88

4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 93

6

Infe In fere renc ncia ia no pa para ram´ m´ e trica etri ca.. Di Diag agno nosi siss de dell mod model elo o . . . 97 1. Pruebas de aleatoriedad . . . . . . . . . . . . . . . . . . . . 97 2. Pruebas de bo bon ndad de aj aju uste . . . . . . . . . . . . . . . . . 99 3. Con Contrast trastes es de localizac localizaci´ i´ on y escala . . . . . . . . . . . . . . 10 106 4. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11 110

7

Introduccion on al An´ ´ alisis de la Va Varianza . . . . . . . . . . . . 113 1. Con Concep ceptos tos b´ asicos . . . . . . . . . . . . . . . . . . . . . . . 113 2. Diagnosis del mod odeelo . . . . . . . . . . . . . . . . . . . . . 114 3. Test de la F . . . . . . . . . . . . . . . . . . . . . . . . . . 11 116 4. Alte Alternativ rnativaa no param´ param´etrica. etrica. Test Test de Krusk Kruskal al Wallis Wallis . . . . 119 5. Ejercicios . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12 121

 

IV

A

Ficheros de datos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 123

B

Tabla de medidas estad´ısticas . . . . . . . . . . . . . . . . . . . . . 125

C

Tabla de modelos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 127

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´ adiz adiz  http://knuth.uca.es/ebrcmdr

Pr´ ologo ologo

1.

Inttrod In odu uccion on ´

La Universidad de C´adiz adiz es pionera en Espa˜ n a en la b´ na usqueda de usqueda soluciones de conocimiento abierto, consciente de que es la forma m´as as eficiente de lograr sus objetivos institucionales relacionados con la docencia y la investigaci´on. on. En concr concreto, eto, el Punto 1 del Art´ Art´ıculo 2 de sus Estatutos, que describe los fines esenciales de la instituci´on, on, establece como objetivo fundamental: “La creaci´on, on, desarrollo, transmisi´on on y cr´ c r´ıtic ıt icaa de la cienc ciencia, ia, la t´ ecnica y la cultur ecnica culturaa y su inte integraci graci´on ´on en el patrimonio intelec int electual tual hered heredado”. ado”. Mien Mientras tras que en el Punt Puntoo 6 del mismo art´ art´ıculo dice: “Acoger, defender y promover los valores sociales e individuales que le son propios, tales como la libertad, el pluralismo, el respeto de las ide ideas as y el esp´ıritu ırit u cr cr´´ıti ıtico, co, as´ı como la b´usqueda usqueda de la verdad”. La creaci´on on de la Oficina de Software Libre (OSLUCA) el 15 de marzo de 2004, la aprobaci´on on de la Normativa para el intercambio de informaci´ on institucional el 27 de septiembre de 2004 y la utilizaci´on on on de herramientas de formato abierto en las aplicaciones de comunicaci´on on y gesti´on on de la Universidad, son actuaciones que ponen de manifiesto el decidido apoyo del Equipo de Gobierno de la UCA a las soluciones basadass en format basada formatos os abier abiertos. tos. Desde un plano mucho m´as as modesto, bajo el auspicio del Vicerrectorado de Tecnolog ecnolog´´ıas de la Informaci´on on e Inno Innov vaci aci´on ´o n Docente y a trav trav´´es es de la   Oficin Oficina a de Sof Softwa tware re Lib Libre re de la Uni Univer versid sidad ad de

 

VI C´ adiz (OSLUCA), nace el Proyecto adiz Pr oyecto R UCA. U CA. Dicho D icho proyecto, pr oyecto, cuyas l´ıneas

principales de actuaci´on on pueden consultarse consultarse en la p´agina agina web del proyecto  http://knuth.uca. contempla templa,, ent entre re otras acciones, la elaborahttp://knuth.uca.es/R es/R, con ci´ on de material para la docencia y la investigaci´on, on on, siendo en el primero de estos aspectos, el docente, en el que se enmarca este manual. En la misma l´ınea que nuestros organos o´rganos de gobierno, pensamos que una instituci´on on como la Universidad debe preocuparse por proveer a sus miembros deglobal las mejores herramientas para tarea, en aras de la mejora del conocimiento. Pero ladesarrollar creaci´on on desu conocimiento se ver´ a muy mermada si se emplean soluciones tecnol´ogicas ogicas que se ofrecen como cajas negras negras,, es decir que no pueden ser analizadas analizadas ni modificada modificadas, s, y que adem´as as limita fuertemente el uso que se haga de los resultados que se consigan a partir de ellas. El uso de software software propietario propietario en areas a´reas como la Estad´ıstica, ıstica, donde existen alternativas con igual o mejor calidad con licencia libre, no s´olo olo tiene consecuencias negativas desde un punto de vista econ´omico, omico, sino que supone sup one un aut´entico entico “harakiri” intelectual, porque p orque limita el ejercicio de uno de los aspectos que mejor caracterizan a nuestra instituci´on: on: su esp´ıritu ır itu an anal´ al´ıtico ıt ico y cr´ıtico ıti co,, ¿c´omo omo se va a fomen fomentar tar ese esp esp´´ıritu con el uso de herramientas absolutamente herm´ eticas?, y si alguien consiguiera eticas?, descifrarlas descifra rlas y manipul ma nipularlas arlas se convertir c onvertir´´ıa formalmente fo rmalmente en e n un delincuente. delin cuente. Centr´andonos andonos en los aspectos intr intr´´ınsecos de la cuesti´ on, cuando on, nos planteamos plantea mos confeccionar conf eccionar este manual, manua l, tuvimos tuvim os claro que q ue no quer´ıamos ıamos ense˜ nar a manejar un programa, sino a hacer an´alisis nar alisis estad´ısticos ısticos con el apoyo de una herramienta que facilitara el c´alculo alculo y la aplicaci´on on de los procedimientos proc edimientos.. De ah ah´´ı el nombre del libro: “Estad´ıstica ıstica b´asica asica con R y Rcmdr”. La decisi´on on de elegir  R  fue f´acil, acil, ning´ un otro programa en la actuaun lidad re´ une las condiciones de madurez, cantidad de recursos y manejabiune lidad que posee   R, adem´as as de ser el que tiene una mayor implantaci´on on en la comunidad cient´ cient´ıfica. El incorporar la interfaz gr´afica afica de usuario (GUI) Rcmdr pretende, en primera instancia, facilitar el manejo de R y, en segundo lugar, servir como generador de instrucciones  R . Es posible

 

0.1 Introducci´on on   VII que muchos de nuestros alumnos no necesiten otro nivel de uso que el que proporciona   Rcmdr, pero unos pocos y la may mayor or´´ıa del personal investigador, una vez superado el respeto inicial a la herramienta, se decantar´ an por manejarse directamente con la consola de  R , creando y an editando instrucciones con una evidente econom´ econom´ıa de recursos y, lo que es m´as as importante, importante, con un con control trol total sobre los procedimientos procedimientos que en cada momento se van a aplicar. Respecto a los contenidos, el libro pretende abarcar las necesidades pr´acticas acticas de un programa b´asico asico de estad´ıstica, ıstica, y as as´´ı, salvo el primer cap´´ıtulo cap ıtulo,, donde se prese presenta nta de forma muy sucinta el soft softwar ware, e, el resto est´ a dedicado a los t´opicos opicos habituales de un curso introductorio: An´alisis alisis Exploratorio en una y dos Dimensiones, Distribuciones de Probabilidad, Inferencia Inferen cia Param´etrica etrica y no Param´etrica etrica y An´alisis alisis de la Varianza de un Factor. El esquema de presentaci´on on de los temas incluye una breve descripci´on on de los conceptos, la resoluci´on on de una serie de ejemplos con la ayuda de R  y la propuesta de ejercicios para evaluar los conocimientos adquiridos. Al objeto de facil facilitar itar el uso del soft softwar ware, e, los primer primeros os cap cap´´ıtulos est´ an soportados b´asicamen an asicamente te sobre la int interfaz erfaz   Rcmdr. A partir del cap´´ıtulo 5 aumenta el uso de funciones construidas directamente en el cap indicador de mandatos, en parte por necesidad y en parte por motivos estrat´egicos, egicos, puesto que para entonces consideramos que nuestros alumnos est´an an bien familiarizados con la sintaxis de las funciones de  R . Esperamos que este manual sea de utilidad y, en cualquier caso y con m´as as motivos, dado que se trata de la primera versi´on, on, ponemos nuest nu estro ro tra trabajo bajo a dis disposic posici´ i´ on de la com on comunidad unidad cien cientt´ıfica para que se hagan las mejoras, ampliaciones y adaptaciones que se deseen. Los autore autores, s,

 

VIII

2.

Histo torry (Hist´ orico) orico)

Este libro surge como material de apoy ap oyoo a un curso de estad estad´´ıstica b´asica asica con R. La g´enesis enesis est´a en la creaci´on on del proyecto R UCA en mayo del 2007 y su primera versi´on on ve la luz en enero de ese mismo a˜ no. Los no. autores en orden alfab´ etico inv etico inverso erso son son Antonio  Antonio S´  anchez Navas ,  Sonia  P´erez ere z Pl Plaz aza  a ,  Manuel Mu˜  noz M´  arquez , Mar´ıa ıa Auxi Auxilia liadora dora L´  opez S´  anchez , Fernando Fern´  ande an dezz Pa Pala lac´ c´ın  y ın  y  Antonio Jes´  us Arriaza G´  omez . Una versi´on on electr´onica onica de este documento se encuentra en: http://knuth.uca.es/ebrcmdr

 

IX 3.

Lice Li cenc ncia ia de Doc Docum umen enta taci ci´ o on ´n Libre de GNU

This is an unofficial translation of the GNU Free Documentation License (Version 1.2, Noviembre 2002) into Spanish. It was not published by the Free Software Foundation, and does not legally state the distribution terms for documentation that uses the GNU FDL – only the original English text of the GNU FDL does that. However, we hope that this translation will help Spanish speakers understand the GNU FDL better. ´ Esta es una traducci´on on no oficial de la GNU Free Document License (Versi´ on 1.2, Noviembre 2002) a Espa˜nol on nol (Castellano). No ha sido publicada por la Free Soft Software ware Foundatio Foundation n y no estab establece lece legalm legalment entee los t´ erminos erminos de distr distribuci´ ibuci´ o n pa on para ra tr trab abajos ajos que us usen en la GF GFDL DL (s (s´olo ´o lo el te text xtoo de la ve verrsi´on on ori origin ginal al en Ingl Ingl´´es e s de la GF GFDL DL lo hac hace). e). Sin em embar bargo, go, espe esperam ramos os que esta traducci´on on ayude los hispanohablantes a entender mejor la GFDL. La versi´ on original de la GFDL esta disponible en la Free Software Foundation. on o n es on est´ t´ a basada en una http://www.gnu.org/copyleft/fdl.html Esta traducci´ de la versi´on on 1.1 de Igor T´amara amara y Pablo Reyes. Sin embargo la responsabilidad de su interpretaci´on on es de Joaqu´ın ın Seoane. Copyright (C) 2000, 2001, 2002 Free Software Foundation, Inc. 59 Temple Place, Suite 330, Boston, Se permite la copia y distribuci´ on de on copias literales deMA este02111-1307 documentoUSA. de licencia, pero no se permiten 1 cambios .

Pre´ ambulo ambulo El prop´osito osito de esta Licencia es permitir que un manual, libro de texto, u otro documento escrito sea “libre” sea  “libre” en  en el sentido de libertad: asegurar a todo el mundo la libertad efectiva de copiarlo y redistribuirlo, con o sin modificaciones, de manera comercial comercial o no. En segun segundo do t´ ermino, esta Licencia proporci ermino, proporciona ona al autor y al editor2 una manera de obtener reconocimiento por su trabajo, sin que se le considere responsable de las modificaciones realizadas por otros. Esta Licencia es de tipo  “copyleft”  “copyleft”,, lo que significa que los trabajos

derivados del documento deben a su vez ser libres en el mismo sentido. Complementa la Licencia P´ublica ublica General de GNU, que es una licencia tipo copyleft dise˜ nada para el software libre. nada 1´

Esta es la traducci´ o n del Copyright de la Licencia, no es el Copyright de esta on traducci´ on no autorizada. on 2 La licencia original dice  “publisher”  “publisher”,, que es, estrictamente, quien publica, diferente de editor, que es m´ as bien quien prepara un texto para publicar. En castellano as editor se usa para ambas cosas.

 

X Hemos dise˜ nado esta Licencia para usarla en manuales de software libre, nado ya que el software libre necesita documentaci´on on libre: un programa libre debe venir con manuales que ofrezcan la mismas libertades que el software. Pero esta licencia no se limita a manuales de software; puede usarse para cualquier texto, sin tener en cuenta su tem´atica atica o si se publica como libro impreso o no. Recomendamos esta licencia principalmente para trabajos cuyo fin sea instructivo o de referencia.

1. Aplicabilidad y definiciones Esta Licencia se aplica a cualquier manual u otro trabajo, en cualquier soporte, que contenga una nota del propietario de los derechos de autor que indique que puede ser distribuido bajo ba jo los t´erminos erminos de esta Licencia. Tal nota garantiza garan tiza en cualqu cualquier ier lugar del mundo, sin pago de derec derechos hos y sin l´ımite de tiempo, el uso de dicho trabajo seg´un un las condiciones aqu aqu´´ı estipuladas. En adelante la palabra “Documento” palabra  “Documento” se  se referir´a a cualquiera de dichos manuales o trabajos. Cualquier persona es un licenciatario y ser´a referido como “Usted” “Usted”.. Usted acepta la licencia si copia. modifica o distribuye el trabajo de cualquier modo que requiera permiso seg´ un la ley de propiedad intelectual. un Una “Versi´ Una “Versi´ on Modificada” del on Modificada” del Documento significa cualquier trabajo que contenga el Documento o una porci´on on del mismo, ya sea una copia literal o con modificaciones y/o traducciones a otro idioma. on Secunda on Secundaria” ria”   es un ap´endice Una  “Secci´ endice con t´ıtulo o una secci´on on preliminar del Documento que trata exclusivamente de la relaci´on on entre los autores o editores y el tema general del Documento (o temas relacionados) pero que no contiene nada que entre directamente en dicho tema general (por

ejemplo, si el Documento es en parte un texto de matem´aticas, aticas, una Secci´on on Secund Sec undaria aria puede no exp explic licar ar nad nadaa de mat matem´ em´ aticas). La relaci´on aticas). on puede ser una conexi´on on hist´orica orica con el tema o temas relacionados, o una opini´on on legal, comercial, filos´ofica, ofica, ´etica etica o pol´ıtica ıtica acerca de ellos. Las  “Secciones Invariantes” son Las “Secciones Invariantes”  son ciertas Secciones Secundarias cuyos t´ıtulos son designados como Secciones Invariantes Invariantes en la nota que indica que el documento es liberado bajo esta Licencia. Si una secci´on on no entra en la definici´ on de Secundaria, no puede designarse como Invariante. El documento puede on no tener Secciones Invariantes. Si el Documento no identifica las Secciones Invariantes, es que no las tiene. Los  “Textos de Cubierta” son Los “Textos Cubierta”  son ciertos pasajes cortos de texto que se listan como Textos de Cubierta Delantera o Textos de Cubierta Trasera en la nota que indica que el documento es liberado bajo esta Licencia. Un Texto de

 

XI Cubierta Delantera puede tener como mucho 5 palabras, y uno de Cubierta Trasera puede tener hasta 25 palabras. copia   “Transparente” unaon lecturaUna en m´ aquina, aquina, representada en  del un Documento, formato cuyasignifica especificaci´ ocopia n est´apara disponible al p´ ublico en general, apto para que los contenidos puedan ser vistos ublico y editados directamente con editores de texto gen´ericos ericos o (para im´agenes agenes compuestas por puntos) con programas gen´ericos ericos de manipulaci´ on de im´agenes on agenes o (para dibujos) con alg´un un editor de dibujos ampliamente disponible, y que sea adecuado como entrada para formateadores de texto o para su traducci´on on autom´ atica a formatos adecuados para formateadores de texto. Una copia hecha atica en un formato definido como Transparente, pero cuyo marcaje o ausencia de ´el el haya sido dise˜nado nado para impedir o dificultar modificaciones posteriores por parte de los lectores no es Transparente. Un formato de imagen no es Transparente si se usa para una cantidad de texto sustancial. Una copia que no es “Transparente” se “Transparente”  se denomina “Opaca” denomina  “Opaca”.. Como ejemplos de formatos adecuados para copias Transparentes est´an an ASCII puro sin marcaje, formato de entrada de Texinfo, formato de entrada de LATEX, SGML o XML usando una DTD disponible p´ublicamente, ublicamente, y HTML, PostScript o PDF simples, que sigan los est´andares andares y dise˜ nados para que los nados modifiquen personas. Ejemplos de formatos de imagen transparentes son PNG, XCF y JPG. Los formatos Opacos incluyen formatos propietarios que pueden ser le le´´ıdos y editados e ditados unicamente u ´nicamente en procesadores de palabras propietarios,

den ser le leıdos ıdos y editados e ditados unicamente en procesadores de palabras propietarios, SGML o XML para los cu´ales ales las DTD y/o herramientas de procesamiento no est´en en ampliamente disponibles, y HTML, PostScript o PDF generados por algunoss procesa alguno procesadores dores de palabr palabras as s´ olo como salida. olo La  “Portada” significa, La “Portada”  significa, en un libro impreso, la p´agina agi na de t´ıtul ıtulo, o, m´as as las p´aginas aginas siguientes que sean necesarias para mantener legiblemente el material que esta Licencia requiere en la portada. Para trabajos en formatos que no tienen p´agina agina de portada como tal,  “Portada”  “Portada” significa  significa el texto cercano a la aparici´on on m´as as prominente del t´ıtulo del trabajo, precediendo el comienzo del cuerpo del texto. Una secci´on “Titulada on  “Titulada XYZ” significa XYZ”  significa una parte del Documento cuyo t´ıtulo es precisamente XYZ o contiene XYZ entre par´entesis, entesis, a continuac continuaci´ i´on on de text textoo que traduce XYZ a otro idioma (aqu (aqu´´ı XYZ se refier refieree a nom nombres bres de secci´ on espec´ıficos on ıficos menciona mencionados dos m´as as abajo, como “Agradecimientos” como  “Agradecimientos”,,  “Dedicatorias”,, “Aprobaciones” o “Historia” dicatorias”  “Historia”.. “Co “Conse nservar rvar el T´ıtu ıtulo” lo” de tal secci´ on cuando se modifica el Documento significa que permanece una secci´on on on “Titulada “Titul ada XYZ” XYZ” seg´  seg´ un esta definici´on un on3 . 3

En sen sentido tido estric estricto to esta licenc licencia ia parece exigir que los t´ıtulos sean exacta exactamenmente   “Acknowledgements”, “Acknowledgements”,  “Dedications”  “Dedications”,,   “Endorsements”   e   “History”, “History”, en

 

XII El Documento Do cumento puede incluir Limitaciones de Garant´ Garant´ıa cercanas a la nota donde se declara que al Documento se le aplica esta Licencia. Se considera que estas Limitac Limitaciones iones de Garant G arant´´ıa est´ es t´an an incluidas, por referencia, en la Licencia, pero s´olo olo en cuanto a limitaciones de garant garant´´ıa: cualquier otra implicaci´on on que estas Limitaciones Limitaciones de Garan Garantt´ıa pueda puedan n tene tenerr es nula y no tien tienee efec efecto to en el significado de esta Licencia.

2. Copia literal Usted puede copiar y distribuir el Documento en cualquier soporte, sea en forma comercial o no, siempre y cuando esta Licencia, las notas de copyright y la nota que indica que esta Licencia se aplica al Documento se reproduzcan en todas las copias y que usted no a˜nada nada ninguna otra condici´on on a las expuestas en esta Licencia. Usted no puede usar medidas t´ecnicas ecnicas para obstruir o controlar la lectura o copia posterior de las copias que usted haga o distribuya. Sin embargo,

usted aceptarnte compensaci compensacion cambio de las er´ copias. Si las distribuye un n´ umeropuede umero suficientemente suficienteme grand e deon grande coapias copias tambi´ en deber´ en deb a seguir condiciones de la secci´on on 3. Usted tambi´en en puede prestar copias, bajo las mismas condiciones establecidas anteriormente, y puede exhibir copias p´ ublicamente. ublicamente.

3. Copiado en cantidad Si publica copias impresas del Documento (o copias en soportes que tengan normalmente cubiertas impresas) que sobrepasen las 100, y la nota de licencia del Documento exige Textos de Cubierta, debe incluir las copias con cubiertas que lleven en forma clara y legible todos esos Textos de Cubierta: Textos de Cubierta Delantera en la cubierta delantera y Textos de Cubierta Trasera en la cubierta trasera. Ambas cubiertas deben identificarlo a Usted clara y legiblemente como editor de tales copias. La cubierta debe mostrar el t´ıtulo compl completo eto con todas las palabr palabras as igualm igualment entee promin prominent entes es y visibl visibles. es. Adem´ as puede a˜ as nadir otro material en las cubiertas. Las copias con cambios nadir limitados limit ados a las cubie cubiertas, rtas, siempre que conser conserven ven el t´ıtulo del Docume Documento nto y satisfagan estas condiciones, pueden considerarse como copias literales. Si los textos requeridos para la cubierta son muy voluminosos para que ajusten legiblemente legiblemente,, debe colocar los prime primeros ros (tan (tantos tos como sea razon razonable able colocar) en la verdadera cubierta y situar el resto en p´aginas aginas adyacentes. Si Usted publica o distribuye copias Opacas del Documento cuya cantidad exceda las 100, 1 00, debe incluir una copia Transparente, Transparente, que pueda ser le le´´ıda ingl in gl´ ´ es . es.

 

XIII por una m´aquina, aquina, con cada copia Opaca, o bien mostrar, en cada copia Opaca, una direcci´on on de red donde cualquier usuario de la misma tenga acceso por medio de protocolos p´ ublicos y estandarizados a una copia Transparente del ublicos Documento completa, sin material adicional. Si usted hace uso de la ´ultima ultima opci´on, on, deber´a tomar las medidas necesarias, cuando comience la distribuci´on on de las copias Opacas en cantidad, para asegurar que esta copia Transparente permanecer´a accesible en el sitio establecido por lo menos un a˜no no des despu´ pu´es es de la ultima u ´ ltima vez que distribuya una copia Opaca de esa edici´on al p´ ublico (direcublico tamente o a trav´ es de sus agentes o distribuidores). es Se solicita, aunque no es requisito, que se ponga en contacto con los

autores del Documento antes de redistribuir gran n´umero umero de copias, para darles la oportunidad de que le proporcionen una versi´on on actualizada del Documento.

4. Modificaciones Puede copiar y distribuir una Versi´on on Modificada del Documento bajo las condiciones de las secciones 2 y 3 anteriores, siempre que usted libere la Versi´on on Modificada bajo esta misma Licencia, con la Versi´on on Modificada haciendo el rol del Documento, por lo tanto dando licencia de distribuci´on on y modificaci´on on de la Versi´on on Modificada a quienquiera posea una copia de la misma. Adem´as, as, debe hacer lo siguiente en la Versi´on on Modificada: A. Usar en la Portada (y en las cubiertas, si hay alguna) un t´ıtulo distinto al del Documento y de sus versiones anteriores (que deber´an, an, si hay alguna, estar listadas en la secci´on on de Historia del Documento). Puede usar el mismo t´ıtulo de versiones anteriores al original siempre y cuando quien las public´o originalmente otorgue permiso. B. List Listar ar en la Po Porta rtada, da, como autores autores,, una o m´ as personas o entidades as responsabl resp onsables es de la autor´ıa ıa de las modifi m odificacione cacioness de la Versi´on on Modificada,  junto con por lo menos cinco de los autores principales del Documento (todos sus autores principales, si hay menos de cinco), a menos que le eximan de tal requisito. C. Mostra Mostrarr en la Por Portad tadaa com comoo edi editor tor el nom nombre bre del edi editor tor de la Vers ersi´ i´ on on Modificada. D. Conser Conserv var todas las notas de copyright copyright del Documento. Documento. E. A˜ nadir una nota de copyright apropiada a sus modificaciones, adyacente nadir a las otras notas de copyright.

 

XIV F. Incluir, inmediatamente despu´es es de las notas de copyright, una nota de licencia dando el permiso para usar la Versi´on on Modificad Mo dificadaa ba jo los l os t´ermierminos de esta Licencia, como se muestra en la Adenda al final de este documento.

G. Conser Conserv var en esa nota de lic licenc encia ia el lis listad tadoo com comple pleto to de las Seccione Seccioness Invariantes y de los Textos de Cubierta que sean requeridos en la nota de Licen Licencia cia del Docume Documento nto original. H. Inclui Incluirr una copia sin modificaci´ modificaci´ on de esta Licencia. on I. Conservar la secci´ secci´on on Titulada “Historia” “Historia”,, conser co nservar var su T´ıtulo ıtul o y a˜ a nadirle n ˜adirle un elemento que declare al menos el t´ıtulo, el a˜no, no, los nuevos autores y el editor de la Versi´on on Modificada, tal como figuran en la Portada. Si no hay una secci´on on Titulada   “Historia”  “Historia”   en el Documento, crear una estableciendo establec iendo el t´ıtulo, ıtulo, el a˜ a no, n ˜ o, los autores y el editor del Documento, tal como figuran en su Portada, a˜nadiendo nadiendo adem´as as un elemento describiendo la Versi´on on Modificada, como se estableci´o en la oraci´on on anterior. J. Conserv Conservar ar la direc direcci´ ci´ on en red, si la hay, dada en el Documento para el on acceso p´ ublico a una copia Transparente del mismo, as ublico as´´ı como las otras direcciones de red dadas en el Documento para versiones anteriores en las que estuviese basado. Pueden ubicarse en la secci´on “Historia” on  “Historia”.. Se puede omitir la ubicaci´on on en red de un traba jo que haya sido publicado por lo menos cuatro a˜nos nos antes que el Documento mismo, o si el editor original origin al de dich dichaa vers versi´ i´ on da permiso. on K. En cualquier cualquier secci secci´on ´on Titulada “Agradecimientos” Titulada “Agradecimientos” o “Dedicatorias”  “Dedicatorias”,, Conservar el T´ıtulo de la secci´ on y conservar en ella toda la sustancia on y el ton tonoo de los agr agrade adecim cimien ientos tos y/o ded dedica icator torias ias incluida incluidass por cad cadaa contribuyente. L. Conserv Conservar ar todas las Secciones Invarian Invariantes tes del Docume Documento nto,, sin alterar su texto ni sus t´ıtulos. N´umeros umeros de secci´on on o el equivalente no son considerados parte de los t´ıtulos de la secci´ on. on. M. Borrar cualquie cualquierr secci´ on titulada “Aprobaciones” on titulada  “Aprobaciones”.. Tales secciones no pueden estar incluidas en las Versiones Modificadas. N. No cambiar el t´ıtulo de ninguna secci´on on existente a “Aprobaciones” a  “Aprobaciones” ni  ni a uno que entre en conflicto con el de alguna Secci´on on Invariante. O. Conservar todas las Limitaciones de Garant´ Garant´ıa. Si la Versi´on on Modificada incluye secciones o ap´endices endices nuevos que califiquen como Secciones Secundarias y contienen material no copiado del Documento, puede opcionalmente designar algunas o todas esas secciones como

 

XV invariantes. Para hacerlo, a˜ nada sus t´ıtulos a la lista de Secciones Invariantes nada en la nota de licencia de la Versi´on on Modificada Mo dificada.. Tales t´ıtulos ıtulos deben ser distintos di stintos de cualqui cualquier er otro o tro t´ıtulo de secci´ s ecci´on. on. Puede a˜ nadir una secci´on nadir on titulada “Aprobaciones” titulada  “Aprobaciones”,, siempre que contenga unicament u ´ nicamentee aprobac aprobaciones iones de su Versi´ on Modi on Modifica ficada da por otr otras as fue fuent ntes es –por ejemplo, observacion observaciones es de perito peritoss o que el texto ha sido aprobado por una organizaci´on on como la definici´on on oficial de un est´andar. andar. Puede a˜ nadir un pasaje de hasta cinco palabras como Texto de Cubierta nadir Delantera y un pasaje de hasta 25 palabras como Texto de Cubierta Trasera en la Versi´on on Modificada. Una entidad solo puede a˜nadir nadir (o hacer que se a˜nada) nada) un pasaje al Texto de Cubierta Delantera y uno al de Cubierta Trasera. Si el Documento ya incluye textos de cubiertas a˜nadidos nadidos previamente por usted o por la misma entidad que usted representa, usted no puede a˜ nadir otro; pero nadir puede reemp reemplazar lazar el ante anterior, rior, con permiso expl´ expl´ıcito del edit editor or que agreg´ o el texto anterior. Con esta Licencia ni los autores ni los editores del Documento dan permiso para usar sus nombres nombres para publicidad ni para asegurar o implicar aprobaci´ on on de cualquier Versi´on on Modific Modificada. ada.

5. Combinaci´ on de documentos on Usted puede combinar el Documento con otros documentos liberados bajo esta Licencia, bajo ba jo los t´ erminos definid erminos definidos os en la secci secci´on ´on 4 anterior para versiones modificadas, siempre que incluya en la combinaci´on on todas las Secciones Invariantes de todos los documentos originales, sin modificar, listadas todas como Secciones Invariantes del trabajo combinado en su nota de licencia. As´´ı mismo As mism o debe deb e incluir incl uir la Limitaci´ Li mitaci´on on de Gara Garant nt´´ıa. El trabajo combinado necesita contener solamente una copia de esta Licencia, y puede reemplazar varias Secciones Invariantes id´enticas enticas por una sola copia. Si hay varias Secciones Invariantes con el mismo nombre pero con contenidos diferentes, d iferentes, haga h aga el t´ıtulo de cada una de estas seccione s eccioness ´unico unico a˜ na di´´endo nadi en dole le al final del mismo, entre par´entesis, entesis, el nombre del autor o editor original de esa secci´ on, si es conocido, o si no, un n´umero on, umero unico. u ´ nico. Haga el mismo ajuste a los t´ıtul ıtulos os de secc secci´ i´on on en la lista de Secciones Invariantes de la nota de licencia del trabajo combinado. En la combinaci´on, on, debe combinar cualquier secci´on on Titulada  Titulada   “Historia”  de los documentos originales, formando una secci´on ria” de on Titulada “Historia” Titulada “Historia”;; de la misma forma combine cualquier secci´on on Titulada “Agradecimientos” Titulada  “Agradecimientos”,, y cualquier secci´on on Titulada “Dedicatorias” Titulada  “Dedicatorias”.. Debe borrar todas las secciones tituladas “Aprobaciones” tituladas  “Aprobaciones”..

 

XVI 6. Colecciones de documentos Puede hacer una colecci´on on que conste del Documento y de otros documentos liberados bajo esta Licencia, y reemplazar las copias individuales de esta Licencia en todos los documentos por una sola copia que est´e incluida en la colecci´on, on, siempre que siga las reglas de esta Licencia para cada copia literal de cada uno de los documentos en cualquiera de los dem´as aspect aspectos. os. Puede extraer un solo documento de una de tales colecciones y distribuirlo individualmente bajo esta Licencia, siempre que inserte una copia de esta Licencia en el adocumento dolacumento extrade extra´ ´ıdo, y siga esta Licencia en todos los dem´ as as aspectos relativos copia literal dicho documento.

7. Agregaci´ on con trabajos independientes on Una recopilaci´on on que conste del Documento o sus derivados y de otros documentos o trabajos separados e independientes, en cualquier soporte de almacenamiento o distribuci´on, on, se denomina un   “agregado”  “agregado”   si el copyright resultante de la compilaci´on on no se usa para limitar los derechos de los usuarios de la misma m´as as all´a de lo que los de los trabajos individuales permiten. Cuando el Documento se incluye en un agregado, esta Licencia no se aplica a otros trabajos del agregado que no sean en s´ı mismos derivados del Documento. Si el requisito de la secci´on on 3 sobre el Texto de Cubierta es aplicable a estas copias del Documento y el Documento es menor que la mitad del agregado entero, los Textos de Cubierta del Documento pueden colocarse en cubiertas que enmarquen solamente el Documento dentro del agregado, o el equivalente electr´ onico de las cubiertas si el documento est´a en forma electr´onica. onico onica. En caso contrario con trario deben aparec aparecer er en cubie cubiertas rtas impresas enmarcando enmarcando todo el agregad agregado. o.

8. Traducci´ on on La Traducci´on on es considerada como un tipo de modificaci´on, on, por lo que usted uste d puede distr distribuir ibuir tradu traduccion cciones es del Docume Documento nto bajo los t´ erminos de la erminos secci´ on 4. El reemplazo de las Secciones Invariantes con traducciones requiere on permiso especial de los due˜nos nos de derecho de autor, pero usted puede a˜ nadir nadir traduccion tradu cciones es de alguna algunass o todas las Secci Secciones ones Invarian Invariantes tes a las versiones originales de las mismas. Puede incluir una traducci´on on de esta Licencia, de todas las notas no tas de licencia del docume d ocumento, nto, as´ı como de las la s Limitacion Lim itaciones es de Garant´ıa, ıa, siempre que incluya tambi´ en la versi´ en on en Ingl´ on es de esta Licencia y las veres siones originales de las notas de licencia y Limitaciones de Garant Garant´´ıa. En caso

 

XVII de desacuerdo entre la traducci´on on y la versi´on on original en Ingl´es es de esta Licencia, la nota de licencia o la limitaci´on on de garant´ıa, ıa, la versi´on on origin original al en Ingl´es es prevalecer´a. a. Si una secci´on on del Documento est´a Titulada “Agradecimientos” “Agradecimientos”,, “Dedicatorias” o dicatorias”  o “Historia”  “Historia” el  el requisito (secci´on on 4) 4 ) de Conservar su T´ıtulo (Secci´ on 1) requerir´a, on a, t´ıpi ıpicame camente, nte, camb cambiar iar su t´ıtul ıtulo. o.

9. Terminaci´ on on Usted no puede copiar, modificar, sublicenciar o distribuir el Documento salvo por lo permitido expresamente por esta Licencia. Cualquier otro intento de copia, modificaci´on, on, sublicenciamiento o distribuci´on on del Documento es nulo, y dar´a por terminados autom´aticamente aticamente sus derechos bajo esa Licencia. Sin embargo, los terceros que hayan recibido copias, o derechos, de usted bajo esta Licencia no ver´an an terminadas sus licencias, siempre que permanezcan en total conformidad con ella.

10. Revisiones futuras de esta licencia De vez en cuando la Free Software Foundation puede publicar versiones nuevas y revisadas de la Licencia de Documentaci´on on Libre GNU. Tales versiones nuevas ser´an an similares en esp esp´´ıritu a la presente versi´on, on, pero pueden diferir en detalles para solucionar nuevos problemas o intereses. Vea http://www.gnu.org/copyleft/.

Cada versi´on on de la Licencia tiene un n´umero umero de versi´on on que la distingue. Si el Documento especifica que se aplica una versi´on on numerada en particular de esta licencia o   “cualquier versi´ on posterior”, on posterior”, usted tiene la opci´on on de seguir los t´erminos erminos y codiciones cod iciones de la versi´on on especificada o cualquiera posterior que haya sido publicada (no como borrador) por la Free Software Foundation. Si el Documento no especifica un n´umero umero de versi´on on de esta Licencia, puede escoger cualquier versi´on on que haya sido publicada (no como borrador) por la Free Software Foundation.

ADENDA: C´ omo usar esta Licencia en sus documentos omo Para usar esta licencia en un documento que usted haya escrito, incluya una copia de la Licencia en el documento y ponga el siguiente copyright y nota de licencia l icencia justo despu´es es de la p´agina agi na de t´ıtul ıtulo: o:

 

XVIII ˜ SU NOMBRE. Se concede permiso para coCopyright (c) ANO piar, distribuir y/o modificar mo dificar este documento bajo ba jo los t´erminos erminos de la Licencia de Documentaci´on on Libre de GNU, Versi´on on 1.2 o cualquier otra versi´on on posterior publicada por la Free Software FoundaFoundation; sin Secciones Invariantes ni Textos de Cubierta Delantera ni Textos de Cubierta Trasera. Una copia de la licencia est´a incluida en la secci´on on titulada GNU Free Documentation License. Si tiene Secciones Invariantes, Textos de Cubierta Delantera y Textos de Cubierta Trasera, reemplace la frase “sin frase  “sin ... Trasera” por Trasera”  por esto: siendo las Secciones Invariantes LISTE SUS T´ITULOS ITULOS,, siendo los Textos de Cubierta Delantera LISTAR, y siendo sus Textos de Cubierta Trasera LISTAR. Si tiene Secciones Invariantes sin Textos de Cubierta o cualquier otra combinaci´ on de los tres, mezcle ambas alternativas para adaptarse a la situaon ci´ on. on. Si su documento contiene ejemplos de c´odigo odigo de programa no triviales, recomendamos liberar estos ejemplos en paralelo bajo la licencia de software libre que usted elija, como la Licencia P´ublica ublica General de GNU (“GNU ( “GNU General Public License”), License”), para permitir su uso en software libre.

 

XIX 4.

GNU GN U Fre ree e Doc Docum umen enta tatio tion n Li Lice cense nse Version 1.2, November 2002 Copyright   c 2000,2001,2002 Free Software Foundation, Inc.



51 Franklin St, Fifth Floor, Boston, MA 02110-1301 USA Everyone is permitted to copy and distribute verbatim copies of this license document, but changing it is not allowed.

Preamble The purpose of this License is to make a manu manual, al, textbook, or other functional and useful document “free”in the sense of freedom: to assure everyone the effective freedom to copy and redistribute it, with or without modifying it, either commercially or noncommercially. Secondarily, this License preserves for the author and publisher a way to get credit for their work, while not being considered consi dered responsible responsible for modifica modifications tions made by othe others. rs. This License is a kind of “copyleft”, which means that derivative works of the document must themselves be free in the same sense. It complements the GNU General Public License, which is a copyleft license designed for free software. We have designed this License in order to use it for manuals for free software, because free software needs free documentation: a free program should come with manuals providing the same freedoms that the software does. But this License is not limited to software manuals; it can be used for any textual work,, regardless work regardless of subject matter matter or whether it is publi published shed as a printed book. We recommend this License principally for works whose purpose is instruction or reference.

1. APPLICABILITY AND DEFINITIONS This License applies to any manual or other work, in any medium, that

contains a notice placed by the copyright holder saying it can be distributed under the terms of this License. Such a notice grants a world-wide, royalty-free license, unlimited in duration, to use that work under the conditions stated herein. The   “Document”, “Document”, below, refers to any such manual or work. Any member of the public is a licensee, and is addressed as  “you”  “you”.. You accept the

 

XX license if you copy, modify or distribute the work in a way requiring permission under copyright law. A   “Modified Version” of Version”  of the Document means any work containing the Document or a portion of it, either copied verbatim, or with modifications and/or translated into another language. Section” is a named appendix or a front-matter section A “Secondary Section” is of the Document that deals exclusively with the relationship of the publishers or authors of the Document to the Document’s overall subject (or to related matters) and contains nothing that could fall directly within that overall sub ject. (Thus, if the Document is in part a textbook of mathematics, a Secondary Section may not explain any mathematics.) The relationship could be a matter of historical connection with the subject or with related matters, or of legal, commercial, philosophical, ethical or political position regarding them. The  “Invariant Sections” are The “Invariant Sections”  are certain Secondary Sections whose titles are designated, as being those of Invariant Sections, in the notice that says that the Document is released under this License. If a section does not fit the above definition of Secondary then it is not allowed to be designated as Invariant. The Document may contain zero Invariant Sections. If the Document does not identify any Invariant Sections then there are none. The   “Cover Texts” are The Texts”  are certain short passages of text that are listed, as Front-Cover Texts or Back-Cover Texts, in the notice that says that the Document is released under this License. A Front-Cover Text may be at most 5 words, and a Back-Cover Text may be at most 25 words. A   “Transparent”   copy of the Document means a machine-readable copy, represented in a format whose specification is available to the general public, that is suitable for revising the document straightforwardly with generic text editors or (for images composed of pixels) generic paint programs or (for drawings) some widely available drawing editor, and that is suitable for input to text formatters or for automatic translation to a variety of formats suitable for input to text formatters. A copy made in an otherwise Transparent file

format whose markup, or absence of markup, has been arranged to thwart or discourage subsequent modification by readers is not Transparent. An image format is not Transparent if used for any substantial amount of text. A copy that is not “Transparent”is called “Opaque” called  “Opaque”.. Examples of suitable formats for Transparent copies include plain ASCII without markup, Texinfo input format, LaTeX input format, SGML or XML using a publicly available DTD, and standard-conforming simple HTML, PostScript or PDF designed for human modification. Examples of transparent image formats include PNG, XCF and JPG. Opaque formats include proprie-

 

XXI tary formats that can be read and edited only by proprietary word processors, SGML or XML for which the DTD and/or processing tools are not generally available, and the machine-generated HTML, PostScript or PDF produced by some word processors for output purposes only. The   “Title Page” means, The Page”  means, for a printed book, the title page itself, plus such following pages as are needed to hold, legibly, the material this License requires to appear in the title page. For works in formats which do not have any title page as such, “Title Page”means the text near the most prominent appearance of the work’s title, preceding the beginning of the body of the text. XYZ”  means a named subunit of the Document A section  section   “Entitled XYZ” means whose title either is precisely XYZ or contains XYZ in parentheses following text that translates XYZ in another language. (Here XYZ stands for a specific section name mentioned below, such as   “Acknowledgements”, “Acknowledgements”,  “Dedications”,,  “Endorsements” cations”  “Endorsements”,, or or “History”  “History”.) .) To  To   “Preserve the Title”  Title”   of  such a section when you modify the Document means that it remains a section “Entitled XYZ.according to this definition. The Docume Document nt may inclu include de Warran arranty ty Disclaimers Disclaimers next to the notice which states that this License applies to the Document. These Warranty Disclaimers are considered to be included by reference in this License, but only as regards disclaiming warranties: any other implication that these Warranty Disclaimers may have is void and has no effect on the meaning of this License.

2. VERBATIM COPYING

You may copy and distribute the Document in any medium, either commercially or noncommercially, provided that this License, the copyright notices, and the license notice saying this License applies to the Document are reproduced in all copies, and that you add no other conditions whatsoever to those of this License. You may not use technical measures to obstruct or control the reading or further copying of the copies you make or distribute. However, you may accept compensation in exchange for copies. If you distribute a large enough number of copies you must also follow the conditions in section 3. You may also lend copies, under the same conditions stated above, and you may publicly display copies.

3. COPYING IN QUANTITY If you publish printed copies (or copies in media that commonly have printed covers) of the Document, numbering more than 100, and the Docu-

 

XXII ment’s license notice requires Cover Texts, you must enclose the copies in covers that carry, clearly and legibly, all these Cover Texts: Front-Cover Texts on frontand cover, and Back-Cover the backofcover. covers must alsothe clearly legibly identify you Texts as theon publisher these Both copies. The front cover must present the full title with all words of the title equally prominent and visible. You may add other material on the covers in addition. Copying with changes limited to the covers, as long as they preserve the title of the Document and satisfy these conditions, can be treated as verbatim copying in other respects. If the required texts for either cover are too voluminous to fit legibly, you should put the first ones listed (as many as fit reasonably) on the actual cover, and continue the rest onto adjacent pages. If you publish or distribute Opaque copies of the Document numbering more than 100, you must either include a machine-readable Transparent copy along with each Opaque copy, or state in or with each Opaque copy a computer-network location from which the general network-using public has access to download using public-standard network protocols a complete Transparent copy of the Document, free of added material. If you use the latter option, you must take reasonably prudent steps, when you begin distribution

of Opaque copies in quantity, to ensure that this Transparent copy will remain thus accessible at the stated location until at least one year after the last time you distribute an Opaque copy (directly or through your agents or retailers) of  that edition to the public. It is requested, but not required, that you contact the authors of the Document well before redistributing any large number of copies, to give them a chance to provide you with an updated version of the Document.

4. MODIFICATIONS You may copy and distribute a Modified Version of the Document under the conditions of sections 2 and 3 above, provided that you release the Modified Version under precisely this License, with the Modified Version filling the role of the Document, thus licensing distribution and modification of the Modified Version to whoever possesses a copy of it. In addition, you must do these things in the Modified Version: A. Use in the Title Page (and (and on the covers, if any) a title distinct from that that of the Document, and from those of previous versions (which should, if  there were any, be listed in the History section of the Document). You may use the same title as a previous version if the original publisher of  that version gives permission.

 

XXIII B. List on the Titl Titlee Page, as authors, one or more persons or entities entities responsiblee for aut ponsibl authors horship hip of the modi modifica ficatio tions ns in the Modi Modified fied Vers ersion ion,, together with at least five of the principal authors of the Document (all of its principal authors, if it has fewer than five), unless they release you from this requirement. C. State on the Title page the the name of the publisher of the Modified Version, Version, as the publisher. D. Prese Preserve rve all the copyright copyright notices of the Document. E. Add an approp appropriate riate copyrigh copyrightt notice for your modifications modifications adjace adjacent nt to the other copyright notices. F. Include, Include, immed immediate iately ly afte afterr the copyright copyright notices, a licen license se notice giving the public permission to use the Modified Version under the terms of this

License, in the form shown in the Addendum below. G. Preser Preserve ve in tha thatt lic licens ensee not notice ice the ful fulll lis lists ts of In Inv vari arian antt Sec Sectio tions ns and required Cover Texts given in the Document’s license notice. H. Includ Includee an unaltered copy copy of this License. I. Preserve Preserve the section Entitled Entitled “History”, “History”, Preserve its Title, and add to it an item stating at least the title, year, new authors, and publisher of  the Modified Version as given on the Title Page. If there is no section Entitled “History”in the Document, create one stating the title, year, authors, and publisher of the Document as given on its Title Page, then add an item describing the Modified Version as stated in the previous sentence. J. Preserve Preserve the network network location, if any any,, give given n in the Document Document for publi publicc access to a Transparent copy of the Document, and likewise the network locations given in the Document for previous versions it was based on. These may be placed in the “History”section. You may omit a network location for a work that was published at least four years before the Document itself, or if the original publisher of the version it refers to gives permission. K. For any section Entitled “Acknowledgements. “Acknowledgements.or “Dedications”, Preserve the Title of the section, and preserve in the section all the substance and tone of each of the con contribu tributor tor ackn acknowle owledgeme dgements nts and/or dedic dedications ations given therein. L. Preserve Preserve all the Inv Invarian ariantt Sections of the Document, Document, unalt unaltered ered in their text and in their titles. Section numbers or the equivalent are not considered part of the section titles.

 

XXIV M. Delete Delete any section section Entitled Entitled “Endorsement “Endorsements”. s”. Such a sect section ion may not be included in the Modified Version. N. Do not reti retitle tle any existing section to be b e Ent Entitle itled d “Endor “Endorsemen sements. ts.or to conflict in title with any Invariant Section. O. Preserve any Warranty Warranty Disclaimers. Disclaimers. If the Modified Version includes new front-matter sections or appendices

that qualify as Secondary Sections and contain no material copied from the Document, you may at your option designate some or all of these sections as invariant. To do this, add their titles to the list of Invariant Sections in the Modified Version’s license notice. These titles must be distinct from any other section titles. You addements a section “Endorsements”, contains nothing nothing butmay endorsemen endors ts of Entitled your Modified Version byprovided various it parties– parties–for for example, statements of peer review or that the text has been approved by an organiz organization ation as the authoritative authoritative definition definition of a stand standard. ard. You may add a passage of up to five words as a Front-Cover Text, and a passage of up to 25 words as a Back-Cover Text, to the end of the list of Cover Texts in the Modified Version. Only one passage of Front-Cover Text and one of Back-Cover Text may be added by (or through arrangements made by) any one entity. If the Document already includes a cover text for the same cover, previously added by you or by arrangement made by the same entity you are acting on behalf of, you may not add another; but you may replace the old one, on explicit permission from the previous publisher that added the old one. The author(s) and publisher(s) of the Document do not by this License give permission to use their names for publicity for or to assert or imply endorsement of any Modified Version.

5. COMBINING DOCUMENTS You may combine the Document with other documents released under this License, under the terms defined in section 4 above for modified versions, provided that you include in the combination all of the Invariant Sections of all of the original documents, unmodified, and list them all as Invariant Sections of your combined work in its license notice, and that you preserve all their Warranty Disclaimers. The combined work need only contain one copy of this License, and multiple identical Invariant Sections may be replaced with a single copy. If there are multiple Invariant Invariant Sections with the same name but different contents, make

 

XXV the title of each such section unique by adding at the end of it, in parentheses, the name of the original author or publisher of that section if known, or else a

unique number. Make the same adjustment to the section titles in the list of  Invariant Sections in the license notice of the combined work. In the combination, you must combine any sections Entitled “History”in the various original documents, forming one section Entitled “History”; likewise combine any sections Entitled “Acknowledgements”, and any sections Entitled “Dedications”. You must delete all sections Entitled “Endorsements”.

6. COLLECTIONS OF DOCUMENTS

You may make a collection consisting of the Document and other documents released under this License, and replace the individual copies of this License in the various documents with a single copy that is included in the collection, provided that you follow the rules of this License for verbatim copying of each of the documents in all other respects. You may extract a single document from such a collection, and distribute it individually under this License, provided you insert a copy of this License into the extracted document, and follow this License in all other respects regarding verbatim copying of that document.

7. AGGREGATION WITH INDEPENDENT WORKS

A compilation of the Document or its derivatives with other separate and independent documents or works, in or on a volume of a storage or distribution medium, is called an “aggregate”if the copyright resulting from the compilation is not used to limit the legal rights of the compilation’s users beyond what the individual works permit. When the Document is included in an aggregate, this License does not apply to the other works in the aggregate which are not themselves derivative works of the Document. If the Cover Text requirement of section 3 is applicable to these copies of the Document, then if the Document is less than one half of the entire aggregate, the Document’s Cover Texts may be placed on covers that bracket the Document within the aggregate, or the electronic equivalent of covers if the Document is the in electronic form. Otherwise they must appear on printed covers that bracket whole aggregate.

 

XXVI 8. TRANSLATION Translation is considered a kind of modification, so you may distribute translations of the Document under the terms of section 4. Replacing Invariant Sections with translations requires special permission from their copyright holders, der s, but yo you u ma may y inc includ ludee tra transl nslati ations ons of som somee or all Inv Invari arian antt Sec Sectio tions ns in addition to the original versions of these Invariant Sections. You may include a translation of this License, and all the license notices in the Document, and any Warranty Disclaimers, provided that you also include the original English version of this License and the original versions of those notices and disclaimers. In of a disagreement between thethe translation and the original version of  thiscase License or a notice or disclaimer, original version will prevail. If a section in the Document is Entitled “Acknowledgements”, “Dedications”, or “History”, the requirement (section 4) to Preserve its Title (section 1) will typi typically cally require changing the actua actuall titl title. e.

9. TERMINATION You may not copy, modify, sublicense, or distribute the Document except as expressly provided for under this License. Any other attempt to copy, modify, sublicense or distribute the Document is void, and will automatically terminate your rights under this License. However, parties who have received copies, or rights, from you under this License will not have their licenses terminated so long as such parties remain in full compliance.

10. FUTURE REVISIONS OF THIS LICENSE The Free Software Foundation may publish new, revised versions of the GNU Free Documentation License from time to time. Such new versions will be similar in spirit to the present version, but may differ in detail to address new problems or concerns. See  http://www.gnu.org/copyleft/. Each version of the License is given a distinguishing version number. If  the Document specifies that a particular numbered version of this License “or any later version.applies to it, you have the option of following the terms and conditions either of that specified version or of any later version that has been published (not as a draft) by the Free Software Foundation. If the Document does not specify a version number of this License, you may choose any version ever published (not as a draft) by the Free Software Foundation.

 

XXVII ADDENDUM: How to use this License for your documents To use this License in a document you have written, include a copy of  the License in the document and put the following copyright and license notices  just after the title page: Copyright   c YEAR YOUR NAME. Permission is granted to copy, distribute and/or modify this document under the terms of the



GNU Free Documentation License, Version 1.2 or any later version published by the Free Software Foundation; with no Invariant Sections, no Front-Cover Texts, and no Back-Cover Texts. A copy of the license is included in the section entitled “GNU Free Documentation License”. If you have Invariant Sections, Front-Cover Texts and Back-Cover Texts, replace the “with...Texts.”line with this: with the Invariant Sections being LIST THEIR TITLES, with the Front ront-Cov -Cover er Texts being LIST, and with the Back Back-Cov -Cover er Texts Texts being LIST. If you have Invariant Sections without Cover Texts, or some other combination of the three, merge those two alternatives to suit the situation. If your document contains nontrivial examples of program code, we recommend releasing these examples in parallel under your choice of free software license, such as the GNU General Public License, to permit their use in free software.

 

XXVIII

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´  adiz adiz http://knuth.uca.es/ebrcmdr

Cap Ca p´ıt ıtul ulo o 1 Comenzando con R

1.

Inttrod In odu uccion on ´

El que un libro que pretende incidir sobre los aspectos pr´ acticos de acticos la Estad´ E stad´ıstica, ısti ca, comi comience ence con un cap ca p´ıtu ıtulo lo dedi d edicado cado al softwar s oftware, e, no n o debe de berr´ıa sorprender, aun cuando en el Pr´ologo ologo se haya dejado claro que no es un objetivo fundamental ense˜ nar a manejar un programa inform´atico. nar atico. De hecho, este manual seguir´ seguir´ıa teniendo utilidad aun cuando se usara u sara otra interfaz gr´afica afica distinta a la que se propone o, incluso, otro software; bastar´ıa ıa en ese caso cas o con acomo acomodar dar los lo s men´ men us u ´s y/o la sintaxis. No obstante, el que existan varias soluciones inform´aticas, aticas, no quiere decir que optar por una de ellas no tenga un int inter´ er´ es deter es determinan minante te y, por tant tanto, o, deben emplearse para su elecci´on on criterios objetivos de eficiencia, no solo de car´ acter estad´ıstico, acter ıstico, sino que atienda a tiendan n tambi´en en a su s u facilidad fa cilidad de uso. Para la elecci´ on de R se han evaluado pues distintos aspectos, sienon do especialmente especialmente destacables destacables sus bondades b ondades en lo que se refier refieree a calida calidad, d, a la cantidad de t´ ecnicas y funciones implementadas, a que es libre y a ecnicas la gran comunidad cient´ cient´ıfica que lo usa como est´ andar para el an´alisis andar alisis de datos. Dicha comunidad ha desarrollado y desarrolla herramientas integradas en paquetes–en la actualidad m´as as de 800–, que dan soluci´on on

a una gran varie variedad dad de problemas estad estadısticos. ısticos.

 

2   Cap´ıtulo ıtulo 1. 1 . Comenzando Comenz ando con R  on y un entorno para an´alisis alisis esR  es un lenguaje de programaci´on tad´ıstico ısti co y la reali r ealizaci zaci´on ´on de gr´aficos. aficos. Debido a su naturaleza es f´acilmente acilmente adaptable a una gran variedad de tareas. Fue inicialmente escrito por Robert Gentleman y Ross Ihaka del  Departame  Departamento nto de Estad´ıstica   ıstica   de la Universidad de Auckland  en  en Nueva Zelanda. R actualmente es el resultado de un esfuerzo de colaboraci´on on de personas del todo el mundo. Desde mediados de 1997 se form´o lo que se conoce como n´ ucleo de desarrollo de ucleo actualment mentee es el que tiene la posibil p osibilidad idad de modificac mo dificaci´ i´ on directa on R, que actual del c´odigo odigo fuente. Por otra parte,   R  es un proyecto GNU similar a S, desarrollado desarrol lado ´este este por los los Laboratorios  Laboratorios Bell . Las diferencias entre   R   y S son impo i mportantes, rtantes, per peroo la mayor mayor´´ıa del c´odigo odigo escrito para S corre bajo  R sin modificaciones.

R  abarca una amplia gama de t´ ecnicas estad´ısticas ecnicas ısticas que van desde desd e los modelos lineales a las m´as as mod modernas ernas t´ecnicas ecnicas de clasifica clasificaci´ ci´on on pasando por los test cl´asicos asicos y el an´alisis alisis de series temporales. Proporciona una amplia gama de gr´aficos aficos que adem´as a s son f´acilmente acilmente adaptables y extensibles. La calidad de los gr´aficos aficos producidos y la posibilidad de incluir en ellos s´ımbolo ımboloss y f´ f ormulas ´ormulas matem´aticas, aticas, posibilitan su inclusi´on on en publicaciones que suelen requerir gr´aficos aficos de alta calidad. El c´ odigo de  R  est´a disponible como software libre bajo las condiodigo ciones de la licencia GNU-GPL. Adem´as as est´a disponible precompilado para una multitud de plataformas. La p´agina agina principal del proyecto es http://www.r-project.org. Una diferencia importante entre   R, y ta tambi mbi´´en en   S, con el resto del software estad´ıstico ıstico es el uso del  objeto como entidad b´asica. asica. Cualquier expresi´ on evaluada por  R  tiene como resultado un objeto. Cada objeto on pertenece a una clase, de forma que las funciones pueden tener comportamientos diferentes en funci´on on de la clase a la que pertenece su objeto

argumento. Por ejemplo, el resultado de la funcion funcion  print  evaluada so bre un vector da como resultado la impresi´on on de todos los elementos del vector mientras que la misma funci´on on evaluada sobre una funci´on on muestra informaci´on on sobre ella. De la misma manera, la funci´on on   plot no se comporta igual cuando su argumento es un vector que cuando es un fichero de datos o una funci´on. on.

 

1.2 Instalaci´on on de R y R–Commander    3 A continuaci´on on se dan unas breves instrucciones que permitir´an an comenzar a usar   R   y su interfaz gr´afica afica  R-Commander, que se denotar´a abreviadamente como   Rcmdr. Instrucciones m´as as detalladas y actualizadas pueden encontrarse en   http://knuth.uca. http://knuth.uca.es/R es/R en la secWiki ki. Por ultimo, ci´ on   R Wi on u ´ltimo, existen multitud de documentos que ilustran sobre el manejo de  R , algunos de ellos pueden descargarse desde  http: on  Documentaci´ on //knuth.uca.es/R  en la secci´ on. Los autores de este on manual han redactado un somero documento t´ecnico ecnico sobre el uso de  R , a cuyo repositorio puede accederse en la direcci´on on  http://knuth.uca. es/R-basico.

2.

Instalacion on de R y R–Commander ´

2.1. 2. 1.

Inst In stal alac aci´ i´ on en GNU/Linux on Para la instalaci´on, on, distribuciones derivadas de debian (Ubuntu,

Guadalinex, Guadal inex,..et . . ),insta en una se intr introduce en unamdr solar-cra l´ınea:n-rodbc sudo apt-g apt-get install llconsola r-base-ht r-ba se-html mloduce r-cran-rc r-cr an-rcmdr r-cran-ro dbc r-doc-html r-recommended

Otra opci´on on es utilizar el gestor de paquetes de la propia distribuci´ on e instalar los paquetes r-base-html, r-cran-rcmdr, r-cran-rodbc, on r-doc-html y  r-recommended.

2.2. 2. 2.

Inst In stal alac aci´ i´ on en Windows on

La descarga de  R  en el equipo se efectua desde: http://cran.es.r-project.org http://cran.es.r -project.org/bin/windo /bin/windows/base/rel ws/base/release.htm ease.htm

Luego se procede con la ejecuci´on, on, siguiendo las instrucciones. Para la instalaci´on o n de   Rcmdr, se arranca   R   desde   Inicio Tod Todos os los on,   Paquetes Instalar Paquete(s)   y on, programas   R. A continuaci´ elegido el mirror desde el cual se quiere instalar el paquete, por ejemplo Spain (Madrid), (Madrid), se selecciona  Rcmdr.







 

ıtulo 1. 1 . Comenzando Comenz ando con R  4   Cap´ıtulo R–Nota 1.1   Rcmdr , pero  Har´ an falta m´as an as paquetes para la instalaci´on on completa de  Rcmdr  se instalar´an an autom´aticamente aticamente la primera vez que se ejecute.

3.

Ejecucion on de Rcmdr ´

En am ambos bos sis sistem temas as oper operati ativo vos, s, la car carga ga de la lib librer rer´´ıa se efe efecctuar´a mediante la instrucci´on on  library("Rcmdr").

R–Nota 1.2 

Si se cierra  Rcmdr  (sin cerrar R ), ), para volver a cargarlo se debe ejecutar  la instrucci´on on  Commander().

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´ adiz adiz  http://knuth.uca.es/ebrcmdr

Ca Cap p´ıt ıtul ulo o 2 An´ alisis Explorato alisis Exploratorio rio de Datos Unidimensional

En este m´odulo, odulo , a trav´ t rav´ es de es d e una serie de d e medidas, medi das, gr´ g r´aficos aficos y modelos descriptivos, se caracterizar´a a un conjunto de individuos, intentando descubrir descu brir regularidades regularidades y singul singularida aridades des de los mismos y, y, si procede procede,, comparar los resultados con los de otros grupos, patrones o con estudios previos. Se po podr dr´´ıa considerar que este estudio es una primera entrega de un estudio m´as as completo o, por contra, tener un car´acter acter finalista; en cualquier caso, se trata de un an´alisis alisis calificable como de exploratorio de  exploratorio,, y de ah´ı el nomb nombre re del cap´ıtulo. ıtu lo. Las conclusiones obtenidas ser´an an aplicables exclusivamente a los individuos indivi duos consi considerado deradoss expl expl´´ıcita ıcitamen mente te en el estudi estudio, o, sin que puedan hacerse extrapolaciones extrap olaciones con valide validezz cient cient´´ıfica fuera de ese contexto. Los result res ultado adoss del An´ alisis Exploratorio de Datos (AED) s´ı que po alisis podr dr´´ıan emplearse emple arse para establ establecer ecer hip´ otesis sobre individuos no consi otesis considerado deradoss expl´´ıcitamente en dicho an´alisis, expl alisis, que deber deber´´ıan ser posteriormente contrastadas. Formalme ormalmente, nte, se po podr dr´´ıa definir el AED como un conjunto c onjunto de t´ecniecnicas estad estad´´ısticas cuya finalidad es conseguir un entendimien entendimiento to b´asico asico de los datos y de las relaciones existentes entre las variables analizadas; aunque esta primera entrega se centrar´a en un an´alisis alisis de tipo unidimensional.

 

6   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratori atorioo de Datos Unidimensional  Unidimensional 

1.

La organ aniizacion on de la informaci´ ´ on on

Al conjun conjunto to de indivi individuos duos f´ısic ısicos os consi considerado deradoss en un an´ alisis se alisis le denominar´a  Colectivo  Colectivo   o  Poblaci´  on , aunqu aunquee tambi´en en se utiliza utilizar´ r´an an esos mismos t´erminos erminos para referirs referirsee a la(s) caracter´ıstica(s) ıstica(s ) de esos e sos individu in dividuos os que son objeto de estudio. De hecho, desde un punto de vista estad´ estad´ıstico, los individuos s´olo olo interesan como portadores de rasgos que son susceptibles de marcar diferencias entre ellos. La obtenci´on on y materializaci´on on en formato anal´ogico ogico o digital de las caracter caracter´´ısticas consideradas constituir´ a el conjunto de datos que ser´a estad´ısticamente ısticame nte analiz analizado. ado.

Los datos const constituy ituyen en pues la mater materia ia prima de la Estad Estad´´ıstic ıstica, a, pudi´endose endose establecer distintas clasificaciones en funci´on o n de la forma en que ´estos estos vengan dados. Se obtienen datos al realizar cualquier tipo tip o de prueba, experimento, valoraci´on, on, medici´on, on, observaci´on, o n, . . . , depe depenndiendo de la natura naturaleza leza de los mismo mismoss y del m´ etodo emple etodo empleado ado para su obtenci´ on. Una vez obtenidos los datos por los procedimientos que se on. consideren pertinentes, pueden generarse nuevos datos mediante transformaci´ on y/o combinaci´on on on de las variables originales. Al conjunto de datos convenientemente organizados se le llamar´a  modelo de datos .

1.1. 1. 1.

La ma matr triz iz de da dato toss

En una prime primera ra instancia se supondr´ a que, sobre un conjun conjunto to de n de  n individuos f´ısicos, se obtienen una serie de de k  k  caracteres u observaciones de o distinta Es importante en cuenta, ya desde esteigual momento, quenaturaleza. la calidad del an´alisis alisis quetener se realice, va a depender de la habilidad que se tenga a la hora de seleccionar los caracteres que se obtendr´an an del conjun conjunto to de indivi individuos duos sele seleccio ccionados. nados. Los datos obtenidos se organizar´an an en una matriz   n k, donde cada fila representa a un individuo o registro y las columnas a las caracter´´ısticas observadas. Las columnas tendr´an racter an natura naturaleza leza homog´enea, enea, pudiendo tratarse de caracteres nominales, dicot´omicos omicos o polit´omicos, omicos, presencias–ausencias, ordenaciones, conteos, escalas de intervalo, razones,. . . ; tambi´en en se podr´ p odr´ıan ıan tener variables compuestas comp uestas como com o ratios, densida si dade des, s,.. . . En ocasio ocasione ness se a˜nade nade una columna que se suele colocar en

×

 

2.1 La organizaci´on on de la informaci´on on   7 primer lugar y que asigna un nombre a cada individuo; dicha columna recibe el nombre de variable de  variable etiqueta . F´ısicamente, la estructura truct ura de una matriz de

datos se corresponde con el es esqu quem emaa de una base de datos o una hoja de c´ alculo. Al igual que pasa alculo. con los editores de los programass de tratamiento grama tratamiento de datos, las dos dimensiones de una pantalla se acomodan perfectamente al tanden individuo–variable. Si se con consid sidera eran n los indi indivividuos identificados por los t´ erminos   I 1 , I 2 , . . . , In    y los caracteres por erminos C 1 , C 2 , . . . , Ck  , la casilla x casilla  x ij  representa el comportamiento del individuo acter C  j j . En la figura se muestra la matriz de datos del I i  respecto al car´acter C  fichero  Iris  del paquete  datasets  de  R . como   data.frame . R  se refiere a este tipo de estructura de datos como  Este es el formato que requiere el programa para aplicar la mayor´ mayor´ıa de los pro procedimiento cedimientoss estad´ısticos. ısticos.

1.1.1. Anomal´ Anomal´ıas de la matriz de datos Hay veces en que por distintos motivos la matriz de datos presenta casillas vac´ vac´ıas, ello se debe a que no n o se ha po podido dido medir un dato o a que se ha perdido la observaci´on. on. En otras ocasiones un dato presente en la matriz ha sido depurado sido  depurado por  por presentar alg´ un tip un tipoo de d e anomal´ıa, ıa, como haber sido mal medido, mal transcrito a la matriz de datos, pertenecer a un colectivo distinto del que se est´a ana analiz lizando ando,, etc etc.. . . La identifi identificac caci´ i´ on on de estos elementos an´omalos omalos se realiza mediante un proceso de detecci´on on de inconsistencias o de evaluaci´on on de valores extremos, muy grandes o muy peque˜ nos, que determinar´a si razonablemente pueden pertenecer nos, al colectivo bajo estudio. A veces se sustituye el valor depurado de un

 

8   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratori atorioo de Datos Unidimensional  Unidimensional 

individuo por uno que sea congruente con el resto de caracteres del mismo, mediante t´ecnicas ecnicas que se conocen como de de imputaci´   imputaci´  on . Los huecos que definitivamente queden en la matriz se referir´an an como valores como  valores omitidos  o,   o, m´as as comunmente, como  como   valores missing . En   R   estos valores se representan con   NA  (Not Available). En funci´ on del tipo de an´alisis on alisis que se est´ e realizando, el procedimiento desestimar´ a s´olo o lo el dato o todo el registro completo. En este m´ odulo se analizar´an odulo an –salvo excepciones que se indicar´an an con antelaci´on– on– de forma independiente cada uno de los caracteres de la matriz de datos, de forma que cada car´acter acter describir´a parcialmente al conjunto de individuos. La integraci´on on de todos los an´alisis alisis deber´a dar una cierta visi´on on general de la p oblac oblaci´ i´ on. En cualquier caso, este enfoque on. est´a muy lejos de ser eficiente, entre otras cosas porque habitualmente las variables individuales comparten informaci´on on y dicha redundancia distorsionar´´ıa las conclusiones del estudio, siendo en general preferible distorsionar decantarse por un an´alisis alisis global en vez del secuencial. Por tanto, la pretensi´ on de este cap on cap´´ıtulo es tratar algunos conceptos b´asicos asicos y adquirir destreza en el manejo man ejo de medidas estad estad´´ısticas que ser´an an empleadas masivamente cuando se aborden, m´as as adelante, modelos m´as as sofisticados.

2.

Natura Nat uralez leza a de de los los ca carac racter teres: es: Atri tribut butos os y Vari Variabl ables es

Respecto a la   cantida cantidad d de inform informaci´  aci´  on    que porta cada tipo de on  car´ acter, se puede considerar que los caracteres nominales son los m´as acter, as “pobres”, puesto que ni siquiera poseen orden, mientras que los m´as ricoss ser rico ser´´ıan las esca escalas las de inte interv rvalos alos y las razon razones, es, que tiene tienen n orden, son cuantitativ cuantitativas as y en el caso de las razones el cero lo es en t´ erminos erminos absolutos, absol utos, es decir decir,, el 0 repre represen senta ta la ausenc ausencia ia de la carac caracter ter´´ıstic ıstica. a. En posiciones posicio nes int intermed ermedias ias se situa situarr´ıan el resto en el orden en que se han introducido en la figura 2.1.

Ejemplo 2.1

El caso m´as as evidente para apreciar las diferencias entre las escalas de  intervalo y las razones escalas de cociente, el term´ ometro. ometro. Un term´ometro ometro genera ouna variable de escalalodeofrece intervalo, porque la 

 

2.2 Naturaleza de los caracteres: Atributos y Variables    9

Figura 2.1: Esquema de cantidad de informaci´on on

diferencia real entre 2 y 3 grados es la misma que entre 40 y 41 grados,  pero no se puede decir que cuando el term´ometro ometro marca 30 grados hace  el doble de calor que cuando marca 15. Por otra parte, muchas magnitudes magn itudes f´ısicas, ısicas, como el p eso, la longitud o la intensidad de corriente, son razones porque, por ejemplo en el  caso del peso, un objeto de 20 kilogramos pesa el doble que otro de 10  kilogramos. Es decir existe el cero absoluto.

Como ya se ha comentado, la naturaleza del car´acter acter condic condicioionar´a su tratamiento, aunque en ning´ un caso hay que confundir la cantiun dad de informaci´on on que porta p orta con su valor intr intr´´ınseco para analizar a los individuos del colectivo. En una primera instancia, se distinguir´a entre los caracteres que no est´an an ordenad ordenados os y los que s´ı lo est´an, an, los primeros jugar´an an en general un rol de   atributos  mientras   mientras que los segundos habitualmente actuar´an an como   variables . Los atributos tendr´an a n la misi´on on de est establ ablece ecerr cla clases ses,, dividiendo el colectiv colectivoo global en subgrupos subgrup os o categor categor´´ıas; por su parte, las variables vari ables caracterizar´ an a dic an dichos hos subgrupos e int intent entar´ ar´ an establecer difean rencias entre unos y otros, para lo que necesariamente se debe considerar algun tipo de m´ etrica. Per etrica. Peroo ello es una regla general que tiene muchas muchas excepciones y as as´´ı, en ocasiones, un car´ acter llamado a adoptar el papel acter de variable podr p odr´´ıa, mediante una operaci´on o n de   punto de corte , actuar como atributo, mientras que es factible definir una medida de asociaci´on on sobre caracteres intr´´ınsecamente intr clase qude que e permita patributos. ermita caracterizar a los individuos del colectivo en base ade una serie

 

10   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional  Ejemplo 2.2 

Es habitual que la edad, que es intr intr´´ınsecamente una variabl variablee –medida  en un soporte temporal– se emplee para dividir la poblaci´on on en clases  dando cortes en el interv intervalo alo de tiempo, tiemp o, obteni´ ob teni´ endose por ejemplo grup os  endose de alevines, adultos y maduros de una comunidad de peces y adoptando   por tanto la variable un u n rol de atributo. En el extremo ex tremo opuesto opuesto,, hay investigaciones investigaci ones m´edicas edicas que relacionan relaci onan el tipo de pat patolo ologg´ıa con el sex sexoo del pacient pacientee y con el des desenl enlace ace de la  enfermedad, caracteres todos ellos intr intr´´ınsecamente atributos.

Las variables pueden clasificarse seg´ un su conjunto soporte. El soun porte de una variable es el conjunto de todos los posibles valores que toma. Cuando el conjunto soporte es finito o numerable se habla de variable discreta. Por el contrario, cuando el conjunto soporte es no numerable, se habla de variable continua. Si la variable continua no toma valores en puntos aislados se dice absolutamente continua. Esta diferencia tendr´a relevancia cuando se planteen, m´as as adelante, estructuras de probabilidad para modelizar la poblaci´on on bajo estudio.

Ejemplo 2.3 

El n´ umero de lunares en la piel de pacientes aquejados de una cierta  umero  patolog´´ıa, el n´umero  patolog u mero de hijos de las familias de una comunidad o el  n´umero umero de meteoritos que surcan una cierta regi´on on estelar en periodos de  tiempo determinados determinados son variabl ariables es discr discretas. etas. La distan distancia cia por carre carretera  tera  entre en tre las cap capita itales les de pro provin vincia cia penin peninsul sulare aress esp espa˜  a˜  nolas, el tiempo de  reacci´ on de los corredores de una carrera de 100 metros o las longitudes  on de los cabellos de una persona son variables continuas.

Una vez identificadas, identificadas, reco recolecta lectadas das y organi organizadas zadas,, las variabl ariables es ser´an an tratad tratadas as estad estad´´ıstic ısticamen amente te com combinando binando un an´ alisis num´erico, alisis erico, a trav´ es de una serie de medida es medidass estad´ısticas, ısticas, con representaci representaciones ones gr´aficas. aficas. El sof software tware esta estad d´ısti ıstico co   R  ofrece una amplia gama de ambos elementos: num´ericos eric os y gr´aficos, aficos, aunque conviene ser selectivos y tomar aquellos

 

2.3 An´alisis alisis de atrib atributos  utos    11

Figura 2.2: Ventana de selecci´on on de datos en paquetes adjuntos que verdaderamente aportan informaci´on on rele relev vant ante. e. A tal efect efecto, o, se proponen las siguientes opciones: Esca cala la de

Med edid ida as

Med edid idas as de

Rep epr res esen ent tacio ione nes s

Med edid ida a

cen ent trale les s

disp di sper ersi si´ on ´

graficas aficas ´

 

Atributo

Moda

Diagrama Diag rama de secto sectores res

Porcentajes   Mediana

Ordenaci´ on on

Recorrido

Diagrama de barras

Percentiles

Intercu Inte rcuart´ art´ılico ıli co

Recu Re cuen ento to

Medi Me dia a

Desv De svia iaci ci´ ´ o n t´ıp on ıpic ica a

Diag Di agra rama mass de ba barra rrass

Intervalo

Media

Desv De svia iaci ci´ ´ on t´ on ıp ica ıpic a

 

Raz´ on on

 

 

Media

Coeficiente

geom ge om´ ´ et rica etri ca

de variaci´ on on

Histograma Histograma

Diagrama Diagr ama de dispers dispersi´ i´ on on Diagrama de cajas

Tabla 2.1: Medidas y gr´aficos aficos seg´ un tipo de variable un

En ultima u ´ltima instancia corresponde al investigador el tomar las decisiones correctas en cada momento, de forma que sin transgredir los principios b´asicos, asicos, den como resultado un an´alisis alisis eficiente de los datos.

3.

Analisis alisis de atributos ´

Los atr atribu ibutos tos son sus susce cepti ptible bless de ser tra tratad tados os de form formaa ind indivi ivi-dual o en grupo, para obtener los porcentajes de cada subgrupo en el colectivo global. De hecho, cada car´acter acter o conjunto de ellos establece una partici´on on o cat´alogo alogo de la poblaci´on on bajo estudio. Por otra parte, el

 

12   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional  Species

setosa

versicolor

virginica

Figura 2.3: Diagrama de sectores del fichero  iris tratamiento gr´afico afico m´as as usual que se le dar dar´´ıa a un atrib atributo uto indivi individual dual serr´ıa a tr se trav´ av´es es de un  diagrama de sectores  o  o  diagrama de tarta . Ejemplo 2.4

Se consideran ahora los datos del ejemplo  iris  del paquete  datasets de   R   que que se de desc scri ribe be en el ap ap´´endi e ndice ce A. Se carg cargaa el fic fiche hero ro en mediante te la sel selec ecci´ ci´ o n de la on lass op opci cion onees de dell me men´ n´ u   Datos Rcmdr   median Datos Dat os en paq paquet uetes es Leer datos desd desde e paqu paquete ete adjun adjunto... to..., en el  cuadro de di´alogo alogo se elige el paquete  datasets   datasets y dentro de ´este este el juego  de datos  iris   iris,figura 2.2. Del conjunto de variables de la matriz se considera la denominada  Species   Species, que es un atributo con los tres tipos de  flores de Iris:   Setos Setosa, a, Virgi Virginica nica y Versi Versicolor  color .





sele lecc ccio iona  na    Estad´ num´ erico:   Se se erico: ısticos Res´ ısticos umenes umenes alogo se elige  alogo Distribuc Dist ribucione iones s de frecu frecuencia encias... s... y en el cuadro de di´ el unico u ´ nico atrib atributo, uto,  Species. Se observa que los 150 individuos se reparten a partes iguales entre las tres variedades de flores, 50 flores,  50 para  para cada una,  y que por tanto los  los    porcentajes   son iguales a   a   33 33,, 33 33.. No tiene sentido  hablar de moda, puesto que las tres clases lo son.

An´ alisis alisis

>   .Table     .Table .Table # cou counts nts for Species Species setosa versicolor virginica





50 50 50 >   100*.Table/ 100*.Table/sum(. sum(.Table Table) ) # perce percentage ntages s for Specie Species s setosa versicolor virginica 33.33333 33.33333 33.33333

 

2.4 An´alisis alisis de variables ordenadas    13 continuaci´ uaci´ on se selecciona el diagrama de sectores  on An´ alisis gr´ alisis afico:   A contin afico: mediante   Gr´ aficas Gr´ aficas afica de secto afica sectores. res... .. Si el fichero de datos activo tiene m´as as de una variable de clase  se permite seleccionar la que se quiera. En este caso, la ´unica unica variable 



  Species  Species elegible , quedibuja el programa da por defecto. Si se se pulsa el bot´en on on   el programa el gr´afico afico de sectores que muestra Aceptar es 

la figura 2.3. Como era de esperar, la tarta se divide en tres trozos  exactamente iguales.

4.

Analisis alisis de variables ordenadas ´

Las diferencias que se establecen entre variables de clase pura y ordenada se concretan desde el punto de vista del an´alisis alis is num´erico eric o en que el grupo de medidas recomendables son las de posici´on, on, es decir los cuantiles en sus distintas versiones. Como medidas de representaci´on, on, pensando que en general se dispondr´a de pocas clases, se recurrir´a a los cuartiles y como medida de dispersi´on on al recorrido intercuart intercuart´´ılico. En cuanto al an´alisis alisis gr´afico, afico, se recomienda el uso del diagrama de barras. Este tipo de variables ordenadas suele venir dada en forma de tabla de frecuencias. Por ello, en el ejemplo que ilustra el tratamiento de este tipo de variables, se comenzar´a explicando como transformar una tabla de frecuencias en una matriz de datos, al objeto de que puedan ser tratadas por  R  como un  data.frame.

Ejemplo 2.5 

Un caso de variable ordenada es la correspondiente a un estudio estad´´ıstico sobre el nivel acad´ tad emico de la poblaci´on emico o n gaditana en el a˜  no  2001 (F (Fuente: uente: Instit Instituto uto Estad´ıstico ıstico de Andal Andaluc uc´´ıa). Los valores que toma la variable son:   Sin estud estudios ios, Elementales (primaria),   Medios   (sec (secun undar daria ia,, bac bachi hill ller erat atoo y fp gr grad adoo me medi dio) o) y  Superiores (fp superior, diplomatura, licenciatura y doctorado).

 

ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional  14   Cap´ıtulo Los datos se recogen en la tabla: NIVEL DE ESTUDIOS  SEXO   Si Sin n es estu tudi dios os

Hombre

79309

Elem El emen enta tale less

Medi Me dios os

Superi Supe rior ores  es 

107156

183488

70594

Mujer 108051 109591 174961 64858   Debido al gran n´umero umero de individuos que forman esta muestra   puede ser util u ´ til almacenar la variable estudiada a partir de su tabla de  frecuencias, transform´andola andola en base de datos en el momento de realizar  los an´alisis. alisis. El fichero en cuesti´on o n se ha guardado bajo el nombre de  variables: s:  sexo, nivel tabla freq niv estudios.dat, conteniendo tres variable  y  frec   frec. En total consta de 8 filas que se correponden con los cruces de  las clases sexo y nivel. Par araa car arga garr en   Rcmdr   la la tabla de fre frecue cuenci ncias as se sel selecc eccion iona  a   Datos Import Imp ortar ar dat datos os des desde de arc archiv hivo o de



texto text o o porta portapapel papeles.. es... ., en este ejem plo se ha elegido el nombre  Tabla   Tabla frec para denominar al fichero que contendr´a los  dato da toss de la ta tabl blaa de fr freecu cueenc ncia iass, como se mue uest stra ra en la ven enta tana na de di di´alo´alogo.. A co go cont ntin inuac uaci´ i´ o n se eli on lige ge el ar arcchi hiv vo  tabla freq niv estudios.dat. Ahora se tendr´a que transformar es-

ta tabla de frecuencias en un conjunto de datos,  data.frame, con el que  R pueda trabajar. Para conseguir esto se procede de la siguiente manera: >nivelsexoniv estudios cadiz< data.frame(nivel,sexo)

 −

Es decir decir,, se crean las variables  variables  nivel   nivel  y  sexo  a partir de la repetici´ on de cada una de las clases de las respectivas variables, tantas veces  on como indique in dique su frecuencia. A partir de ah ah´´ı, se construye el  data.frame  data.frame  con las dos variables creadas. niv estudios cadiz  con Este  data.frame   data.frame  se encuentra entre los datos que se facilitan en este libro y se puede cargar directamente sin realizar las operaciones  anteriores. Para ello, basta con seleccionar  Datos Impor Importar tar datos desde des de arc archiv hivo o de tex texto to o por portap tapape apeles les... ..., eligiendo ahora el ar-





 

2.4 An´alisis alisis de variables ordenadas    15 chivo   niv estudios cadiz.dat.

variables de tipo ordenado es aconsejable utiAn´ alisis alis is num num´ ´ er ico: eric o:   En variables lizar, como medida de posici´on, on, los cuartiles. Para reali reali-zar este an´alisis  alisis  la variabl ariable  e   nivdeb e ser   el   de cod odiific ficad adaa num´eric er icam amen ente te.. Se cre rear ar´´a una   nue uev va var aria iabl ble  e  en la base de   datos, que se llamar´a  a   nivel num  y que representar´ a lo loss val alor ores  es 

numericos de la  numericos variable    nivel. Lo Loss val alor ores  es  Sin estu estudios dios, Elementales,  Medios   y  Superiores   Superiores  han sido codificados mediante los  valores 0, 1, 2 y 3, respectivamente. En   Rcmdr   esto se realizar´a seleccionando   Datos Mod Modifi ificar car var variab iables les de los dat datos os act activo ivos s Recodificar variables...   , de desm smar arca cand ndoo la pes pesta˜  ta˜  na    Convertir  cada cad a nue nueva va var variab iable le en fac factor  tor .   nivel num se selecPara realizar el an´alisis ali sis num´ nu m´erico eric o de la variabl vari able  e  nivel ciona:  Estad´ eligienenısticos Res´ ısticos umenes Res´ umenes umenes num´ umenes ericos..., eligi ericos... do en la ventana emergente la variable  nivel on on   nivel num  y marcando la opci´ de  cuantiles   cuantiles. Se puede observar entre los cuartiles que la mediana recae  sobre el valor 2.









>   numSummary(Niv estudios[,‘‘niv num’’], statistics=c(‘‘quantiles’’)) 0% 25 % 50 % 75 % 100 % 0 1 2 2 3

 

16   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional  Desde   Rcmdr    existe existe otr otra  a  forma de realizar el analisis  ´alisis  num´erico erico de una variable ordena ordena-da. Para ello, se reordenan na n lo loss ni niv vele less de la var ariiab ablle  factor usando las opc pciiones  del menu ´   Datos Modificar



var ari iab abl les del con onj jun unt to de datos dato s acti activo vo Reordenar almace ace-niveles nive les de facto factor... r..., alm nando nan do la vari ariabl able  e   nivel   como como fac facto torr de ti tipo po or orde dena nado. do. A la nu nuev eva  a  variable se le ha llamado  nivel   nivel ord. A contin continuaci´ uaci´ on se alma on a lmacena cena ´esta esta co-



mo variable de tipo t ipo erico, escribi´endo erico, endo enord) la ventana ventan a de d e instruccio in strucciones: nes: Datos$nivel numnum´ Q1Q2Q3 >RIR RIR   numSummary(chickwts[,‘‘weight’’], numSummary(chickwts[,‘‘weight’’], statistics=c(‘‘mean’’, ‘‘sd’’))  mean sd n 261.3099 261.3 099 78.07 78.0737 37 71

Aunque se est´a hablando de la desviaci´on on t´ıpica, la funci´on on   sd calcula en realidad la cuasidesviaci´on on t´ıpica. Cabe la posibilidad de que 

 

ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional  18   Cap´ıtulo se necesiten otro tipo de medidas que completen el estudio, como la  simetrr´ıa, el apun simet apuntamie tamiento nto,, . . . Para ello, en el ap´ endice B, se incluy endice incluye  e 

una tabla de medida medidass estad estadıstic ısticas. as. Por ejemplo, si se desea deseara ra calcu calcular  lar  la simetr simetr´´ıa y la curtosis de la varia variable  ble  weight, habr´ıa ıa en primer lugar  que instalar y cargar en   R , si no lo est´a ya, el paquete  fBasics   fBasics. Y a  continuaci´on: on: >   kurtosis(chickwts$weight) -0.9651994 attr(,‘‘method’’) ‘‘excess’’ >   skewness(chickwts$weight) -0.01136593 attr(,‘‘method’’) ‘‘moment’’

Ambos coeficientes est´an an calculados a partir de los momentos y, en el caso de la curto curtosis, sis, se le ha resta restado do 3. Se podr p odr´´ıa concluir que la  distribuci´ on es bastante sim´ on etrica y algo aplastada. etrica Paraa analizar  analizar  An´ alisis gr´ alisis afico:   Par afico: gr´ a ficamen aficam ente te la var aria iabl blee pes pesoo se     5 comi co mien enza za co con n la re real aliz izac aci´ i´ on del     1 hissto hi togr gram amaa que se mue uesstr traa al  margen mediante las instrucciones    y    0   c    1   e Gr´ aficas Histograma...   En el    n aficas   u   q   e   r histograma se observa un compor-    F    5 tamiento bastante sim´ etrico y la  etrico  posibilidad de que existan dos modas.    0 A continuaci´on, on, se construye  100 150 200 250 300 350 400 450 el diagrama de caja (figura 2.5). Se  chickwts$weight  puede observ observar ar en el gr´afico afico que la  variable no pose poseee valores at at´´ıpicos, es sim´etrica etrica y est´a relativamente dis persa. El  data.frame a utilizando incluye un factor,  Feed, que   data.frame que se est´ se corresponde con las diferentes dietas sumimistradas a los pollos. Ello   permite la realizaci´ o n de un an´alisis on alisis por grupo, tanto num´ erico como  erico gr´ afico, que permita evaluar las diferencias de peso en funci´on afico, on del ti-



  Feed  son:  po de alimentaci´ on seguida. Los valores que toma la variable  Feed on

 

2.5 An´alisis alisis de variables de escala    19    0    0    4

   0    0    4

   0    5    3

   0    5    3

   0    0    3

   0    0    3

   t    h   g    i   e   w    0    5    2

   t    h   g    i   e    0   w    5    2

   0    0    2

   0    0    2

   0    5    1

   0    5    1

   0    0    1

cas casein ein

   0    0    1

horsebea ebean n

lin linsee seed d

meatme meatmeal al

soybea soybean n

sunflo sunflower wer

feed

Figura 2.5: Diagramas de caja de la variable peso  (girahorsebean (habas),  linseed (linaza),  soybean  (soja),  sunflower  (girasoles),  meatmeal  (carne) y  casein  (ca case´ se´ına) ın a)..   casein  ( Es interesante la representaci´ on del diagrama de caja de la variable  on  peso, seg´ seg un u ´n el tipo de alimentaci´on on (figura 2.5). Se observa que los valores  de la variable peso est´an a n m´as as concentrados para la dieta   sunflower . Tambi´en en ´este est e es el unico u ´ nico grupo en el que se dan valore aloress at at´´ıpico ıpicos. s. Por  contra la mayor dispersi´on on de los datos se produce con la dieta  casein   casein. Una evaluaci´on on inicial, parece indicar que la dieta que produce pollos  de mayor peso es  sunflower    sunflower , ya que los pesos que consigue est´ a n m´as  an as  concentrados en torno a uno de los valores m´as as altos. El an´alisis alisis num´erico erico ofrece los siguientes si guientes resulta resultados: dos: >   numSummary(chickwts[,‘‘weight’’], numSummary(chickwts[,‘‘weight’’], groups=chickwts$feed, statistics=c(‘‘mean’’))

casein hors ho rseb ebee een n lind li nds see eed d  meatmeal  meatm eal soyb so ybe ean sunf su nflo lowe wer r

 

 mean 323.5833 160. 16 0.20 2000 00 218 21 8.7 .750 500 0 276.9091 276.9 091 246 24 6.4 .428 286 6 328. 32 8.91 9167 67

sd 64.43384 38.6 38 .625 2584 84 52.2 52 .235 357 70 64.90062 64.90 062 54.1 54 .129 290 07 48.8 48 .836 3638 38

n 12 10 12 11 14 12

20   Cap´ıtulo ıtu lo 2. An´ An alisis ´alisis Explor Exploratorio atorio de Datos Unidimensional  Unidimensional 

6.

Ejercicios

comenzar el curso se pas´ o una encuesta a los alumnos del 2.1   Al comenzar primer curso de un colegio, pregunt´andoles, andoles, entre otras cuestiones, por el n´umero umero de hermanos que ten ten´´ıan. Se obtuvieron ob tuvieron los siguientes resultados: 3, 3, 2, 2, 8, 5, 2, 4, 3, 1, 4, 5, 3, 3, 3, 3, 3, 2, 5 1, 3, 3, 2, 2, 4, 3, 3, 2, 2, 4, 4, 3, 6, 3, 3, 2, 2, 4 3, 4, 3, 2, 2, 4, 4, 3, 3, 4, 2, 5, 4, 1, 2, 8, 2 ,3, 3, 4 a)   Represente este conjunto de datos con un diagrama de barras.

b) Calcule media, moda y mediana. on de los datos. on c)  Estudie la dispersi´ simetr´´ıa de la distribuci´ on. on. d) Analice la simetr nos son: 2.2  Los pesos de un colectivo de ni˜nos 60, 56, 54, 48, 99, 65, 58, 55, 74, 52, 53, 58, 67, 62, 65 76, 85, 92, 66, 62, 73, 66, 59, 57, 54, 53, 58, 57, 55, 60 65, 65, 74, 55, 73, 97, 82, 80, 64, 70, 101, 72, 96, 73, 55 59, 67, 49, 90, 58, 63, 96, 100, 70, 53, 67, 60, 54

Obtenga: on la on dedistribuci´ frecuencias a) La La distribuci´ mediana de on.agrupando por intervalos. on. b) on, indicando su nivel de reprec) La media de la distribuci´on, sentatividad. on en intervalos, el porcentaje de d) Utilizando la agrupaci´on alumnos que tienen un peso menor de 65 kg y el n´ umero de alumnos con umero un peso mayor de 60 kg dentro del grupo de los que pesan menos de 80 kg.

2.3  En el Consejo de Apuestas del Estado se han ido anotando, durante una temporada, el n´umero umero de premiados de quinielas seg´un un la cantidad de aciertos. Los resultados se recogen en la siguiente tabla:

 

No de aciertos

11

12 12

13

14

15 15

No de pe perrsonas (miles)

52

820

572

215

41

2.6 Ejercicios    21 Calcule: a) La mediana, la moda y los cuartiles de la distribuci´on. on. ıa de la distrib distribuci´ uci´on. on. b) La simetr´ıa

2.4  En un puerto se controla diariamente la entrada de pesqueros seg´ un su tonelaje, resultando para un cierto d´ıa los siguientes datos: un Peso(Tm.) No de barcos

0-25

25-50

50-70

70-100

100-500

5

17

30

25

3

Se pide:

a)   El peso medio de los barcos que entran en el puerto diariamente, indicando la representatividad de dicha medida. inter terv valo dond dondee se enc encuen uentra tra el 60 % ce cent ntral ral de la b)   El in distribuci´ on. on. c)  El grado de apuntamiento. as frecuente en este puerto. as d) El tonelaje m´

 

22

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´ adiz adiz  http://knuth.uca.es/ebrcmdr

Ca Cap p´ıt ıtul ulo o 3 An´ alisis Explorat alisis Exploratorio orio de Datos multidimensional

Una vez estudiados los distintos caracteres de la matriz de datos de forma individual, resulta muy interesante realizar an´alisis alisis conjuntos de grupos gru pos de ellos, ello s, de hecho, la mayor mayor´´ıa de los an´alisis ali sis estad´ e stad´ısticos ısti cos tien t ienen en car´ acter multivariable. Los motivos para adoptar este enfoque son variaacter dos, aunque de nuevo la cuesti´on on de la naturaleza de los caracteres y los objetivos del estudio ser´an an determinantes a la hora de fijar las t´ ecnicas ecnicas que se emplear´an. an. Aunque en posteriores entregas se tratar´an an t´ecnicas ecn icas multi multivariab variables les muy poten p otentes, tes, los objetivo objetivoss en este cap cap´´ıtulo son muc mucho ho m´ as modestos as y se limitar´an an a un primer acercamiento de naturaleza descriptiva; emple´ andose par andose paraa ell elloo tan tanto to med medida idass de rel relaci aci´on ´on en entre tre car caract actere eress com comoo representaciones gr´aficas. aficas. En la may mayor or´´ıa de las ocasion ocasiones es s´ o lo se conolo templar´ an dos caracteres de forma conjunta, realiz´andose, an andose, por tanto, un an´alisis alisis bidimensional. En este cap´ıtulo ıtu lo tambi´en en se har har´ a´ una primera incursi´on on en el te-

ma de la modelizaci´on. on. Un modelo estad estad´´ıstico relaciona mediante una o varias expresiones matem´aticas aticas a un grupo de carac caracteres teres,, que ocasionalocasionalmente deben cumplir algunos requisitos. En este caso, se abordar´a un modelo de ajuste bidimensional , en el que se tratar´a de explicar el comportamiento de una variable   causa   causa   a partir de otra que se denomina

 

24   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  efecto.. efecto Siempre existe un cierto grado de tolerancia para asimilar caracteres de menor nivel de informaci´on on a los de nivel superior, aunque existe una marca que no se debe transgredir, que es la de la ordenaci´on. on . As´ı, podr po dr´´ıa justificarse justifi carse el tratar trat ar una variable variabl e contada como com o variable de escala, esca la, pero nunca se pod podrr´ıa asimilar un atributo a una variable ordenada.

1.

Tipos Ti pos de re rela laci cion ones es en entr tre e ca cara ract cter eres es

En principio prin cipio se podr´ p odr´ıan ıan establecer estab lecer tantos tip tipos os de relaci´on on como los que resultar´ r esultar´ıan ıan de cruzar c ruzar los diferentes caracteres definid definidos os en el cap ca p´ıtulo anterior. No obstante, el n´ umero de cruces ser umero ser´´ıa demasiado elev elevado ado y muchos de ellos no tendr´ıan ıan inter´es es pr´actico, actico, por lo que se limitar´a el estudio a aquellos que habitualmente se encuentran en la pr´actica, actica, que b´asicam asicamen ente te se cor corres responde ponden n con los que rel relaci acionan onan car caract actere eress de la misma naturaleza. Se expondr´an an previamente algunas matizaciones y precauciones que conviene tener presente.

En general funcionan mejor los cruces entre caracteres de la misma naturaleza. Ello se debe a que para realizar el an´ alisis se debe alisis especificar alg´ un tipo de disimilaridad  un de disimilaridad  que   que establezca la diferencia, en funci´on on de los caracteres considerados, que existe entre cada par de individuos de la matriz de datos. As´ı, ı, la disimilaridad entre dos d os individuos sobre los que se han medido dos variables de escala es habitua habitualmen lmente te la distan distancia cia eucl eucl´´ıdea, que como se sabe posee

buenas propiedades, mientras que si un caracter car acter es de clase y el otro una variable de escala la disimilaridad que se elija tendr´a, a, con toda seguridad, propiedades mucho m´as as d´ebil eb iles es.. Como consecuencia de lo anterior cuando se incluyan en el mismo an´alisis alisis caracteres de distinta naturaleza conviene, siempre que sea posible, asignarles roles distintos. La asignaci´on on de roles a variables de la misma naturaleza en ning´ un un caso se soportar´a por motivos estad´ısticos, ısticos, sino que depender´a exclusivamente del criterio del investigador.

 

3.2 An´alisis alisis de relaciones entre dos atributos    25 A, B A1 .. . Ai .. .

B1

   

  ···   B   ···   B n11   · · ·   n1   · · ·   n1  j

s

 j

..   . .   ..   . . . . . .   n i1   nij   ..   . .   ..   . . . . . .

  ···

Ar   nr1

n·1

  n1·   ..   .. . .   nis   ni·   ..   .. . . s

  ···

  ···   n   ···   n   · · ·   n·   · · ·   n· rj

rs

 j  j

s

  nr·   n

Tabla 3.1: Distribuciones conjuntas y marginales de (A, ( A, B ) La inv investigaci´ estigaci´ on combinatoria, es decir aquella que considera todos on los grupos posibles de variables, est´a fuertemente desaconsejada, aunque se trate, como es el caso, de un an´alisis alisis de car´acter acter exploratorio. La violaci´on on meramente de este principio puede llevar a aceptar como v´alidas alidas asociaciones esp´ureas. ureas.

2.

Analisis alisis de relaciones entre dos atributos ´

Para relacionar dos atributos, tanto dicotomicos dicotomicos como politomicos, politomicos, se construir´a la tabla de frecuencias conjunta o  tabla de doble entrada . As´´ı, si se consi As considera dera que el atribu atributo to   A   est´a conformado por las clases A1 , A2 , . . . , Ar  y el atributo B atributo  B  por las clases  clases   B1 , B2 , . . . , Bs , la informaci´ on a tratar quedar´ıa on ıa conformada por la tabla 3.1; donde d onde n  nij  representa la frecuencia absoluta del par (A ( Ai , B j ), es decir el n´ umero de indivi umero individuos duos que presentan de forma conjunta la clase A clase  Ai  de  de A  A y  y la B la  B j  d  dee B  B.. La ultima u ´ ltima columna y la ultima u ´ ltima fila de la tabla 3.1 representan las   distribuciones  marginales    de marginales  de A  A  y  B , respectivamente. Cuando se con Cuando consid sidera eran n dos atr atribut ibutos os dic dicot´ ot´ omicos se ten omicos tendr´ dr´ a una tabla 2 2, que en ocasiones necesitar´a un trata tratamien miento to difere diferenciado nciado.. Menci´ on aparte merece el caso en que uno o los dos atributos son del on tipo presencia-ausencia  tipo  presencia-ausencia  de   de una cualidad.

×

 

26   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  Ejemplo 3.1

Como caso pr´actico actico para analizar la relaci´on on entre atributos se ha elegido el archivo de datos  titanic.dat  titanic.dat, en el que aparecen las variables  Class  Class,  Sex ,  Age  y  Survived  Survived, que aportan informaci´ on, respect on, respectiv ivamen amente, te, sobre la clas clase  e  que ocupaba el pasajero, su sexo, edad y si  sobrevivi´ o o no al naufragio del famoso transatl´ antico. En concreto, se intentar´a establecer  antico. una posible asociaci´on on entre la supervivencia   y la clase en la que viajaban los pasajeros del  Titanic. En pr prim imer er lug lugar ar se co cons nstr trui uir´ r´ a la tablaa de do bl dobl blee en entr trada ada co con n la lass var aria iabl bles es se se-leccionadas lecc ionadas.. Con   Rcmdr   esto esto se co cons nsig igue ue de desd sde  e   Estad´ ısticos ısticos



→Tab Tabla la de dob doble le ent entrad rada.. a... ., con lo que 

Tablas Tabl as de conti contingen ngencia cia

se abre la ventana de di´alogo alogo mostrada arriba, en la que se seleccionan los correspondientes atributos fila  (Survived)  (Survived)  y columna  (Class)   (Class), adem´ as se eligen   Porcentajes as Porcentajes totales   y se deja marcada la opci´ on on Prueba Prue ba de indep independe endencia ncia chi-c chi-cuadra uadrado do. Los resultados son: Class, ,  −xtabs(∼Survived+Class

>   .Table   <

data=Datos data= Datos) )

>   .Table Class

Survived No Yes

1st 122 203

2nd 167 118

3rd 528 178

Crew 673 212

>   totPerce totPercents(. nts(. Table Table) ) # Perce Percentage ntage of Total

No Yes Total

1st 5.5 9.2 14.8 14

2nd 7.6 5.4 12.9

3rd 24.0 8.1 32.1

Crew 30.6 9.6 40.2

Total 67.7 32.3 100.0

>   .Test     .Test Pearson’s Pears on’s Chi-s Chi-square quared d test data: .Tabl .Table e X-squared= X-squ ared=190.4 190.4011 011 ,df=3, p-val p-value ue   <   2.2e-16

 

3.2 An´alisis alisis de relaciones entre dos atributos    27 R   adem´ as deelproporcionar as las tablas de valores absolutos y on  porcentajes sobre total, da informaci´ o n sobre on el grado de relaci´ ode  n 2 entre los atribu atributos, tos, a trav´ es del coeficiente  es co eficiente  χ  χ . De momento se considera  2 s´olo olo el valor del estad´ıstico   ıstico   χ = 190, 190,4. Este estad estad´´ıstico indica el grado  de relaci´on on entre la clase que ocupaba el pasajero y si sobrevivi´o o no al  naufragio; si   χ2 = 0   indicar´ıa ıa una ausenci ausenciaa de relaci´on on y a medida que  2 χ crece la relaci´on on va en aumento. El estad´ıstico ıstico no est´a acotado en un rango de valores que permita interpretar la intensidad de la relaci´on, on, por lo que se debe recurrir  a alg´ un coeficiente deriv un derivado ado que est´ e acotado. Los m´as as usuales son el  coeficiente de contingencia y el coeficiente de Cramer, ambos acotados 

en el intervalo  [0,  [0 , 1) 1).. Se emplear´a en este caso el primero que viene dado   por:   χ2 χ2 + n

C   =

donde  n es  n  es el tama˜  no mues muestral. tral. En nues nuestro tro caso el coeficiente coeficiente de contingencia vale  0,  0, 28 28,, lo que indica una ciert ciertaa relac relaci´ i´ on entre ambos atributos. on Si se observa la tabla de doble entrada se ve que porcentualmente se salvaron m´as as pasajeros de primera clase, mientras que los de tercera clase y  la tripulaci´on on fueron los que m´as as sufrie sufrieron ron las conse consecuenc cuencias ias del naufragio. M´as as adelante, se ver´a que se puede ser m´as as contundente a la hora de  concluir concl uir la exis existenci tenciaa de relac relaci´ i´ on utilizando los Contrastes de Hip´otesis. on otesis. Para poder po der visualizar visualizar la relaci´ on entre las variables puede ser muy  on u util ´til la realizaci´on on de un diagrama de barras de la variable supervivencia  seg´ un la clase de los pasajeros. Para ello, se almacena en primer lugar  un   Survived  frente a  Class   Class, a la  la tabla de contingencia de las variables  Survived que se ha llamado  Tabla    Tabla , ejecutando en la ventana de instrucciones:

∼   Survived+Class, Survived+Class,

>Tabla   barplot(Tabla, xlab=‘‘Clase’’, ylab=‘‘Frecuencia’’, legend.text=c(‘‘No superviviente’’, ‘‘Superviviente’’), beside=TRUE,col=cm.colors(2))

Observando el diagrama de barras de valores absolutos (figura 3.1), se aprecia que ´este este ofrece una visi´ on que p odr´ıa on ıa llevar l levar a confus confusi´ i´on, on, aparentando, ren tando, por ejemplo, que el n´umero umero de supervivientes de primera clase 

 

28   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional 

   0    7

   0    0    6    0    0    5   a    i   c   n   e   u   c   e   r    F

   0    0    4    0    0    3    0    0    2

No superviviente Superviviente

   0    6    0    5   s   e    j   a    0    t   n    4   e   c   r   o    0    P    3    0    2

 

No superviviente Superviviente

   0    0    1

   0    1    0

   0

1st

2nd

3rd

Crew

1st

2nd

3rd

Crew

Clase

Clase

Figura 3.1: Diagramas de barras de la supervivencia es pr´acticamente acticamente igual al n´umero umero de supervie superviente ntess de la tripul tripulaci´ aci´ on. Ello  on. se debe a que se han comparado las frecuencias absolutas de estos dos  grupos, y mientras que en primera clase viajaban 325 individuos, los  miembros de la tripulaci´on on eran 885. Una alternativa para apreciar la  relaci´ on existente entre los dos atributos es construir el diagrama de baon rras de las frecuencias relativas, o porcentajes de supervivencia respecto  a cada clase, en lugar de usar las frecuencias absolutas. Igual que antes, se debe almacenar previamente la tabla de porcentajes, lo que se  consigue con las siguientes instrucciones   R: >Tabaux   Tablarel    mosai  mosaicplot cplot(Tita (Titanic, nic, main= main=‘‘Sup ‘‘Superviv erviviente ientes s del Titan Titanic’’, ic’’, color=c(‘‘red’’,‘‘green’’))

Se han seleccionado los colores verde para los supervivientes y rojo   para los no supervivientes.

 

3.2 An´alisis alisis de relaciones entre dos atributos    29

Supervivientes Superviviente s del Titanic   o    N

1st Adult   Child

2nd Adult   Child

 

3 rd Adult

 

Child

 

 

Crew Adult

 

Child

  e    l   a   m   s   e  e    F    Y

  x   e    S

  o    N   e    l   a    M

  s   e    Y

Class

Figura 3.2: Gr´afico afico de mosaico de los datos Titanic

R–Nota 3.1

´ Este puede ser un buen momento momento para analizar someramente someramente la sin sintaxis  taxis  de las instru instruccio cciones  nes   R , dado que en ocasiones, como ha ocurrido en este ejemplo, se necesita crear o editar una instrucci´on. on. Como el lector  habr´a podido comprobar, cada vez que se ha utilizado un procedimiento  de  Rcmdr    Rcmdr , ´ este ha generado una o varias instrucciones   R ; en realidad, este Rcmdr  no   no es otra cosa que lo que se conoce como un frontend un  frontend de   de  R , es  decir un forma m´as as amigable de acceder a los recursos de   R .  R  pueden Las instrucciones de  R    pueden ser una expresi´on on o una asignaci´ asignacion. ´on. Una expresi´on on se eval´ ua, se muestra su resultado y se descarta. Una  ua, asignaci´ on se eval´ on ua obteniendo un nuevo objeto que se almacena con el  ua nombre especificado. Concretamente, si se analiza la estructura de la instrucci´on: on:

∼   Survived+Class, Survived+Class,

>Tabla   barplot(Tabla, xlab=‘‘Clase’’, ylab=‘‘Frecuencia’’, legend.text=c(‘‘No superviviente’’, ‘‘Superviviente’’), beside=TRUE,col=cm.colors(2))

´ Esta le indica a   R  que cree un gr´afico afico de barras,  barplot, de la 

 

30   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  tabla de doble entrada  Tabla    Tabla , siendo las etiquetas de los ejes,   xla xlab b e ylab, yla b, Cla Clase se y Fre Frecue cuenci ncia  a , que la leyenda de las clases,  legend.text, sea  No   No super supervivie viviente nte y  Superviviente, que el tipo de barras sea pegada,  beside=TRUE , y que utilice la gama de color colores  es   col=cm.colors(2 col=cm.colors(2) ).

R–Nota 3.2 

En los diagra diagramas mas de barra barrass ant anterior eriores es se usa el argume argumento  nto  legend.text  legend.text  para incluir una leyenda de los datos, pero de esta forma la leyenda se  dibuja en ocasiones sobre las barras. Para mejorar los resultados gr´aficos  aficos  se pueden utilizar las siguientes instrucciones: 1. Escri Escribir bir la orden del del gr´afico afico de barras sin  legend.text: >barplot(Tablarel, xlab=‘‘Clase’’, ylab=‘‘Porcentajes’’, beside=TRUE,col=cm.colors(2))

2. Para Para loca localiz lizar ar las coordenad coordenadas as del gr´ afico en las que se desea inafico sertar la leyenda se emplea la orden  locator(n), donde   n   es el  n´umero umero de puntos de los que se quiere averiguar las coordenadas, en nuestro caso   n= 1. 1. 3. Una vez ejecuta ejecutada da la orden, orden, se pin pinch chaa en la gr´ afica anterior con afica el bot´on on izquierdo del rat´on on en el lugar donde se desee insertar la  leyenda y autom´aticamente aticamente aparecer´an an las coordenadas  (x,y)   (x,y)  del   punto elegido. 4. Por ultimo, u ´ ltimo, se inclui incluir´ r´ a la leyenda en la posici´on on elegida con la  orden: legend(x,y,c(‘‘No superviviente’’,‘‘Superviviente’’), fill=cm.colors(2))

  fill  sirve para indicarle los colores de las barras. El argumento  fill

 

3.3 An´alisis alisis de relaciones entre dos variables    31

3.

Analisis alisis de relaciones entre dos variables ´

Una vez analizada la relaci´on on entre dos atributos, se aborda el estudio de la relaci´on on entre dos variables medidas. Este estudio se har´ aa trav´ es de la constru es construcci´ cci´on o n de una   funci´  on de ajuste , que expresa matem´ aticamente c´omo aticamente omo una de las variables denominada  causa   causa    explica el comportamiento de la otra variable llamada efecto llamada  efecto.. A la variable causa se le conoce con oce tambi´en en con los nombres n ombres de d e  independiente ,  explicativa ,   ex´  ogena  , . . . , mien mientras tras que variab efecto tooes tambi´ en en dependiente   dependiente  explicada  ,  end´  ogena  , .la . . variable Desde Des de leel efec punt punto dellamada vista detam la bi´ inv invest estiga igaci´ ci´ on que, on se est´ e realizando es fundamental la selecci´ on de las variables que enon trar´ an en el an´alisis an alisis y la asignaci´on on de roles, causa-efecto, para cada una de ellas. Es muy habitual confundir los conceptos de ajuste  de  ajuste   y de de regresi´   regresi´  on , y aunque no es objeto de este manual entrar en temas te´oricos oricos en profundidad, si habr habr´´ıa que aclarar que la idea de ajuste implica la selecci´ on de on un modelo matem´atico atico que aproxime lo mejor posible la relaci´on on entre las variables, mientras que el concepto de regresi´on on hace referencia a la idea de predecir mediante alguna regla, un valor de la variable dependiente para cada valor de la independiente. Dicho lo cual, y como suele ocurrir en muc muchos hos textos estad´ısticos, ısticos, a partir de ahora se admitir´a, a, y usar´a, a, de forma indistinta ambos conceptos. Por otra parte parte,, en la may mayor or´´ıa de las ocasion ocasiones es la matri matrizz de datos contiene vari varias as variable variabless num´ ericas y el inv ericas investigador estigador desea estudiar c´ omo se explica el comportamiento de una de ellas sobre la que tiene un omo especial inter inter´´es es (dependiente) a partir del d el conocimiento de d e un conjunto del resto de variables (independientes). En esta situaci´on, on, el an´alisis alisis dos a dos, en el que se consi considerar derar´´ıa la variabl ariablee dependie dependiente nte con cada una de las independientes es claramente ineficiente, siendo necesario la construcci´ o n de un modelo de ajuste m´ on ultiple que relacione de forma ultiple conjunta la variable dependiente con el conjunto de las independientes. La explicaci´on on para plantear este enfoque es que las variables independientes suelen estar relacionadas tambi´ en entre ellas, es decir comparten en informaci´ on de los individuos que se est´an on an estudiando, de forma que si se hiciera el an´alisis alisis dos a dos d os se estar estar´´ıa utilizando la misma informaci´on on

 

32   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  de forma reiterada. reiterada. En lo sucesivo, se consideran s´olo olo dos variables, la independiente (X) y la dependiente (Y), dando lugar a   n   parejas de valores (x (xi ,   yi ). Desde un punto de vista gr´afico afico estos valores se pueden representar en un plano, siendo el conjunto de puntos la denominada  denominada   nube de puntos  o  diagrama de dispersi´  on . El objeto del ajuste es la obtenci´on o n de una funci´on on que se adapte lo mejor posible a la nube de puntos. Y ∗  =  = f   f ((X ) El conocimiento previo que se puede tener de la relaci´on Y on  Y /X  junto   junto con el an´alisis alisis de la nube de puntos debe ofrecer las claves para la selecci´on de la funci´on  on   f  f .. En realidad seleccionar   f  f    es elegir una clase funcional que depender´a de unos par´ametros ametros que habr´a que estimar. Es decir, se elige una recta Y  recta  Y    =  a + bX , una par´abola Y  abola Y    =  a + bX  bX + + cX 2 , una funci´ on on X  b exponencial   Y  Y    =   ab , una funci´on on potencial   Y  Y    =   aX  , una hip´erbola erb ola  b Y    =   a + X  , . . . Se puede apreciar Y  apreciar que mediant mediantee alg alguna una transfor transformac maci´ i´ on on muchas de estas funciones se convierten en rectas. Ejemplo 3.2 

La clase funcional exponencial   Y  Y    =   abX  aplicando una transformaci´ on logar´ıtmica on ıtmica se lineali linealiza, za, logY   logY    =  loga + Xlogb Xlogb.. b La clase funcional hiperb´olica  olica  Y    Y   =  a +  X    tambi´ t ambi´en en se convi convierte erte en  1 ′ una rect rectaa trans transformand formando  o  X   X   = X .

Cuando antes se ha escrito la selecci´on on de un modelo matem´atico atico que aproxime lo “mejor posible” la relaci´on on ent entre re las variables variables   o la obtenci´ on de una curva que se adapte lo “mejor posible” a la nube de on puntos , en realidad se estaba indicando la necesidad de establecer un criterio de ajuste que minimice las diferencias entre la curva de ajuste y la nube de puntos. El criterio m´as as generalizado es el de los m´ los  m´ıni nimo mos  s  cuadrados , que establece que la suma de las distancias al cuadrado entre los valores observados de la variable Y  variable  Y ,, es decir los y los  y i , y las predicciones   

 

 

 

 

3.3 An´alisis alisis de relaciones entre dos variables    33 que se obtie obtienen nen de ´esta esta a partir de la funci´ on de ajuste,  on ajuste,   yi∗  =   f  f ((xi ) i, sea m´ınima. La aplicac aplicaci´ i´on on de este criterio permite la estimaci´on o n de los par´ametros ametros del modelo y la determinaci´on on de forma fo rma un un´´ıvoca de la l a funci´ fu nci´on on de ajuste.



La figura 3.3 ilustra lo dicho para el caso lineal Y  lineal  Y    =  a + bX , donde a  representa el punto de corte de la recta con el eje Y  eje  Y    y  b  b el  el incremento– decremento de Y  de  Y  para  para un incremento unitario de X  de  X .. Y   

• (x , y ) •         e  =  = y  y − y ∗     • •     •      •         • •            •    • y∗          •      i

i

i

i

i

i

 

 X 

Figura 3.3: Recta de ajuste

as importantes del ajuste Predicciones.  Una de las utilidades m´as es la de rea realiz lizar ar pre predic diccio ciones nes de la vari ariabl ablee exp explic licada ada para distintos valores de la variable explicativa. En realidad, se trata de sustituir en el ajuste los valores de X  de  X  para  para obtener los correspondientes valores de  de   Y  Y .. Cuando se sustituyen los valores de  de   X  X    que se empleado para calcular la valores funci´on onajustados de ajuste,  ajuste,por   x1 ,elx2modelo, , . . . , xn se han obtienen los correspondientes y1∗ , y2∗ , . . . , yn∗ , mientras que si se asigna a X  a  X  cualquier  cualquier valor factible para esta variable, el valor que se obtiene para   Y  Y    es una predicci´ on. Obs´ on. ervese que la diferencia entre los valor ervese valores es observ observados ados de

Y ,  y i , y sus correspondiente Y , correspondientess valore aloress ajustados, ajustados, y  y i∗ , son los errores del ajuste  ajuste   ei   =   yi yi∗ . Los puntos ajustados (x (xi , yi∗ ) pertenecen



 

34   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  a la recta de ajuste y los   yi∗ tienen menos varianza que los   yi , de hecho, se puede demostrar para una gran cantidad de modelos, en particular para el lineal, que la varianza de  Y   Y    es igual a la de Y  de  Y  ∗ 2   =  S 2  + S 2 . m´as as la varianza del error, S  error,  S Y   e Y  ∗ Las predicciones para valores de X distintos a los empleados el ajuste se denominan interpolaciones cuando dichos valores en se encuentran dentro del rango de valores de ajuste para X, y extrapolaciones cuando se encuentran fuera de dicho rango. La validez estad´´ıstic estad ısticaa de las int interpolac erpolaciones iones es may mayor or que las de las extra extra-polaciones, de hecho la calidad de la predicci´on on decrece cuando aumenta la distancia al centro de gravedad de la nube de puntos, (¯x, ¯ x, ¯ y) . ıa totalme totalmente nte An´ alisis de bondad del ajuste.  El a juste no estar´ıa alisis resuelto si no viniera acompa˜ nado de una medida de su bondad, nado es decir, de un valor, a ser posible acotado en un intervalo, que exprese expre se en qu´ e porcen porcentaje taje la va variable riable dependiente se expli explica ca por la independi independient entee a tra trav´ v´ es del ajuste reali es realizado. zado. Si el ajuste fuera perfectoo todos los valore perfect aloress obser observ vados se situa situarr´ıan sobre la nube de puntos pu ntos y los residuos y su varianza se anular´ anular´ıan, mientras que en el extremo contrario ser ser´´ıa la variable a justada la que tendr tendr´´ıa varianza nula. La medida que sintetiza lo expresado en el p´arrafo arrafo anterior es el   S  ∗ 2 coeficiente de determinaci´  on ,   R = S 2 que, como puede verse, Y  

Y  

toma valores en [0, [0, 1]; interpret´andose andose que la va variabl riablee  Y   Y    se explica 2 en un 100 R % por la variable X  variable  X ,, mientras que el resto, es decir 2 el 100 (1 R ) %, se explicar explicar´´ıa por una parte a trav trav´´es es de una mejora de la funci´on on de ajuste, por otra incorporando, si es factible, informaci´on on nueva (otras (otra s variables, con lo que se tendr´ıa ıa un modelo mo delo

∗ ∗ −

de regresi´on on m´ ultiple) y por la variabili ultiple) variabilidad dad intr intr´´ınseca de d e los datos. Para el cas Para casoo de ajuste lin lineal eal exi existe ste un coefi coeficie cient ntee espe especc´ıfic ıficoo de bondad de ajuste denominado  coeficiente de correlaci´  on lineal   lineal   r , que toma valores en el intervalo [ 1, 1] y que adem´as as de medir la intensidad de la relaci´on on indica si ´esta esta es de tipo directo, cuando X  crece Y    crece  Y    crece, o inverso, cuando X  cuando  X  crece  crece Y   Y    decrece. Se verifica 2 2 que r que  r =  R .



 

3.3 An´alisis alisis de relaciones entre dos variables    35 SEXO Mujer Varón

   0    1    1    0    1    1

   0    0    1

   0    0    1

   0    9    0    9    O    S    E    P

   O    S    E    P

   0    8

   0    8

   0    7

   0    7

   0    6

   0    6

160

165

170

175 ALTURA

180

185

190

195

160

165

170

175

180

185

190

195

ALTURA

on peso-al peso-altura tura Figura 3.4: Diagramas de dispersi´on

An´ alisis de re alisis resid siduos uos del mode modelo. lo.   Conviene examinar, tanto desde un punt puntoo de vista num´ erico como sobre todo gr´ erico afico, los afico, residuos que genera el ajuste, es decir las diferencias entre los valores observados,  observados,   Y  Y ,, y los ajustados por la funci´on on de ajuste,  ajuste,   Y ∗ . En partic particular, ular, resul resulta ta de especi especial al int inter´ er´ es el an´ es alisis de los resialisis duos extremos y de las gr´aficas aficas de los residuos frente a valores de X , indexados o frente a las predicciones. Tambi´ Tambi´en en es interesan interesante te el an´alisis alisis de puntos influyentes, entendiendo esto como aquellos puntos que tienen un sobrepeso en la construcci´on on de la funci´on on de ajuste. Estos puntos van a estar localizados en los extremos de la nube de puntos, ver ejemplo 3.3.

Mejora del modelo.  Para terminar, conviene indicar que reemplazar una funci´on o n de ajuste por otra m´as as sofisticada, con m´as as par´ametros ametros y m´as as compleja, s´olo olo se justifica si la mejora en t´ ermierminos de R de  R 2 es alta, pues en otro caso se complica la interpretaci´on on del modelo sin apenas recompensa.

Ejemplo 3.3 

Para ilustrar los conceptos sobre el ajuste lineal se proceder´a a analizar  la relaci´on on entre  peso  peso y  altura   altura  del  del fichero de datos  peso   peso altura.dat, en

 

ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  36   Cap´ıtulo

   0    2

   5    1

   5    1

  y   c   n    0   e    1   u   q   e   r    F

  y   c   n   e    0   u    1   q   e   r    F

   5

   5

   0

   0

160

170

180

Datos2$ALTURA

190

200

60

70

80

90

Datos2$PESO

Figura 3.5: Histogramas de peso y altura

100

110

Figura 3.6: Regresi´on on lineal y predicciones

   0    1

61

41    1  .    5    l   e    d   o    M   g   e    0    R  .   s    l   a   u    d    i   s    5   e  −   r    $   s   o    t   a    D    0    1  −

66 0

10

20

30

40

50

Index

Figura 3.7: Resi Residuos duos indexa indexados dos

 

3.3 An´alisis alisis de relaciones entre dos variables    37 el que aparecen, entre otras variables, el sexo, peso y altura de un grupo  de personas personas.. Como se ha indic indicado ado ant anterior eriormen mente te es nece necesario sario establecer  establecer  qu´e variab variable le ser´a la explicada y cu´al al la explicativa. Dado que se trata  de un ejemplo y que no se cuenta con elementos adicionales para avalar  la decis decisi´ i´ on, se decide explicar el  peso on, on de la  altura  on   peso  en funci´   altura . 1. Histogramas. Antes de abordar el an´alisis alisis bidimensional propiamente dicho, se representar´ an los histogramas de las variables  peso an  peso  y  altura  ıtu lo    altura , operando para ello tal y como se indic´o en el cap´ıtulo  anterior. Al objeto de fijar el n´umero umero de clases de los histogramas   y los colores, se retocan las instrucciones   R  que genera  Rcmdr, cambiando en ambos casos las opciones del n´ umero de intervalos  umero (breaks) y los colores (col) y se vuelven a ejecutar, con lo que se  obtiene las figuras en 3.5. Las instrucciones retocadas son respec-

tivamente: >Hist(Datos$ALTURA, scale=‘‘frequency’’, breaks=seq(155,200,3), col=heat.colors(13)) >Hist(Datos$PESO, scale=‘‘frequency’’, breaks=seq(55,110,5), col=heat.colors(12))

Una primera visi´on on de los histogramas histogramas permit p ermitee detectar una bimodalidad tanto en la variable  peso   peso  como en la  altura    altura , aunque ello  es un indicio claro de mezcla de poblaciones, se continuar´a con los  siguiente siguie ntess pasos del ajuste con todos los datos, en un ejerc ejercicio icio b´asiasicamente did´actico, actico, en busca de establecer la relaci´on on que justifique  el  peso on de la  altura  on   peso  en funci´   altura . 2. Diagrama Diagrama de dis dispers persi´ i´ o n. Al obj on. objet etoo de de deci cidi dirr el ti tipo po de fu funnci´ o n deon. on ajust aju stee  Rcmdr quee se  ut qu util izar ar´ ´a ,ionan a, seanre repr pres enta taones  el s di diag agra ma de  dispersi´ o n. En seiliz selecc sel eccion lasesen opcione opci   Gr´ arama aficas ficas paraa las vari ariabl ables es men mencio cionad nadas. as. Diagrama Diagr ama de dispe dispersi´ rsi´ on..., par on... Porr defe Po defecto cto apar aparec ecee mar marcad cadaa la opci´ on   l´ on ınea suav ınea suavizada  izada , que  ofrece una regresi´on o n a los puntos y que da una idea de la clase  funcional m´as as eficiente bajo ba jo el criterio de m´ınimos cuadrados.



A la vista de la figura 3.4 se observa la existencia de relaci´on on entre  las dos var variables. iables. La l´ınea de regresi´ on suavizada y la l´ınea dison continua de ajuste lineal, sugieren que los ajustes m´as as eficientes  son tipo lineal y posiblemente parab´olico olico o potencial. No obstante, la escala de representaci´on on de las varia variables bles po podr dr´´ıa ser un factor 

 

38   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  distorsionador que po podr dr´´ıa llev llevar ar a pensar, err´ oneamente, que las  oneamente, variables mantienen un grado de relaci´on on lineal mayor del que realmente existe. Para confirmar la existencia de una alta correlaci´on on se calcular´a el   coeficiente de correlaci´on on lineal de Pearson. Pearson. 3. An´alisis alisis de la correlaci´on. on. Se selecciona la secuencia de opciones  Estad´ ısticos Res´ ısticos umenes Test de corre umenes correlaci laci´ on, elig ´ on eligi´ i´endose  end ose  en el cuadro de di´alogo alogo las variables que interesan. La salida que  ofrece  Rcmdr   Rcmdr  es:





>   cor.test(Datos$ALTURA, Datos$PESO, alternative=‘‘two.sided’’,  method=‘‘pearso  method=‘‘p earson’’) n’’) Pearson’s Pears on’s produ product-mo ct-moment ment corre correlatio lation n data: Datos Datos$ALTU $ALTURA RA and Datos Datos$PESO $PESO t = 15 15.8 .839 396, 6, df = 98 98, , pp-va valu lue e   <   2.2e-16 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e cor correl relati ation on is not equ equal al to 0 95 perce percent nt confi confidence dence interv interval: al: 0.7818060 0.781 8060 0.895 0.8952982 2982 sample sampl e estim estimates: ates: cor 0.8480039

El coeficiente de correlaci´on on es positivo y relativamente alto,   r   = 0, 848 848,, lo que indica que existe relaci´on on directa entre las variables. En cuanto a la intensidad, el coeficiente de determinaci´on on   R2 = r 2 = 0, 719 719 implica  implica que un 28 un  28 %  de la variaci´on on de  Y  no  Y  no se explica   por  X  a  X  a trav trav´´es es de la recta de d e a juste. En este momento, y si no se hubiera detectado la bimodalidad en el histograma, habr habr´´ıa que plantearse la posibilidad de mejorar la  funci´on on de ajuste utilizando una clase funcional que se adaptara  mejor a la nube de puntos; en el diagrama de dispersi dispersi´on ´on se ha visto  que la regresi´on on suavizada suger´ suger´ıa la posibilidad de un crecimien crecimiento  to  de tipo parab´olico olico o potencial. Pero como ya se ha comentado  antes, la bimodalidad del histograma parece indicar la confusi´on on de  dos poblaciones. En efecto, se est´an an considerando conjuntamente  los dos sexos, hombre y mujer, cuando los patrones de relaci´on on  peso–altura no tienen porqu´e coincidir y de hecho no lo hacen. Si  se observa atentamente el diagrama de dispersi´on on se puede p uede entrever  entrever  la existencia de dos poblaciones, para confirmarlo se representar´a el  diagrama de dispersi´on on pero diferenciando los individuos de ambos  sexos.

 

3.3 An´alisis alisis de relaciones entre dos variables    39 4. An´alisis alisis por grupo. En  Rcmdr  se eligen las opciones   Gr´ aficas aficas sele lecc ccio ionan nando do en la ven enta tana na de  Diagrama Diagr ama de dispe dispersi´ rsi´ on..., se on... di´alogo alogo la opci´on on   Gr´ afica por grup afica grupos... os...   la variable   sexo. La 



visualizacion del grafico visualizacion gr afico 3.4 es muy elocuente, elocuente, las dos lıneas de  ajuste se acomodan mucho mejor a sus respectivos grupos y la regresi´ on suavizada, al contrario de lo que ocurr on ocurr´´ıa antes, no presenta  desviaciones claras de la linealidad. Por lo que procede ajustar de  forma diferenciada las variables  peso-altura    peso-altura  para   para cada sexo. Par araa di divi vidi dirr el co conj njun unto to de da dato toss se seg´ g´ u n la var un aria iabl ble  e   SEXO , se pro cede en   Rcmdr   desde    Datos Datos activ activos os Filtrar Filtr ar los datos activos... activos...   toma tomand ndoo co como mo exp xprres esi´ i´ on on de sel selec ecci´ ci´ on   SEXO==‘‘Mujer’’   par on paraa la mue uest stra ra fe feme meni nina na y  SEXO==‘‘Var´ on’’   para on’’ para la mas mascul culina ina..   R   crea nuev nuevos os conjun conjuntos  tos  de da dato toss co con n lo loss no nom mbr bres es qu quee se le ha hay yan in indi dica cado do en el co co-rrespond rre spondien iente te apar apartad tadoo de la opci opci´on ´o n de fil filtr trad ado. o. En es este te ca caso  so  se han den denomi ominad nado  o   Peso Altura Mujer   y   Peso Altura Varon, respectivamente.





Para analizar cada grupo de sexo, se elige como juego de datos  activos el que interese y se calcula su coeficiente de correlaci´on de Pearson. Se observa como la correlaci´on on para las mujeres es de  0, 897 897,, mientras que para los hombres llega hasta   hasta   0, 928 928,, con   R2 iguales, respectivamente a  0,  0 , 804 804 y   y  0,  0 , 861 861,, mucho m´as as altas que las  que se ten ten´´ıan para el ajuste conjunto. >  cor.test(  cor.test(Peso Peso Altur Altura a Mujer Mujer$ALTU $ALTURA, RA, Peso Altura Mujer$PESO, Mujer$PESO, alternative=‘‘two.sided’’, method=‘‘pearson’’) Pearson’s Pears on’s produ product-mo ct-moment ment corre correlatio lation n data: Peso Altura Altura Mujer$ALTURA Mujer$ALTURA and Peso Altura Altura Mujer$PESO Mujer$PESO t = 13 13.4 .487 879, 9, df = 44 44, , pp-va valu lue e   <   2.2e-16 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e cor correl relati ation on is not equ equal al to 0 95 perce percent nt confi confidence dence inter interval: val: 0.8208994 0.820 8994 0.942 0.9422066 2066 sample sampl e estim estimates: ates: cor 0.8973532

 

40   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  >   cor.t cor.test(P est(Peso eso Altur Altura a Varon Varon$ALTU $ALTURA, RA, Peso Altura Varon$PESO, Varon$PESO, alternative=‘‘two.sided’’, method=‘‘pearson’’) Pearson’s Pears on’s produ product-mo ct-moment ment corre correlatio lation n data: Peso Altura Altura Varon$ALTURA Varon$ALTURA and Peso Altura Altura Varon$PESO Varon$PESO t = 13 13.0 .033 335, 5, df = 52 52, , pp-va valu lue e   <   2.2e-16 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e cor correl relati ation on is not equ equal al to 0 95 perce percent nt confi confidence dence interv interval: al: 0.8793910 0.879 3910 0.958 0.9580797 0797 sample sampl e estim estimates: ates: cor 0.9285171

5. Recta de ajuste. Se obtendr´ obtendr´ a ahora una de las dos rectas de ajuste  del peso en funci´on on de la altura, concretamente se ha elegido el  subgrupo de los hombres. Una vez elegido el conjunto de datos activo correspondiente a los hombres, se selecciona  Estad´ ısticos ısticos Ajuste Aju ste de mod modelo elos s Regresi´ on linea on lineal... l..., y en la ventana de  la figura 3.6, se elige  PESO    como variable explicada y  ALTURA   PESO  como   ALTURA como  variable explicativ explicativa. a.







>   RegModel.1     summary(RegModel.1) Call: lm(formula lm(fo rmula = PESO   ALTURA, ALTURA, dat data a = Pes Peso o Altura Altura Varon) Varon) Residuals:

 ∼

Min -13.578

1Q -2.091

Median -0.491

3Q 2.213

Max 9.662

Coefficients: (Intercept) ALTURA

Estimate -164.09760 1.41331

Std. Error 13.89222 0.07837

t value -11.81 18.03  

 | |

Pr(> t ) 2.43e-16 *** <   2e-16 2e-16 ***

Signif Sign if. . co code des: s: 0 ’* ’*** **’ ’ 0. 0.00 001 1 ’* ’**’ *’ 0.01 ’*’ 0. 0.05 05 ’.’ 0. 0.1 1 ’ ’ 1 Residu Res idual al sta standa ndard rd err error: or: 3.9 3.937 37 on 52 deg degree rees s of fre freedo edom m Multiple Multi ple R-Squ R-Squared: ared: 0.862 0.8621, 1, Adjus Adjusted ted R-squ R-squared: ared: 0.859 0.8595 5 F-stat F-s tatist istic: ic: 325 325.2 .2 on 1 and 52 DF, p-value: p-value:   <  2 ,2e  16



A la vista de los resultados se sabe que la recta de regresi´on es  Y=-164,09760 +1,41331X . Si s´ olo se quisieran obtener los coefiolo cientes de la recta ´estos estos se pueden obtener ob tener con las ´ordenes: ordenes:

∼   ALTURA, data= data=Peso Peso Altura Varon)

>   RegModel.1     coef(RegModel.1)

(Intercept) (Intercept ) ALTURA -164.09760 -164. 097600 0 1.4133 1.413306 06

 

3.3 An´alisis alisis de relaciones entre dos variables    41 6. Val alor ores es aju ajust stad ados os y pr preedi dicc ccio ione nes. s. Par araa obt bteene nerr lo loss valores aj aju ustados po porr el mod odeelo se selecciona    Modelos



A~ nadir las est nadir estad´ ad´ ısticas ıstica s de las obs observ ervaci acione ones s a los datos...   y se ma marc rcan an la lass opc opcio ione ness de dese sead adas as,, en es este te ca caso  so  nade al conjunto de datos  Valores Valor es ajus ajustados tados   y  residuos.   R   a˜  acti ac tiv vos dos nu nuev evas as co colu lumn mnas as ll llam amada adas  s    fitted.RegModel.1   y  RegModel.1   con los correspondientes valores ajustados  residuals.RegModel.1

 y residuos del modelo activo. Al realizar re alizar las estad´ısticas ısticas descrip descriptivas tivas de  Y ,  Y  ,  Y  ∗  y  e,  e, seleccionando  las opciones media y desviaci´on on t´ıpi ıpica ca en res res´ u umenes ´me nes num´ericos, eric os, se  tiene: >   numSummary(Hombres[,c(‘‘fitted.RegModel.1’’, ‘‘PESO’’, ‘‘residuals.RegModel.1’’)], statistics=c(‘‘mean’’, ‘‘sd’’))

fitted.RegModel.1 PESO resi re sidu dual als. s.Re RegM gMod odel el.1 .1

 mean 8.624074e+01 8.624074e+01 -3.78 -3. 7814 1456 56ee-17 17

sd 9.753284 1 0.504150 10 3.90 3. 9000 0081 81

n 54 54 54

2   =   S 2   +   S 2 , ya que   y efectiv efectivamente amente se comprueba que  que    S Y   e Y  ∗ 2 2 2 10,, 504 = 9, 753 + 3, 9 ; pudi 10 pudi´´endose endose calc calcular ular el coeficie coeficiente nte de  2   9 , 753 determinaci´ on como  R on  R 2 = 0 , 8621 8621.. 2   = 0, 10,504

Para realizar predicciones para cualquier valor de X, se necesita  crear previamente un nuevo conjunto de datos, que en este caso  se ha llamado   pred   y que contendr´a una variable cuyo nombre  se hace coincidir con el nombre de la variable independiente del  modelo: >pred   predicPESO   pred   LinearModel.3   < data=acido)

+ TIE TIEMPO MPO +I( TIE TIEMPO MPO^2) ^2), ,

summary(LinearModel.1) Call: lm(formula lm(fo rmula = VIRUS   1 + TIE TIEMPO MPO + I(T I(TIEM IEMPO^ PO^2), 2), data = aci acido) do)

 ∼

Residuals: Min -23.295

1Q -6.140

Median 1.510

3Q Max 6.491 24 24.271

Coefficients: Estima Est imate te Std Std. . Err Error or t val value ue Pr(> t ) (Intercept (Inte rcept) ) 115.5 115.552345 52345 4.917 4.917038 038 23.50 23.500 0   <   2e-16 2e-16 *** TIEMPO TIEMP O -2.90 -2.901809 1809 0.455 0.455127 127 -6.37 -6.376 6 7.25e7.25e-08 08 *** I(TIEMPO^2 I(TIE MPO^2) ) 0.101 0.101647 647 0.008 0.008731 731 11.64 11.642 2 1.89e 1.89e-15 -15 *** Sign Si gnif if. . co code des: s: 0 ’* ’*** **’ ’ 0. 0.00 001 1 ’* ’**’ *’ 0.01 ’*’ 0. 0.05 05 ’.’ 0. 0.1 1 ’ ’ 1 Residu Res idual al sta standa ndard rd err error: or: 11. 11.73 73 on 47 deg degree rees s of fre freedo edom m Multiple Multi ple R-Squ R-Squared: ared: 0.917 0.9179, 9, Adjus Adjusted ted R-squ R-squared: ared: 0.9144 F-stat F-s tatist istic: ic: 262 262.8 .8 on 2 and 47 DF, p-value: p-value:   <   2.2e-16

 | |

Se concluye que el tiempo explica casi el  92  92 %  del n´ umero de virus  umero a trav´es es del a juste parab parab´olico ´olico estimado.

Desp u´es Despu´ es de d e represe rep resentar ntar el e l gr´afico afico de dispersi´on on de la variable  VIRUS   VIRUS  frente al  TIEMPO    TIEMPO  (de   (de los datos   reproduccion vir acido) (figura 3.11) es posible representar en la misma ventana la par´abola abola del modelo (figura 3.12) media mediante nte las instr instruccio ucciones: nes: >   x   y   lines(x,y,col=‘‘green’’)

 −

Llegad os a este punto, Llegados p unto, se po podr dr´´ıa plantear pla ntear si los datos d atos se ajusta a justarr´ıan mejor a un polinomio de grado tres. Aunque no existen evidencias en el gr´afico afico de dispersi´on, on, se proceder´a a realizar este ajuste por motivos  b´asicamente asicamente pedag´ogicos. ogicos. Al ser un modelo m´as as general que el parab´olico olico se producir´a una  mejora del ajuste, aunque la cuesti´on on es si esta mejora es lo suficientemente importante para justificar la mayor complejidad del modelo. Para realizar el ajuste de grado tres, se selecciona  Estad´ ısticos ısticos ormula del  ormula Ajuste Aju ste de mod modelo elos s Model Modelo o linea lineal... l..., tomando como f´ modelo VIRUS    1+ TIEMPO+ I(TIEMPOˆ2)+I(TIEMPOˆ3) (figura 3.13).







 

ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  48   Cap´ıtulo

   0    0    2

   S    U    R    I    0    V    5    1

   0    0    1

0

10

20

30

40

TIEMPO

Figura 3.12: Opciones y repre represen sentaci´ taci´ on del modelo parab´olico on olico

50

>   summary(LinearModel.2) Call:

lm(formula = VIRUS lm(formula data dat a = Vir Virus us acido) acido) Residuals:

 ∼   1

Min -21. -2 1.19 1995 95

+ TIE TIEMPO MPO + I(T I(TIEM IEMPO^ PO^2) 2) + I(T I(TIEM IEMPO^ PO^3), 3),

1Q Median -5.1 -5 .125 259 9 -0.1 -0.186 860 0

3Q Max 7.1273 7.12 73 21 21.0 .014 148 8

Coefficients:

(Intercept) TIEMPO I(TIEMPO^2) I(TIEMPO^3)

Estimate 98.1018701 1.1938655 -0.1006612 0.0026659

Std. Error 5.6855078 0.9905237 0.0457034 0.0005944

t value 17.255 1.205 -2.202 4.485

 

 | |

Pr(> t ) <   2e-16 2e-16 *** 0.2343 0.0327 * 4.83e-05 ***

Signif Sign if. . co code des: s: 0 ’* ’*** **’ ’ 0. 0.00 001 1 ’* ’**’ *’ 0. 0.01 01 ’*’ 0. 0.05 05 ’.’ ’.’ 0. 0.1 1 ’ ’ 1 Residu Res idual al sta standa ndard rd err error: or: 9.8 9.892 92 on 46 deg degree rees s of fre freedo edom m Multiple Multi ple R-Squ R-Squared: ared: 0.942 0.9429, 9, Adjus Adjusted ted R-squ R-squared: ared: 0.939 0.9392 2 F-stat F-s tatist istic: ic: 253 253.2 .2 on 3 and 46 DF, p-value: p-value:   <   2.2e-16

El coeficie coeficiente nte de deter determinac minaci´ i´ on es igual a  0, on  0 ,9429 9429,, con una mejora  de un 2 %, lo que no parece parece justificar justificar la adopci´ on de este modelo m´as  on as  complejo. Igual que antes es posible representar el ajuste c´ubico ubico como   puede observ observarse arse en la figura 3.13.

R–Nota 3.4

Para realizar un ajuste polinomial con   Rcmdr   se selecciona la opci´on on

 

3.3 An´alisis alisis de relaciones entre dos variables    49

   0    0    2

   S    U    R    I    0    V    5    1

   0    0    1

0

10

20

30

40

50

TIEMPO

Figura 3.13: Opciones y repre represen sentaci´ taci´ on del modelo c´ on ubico ubico

Estad´ ısticos ısticos Ajustes Ajus tes la deexpresi´ modelos model Modelo Model o line lineal... al... y en la ventana de di´alogo alogo se escribe oos on n del modelo deseado:





Para indicar un modelo mo delo lineal con t´ermino ermino independiente se escriben cualquiera de las dos f´ormulas ormulas siguientes: Y 

  ∼ X  Y   ∼ 1 + X  Si se desea omitir el t´ermino ermino independiente indep endiente en un u n modelo mo delo lineal se  utiliz uti lizaa una de las f´ormulas ormulas siguientes: Y 

1 + X 

  ∼∼−0 + X 



En general para un modelo mo delo polinomial p olinomial con t´ ermino independiente  ermino se escribe:

  ∼ X  +  + I (X 2 ) + I (X 3 ) + · · · + I (X  )  o bien Y   ∼ 1 + X  +  + I (X 2 ) + I (X 3 ) + · · · + I (X  )



n

n

 y con un

 −1  ´o o  00  para un modelo sin t´ermino ermino independiente.

Si se quiere observar la notaci´on on que utiliza   R  para   para formular estos modelos de los,, v´ease eas e el ap´endi en dice ce C.

 

50   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  4. Ejercicios

3.1  Para los datos del fichero  peso altura.dat, analice el comportamiento del peso en funci´on on de la altura para el grupo de las mujeres. 3.2   La tabla 3.2 muestra muestra una serie serie hist´ orica sobre el olivar esorica pa˜nol nol que rec recoge oge la super superfici ficie, e, ren rendim dimien iento to y produ producc cci´ i´ on, durante el on, periodo 1965-1979, donde: X  =   = Superficie en miles de Ha. Y  = Y   = Rendimiento en Qm/Ha. Z  =   = Producci´on on en miles de Tm. Se pide: on de las variables  on variables   X   e  Y   Y .. a) El diagrama de dispersi´ as representativas para cada una de las b)  Las medidas m´as variables, indicando su representatividad. on entre las variables  variables   X Y  Y ,,   XZ  XZ    e c)  El estudio de la relaci´on Y Z . on existente entre la llu3.3  La siguiente tabla muestra la relaci´on 2 via ca ca´´ıda ıda,, en l/m , en el periodo p eriodo octubre–may octubre–mayoo y la producci´ on obtenida on en kilogramos por olivo. X

300

400

500

600

700

Y Y Y Y Y

13 24 17 11 20

26 21 17 26 30

40 31 38 34 27

57 45 51 58 44

64 69 57 76 74

donde X  donde  X  representa  representa la lluvia e Y  e  Y    la producci´on. on. on. a) Represente el diagrama de dispersi´on. b) Indique si existe alguna tendencia. variables.

on exis existen tente te ent entre re las dos c) Cuantifique y comente la relaci´on

 

52   Cap´ıtulo ıtu lo 3. An´ An alisis ´alisis Exploratorio de Datos multidimensional  obtenid as en la asignatu obtenidas asi gnatura ra de Estad´ıstica, Z  ıstica,  Z ,, obteni´endose endose las siguientes respuestas: (40, 4, 4), (45, 3, 3), (30, 4, 5), (40, 4, 5), (80, 2, 5), (20, 3, 5) (10, 1,5, 6), (10, 4, 6), (20, 4, 6), (45, 3, 3), (20, 4, 4), (30, 4, 7) (30, 3, 7), (20, 4, 6), (30, 1, 6), (10, 5, 5), (15, 5, 5), (20, 6, 5) (20, 3, 7), (20, 4, 5), (20, 5, 6), (60, 2, 3), (60, 5, 5) on correspondiente al a)  Obtenga el diagrama de dispersi´on tiempo dedicado al estudio y las calificaciones obtenidas en Estad Estad´´ıstica. b) ¿Se aprecia alguna tendencia? entre  X Y  , X  ,  X Z   e  Y Z . c)  Estudie las relaciones existentes entre X

3.6   Al mismo grupo del ejercicio anterior se le ha pedido que escriba un d´ıgito al azar entre 0 y 9 as as´´ı como el n´umero umero de hermanos que tiene, obteni´ endose los siguientes pares endose p ares de valor valores: es: (7, 4), (0, 1), (2, 1), (2, 0), (9, 4), (7, 4), (6, 3), (8, 5) (7, 3), (3, 2), (7, 3), (2, 1), (7, 4),(7, 3), (8, 4), (8, 5) (5, 3), (3, 1), (4, 2), (4, 2), (5, 3), (2, 0), (4, 2) ¿Existee alguna relac ¿Exist relaci´ i´ on entre las variable on variables?, s?, ¿de qu´ e tipo?

3.7   Se examinan 300 alumnos de una asignatura y durante el examen se les pregunta examen pregunta por p or el tiempo que han dedic dedicado ado a su preparaci´ preparaci´ on on (menos de una hora, entre una hora y tres, m´as as de tres), obteni´endose endose la siguiente tabla de calificaciones seg´un un el tiempo de estudio: Nota  Horas Estudio   <  1

 \

1

− 3   > 3

Susp enso

43

32

10

Aprobado

31

48

81

Notable

7

13

20 20

Sobresaliente

3

4

8

¿Est´ an relacionadas las calificaciones con las horas de estudio? an on: 3.8  Dada la distribuci´on: X    1 1, 5

2

2, 5

3

Y    1 1, 5 2, 95 5, 65 8, 8

3, 75 4, 5 15

25

5 32 32

 

54

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´ adiz adiz  http://knuth.uca.es/ebrcmdr

Cap Ca p´ıt ıtul ulo o 4 Distribuciones de Probabilidad

La existencia de fen´omenos omenos o experimentos no n o determin determin´´ısticos, donde el conocimien conocim iento to de las condic condiciones iones en las que ´estos estos se desar desarrollan rollan no determinan los resultados, hace imprescindible el uso de una funci´on on que asigne niveles de certidumbre a cada uno de los desenlaces del fen´omeno omeno y ah ah´´ı es donde aparece la la   teor´ teor´ıa ıa de la probabil probabilida idad  d .. Los experimentos o fen´omenos omenos que poseen la caracter caracter´´ıstica anterior se denominan aleatorios. Intuitivamente, la concreci´on on num´erica erica del fen´omeno omeno mediante la asignaci´ on de valores con un cierto criterio, da origen a la  variable aleatoria . on Una correcta proyecci´on on de estos conceptos es lo que va a permitir estudiar grandes colectivos a partir de peque˜ nas partes de ellos, llamadas nas muestras, dando lugar a lo que se conoce como  inf  inferenci erencia a est estad´ ad´ıstica  ıst ica . La teor teor´´ıa de la probabilidad y la vari variable able aleatoria van a permitir establecer un amplio cat´alogo alogo de modelos te´oricos, oricos, tanto discretos como continuos, a los cuales se van a poder asimilar muchas de las situaciones de la vida real. El estudio de los modelos te´oricos, oricos, incluyendo la caracte-

rizaci´ on a trav´es on es de sus par´ametros, ametros, el c´alculo alculo de probabilidades en sus distintos disti ntos formatos y la gener generaci´ aci´ o n de n´ on umeros aleatorios, van a facilitar umeros enormemen enorm emente te el an´ alisis de estas situaciones reales. Ese ser´ alisis a el objetivo dell cap´ıtul de ıt ulo. o. Antes de entrar en materia se describir´an an una serie de fen´omenos omenos

 

Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  56   Cap que se podr´an an asimilar a las distribuciones de probabilidad que se describir´ an en este cap´ıtulo. an ıtu lo. Ejemplo 4.1

Si se contesta al azar un examen tipo test de  10 de  10  preguntas, donde  cada una de ellas tiene   tiene   4   posibilidades siendo s´olo o lo una de ellas  cierta, cier ta, ¿qu´e n´umero umero de aciertos es m´as as probabl probable?  e?  Cuando alguien pregunta por el n´umero umero que sali´o en el sorteo de  la ONCE, la respuesta suele ser la unidad de dicho n´umero: umero: el 7, el  5,...¿c´ omo se distribuyen las unidades de los premios en el sorteo  omo de la ONCE?  En las oposiciones es frecuente que se realice un sorteo p´ ublico  ublico  extrayendo una serie de bolas o papeletas de una urna o bolsa. Imag´´ınese un opositor que se ha preparado   60  temas de   100 Imag 100,, de  los que se seleccionan al azar dos de ellos, ¿qu´e probabilidad p robabilidad tiene  el opositor de que sea elegido al menos uno de los temas que lleva   preparado?  Sabemos que el servicio de autobuses entre C´adiz adiz y San Fernando  tiene salidas cada media hora entre las   las   6   am y las   12   pm, una   persona que se ha olvidado el reloj en casa llega a la estaci´ o n de  on autobuses en C´adiz adiz ¿cu´al al es la probabilidad de que espere menos  de  10  10  minutos para coger el autob´ us?  us? 

Se sabe que las b omb ombillas illas de bajo consum consumoo de  14 w  14  w tienen una vida  media util u ´ til de  10000 horas,   10000  horas, mientras que las bombillas cl´asicas asicas por  incandescencia de  60  60  w tienen una vida media ´util util de 1000 horas. Si cada d´ıa se encienden unas  4  4  horas ¿cu´al al es la probabilidad de  que despu´es es de un a˜  no est´ en funcionando las dos?, ¿y ninguna en n inguna de  ellas?, ¿y al menos una de ellas?, ¿y como mucho una de ellas?  Si se controlan el peso, la edad, la estatura, la talla de pantal´on, on, las horas de estudio, la nota de selectividad, ... de los 350 alumnos  que est´an an matriculados en 1 de Empresariales y Econ´omicas omicas en el  campus de C´adiz adiz y Jerez, ¿qu´ e estructura tiene su distribuci´ on?  on?  o 

 

57 Cada una de las situaciones anteriores conlleva la realizaci´on on de un experimento aleatorio: “elegir una de las cuatro posibles respuestas en cada una de las preguntas”, “extraer la bola del n´umero umero de las unidades entre ent re las 10 posibles”, posibles”, “sacar “sacar 2 temas entre entre 100”, 100”, . . . , que proporcionan proporcionan resultados resulta dos de distinta natur naturaleza. aleza. As As´´ı, el n´umero umero de aciertos que se puede obtener al responder las 10 preguntas “variar´a” a” entre 0 y 10, o sea, tiene un n´ umero finito de posibles valores, mientras que el tiempo de espera umero para coger el autob´ us puede tomar infinitos valores dentro del intervalo us (0,, 30), s´olo (0 olo condicionado por la precisi´on on de los aparatos de medici´on. on. Esto lleva a una primera gran clasificaci´on on entre modelos de probabilidad discretos discr etos y con contin tinuos. uos. El prime primerr proble problema ma a resol resolver ver ser´ a la elecci´on on del modelo te´orico orico apropiado para cada caso en estudio. Para tener un buen manejo matem´atico atico de las distintas situaciones que se puedan plantear dada la distinta naturaleza y la diversidad de resultados que proporcionan los experimentos, necesita realizar unalos abstracci´ on cuantificada on del experimento. Paraseello se asignar´ a a cada uno de los posibles resultados del experimento aleatorio (suceso elemental) un n´ umero real. A esta aplicaci´on umero on se le llamar´a  variable aleatoria    y se designar´a por X,   X  toria  X    : Ω   R. As As´´ı en el primer ejemplo, la variable vari able aleatoria consistir consistir´´ıa en asignar al suceso “responder correcta-

 →

mente siete preguntas” el n´ umero 7. Esta asignaci´on umero o n no es unica, u ´ nica, se le pod podrr´ıa haber h aber asignado otro n´umero, umero, por ejemplo 17, lo que proporcionar´´ıa otra var cionar variable iable aleatoria, pero en este caso los valore valoress no ser ser´´ıan f´acilmente acilmente identificables en t´ erminos del experimento de partida. Como erminos norma, se intentar´a que la asignaci´on on se realice de la forma m´as as natura naturall posible. Adem´as, as, por abuso de lenguaje, se tiende a confundir la aplicaci´ aplicacion ´on X  con X   con los valores del conjunto imagen y se traslada la probabilidad de ocurrencia de un suceso al valor correspondiente de la variable aleatoria; por lo tanto, se puede hablar de la probabilidad de que la variable aleatoria tome un determinado valor. Las probabilidades asociadas a cada uno de los valores de la variable aleatoria pueden ser organizadas como una distribuci´on on de probabilidad, expres´andose andose mediante una tabla, una gr´afica afica o una f´ormula, ormula, denomin´andose andose en este ultimo u ´ ltimo caso, a la regla de correspondencia valores–probabilidades, funci´  valores–probabilidades,  funci´  on de probabilidad . probabilidad .

 

Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  58   Cap

DISCRETAS Distribuci´ on Binomial  

Par´ ametros n  =  = size  size;;   p =  = prob  prob

 

En Rcmdr binom

Binomial negativa   n  =  = size  size;;   p =  = prob  prob

 

nbinom

Geom´ Ge om´etri et rica ca Hipergeom´ Hiperge om´ etrica etrica

 

p  =  = prob  prob

 

geom

(N ,K,n) ,K,n) = (m,n,k ( m,n,k))

hyp er

Poisson   λ  =  = lambda  lambda   pois Tabla 4.1: Tabla de distribuciones discretas Como se ha indicado, seg´ un la naturaleza de la variable aleatoria un pueden considerarse considerarse distri distribucion buciones es de probabi probabilidad lidad   discretas   discretas   o   continuas . Las princi principales pales distribuciones distribuciones de probab probabilidad ilidad de variab ariables les discretas son:  Binomial  son: Binomial    Binomial ,  G  Geo eom´ m´etri et rica  ca ,,  Hi  Hiperg pergeom´ eom´ et rica  etri ca  y de de Poisson   Poisson  . Entre ,los modelosNegativa  de variable continua destacan las dis-

tribuciones:  Normal ,   T-Student ,  Chi-Cuadrado tribuciones: Normal   Chi-Cuadrado,,   F-Snedecor , F-Snedecor ,   Exponencial ,  Uniforme , Beta , Cauchy ,  Log´ıstica  ca ,,  Lognormal   Lognormal ,,  Gamma ,  Weibull   y Gumbel . Todas estas distribuciones est´an an recogidas en Rcmdr. Se puede acceder a ellas en:  Distribuciones Distribuciones continuas, o en en escribie en escribiendo ndo Distribuciones Distribuciones discretas, o tambi´ directamente en la ventana de instrucciones el nombre de la distribuci´on, on, poniendo delante delante una   d, si se quiere la quiere  la funci´  on de densidad , una  p  para la funci´  la  funci´  on de distribuci´  on , una  q  para  para los cuantiles  los  cuantiles  y   y una  r  para generar una muestra una  muestra aleatoria   aleatoria   de la distribuci´on; on; adem´as, as, por supuesto, de los argumentos argume ntos necesarios necesarios en cada caso.



1.



Dist Di stri ribu buci cion ones es di disc scre reta tass

En la tabla 4.1 est´an an resumidas todas las distribuciones contenidas en la versi´on on actual de  Rcmdr, sus par´ametros ametros (el nombre te´orico orico y el usado en el programa) y las instrucciones correspondientes. Para cada una de las distribuciones discretas est´an an disponibles las siguientes opciones:

 

4.1 Distribuciones discretas    59 Permite Permi te cal calcul cular valo alorr de launa vari ariabl ablee que deja Cuantiles: derecha o a  izquierda (seg´ uar un n seelseleccione) determinada pro-a babilidad.

Probabilidades:   Determina la probabilidad de que la variable tome un valor dado. Gr´ afica de la distribuci´ afica on:   Genera la gr´afica on: afica de la funci´on on de cuant´´ıa o de distrib cuant distribuci´ uci´on. on.

Genera mue muestras stras aleatorias aleatorias exMuestra Muestr a de la dis distri tribuc buci´ i´ on:   Genera on: tra´´ıdas de la distrib tra distribuci´ uci´on. on. de   P  P ((X  Probabilidades Acumuladas:  Calcula bien el valor de  x) (cola de la izquierda), o bien,   P  P ((X > x) (cola de la derecha) para cada valor x valor  x..

 ≤  ≤

Con el fin de familiarse con las distribuciones y su uso desde  Rcmdr, se ver´ an ahora algunos ejemplos representativos de las distribuciones m´as an as usuales.

1.1. 1. 1.

Distr Di stribu ibuci ci´ on Binomial ´ on

Ejemplo 4.2 

Si un estudiante responde al azar a un examen de   de   8  preguntas de verdadero o falso. a)  ¿Cu´al al es la probabilidad de que acierte   4?  La variable  X   X =“n´ =“n´ umero de aciertos” sigue una distribuci´on umero on Binomial de   par´ametros  ametros  n =  n  = 8 y  p =  p  = 1/2. Para calcular las probabilidades en  Rcmdr  se selecciona:   Distribuciones Distribuciones discretas



→Probabilidades binomiales...

Distribuci´ on bino on binomial mial



En es este te ca caso so se in intr trodu oduce  ce   Ensayos Ensayos binom binomiale iales= s= 8   y   Probabilidad   y se puede ver que  P (  P (X  =   = 4) = 0, 0 ,2734375 2734375.. de exito= exito= 0.5  y ´

 

60   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad 

 −

>.Table   <   data.frame data.frame(Pr=d (Pr=dbinom binom(0:8, (0:8, size= 8, prob= 0.5)) >rownames(.Table)   .Table

Pr

0 1 2 3 4 5 6 7 8

0.0039062 0.0039 0625 5 0.0312 0.0 312500 5000 0 0.1093 0.1 093750 7500 0 0.2187 0.2 187500 5000 0 0.2734 0.2 734375 3750 0 0.2187 0.2 187500 5000 0 0.1093 0.1 093750 7500 0 0.0312 0.0 312500 5000 0 0.0039 0.0 039062 0625 5

b)  ¿Cu´al al es la probabilidad de que acierte 2 o menos?  Se calcu calculan lan ahora las probabi probabilidade lidadess acum acumuladas: uladas:   Distribuciones







Distribuciones discretas Distribuci´ on bino on binomial mial Probabilidades binomiales acumuladas...   Para calcular la proba-

bilidad de que acierte   2  preguntas o menos, en la ventana que aparece, se de debe be in indi dica car  r   Valor Valor de la va vari riab able le= = 2   y   Ensayos binomiales=  on   Cola on 8 , dejando marcada la opci´ Cola izqui izquierda  erda . >pbino pbinom(c(2 m(c(2), ), size= 8, prob= 0.5, lower lower.tail .tail=TRUE) =TRUE) [1]   0.1445313

c)  ¿Cu´al al es la probabilidad de que acierte 5 o m´as?  as?  Para determinar la probabilidad de que acierte

5

o

mas  ´as 

 preguntas se realiza do en la ventana

el mismo procedimiento, pero se˜  nalanemergente    Va Valo lor r de la varia variabl ble= e= 4, y  andose la opc pciion ´on   Cola Dere Ensayos binomiales Ensayos binomiales= = 8 , tom´ Derecha  cha . >pbino pbinom(c(4 m(c(4), ), size= size=8, 8, prob= prob=0.5, 0.5, lower lower.tail .tail=FALS =FALSE) E) [1]   0.3632813

1.2. 1. 2.

Distr Di stribu ibuci ci´ on de Poisson ´ on

Ejemplo 4.3 

Una cierta area a´rea de Estados Unidos es afect afectada, ada, en prome promedio, dio, por 6 hura-

 

4.1 Distribuciones discretas    61

canes al a˜  no. Encuentre la probabilidad de que en un determinado a˜  no  esta ´area area sea afectada por: a)  Menos de 4 huracanes. Se define la variable   X  =“n´  = “n´umero umero de huracanes por a˜  no” y se sabe que  ´esta esta se distribuye mediante una Poisson, porque describe el n´umero umero de  ´exitos exitos por unidad de tiempo y porque son independie independiente ntess del tiempo  desde el ultimo u ´ ltimo evento. Se calcular´an an ahora las probabilidades: Como Co mo en el cas asoo an antter erio iorr se se se˜  nala  ˜    Probabilidades binomiales acumuladas... tomando ahora en la ventana emergente   Valor(es Valor(es) ) de on   Cola on la var variab iable= le= 4 , y   Media Media= = 6 , para la opci´ Cola izqui izquierda  erda . lower.tail=T tail=TRUE) RUE) >ppois(c(3),   lambda  = 6, lower. [1]   0.1512039

b)  Entre 6 y 8 huracanes. Para calcular la probabilidad de que ocurran entre 6 y 8 huracanes, se   pueden sumar las probabilidades   P  P ((X  X  =  = 6) + P  +  P ((X  X  =  = 7) + P  +  P ((X  X    = 8) o restar las probabilidades acumuladas, con la opci´on on   Cola Cola izqu izquierda  ierda , P ((X    8) P  P  P ((X    5) 5).. Como antes se realizan en primer lugar las   probabilidades acumuladas y se restan los resultados obtenidos:

  ≤  −

 ≤

>a   b   a-b [1]   0.4015579

Distribución de Poisson: Mean = 6    5    1  .    0    d   a    d    i    l    i    b   a    b   o   r    P   e    d   a   s   a    M

   0    1  .    0

   5    0  .    0

Distribuciones discretas Distribuci´ on de Poi on Poisso sson n de la dis distri tribuc buci´ i´ o n de on Poisson...(figura 4.1).



   0    0  .    0

0

5

10

15

x

Fig. 4. Fig. 4.1: 1: Di Dist stri ribuc buci´ i´ on de   Poisson

 

c)   Repre Represen sente te la func funci´ i´ o n de pr on prob obab abiilidad de la variable aleatoria que mide el  n´umero umero de huracanes por a˜  no. La gr´afiafica se realiza en   Distribuciones



→Gr´afica  afica 

62   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad 

1.3. 1. 3.

Distr Di stribu ibuci ci´ on Hip ´ on Hiperg ergeom´ eom´etric et rica a

Ejemplo 4.4

En un juego se disponen 15 globos llenos de agua, de los que 4 tienen  premio. Los participantes en el juego, con los ojos vendados, golpean golp ean los  globos con un palo por orden hasta que cada uno consigue romper 2. a)  ¿Cu´al al es la probabilidad de que el primer participante consiga  un premi premio?  o?  Pa Para raidos el primer mer partic ticipa ipant nte vari ariabl ablee X=“ X=“n´ n´ uuci´ umero me premio pre miossetrica  con-con segu se guid os pri entr en tree par 2 pos posib ible les” s”e la sigue si gue una distr dis trib ibuc i´ oro on n de Hipergeom´ Hip ergeom´ etrica  de pa par´ r´ ametros   m   = 11 ametros   11,, n   = 4, K    = 2. Pa Para ra ob obte tene nerr re respu spues es-ta a la lass cue uest stiion onees en   Rcmdr    se sel selecc ecciona iona::   Distribuciones

→Distribuci´on on hipe hipergeom rgeom´ etrica... ´ etrica...

Distribuciones discretas



Para calcular la probabilidad de que consiga un s´olo premioo se el mi elig igee la opc opci´ i´ on   probabilidades hipergeom´ on etricas..., con etricas... m(n´ u mero umer o de bo bola las s bl blan anca cas s en la ur urna na)= )= 11,   n(n´ umero de bol umero bolas as negr ne gras as en la ur urna na)= )= 4  y  k(n´  k(n´ umero de ext umero extrac raccio ciones nes)= )= 2 , resultando  P (  P (X  =   = 1) = 0, 0 ,41904762 41904762..

 −   data.frame(P data.frame(Pr=dhy r=dhyper(0 per(0:2, :2,

>.Table   <

m=11, n=4, k=2))

>rownames(.Table)   .Table

Pr 0 0.057 0.05714286 14286 1 0.419 0.41904762 04762 2 0.523 0.52380952 80952

b)  Construya la gr´afica afica de la funci´on on de distribuci´on. on. ´ Esta se obtiene en  Distribuciones Distribuciones discretas

→ → Distribuci´ on hipe on hipergeom rgeom´ etrica →Gr´ ´ etrica  afica de la dis afica distri tribuc buci´ i´ on on

marc rcan ando do la opc opci´ i´ on   gr´ on hipergeom´ etrica..., ma etrica... a fica afic a de la fu func nci´ i´ on on de dist distribuc ribuci´ i´ on  (figura 4.2). on c)   Si el primer participante ha conseguido s´olo olo un premio, ¿cu´al  al  es la probabilidad de que el segundo participante consiga otro?  Para el segundo participante la variable seguir´a una hip hipergeom´ ergeom´etrica etrica de   par´ametros  ametros   m= 10 ,   n= 3  y   y   k= 2 , resultando  P (  P (X  =   = 1) = 0, 0 ,38461538 38461538..

 

4.1 Distribuciones discretas    63 Distribución Hipergeométrica: m=11, n=4, k=2    0  .    1   a    d   a    l   u   m   u   c   a    d   a    d    i    l    i    b   a    b   o   r    P

   8  .    0    6  .    0    4  .    0    2  .    0

0.0

0.5

1.0

1.5

2.0

Número de aciertos

Figura 4.2: Distribuci´on on hip hiperg ergeom´ eom´etrica etri ca

1.4. Di 1.4. Distr stribu ibuci ci´ on Geom´ ´ on etri ca. Dist etrica. Distribu ribuci´ ci´ on Binomial on Negativa

Ejemplo 4.5 

Un ven vendedor dedor de alarm alarmas as de hogar tiene ´exito exito en una casa de cada diez  que visita. Calcula: a)  Laalarma probabilidad de que enque un visita. d´ıa ıa determinado consiga vender  la primera en la sexta casa Se defin finee la variable X=“ =“n´ n´ u mero de casas que visita antes  ume de co cons nseg egui uirr ven ende derr la pr prim imer eraa al alar arma ma”, ”, qu quee si sigu guee un unaa di dist stri ri-buci´on on Geom Geom´´etrica etrica con   Pro Probab babili ilidad dad de exito= exito= 0.1. Se selec´ cion ci onaa en   Rcmdr    Distribuciones Distribuciones discretas Distribuci´ on geo on geom´ m´ etrica Probabilidades geom´ etrica etricas.... etricas... Habr´a que calcular la probabilidad de que tenga 5 fracasos antes del   primer ´exito, exito, obteniendo de la tabla la probabilidad  probabilidad    P  P ((X  X    = 5 ) = 5,904900 904900ee 02 02.. b)  La probabi probabilidad lidad de que no ve venda nda ninguna despu´ es de siete vies viendas visitadas. La variable X=“n´ umero de alarmas vendidas en 7 viviendas” sigue una  umero









Ensayos os bino binomiale miales= s= 8  y    Probabilidad idad de distribuci´ on Binomial con   Ensay on  y  Probabil exito= 0.1, luego en nuestro caso se tiene   P  ´ exito= P ((X  =   = 0) = 0, 0 ,4782969 4782969.. c)   Si se plantea vender tres alarmas, ¿cu´al al es la probabilidad de  que consiga su objetivo en la octava vivienda que visita? 

 

64   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad 

CONTINUAS Distribuci´ on Normal  

Par´ ametros µ  =  = mean  mean;;  σ  =  = sd  sd

T-Student

 

Chi-Cuadrado  

Exponencial

n  =  = d  df  f 

 

t

 

chisq

n  =  = d  df  f 1; 1; m  m =  = d  df  f 22  

Uniforme Beta

n  =  = d  df  f   

F-Snedecor

En Rcmdr   norm

λ  =  = rate  rate

f   

exp

(a, b) = (min min,, max max))  

unif  

p  =  = shape  shape1; 1; q   q  =  = shape  shape22

b eta

Cauchy

 

t  =  = location  location;; s  =  = scale  scale

 

cauchy

Log´ Lo g´ısti ıs tica ca

 

t  =  = location  location;; s  =  = scale  scale

 

logis

Lognormal   µ  =  = meanlog  meanlog;;σ  =  = sdlog  sdlog

 

lnorm

Gamma

 

p  =  = shape  shape;;  α  α =  = scale  scale

 

gamma

Weibull

 

p  =  = shape  shape;;  α  α =  = scale  scale

 

weibull

Gumbel   p  =  = shape  shape;;  α  α =  = scale  scale   gumbel Tabla 4.2: Tabla de distribuciones continuas Par araa abo abord rdar ar es esta ta cu cues esti ti´´on, se define la variable Y= “n´ umeumero de casas que visita antes de cons nseeguir vend ndeer la tercera  alar al arma ma”. ”. Es Esta ta var aria iabl blee sig igue ue un unaa di dist strrib ibuc uci´ i´ on Bino nom mial Negativa de parametros  ´ametros    N´ u mero umer o de exitos exitos= ´ = 3 ,   Probabilidad de exito= exito= 0.1. En   Rcmdr    se se ´ sele lecc ccio iona  na    Distribuciones

→ Distribuciones discretas→Distribuci´ on bino on binomial mial negat negativa iva→ P ((Y  Y    = 5) = Probabilidades binomiales negativas..., de donde:   P  1,240029 240029ee−02 02.. 2.

Dist Di stri ribu buci cion ones es co con nti tin nua uass

En la tabla 4.2 est´ an resumidas todas las distribuciones continuas an contenidas en la versi´on on actual de  Rcmdr, sus par´ametros ametros (el nombre te´ orico y el usado en el programa) y las correspondientes instrucciones. orico Para cada una de las distribuciones continuas est´an an disponibles las

 

4.2 Distribuciones continuas    65 siguientes opciones:

Cuantiles:  Permite calcular el valor de la variable que deja a derecha o a izquierda (seg´un un seleccionemos) una determinada probabilidad. Probabilidades:  Determina la probabilidad que queda acumulada a izquierda (o a derecha) de un valor dado. afica de la funci´on on de Gr´ afica de la distribuci´ afica on:   Genera la gr´afica on: densidad o de distribuci´on. on. Genera mue muestras stras aleatorias aleatorias exMuestra Muestr a de la dis distri tribuc buci´ i´ on:   Genera on: tra´´ıdas de la distrib tra distribuci´ uci´on. on.

2.1. 2. 1.

Distr Di stribu ibuci ci´ on Normal ´ on Trabajando direc directamen tamente te en   R, para calcular los cuantiles nor-

mal es se usa males usarr´ıa  qnorm, agregando a ´esta esta los argumentos necesarios. En concreto, para hallar el valor que, en una N  una  N (0 (0,, 1), deja en la cola izquierda una probabilidad de 0, 0,25: qnorm(c(.25),   mean  = 0,   sd  = 1,   lower.tail  =  TRUE )

R–Nota 4.1

lower.tail   =   TRUE   TRUE   usa la col olaa de la iz izqu quie ierd rda, a, mi mieentr tras as qu que  e  lower.tail   =   FALSE   FALSE   usa la de dere reccha. Lo Loss pa par´ r´ ametros   lower.tail   = ametros   TRUE ,   mean   = 0   y  y    sd   = 1  pueden ser omitidos, pues son los valores por defecto en esta funci´on. on.

Ejemplo 4.6 

Una empresa esta esta buscando personal para su departamento de marketing. El perfil solicitado es el de sujetos extrovertidos y creativos. Se  han presentado 50 candidatos y la empresa ha establecido como criterio 

 

Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  66   Cap de selecci´on on el que los candidatos superen el percentil 80 en creatividad   y extrov extroversi´ ersi´ on. Sabiendo que la variable extroversi´on on. on   (X )   se distribu ye seg´ un una Normal de media 5 y desviaci´on un on t´ıpica 1, que la variable  creatividad   (Y  Y ))  sigue una t-Student de 10 grados de libertad y que las   puntuaciones creatividad extroversi´ extrov ersi´ on son independi on independient entes: es: a)  ¿Cu´antos ade ntos candidatosy ser´ an seleccionados?  an Al ser   X   e  Y    Y    independientes, la probabilidad  P (  P (X  P 80 Y  P 80 80 80 ) = P ((X  P 80 P  P ((Y  P 80 0 ,20 0,20 = 0, 0,04 04.. Como se han presentado  80 ) P  80 ) = 0, 50 aspirantes, 50  aspirantes, ser´an an seleccionadas   0,04 50 = 2 personas. 2  personas. b)  ¿Qu´e puntuaciones debe deb e superar sup erar un aspirante en creatividad y  extroversi´on on para ser admitido?  Seg´ un el criterio de selecci´on un on se debe superar el percentil   80 80,, en ambas  variabl ariables, es, para ser admitido. Se calcu calcular´ lar´ a pues el percentil   percentil   P 80 80   de la  variable  X    X   e  Y ,  Y  , utilizando los cuantiles normales para la variable  X :  X :

 ≥  ≥

·

 ≥

·

 ≥  ≥

∩  ≥

·

>   qnorm(c(.8), qnorm(c(.8), mean= mean=5, 5, sd=1, lower lower.tail= .tail=TRUE) TRUE) [1]   5.841621

 y los t-cuantiles para la variable  Y :  Y  : >   qt(c(.8), qt(c(.8), df=10 df=10, , lower lower.tail= .tail=TRUE) TRUE) [1]   0.8790578

c)  Si se extraen al azar   16 16 candidatos,  candidatos, ¿cu´al al es la probabilidad de  que su media aritm´etica etica en extroversi´on on sea mayor que  4,  4 ,5?  Se sabe que al extraer una muestra de una poblaci´on on normal de tama˜  no    ¯ n, la media de la muestra, X , sigue otra distribuci´on on normal de media   √  σ igual que la poblacional y desviaci´on on t´ıpic ıp ica  a  n . Por lo que en este caso    1 ¯   N   ¯   4,5) X  N (5 (5,, 4 ). Como se desea calcular   P  P ((X  5),, se selecciona   Cola    en la entrada de   Probabilidades derecha  en Probabilidades normales...

 ∼

 ≥

>   pnorm(c(4.5),mean=5,sd=0.25,lower.tail=FALSE) [1]   0.9772499

  Extroversi´ on on d)  Dibuje las gr´aficas aficas de densidad de las variables  Extroversi´  y  Creatividad   Creatividad. Para ello se selecciona la funci´on on de densidad de ambas variables en o bteni´ ni´endose end ose las fiDistribuciones Distribuciones Continuas..., obte guras 4.3 y 4.4.



 

4.2 Distribuciones continuas    67 Distribución Normal: µ = 5, σ = 1    4  .    0

   3  .    0    d   a    d    i   s   n   e    D

   2  .    0

   1  .    0

   0  .    0

2

3

4

5

6

7

8

x

Figura 4.3: Funci´on on de densidad de la variable extroversi´on on (normal)

2.2. 2. 2.

Distr Di stribu ibuci ci´ on Uniforme Continua ´ on

Ejemplo 4.7 

Una persona informal hace esperar a su pareja aleatoriamente entre   entre   0  y  90  90  minutos. Harto de esta situaci´on, on, la persona que sufre la espera se   plantea un ultim´atum; atum; si al d´ıa siguie siguiente nte su pareja tarda menos de   de   15 minutos mantiene la relaci´on, on, si la espera est´a entre   15   y   55  minutos, decide en la siguiente cita con los mismos criterios, mientras que si tarda  m´as as de  55  55  minutos la relaci´on on termina en ese momento. a)   Represente gr´aficamente aficamente la funci´on on de densidad de la variable 

que modeliza esta situaci´on. on. Se define la variable X=“tiempo de espera”, que sigue una distribuci´on on unif un ifor orme me co con nti tin nua de defin finid idaa en el in inte terv rval alo  o    (0 (0,, 90) 90).. En   Rcmdr  se selecciona    Distribuciones Distribuciones continuas Distribuci´ on unif on uniforme. orme... ..   Se el elig ige  e   Gr´ afica de la dis afica distri tribuc buci´ i´ on on marcando  ndo  Funci´ uniforme..., marca   Funci´ on de den on densid sidad ad (figura 4.5). b)   Calcule la probabilidad de que la relaci´on on con contin´ tin´ u e hasta la  ue siguiente cita. En   Probabilidades Probabilidades uniformes...  se indica el valor de la variable y  los l´ımites del interv intervalo, alo, dejando la opci´on on   Cola Cola Izqu Izquierda  ierda .





>   punif(c(55), punif(c(55), min=0, max=9 max=90, 0, lower lower.tail= .tail=TRUE) TRUE) [1]   0.6111111

c)  Calcule la probabilidad de que la relaci´on on termine en la segun segunda  da 

 

68   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  Distribución t: df = 10    4  .    0

   3  .    0    d   a    d    i   s   n   e    D

   2  .    0

   1  .    0

   0  .    0

−4

−2

0

2

4

t

on de densidad de la variable creatividad (t-student) Figura 4.4: Funci´on

cita. b)  En   Probabilidades Probabilidades uniformes... se indica el valor de la variable y los l´ımites del interv intervalo, alo, dejando la opci´on on   Cola Cola Izqu Izquierda  ierda . >   punif(c(55), punif(c(55), min=0 min=0, , max=9 max=90, 0, lower lower.tail .tail=TRUE =TRUE) )

[1]   0.6111111

c)   Supo Suponi nieend ndoo qu quee el ti tieemp mpoo de esp sper eraa en un unaa ci cita ta es in in-depen de pendi dien ente te re respe spect ctoo de ot otra rass ci cita tas, s, se ca calc lcul ulaa la pr prob obab abil ilid idad  ad  P (15 P  (15 <  < X <  55) = P  =  P ((X <  55) P  P ((X  15) = 0, 0,6111 0, 1666 = 0, 0,4445 4445,, que es la probabilidad de que aplace la decisi´on on para la segunda cita   y,, en la segunda cita, la probabilidad de que lo deje definitiv  y definitivamente  amente  es   P  P ((X >  55) = 0, 0,3888 3888,, luego multiplicando ambas probabilidades se  obtiene el valor pedido  0,  0 ,1728 1728..



2.3. 2. 3.

 ≤  ≤



Distr Di stribu ibuci ci´ on Exponencial ´ on

Ejemplo 4.8 

La duraci´ duracion ´on media de un modelo de marcapasos es de  7 de  7  a  a˜  nos. ˜  a)  ¿Cu´al al es la probabi probabilidad lidad de que dure al menos  5 a˜   5  a˜  nos? ¿y menos  de  3?   3 ? 

 

4.2 Distribuciones continuas    69 Distribución Uniforme: min=0, max=90

   4    1    0  .    0    d   a    d    i   s   n   e    D

   2    1    0  .    0    0    1    0  .    0    8    0    0  .    0

0

20

40

60

80

x

Figura 4.5: Funci´on on de densidad

La var aria iabl blee X= X=“t “tie iempo mpo de fu func ncio iona nami mien ento to de dell ma marc rcap apas asos os”” si si-guee un gu unaa dis distr trib ibuc uci´ i´ o n ex on expone ponenc ncia iall co con n pa par´ r´ ametro    λ   = 1/7. Ut ametro   Utiiliza li zand ndoo la opc opci´ i´ on   Distribuciones Distribuciones continuas on Distribuci´ on expo on exponenci nencial al Probabilidades exponenciales...   se  obtiene  P (  P (X  5)



 ≥  ≥





>   pexp(c(5), rate=0.1428, lower.tail=FALSE) [1]   0.4896815

 y de igual forma  P (  P (X <  3)  3):: >   pexp(c(3), rate=0.1428, lower.tail=TRUE) [1]   0.3484493

b)  Si han transcurrido ya   ya   4   a˜  nos desde su implantaci´on, on, ¿cu´al al es  la probabilidad de que dure otros  4?   4 ?  Teniendo en cuenta que  1  1 F  F ((x) =  e−λ·x , se tiene que  1  1 F  F (8) (8) = e =  e−8·λ = − 4 · λ 2 2 (e ) = (1 F  F (4)) (4)) , con lo que  P (  P (X  8/X  4) = (1 F  F (8)) (8))//(1 F (4)) F  (4)) = 1 F  F (4) (4) = 0, 0,5647182 5647182.. c)   ¿Cu´anto anto tiempo deber deber´´ıa funcio funcionar nar un marca marcapasos pasos para estar  entre el   10 %  de los m´as as duran? Hay que calcular el percentil 90 seleccionando:









 ≥  ≥

 ≥  ≥









Distribuciones Distribuciones Continuas con Distribuci´ on expo on exponenci nencial al Cuantiles exponenciales..., las opciones   Probabilidades= Probabilidades= 0.9 ,   Par´ ametro de la exp ametro expone onenci ncial=  al=  0.14285   y   Cola Izqu Izquierda  ierda , o de fo form rmaa si simi mila lar, r,   Probabilidades=  0.1,   Par´ ametro de la exp ametro expone onenci ncial= al= 0.1 0.1428 4285  5    y    Cola Derec Derecha  ha ,



 

70   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  Distribución Exponencial: rate = 0.1428571

   2    1  .    0

   d   a    d    i   s   n   e    D

   8    0  .    0

   4    0  .    0

   0    0  .    0

0

10

20

30

40

50

x

afica de la funci´on on de densid densidad ad de una Exp(0.14285 Exp(0.14285 Figura 4.6: Gr´afica

1/7)

≈ resultando  16,  16 ,12 12 a  a˜  nos. ˜  d) Calcular el valor que deben tener  a y   a  y  b para  b  para que  P (  P (X < a) a ) = 0, 0 ,5  y  P (  P (X > b) = 0, 0 ,32 32,, De forma an´aloga aloga al apartado anterior, en el primer  caso habr habr´´ıa que calcular la mediana,   a   = 4,852 852,, y en el segundo, el   percentil  68,  68, b  b =  = 7,97 97.. e  e)) Represente la funci´on on de densidad de la variable  aleatoria asociada. Figura 4.6.

2.4. 2. 4.

Distr Di stribu ibuci ci´ on t-Student ´ on

Ejemplo 4.9 

Una variable variable X sigue una distr distribuci´ ibuci´ on t-Student con 16 on con  16  grados de libertad. a)  Calcular la mediana y el percentil   85 85.. Habrr´ıa que cal Hab calcul cular ar Me de for forma ma que  que    P  P ((t16   M e) = 0,5, para ello se selecciona  Distribuciones Distribuciones Continuas Distribuci´ on t Cuant on Cuantiles iles t..., con las opciones  Probabilidades=   Probabilidades=    o, de forma similar, 0.5 ,   Grad Grados os de lib libert ertad= ad= 16   y  Cola   Cola Izqui Izquierda  erda  o, Probabilidades= 0.5 ,   Gra Grados dos de lib libert ertad= ad= 16  y   y   Cola Cola Dere Derecha  cha , resulta que el valor de la mediana es  0 es  0..





 ≥



>   qt(c(0.5), qt(c(0.5), df=16 df=16, , lower lower.tail .tail=TRUE =TRUE) ) [1]   0

 

4.2 Distribuciones continuas    71 Distribución Chi−cuadrado: df = 28

Distribución t: df = 16    4  .    0    5    0  .    0

   3  .    0    d   a    d    i   s   n   e    D

   4    0  .    0    d   a    d    i   s   n   e    D

   2  .    0

   1  .    0

   3    0  .    0    2    0  .    0    1    0  .    0    0    0  .    0

   0  .    0

−4

−2

0

2

10

4

20

30

40

50

60

2

t

χ

afica de la funci´on on de densidad t densidad  t 16   y  χ 28 Figura 4.7: Gr´afica El percentil 85 se calcula de forma parecida: >  qt(c(0.85  qt(c(0.85), ), df=16 df=16, , lower lower.tail .tail=TRUE =TRUE) ) [1]   1.071137

b)  Encontrar el valor de  a  a  de forma que  P (  P ( 1  < X < a) a) = 0, 0 ,7. Paraa calcu Par calcular  lar   a, se descompone la probabilidad   probabilidad   P  P (( 1   < X < a) a) = P ((X < a) P  P  P ((X  1),, se calcula   P  1) P ((X  1)   utilizando la opci´on on





 ≤ −

Probabilidades t...

 ≤ −



>   pt(c(-1), pt(c(-1), df=16 df=16, , lower lower.tail .tail=TRUE =TRUE) ) [1]   0.1660975

 y  y, , se despeja  P (  P  (X  qt(c(0.86  qt(c(0.866), 6), df=16, lower lower.tail .tail=TRUE =TRUE) ) [1]   1.147611

resultando el valor de   a =1,147611 147611.. c)  Obtener la gr´afica afica de su funci´on on de densidad. ¿Qu´e similitud  tiene con la normal  N (0 1)?  ?   N (0,, 1) Como se puede observar en la figura 4.7 su estructura es similar a la  N (0; ( 0; 1) 1) con  con la particularidad de que en la zona central la  t  t16  se encuentra   por debajo de la normal, consecuencia de tener una vari varianza anza may mayor. or.

 

72   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad 

2.5. 2. 5.

Distr Di stribu ibuci ci´ on Chi-cuadrado. Distribuci´ ´ on on F-Snedecor on

Ejemplo 4.10 

La variable X sigue una distribuci´on on Chi-c Chi-cuadrado uadrado con   28   grados de  libertad. a)  Calcule la probabilidad de que X sea mayor de  7,  7 ,5. La probabilidad pedida  P (  P (χ28  >  > 7  7,,5) 5),, se obtiene en  Distribuciones







Distribuciones Continuas Distribuci´ on Chion Chi-cuadr cuadrado ado pciiones    Valor(es) Probabilidades Chi-cuadrado..., con las opc de la var variab iable= le= 7.5 ,   Gra Grados dos de lib libert ertad= ad= 28    y    Cola dere derecha  cha .

Su valor es   0,9999611 9999611.. >   pchisq(c(7.5), df=28, lower.tail=FALSE) [1]   0.9999611

b)  Obtenga la funci´on on de densid densidad, ad, ¿qu´e caracter´ısticas ısticas se observan?. Otra variable Y sigue una distribuci´on on F de Snedecor con  con   n1  = 8  y  n  n 2  = 14 14 grados  grados de libertad, si se representa su funci´on on de densidad. Como se puede observar en la figura 4.7 s´olo olo toma valores positivos y es  asim´etrica etrica con forma campan campaniforme iforme,, salvo para  n  n 2.  c  c))  ¿Q  ¿Qu´ u´e sim simili ilitu tu-des hay entre las gr´aficas?  aficas?  Como se aprecia en 4.8, en general, sus caracter´ caracter´ısticas son muy similares 



2

a la funci´on on de densidad de la  χ  χ .

 

4.3 Generaci´on on de valores aleatorios    73 Distribución F: Numerador df = 8, Denominador df

   6  .    0    d   a    d    i   s   n   e    D

   4  .    0

   2  .    0

   0  .    0

0

2

4

6

8

f

on de densidad F  densidad  F 8,14 Figura 4.8: Funci´on

3.

Generacion on de valores aleatorios ´

Hay situaciones donde es necesario generar valores aleatorios que sigan sig an un det determ ermina inado do pat patr´ r´ o n y qu on quee per permi mita tan n es estu tudia diarr el co compo mport rtaamiento mien to de deter determinado minadoss modelos, simular simular situa situacione cioness de laborator laboratorio, io, generar la distribuci´on on de una combinaci´on on de variables, comparar valores mue muestral strales es con los extra extra´´ıdos de la ve verdader rdaderaa poblaci´ o n en estuon dio, . . . En   Rcmdr, para cada una de las distribuciones de probabilidad que tiene implementadas, se puede seleccionar la opci´on on  Muestra As´´ı, para gener generar ar una mue muestra stra de tama˜ no no de una dist distribuc ribuci´ i´ on.... As on... 15 de una distribuci´on on uniforme en el intervalo [0, [0, 1], se selecciona en





Distribuciones Distribuciones continuas Distribuci´ on uni on uniforme Muest Muestra ra de una distr distribuc ibuci´ i´ on unifo on uniforme.. rme... ., y se introducen



los par´ametros, ametros, en este caso, para obtener los datos en formato de columna,   M´ ınimo= 0,   M´ ınimo= aximo= 1,   N´ aximo= umero de mue umero muestr stras as (fi (filas las)= )= 15   y N´ umero de obse umero observaci rvaciones ones (columnas)= (columnas)= 1 .

 −



>   Muestras uniformes   <   as.data.frame(matrix(runif(15 1,  min=0, max=1  min=0, max=1), ), ncol= ncol=1)) 1)) >   rownames(Muestras uniformes)   <   paste(‘‘sample’’, paste(‘‘sample’’, 1:15, sep=‘‘’’) >   colnames(Muestras uniformes)   <   ‘‘obs’’

 −  −

Para mostrarlos en pantalla se escribe en la ventana de instrucciones el nombre que se le haya asignado a la muestra:

 

74   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  >   Muestras uniformes obs sample1 sampl e1 0.225 0.22597988 97988 sample2 sampl e2 0.659 0.65997127 97127 sample3 sampl e3 0.070 0.07038248 38248 sample4 sampl e4 0.529 0.52902704 02704 sample5 sampl e5 0.045 0.04517561 17561 sample6 sampl e6 0.739 0.73990437 90437 sample7 sampl e7 0.904 0.90452613 52613 sample8 sampl e8 0.600 0.60055627 55627 sample9 sampl e9 0.994 0.99432508 32508

sampl sample10 e10 sample11 sampl e11 sample12 sampl e12 sample13 sampl e13 sample14 sampl e14 sample15 sampl e15

0.706 0.70652675 52675 0.97110556 0.971 10556 0.24558711 0.245 58711 0.68375576 0.683 75576 0.95487024 0.954 87024 0.80651304 0.806 51304

O tam tambi´ bi´ en se puede pulsar el bot´on en on   Visualiza Visualizar r conj conjunto unto de podr dr´´ıan generar muestras aleadatos en  Rcmdr. De la misma forma se po torias para el resto de las distribuciones de probabilidad.

 

4.4 Ejercicios    75

4.

Ejercicios

4.1   Se responde al azar un examen tipo test de 10 preguntas donde en cada una de ellas se plantean 4 posibilidades siendo s´olo olo una de ellas cierta. Si se responden todas las preguntas y, las preguntas con respuestas correcta suman un punto mientras que las contestadas incorrectamente restan un cuarto de punto, se pide: a)  La variable aleatoria asociada. b)  Las gr´aficas aficas de la funci´on on de cuant cuant´´ıa y distribuci´on on y com´ co m´entel ent elas as.. c)  La probabilidad de obtener 3 aciertos. d) La probabilidad de aprobar.  ¿Qu Qu´´e numero u ´ mero de aciertos es m´as as probabl probable? e? e)  ¿ f )  ¿Cu´antos antos aciertos debe tener para quedar por encima de la mitad de la clase? g) ¿Y por encima de un tercio de la clase? on  B(1 (10; 0; 0,4), calcule las siguientes proba4.2   Dada la distribuci´on B bilidades:  P ((X  8) a) P  b) P  P (2 (2 <  < X  5)  P ((X  7) c)  P 

  ≤≤  ≤  ≤  ≥  ≥

on ha explotado tanto a sus com4.3  Un conocido fumador gorr´on pa˜neros neros que por t´ ermino medio cada uno de ellos le da un ciga ermino cigarrill rrilloo de cada diez veces que qu e ´este este les pide. al es la probabilidad de que consiga 1 cigarrillo en a)  ¿Cu´al menos de 5 intentos? b) Si pretende hacer acopio de cigarrillos para el fin de semana, ¿cu´antas antas veces, en promedio, tendr´a que pedir tabaco para conseguir 20 unidades? ubliubli4.4   En las oposiciones es frecuente que se realice un sorteo p´ co ex extr tray ayen endo do una serie serie de bol bolas as o pa papel pelet etas as de una urna o bol bolsa sa.. Imag´´ınese que un opositor se ha prepar Imag preparado ado 60 temas entre 100, de los que se seleccionan al azar dos temas. Se pide: a)  La variable aleatoria asociada.

 

Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad  76   Cap aficas de la funci´on on de cuant cuant´´ıa y distribuci´ on y on b)  Las gr´aficas com´ co m´entel ent elas as..

c)   La probabilidad de que le salga uno de los temas que lleva preparado. d)  La probabilidad de que le salgan dos de los temas que lleva preparado. e ocurre con la probabilidad anterior si aumenta el e)  ¿Qu´ n´umero umero de temas preparados a 80?

4.5  A un establecimiento de apuestas deportivas llega 1 cliente cada 3 minutos por t´ermino ermino medio. al es la probabilidad de que en un periodo de 5 mia)  ¿Cu´al nutos lleguen m´as as de 5 clientes? b)  ¿Cu´al a l es el n´ umero m´as umero as probable de llegadas en media hora? n´ıas a´ereas erea s acos acostumb tumbran ran a rese reservar rvar m´as as plazas de 4.6  Las compa˜ las existentes en sus vuelos, dado el porcentaje de anulaciones que se produce. Si el porcentaje porcentaje medio de anulaciones anulaciones es del 5 %, ¿cu´ antas reantas servas serv as deber´ deb er´ a hacer una compa˜ n´ıa para pa ra un vuelo con 200 plazas, si quiere qui ere con una pro probabi babilid lidad ad del 97 % que todos sus cli clien entes tes tengan tengan cab cabida ida en dicho vuelo? on de consumi4.7  El servicio de reclamaciones de una asociaci´on dores recibe por t´ ermino medio 3 quejas a la hora. ermino a)  Calcule la probabilidad de que en 1 hora no reciba ninguna reclamaci´on. on. b) Calcule la probabilidad de que en 2 horas reciba entre 2 y 6 reclamaciones. haycalcule 10 peces machos y 8 hembras, si se maex4.8  En una pecera traen aleatoriamente 5 peces, la probabilidad de que 3 sean

chos y 2 hembras. umero de los 37 4.9   Un jugador apuesta 5e   por tirada a un n´umero que componen la ruleta, si acierta, gana 180 e. Calcule los beneficios esperados al cabo de 100 jugadas.

 

4.4 Ejercicios    77 adiz y San Fernando tiene 4.10  El servicio de autobuses entre C´adiz salidas cada media hora entre las 6 am y las 12 pm, una persona que se ha olvidado el reloj en casa llega a la estaci´on on de autobuses en C´adiz, adiz, se pide: on. a) La variable aleatoria adecuada para esta situaci´on. b)  Las gr´aficas aficas de la funci´on on de densidad y distribuci´on on y com´ co m´entel ent elas as.. al es su media? ¿y su mediana? ¿y su moda? c)  ¿Cu´al d) La probabilidad de que espere menos de 10 minutos. as de 15 minutos, pero e)  La probabilidad de que espere m´as menos de 20. al es la probabilidad de que espere exactamente 11 f )  ¿Cu´al minutos y medio?

4.11  Se sabe que las bombillas de bajo consumo de 14 w tienen una vida util u ´ til media de 10000 horas, mientras que las bombillas cl´asicas asicas por incandescencia de 60 w tienen una vida ´util util media de 1000 horas.Si cada d´ıa se encienden unas 4 horas, en esta situaci´ on on a) Defina la variable aleatoria asociada. aficas de la funci´on on de densidad y distrib) Obtenga las gr´aficas buci´on on y co com´ m´entela ent elas. s. al es su media? ¿y su mediana? c)  ¿Cu´al d) ¿Cu´al al es la probabilidad p robabilidad de que despu´es es de un a˜ an ˜ o es est´ t´en en funcionando? 4.12  ¿Cu´al al es la probabilidad de que de 10 personas elegidas al azar al menos 2 cumplan a˜ nos en el mes de Enero? nos

4.13  Durante la Segunda Guerra Mundial los alemanes bombardearon repetidasindiscr vecesiminados Londres. set´ trataba de bombardeos b ombardeos indiscriminad os yLos queexpertos ca´´ıan endemostraron ca cada acci´ a cci´on on que y por p or er minoo ermin medio 2 bombas por cada cuadr´ cuadr´ıcula de 100 metro metross de lado. En vista a lo anterior, calcule la probabilidad de que en una cierta cuadr cuadr´´ıcula de 50 metros de lado no hay hayaa ca ca´´ıdo ninguna bomba durante un bombardeo.

4.14  Dada una distr distribuci´ ibuci´ on normal de media 3 y varianza 9, calon cule las siguientes probabilidades:

 

78   Cap Cap´´ıtulo 4. Distribucione Distrib ucioness de Probabilidad  Probabili dad   P (2 (2 X  5) a) P  b) P  P ((X  3)  P ((X  2) c)  P 

≤  ≤  ≤  ≥  ≥  ≤ −

on que premia aque4.15  La centralita de un programa de televisi´on llos concursantes que llaman dando la respuesta correcta de un concurso, atiende 1 de cada 10 llamadas que se realizan. Qu´´e numero u ´ mero medio de llamadas se tendr´an an que realizar a) ¿Qu para ser atendido? al es la probabilidad de ser atendido a la primera? b) ¿Cu´al



 ∼  ∼

4.16   Calcule en los siguientes casos el valor de   a, sabiendo que N (1 N  (1,, 5).  P (0 (0 X  a) = 0, 0 ,28 a) P  P (1 (1 a X <  1 + a) = 0, 0 ,65 b) P 

≤  ≤  ≤ − ≤

4.17  Se sabe que la alarma de un reloj saltar´a en cualquier momento entre las siete y las ocho de la ma˜nana. nana. Si el propietario del reloj se despierta al o´ır dicha alarma y necesita, como m´ınimo, vein veinticinco ticinco minutos para arreglarse y llegar al trabajo, al es la probabilidad de que llegue antes de las ocho? a) ¿Cu´al no del reloj sigue programando el reloj de la no b)   Si el due˜

misma manera durante 10 d´ıas, calcule el n´umero umero m´as as pro probab bable le de d´ıas en que llegar´a despu´es es de las ocho.

4.18  Si se controlan el peso, la edad, la estatura, talla de pantal´on, on, horas hor as de est estudi udio, o, nota de sel select ectivi ividad, dad, . . . de los 350 alu alumno mnoss que est est´an ´an o matric mat ricula ulados dos en 1 de Empr Empresa esaria riales les y Eco Econ´ n´ o micas en el campus de omicas Cadiz y Jerez. ¿Qu´ e estructura tiene su distribuci´ on? on? ind´ıgena se sabe que los homb hombres res tiene tienen n una 4.19  De una tribu ind´ estatura que se distribuye seg´ un una ley normal con media 1,70 y desvi un desviaaci´ on t´ıpic on ıp icaa  σ  σ.. Si a trav´es es de estudios realizados se conoce que la probabilidad de que su estat estatura ura sea may mayor or a 1,80 es 0,12, calcule calcule la probabilidad probabilidad de que un individuo elegido al azar mida entre 1,65 y 1,75. as de 200 seises en 1200 4.20  Calcule la probabilidad de obtener m´as

 

4.4 Ejercicios    79 lanzamientos de un dado no trucado. no 10, 100, 500 y 1000 de una po4.21  Genere muestras de tama˜no blaci´ on que sigue una distribuci´on on o n normal de media 3, 3 ,5 y desviaci´on on t´ıpica 2. Estudie el comportamiento de la media y desviaci´on on t´ıp ıpica ica en las cuatro muestras. no 50 para una cano 4.22  Obtenga una muestra aleatoria de tama˜ racter´´ıstica poblacional que sigue una distribuci´ racter on binomial de par´ameon ametros n tros  n =  = 12 y p y  p =  = 0,7. Calcule su media y desviaci´on on t´ıpi ıpica ca com compar par´ando´andolas con los respectivos valores poblacionales. Adem´as, as, represente los datos mediante un diagrama de barras y compare los resultados con los observados en la gr´afica afica de la funci´on on de cuant cuant´´ıa de la distribuci´ on bion nomial. ¿Qu´ e ocurre si se aumenta el tama˜no no de la muestra a 500?

 

80

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´  adiz adiz http://knuth.uca.es/ebrcmdr

Cap Ca p´ıt ıtul ulo o 5 Inferencia cl´ asica en poblaci asica poblaciones ones Normales

1.

Conc Co ncep epto toss fu fund ndam amen enta tale less

Hasta ahora los objetivos planteados se han limitado a explorar un conjunto conj unto de datos describiendo sus caracter caracter´´ısticas principales o las relaciones entre distintos caracteres. La intenci´on on de este cap cap´´ıtulo es hacer una primer primeraa incur incursi´ si´ on en lo que se conoce como  an´  on alisis inferencial , en el que a partir del estudio de una muestra peque˜na na y representativa de miembros de un gran colectivo, se extraen conclusiones que afectan a todos los elementos del mismo. Interesa, por ejemplo, conocer aproximadamente las principales caracter caracter´´ısticas del colectivo colectivo,, como pueden ser la media, la desviaci´on on t´ıpica, su estructu estructura ra probab probabil il´´ıstica,. . . El enfoque que se le va a dar a este tema se conoce como  c  cl´  l´  asico.. asico En ´el, el, las caracter´ısticas ısticas pob poblacion lacionales ales a estudiar est udiar se considera co nsideran n par´ p ar´ameametros (constantes desconocidas), mientras que los elementos de la muestra se consideran vari variables ables aleatorias. La alternativ alternativaa a este enfoque enf oque vendr vendr´´ıa dada por la   teor´ıa ıa baye bayesi siana  ana ,, en el que los par´ametros ametros son variabl ariables es aleatorias, mientras que los datos que se poseen de la poblaci´on o n son considerados constantes. Desde un punto de vista intuitivo, parece razonable que si efectivamente la muestra representa bien al colectivo, los par´ametros ametros muestrales

 

82   Cap Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  sean muy parecidos a los poblacionales y aunque ciertamente este enfo-

sean muy parecidos a los poblacionales y aunque ciertamente este enfo que de  de   estimaci´  on puntual   puntual   es b´asicamente asicamente correcto, adolece de ciertas carencias que lo convierten s´olo olo en una parte del proceso inferencial. Interesa dar una mayor consistencia al an´alisis alisis inferencial y ello se consigue desde dos puntos de vista, que en muchas ocasiones son complementarios: la construcci´on on de intervalos de  intervalos de confianza  y confianza  y la realizaci´on on de contrastes de  contrastes de hip´  otesis . Tanto uno como otro tienen en cuenta el margen de error deriv derivado ado de cierta p´ erdida de informaci´ erdida on, que se produce on, al int intent entar ar expli explicar car el comporta comportamien miento to de una poblaci´ on a partir del coon nocimiento de una parte muy peque˜na na de sus miembros. Para ilustrar lo dicho se introduce el siguiente ejemplo: Ejemplo 5.1

Una m´aquina aquina est´a preparada para fabricar piezas de 7 cms de longitud. En una inspecci´on on se toman 1000 piezas fabricadas por dicha m´aquina, aquina, comprob´andose andose que la media de ´estas estas es de 7,0037 cms. Si se tomara tomaran n decisiones s´olo olo a partir de esta estimaci´on on puntual habr´ıa ıa que conclui concluir  r  que la m´aquina aquina se ha desajustado y actuar en consecuencia. Pero se  est´a desaprovechando informaci´on on importante, como si la varianza de  los datos es alta o peque˜  na, o si, como parece, la distribuci´on o n de las  longitudes es normal. La utilizaci´on on de dicha informaci´on o n va a permitir construir untamente intervalo confianza para la media de laapoblaci´ onEno  confirmar confir mar direc directamen te si de ´esta esta se puede considera considerar r igual 7 cms.on todo caso se estar´a asumiendo un margen de error derivado del proceso  de extracci´on on aleatorio de la muestra, ya que si se eligieran otras 1000   piezas la media ser ser´´ıa distinta a la anterior.

En el caso de los intervalos de confianza, el objetivo es dar una cierta “garant “garant´´ıa” de la presencia del par´ametro ametro dentro de un intervalo con constr struido uido a partir de la mu muest estra, ra, mientra mientrass que para el caso de los contrastes, la pretensi´on on es dar respuesta a si el valor del par´ametro ametro se encuentra, a la luz de la evidencia muestral, dentro de un conjunto de valores especificados en lo que se conoce como hip´  como  hip´  otesis nula  (H   ( H 0 ) o, por el contrario, se haya dentro de su alternativo especificado por la hip´  la  hip´  otesis  alternativa   (H 1 ).

 

5.1 Conceptos fundamentales    83 Se llama nivel llama  nivel de confianza , 1 α, de un intervalo a la probabilidad (a priori) de que el intervalo contenga el valor del par´ametro ametro a estimar. La interpretaci´on on habitual del nivel de confianza es la probabilidad de que el intervalo de confianza, ya obtenido, contenga el valor del par´ametro. ametro. Esta interpretaci´ on es incorrecta pues una vez obtenido el on intervalo el valor del par´ametro ametro est´a o no est´a y no tiene sentido hablar de la probabilidad de que esto ocurra. 1 α  debe interpretarse como la proporci´on on te´orica orica de intervalos (ya construidos) que contiene al valor del par´ametro. ametro.





Para el caso de los contrastes,  contrastes,   α  es la probabilidad de rechazar la hip´otesis otesis nula cuando ´esta esta es cierta y se conoce tambi tambi´´en en como probabilidad de error de  error de tipo I , I , 1 α  tambi´en en se lla llama ma aqu´ı nivel de con confian fianza. za. En el caso de los contrastes, existe un error asociado al   α  que se conoce como β  como  β  y  y que indica la probabilidad de no rechazar la hip´otesis otesis nula cuando es e s falsa, conoci co nocido do tambi´en en como probabi p robabilidad lidad de d e error de tipo II , II , 1 β  se  se conoce como pote como  potencia ncia del test . Ambos errores son contrapuestos y fijado un tama˜ no muestral no muestral cuando uno de los dos crec crecee el otro decre decrece. ce. El cuadro que sigue recoge las distintas situaciones que pueden darse a la hora de realizar un contraste en t´ermino ermino de los errores y aciertos.





Decisi´ on es on esta tad d´ıs ısti tica ca Estado Real   H 0   cierta de la cuesti´ on   H 0   falsa on

No rechazar  rechazar   H 0   Rechazar  Rechazar   H 0 Correcta Error tip o I Error tip o I I Correcta

En el peor de los casos, a la hora de realizar un estudio inferencial se cuenta con la informaci´on on muestral, mientras que en las ocasiones m´as as fa favo vorab rables les,, se tie tiene ne un con conocim ocimien iento to bas bastan tante te apr aprox oxima imado do de la estructura de probabilidad de la poblaci´on on analizada. analizada. Cuando se hace uso de la distribuci´on on de probabilidad de la poblaci´on on estudiada se dice que la inferencia realizada es pa es  param ram´ ´etri et rica  ca ,, mien mientras tras que si s´olo olo se hace uso de la muestra, la inferencia es no es  no para param´ m´etri et rica  ca .. El objetivo en los contrastes param´etricos etricos es intentar obtener inform informaci´ aci´on on sobre los par´ametros ametros desconocidos de la distribuci´on on de la poblaci´on on bajo estudio. En el caso de los contrastes contraste s no param´etricos, etricos, su objetivo ob jetivo es intentar determina det erminarr alguna caracter´ıstica ıstica de la pob poblaci´ laci´on on o de la muestra bajo estudio.

 

84   Cap Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  Puesto que los contrastes param´etricos etricos utilizan m´ as informaci´on as on que los no param´etricos, etricos, ofrecen mejores resultados. Por ello, siempre que sea posible se debe recurrir a los primeros. Dependiendo de la estructura de sus hip´otesis, otesis, se distingue entre los siguie siguiente ntess tipos de con contrast trastes: es:

1.   Contrastes bilaterales  : en ellos se propone valor apuntual para el par´ametro ametro bajo estudio, de forma que se un rechazar´ bien porque la evidencia muestral lleve a decidir que el valor es mayor que el propuesto o bien que es menor. Formalmente:  

H 0  : : θ  θ =  = θ  θ 0 H 1  : : θ  θ =  θ 0

 

2.   Contrastes unilaterales : en ellos se propone que el valor del par´aametro se encuentre por debajo (o por encima) de un cierto valor. Las dos situaciones se plantear plantear´´ıan de la siguiente forma:  

H 0  : : θ  θ θ0 H 1  : : θ  θ < θ 0



 

H 0  : : θ  θ θ0 H 1  : : θ  θ > θ 0



Se puede observar que en todos los casos el signo igual est´a incluido en la hip´otesis otesis nula, el motivo de ello se encuentra en el procedimiento que se va a utilizar para realizar el contraste. Las distribuciones distribuciones asociadas al proceso de mue muestreo streo son la  normal y la   t de st stud uden ent t  para el estudio de medias, la  Chi-cuadrado  para la varianza y la   F de Sne Snedec decor or  para la comparaci´ on de varianzas; todas on ellas estudiadas en el anterior cap´ cap´ıtulo. En E n general, interesa analizar el comportamiento de la media, aunque el mismo va a depender del conocimiento o no que se tenga de su varianza o si, para el caso de dos poblaciones sus varianzas coinciden. No hay que olvidar que la varianza determina la escala de la variable y siempre es m´as a s f´acil acil comparar aquellas poblaciones con el mismo factor de escala.

 

5.2 Inferencias sobre una poblaci´on on   85

Figura 5.1: Ventana de di´alogo alogo para el test t Es muy importante entender que en el  contraste de hip´  otesis    los otesis  roles que juegan las hip´otesis otesis nula y alternativa no son equiparables y mucho menos intercambiables. En todo caso, hay que ver este enfoque como una regla de confirmaci´on on sobre una cuesti´on on que el investigador cree razonablemente que es cierta, siendo la funci´on on del contraste la de validarla o, por el contrario, si la evidencia muestral en contra es muy fuerte,, la de rec fuerte rechazar hazarla. la. En este cap cap´´ıtulo se estudiar´ an problemas que involucran a una an o dos poblacio poblaciones, nes, mien mientras tras que en el cap cap´´ıtulo 7 se gener generaliza alizar´ r´ a n los an resultados a m´ aselde poblaciones. Se las aceptar´ a, a nes a, expensas poder comprobarlo enas pr´oximo odos ximo ca p´ıtulo, que cap p oblaciones poblacio sigu en de siguen distri distribubuciones normales; caso de que esto no fuera cierto, habr´ıa ıa que replantear el an´alisis alisis desde una un a perspect per spectiva iva no param´etrica. etrica. Adem´as, as, se supondr´a que las muestras extra extra´´ıdas son aleatorias y que no existen valores an´omalos. omalos. Igual que para la normalidad, en el pr´oximo oximo cap cap´´ıtulo se comprob comprobar´ ar´an an estos supuestos.

2.

Infe In fere renc ncia iass so sobr bre e un una a pob pobla laci ci´ on ´ on

En esta secci´on on se abordar´a el estudio de la media de una poblaci´ on, de la que se dispone de una muestra aleatoria simple de tama˜ on, no no n. Aunque en el caso, poco frecuente, de que se conozca la varianza de la poblaci´on on se po podr dr´´ıa utilizar la distribuci´ on Normal, y que cuando el on tama˜ no de la muestra sea grande (n no (n  50) la distribuci´on on t de student se puede reemplazar por la   N (0, (0, 1), en general se emplear´a la propia t de student.

 ≥

 

Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  86   Cap Ejemplo 5.2 

Se considera que el fichero de datos   peso altura.dat   es una muestra  aleatoria simple de la poblaci´on on adulta de un municipio andaluz. Dicha  muestra se utilizar´a para estudiar los valores medios del  peso  peso y la  altura   altura  de la poblaci´on. on. Las car caract acter er´´ıst ıstica icass mu muest estral rales es se obt obtien ienen en com comoo siempr siempree en Estad´ ısticos Res´ ısticos umenes Res´ umenes umenes num´ umenes ericos..., seleccioericos... nando las correspondientes variables e indicando que se haga en funci´on on del sexo:





>   numSummary(Datos[,c(‘‘ALTURA’’, numSummary(Datos[,c(‘‘ALTURA’’, ‘‘PESO’’)], groups=Datos$SEXO, statistics=c(‘‘mean’’, ‘‘sd’’, ‘‘quantiles’’)) Variable: Varia ble: ALTUR ALTURA A

Mujer Var´ on

 mean 171.0000 177.1296

sd 5.676462 6.901043

0% 159 167

25 % 167.00 171.25

50 % 17 1 70.5 178.0 17

sd 4. 4 .340796 1 0.504150 10

0% 59 64

25 % 63.00 77.25

50 % 68.0 86.5

75 % 175 17 182 18

100 % 182 194

n 46 54

100 % 75 109

n 46 54

Variable: Varia ble: PESO

Mujer Var´ on

 mean 66.95652 86.24074

75 % 70 93

on se obtendr´an an los interIntervalos de confianza.  A continuaci´on valos de confianza del 95 % para la altura de los hombres. hombres. Para ello  se filtra la base de datos por la variable   sexo. A continuaci´on o n se  marca   Estad´ ısticos Medias Te ısticos Test st t pa para ra un una a mu mues estr tra a, seleccionando en la ventana de di´alogo alogo la variable que interesa, en este caso la  altura    altura , y comprobando que el   nivel de confi confianza  anza  est´ a fijado en el  0,  0 ,95 95(fig (fig 5.1). Las instrucciones que se generan son:





>   t.test(Hombres$ALTURA, alternative=’two.sided’, mu=0.0, conf.level=.95) One Sample t-tes t-test t data: Hombres$ALTURA t = 188 188.61 .6138, 38, df = 53, p-value p-value   t.test(Hombres$ALTURA, alternative=’two.sided’, mu=175.0, conf.level=.99) One Sample t-tes t-test t data: Hombr Hombres$AL es$ALTURA TURA t = 2. 2.26 2677 77, , df = 53 53, , pp-va valu lue e = 0. 0.02 0274 745 5 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e mea mean n is not equal to 175 99 perce percent nt confi confidence dence inter interval: val: 174.6205 174.6 205 179.6 179.6388 388 sample sampl e estim estimates: ates:  mean of x 177.1296

Se puede observar que, respecto a la salida anterior al aumentar el  nivel de confianza ha aumentado la amplitud del intervalo y que  el resto es pr´acticamente acticamente igual. Respecto al contraste se concluye 

  p-value= 0,027 que puesto que el  p-value 027,, es mayor que el nivel de significaci´ on,   α  = 0,01 on,  01,, no hay evidencias para rechazar la hip´otesis  otesis  nula. Se puede ver que en este caso el valor que   que   H 0   propone para la media se encuentra dentro del intervalo de confianza. Esto  no ocurr ocurr´´ıa en la salida anterior donde se hab hab´´ıa fijado el nivel de  confianza en 0 en  0,, 95 95,, pues en ese caso  175  175  estaba fuera del intervalo.

 

Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  88   Cap on del conContraste unilateral.   Se plantea ahora la realizaci´on traste:  

H 0  : : µ  µ

≥ 180

H 1  : : µ  µ <  180 con un nivel de significaci´on α on  α =  = 0,1. Se edita de nuevo nue vo la l´ınea de  instruccio instru cciones nes y se ejecu ejecuta: ta: >   t.test(Hombres$ALTURA, alternative=’less’, mu=180.0, conf.level=.90) One Sample t-tes t-test t data: Hombres$ALTURA t = -3 -3.0 .056 565, 5, df = 53 53, , pp-va valu lue e = 0. 0.00 0017 1752 52 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e mea mean n is les less s tha than n 180 90 perce percent nt confi confidence dence interv interval: al: -Inf 178.3 178.3483 483 sample sampl e estim estimates: ates:  mean of x 177.1296

En este caso el  p-valor  =0,0017 es mucho menor que el nivel de    p-valor =0,0017 significaci´ on y por tanto se rechaza la hip´otesis on otesis nula. Igualmente se   puede comprobar que 180 no pertenece al interv intervalo alo de confianza.

3.

Infe In fere renc ncia iass so sobr bre e do doss pob pobla laci cion ones es Para el caso de comparar las medias de dos poblaciones, adem´as as

de comprobar las hipotesis hipotesis sobre normalidad y aleatoriedad, que como ya se ha comentado se ver´an an en el pr´oximo oximo cap cap´´ıtulo, se plantean p lantean distintas situaciones. En primer lugar habr´a que determinar si se tienen muestras independientes o pareadas (relacionadas). La diferencia entre uno y otro caso es que en el segundo, se dan dos mediciones de la misma o similar caracter´´ıstica para cada individuo o para dos individuos de id´ caracter enticas, enticas, respecto de los restantes, caracter´ caracter´ısticas relev relevantes antes de d e la muestra. Si se miden el peso de 50 alevi alevines nes de truchas antes y despu despu´´es es de una cierta dieta alimenticia, ambas observaciones est´an an relacionadas. La aplicaci´ on de dos pomadas en diferentes zonas de la piel de un individuo on y la observaci´on on de ambas respuestas conduce a observaciones pareadas. A veces la dependencia no resulta tan evidente. La longitud de

 

5.3 Inferencias sobre dos poblaciones    89 la cola de trabajo de dos impresoras pueden parecer dos observaciones independientes, sin embargo, si ambas impresoras presentan id´ enticas enticas caracter´´ısticas tanto en prestaciones como en accesibilidad, la elecci´ caracter on on del usuari usuarioo depender depender´a´ de las longitudes de las colas existentes, introduciendo dependencia entre ambas longitudes. Otra cuesti´on on a tener en cuenta, para el caso de muestras independientes, es si las varianzas de las poblaciones se pueden considerar iguales o no.

3.1. 3. 1.

Muestr Mue stras as ind indepen ependie dient ntes es

Ejemplo 5.3 

Para el caso de muestras independientes  se usar´a el fichero   parque eolico.dat, que contien contienee dat datos os de la ve veloci locidad dad del  viento, registrados durante 730 horas de  forma simult´anea, anea, en dos localizaciones 

alternativas alternativ as ( Parque1 Parque1   y    Parque2 ). Se  tratar´ a de establecer la localizaci´on o n m´as  as  aconsejable para la instalaci´on on de un parque de producci´on on de ene energ rg´´ıa e´olica. olica. Fig. 5.2: Ventana para apilar Hay Ha y qu quee te tene nerr en cu cuen enta ta,, al im im-- parque eolico.dat  portar este conjunto de datos, que el  car´ acter decimal viene dado en este fichero mediante una coma. Por  acter otra parte, la estructura de la base de datos es de dos columnas, conteniendo cada una de ellas las mediciones en cada localizaci´ on. Aunque  R   puede trabajar con esta estructura de datos, resulta m´as ason. manejable   para  Rcmdr    Rcmdr  si  si es transformada en dos variables, una continua que contenga las mediciones de viento y otra factor que indique la localizaci´on. on. Esto se realiza desde el men´u   Datos Con Conjun junto to de dat datos os act activo ivo Apilar Api lar var variab iables les del con conjun junto to de dat datos os act activo ivo... ...  En la ventana de di´alogo alogo (fig. 5.2) se pide el nombre de la nueva base de datos que  se ha venido a llamar  eolico   eolico apilado, el nombre de la variable apilada, velocidad, y el nombre de la nueva variable factor,  parque, cuyas clases  se han denominado  Parque1   Parque1  y  Parque2 .





 

Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  90   Cap Como se ha dicho es conveniente saber  si las varianzas se pueden considerar iguales o  no a la hora de compar comparar ar las dos poblacio poblaciones. nes. Una primera idea sobre la igualdad de varianzas es mediante la representaci´on on simult´anea  anea  de lo loss di diag agra rama mass de caja de la lass mu mues estr tras as.. Desde  Gr´  Gr´ aficas Diagr aficas Diagrama ama de caja caja... ..., se  selecciona la variable  velocidad  y el grupo   parque, obteni´ o bteni´endose endose la figura 5.3. La comparaci´on on de los diagramas sugiere gie re la igu iguald aldad ad de vari arianz anzas. as. El   test test F  Fig. 5.3: Velocidad seg´ un un  permite constrastar dicha hip´otesis, otesis, desde  tipo de parque     5    1

   d   a    0    d    i    1   c   o    l   e   v



   5

   0

Parque1

Parque2

parque





Estad´ ısticos Varianzas Te ısticos Test st F para para dos varia varianzas nzas... ...   seleccionando en este caso como factor la variable 

 parque y como explicada la variable  velocidad. >   tappl tapply(eol y(eolico ico apila apilado$ve do$velocid locidad, ad, eolic eolico o apila apilado$pa do$parque, rque, var, na.rm=TRUE) Parque1 Parqu e1 Parqu Parque2 e2 10.50574 10.50 574 10.59 10.59477 477 >   var.test(velocidad   parque, alternative=’two.sided’, conf.level=.95, data=eolico apilado) apilado) F tes test t to com compar pare e two variances variances data: velocidad velocidad by parque F = 0. 0.99 9916 16, , nu num m df = 72 729, 9, de deno nom m df = 72 729, 9, p-valu p-value e = 0. 0.90 9093 93 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e rat ratio io of var varian iances ces is not equ equal al to 1 95 perce percent nt confi confidence dence interv interval: al: 0.8574994 0.857 4994 1.146 1.1466647 6647 sample sampl e estim estimates: ates: ratio of varia variances nces

 ∼

0.9915968

Como   p-valor = 0, 9093   >   0, 05   no ha hay y mot motiv ivos os par paraa rec rechahazarr la ig za igua uald ldad ad de var aria ianz nzas as.. Si Sien endo do as as´´ı, co como mo se su supon ponee qu quee lo los  s  dato da toss es est´ t´ a n di an dist stri ribu buid idos os no norm rmal alme men nte y la lass var aria ianz nzas as so son n ig igua ua-les es,, lo loss do doss pa parq rque uess e´ olicos ser olicos ser´an ´an igua igualme lment ntee produ producti ctivo voss cua cuando  ndo  la di dife fere renc ncia ia de su suss me medi dias as no se se sepa pare re si signi gnific ficat ativ ivam amen ente te de  de    0. Para Pa ra rea realiz lizar ar est estee con contra traste ste se sel selecc ecciona  iona   Estad´ ısticos Medias ısticos ventana tana de di´alogo  alogo  Test t para mues muestras tras independiente independientes... s... y en la ven emergente se selecciona como grupo la variable  parque   parque  y como variable  explicada expli cada la  velocidad   velocidad, marcando la opci´ on  bilateral  con el   95 %   de  on nivel de confianza y suponiendo las varianzas iguales.





 

5.3 Inferencias sobre dos poblaciones    91

Figura 5.4: Contraste unilateral de fenofibrato



>   t.test(velocidad parque, alternative=’two.sided’, conf.level=.95, var.equal=TRUE, data=eolico apilado) apilado) Two Sam Sample ple t-t t-test est data: velocidad velocidad by parque t = 0. 0.99 9937 37, , df = 14 1458 58, , pp-va valu lue e = 0. 0.32 3205 05 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e dif differ ferenc ence e in mea means ns is not equ equal al to 0 95 perce percent nt confi confidence dence inter interval: val: -0.1645533 -0.16 45533 0.502 0.5024437 4437 sample sampl e estim estimates: ates:  mean in group Parque Parque1 1 mean in group Parqu Parque2 e2 5.801795 5.801 795 5.632 5.632849 849

Al ser el  p-valor  0 , 32 32 >  > 0  0,, 05 05 no  no se rechaza que la diferencia de    p-valor = 0, las medias sea cercana a cero.

3.2. 3. 2.

Muestr Mue stras as par paread eadas as

Ejemplo 5.4

Para el ca Para caso so de mue uest stra rass pa pare read adas as se to toma mar´ r´ a el con onju jun nto de da da-tos   fenofibrato.dat   en el qu quee se qu quie iere re an anal aliz izar ar si el tr trat atam amie ient nto  o  duran dur ante te un a˜  no co con n fe feno nofibr fibrat atoo re reduc ducee el fibr fibrin in´ogeno, ´ogeno, con contan tando do para el ello lo co con n un unaa mue uest stra ra de 32 in indi divi viduo duos. s. Se ef efec ect´ t´ u a el   Test ua Test t   en Estad´ ısticos Medias Tes ısticos Test t t par para a dat datos os rel relaci aciona onados dos... ..., realizando un contraste unilateral (figura 5.4).





 

92   Cap Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  >   t.tes t.test(Dat t(Datos$FI os$FIB B A, Datos Datos$FIB $FIB D, alter alternativ native=’gre e=’greater’, ater’, conf.level=.95,paired=TRUE) Paired Paire d t-tes t-test t data: dat a: Dat Datos$ os$FIB FIB A and Dat Datos$ os$FIB FIB D

t 7.53 7. 5391 91, , df 31, 31 , p va valu lue e 8.48 8. 48e e 09 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e dif differ ferenc ence e in mea means ns is gre greate ater r tha than n 0 95 perce percent nt confi confidence dence interv interval: al: 57.8178 57.81 78 Inf sample sampl e estim estimates: ates:  mean of the diffe difference rences s 74.59375

Al ser el  p  p valor   t.tes t.test(Dat t(Datos$FI os$FIB B A, Datos Datos$FIB $FIB D, alter alternativ native=’gre e=’greater’, ater’, conf.level conf. level=.95, =.95, paire paired=TRU d=TRUE, E, mu=50 mu=50) ) Paired Paire d t-tes t-test t data: dat a: Dat Datos$ os$FIB FIB A and Dat Datos$ os$FIB FIB D t = 2. 2.48 4857 57, , df = 31 31, , pp-va valu lue e = 0. 0.00 0092 9265 65 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e dif differ ferenc ence e in mea means ns is gre greate ater r tha than n 50 95 perce percent nt confi confidence dence interv interval: al: 57.8178 57.81 78 Inf sample sampl e estim estimates: ates:  mean of the diffe difference rences s 74.59375

De nuevo dado que  p  p <  0  0,, 001 001 se  se rechaza la hip´otesis otesis de que  µ  µ A µD + 50  y se concluye que el medicamento produce una disminuci´on on de  m´as as de 50 puntos en el nivel de fenofibrato.

 ≤

 

5.4 Ejercicios    93

4.

Ejercicios

5.1   Utilizando el fichero de datos   peso altura.dat  realice los siguientes ejercicios: Obtengaa el int interv ervalo alo de confianza del 90 % para la altura a) Obteng de las mujeres. Obtenga ga los intervalos intervalos del 95 % para el peso de hombres b) Obten y mujeres. c) Par  Paraa un niv nivel el de confianza del 99 % contraste contraste si la media de la altura de las mujeres es mayor o igual a 173 cms y la de los hombres menor o igual a 175 cms. ¿Puede indicar la raz´on on de este aparente contrasentido?

5.2  Para estudiar la diferencia de estaturas medias, medidas en cent´´ımetros cent ımetros,, de estudiantes estu diantes varones en e n las facultades facu ltades de ciencias ciencia s de C´adiz adiz y M´ alaga, se tom alaga, tomaa una mu muest estra ra ale aleato atoria ria de 15 est estudia udiant ntes es en cad cadaa facult fac ultad, ad, obten o bteni´ i´endose: end ose: C´adiz adiz M´ alaga alaga

 

182 174

170 174

175 170

167 176

171 168

174 178

181 180

169

  181 171

173 173

177 177

170 182

170 179

175 165

169 174

169

Obtenga el int Obtenga interv ervalo alo de confianz confianzaa al 99 % para la diferencia diferencia de estat estaturas uras mediass ent media entre re ambos colectivo colectivoss de estud estudiant iantes. es. Se supone que las estaturas siguen una distribuci´on on normal. on del nivel de 5.3   Se est´a realizando un estudio sobre la evoluci´on colesterol de las personas, para lo cual se seleccionan 10 individuos al azar y se les somete a una nueva dieta alimenticia durante seis meses, tras la cual se les volvi´o a medir el nivel de colesterol en mg/dl. Suponiendo normalidad, normal idad, obtenga un intervalo intervalo de confian confianza za al 90 % para la diferencia diferencia de media medias. s.

 

Antes

200

156

178

241

240

256

245

220

235

200

Despu´es

190

145

160

240

240

255

230

200

210

195

94   Cap Cap´´ıtulo 5. Infere Inferencia ncia cl´asica asica en poblaciones Normales  abrica produce barras de hierro cuya longitud sigue 5.4   Una f´abrica una distribuci´on on Normal. A partir de la muestra: 100, 9 101, 2 100, 2 100, 4 99 100, 99,, 8 100,, 1 101, 5 100, 4 101, 7 99 100 99,, 5. Encuentre tre un in inter terv valo de con confianz fianzaa par paraa la lon longit gitud ud a)   Encuen media.

b) Tras revisar la maquinaria, se obtuvo una nueva muestra: 99, 7 100, 7 97 99, 97,, 8 98, 98, 8 101, 4 100,, 3 98 100 98,, 7 101, 1 99 99,, 4 99 99,, 5. Estudie si se produjo alg´ u n cambio en la longitud media de la un barras. mercanc´ıas tiene dos oficinas 5.5   Una empresa de transporte de mercanc´ en una determinada ciudad. Al objeto de asignar un nuevo trabajador a una de las dos oficinas, la direcci´on on de la empresa decide analizar la productividad de cada una de ellas, contabiliz´andose andose las facturaciones en los ultimos u ´ ltimos doce meses (miles de euros). Ofic. 1 13 Ofic. 13,7 ,7 12, 12,11 12 12,3 ,3 8, 8,99 9, 9,77 10 10,1 ,1 12, 12,77 11 11,0 ,0 13, 13,22 9, 9,77 10 10,1 ,1 9,9 Oficc. 2 9, Ofi 9,88 9, 9,99 10,0 10,0 10 10,3 ,3 9, 9,55 9, 9,33 11 11,1 ,1 13,9 13,9 9, 9,88 9,5 9,5 7, 7,33 7,9 Suponiendo la normalidad de ambas poblaciones, ¿existen diferencias de facturaci´ on entre las dos oficinas? on abrica un nuevo 5.6  Una empresa le propone al director de una f´abrica m´ etodo que, supues etodo supuestamen tamente, te, reduc reducee el tiempo emple empleado ado en el mon montata je de uno de sus productos. Con el prop´osito osito de comparar tal m´ etodo etodo con el empleado habitualmente, seleccion´o aleatoriamente a siete de sus empleados para que llevasen a cabo el montaje con los dos sistemas y anot´o los tiempos empleados en el montaje, obteniendo los siguientes resultados: Traba jador 1 2 3 4 5 6 7 M´etod odoo ha hab bitual 38 32 41 35 42 32 45 M´eto do nuevo 30 32 34 37 35 26 38

 

5.4 Ejercicios    95 Supuesto que el tiempo de montaje sigue una distribuci´on on Normal, ¿se puede afirmar que efectivamente el nuev nuevoo m´ etodo reduce el tiempo en etodo m´as as de dos minutos?

 

96

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´  adiz adiz http://knuth.uca.es/ebrcmdr

Cap Ca p´ıt ıtul ulo o 6 Inferencia no param´ etrica. Diagnosis del modelo etrica.

En este cap cap´´ıtulo se aborda ab orda en primer lugar la realizaci´on on de contrastes sobre la calidad de la muestra, a continuaci´on on se estudian test de bondad de ajuste, hacie haciendo ndo especia especiall ´enfasis enfasis en los de normal normalidad idad y, por ultimo, u ´ltimo, se dan alternativ alternativas as no param´ etricas para el caso de que las etricas poblaciones no sean normales.

1.

Prue Pr ueba bass de al alea eato tori ried edad ad

En esta secci´on on se abordar´a el estudio de la calidad de la muestra extraa´ıda de la extr l a pobl p oblaci´ aci´on, on, y aunque el procedimiento de obtenci´on on de deb b er´ıa ıa garantizar unos niveles m´ m´ınimos de calidad, lo cierto es que en ocasiones los datos vienen impuestos sin que el investigador haya podido supervisar el procedimiento de extracci´on. on. No obstante y como en todo contraste, debe tenerse en cuenta que el test s´olo olo deses desestimar timar´a´ la hip´otesis otesis si la evidencia muestral en su contra es muy fuerte. En ocasiones, los elementos de la muestra se han obtenido en un marco territorial o temporal. Imagine por ejemplo mediciones de una

cierta magnitud econ´omica omica a lo largo de un periodo de tiempo o niveles de un determinado elemento qu´ qu´ımico en estudios de contaminaci´ on, on, bien en aire, agua o tierra. En estas situaciones es de esperar que las mediciones tomadas en un cierto entorno tengan ciertas analog analog´´ıas o pre-

 

Cap´´ıtulo 6. Inferencia In ferencia no param´ p aram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  98   Cap senten tendencias. Para estudiar este tipo de situaciones se debe acudir a modelos mo delos espec esp ec´´ıficos, como son las series temporales o los modelos geoespaciales, en ambos casos existe un elemento que sirve de variable de referencia o longitudinal: la fecha o el posicionamiento gps. Sin embargo, en situaciones donde se contempla esa variable de referencia, las otras personas encargadas de no realizar el muestreo, por comodidad o descuido, no adoptan las medidas para garantizar la independencia de las mediciones.

Ejemplo 6.1

Para analizar si existe autocorrelaci´on on entre los elementos de una muestra, se consideran los datos del PIB en billones de euros durante los  u ultimos ´ ltimos diez a˜  nos: 13, 14, 18, 21, 22, 19, 20, 23, 27 y 30. Parece que deber´ıa ıa existir exis tir influenci in fluenciaa del PIB de d e a˜  anos ˜  precedentes sobre los posteriores. Para comprobarlo se aplicar´a el  el  test  test de autocorrelaci´on on de Ljung-Box, Ljung-Box, contemplando autocorrelaciones de primer y segundo orden. Para la de   primer orden, se fija la opci´on on  lag=1. >   x   Box.tes Box.test(x t(x, , lag = 1, typ type e = c(‘ c(‘‘Lj ‘Ljung ung-Bo -Box’’ x’’)) )) Box-Ljung Box-L jung test data: dat a: x X-squa X-s quared red = 4.2 4.2281 281, , df = 1, p-value p-value = 0.0 0.0397 3976 6

Lo qu quee in indi dica ca,, da dado do qu que  e    p   = 0, 03976 03976,, que para un   α   = 0, 05   se rechazar rechazar´´ıa la hip´otesis otesis de inde indepeden pedencia cia lin lineal eal de pri primer mer orden, por lo que el valor del PIB del a˜  no    T  no  T    influye sobre la del a˜  no  T    + 1. Si se analiza la correlaci´on T  on de segundo orden,  lag=2 , se tiene: >   Box.tes Box.test(x t(x, , lag = 2, typ type e = c(‘ c(‘‘Lj ‘Ljung ung-Bo -Box’’ x’’)) )) Box-Ljung Box-L jung test

data: x data: X-squa X-s quared red = 4.4 4.4046 046, , df = 2, p-value p-value = 0.1 0.1105 105

En esta ocasi´on o n y puesto que   que   p >   0, 05   no se rechaza la hip´otesis otesis de  independencia y se descarta la autocorrelaci´on on de segundo orden.

Otra perspectiva perspectiva desde la que analizar la aleat aleatoried oriedad ad de la mue muesstra, si ´esta esta viene dada en forma de va variabl riablee binari binaria, a, es compr comprobar obar si existen muy pocas o muchas rachas, entendiendo por racha al grupo de

 

6.2 Pruebas de bondad de ajuste    99 valores consecutivos iguales interrumpido por uno de signo distinto. Si la variable no es de tipo binario, se la puede transformar para que lo sea asignando las clases de d e la dicotom dicotom´´ıa en funci´ f unci´on on de que el elemento muestral est´e por encima o por p or deba d ebajo jo de un determi determinado nado valor, t´ıpicamente ıpicame nte la mediana. Ejemplo 6.2 

Para analizar la independencia de los mismos datos del PIB del ejemplo  anterior se aplicar´a ahora el test de rachas. Previamente habr´a que cargar el paquete  tseries u o con   tseries  de series temporales, bien desde el men´ la instrucci´on on   library(‘‘tseries’ library(‘‘tseries’’) ’). En este caso se reali realizar´ zar´ a un contraste bilateral, rechaz´andose andose la hip´otesis otesis nula tanto si existen muchas  rachas como si hay muy pocas, aunque las opciones de la funci´on on de   R  admitir´´ıan que se especificaran contrastes de car´ admitir acter unilateral. acter >   runs.test(as.factor(x> median  median(x))) (x))) Runs Run s Tes Test t data: as.fa as.factor( ctor(x x   >   median(x)) Standa Sta ndard rd Nor Normal mal = -1. -1.341 3416, 6, p-v p-valu alue e = 0.1 0.1797 797 alternativ alter native e hypot hypothesis hesis: : two.s two.sided ided

Con la orden  as.factor(x >median(x)) se convierte a la variable   x   en dicot´ omica, dando c´odigos omica, odigos distintos en funci´on on de que el valor est´ es t´e por  debajo o por encima de la mediana (20,5). La salida del procedimiento 

indica, puesto que  p  p >  0  0,, 05 05,, que no hay evidencias para considerar los  datos no aleatorios.

2.

Prue Pr ueba bass de bo bond ndad ad de aju ajust ste e

En este ep ep´´ıgrafe se contrastar´ a si la estructura de la poblaci´on on analizada se ajusta a una determinada distribuci´on. on. En principio el procedimiento de obtenci´on on de la informaci´on on deber´a ofrecer pautas para decidir si la poblaci´on on tiene una u otra estructu estructura ra proba probabil bil´´ıstica. As As´´ı, en el caso que m´as as nos interesa, si la variable se genera a partir de la medici´ on ob on objetiva jetiva de alguna caracter´ıstica, ıstica, ´esta esta ser´a en general normal; la exce excepci´ pci´ on se dar´a cuando se haya considerado un conjunto de indivion duos no homog homog´´eneos, eneos, mezc mezclando lando grupos de edad, sexos sexos,, . . . Si realmente realmente

 

Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  100   Cap se han mezclado grupos de individuos, un an´alisis alisis explo explorator ratorio io arro jar´a una estr estructura uctura probab probabil il´´ıstic ısticaa mul multimodal, timodal, mien mientras tras que si, por el contrario, la poblaci´on on f´ısica es homog´enea, enea, la distrib distribuci´ uci´on on presentar´a, a, si acaso acaso,, proble problemas mas de simet simetrr´ıa; en alguna algunass ocasione ocasioness estos proble problemas mas se pueden solucionar mediante transformaciones transf ormaciones de los datos. Tambi´ en en puede darse la circunstancia de que distribuciones que converjan a la normal en situaciones ideales y para muestras grandes, como es el caso de la binomial o la Poisson, necesiten alguna transformaci´on on para mejorar la simetr´ıa. ıa. Se analiza analizar´ r´a esta cuesti´on on en el cap cap´´ıtulo de An´alisis alisis de la Varianza. Por ultimo, u ´ ltimo, hay que indicar que en muchas ocasiones hay que realizar una operaci´on on de truncamiento para adaptar la distribuci´on on te´ orica al rango de valores de los datos en estudio. orica Ejemplo 6.3 

Distribución Lognormal: Lognormal: Media = 0, SD = 5(escala log)

En proble problemas mas ecol ecol´ogicos ´ogicos es mu muy y hab habiitual que la abundancia de una especie 

   6  .    0

   5  .    0

   4  .    0

   3  .    0

   2  .    0

   1  .    0

   0  .    0

0

5

10

15

20

25

tenga una distribuci´on o n de tipo lognormal respecto a los par´ametros ametros ambientales, por tanto una transformaci´on on logar´ıtmica ıtm ica convert convertir ir´´ıa a la l a abu abunda ndanci nciaa en en una variable normal. Como se puede ver, no se trata de una medici´on on de una caracterr´ıstic racte ısticaa de los indivi individuos, duos, sino de  una medida de su abundancia respecto  a una variable ambiental.

A continuaci´on on se presentar´a un contraste espec espec´´ıfico de normalidad, como es el test de Shapiro-Wilk, y un par de test gen´ ericos para ev ericos evaaluar la bondad b ondad del ajuste, uno para cuando los datos son continuos, continuos, el de Kolmogorov-Smirnov, y otro para variables categ´oricas, oricas, el test de la χ la  χ 2 . En el caso de contrastes de normalidad, se recomienda el uso del test de Shapiro-Wilk para muestras peque˜ nas  n 50, mientras nas n mientras que si las muestras son grandes es preferible utilizar el test de Kolmogorov-Smirnov, salvo que los datos vengan dados en una distribuci´on on de frecuencias por 2 intervalos donde se emplear´a la la χ  χ .



 

6.2 Pruebas de bondad de ajuste    101

Ejemplo 6.4

El archivo de datos que se utilizar´a en este ejemplo es el  caracoles.dat  caracoles.dat quee in qu incl cluy uyee la lass me medi dici cion ones es de do doss var aria iabl bles es,, di di´amet ´a metro ro de la lass co connchas    (mm chas  mm))   y sep separa araci´ ci´ o n en on entr tree la lass es espi pira rale les  s    (µm µm)), para un con junto de  de    20   indi indivi vidu duos os ad adul ulto toss de una es espec pecie ie de ca cara raco cole les. s. Da Da-do el ta tama ma˜  no ˜  de la mue uest stra ra,, se co con ntr tras asta tar´ r´ a la hipotes ´o tesis is de no norrmali ma lidad dad me medi dian ante te el te test st de Sha Shapi piro ro-W -Wil ilk. k. Ut Util iliz izan ando do en es este te ca ca-so    Rcmdr   y ma marc rcan ando do la lass opc opcio ione nes  s   Estad´ ısticos Res´ ısticos umenes umenes obti tien enee el cu cuad adro ro de  Test de norma normalida lidad d de Shapi Shapiro-Wi ro-Wilk... lk...   se ob di´alogo, alogo, donde se selecciona la variable di´ametro ametro ( Diam Diam). En la ven enta tana na de re resu sult ltaa-





dos de   Rcmdr   se tiene tanto la  instrucci´ o n de   R   como la salida  on del procedimiento. En este caso el  6869 viene  viene a indicar   p-valor = 0, 6869 que los datos se pueden considerar normales. >shapiro.test(Datos$Diam) Shapiro-Wi Shapi ro-Wilk lk norma normality lity test data: Datos Datos$Diam $Diam W = 0.9 0.9668 668, , p-v p-valu alue e = 0.6 0.6869 869

Ejemplo 6.5 

Se es estud tudia iar´ r´ a la normalidad de la variable pe pesso del fichero  umero de individuos es grande, n  = 100, umero 100,  peso altura.dat. Dado que el n´ se utilizar´a el test de Kolmogorov-Smirnov. En primer lugar, con Rcmdr  se calcula la media y la desviaci´on on t´ıpica ıpica del conjunto con junto de d e datos, datos , resultanresul tando  ¯  ¯x  = 73 73,, 37 37 y   y  σ =  σ  = 12 12,, 69 69.. A continuaci´on on se computar´ an las diferencias  an entre la funci´on on de distribuci´on on emp em p´ırica muestral y la distrib distribuci´ uci´on on te´oriorica  N (73  N (73,, 37;12 37;12,, 69) 69).. Para ello se emplear´a el procedimiento  ks.test   ks.test. >   ks.test(Datos$PESO,pnorm,73.37,12.69) One-sample One-s ample Kolmo Kolmogorov gorov-Smir -Smirnov nov test data: Datos Datos$PESO $PESO D = 0.1 0.136, 36, p-value p-value = 0.0 0.0493 4939 9 alternativ alter native e hypot hypothesis hesis: : two-s two-sided ided

 

102   Cap Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  En este caso y para un α un  α =  = 0, 05 05 se  se rechaza la hip´otesis otesis de que los   pesos sigan una distribuci´ on normal. on

El test de Kolmog Kolmogoro orov-Smir v-Smirnov nov tam tambi´ bi´ en se puede utiliz en utilizar ar para comparar compa rar las distr distribucio ibuciones nes emp emp´´ırica ıricass de dos conjun conjuntos tos de datos, pa-

ra ello en la instrucci´on on se sustituir sustituir´´ıa la distribuci´on o n a ajustar por la segunda variable. Ejemplo 6.6 

Se 150 elementos generan mediante instrucciones de   R  dos   dos muestras aleatorias de ame me100  y   150  elementos procedentes de distribuciones exponenciales de par´ a 100 tros  1  1  y   y  1  1,, 5, respectivamente, mediante las instrucciones: x   n< c(7,12,10,11,8,12) >chisq.test(n) Chi-square Chi-s quared d test for given probabilities probabilities data: dat a: n X-sq Xsqua uare red d = 2. 2.2, 2, df = 5, p-valu p-value e = 0. 0.82 8208 08

A la vista del p-valor no se rechaza que el dado no est´a trucado.

El test Chi-cuadrado permite contrastar la hip´otesis otesis de independencia entre dos atributos organizados en tabla de contingencia. Ejemplo 6.8 

Se desea analizar la relaci´on on entre el nivel de estudios del padre y la  orientaci´on on del alumno hacia las ciencias en un determinado instituto  de bachillerato. Se cuenta para ello con la informaci´on on obtenida en el  centro.

Estudioss padre  Estudio Orientaci´ o n Ni on Ning ngun unoo B´ asico Med asico Medio io Super Superior  ior 

Orientado No orientado

23 18

12 42

34 16

32   27  

Para contrastar esta relaci´on on se introduce la matriz de datos en Rcmdr  como   como se describe describ e en el ejemplo 3.1, obteni´ endose los siguientes  endose resultados: >   .Test     .Test Pearson’s Pears on’s Chi-s Chi-square quared d test data: .Tabl .Table e X-squa X-s quared red = 24. 24.162 1629, 9, df=   3, p-val p-value ue   =   2.31e-05

 

104   Cap Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  Lo que indica que se rec rechaza haza la hip´ otesis de independencia y existe  otesis una relaci´on on entre los estudios de los padres y la orientaci´on on hacia las  ciencias de sus hijos.

Para el caso de tablas 2 2 se aplica el test el test exacto de Fisher , aunque existe exis te la alter alternativ nativaa de aplicar el test Chi-cuadrado Chi-cuadrado con la corre correcci´ cci´ on de on Yates. Para aplicar esta correcci´on on bastar´ıa ıa especi especificar, ficar, correct=TRUE, en la instrucci´on on de dicho test.

×

Ejemplo 6.9 

En el conservatorio de m´ usica de una ciudad se pretende estudiar la  usica relaci´ on existente entre el sexo del alumnado y su afici´on on on por los instrumentos de viento. Para ello, observados los 482 estudiantes se tiene:

Aficionado No aficionado

Hom Ho mbr bree

Muje Mu jer  r 

150 123

97   112  

Se introduce la matriz de datos de la misma forma que en el ejemPrueba ba exa exacta cta de Fis Fisher her  plo 3.1 seleccionando la opci´on on de   Prue >fisher.test(.Table) Fisher Fis her’s ’s Exa Exact ct Tes Test t for Count Dat Data a data: .Tabl .Table e p-valu p-v alue e = 0.0 0.0665 6655 5 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e odd odds s rat ratio io is not equ equal al to 1

Por lo que para un nivel de significaci´on  on   α  = 0, 05 05 no  no se rechaza, aunque con poca evidencia, la hip´otesis otesis de independencia entre el sexo   y la afici´on on a los instrumentos de viento.

Se analizar´a ahora la bondad de ajuste de unos datos a una distribuci´ on te´orica on orica no uniforme.

 

6.2 Pruebas de bondad de ajuste    105 Ejemplo 6.10 

Durante Duran te la Seg Segunda unda Gue Guerra rra Mund Mundial ial los ale aleman manes es bom bombard bardear earon on en divers div ersas as ocas ocasion iones es Lon Londre dres. s. Al objeto de ana analiz lizar ar si los bom bombar bardeo deos  s  eran indiscriminados o se hac hac´´ıan con intenci´ on, se procedi´o a dividir la  on, ciudad en cuadr cuadr´´ıculas y a contar el n´umero umero de impactos en cada una de  ellas. Los resultados se recogen en la siguiente tabla  Impactos 

 

0

1

2

3 4 5

N´umero umer o cua cuadr´ dr´ıculas  ıcu las    229 211 93 35 7 1 Las hip´otesis otes is p od odrr´ıan ser exp expresa resadas das,, en e n t´ermino erm inoss pro probab babil´ il´ısticos, ısti cos, de la siguiente manera    H 0  :   X  P  P ((λ) H 1  :   X  P  P ((λ)

  ∼∼  ∼  

 puesto que si las bombas caen indiscriminadamente, lo hacen de forma  independiente en un soporte contin continuo. uo. Lo que, de ser cierto, indicar´ıa  ıa  que la variable que mide el n´ umero de impactos por cuadr umero cuadr´´ıculas debe  ser Poisson. En primer lugar, se estimar´a el par´ametro ametro de la Poisson a partir  de la med media ia mu muest estral ral,, res result ultando ando que   λ ˆ   = 0, 929 929.. A con contin tinuac uaci´ i´ o n se  on calcular´ an las probabilidades  P ( an  P (X   =  i  i)),   con con   i  = 0, 1, 2, 3, 4   y  P (  P (X  5) mediante  Rcmdr    Rcmdr . Las probabilidades discretas se obtienen en:

 ≥  ≥





Distribuciones Distribucione Distribuciones s discretas Distribuci´ o n de on 0 ,929 929.. Poisson Proba Probabili bilidades dades de Pois Poisson.. son... .  tomando  media    media = 0,



>.Table Pr 0 0.3 0.3949 949 1 0.3 0.3669 669 2 0.1 0.1704 704 3 0.0 0.0528 528 4 0.0 0.0123 123 5 0.0 0.0023 023

6 0.0004 004 7 0.0 0.0000 0.0 000

La probabilidad   P  P ((X 

  ≥   5) 5)   se obtiene desde:  Distribuciones→ Distribuciones discretas→Distribuci´ on de Poi on Poisso sson n→

 

106   Cap Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  toma mand ndo  o    valor(es) Probabilidade Probabili dades s de Poiss Poisson on acumu acumulada ladas... s..., to   Rcmdr  realiza    realiza  P (  P (X >  4)  4)= =P  P ((X  5) 5),, de la var variab iable le= 4  ya que  Rcmdr   para la cola de la derecha y  media  0 ,929 929,, resulta:   media = 0,

 ≥  ≥

>   ppois(c(4), lambda=0.929, lower.tail=FALSE)

[1] 0.002 0.00268285 682857 7

Con objeto de comprobar si se verifica la restricci´on on de que todos  los valores esperados deben ser mayores a tres, se calcula  n calcula  n P  P [[X  5] = 576 0, 0027 = 1, 1,5552 5552 <    > 3  3.. Se almacenan ahora estas probabilidades en un vector   p, las frecuencias de los valores que toma la variable en otro vector   x  y   y se aplica  el test chi-cuadrado resultando:

· ·

 ≥  ≥

· ·

  ≥≥  ≥  ≥

 −  −

>p< c(0.3949,0.3669,0.1704,0.0528,0.0150) >x< c(229,211,93,35,8) >chisq.test(x,p=p,rescale.p=TRUE) Chi-square Chi-s quared d test for given probabilities probabilities data: dat a: x X-squa X-s quared red = 1.0 1.0205 205, , df = 4, p-value p-value = 0.9 0.9067 067

Por lo que se puede afirmar de forma contundente, dado el valor  de p, que los bombardeos alemanes fueron indiscriminados.

3.

Con Co ntr tras aste tess de loc local aliz izac aci´ i´ on y escala on

Si se desestima la hip´otesis otesis de normalidad de los datos, no son aplicables los test vistos en el cap cap´´ıtulo anterior basados en dicha distribuci´on, on, siendo necesario utilizar contrastes no param´ etricos. Este tipo etricos. de test se basan en el an´alisis alisis de la situaci´on o n de los elementos de la muestra respecto a determinadas medidas de posici´on, on, muy en especial respecto a la mediana. De esta forma, se estudia si los datos muestrales est´an an por encima o por debajo de la mediana, es decir, se analiza el signo de su diferencia con la mediana; o bien, se estudia la distancia ordenada a la que se encuentra de la mediana, es decir, se considera el rango o la posici´on on que ocupa dicho elemento en la secuencia ordenada de las diferencias.

 

6.3 Cont Contraste rastess de localiz localizaci´ aci´ on y escala    107 on

Figura 6.1: Test de Wilcoxon En todo to do caso, las situaciones a analizar son las mismas del cap cap´´ıtulo anterior: una muestra, dos muestras independientes y dos muestras apareadas, a las que se intentar´a dar respuesta con los ejemplos que siguen.

3.1. 3. 1.

Doss mues Do muestra trass indepen independie dient ntes es

Ejemplo 6.11

Se estudi estudiar´ ar´ a me medi dian ante te el te test st de Wi Wilc lcooxo xon n pa para ra mue uest stra rass ind indepe epenndient die ntes es si las dos ubi ubicac cacion iones es del parque e´olico, olico, cuy cuyaa inform informaci´ aci´ o n se  on encuen enc uentra tra en el arc archiv hivo  o   eolico apilado.dat, ti tien enen en la mi mism smaa potencia ten cialid lidad ad e´ o lica. olic a. Par araa el elllo, en el me men´ n´ u de    Rcmdr    se sel selec eccio cio-nan las opciones de men´ u,   Estad´ u, ısticos Tes ısticos Test t no par param´ am´ etricos etricos Test Tes t de Wil Wilcox coxon on par para a dos mue muestr stras. as... .., con lo que abre la ventana de di´alogo alogo 6.1. Seleccionados los unicos u ´ nicos elementos de la base de datos, variable y  factor, los resultados del an´alisis alisis son:



>   wilcox.test(velocidad parque, alternative="two.sided", data=Datos) Wilcoxon Wilco xon rank sum test with continuity continuity corre correction ction data: velocidad velocidad by parque W = 276 276269 269.5, .5, p-v p-valu alue e = 0.2 0.2228 228 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e loc locati ation on shi shift ft is not equal to 0





Lo que implica el no rechazo de la hipotesis hip otesis nula de igualdad de 

 

108   Cap Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  medianas, siendo indistinta, desde esta optica, o´ptica, la ubicaci´on on del parque  e´ olico. olico.

3.2. 3. 2.

Una Un a mue uest stra ra

Ejemplo 6.12 

Se desea contrastar la hip´otesis otesis nula, con α con  α =  = 0, 05 05,, de que la separaci´on on mediana entre las espirales (variable  Separ ) de los caracoles del fichero  110   µm µm.. Se supondr´a que los datos  caracoles.dat es menor o igual a   110 son aleatorios pero no normales y se utilizar´a por tanto el test de Wilcoxon para una muestra. Trabajando directamente con   R  se   se tiene: >   wilcox.test(Datos$Separ,alternative=c("greater"),mu=110) Wilcoxon Wilco xon signe signed d rank test with continuity continuity corre correction ction data: Datos Datos$Sepa $Separ r V = 157 157, , p-v p-valu alue e = 0.0 0.0066 06617 17 alternativ alter native e hypoth hypothesis: esis: true locat location ion is great greater er than 110

Por lo que se rechaza la hip´otesis otesis nula y se concluye que la separaci´ on mediana es superior a  110 on  110  µm  µm..

3.3. 3. 3.

Doss mues Do muestra trass pare pareada adass

Ejemplo 6.13 

Para documentar el caso de muestras pareadas se considera el mismo  ejemplo que se us´o en el cap cap´´ıtulo ant anterior erior,, la eficac eficacia ia del trata tratamien miento  to  con fenofibrato, suponiendo ahora que la distribuci´on on de la diferencia  de medias no es normal. En este caso se quiere probar la afirmaci´on on

del fabricante de que el tratamiento durante un a no   con fenofibrato  reduce el fibrin´ogeno ogeno en al menos 50 puntos. Se aplicar´ a pues el   tes test t de Wilcoxon Wilc oxon para muest muestras ras parea pareadas das. Para acceder al test, se ejecuta la  secuencia de  Rcmdr    Rcmdr :



→Tes Test t de Wil Wilcox coxon on

Estad´ ısticos Tes ısticos Test t no par param´ am´ etricos etricos  para muestras pareadas...

 

Contraste rastess de localiz localizaci´ aci´ on y escala    109 on 6.3 Cont Aunque las opciones de la ventana no admiten que se especifiquen diferencias, bastar´a con retocar m´ınimamente la instrucci´ o n a˜  on nadiendo  al final de la l´ınea la opci´on on  mu=50 .   wilco wilcox.tes x.test(Dat os$FIB A, Datos Datos$FIB $FIB D, alter alternativ native=’gr e=’greater eater’, ’, > paired=TRU paire d=TRUE, E, t(Datos$FIB mu=50) mu=50 ) Wilcoxon Wilco xon signe signed d rank test with continuity continuity correc correction tion data: dat a: Dat Datos$ os$FIB FIB A and Dat Datos$ os$FIB FIB D V = 35 354, 4, pp-va valu lue e = 0. 0.01 0193 934 4 altern alt ernati ative ve hyp hypoth othesi esis: s: tru true e loc locati ation on shi shift ft is gre greate ater r tha than n 50

As´ı par ara  a  α  α =  = 0, 05 05 se  se rechaza la hip´otesis otesis de que  med  med A medD 50 y 50  y se concluye que el medicamento produce una disminuci´on o n de m´as  as  de 50 puntos en el nivel de fenofibrato.



 ≤

 

Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  110   Cap

4.

Ejercicios

on entre las 6.1  Contraste la normalidad de la variable separaci´on espirales (Separ) del fichero  caracoles.dat. Kolmogorov-Smirnov, v, compruebe la hip´oteote6.2   Mediante el test de Kolmogorov-Smirno sis de igualdad de las funciones de distribuci´on on emp em p´ıric ıricaa de dos muest muestras ras de tama˜ no 200, procedentes de poblaciones N(0;1) y N(0;1,3) previamenno te generadas. otesis de normalidad de la velocidad para 6.3  Compruebe la hip´otesis cada una de las ubicaciones en el fichero  parque eolico.dat. otesis de que los datos siguientes, genera6.4   Contraste la hip´otesis dos aleatoriamente mediante ordenador, procedan de una distribuci´on on Uniforme en el intervalo [0, [0 , 1] con un nivel de significaci´on α on  α  = 0,05. 0, 582 0, 501 0, 497 0, 026 0, 132 0, 561 0, 642 0, 994 0, 948 0, 081 0, 179 0, 619

6.5  En un grupo de 100 personas se estudian los atributos color del cabello (moreno, rubio y casta˜ no) y color de los ojos (negro, marr´on, no) on, azul y verde), obteni´endose endose la siguiente tabla de contingencia:

Ojos   Moreno

Cabello Rubio

Castano n ˜o

Negros Marrones

20 1166

8 2

4 11

Azules

5

8

8

Verdes

10

5

3

¿Est´ an relacionados dichos atributos? an Contraste te si los dat datos os de la sig siguie uient ntee mu muest estra ra org organi anizad zadaa 6.6   Contras como distribuci´on on de frecuencias proceden de una Normal.

 

6.4 Ejercicios    111 (Li−1 , Li ]   ni (0, 1] (0, (1,, 2] (1 (2,, 3] (2 (3,, 4] (3 (4,, 5] (4 (5,, 6] (5 (6,, 7] (6

1 3 7 12 6 2 1

6.7  Estudie, utilizando el contraste   χ2 de bondad de ajuste, si la siguiente muestra de tama˜no no 30 procede de una Normal. 107 93

96 88

91 101

80 109

103 102

88 99

101 93

106 86

112 100

106 99

104

116

87

93

106

102

89

96

104

90

6.8   Con el fin de estudiar el tiempo de vida, en horas, de las bater´´ıas de 7 voltios, se extrae aleatoriamente un muestra de 10 de ellas, bater obteni´endose endose los siguientes resulta resultados: dos: 28.9 15.2 28.7 72.5 48.6 52.4 37.6 49.5 62.1 54.5 Proponga un modelo de distr distribuci´ ibuci´ on de probabi on probabilidad lidad y estudie su ajuste. a juste.   Para medir la introversi´ on se aplica a 12 individuos un test on 6.9 de personalidad en sus dos variantes, 1 y 2, que se supone la miden por igual. A partir de los datos de la siguiente tabla, compruebe mediante el test de rangos de Wilcoxon, con un nivel de significaci´on on del 5%, si es cierto que las formas 1 y 2 miden por igual la introversi´on. on. Individuo 1 2 3 4 5 6 7 8 9 10 11 11 12 12 Forma 1 12 18 21 10 15 27 31 6 15 13 8 10 Forma 2 10 17 20 5 21 24 29 7 9 13 8 11 al de los dos tratamientos contra la artrosis al 6.10  Para estudiar cu´ es m´as as eficaz se eligen aleatoriamente dos muestras de 10 y 22 pacientes

 

112   Cap Cap´´ıtulo 6. Inferencia In ferencia no param´ pa ram´etrica. etrica. Diagno Diagnosis sis del d el modelo  mo delo  aPasados los cuales les somete a los tratamientos 1 y de 2, manera respectivamente. tres se meses se valoran ambos tratamientos que el que tenga mayor puntuaci´on on ser´a m´as as eficaz. La tabla siguiente refleja los resultados obtenidos. Tratamiento 1 Tratamiento 2

12

15

21

17

38

42

10

23

35

28

21 18 42 25 14 52 65 40 43 35 18 56 29 32 44 15 68 41 37 43 58 42 Utilice el test de Wilcoxon para evaluar si existen diferencias entre los dos tratamientos.

 

Estad´ ıstica B´ ıstica asica con R y R-commander asica (Versi´ on Febrero 2008) on Aut uto o res res:: A. J. Arr rria iaza za Gom omez ´   ez,, F. Fer ern´  n´  andez Palac´ ın, ın, M. A. Lop opez ´   ez S´  anche anc hez, z, M. Mu˜  noz no z M´  arquez, S. P´ erez Plaza, erez A. S´  anchez Navas c 2008 Servicio de Publicaciones de la Universidad de C´ adiz adiz 

http://knuth.uca.es/ebrcmdr

Cap Ca p´ıt ıtul ulo o 7 Introducci´ on al An´ on alisis de la Varianza alisis

1.

Conceptos basicos asicos ´

Aunque en origen el An´  el  An´  alisis de la Varianza  (ANOVA) Varianza  (ANOVA) fue introducido por Fisher para evaluar los efectos de los distintos niveles de un factor sobre una variable respuesta continua, desde un punto de vista puramente abstracto el ANOVA va a permitir generalizar el contraste de igualdad de medias de dos a  a   k   poblaciones. Y esa es la perspectiva en la que se va a centrar este ultimo u ´ ltimo cap cap´´ıtulo. No se propondr´a pues ning´ un modelo te´orico, un orico, sino que el objetivo se limitar´a a usar u sar la t´ecnica ecni ca para contrastar la hip´otesis  otesis   H 0   :   µ1   =   µ2   =   . . .   =   µk . Eso s´ı, al igual que se ha hecho para una y dos poblaciones, se evaluar´an an las hip´otesis otesis previas relativas a la calidad de la muestra, a la estructura de probabilidad, normal o no, de la poblaci´on on y a si las distintas poblaciones tienen varianzas iguales o distintas, propiedad esta ultima u ´ ltima conocida como   homocedasticidad . El ANOVA en su versi´on on par param´ am´etrica etri ca del del test  test de la F , F , como todos los procedimientos estad´ısticos, ısticos, tiene un cierto grado de de robustez   robustez    frente a un relativo relativo incump incumplimie limiento nto de alguna( alguna(s) s) de sus hip´ otesis. En concreto, otesis. el test de la F soporta mejor las deficiencias respecto a la normalidad que las relacionadas con la homocedasticidad. En todo caso, los test son menos sensibles a las desviaciones de las hip´otesis otesis exigidas cuando el

 

114   Cap Cap´´ıtulo 7. 7 . Introducci´ Intro ducci´on on al An´alisis alisis de la Varianza 

n´umero umero de observaciones de las muestras es aproximadamente el mismo. Como libro de ruta se propone que, cuando se verifiquen todas las hip´otesis otesis exigidas la alternativa preferida sea el test de la F. Cuando se d´ e la normalidad pero p ero no la homocedasticidad, h omocedasticidad, se recomienda el uso del test de Welch   Welch   o el el   test de Kruskal Wallis . Si falla, aunque no de forma dr´astica astica la normalidad, con valores de  de   p  entre 0, 0, 01 y 0, 0, 05, la robustez del test de la F le hace seguir siendo una buena opci´on. Por ultimo, u ´ltimo, si fallara fuertemente la normalidad, se recomienda el uso del test de Kruskal Wallis. Si la conclusi´on on del test aplicado fuera el rechazo de la hip´otesis otesis nula, nul a, no ocurrir ocurrir´´ıa como en el caso de dos poblac p oblaciones iones en el que clara clara-mente una de ellas tendr tendr´´ıa media superior a la otra, sino que habr habr´´ıa que evaluar las relaciones entre las k las  k pob  poblacione laciones, s, bien bie n dos a dos o a trav´ tr av´ es de es de combinaciones entre ellas, mediante los denominados test denominados  test de comp comparacioaraciones m´  ultiples . El resultado final de estas comparacione comparacioness desem desembocar´ bocar´ a en un mapa de relaciones que, debido a la naturaleza intr´ intr´ınseca de los test, no verificar´a en general el principio de transitividad. Existe una gran cantidad de test que realizan las comparaciones m´ultiples, ultiples, tratando cada uno de ellos de adaptarse mejor a determinadas circunstancias. Cabe destacar, por ser de uso m´as as extendido, los contrastes contrast es de Duncan Duncan,, Newma Newman-Keu n-Keuls, ls, Bonfer Bonferroni, roni, Sche Scheff´ ff´ e y HSD de Tukey. Dependiendo de que las comparaciones sean entre parejas de medias o m´as as generales, combinaciones de las mismas, ser´a m´as as aconsejable el test de Tukey Tukey o el de Scheff Scheff´´e. e. En el caso de comparaciones de parejas de medias, puesto que el de Tukey proporciona intervalos de confianza de menor longitud, se preferir´a al de Scheff´e. e.

2.

Diag Di agno nosi siss de dell mo mode delo lo

Como se ha puesto de manifiesto, los primeros pasos a dar son los de comprobar si las muestras son aleatorias y las poblaciones normales a trav trav´´es es de los test descritos en el cap cap´´ıtulo anterior. A continuac continuaci´ i´on, on, si la muestra no est´a contaminada y no hay desviaciones importantes de normalidad, se comprobar´a la hip´otesis otesis de homoceda homocedastici sticidad dad y a la vista

 

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF