Preguntas de Estadística

March 24, 2023 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Preguntas de Estadística...

Description

 

Universid ad de San Carlos de Guate Guatemala mala Centro Universitario d el Sur O Occid ccid ente. Técnic o e en n Procesamiento de Alimentos. Estadística

Preguntas d e E Estadística stadística

Integrantes: Yulisa Yul isa Mishel Hidalgo Castellanos 20204 202042247 2247 Yulisa Yul isa Valeska Hidalgo Cast Castellan ellanos os 20204 202042241 2241 Liza Paola Pin eda Velásquez 202 202042513 042513 Christ Ch ristian ian Estuardo G Garcí arcía a Muy 202047123 Marian Mar ian Gulielmy Porres Vásquez 202042 202042177 177

Catedrático: Dr. Marco An tonio Del Cid Flor Flores es Mazatenango Suchitepéquez, 29 de abril de 2021

 

1. ¿Cuáles ¿Cuáles son la las s d iversas etapas implicadas en un pro yecto de análisis estadístico? Ejecutar el m modelo odelo y anali analizar zar el rresultado. esultado. ●  Ejecutar modelo elo utilizan utilizando do un nuevo conjunto de datos. datos. ●  Validar el mod Empezar a aplicar el mode modelo lo y realizar un segui seguimient miento o de los ●  Empezar resultados para anali analizar zar e ell rendimien rendimiento to de dell modelo du durante rante un perí período odo de tiempo. Comprender el problema problema de invest in vestigación igación ●  Comprender ●  Explorar los datos. modelado odelado median mediante te la detección detección de valores val ores ●  Preparar los datos para el m atípicos, el tratamien tratamiento to de los valores perdidos, la transformación de las variables, variabl es, etc. 2. ¿En qu é con siste la estadística descriptiv a? La estadística estadística descriptiva es el conjun con junto to de técnicas orientadas a la recolección, reco lección, tabulación y graficación de datos. 3. ¿En ¿En qu é consis te la inferencia estadística? Consiste en que permite permite condu conducir cir pa para ra una población con base en los resultados obte obteni nidos dos de un a muest muestra. ra. G Generaliza eneraliza a part partir ir de análi análisis sis de pocos datos 4. ¿Por ¿Por qu é la limpieza d e datos juega u n papel v ital en el análisis estadístico?   estadístico? La limpieza limpi eza de da datos tos incl inclu u ye en encontrar contrar,, corregir o elimin eli minar ar datos erróneos de un u n a base de datos. Permite iden identifi tificar car datos faltantes faltan tes o datos erróneos.  5. ¿Qué es la regresión lineal? Un modelo de regresi´on regresi´on es u n modelo que permite describir cóm cómo o in influye fluye un a va variable riable X sobr sobre e otra variable Y . in dependiente te o explicat explicativa iva o exógena ●  X: Variable independien dependiente te o res respuesta puesta o endógena ●  Y: Variable dependien El objetivo es obtener obten er estimaciones estimacion es razonabl razonables es de Y para distin tos valores de X a partir de d e un a muestra de n pares de val valores ores (x (x1, 1, y1), . . . ,(xn, yn). 6. ¿Q ¿Qué es me mejor jor tener tener buenos datos o buenos modelos?

 

Es mejor mejor tener un a buena rrecolecc ecolección ión de dato datos s qu que e un modelo, ya que   si estos son de buen a calidad no tendremo tendremos s qu que e pasar mucho tiemp tiempo o de limpieza li mpieza y procesamien to previo de los datos. datos.   7. ¿Necesitamos ¿Necesitamos e ell término de intersección en un modelo de regresión? La pendien pendiente te y la inter in tersección sección definen la l a relac relación ión lineal en entr tre e dos v variables, ariables, y se pueden pu eden util utilizar izar para estimar u un n a ttasa asa de cambio prom promedio. edio. La llínea ínea de regresión regr esión se mueve hacia ar arriba riba y hacia abajo abajo,, mediante el ajuste de lla a constante, a un pun to en el que la media de los residuales es cero. cero.   8. ¿Cuále ¿Cuáles s so n los supu estos requeridos para la regre regresión sión lineal? ineal. eal. ●  Linealidad:  Linealidad:   Que la relación entre las variables sea llin  Que los er error rores es en la medición de las var variables iables ●  Independencia: Independencia: Que explicativas explicat ivas sean independientes in dependientes entre sí. Homocedasticidad: Que  Que los error errores es tienen varianza constante. ●  Homocedasticidad: variables sigan lla a Ley Normal. ●  Normalidad: Normalidad:   Que las variables independie dientes ntes no estén ●  No colinealidad: Que las variables indepen correlacionadas corr elacionadas en tr tre e ellas. el las. 9. ¿Q ¿Qué e es s una «distribu ción nor normal»? mal»? La distribución normal es un mode modelo lo capaz de aproximar satisfactoriame satisfact oriamente nte el valor de un a var variable iable aleatoria a u na situación ideal. Los datos generalmente gen eralmente se distribuyen de diferen diferentes tes maneras, como izquierda izqui erda o derecha. No obst obstante, ante, es posible que los datos no se distribuyen distr ibuyen,, s sin ino o que se distribuyen cerca de la mediana, creando un una a curva similar a una u na campaña. 10. ¿Q ¿Qué ué es la colinealidad y qu é hacer con él?

¿Cómo e eliminar liminar

multicolinealidad? Colin ealid ealidad ad / M Mul ulticolinealidad: ticolinealidad: regresión ión múltiple: cuan cuando do dos o más variables variables está están n altamente ●  En la regres correlacionados Proporcionan infor in formac mación ión redundant redundante e ●  Proporcionan estándar tándar de los coeficien tes de regresión de las var variables iables ●  Los errores es afectadas afectad as tienden a ser grandes prueba de hipótesis de que el coeficiente es igual a ce cero ro puede ●  La prueba condu conducir err error or de rechazar falsamente la hipótesis nula nul a de ni ningún ngún efecto cir de alaun expli explicativo cativo ((error error tipo II)

 

●  Lleva a sobreajuste

Cómo eliminar elimin ar la multicolinealidad: Elimin e algunas de las v variables ariables afectad afectadas as ●  Elimine regresión sión con c compo omponen nen tes principales: da pr predicto edictores res no ●  Utilice regre correlacionados afectadas das ●  Combine las variables afecta Utili ce la regresión contraída (ridge) ●  Utilice regresión resión parc parcial ial por m mínimos ínimos cuadra cuadrados dos (PLS) ●  Utilice la reg Cómo detectar detectar la multicolin multicolineal ealidad: idad: observan grandes c cambios ambios en los c coeficien oeficientes tes in individ dividuale uales s cuando cuan do ●  Se observan se añaden añ aden o el eliminan iminan una v variable ariable pr predicto edictora ra observan c coeficien oeficientes tes de re regres gresión ión in insignifican significante te para los ●  Se observan predictores afectados pero también u un n rechazo de la hipótesis h ipótesis conjun ta de que los coeficientes son todo todos s cero (pr (pruebaF) uebaF) – VIF: es la proporción propo rción de las varianzas d del el coeficiente cuando cuan do se ajusta ajusta el mode modelo lo completo comp leto dividido por la varianza del coeficiente cuan cuando do se ajusta ajusta con él. multicoline ticolinealidad alidad (aunque otros autores ●  Regla de oro: VIF > 5 in dica mul consideran con sideran 10 y otros 20 como pun tos de corte) corte).. ●  Matriz de correlación parcial. 11. ¿Cómo comp rob ar si el mod elo de regresión se a ajusta justa b ien a los datos? Min itab Statistical Sof Minitab Software tware presenta u na variedad de estadís estadísticos ticos de bondad bon dad de ajuste. En esta publi publicación cación,, exploraremos el estadíst estadístico ico R cuadrado (R2 (R2 ), algun as de s sus us lilimitac mitacion iones, es, y descubriremo descubriremos s var varia ias s sorpresas sobre la march march a  R cuadrado cu adrado / R cu adrado ajustado   12. ¿Qué ¿Qué es la validación cru zada? zada? Es u na téc técni nica ca utili utilizada zada para evaluar los resultados de un an análisis álisis estadístico estadís tico y garan tizar que son indepen dientes de la partición en tre datos datos de entrenamiento y prueba. 13. ¿Q ¿Qué ué e es s la interpolació n y extrapo lación? Estimarr un valor de 2 valore Estima valores s desconocidos d de e una un a lista de valore valores s es de in ter terpolación. polación. La ex extr trapolación apolación se aproxima a un valor m mediante ediante lla a ampliación de un conjun to conocido de valore valores s o h echos.

 

14. ¿Q ¿Qué ué signific a el valor P o p-valor? El valor p se defin define e com como o la probab probabilidad ilidad de qu que e un valor estadí estadístico stico calculado sea posible dada u na h ipótes ipótesis is nul nula a ciert cierta. a. 15. ¿Cuál e es s la diferencia entre el el aprend iza izaje je su pervisado y un aprendiza apre ndizaje je no supervisado? La principal prin cipal diferencia en entr tre e est estas as dos ffamilias amilias se en encuen cuentr tra a en los datos de en trenamien trenamiento. to. En el aprendizaje supervisado los rresultados esultados qu que e se desean obtener del modelo son con ocidos prev previamen iamente. te. ... Por P or otro otro llado, ado, en el apre aprendi ndizaj zaje e no su pervisado el res resul ultado tado des deseado eado no se u utiliza tiliza durante el entr en trenamiento. enamiento. 16. ¿Q ¿Qué ué e es s un o utlier o valor atípico atípico ? ¿Q ¿Qué ué es un inlier? ¿Cómo se detectan dete ctan los v al alores ores at atíípicos y cómo se manipulan? observaciones aciones que est están án lejos de llas as Los valore valores s atí atípicos: picos:   Son observ demás observaciones, observaciones, que pu eden ocurrir por casualidad en cu cualquier alquier distribución distr ibución . A menudo menu do indican un error de medición o u na distribución de cola larga. Los valores atípicos se pueden pu eden iden identificar tificar mediante median te gráficos o métodos un u n ivariantes. Los valores atí atípicos picos pu pueden eden ser evaluados in individualment dividualmente e o ser sustituidos. El error de medición : descartarlos descartarlos o util utilizar izar la estadística estadística robusta Distribución de cola larga: gran asimetrí asimetría, a, no pu puede ede utilizar las herramientas que que su ponen una distribución normal. Todos los valores extremos no n o son val valores ores atí atípicos. picos. La iden tifi tificación cación de valores atípicos: ●  ●  ●  ● 

No existe u n método matem matemático ático rrígido ígido Ejercicio subjetivo: tenga cui cuidado dado Boxplots Gráficos Gráficos QQ QQ (cuantiles muestr muestrales ales Vs cuantiles teóricos teóricos))

Manejo de los l os valores extrem extremos: os: ●  Depende de la causa cuando do el modelo subyacente es conocido ●  Retención: cuan Problemas de rregre egresión: sión: sólo exc exclu luye ye los pun tos que pr presenten esenten un alto ●  Problemas grado de influencia in fluencia e en n los coeficientes est estimados imados..

 

encuentr entran an den dentr tro o de la distr distribución ibución general de los Inlier: Estos se encu demás valores observados. No perturba los resultados, pero son inusuales La identificación iden tificación de inliers: in liers: ●  Utiliza la distancia

17. ¿Cómo tra tratar tar los valores ausentes ((datos datos p erdido s o que faltan) faltan)? ? Si no se i dentifica n ningún ingún pat patrón rón en las ausen ausencias cias entonces los valores ausentes ausen tes pueden ser sustituidos por la mediana o media o simplemente pueden ser ignorados. i gnorados. De todas maneras se debe tener cuidado en el porcentaje porc entaje de valores perdidos que tiene un a var variable. iable. Si los datos faltan por azar azar:: la elimin eliminación ación no tiene ningún efecto de polar polarización, ización, pero pero disminu ye el pode poderr del análi análisis sis disminuye disminuyendo ndo el ta tamaño maño efectivo de lla a muestra. También se pu eden trat tratar ar por medio de: Imputación simple: Sustitui Su stituirr los dat datos os au sentes por los valores medios ((o o mediana, median a, etc.) de llos os restantes datos. Listado de valores: Se trata trata de bu buscar scar en la matriz de datos los valores que están está n fuera fu era d del el rango de resp respuesta. uesta. Consistencias Lógicas: Se comprueban comprueban llas as respuestas que pu puedan edan ser consideradas con sideradas contradictorias entre sí. Pregu n tas filtro: Pregun fi ltro: Se ttrata rata de comparar el n número úmero de respuestas de un a categoría categorí a ffiltro iltro y ot otra ra categoría ffiltrada. iltrada.   18. ¿Q ¿Qué ué e es s un falso po sitivo y un falso negativo ? Falso n egat egativo: ivo: informar err erróneamente óneamente la au ausencia sencia de un una a condició condición n cuando cuan do en rea realidad lidad exist existe. e. Un claro ejem ejemplo plo es lo qu e puede ser ser en el caso de no n o detect detectar ar un a enfermeda enfermedad d cuando e ell paciente ttiene iene la enf enferm ermedad. edad. Falso positivo: informar in formar incor in correct rectamente amente la presencia de u na condición con dición o efect ef ecto o cu cuando ando n no o exist existe e realmente. Un posible pero pero muy común común eje ejemplo mplo es lo qu e puede pasar en u un n test VIH positivo cuan cuando do el el paciente es en realidad VIH VIH negativo. 19. ¿Qué es la potencia estadística?

 

Describe la prob probabilidad abilidad de que un a prueba identifique cor correct rectamente amente un efecto genu genuino, ino, rreal. eal. Di Dicho cho de un a ma manera nera más sen sencilla, cilla, es la capacida capacidad d de distinguir distingu ir la señal del rrui uido. do. La señal que buscamos es el impa impacto cto de u n tratam tra tamien iento to sobre sobre algú n resultado que nos in ter teresa. esa. Un claro ejemplo que podríamos ver es en la efectividad de un u n nu evo evo fármaco para la gripe. gripe. Ya Ya que se busca pr probar obar su efectividad (señal). El ruido que nos preocupa proviene provien e de la complejidad de los datos (qué tan variables son). 20. ¿En qué con siste u na muestra? Es u n su bgrupo o subconjunto rrepres epresentativo entativo de la población, ext extraí raída da seleccionada por algún método de muestreo, la muestra siempre es una parte de la población poblaci ón.. Esto se rrealiza ealiza con el objetivo de redu reducir cir el campo de experiencias. experien cias. Las propiedades qu que e obten obtengamos gamos se h arán extensivas a toda la población. 21. ¿Qué es el muestreo? El muestr muestreo eo es u una na h herr erramienta amienta d de e la in vest vestigación igación científica. Su fu nción básica es dete determ rmin inar ar qué parte de un a rea realidad lidad en estudio (población (poblac ión o un iverso iverso)) de debe be examinarse examinarse co con n la fin alidad de hacer in inferencias ferencias s sobre obre d dicha icha población población.. 22. ¿Q ¿Qué ué e es s un in divid uo en Estadística? Estadística? Un individuo i ndividuo o un unidad idad es estadí tadística stica es cada un o de los elementos que componen comp onen la población. 23. ¿Qué ¿Qué es una po blación en Estadística? La población en estadística estadística está compu compuesta esta por todos los elementos el ementos (personas, objetos, objetos, organi organismos, smos, h istorias clíni clínicas) cas) que qu e participan del fenómeno fen ómeno que fu fue e definido y d delimitado elimitado en el análi análisis sis del pr problema oblema de investigación.   investigación. 24. ¿Q ¿Qué ué se entiende po r prob abilidad? La probabilidad probabilidad es un mét método odo por el cual se obtiene la frecuen frecuencia cia de un acontecimiento det determ ermin inado ado med mediante iante la realización de u n exper experimento imento aleatorio, del que qu e se con ocen todos los resul resultados tados posibles, bajo condiciones condicion es suficien suficientem temente ente esta estables. bles. 25. ¿Q ¿Qué ué se entiende po r una població n homo génea? Es un u n tipo de población qu e comparte carac caracterí terísticas sticas en entre tre sí sí..

 

26. ¿Q ¿Qué ué se entiende po r un parámetro estadístico ? Un parámetro parámetro estadístico es u n nú mero qu que e se obtien obtiene e a partir de los l os datos de una u na distribuci distribución ón estadíst estadística. ica. 27. ¿Q ¿Qué ué se e entiende ntiende por u n estimador? Un estimador estimador es u un n estadí estadístico stico al qu e se lle e exigen ciertas condiciones para que pueda calcular con ciertas garantías ciertos parámetros de una población. 28. ¿Q ¿Qué ué se entiende po r error d e e estimación stimación ? El error de estimación es el valor absoluto absolu to de la diferencia dif erencia entre entre una un a estimación particular particul ar y el valor del parámetro. 29. ¿Q ¿Qué ué se entiende po r error d e muestreo? Es la imprecisión qu e se comet comete e al estimar u un n a característ característica ica de la població n de estudi población estudio o (parámet (parámetro) ro) mediante median te el valor obtenido a par partir tir de u un na parte o muestra de esa población poblaci ón (estadís (estadístico). tico). Este error depen de de much os factores, entre ellos, del procedimien to de extracción de esa parte de la población (diseño muestr muestral), al), del n úmero de un idades que que se ext extraen raen (tamaño de la muestra), de la l a natu naturaleza raleza de la característica característica a estimar, etc. 30. ¿Q ¿Qué ué se entiende po r una e estimación stimación rob usta? La estadística estadística robusta es un u n a aproximación alternati alternativa va a los métodos estadísticos estadíst icos clásicos. El obj objeto eto es producir est estimadores imadores qu que e no sean afectados indebidamente por valores atípicos (outliers) o por variaciones pequeñas pequeñ as rrespec especto to a llas as h hipótes ipótesis is de los mode modelos. los. Por ejemplo, la median a es un estimador robusto de la centralidad de los datos, y n o así la media aritmética. aritmética.   31. ¿Cuále ¿Cuáles s son las prin cipales d ebilidades d e lla a media media aritmética? sensibl e a los valores ex extremos tremos muy altos o mu mu y bajos. ●  Es sensible recomendable endable e emplear mplearlas las en distr distribu ibuciones ciones muy asimét asimétricas ricas ●  No es recom variables iables discretas o cualitativas, cu alitativas, la media aritmética aritmética ●  Si se emplean var puede no pertenecer pertenecer al conjun to de los valor valores es de la variable. variable. datos os es muy grande puede ser tedioso tedioso su cálculo ●  Si el conjun to de dat manual. puede uede calcular para dat datos os cualitativos ●  No se p

 

Pu ede verse afectado por valores extrem extremos os que no son ●  Puede representativos del resto de los datos. tedioso o calcular la media d debido ebido a que se utiliza u tiliza cada un o de ●  Resulta tedios los puntos pu ntos de dat datos os de nu est estro ro cálculo. 32. ¿Qué ¿Qué se entiende p or u na variable? Un a var Una variable iable es un a car caract acterí erística stica que puede flu ctuar y cuya variac variación ión es susceptible a adoptar adoptar diferentes valor valores, es, los cu ales pueden medirse u observarse. 33. ¿En qué con siste u na varia variable ble cu alita alitativa? tiva? Un a var Una variable iable cualitativa es u un n tipo de de variabl  variable e estadística estadística que describe las cualidades, cu alidades, circun circunstancias stancias o caracter características ísticas de un ob jeto o persona, sin hacer uso u so de nú mer meros. os. Pueden clasif clasificarse icarse según según su sus s carac caracter teríst ísticas icas como: representada a por ●  Variable Variable cu alita alitativa tiva no minal: minal:   Variable que no es representad nú mer meros os ni tiene algún tipo de or orden, den, y por lo tanto es matemáticamente matem áticamente menos precisa. Por ejem ejemplo, plo, son variables n omin ominales ales los colores: negro, azul, rrojo, ojo, amaril amarillo, lo, n aranja, etc. variable le cu cualitativa alitativa or ordinaria, dinaria, tamb también ién ●  Varia Variable ble cualitativa ord inal: La variab conocida con ocida c como omo variable cuasi cuasicuantitativa, cuantitativa, es representada por u una na modalidad que no requiere nú mer meros os per pero o sí con consta sta de un orden o u n puesto. pu esto. Por ejem ejemplo: plo: leve, moderado, grave.

34. ¿En qué con siste u na varia variable ble cu antitativa? Un a var Una variable iable cuan cuantita titativa tiva e es s aqu aquella ella variabl  variable e estadí estadística stica que, a dif erencia de la cualitativa, cu alitativa, puede ex expresarse presarse a través de cif cifras ras y son con contables tables y medibles. Pu eden clasi clasifi ficarse carse según su sus s car caracterí acterísticas sticas como: toman, an, solamente, ●  Variables discretas: Son aquellas qu e tom determinados dete rminados valor valores es y no cu cualqui alquier er va valor lor que se en cuentr cuen tre e entre dos de ellos. ell os. Por ej ejemplo, emplo, cu an ando do u n a variable solo puede pu ede tomar valores enteros es discreta. discreta. Imagin Imaginemos emos el n número úmero d de e coches que posee un a persona. pers ona. U Un n in dividuo no puede tener un coche y medio. on aquel aquellas las que pueden tomar cualqu ier va valor. lor. ●  Variables continuas: S continuas:  Son Habitualmente, esto esto quiere qui ere d decir ecir que pu puede ede ttomar omar valores que no son enteros. en teros. Por e ejemplo, jemplo, el peso de u un n a bolsa de arroz arroz pu ede s ser er de 1,25 kg.

 

35. ¿Q ¿Qué ué son las variables d ependiente e ind ependiente? pu ede valerse por sí sola y n no o es afectada Variable ind ependiente: La VI puede Variable por n ada d de e lo que haga el experimentado experimentadorr n nii por otr otra a variable dentro del mismo experimento; experimen to; de ahí su nombre de “in “indepen dependiente” diente”.. Es la variable que puede pu ede se serr manejad manejada a o manipu manipulada lada sistem sistemáticam áticamente ente por el experimentador exper imentador,, cu cuyos yos ca cambios mbios controlados tienen un efecto dir direct ecto o en lla a variable dependiente. que e es afectada por Variable d ependiente: La variable depen diente es la qu Variable la variable independiente indepen diente.. Se tra trata ta del efecto, de lo que se mide. P or ejemplo, ejem plo, en u un n estudio se qui quiere ere medir la in flu encia de la cantidad de  de  sol  sol   que reciben las plantas las plantas en  en su altura. La cantidad de sol es la VI, es la causa. La altura de la planta serí sería a la VD, el efecto que se m mide. ide.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF