Modelado K-Means en Rapidminer

July 13, 2022 | Author: Anonymous | Category: N/A
Share Embed Donate


Short Description

Download Modelado K-Means en Rapidminer...

Description

 

PREPARACION DE LOS DATOS

 

Preparación de los datos. El data set de está sesión lo podemos descargar de: https://drive.google.co m/open?id=1-trKYEqIo_B_Xnwi6FdHI Z0JZZWQWzq

 

Preparación de los datos. Primero crearemos un nuevo repo re posi sito tori rio o en Rapi Ra pidM dMin iner er da dand ndo o click en click en la pest pestañ aña a dell lado de lado su supe peri rior or izqu iz quie ierd rdo o co como mo indi in dica ca la ima imagen gen..

 

Preparación de los datos. El Eleg egim imos os un repositor reposi torio io Loc Local. al. Y continuamos dand da ndo o cl clic ick k en “next”.

 

Preparación de los datos. Lo nombramos como “analisis_Tequila analisis_Tequila”” Dejamos todo tal cual aparece en la im imag agen en y damo da moss cl clic ick k en en “finish”

 

Preparación de los datos. Damos cl cliick en en el boton de “Add Data” no abrira una ventana y ahí  seleccionamos “My Computer”

 

Preparación de los datos. Bu Busc scam amos os nu nuest estro ro archiv arch ivo o .c .csv sv que que desca de scarg rgam amos os co con n ante an teri rior orid idad ad y sin mover nada damo da moss cl clic ick k en en “next”.

 

Preparación de los datos. Es Espe pera ramo moss a que que carge los datos y sele se lecci ccion onam amos os la lass colu co lumn mnas as qu que e deseam dese amos os usa sar, r, si sin n mover nada le damos en “next”.

 

Preparación de los datos. En este paso le damos fo forrma matto a nues nu estr tro os da dato toss si sin n embargo dejare deja remo moss lo loss valo va lore ress po por  r  defe de fect cto oy continuaremos.

 

Preparación de los datos. Ahora seleccionaremos nuestro nue stro rep reposi ositor torio io creado anteri ante rior orme ment nte ey guardaremos nues nu estro tro da data ta set set en el y da damo moss click en “finish”.

 

Preparación de los datos. Vo Volv lvem emos os a la vista de Diseño (“Desing (“ Desing”) ”) y arra ar rastr stran ando do el puntero en nues nu estr tro o da data taset set en en “out” lo enlazamos a “res”

 

Preparación de los datos. Noss diri dirigi gimo moss a la No vista de resultados (“Results”) y podremos observer que tene te nemo moss un tot total al de 35 datos.

 

Preparación de los datos. Na Nave vega gamo moss ha hasta sta la op opci cion on de Estadisticas(“Static Estadisticas (“Static s”). Podemos ver los promedios para cada atributo, junto a sus desviaciones y

niveles.  

MODELADO

 

K-MEANS 

K-me Kmean anss es un mé méto todo do de ag agru rupa pami mien ento to,, qu que e ti tien ene e com omo o ob obje jeti tivo vo la partición de un conjunto de n observaciones en k grupos en el que cada observación pertenece al grupo cuyo valor medio es más cercano.



Dado un conjunto de observaciones (x1, x2,   …, xn), donde cada observación es un vector real de d dimensiones, k-means construye una partición de las obser ob serva vacio ciones nes en k co conju njunt ntos os (k   ≤   n) a fin de minimizar la suma de los cuadrados dentro de cada grupo (WCSS): S = {S1, S2,   …, Sk}

 

K-MEANS



donde  µk es la media de puntos en Ck.

 

K-MEANS 

El pro pr oce ceso soa de agru ag rupa mie ien nto kmás -mea -m eans ns es pa part rtic icio iona nal, l, es deci de cirr, form rma a subgrupos partir depam un grupo general, inicialmente se determina el número de grupos  K  que se desean formar y se eligen los centroides. 

El algoritmo se ejecuta hasta alcanzar el criterio de convergencia, es decir, los objetos no se mueven de grupo.

 

Modelado Ahor Ah ora a no noss di dirg rgim imos os a la vista de diseño, y nos diri di rigim gimos os a la opc pcio ion n de busq bu sque ueda da de operadores, como se muestra en la

imagen.  

Modelado 

Durante la preparación de los datos dejamos los atributos sin modificar sin darnos cuenta que teníamos un tipo de dato que no es compatible con el modelo K-MEANS de RapidMiner dicho atributo es la “categoría” que es de tipo polynomial, mismo que debe de bemo moss ca camb mbia iarr pa para ra po pode derr co cont ntin inu uar co con n nu nues estr tro o mo mode dela lad do.

 

Modelado Ah Ahor ora a bu busca scare remo moss el operador  “SetRole SetRole”” tecl te clea eand ndol olo o en la caja de bu caja busq sque ueda da y lo arr arras astr tram amos os en la lin linea ea de nue nuest stro ro data set.

 

Modelado Damoss cl Damo click ick so sobr bre e el op oper erad ador or y nos nos most mo stra rara ran n lo loss para pa rame metro tross de config conf igur urac acio ion n de dich cho o operador en don do nde nos ubicaremos.

 

Modelado 

Seleccionamos en   “attribute name”   el el atributo atributo Cat Categor egoría, ía, dicho operador operador debe ser cambiado de rol a un tipo de texto que no tenga problemas con nuestro modelo K-MEANS.

 

Modelado Selecci Sele ccion onam amos os el atributo “Categoria Categoria”” que como sabemos es del tipo poly po lyno nomi mina nall y queremos camb ca mbia iarl rlo o a un uno o

máss ad má adec ecua uado do..  

Modelado Para es este ca casso el tipo ti po ad adec ecua uado do para manejar  texto en Rap Ra pidMiner es el tipo “label”, lo sele se lecci ccion onam amos os y nos di dirrig igim imo os a la

vista de diseño.  

Modelado De Debe be qu qued edar  ar  como se mue como muest stra ra en la im imagen y ahor ah ora a es esta tamo moss listos lis tos par para a usa usar  r  nuest nue stro ro mo mode delo lo KMEANS.

 

Modelado Nos ubic Nos ubicam amos os en la op opci ción ón de busq bu sque ueda da y escr es crib ibim imos os KMeans selec sel eccio ciona namo moss el primero y lo alin al inea eamo moss a

nues nu estr tro o Se Sett Role Role..  

Modelado 

Como men Como mencio cionam namos os ant anteri eriorm ormen ente te par para a apl aplica icarr el mod modelo elo K-M K-MEAN EANS S ha hay y que definir cuantos grupos(clusters) queremos generar, con los datos que nos dio la firma firm a de ce cert rtif ific icac ació ión n ha hay y 3 cat ateg egor oría íass de te tequ quil ila a (P (PUR URO_ O_AG AGA AVE VE,, LUJO Y REGU RE GULA LAR) R) sa sabi bien endo do es esto to po pode demo moss ge gene nerrar 3 gr grup upos os pa parra nu nues estr tro o mo mode delo lo,, donde do nde se re repa part rtir irán án la lass di differ eren ente tess ca cate tego gorí rías as,, si sin n em emba barg rgo o us usar arem emos os so solo lo 2 grupos para ubicar el de certificados.

 

Modelado No co colo loca camo moss en la pes pesta taña ña de para pa rame metr tros os y en loss gr lo gru upo poss “k ” selec sel ecci cion onam amos os 2 como anteriormente decidimos.

 

Modelado Ya qu que e tene tenemo moss un numero pequ pe queñ eño o de datos, usaremos unicam unic amen ente te 3 vuel vu elttas a lo loss da dato tos. s.

 

Modelado Corremo Corre moss nu nuest estro ro mode mo delo lo y no noss ubicamos en la pest pe stañ aña a de Exampl Exam pleS eSet et co como mo pode po demo moss ob obser serva var  r  se han han añ añad adid ido o nue uev vos atr trib ibu uto toss a

nues nu estr tro o da data tase sett  

Modelado Se ag agre rego go un identi ide ntific ficado adorr y un atri at ribu buto to de ti tipo po cluste clu sterr dond donde e no noss indi in dica ca a que que grupo gru po pe pert rten enec ece e cada ca da da dato to..

 

Modelado No Noss vamo vamoss a esta es tadi dist stic icas as y obse ob serv rvam amos os lo mencionado. Vemos los atributos, rangos, prom pr omed edio io y desviacion

estandar   

Modelado Ahora vamos a la pest pe stañ aña a de ClusterModel dand da ndo o cl click ick y nos nos apar ap arec ecer era a la descr de scrip ipci ción ón de dell modelo.

 

Modelado Ahora los datos que qu e ten tenia iamo moss se han di dist stri ribu buid ido o en 2 grupo gruposs o clust clusters ers grup upo o0Y 13 al gr 22 al gr grup upo o1 dand da ndo o el tot total al de de

35  

Modelado En la op opcion de FolderView podemos ver que dato da toss pe pert rten enec ecen en a cada grupo y saber que cont co ntie iene ne ca cada da dato.

 

Modelado Nave Navegam gamos os a la opc pcio ion n de Centroid Tabloide y no noss de dete tene nemo moss a obs observ ervar arla la má máss a profundidad.

 

Modelado 

Diapos Diap osit itiv ivas as at atrrás me menc ncio ioná nába bamo moss la im impo port rtan anci cia a de lo loss ce cen ntr troi oide dess en el algoritmo K-MEANS pues en la tabla centroide se ubican las medias de los grupos generrad gene ados os po porr el alg algor orit itmo mo.. Al el eleg egir ir ún únic icam amen ente te 2 gr grup upos os au aume ment ntam amos os la lass posibilidades de centrarnos en un solo grupo al que denominaremos grupo de certificados.

 

EVALUACIÓN

 

Evaluación 

Diapos Diap osit itiv ivas as at atrrás me menc ncio ioná nába bamo moss la im impo port rtan anci cia a de lo loss ce cent ntrroi oide dess en el algoritmo K-MEANS pues en la tabla centroide se ubican las medias de los grupos generados por el alg lgo oritmo. Para cump mpllir la lass deman anda dass de la firma de certifica certi ficación ción nos basaremos basaremos en el val valor or de estas medias medias para encontrar encontrar la mejor relación entre la calidad y el precio y elegir el grupo adecuado para denominarlo grupo certificado.

 

Evaluación Anal izam amos os la ta tabl bla a y no noss ce cent ntrram amos os en la lass me media diass de lo loss at atri ribu buto toss   PRECI PRECIO O y Analiz CALIDAD.  Siendo estos Precio=857.145 y Calidad= 5.637 Nos basaremos en estos datos y los de la tabla centroide para elegir un grupo sobre el que trabajaremos.

 

Evaluación Como nos menci me ncion ona a la firm firma a la cer certif tificac icación ión se otor ot orga gara ra a quie quiene ne cump cu mpla lan n co con n la relac rel ació ión n pr prec ecio io-calidad.

 

Evaluación En el gr grupo 0 la la media del precio es ma mayo yorr a la media general, esto quiere deci cir  r  que en este gru rup po se al alma mace cena nan n lo loss

En cuanto a la calid ca lidad ad la med media ia no es es muy dife di fere rent nte e a la la media general, porr lo qu po que e las las calificaciones

prec pr ecio ioss ma mass alto altoss

deben se ser  r  regulares.

 

Evaluación En el gr grupo 1 la la media del precio es menor a la media general, esto quiere deci cir  r  que en este gru rup po se al alma mace cena nan n lo loss

En cuanto a calid ca lidad ad la med media ia es menor a la media general, porr lo qu po que e las las calificaciones deben ser las

prec pr ecio ioss ma mass bajo bajoss  

Evaluación Pero que tan ciert cie rto o so son n esta estass especulaciónes, ahora nos diri di rigi gimo moss a nuestr nuestro o mode mo delo lo en la vi vist sta a de diseño

menores.

 

Evaluación Busc scam amos os el Bu oper op erad ador or Fi Filt lter er Example y lo coloca cam mos en la segu gun nda lin ine ea de nues nu estr tro o clu clust steri ering ng

 

Evaluación Damoss cl Damo click ick so sobr bre e el op oper erad ador or y nos nos diri di rigi gimo moss a parametros, damo da moss cli click ck sob sobre re condition class.

 

Evaluación Se Sele lecci ccion onam amos os la opc pcio ion n de attribute_value aprovecharemos el atr atrib ibut uto o de tip tipo o cluster que se creo paso pa soss at atra ras. s.

 

Evaluación En pa para rame mete terr string escribimos:

cluster=cluster_0 para poder  visualizar  unic un icam amen ente te lo loss

dato da tos s de di dich cho o grupo.  

Evaluación Ahor a po pode demo moss Ahora ver cl clar ara ame ment nte e lo loss 13 da dato toss qu que e cont co ntie iene ne es este te grup gr upo o y pod poder  er  anal an aliz izar ar lo menc me ncio iona nado do al

comi co mien enzo zo de dell analisis.  

Evaluación Podemos corro co rrobo bora rarr qu que e los preci pr ecios os so son n mu muy y por enci cim ma de la media de 857.145 y la calidad tampoco es la

esperada espera da pa para ra tales precios.  

Evaluación Regresa Regre samo moss a la la vista vi sta de dise diseño ño y seleccionamos nuev nu evam amen ente te el filtro ahora en parameter string camb ca mbia iamo moss el

cluster = a

cluster_1

 

Evaluación Entre Entr e los los 22 registros obse ob serv rvam amos os la gran gra n cant cantid idad ad de prec pr ecio ioss ba bajo joss dejando muy de lado la do al gr grup upo o

anterior.  

Evaluación Nos enf Nos enfoc ocam amos os en la ca calilida dad dy comp co mpro roba bamo moss el mayo ma yorr num numer ero o de calificaciones alta al tas, s, por por lo que que será se rá el ele elegi gido do

para continurar.  

IMPLEMENTACIÓN

 

Implementación 

Ahora que sabemos que el grupo 1 será el que paso la certificación aún nos qued qu edan an se sele lecc ccio iona narr es esas as marc marcas as qu que e re real alme ment nte e ap aprrob obar aran an la ce cert rtif ific icac ació ión n siguiendo el modelo precio-calidad, y también poder contestar las preguntas que nos hizo la firma.

 

Implementación record Si reco rdam amos os la lass medias generales de nue nuestro stross dat datos, os, nos serv rviiran co com mo refer ref eren enci cia a pa para ra dar la cert certifi ificaci cación ón a los los in inte tegra grant ntes es

Precio = 857.143 Calidad = 5.637

de est este e gr grup upo. o.  

Implementación Añadim Añad imos os un Nuev Nu evo o fi filt ltro ro en la linea lin ea del ant anteri erior or filt fi ltro ro da damo moss cl clic ick k sobr so bre e el y en parametron damos en Add

Filters  

Implementación Para seleccionar  las mejores marc ma rcas as se ha opt ptad ado o po por  r  sele se lecci ccion onar ar so solo lo aque aq uella llass qu que e esten esten por debajo de la

media de precio  

Implementación Ahora Ahor a po pode demo moss visual vis ualiza izarr aqu aquell ellas as marc ma rcas as que cump cu mple len n co con n lo loss requisitos esta es tabl blec ecid idos os po por  r  la fi firm rma a y po porr lo

Y aq aqu uel ella lass qu que e es este ten n po porr en enci cima ma de la medi me dia a en cal calida idad. d.

tant ta nto o acr cred edit itan an la certificación.  

Implementación En la lass estadi estadist stic icas as pode po demo moss ob obser serva var  r  como co mo el gr grup upo o aumento considerablement e la me medi dia a en en calilida ca dad dy

dismi di sminu nuyo yo un poc poco o en pre reci cio o  

Implementación La firma decide certifi cert ificar car aqu aquell ellas as marcas en el grup gr upo o 0 qu que e teng te ngan an una calilida ca dad d ma mayo yorr a la media y un

precio menor a 1000.  

Evaluación Regresa Regre samo moss a la la vista vi sta de dise diseño ño y seleccionamos nuev nu evam amen ente te el filtro ahora en parameter string camb ca mbia iamo moss el

cluster = a

cluster_0

 

Implementación Y finalmente solo añadiendo 4 marcas a la lista de aprobados para la certificación.

 

Implementación 

Finalmente nos queda analizar un caso y es que la firma dice no estar muy contenta con las calificaciones otorgadas por los jueces y se cree hubo alguna influencia influ encia por parte de algunas marcas. marcas. Recor Recordemos demos la calidad del tequila tequila varia esencialmente en función a la proporción de agave que contiene y el tiempo de añejamiento sabiendo que entre más añejado sea y más contenga mayor debería serr la ca se calid lidad ad.. Si Sin n em emba barrgo go,, la mo moda dali lida dad d de dell pr proc oces eso o de fa fabr bric icac ació ión n pu pued ede e modificar la calidad del tequila.

 

Implementación En la vi vist sta a de de dise di seño ño el elim imin inam amos os loss fi lo filt ltro ross an ante teri rior ores es y añ añad adim imos os un uno o Nuevo para verif ve rific icar ar es este te situación.

 

Implementación Damos en AddF Ad dFililte terr y sele se lecci ccion onam amos os lo loss atri at ribu buto toss a consi co nside derar rar pa para ra dar la califi califica caci cion on de calidad.

 

Implementación Basandonos nuev nu evam amen ente te en las medias pero esta vez del Agave y del Añejamiento pros pr osegu eguim imos os co con n

Agave =51.295 Añejamiento = 496.229

nues nu estr tro o fil filtr tro. o.  

Implementación Colocamos nues nu estr tro os val alor ores es y sele se lecci ccion onam amos os a los que est sta an por  enci en cima ma de las las medias para saber que qu e mar marca ca fu fuer eron on

calificadas incorrectamente.  

Implementación Ah Ahor ora a añ añad adim imos os otra ot ra en entr trad ada ay colo co loca camo moss la calilida ca dad d pa para ra saber que marcas fuer fu eron on ca calilifi fica cada dass negativamente.

 

Implementación Como podemos observar  extra ext raña ñamen mente te son 3 la lass ma marc rcas as de lujo lu jo qu que e cum cumpl plen en con co n los re requ quis isit itos os per ero o no ha han n

aproba apro bado do la certificación.  

Implementación Inve vert rtim imos os lo loss fi filt ltro ross In y añad añadim imos os lo loss para pa rame metro tross pa para ra apro ap roba barr la certifi cert ificac cación ión par para a verr la ve lass ma marc rca as qu que e real re alme ment nte e no

cumple cump len n ni ning ngun uno o de los los re requ quis isit itos. os.  

Implementación 

Sin filtrar la búsqueda individu dua almente, todos las marcas calific ica adas extrañamente pertenecen al grupo de certificados del grupo 1, ahora las duda de la firma estarán despejadas y podrá dar su certificación a las marcas apropiadas.

View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF