cap 4 witen
Short Description
Descripción: capitulo witen...
Description
Algoritmos: El Básicos Métodos CAPÍTULO 4 Ahora que hemos visto cómo se pueden representar las entradas y salidas, es el momento de mirar a los algoritmos de aprendizaje propios. En este capítulo se explican las ideas básicas detrás de las técnicas que se utilizan en la minería de datos práctico. No vamos a ahondar demasiado profundamente en las cuestiones más difíciles-avanzadas versiones de los algoritmos, optimizaciones que son posibles, las complicaciones que surgen en la práctica. Estos temas se difieren difie ren a Capítulo 6, en el que luchar a brazo partido con las implementaciones reales de aprendizaje automático esquemas como los incluidos en kits de herramientas de minería de datos y utilizados para el mundo real aplicaciones. Es importante entender estos temas más avanzados para que saber lo que realmente está pasando cuando se analiza un conjunto de datos en particular. En este capítulo nos fijamos en las l as ideas básicas. Una de las lecciones lecci ones más instructivas es que las ideas simples a menudo funcionan muy bien, y recomendamos encarecidamente la adopción de una "simplicidad primer" metodología al analizar conjuntos de datos prácticos. Hay muchos diferentes tipos de estructura simple que los conjuntos de datos se pueden exhibir. En un conjunto de datos, hay podría ser un único atributo que hace todo el trabajo y los demás son irrelevantes o redundante. En otro conjunto de datos, los atributos pueden contribuir de forma independiente y igualmente para el resultado final. Un tercero podría tener una estructura l ógica simple, que implica
sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En un cuarto, puede haber ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos de atributos. la sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa es una suma ponderada de valores de atributos con los l os pesos elegidos adecuadamente. En un séptimo, clasificaciones apropiadas para regiones particulares del espacio instancia podrían ser gobernados por las distancias entre los propios casos. Y en una octava, podría ser que no se proporcionan valores de la clase: El E l aprendizaje es no supervisado. En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir en busca de una clase de estructura e structura puede perderse completamente regularidades de una diferente tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estilo barroco y estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediato estructura comprensible de otro. Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamos de esbozar conduce a un esquema de la máquina de aprendizaje diferente que es muy adecuado para el descubrimiento de la subyacente concepto. Las secciones de este capítulo se miran el uno de estas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a los problemas de varias instancias, donde cada uno ejemplo comprende varios casos diferentes.
sólo unos pocos atributos, que pueden ser capturadas por un árbol de decisión. En un cuarto, puede haber ser independientes unas pocas reglas que rigen la asignación de casos a diferentes clases. Una quinta podría exhibir las dependencias entre los diferentes subconjuntos de atributos. la sexto podría implicar dependencia lineal entre los atributos numéricos, donde lo que importa es una suma ponderada de valores de atributos con los l os pesos elegidos adecuadamente. En un séptimo, clasificaciones apropiadas para regiones particulares del espacio instancia podrían ser gobernados por las distancias entre los propios casos. Y en una octava, podría ser que no se proporcionan valores de la clase: El E l aprendizaje es no supervisado. En la infinita variedad de posibles conjuntos de datos hay muchos tipos diferentes de estructuras que pueden ocurrir, y una herramienta de minería de datos, sin importar cuán capaz es decir en busca de una clase de estructura e structura puede perderse completamente regularidades de una diferente tipo, independientemente de cómo los rudimentario puede ser. El resultado es un estilo barroco y estructura de clasificación opaca de un tipo en lugar de un simple, elegante, de inmediato estructura comprensible de otro. Cada uno de los ocho ejemplos de diferentes tipos de conjuntos de datos que acabamos de esbozar conduce a un esquema de la máquina de aprendizaje diferente que es muy adecuado para el descubrimiento de la subyacente concepto. Las secciones de este capítulo se miran el uno de estas estructuras a su vez. Un último sección presenta formas sencillas de hacer frente a los problemas de varias instancias, donde cada uno ejemplo comprende varios casos diferentes.
4.1 INFERIR REGLAS rudimentaria Aquí está una manera fácil de encontrar reglas de clasificación muy simples de un conjunto de instancias. Llamado 1Rfor 1-regla, se genera un árbol de decisión de un nivel expresado en la forma de un conjunto de reglas que todas las pruebas de un atributo particular. 1R es un simple, barato método que a menudo viene con muy buenas reglas para la caracterización de la estructura en datos. Resulta que las reglas simples con frecuencia alcanzan sorprendentemente alta precisión. Tal vez esto se debe a que la estructura que subyace a muchas bases de datos del mundo real es bastante rudimentario, y sólo un atributo es suficiente para determinar la clase de una instancia con bastante precisión. En cualquier caso, siempre es un buen plan para tratar el las cosas más simples primero. La idea es la siguiente: Hacemos reglas que ponen a prueba un solo atributo y sucursal en consecuencia. Cada rama corresponde a un valor diferente del atributo. Es obvio ¿cuál es la mejor clasificación para dar a cada rama: Utilice la clase que se presenta con mayor a menudo en los datos de entrenamiento. Entonces la tasa de error de las normas se puede determinar fácilmente. Simplemente contar los errores que se producen en los l os datos-que la formación es, el número de casos que no tienen la clase mayoritaria. Cada atributo genera un conjunto diferente de reglas, una regla para cada valor de la atribuir. Evaluar la tasa de error para el conjunto de reglas de cada atributo y elegir la mejor. es así de simple! La Figura 4.1 muestra el algoritmo en forma de pseudocódigo. Para ver el método 1R en el trabajo, tenga en cuenta los datos meteorológicos de la Tabla 1.2 en la página 10 (vamos a encontrar muchas veces de nuevo al mirar cómo los algoritmos de aprendizaje
trabajo). Para clasificar en la última columna, juego, 1R considera cuatro conjuntos de reglas, una para cada atributo. Estas reglas se muestran en la Tabla 4.1. Un asterisco indica que una elección al azar se ha hecho entre dos resultados igualmente probables. El número de los errores se dan para cada regla, junto con el número total de errores para el conjunto de reglas como un todo. 1R elige el atributo que produce reglas con el menor número de errores, es decir, el primer y tercer conjuntos de reglas. Arbitrariamente romper el empate entre estos dos conjuntos de reglas da perspectivas: soleado → ninguna nublado → sí lluvioso → sí
Observamos en primer lugar que el juego para los datos de tiempo es indeterminado. extrañamente suficiente, se jugó al parecer cuando está nublado o lluvioso, pero no cuando hace sol. s ol. Tal vez es una búsqueda interior. Valores perdidos y atributos numéricos Aunque un esquema de aprendizaje muy rudimentaria, 1R no acomodar ambos desaparecidos valores y atributos numéricos. Se ocupa de estos en formas sencillas, pero eficaces. Missingis tratado como un valor de atributo de modo que, por ejemplo, si el tiempo datos contenía valores que faltan para el atributo de perspectiva, un conjunto de reglas de forma sobre outlookwould especificar cuatro valores posibles de clase, uno para cada uno de soleado, nublado, y lluviosa, y un cuarto para faltar. Podemos convertir los atributos numéricos en los nominales utilizando un método de discretización simple. En primer lugar, ordenar los ejemplos de entrenamiento de acuerdo con los valores de la atributo numérico. Esto produce una secuencia de valores de clase. Por ejemplo, la clasificación
la versión numérica de los datos del tiempo (Tabla 1.3, página 11) de acuerdo con la valores de temperatura produce la secuencia Discretización implica la partición de esta secuencia mediante la colocación de los puntos de interrupción en el mismo. Una posibilidad es colocar puntos de interrupción siempre que los cambios de clase, la producción de la siguientes ocho categorías: sí | no | sí sí sí | no no | sí sí sí | no | sí sí | no La elección de los puntos de interrupción a mitad de camino entre los ejemplos a cada lado los coloca en 64,5, 66,5, 70,5, 72, 77,5, 80,5 y 84. Sin embargo, los dos casos con valor 72 causa un problema debido a que tienen el mismo valor de temperatura, pero caer en diferentes clases. La solución más sencilla es mover el punto de corte en 72 hasta un ejemplo, a 73,5, produciendo una partición mixto en el que no es la mayoría clase. Un problema más serio es que este procedimiento tiende a formar una excesivamente gran número de categorías. El método 1R, naturalmente gravitan hacia la elección de un atributo que se divide en varias categorías, ya que esta será la partición de la conjunto de datos en muchas piezas, por lo que es más probable que los casos tendrán el mismo clase como la mayoría en su partición. De hecho, el caso límite es un atributo que tiene un valor diferente para cada instancia, es decir, una identificación que CodeAttribute señala los casos de forma única, y esto le dió una tasa de error cero en la formación establecer porque cada partición contiene sólo un ejemplo. Por supuesto, altamente ramificación atributos por lo general no funcionan bien en los ejemplos de ensayo; de hecho, la identificación atributo código nunca recibirá ejemplos fuera del conjunto de entrenamiento correcto. este
fenómeno se conoce como overfitting; ya hemos descrito overfittingavoidance sesgo en el Capítulo 1, y vamos a encontrar este problema en varias ocasiones en los capítulos siguientes. Para 1R, overfitting es probable que se produzca cada vez que un atributo tiene un gran número de valores posibles. En consecuencia, al discretizar un atributo numérico, un mínimo No se impone límite en el número de ejemplos de la clase de la mayoría en cada parti ción. Supongamos que ese mínimo se fija en 3. Esto elimina todos menos dos de los anteriores particiones. En su lugar, se inicia el proceso de partición sí no sí sí | sí ... asegurar que hay tres apariciones de sí, la clase de la mayoría, en la primera partición. Sin embargo, debido a que el siguiente ejemplo es también sí, no perdemos nada al incluir que en la primera partición, también. Esto lleva a una nueva división de sí no sí sí sí | no no sí sí sí | no sí sí no donde cada partición contiene al menos tres instancias de la clase de la mayoría, excepto el último, que por lo general tienen menos. Límites de la partición siempre caen entre ejemplos de diferentes clases. Siempre que sea particiones adyacentes tienen la misma clase de la mayoría, al igual que los dos primeros particiones anteriores, que se pueden combinar juntos sin afectar el significado de la conjuntos de reglas. Por lo tanto, la discretización final es sí no sí sí sí no no sí sí sí | no sí sí no lo que conduce al conjunto de reglas temperatura: ≤ 77,5 → sí > 77,5 → ninguna
La segunda regla involucrada una elección arbitraria; como sucede, No¿Ha elegidos. si yeshad sido elegido en lugar, no habría necesidad de ningún punto de interrupción en absoluto, y
como ilustra este ejemplo, puede ser que sea mejor utilizar las categorías adyacentes para ayudar a romper los lazos. De hecho, esta regla genera cinco errores en el conjunto de entrenamiento y por lo tanto es menos efectiva que la regla anterior para la perspectiva. Sin embargo, el mismo procedimiento conduce a esta regla para la humedad: Humedad: ≤ 82,5 → sí > 82,5 y 95,5 ≤ → ninguna > 95,5 → sí
Esto genera sólo tres errores en el conjunto de entrenamiento y es el mejor 1 -regla para los datos en la Tabla 1.3. Por último, si un atributo numérico tiene valores perdidos, una categoría adicional es creado para ellos, y el procedimiento de discretización se aplica sólo para los casos de que se define el valor del atributo. discusión En un artículo seminal titulado "reglas de clasificación muy simples funcionan bien en la mayoría comúnmente utilizado conjuntos de datos "(Holte, 1993), un estudio exhaustivo de la actuación del procedimiento 1R se informó en 16 conjuntos de datos utilizados con frecuencia por la máquina de aprendizaje investigadores para evaluar sus algoritmos. La validación cruzada, una técnica de evaluación que explicaremos en el capítulo 5, se utilizó para asegurar que los resultados fueron los mismos como se obtendría en conjuntos de pruebas independientes. Después de un poco de experimentación, la número mínimo de ejemplos en cada partición de un atributo numérico se fijó en seis, no tres como se utiliza en nuestra ilustración.
Sorprendentemente, a pesar de su simplicidad 1R fue bien en comparación con los sistemas de aprendizaje-el-arte stateof, y las reglas que produjo resultó ser sólo unos pocos puntos porcentuales menos preciso, en casi todos los conjuntos de datos, de la dec isión árboles producidos por un esquema de árbol de decisión de la inducción del estado de la técnica. Estos árboles eran, en general, considerablemente más grandes que las reglas de 1R. Reglas que ensayan una sola atributo son a menudo una alternativa viable a las estructuras más complejas, y esta fuertemente alienta una metodología simplicidad primero en el que el rendimiento de referencia es establecido el uso de técnicas simples, rudimentarias antes de pasar a sistemas de aprendizaje más sofisticados, lo que inevitablemente genera salida que es más difícil para las personas de interpretar. El procedimiento 1R aprende un árbol de decisiones de un nivel cuyas hojas representan la varias clases diferentes. Una técnica ligeramente más expresivo es utilizar una diferente gobernar para cada clase. Cada regla es un conjunto de pruebas, una para cada atr ibuto. para numérico atribuye los controles de prueba si el valor se encuentra dentro de un intervalo dado; para los nominales comprueba si está en un cierto subconjunto de los valores de ese atributo. Estos dos tipos de pruebas, es decir, los intervalos y los subconjuntos se aprenden desde la datos de entrenamiento que pertenecen a cada una de las clases. Para un atributo numérico, el fin puntos del intervalo son los valores mínimos y máximos que se producen en el datos de entrenamiento de esa categoría. Para un nominal, el subconjunto contiene sólo aquellos valores que ocurren para ese atributo en los datos de entrenamiento para la clase individual. Reglas
que representan clases diferentes por lo general se superponen, y en tiempo de la predicción del uno con las pruebas más coincidentes se predice. Esta sencilla técnica a menudo le da una útil primera impresión de un conjunto de datos. Es extremadamente rápido y puede ser aplicado a muy grande cantidades de datos. 4.2 MODELADO ESTADÍSTICO El método 1R utiliza un solo atributo como base para sus decisiones y elige el uno que funcione mejor. Otra técnica sencilla es utilizar todos los atributos y permitirles a hacer contribuciones a la decisión que son igualmente independentof importantand entre sí, dada la clase. Esto no es realista, por supuesto: ¿Qué hace en la vida real conjuntos de datos interesante es que los atributos no son ciertamente igualmente importante o independiente. Pero lleva a un esquema simple que, de nuevo, funciona sorprendentemente bien en práctica. Tabla 4.2 muestra un resumen de los datos meteorológicos obtenidos contando cuántos veces cada par atributo-valor se produce con cada valor (Síy no) para el juego. para ejemplo, se puede ver en la Tabla 1.2 (página 10) que el panorama es soleado durante cinco ejemplos, dos de los cuales tienen el juego = Síy tres de los cuales tienen el juego = no. la las células en la primera fila de la nueva tabla, simplemente cuentan estas ocurrencias para todos los valores posibles de cada atributo, y la figura juego en la columna final cuenta el número total de ocurrencias de Síy no. La parte inferior de la tabla contiene la misma información expresada en fracciones, o probabilidades observadas. Por ejemplo, de los nueve días que el juego es sí, la perspectiva es soleado para dos, dando una fracción de 9.2. Para reproducirThe fracciones son diferentes: son la proporción de días que jugar es Síy no, respectivamente.
Ahora supongamos que nos encontramos con un nuevo ejemplo con los valores que se muestran en Tabla 4.3. Tratamos a las cinco características de la Tabla 4.2-perspectiva, la temperatura, la humedad, viento, y la probabilidad global de que playis Sío no-como igualmente importantes piezas, independientes de pruebas y se multiplican las fracciones correspondientes. En cuanto a la yesgives resultados Probabilidad de sí = × × × × = 2 9 3 9 3 9 3 9 9 14 0 0053. Las fracciones se toman de las entradas sí en la mesa de acuerdo a los valores de los atributos para el nuevo día, y la final 9/14 es la fracción global que representa la proporción de días en que el juego es sí. Un cálculo similar para el resultado no conduce a Probabilidad de no = × × × × = 3 5 1 5 4 5 3 5 5 14 0 Esto indica que para el nuevo día, nois más probabilidades que sí-cuatro veces más probable. Los números pueden convertirse en probabilidades por la normalización de ellos para que que suman 1: Probabilidad de sí = + = 0 0053 0 0053 0 0206 20 5 . .. .% Probabilidad de no = +
= 0 0206 0 0053 0 0206 79 5 . .. .% Este método simple e intuitiva se basa en la regla de la probabilidad condicional de Bayes. La regla de Bayes dice que si usted tiene una evidencia Mano hipótesis Ethat osos en que hipótesis, entonces Pr [|] Pr [|] Pr [] Pr [] HE EHH E = Utilizamos la notación que Pr [A] indica la probabilidad de un evento A y Pr [A | B] denota la probabilidad de Aconditional en otro evento B. La hipótesis Su que reproducirWill ser, dicen, sí, y Pr [H | E] va a llegar a ser el 20,5%, al igual que determinado previamente. La evidencia E es la combinación particular de atributo valores para el nuevo día de Outlook = soleado, temperatura = frío, humedad = alta, y viento = true. Llamemos a estas cuatro piezas de evidencia E1 , E2 , E3 , Y E4 , Respectivamente.
Suponiendo que estos elementos de prueba son independientes (dada la clase), su probabilidad combinada se obtiene multiplicando las probabilidades: Pr [|] Pr [|] Pr [|] Pr [|] Pr [|] Pr [ Sí E E E sí sí sí E E sí y = × × × × 1 2 3 4 ees E ] Pr [] No te preocupes por el denominador: Vamos a ignorarlo y eliminarlo en el etapa de normalización definitiva cuando hacemos las probabilidades para sí y no suma a 1, tal como lo hicimos anteriormente. El Pr [sí] al final es la probabilidad de que un yesoutcome sin saber nada de la evidencia E, es decir, sin saber nada de el día en cuestión, y se llama la previa probabilityof la hipótesis H. En este caso, es sólo 9/14, ya que 9 de los 14 ejemplos de entrenamiento tenía un sí valor para el juego. La sustitución de las fracciones de la Tabla 4.2 para las pruebas apropiadas probabilidades conduce a Pr [|] Pr [] Sí E E = × × × × 2 9 3 9 3 9 3 9 9 14 tal como se calculó anteriormente. De nuevo, el Pr [E] en el denominador desaparecerá
cuando normalizamos. Este método se conoce con el nombre de Naïve Bayesbecause Se basa en la regla de Bayes y "ingenuamente" asume la independencia sólo es válido para multiplicar las probabilidades cuando los eventos son independientes. La suposición de que los atributos son independientes (dado la clase) en la vida real, sin duda es una simplista. Pero a pesar del nombre despectivo, Naïve Bayes funciona de manera muy eficaz cuando se probó en conjuntos de datos reales, sobre todo cuando combinado con algunos de los procedimientos de selección de atributos, que se introducen en Capítulo 7, que elimina redundante, y por lo tanto no-independiente, atribuye. Las cosas van mal mal en Naïve Bayes si un valor de atributo en particular no lo hace ocurrir en el conjunto de entrenamiento en conjunto con valor everyclass. Supongamos que en el datos de entrenamiento la perspectiva de valor de atributo = soleado siempre se asoció con la resultado que no. Entonces la probabilidad de perspectivas = ser soleado dado un sí, es decir, Pr [perspectivas = soleado | sí] suerte con la cero, y porque las otras probabilidades son multiplicado por ello, la probabilidad final de Yesin el ejemplo anterior sería cero no importa lo grande que eran. Las probabilidades de que sean cero tienen un derecho de veto sobre el otro queridos. Esto no es una buena idea. Pero el error se puede arreglar fácilmente por pequeños ajustes el método de cálculo de probabilidades de frecuencias. Por ejemplo, la parte superior de la Tabla 4.2 muestra que para el juego = yes, outlookis sunnyfor dos ejemplos, overcastfor cuatro y rainyfor tres, y la parte inferior da estos eventos probabilidades de 2/9, 4/9, y 3/9, respectivamente. En su lugar, podríamos añadir 1 a cada numerador, y compensar mediante la adición de 3 al denominador, dando
probabilidades de 3/12, 5/12, y 4/12, respectivamente. Esto asegurará que un atributo valor que se produce cero veces recibe una probabilidad que es distinto de cero, aunque pequeña. La estrategia de la adición de 1 a cada recuento es una técnica estándar llamado el Laplace estimatorafter el gran matemático francés del siglo XVIII Pierre Laplace. Aunque funciona bien en la práctica, no hay ninguna razón particular para la adición de 1 a la recuentos: Podríamos elegir un lugar pequeño μand uso constante
23 9 43 9 33 9 + + + + + + μ μ μ μ μ μ
,Y El valor de μ, que fue ajustado a 3 antes, proporciona efectivamente un peso que
Determina cómo influyente de los valores a priori de 1/3, 1/3, y 1/3 son para cada uno de los tres posibles valores de los atributos. A grandes μsays que estos priores son muy
importantes en comparación con las nuevas pruebas que viene del conjunto de entrenamiento, mientras que una pequeña uno les da menos influencia. Finalmente, no hay ninguna razón particular para dividir μ
en tres equalparts en los numeradores: Podríamos utilizar en cambio, donde p1 , p2 , Y p3 resumir a 1. En efecto, estas tres cifras son, a priori, probabilidades de los valores de la outlookattribute siendo soleado, nublado, lluvioso y, respectivamente. Esto es ahora una formulación completamente bayesiano donde probabilidades previas han sido asignado a todo a la vista. Tiene la ventaja de ser completamente riguroso, pero la desventaja de que no es usualmente claro hasta qué punto estas probabilidades a priori debería ser asignada. En la práctica, las probabilidades previas hacen poca diferencia siempre que hay un número razonable de casos de formación, y la gente en general, sólo estiman frecuencias utilizando el estimador de Laplace inicializando todos los c argos a 1 en lugar de 0. Valores perdidos y atributos numéricos Una de las cosas realmente buenas de Naïve Bayes es que los valores que faltan no son un problema en absoluto. Por ejemplo, si el valor de outlookwere que falta en el ejemplo de la Tabla 4.3, el cálculo sería simplemente omitir este atributo, produciendo Probabilidad de sí = × × × = 3 9 3 9 3 9 9 14 0 0238. Probabilidad de no = × × × = 1 5 4 5 3 5 5 14 0 0 343. Estos dos números son individualmente mucho más alto de lo que eran antes porque uno
de las fracciones que falta. Pero eso no es un problema, ya que una fracción no se encuentra en ambos casos, y estas probabilidades están sujetos a un proceso de normalización más. este produce probabilidades para Síy Noof 41% y 59%, respectivamente. Si falta un valor en una instancia de la formación, es simplemente no incluido en los conteos de frecuencia, y las relaciones de probabilidad se basa en el número de valores que en realidad producirse más que en el número total de casos. Los valores numéricos son generalmente tramitadas por el supuesto de que tienen un "normal" o Distribución de probabilidad "Gaussian". Tabla 4.4 ofrece un resumen de los datos meteorológicos con características numéricas de la Tabla 1.3. Para los atributos nominales, calculamos cuenta como antes, mientras que para los numéricos simplemente una lista de los valores que se producen. Entonces, en lugar de la normalización de los recuentos en probabilidades como lo hacemos para atributos nominales, calculamos la media y la desviación estándar para cada clase y cada atributo numérico. la valor medio de los temperatureover yesinstances es 73, y su desviación estándar es de 6.2. La media es simplemente el promedio de los valores, es decir, la suma dividida por el número de valores. La desviación estándar es la raíz cuadrada de la varianza de la muestra, que se calcula de la siguiente manera: Restar la media de cada valor, la cuadratura del resultado, suman juntas, y luego dividir por uno menos el número thanthe de valores. Después de que haber encontrado este "varianza de la muestra," tomar su raíz cuadrada para obtener la desviación estándar. Esta es la forma estándar de cálculo de la media y la desviación estándar de un conjunto de números. (El "uno menos que" tiene que ver con el número de grados de libertad
en la muestra, una noción estadística que no queremos entrar en aquí.) La función de densidad de probabilidad para una distribución normal con media μ y desviación estándar σis dada por la expresión más formidable
f x correo x () () = 1 2 2 2 2 πσ μ σ
Pero no temas! Todo esto significa es que si estamos considerando un resultado que sí cuando temperaturehas un valor de, por ejemplo, de 66 años, sólo tenemos que conectar x = 66, μ = 73 y σ =
6,2 en la fórmula. Así que el valor de la función de densidad de probabilidad es temperatura f sí e (|) . . () .==
× = × 66 1 262 0 0340 66 73 262 2 2 π
Y por la misma razón, humidityhas la densidad de probabilidad de una yesoutcome cuando un valor de, digamos, 90, se calcula de la misma manera: f humedad sí (|). = = 0 90 0221 La función de densidad de probabilidad para un evento está muy estrechamente relacionado con su probabilidad. Sin embargo, no es exactamente lo mismo. Si la temperatura es una escala continua, la probabilidad de que la temperatura siendo exactly66-o exactlyany otro valor, tales como 63.14159262-es cero. El verdadero significado de la función de densidad f (x) es que la probabilidad de que la cantidad se encuentra dentro de una pequeña región alrededor de x, es decir, entre x - ε / 2 y x + ε / 2, es ε × f (x). Se podría pensar que deberíamos tener en cuenta la cifra precisión ε
cuando se utilizan estos valores de densidad, pero eso no es necesario. El mismo aparecerá εwould
tanto en el nolikelihoods Síy que siguen y anulan cuando las probabilidades se calcularon. El uso de estas probabilidades para el nuevo día en la Tabla 4.5 rendimientos Probabilidad de sí = × × × × = 2 9 0 0340 0 0221 3 9 9 14 0 000 036. . . Probabilidad de no = × × × × = 3 5 0 0279 0381 0 3 5 5 14 0 000 137. . . lo que conduce a las probabilidades Probabilidad de sí = + = 0 000036 0 000036 0 000137 20 8 Estas cifras están muy cerca de las probabilidades calculadas anteriormente para el nuevo día en la Tabla 4.3, porque los humidityvalues temperatureand de 66 y 90 rendimiento similar probabilidades a los highvalues cooland utilizados antes. El supuesto normal de distribución hace que sea fácil de extender la Naïve Bayes clasificador tratar con atributos numéricos. Si los valores de los atributos numéricos son desaparecidos, los cálculos de la media y la desviación estándar se basan sólo en los que están presentes. Naïve Bayes para la clasificación de documentos Un dominio importante para el aprendizaje de la máquina es la clasificación de documentos, en el que cada instancia representa un documento y la clase de la instancia es el tema del documento. Los documentos podrían ser noticias y las clases podrían ser noticia nacional, el extranjero noticias, noticias financieras, y deportes. Los documentos se car acterizan por las palabras que aparece en ellos, y una manera de aplicar la máquina de aprendizaje para documentar la clasificación es
para el tratamiento de la presencia o ausencia de cada palabra como un atributo booleano. Naïve Bayes es una técnica popular para esta aplicación, ya que es muy rápido y muy exacto. Sin embargo, esto no tiene en cuenta el número de ocurrencias de cada palabra, que es información potencialmente útil para determinar la categoría de un documento. En lugar de ello, un documento puede ser visto como una bolsa de palabras: un conjunto que contiene todas las palabras en el documento, con varias apariciones de una palabra que aparece varias veces (técnicamente, un setincludes cada uno de sus miembros sólo una vez, mientras que una bolsa puede tener elementos repetidos). Frecuencias de palabras se pueden acomodar mediante la aplicación de una forma modificada de Naïve Bayes llama multinominalNaïve Bayes. Supongamos que n1, n2, ..., NKIS el número de veces ioccurs de palabras en el documento, y P1, P2, ..., PKI la probabilidad de obtener la palabra de muestreo ICuando de todos los documentos categoría H. Supongamos que la probabilidad es independiente del contexto de la palabra y la posición en el documento. Estos supuestos conducen a un documento distributionfor multinomial probabilidades. Para esta distribución, la probabilidad de un documento Egiven su clase H in Es decir, la fórmula para el cálculo de la probabilidad Pr [E | H] en Bayes regla- es Pr [] E H N P n yo n ii ki
|! ! =× = Π
1 donde N = n1 + n2 + ... + NKIS el número de palabras en el documento. La razón de la factoriales es para tener en cuenta el hecho de que el orden de las ocurrencias de cada palabra es inmaterial de acuerdo con el modelo de bolsa-de-palabras. PII estimado calculando la relación frecuencia de palabra iin el texto de todos los documentos de formación relacionados con la categoría H. En realidad, no podría ser un término más que da la probabilidad de que el modelo de la categoría Hgenerates un documento cuya longitud es la misma que la longitud de E, pero es común a asumir que este es el mismo para todas las clases y por lo tanto se puede descartar. Por ejemplo, supongamos que hay solamente dos palabras, yellowand azul, en el vocabulario, y una clase particular documento HHA Pr [amarillo | H] = 75% y Pr [azul | H] = 25% (se podría llamar clase hthe de greendocuments amarillento). Supongamos que el Eis documentar azul bluewith amarilla una longitud de N = 3 palabras. Hay cuatro posibles bolsas de tres palabras. Uno de ellos es {amarillo amarillo amarillo}, y su probabilidad de acuerdo con la fórmula anterior es Pr [{} |]! . ! .
! amarillo amarillo amarillo H = × × = 3 0 75 3 0 25 0 27 64 30 Los otros tres, con sus probabilidades, son Pr [{azul azul azul H} |] = 1 64 Pr [{amarillo amarillo azul H} |] = 27 64 Pr [{H amarillo azul azul} |] = 9 64 Ecorresponds a este último caso (recuerdan que en una bolsa de palabras, el orden es indiferente); por lo tanto, su probabilidad de ser generados por el modelo greendocument amarillento es 9/64, o el 14%. Supongamos otra clase, greendocuments muy azulados (lo llaman H '), tiene Pr [amarillo | H '] = 10% y Pr [azul | H'] = 90%. La probabilidad de que Eis generado por este modelo es del 24%. Si éstas son las únicas dos clases, ¿significa eso que Eis en el verde azulado muy
clase de documento? No necesariamente. La regla de Bayes, dado anteriormente, dice que usted tiene que tener en cuenta la probabilidad a priori de cada hipótesis. Si usted sabe que, de hecho, muy greendocuments azulados son dos veces tan raro como greenones amarillentas, esto ser sólo suficiente para compensar la disparidad de 14 a 24% e inclinar la balanza a favor de la greenclass amarillento. Los factoriales en la fórmula de probabilidad no necesitan realmente ser computado porque, al ser el mismo para todas las clases, que haya que dejar en el proceso de normalización de todos modos. Sin embargo, la fórmula todavía implica multiplicar juntos muchas probabilidades pequeñas, que pronto se produce extremadamente pequeños números que causan underflow en gran documentos. El problema se puede evitar mediante el uso de los logaritmos de las probabilidades en lugar de los propios probabilidades. En la formulación Naïve Bayes multinomial se determina la clase de un documento no sólo por las palabras que ocurren en él, sino también por el número de veces que se producen. en general, funciona mejor que el modelo de Naïve Bayes ordinario para la clasificación de documentos, en particular para grandes tamaños de diccionario. discusión Naïve Bayes da un enfoque simple, con una semántica clara, a representar, utilizando, y el aprendizaje de conocimiento probabilístico. Se puede lograr resultados impresionantes. La gente a menudo encontrar que Naïve Bayes rivales, y de hecho supera, clasificadores más sofisticados en muchos conjuntos de datos. La moraleja es, siempre trato de las cosas simples primero. Una y otra vez otra vez la gente ha finalmente, después de una lucha prolongada, logró obtener una buena resultados utilizando esquemas de aprendizaje sofisticadas, sólo para descubrir más tarde que sencilla
métodos como 1R y Naïve Bayes hacen igual de bien o incluso mejor. Hay muchos conjuntos de datos para el que Naïve Bayes no lo hace bien, sin embargo, y es fácil ver por qué. Debido a que los atributos son tratados como si fueran independientes dada la clase, la adición de los redundantes sesga el proceso de aprendizaje. como ejemplo extremo, si usted fuera a incluir un nuevo atributo con los mismos valores que la temperatura a los datos de tiempo, el efecto de la temperatura sería atributo multiplicada: Todas sus probabilidades serían cuadrados, lo que supone una gran cantidad más influencia en la decisión. Si se va a añadir 10 tales atributos, las decisiones haría efectivamente hacerse en temperaturealone. Las dependencias entre atributos reducen inevitablemente el poder de Naïve Bayes para discernir lo que está pasando. Ellos pueden, sin embargo, ser mejorado mediante el uso de un subconjunto de los atributos en el procedimiento de decisión, hacer una selección cuidadosa de cuáles usar. Capítulo 7 muestra cómo. El supuesto de distribución normal para los atributos numéricos es otra restricción en Naïve Bayes como hemos formulado aquí. Muchas de las funciones simplemente no se distribuyen normalmente. Sin embargo, no hay nada que nos impida el uso de otros distribuciones no hay nada mágico acerca de la distribución normal. Si conoces que un atributo particular, es probable que siga alguna otra distribución, procedimientos de estimación estándar para que la distribución se pueden utilizar en su lugar. Si usted sospecha que no es normal, pero no sé la distribución real, existe un procedimiento para "kernel estimación de la densidad "que no asume ninguna distribución particular para el atributo valores. Otra posibilidad es simplemente para discretizar los datos primero. 4.3 de divide y vencerás: CONSTRUCCIÓN ÁRBOLES DE DECISIÓN El problema de construir un árbol de decisión se puede expresar de forma recursiva. En primer lugar, seleccionar un atributo para colocar en el nodo raíz, y hacer una rama para cada posible
valor. Esto divide el ejemplo conjunto en subconjuntos, uno para cada valor del atributo. Ahora, el proceso se puede repetir de forma recursiva para cada rama, utilizando sólo aquellos instancias que en realidad llegan a la rama. Si en cualquier momento todos los casos en un nodo tienen la misma clasificación, se detiene el desarrollo de esa parte del árbol. Lo único que queda es cómo determinar qué atributo para dividir en, dado un conjunto de ejemplos con diferentes clases. Considere la posibilidad de (otra vez!) Los datos meteorológicos. Hay cuatro posibilidades para cada división, y en el nivel superior que producen los árboles en la Figura 4.2. ¿Cuál es la mejor opción? El número de noclasses Síy se muestra en las hojas. Cualquier hoja con una sola clase-Sío no-no tendrá que dividirse aún más, y la proceso recursivo abajo esa rama terminará. Porque buscamos árboles pequeños, que le gustaría que esto suceda tan pronto como sea posible. Si tuviéramos una medida de la pureza de cada nodo, podríamos elegir el atributo que produce los nodos hija más puros. tome un momento para mirar a la figura 4.2 y reflexionar que atribuir crees que es la mejor opción. La medida de la pureza que vamos a utilizar se llama el informationand se mide en unidades llamadas bits. Asociado a cada nodo del árbol, que representa la espera cantidad de información que sería necesaria para especificar si una nueva instancia deben clasificarse Sí o no, dado que el ejemplo alcanzó ese nodo. A diferencia de la bits en la memoria del ordenador, la cantidad esperada de información por lo general implica fracciones de bits y es a menudo menos de 1! Se calcula con base en el número de sí y noclasses en el nodo. Vamos a ver los detalles del cálculo en breve, pero primero vamos a ver cómo se utiliza. Al evaluar el primer árbol en la Figura 4.2, el número de noclasses Síy en los nodos hoja son [2, 3], [4, 0], y [3, 2], respectivamente, y los valores de la información de estos nodos son Información trozos trozos ([,]) 0,2 3 0 971 = Información trozos ([,]) 0,4 0 0 0 =
Información trozos ([,]) 0,3 2 0 971 = Se calcula el valor medio de la información de estos, teniendo en cuenta la número de instancias que bajan cada rama y cinco por la primera y tercera y cuatro por el segundo: info ([,], [,], [,]) (). () (). . 2 3 4 0 3 2 5 14 0 971 4 14 0 5 14 0 971 0 =×+×+× = 6693 bits de Este promedio representa la cantidad de información que esperamos que sería nec esario especificar la clase de una nueva instancia, dada la estructura de árbol en la Figura 4.2 (a). Antes de cualquiera de las estructuras de árboles nacientes en la figura 4.2 se han creado, la formación ejemplos en la raíz componen nueve sí y cinco no hay nodos, lo que corresponde a un valor de la información de Información trozos ([,]) 0,9 5 0 940 = Por lo tanto, el árbol en la Figura 4.2 (a) es e s responsable de un aumento de la información de ganancia () info info perspectivas = - = - ([,]) ([,], [,], [,]). . 9 5 2 3 4 0 3 2 0 940 0 6693 0 = 247. pedacitos que puede ser interpretado como el valor informativo de la creación de una sucursal en la outlookattribute. El camino a seguir está claro. Calculamos la ganancia de información para cada atributo y dividido en el que gana la mayoría de la información. En la situación que se muestra en la Figura 4.2: • Ganancia (perspectiva) = 0.247 bits de • ganancia (temperatura) = 0.029 bits de
• Ganancia (humedad) = 0.152 bits de • Ganancia (viento) = 0.048 bits de
Por lo tanto, seleccionamos outlookas el atributo de división en la raíz del árbol. Esperemos que esto concuerda con su intuición como el mejor para seleccionar. Es la única opción para los que un nodo hija es completamente pura, y esto le da un co nsiderable ventaja sobre los otros atributos. La humedad es la siguiente mejor opción, ya que produce un nodo hija más grande que es casi completamente puro. Luego continuamos, de forma recursiva. La Figura 4.3 muestra las posibilidades de una ulterior rama en el nodo alcanza cuando la perspectiva es soleado. Claramente, una división más adelante outlookwill producir nada nuevo, por lo que sólo tenemos en cuenta los otros tres atributos. La ganancia de información para cada resulta ser • ganancia (temperatura) = 0.571 bits de • Ganancia (humedad) = 0.971 bits de • Ganancia (viento) = 0.020 bits de
Por lo tanto, seleccionamos humidityas el atributo de división en este punto. No hay necesidad dividir estos nodos más lejos, por lo que esta rama está terminado. La aplicación continuada de la misma idea conduce al árbol de decisión de la Figura 4.4 para los datos del tiempo. Idealmente, el proceso termina cuando todos los nodos de hoja que son puroses decir, cuando contienen casos que todos tienen la misma clasificación. Sin embargo, podría que no sea posible llegar a esta feliz situación, porque no hay nada que detenga el conjunto de entrenamiento que contiene dos ejemplos con conjuntos idénticos de atributos pero diferentes clases. En consecuencia, nos detenemos cuando los datos no se pueden dividir más. Alternativamente, uno
podría detenerse si la ganancia de información es cero. Esto es un poco más conservador porque es posible encontrar casos en que los datos se pueden dividir di vidir en subconjuntos que presentan distribuciones de clase idénticas, lo que haría la l a información de ganancia cero. Información de Cálculo Ahora es el momento de explicar la forma de calcular la medida de información que se utiliza como la base para la evaluación de diferentes divisiones. Se describe la idea básica de esta sección, a continuación, en la siguiente examinamos una corrección que se hace por lo general para hacer frente a un sesgo hacia seleccionar divide en atributos con un gran número de posibles valores. Antes de examinar la fórmula detallada para el cálculo de la cantidad de información requerido para especificar la clase de un ejemplo dado que se alcanza un nodo del árbol con una cierto número de síes y noes, considerar en primer lugar el tipo de propiedades que lo haríamos esperar esta cantidad para tener 1. Cuando el número de cualquiera de sí o no de es cero, la información es cero. 2. Cuando el número de de sí y no de es igual, la información llega a un máximo. Por otra parte, la medida debe ser aplicable a situaciones multiclase, no sólo para twoclass queridos. La medida de información se refiere a la cantidad de información obtenida por de tomar una decisión, y una propiedad más sutil de la información puede ser obtenida por teniendo en cuenta la naturaleza de las decisiones. Las decisiones se pueden hacer en una sola etapa, o puede hacerse en varias etapas, y la cantidad de información en cuestión es el mismo en ambos casos. Por ejemplo, la decisión implicado en info ([,,]) 2 3 4
se puede hacer en dos etapas. En primer lugar decidir si es el primer caso o una de la otra dos casos: y luego decidir cuál de los otros dos casos es: info ([,]) 3 4 En algunos casos no será necesario la segunda decisión a tomar, es decir, cuando la decisión resulta ser la primera. Teniendo en cuenta esto conduce a la ecuación info info info ([,,]) ([,]) () ([,]) 2 3 4 2 7 7 9 3 4 = + × Por supuesto, no hay nada especial acerca de estos números particulares, y similares relación debe mantener independientemente de los valores reales. Por lo tanto, podríamos añadir otros criterio de la lista anterior: 3. La información que debe obedecer a la propiedad de varias etapas que hemos ilustrado. Sorprendentemente, resulta que sólo hay una función que satisface todos estos propiedades, y se la conoce como la entropía de información valueor: entropía (,,,) log log log pppppppppnnn 1 2 1 1 2 2 ... ... = - - La razón de los signos menos es que los logaritmos de las fracciones p1 , p2 , ..., Pn son negativa, por lo que la entropía es en realidad positiva. Por lo general, los logaritmos se expresan en la base 2, y luego la entropía está en unidades llamadas bits de sólo el tipo habitual de bits utilizado con las computadoras. El p1 argumentos , p2 , ... De la fórmula de la entropía se expresan como fracciones que añadir hasta 1, de modo que, por ejemplo, información entropía ([,,]) (,,) 2 3 4 2 9 3 9 4 9 =
Por lo tanto, la propiedad de decisión de múltiples etapas se puede escribir en general como entropía (,,) entropía (,) () entropía, pqrpqrqr q qr r qr =+++× ++
donde p + q + r = 1. Debido a la forma en que la función de registro de obras, se puede calcular la información medir sin tener que trabajar fuera de las fracciones individuales: info ([,,]) log log log [Log log l 2342929 39394949 22334 =-×-×-× = - - - Registro oog] 4 9 9 9 + Esta es la forma en que la medida de información se calcula normalmente en la práctica. así el valor de la información para el primer nodo de la figura 4.2 (a) es información pedacitos
Atributos altamente ramificación Cuando algunos atributos tienen un gran número de posibles valores, dando lugar a una rama de múltiples vías con muchos nodos secundarios, surge un problema con l a ganancia de información cálculo. El problema puede ser mejor apreciada en el caso extremo cuando un atributo tiene un valor diferente para cada instancia en el conjunto de datos como, por ejemplo, una atributo código de identificación podría. Tabla 4.6 da los datos del tiempo con este atributo adicional. La ramificación de código de identificación produce el tocón de un árbol en la Figura 4.5. La información necesaria para especificar la clase dado el valor de este atributo se info info info info info ([,]) ([,]) ([,]) ([,]) ([, 0 1 0 1 1 0 1 0 0 + + + + + ... 11]) que es 0 porque cada uno de los 14 términos es 0. Esto no es sorprendente: El código de ID atributo identifica la instancia, que determina la clase sin ningún ambigüedadal igual que la Tabla 4.6 muestra. En consecuencia, el aumento de la información de este atributo es sólo la información en la raíz, información ([9,5]) = 0.940 bits. Esta es mayor que la ganancia de información de cualquier otro atributo, y para que el código ID inevitablemente será elegido como el atributo división. Pero la ramificación en el código de identificación no es bueno para la predicción la clase de casos desconocidos y no dice nada acerca de la estructura de la decisión, que después de todo son los dos objetivos de aprendizaje automático. El efecto general es que la medida de ganancia de información tiende a preferir atributos con un gran número de posibles valores. Para compensar esto, una modificación de la medida llamada el ratiois ganancia ampliamente utilizado. La relación de ganancia se deriva teniendo en cuenta el número y el tamaño de los nodos de la hija en la que un atributo divide la
conjunto de datos, sin tener en cuenta cualquier información acerca de la clase. En la situación mostrada en Figura 4.5, todos los cargos tienen un valor de 1, por lo que el valor de la información de la división es info ([,,,]) log 1 1 1 1 1 14 14 14 ... = - × × debido a que la misma fracción, 1/14, aparece 14 veces. Esto equivale a iniciar la sesión 14, o 3.807 bits, que es un valor muy alto. Esto es porque el valor de la información de una división es el número de bits necesarios para determinar a qué rama se asigna cada caso, y las ramas más haya, mayor es este valor. La relación de ganancia se calcula dividiendo la ganancia de información original, 0.940 en este caso, por el valor de la información del atributo, 3.807-produciendo un valor de la relación de ganancia de 0,247 para el código de identificación atribuir. Volviendo a los tocones de los datos meteorológicos en la Figura 4.2, outlooksplits el conjunto de datos en tres subconjuntos de tamaño 5, 4, y 5, y por lo tanto tiene una información intrínseca valor de info ([,,]) 0,5 4 5 1 577 = sin prestar atención a las clases que participan en los subconjuntos. Como hemos visto, este valor la información intrínseca es mayor para un atributo más alto de ramificación tales como el código de ID hipotética. Una vez más, podemos corregir la ganancia de información dividiendo por el valor intrínseco de información para obtener la relación de ganancia. Los resultados de estos cálculos para los tocones de los árboles de la figura 4.2 se resumen en la Tabla 4.7. Perspectivas todavía viene a la cabeza, pero la humedad es ahora una mucho más cerca contender porque divide los datos en dos subconjuntos en lugar de tres. En este particular,
ejemplo, el CodeAttribute Identificación hipotética, con una relación de ganancia de 0,247, todavía haría preferible a cualquiera de estos cuatro. Sin embargo, su ventaja se reduce en gran medida. en implementaciones prácticas, podemos utilizar una prueba ad hoc para evitar la divi sión en un atributo tan inútil. Lamentablemente, en algunas situaciones la modificación relación de ganancia compensa en exceso y puede llevar a preferir un atributo sólo porque su información es intrínseca mucho menor que para los otros atributos. Una solución estándar es elegir el atributo que maximiza la relación de ganancia, siempre que la ganancia de información para que atributo es al menos tan grande como el promedio de ganancia de información para todos los atributos examinado. discusión El enfoque de divide y vencerás a la inducción de árbol de decisión, a veces llamado inducción de arriba abajo de los árboles de decisión, se ha desarrollado y perfeccionado a lo largo de muchos años por Ross Quinlan en la Universidad de Sydney en Australia. Aunque otros han trabajado en métodos similares, la investigación de Quinlan siempre ha estado a la vanguardia de árbol de decisión de inducción. El esquema que se ha descrito el uso de la información criterio de ganancia es esencialmente el mismo como uno conocido como ID3. El uso de la relación de ganancia era una de las muchas mejoras que se hicieron a lo largo de varios años ID3; Quinlan descrito como robusto bajo una amplia variedad de circunstancias. Aunque una práctica solución, se sacrifica parte de la elegancia y la motivación teórica limpio de la Criterio de Información de ganancia. Una serie de mejoras a ID3 culminó en un sistema práctico e influyente para la inducción de árbol de decisión denominada C4.5. Estas mejoras incluyen métodos para
tratar con atributos numéricos, valores perdidos, datos ruidosos, y la generación de reglas de los árboles, y se describen en la Sección 6.1. 4.4 ALGORITMOS RELATIVO A: REGLAS QUE CONSTRUYEN Como hemos visto, los algoritmos de árbol de decisión se basan en un divide y vencerás enfoque para el problema de clasificación. Ellos trabajan de arriba hacia abajo, buscando en cada etapa un atributo para dividir en que mejor separa las clases, y entonces el procesamiento de forma recursiva los subproblemas que resultan de la división. Esta estrategia genera un árbol de decisión, que pueden, si es necesario convertir en un conjunto de reglas de clasificación, aunque si es producir normas eficaces, la conversión no es trivial. Un enfoque alternativo es tomar cada clase a su vez y buscar una manera de cubrir todos los casos en que, en los mismos instantes de tiempo excluyendo no en la clase. Esto se llama un coveringapproach porque en cada etapa a identificar una norma que "cubre" algunos de los casos. Por su propia naturaleza, este enfoque conduce a la cubierta de un conjunto de reglas en vez que a un árbol de decisión. El método que cubre fácilmente se puede visualizar en un espacio bidimensional de instancias como se muestra en la Figura 4.6 (a). En primer lugar, hacer una regla que cubre la una de. para el primera prueba en la regla, se dividió el espacio en vertical como se muestra en la imagen central. este da el inicio de una regla: Si x> 1.2 entonces class = una Sin embargo, la regla cubre muchos de b, así como de, por lo que se añade una nueva prueba que le dividir aún más el espacio horizontalmente como se muestra en el tercer diagrama: Si x> y 1,2 y> 2,6 entonces class = una
Esto da una regla que cubre todas menos una de la una de. Es probable que sea conveniente dejar en eso, pero si se considera necesario para cubrir la final de una, otra regla sería es necesario, quizás Si x> y 1,4 y 1,2 y 2,6 y ≤ entonces class = b
Una vez más, uno ais erróneamente cubierto por estas reglas. Si fuera necesario excluir que, más pruebas tendría que ser añadido a la segunda regla, y las reglas adicionales ser necesario para cubrir las b de que estas nuevas pruebas excluyen. Reglas contra árboles Un algoritmo de arriba hacia abajo de divide y vencerás opera en los mismos datos de forma es decir, al menos superficialmente, bastante similar a un algoritmo de cobertura. En primer lugar, podría dividir el conjunto de datos utilizando la XAttribute, y probablemente terminará su división en el mismo lugar, x = 1.2. Sin embargo, mientras que el algoritmo que cubre sólo se refiere cubriendo con una sola clase, la división tomaría ambas clases en cuenta porque algoritmos divide y vencerás crean una sola descripción concepto que se aplica a todas las clases. La segunda división también podría ser en el mismo lugar, y = 2,6, que conduce al árbol de decisión de la Figura 4.6 (b). Este árbol corresponde exactamente a la conjunto de reglas, y en este caso no hay ninguna diferencia en el efecto entre la cubierta y los algoritmos de divide y vencerás. Pero en muchas situaciones hay isa diferencia entre las normas y los árboles en términos de la claridad de la representación. Por ejemplo, cuando se describe la replicado
problema subárbol en la Sección 3.4, observamos que las reglas pueden ser simétricas, mientras que los árboles debe seleccionar un atributo para dividir en primer lugar, y esto puede conducir a los árboles que son mucho más grande que un conjunto equivalente de reglas. Otra diferencia es que, en el multiclase caso, una fracción de árbol de decisiones toma todas las clases en cuenta al tratar de maximizar el pureza de la división, mientras que el método de la regla de generación se concentra en una clase a un momento, sin tener en cuenta lo que ocurre con las otras clases. Un algoritmo simple Covering Cubriendo algoritmos operan mediante la adición de pruebas a la regla que está en construcción, siempre con el objetivo de crear una regla con la máxima precisión. En contraste, los algoritmos divide y vencerás operan mediante la adición de pruebas para el árbol que está en construcción, siempre esforzarse para maximizar la separación entre las clases. Cada uno de ellos consiste en la búsqueda de un atributo de dividir sucesivamente. Sin embargo, el criterio para la mejor atributo es diferente en cada caso. Mientras que los algoritmos divide y vencerás como ID3 elegir un atributo a maximizar la ganancia de información, el algoritmo de recubrimiento vamos a describir elige una par de atributo-valor para maximizar la probabilidad de que la clasificaci ón deseada. Figura 4.7 da una idea de la situación, que muestra el espacio que contiene todos los casos, una regla parcialmente construido, y la misma regla después de un nuevo término ha sido añadido. El nuevo plazo restringe la cobertura de la regla: La idea es incluir la mayor cantidad instancias de la clase deseada como sea posible y excluyen a la mayor cantidad de casos de otra clases como sea posible. Supongamos que la nueva norma cubrirá un total de tinstances, de los cuales p
son ejemplos positivos de la clase y t- pare en otras clases, es decir, que son errores cometidos por el Estado. A continuación, seleccione el nuevo plazo para maximizar el ratio P / T. Un ejemplo ayudará. Para un cambio, utilizamos el problema de lentes de contacto de la tabla 1.1 (página 6). Vamos a formar reglas que cubren cada una de las tres clases-duros, blandos, y ninguno-a su vez. Para empezar, buscamos una regla: Si? entonces la recomendación = duro ? Por el término desconocido, tenemos nueve opciones: edad = joven 2/8 edad = pre-presbicia 1/8 edad = presbicia 1/8 prescripción espectáculo = miope 3/12 Los números de la derecha indican la fracción de casos "correctas" en el conjunto señalado por esa elección. En este caso, "correcto" significa que la recomendación es duro. Por ejemplo, los jóvenes de edad = Selecciona los 8 casos, 2 de los cuales recomiendan lentes de contacto duras, por lo que la primera fracción es 2/8. (Para seguir esto, usted tendrá que mirar hacia atrás en los datos de la lente de contacto en la Tabla 1.1 (página 6) y contar hasta las entradas en la tabla.) Seleccionamos la fracción más grande, 4/12, elegir arbitrariamente entre el séptimo y la última opción en la lista, y crear la regla: Si el astigmatismo = sí, entonces la recomendación = duro Esta regla es bastante inexacta, consiguiendo sólo 4 casos correcta de los 12 que se cubre, que se muestra en la Tabla 4.8. Así que refinamos aún más: Si el astigmatismo = yes y? entonces la recomendación = duro
Teniendo en cuenta las posibilidades para el término desconocido,? Arroja los siguientes siete opciones: edad = joven 2/4 edad = pre-presbicia 1/4 edad = presbicia 1/4 prescripción espectáculo miope = 3/6 prescripción espectáculo hipermétrope = 1/6 tasa de producción de lágrimas = 0/6 reducida tasa de producción de lágrimas = normal 4/6 (Una vez más, contar con las entradas en la Tabla 4.8.) El último es un claro ganador, consiguiendo 4 casos corregir de los 6 que cubre, y corresponde a la regla Si la tasa de producción de astigmatismo = yes y desgaste = normal entonces la recomendación = duro ¿Hay que parar aquí? Tal vez. Pero digamos que vamos a reglas exactas, no independientemente de la complejidad de que se conviertan. Tabla 4.9 muestra los casos que están cubiertos por la regla hasta ahora. Las posibilidades para la próxima legislatura son ahora edad = joven 2/2 edad = pre-presbicia 1/2 edad media = presbicia prescripción espectáculo miope = 3/3 prescripción espectáculo hipermétrope = 1/3 Es necesario para nosotros para elegir entre el primero y el cuarto. Hasta ahora hemos tratado las fracciones numéricamente, pero aunque estos dos son iguales (tanto evaluar a 1), se tiene diferente cobertura: Se selecciona sólo dos instancias correctas y las otras selecciona tres. En caso de empate, se elige la regla con la mayor cobertura, dando a la
regla final: Si la tasa de producción de astigmatismo = yes y desgaste = normal y la prescripción espectáculo = miope luego recomendación = duro Este es de hecho una de las reglas dadas para el problema de lentes de contacto. Pero sólo cubre tres de los cuatro hardrecommendations. Así que eliminar estos tres de el conjunto de instancias y empezar de nuevo, en busca de otra regla de la forma: Si? entonces la recomendación = duro Siguiendo el mismo proceso, con el tiempo encontrar esa edad = youngis la mejor opción para el primer término. Su cobertura es uno de 7 la razón de la 7 es que 3 casos se han eliminado de la serie original, dejando 21 casos por completo. La mejor opción para el segundo término es el astigmatismo = sí, la selección de 1/3 (en realidad, esta es un empate); tasa de producción de lágrimas = normalis lo mejor para el tercero, la selección de 1/1. Si la edad = joven y astigmatismo = yes y la tasa de producción de lágrimas = normal entonces la recomendación = duro Esta regla cubre realmente dos de la serie original de los casos, uno de los cuales está cubierto por el anterior gobierno, pero eso está bien, porque la recomendación es la misma para cada regla. Ahora que todos los casos de lentes duro están cubiertos, el siguiente paso es proceder a la los de lentes blandas en la misma forma. Por último, las reglas se generan para el nonecasea menos que estamos buscando un conjunto de reglas con una regla por defecto, en cuyo caso las reglas explícitas para el resultado final son innecesarios. Lo que acabamos de describir es el método PRISM para la construcción de reglas. ella
genera sólo correcta o reglas "perfectas". Mide el éxito de una regla por la fórmula precisión p / t. Cualquier regla con una precisión de menos de 100% es "incorrecto" en que que asigna los casos a la clase en cuestión que en realidad no tienen esa clase. PRISM continúa añadiendo cláusulas a cada regla hasta que es perfecto: su precisión es del 100%. figura 4.8 da un resumen del algoritmo. Los bucle externo sobre las clases, generando reglas para cada clase, a su vez. Tenga en cuenta que reinicializar a todo el conjunto de ejemplos cada vez. Entonces creamos reglas para esa clase y eliminamos los ejemplos de el conjunto hasta que no hay ninguno de esa clase izquierda. Cada vez que creamos una regla, empezamos con una regla de vacío (que cubre todos los ejemplos), y luego restringir añadiendo pruebas hasta que cubra sólo ejemplos de la clase deseada. En cada etapa se elige la más prometedora de prueba, es decir, la que maximiza la precisión de la regla. finalmente, rompemos los lazos mediante la selección de la prueba con mayor cobertura. Reglas de decisión frente a las Listas Tenga en cuenta las normas producidas por una determinada clase, es decir, el algoritmo en la figura 4.8 con el bucle exterior retirada. Parece claro por la forma en que se producen estas reglas que están destinados a ser interpretados en orden, es decir, como una decisión de lista de pruebas las reglas a su vez hasta uno aplica y luego usando eso. Esto es porque los casos cubierto por una nueva regla se eliminan de la instancia establecer tan pronto como se complete la regla (en la última línea del código en la Figura 4.8): Por lo tanto, las normas posteriores están diseñados para los casos que se notcovered por la regla. Sin embargo, aunque parece que nos se supone que revisar las reglas, a su vez, que no tenemos que hacerlo. Considere la posibilidad de que cualquier normas posteriores generados por esta clase tendrán el mismo efecto que todos predicen la misma clase. Esto significa que no importa qué orden se ejecutan en: O bien una regla se encontró que cubre este ejemplo, en cuyo caso la clase en cuestión
Se prevé, o hay tal regla se encuentra, en cuyo caso no se predice la clase. Ahora regresa al algoritmo general. Cada clase se considera a su vez, y reglas se generan que distinguir los casos en los que la clase de los otros. Sin pedido es implícita entre las normas de una clase y los de otro. En consecuencia, la normas que se producen se pueden ejecutar en cualquier orden. Como se describe en la Sección 3.4, las normas de orden independiente parecen proporcionar más modularidad actuando pepitas como independientes de "conocimiento", pero que sufren de la desventaja de que no está claro lo que hay que hacer cuando se aplican las normas en conflicto. con reglas generadas de esta manera, un ejemplo de ensayo pueden recibir múltiples clasificaciones queEs decir, puede satisfacer las normas que se aplican a diferentes clases. Otros ejemplos de ensayo pueden recibir ninguna clasificación en absoluto. Una estrategia simple para forzar una decisión en los casos ambiguos es elegir, de las clasificaciones que se predice, el que tiene la mayoría de la formación ejemplos o, si no se prevé la clasificación, para elegir la categoría con los más ejemplos de formación general. Estas dificultades no ocurren con las listas de decisión porque que están destinados a ser interpretados en el orden y la ejecución se detiene tan pronto como una regla se aplica: La adición de una regla por defecto al final se asegura de que cualquier instancia de prueba recibe una clasificación. Es posible generar buenas listas de decisión para el caso multiclase utilizando un método ligeramente diferente, como veremos en la Secci ón 6.2. Métodos, tales como PRISM, se puede describir como conqueralgorithms separadas-and-: Usted identifica una regla que cubre muchos casos en la clase (y excluye las no en la clase), separar los casos cubiertos porque ya son atendidos por la regla, y continuar con el proceso en los que quedan. Esto contrasta con
el enfoque de divide y vencerás de los árboles de decisión. Los resultados del paso "separadas" en un método eficiente porque la instancia establece continuamente se encoge como la operación ganancias. 4.5 REGLAS DE MINERÍA DE LA ASOCIACIÓN Las reglas de asociación son como las reglas de clasificación. Usted podría encontrar en la misma forma, mediante la ejecución de un procedimiento de inducción de reglas de divide y vencerás para cada posible expresión que podría ocurrir en el lado derecho de la regla. Sin embargo, no sólo podría cualquier atributo se produce en el lado derecho con cualquier valor posible, pero una sola asociación regla a menudo predice el valor de más de un atributo. Para encontrar este tipo de normas, lo haría tener para ejecutar el procedimiento de reglas de inducción una vez para cada combinación posible de atributos, con cada posible combinación de valores, en el lado derecho. que daría lugar a un enorme número de reglas de asociación, que tendría entonces ser podados hacia abajo sobre la base de su cobertura (el número de instancias que se predecir correctamente) y su precisión (el mismo número expresa como una proporción de el número de casos a los que se aplica la regla). Este enfoque es bastante factible. (Tenga en cuenta que, como hemos mencionado en la Sección 3.4, lo que estamos llamando coverageis menudo llamado supporty lo que estamos llamando accuracyis menudo llamado confianza.) En su lugar, aprovechar el hecho de que sólo estamos interesados en las reglas de asociación con alta cobertura. Ignoramos, por el momento, la distinción entre la izquierda y derecha de una regla y buscar combinaciones de pares atributo-valor que tienen
una cobertura mínima especificada previamente. Éstos se llaman los conjuntos de elementos: Un atributo-valor par es un elemento. La terminología deriva del análisis de la cesta de mercado, en la que el artículos son artículos en su carrito de compras y el gerente del supermercado está buscando para las asociaciones entre estas compras. Conjuntos de elementos La primera columna de la Tabla 4.10 muestra los elementos individuales de los datos meteorológicos en Tabla 1.2 (página 10), con el número de veces que cada elemento aparece en el conjunto de datos dado a la derecha. Estos son los conjuntos de un solo elemento. El siguiente paso es generar los dos ítems establece al hacer pares de los conjuntos de un solo elemento. Por supuesto, no hay ningún punto en la generación un conjunto que contiene dos valores diferentes de un mismo atributo (como Outlook = soleado y perspectivas = nublado), porque eso no puede ocurrir en cualquier instancia real. Supongamos que buscamos reglas de asociación con la cobertura mínima de 2; Por l o tanto, descartar los conjuntos de elementos que cubren menos de dos instancias. Esto deja 47 dos-punto conjuntos, algunos de los cuales se muestran en la segunda columna junto con el número de veces que aparecen. El siguiente paso es generar los conjuntos de tres ítems, de los cuales 39 tienen un de cobertura de 2 o mayor. Hay seis conjuntos de cuatro elementos, y no de cinco ítems sets para este datos, un conjunto de cinco ítems con cobertura de 2 o mayor sólo podía corresponder a una repetida ejemplo. Las primeras filas de la tabla, por ejemplo, muestran que hay cinco días en que
perspectivas = soleado, dos de los cuales tiene temperatura = caliente, y, de hecho, en ambos de aquellos días de humedad = juego Highand = Noas bien. Reglas de asociación Poco vamos a explicar cómo generar estos conjuntos de elementos de manera eficiente. Pero primero nos dejó terminar la historia. Una vez que todos los conjuntos de elementos con la cobertura requerida se han generado, el paso siguiente es convertir cada uno en una regla o un conjunto de reglas, con al menos la especificada precisión mínima. Algunos conjuntos de elementos producirán más de una regla; otros lo harán producir ninguno. Por ejemplo, hay un conjunto de tres ítems con una cobertura de 4 (fila 38 de la Tabla 4.10): Humedad = normal, viento = false, juego = yes Este conjunto lleva a siete reglas potenciales: Si la humedad = normal y con viento = false entonces jugar = yes 4/4 Si la humedad = normal y el juego = sí, entonces con mucho viento = false 4/6 Si ventoso = false y el juego = sí, entonces la humedad = normal 4/6 Si la humedad = normal entonces ventoso = false y el juego sí = 4/7 Si ventoso = false entonces humedad = normal y el juego sí = 4/8 Si el juego = sí, entonces la humedad = normal y con viento = false 4/9 Si - entonces la humedad = normal y con viento = false y el juego = yes 4/14 Las cifras a la derecha en esta lista muestran el número de casos para los cuales todo tres condiciones se cumplen, es decir, la cobertura-dividido por el número de instancias para los que las condiciones en el antecedente son verdaderas. Interpretada como una fracción, que representan la proporción de casos en los que la regla es correcta, es decir, su exactitud. Suponiendo que la precisión del mínimo especificado es del 100%, sólo el
primera de estas normas hará que en el conjunto de reglas final. Los denominadores de la fracciones se obtienen fácilmente por buscar la expresión antecedente en la Tabla 4,10 (aunque algunos no se muestran en la tabla). La regla final anteriormente no tiene las condiciones en el antecedente, y su denominador es el número total de casos en el conjunto de datos. Tabla 4.11 muestra la regla final para establecer los datos del tiempo, con una cobertura mínima de 2 y mínimo 100% de precisión, ordenados por la cobertura. Hay 58 normas, 3 con la cobertura de 4, 5 con una cobertura de 3, y 50 con cobertura 2. Sólo 7 tienen dos las condiciones en el consecuente, y ninguno tiene más de dos. La primera regla viene del conjunto de elementos descritos anteriormente. A veces varias reglas surgen de la mismo conjunto de objetos. Por ejemplo, los Artículos 9, 10 y 11 todos surgen de los cuatro ítems establecido en fila 6 de la Tabla 4.10: temperatura = frío, humedad = normal, viento = false, juego = yes que cuenta con la cobertura 2. Tres subconjuntos de este conjunto de elementos también tienen cobertura de 2: temperatura = frío, ventoso = false temperatura = frío, humedad = normal, viento = false temperatura = frío, ventoso = false, juego = yes y éstas llevan a reglas 9, 10, y 11, todos los cuales son 100% exacto (en el entrenamiento datos). Reglas Generación con eficiencia Consideremos ahora con más detalle un algoritmo para la producción de reglas de asociación con cobertura mínima especificada y precisión. Hay dos etapas: generar artículo conjuntos con la cobertura mínima especificada, y de cada artículo establecen la determinación de la reglas que tienen la precisión mínima especificada.
La primera etapa procede por generación de todos los conjuntos de un solo elemento con el mínimo dado de cobertura (la primera columna de la Tabla 4.10) y después usando esto para generar los dos ítems conjuntos (segunda columna), conjuntos de tres ítems (tercera columna), y así sucesivamente. Cada operación implica un paso a través del conjunto de datos para contar los elementos de cada conjunto, y después del pase los conjuntos de elementos supervivientes se almacenan en una tabla de una estructura de datos estándar de hash que permite a los elementos almacenados en el mismo que se encuentran muy rápidamente. A partir de los conjuntos de un solo elemento, conjuntos candidato dos-elemento se generan, y luego un pase se realiza a través del conjunto de datos, contando la cobertura de cada conjunto de dos punto; al final el candidato establece con menos que la cobertura mínima se eliminan de la tabla. Los candidatos de dos conjuntos de elementos son simplemente todos los conjuntos de un solo elemento tomadas de dos en dos, porque una serie de dos artículo no puede tener la cobertura mínima a menos que ambas sus constituyentes conjuntos de un el emento tienen el mínimo la cobertura, también. Esto se aplica, en general: Un conjunto de tres ítems sólo puede tener el mínimo cobertura si sus tres subconjuntos de dos elementos tienen cobertura mínima, así, y de manera similar para los conjuntos de cuatro elementos. Un ejemplo ayudará a explicar cómo se generan los conjuntos de elementos candidato. suponer hay cinco conjuntos- de tres ítems (ABC), (ABD), (ACD), (ACE), y (BCD) donde, por ejemplo, A es una característica como Outlook = soleado. La unión de la primera dos, (ABCD), es un candidato conjunto de cuatro ítems, ya que sus otros subconjuntos de tres ítems (A
CD) y (BCD) tienen mayor de cobertura mínima. Si los conjuntos de tres ítems son ordenados en orden léxico, ya que están en esta lista, a continuación, sólo necesitamos considerar pares con los mismos primeros dos miembros. Por ejemplo, no consideramos (A C D) y (B CD) porque (ABCD) también se puede generar a partir de (ABC) y (ABD), y si estos dos no son candidatos conjuntos de tres elementos, a continuación, (ABCD) no puede ser candidato cuatro conjunto de elementos. Esto deja a los pares (ABC) y (ABD), que ya tenemos explicado, y (A C D) y (A C E). Este segundo par conduce al conjunto (A C D E) cuyos tres subconjuntos artículo no todos tienen la cobertura mínima, por lo que se descarta. La tabla hash ayuda con esta comprobación: Simplemente eliminamos cada elemento del conjunto en encender y compruebe que el conjunto de tres ítems restante es de hecho presente en la tabla hash. Por lo tanto, en este ejemplo sólo hay un candidato conjunto de cuatro ítems, (ABCD). si o no lo que realmente ha cobertura mínima sólo puede ser determinado por el control de la casos del conjunto de datos. La segunda etapa del procedimiento tarda cada conjunto de elementos y genera reglas desde , comprobando que tienen la exactitud mínimo especificado. Si sólo las reglas con un se buscaron sola prueba en el lado derecho, sería simplemente una cuestión de considerar cada condición a su vez como el consecuente de la regla, eliminarlo de la conjunto de elementos, y dividiendo la cobertura de todo el conjunto de elementos por la cobertura de la resultante subconjunto obtenido de la tabla hash-para producir la exactitud de la correspondiente gobernar. Teniendo en cuenta que también estamos interesados en las reglas de asociación con múltiples pruebas en el consiguiente, parece que tenemos que evaluar el efecto de la colocación de cada subsetof la
Conjunto de objetos en el lado derecho, dejando el resto del conjunto como el antecedente. Este método de fuerza bruta será cálculo excesivamente intensiva menos que el artículo conjuntos son pequeñas, porque el número de posibles subconjuntos crece exponencialmente con el tamaño del conjunto de elementos. Sin embargo, hay una manera mejor. Observamos al describir reglas de asociación en la sección 3.4 que si la regla de doble consecuente Si ventoso = false y el juego = no entonces perspectivas = soleado y humedad = alta sostiene con una cobertura mínima dada y precisión, a continuación, tanto sola consecuente reglas formadas a partir del mismo conjunto de elementos también deben ser titulares: Si la humedad = alta y ventoso = false y el juego = no entonces perspectivas = soleado Si Outlook = soleado y ventoso = false y el juego = no entonces la humedad = alta A la inversa, si una u otra de las reglas de un solo consiguiente no se sostiene, hay No tiene sentido teniendo en cuenta el doble consecuente. Esto le da una manera de construir de las reglas de un solo consiguientes a los candidatos con doble consecuente, de reglas doubleconsequent a los candidatos de triple consiguientes, y así sucesivamente. Por supuesto, cada regla candidato debe cotejarse con la tabla hash para ver si realmente tiene más de la precisión mínima especificada. Pero esto generalmente implica comprobar ahora menos reglas que el método de fuerza bruta. Es interesante que esta forma de construcción hasta candidato (n + 1) reglas -consequent de las reales-n consecuente es realmente sólo lo mismo que la construcción de candidato (n + 1) -Tema establece a partir de conjuntos de n-artículo, se describe
anterior. discusión Las reglas de asociación son a menudo buscaban para grandes bases de datos y algoritmos eficientes son muy valorados. El método que hemos descrito hace una sola pasada a través de la conjunto de datos para cada tamaño diferente de conjunto de objetos. A veces, el conjunto de datos es demasiado grande para leer en la memoria principal y se debe mantener en el disco; entonces puede ser vale la pena reducir el número de pasadas por el control de conjuntos de elementos de dos calibres consecutivos en la misma tiempo. Por ejemplo, establece una vez con dos artículos que se han generado, todos los grupos de tres artículos podrían generarse a partir de ellas antes de pasar por el conjunto de ejemplo para contar el número real de los elementos de los conjuntos. Más de tres conjuntos de elementos de los necesarios haría ser considerada, pero el número de pasadas a través de todo el conjunto de datos se reduciría. En la práctica, la cantidad de cálculos necesarios para generar reglas de asociación depende fundamentalmente de la cobertura mínima especificada. La precisión tiene menos influencia, ya que no afecta el número de pasadas que se deben hacer a través de la conjunto de datos. En muchas situaciones nos gustaría obtener un cierto número de reglas-decimos 50-con la mayor cobertura posible en un nivel mínimo de precisión especificado de antemano. Una forma de hacer esto es comenzar mediante la especificación de la cobertura a ser bastante alta y para luego, sucesivamente, reducirlo, reexecuting todo el algoritmo de búsqueda de regla para cada de los valores de cobertura y repitiendo hasta que el número deseado de reglas ha sido generado.
El formato de entrada de tabla que se utiliza a lo largo de este libro, y en particular la formato ARFF estándar basado en él, es muy ineficaz para muchos asociación en reglas problemas. Las reglas de asociación se utilizan a menudo en situaciones en que los atributos son binarypresente o ausente, y la mayoría de los valores de atributo asociados a un dado instancia están ausentes. Este es un caso para la representación de datos dispersos se describe en Sección 2.4; el mismo algoritmo para encontrar reglas de asociación se aplica. 4.6 Modelos lineales Los métodos que hemos estado viendo en los árboles de decisión y reglas de trabajo más natural con atributos nominales. Ellos pueden extenderse a atributos numéricos ya sea por la incorporación de pruebas numérico de valor directamente en el árbol de decisión o regla-inducción esquema, o por prediscretizing atributos numéricos en los nominales. Vamos a ver cómo en los capítulos 6 y 7, respectivamente. Sin embargo, existen métodos que funcionan más naturalmente con atributos numéricos, es decir, los modelos lineales introducidos en la Sección 3.2; los examinamos con más detalle aquí. Pueden formar componentes de más compleja métodos, que vamos a investigar el aprendizaje posterior. Predicción Numérica: Regresión Lineal Cuando el resultado o una clase, es numérico, y todos los atributos son numéricos, lineal regresión es una técnica natural considerar. Este es un método básico en estadísticas. La idea es expresar la clase como una combinación lineal de los atributos, con pesos predeterminados: x w w w un una w una k k = + + + + 0 1 1 2 2 ... donde X es la clase; a1, a2, ..., ak son los valores de atributo; y w0, w1, ..., sem son pesos.
Los pesos se calculan a partir de los datos de entrenamiento. Aquí, la notación se hace un poco pesado, porque necesitamos una forma de expresar los valores de los atributos para cada instancia de formación. la primera instancia tendrá una clase, digamos x (1) Y atribuir valores A1 (1) , a2 (1) , ..., Ak (1) , Donde el superíndice denota que es el primer ejemplo. Además, es conveniente notationally asumir una a0 atributo extra, con un valor que es siempre 1. El valor previsto para la clase de la primera instancia se puede escribir como w un w w una a w a w una k k j j j k 00 1 11 1 22 111 0 () () () () () ++++=
= Σ ...
Este es el previsto, no el real, el valor para la clase. De interés es la diferencia entre los valores previstos y reales. El método de la regresión lineal es elegir el coeficientes WJ -no son k + 1 de ellos para minimizar la suma de los c uadrados de estos diferencias sobre todas las instancias de formación. Supongamos que hay casos Ntraining; denotar el i-ésimo con un superíndice (i). A continuación, la suma de los cuadrados de las diferencias es x w un yo j j yo j k yo n () () -
== ΣΣ0 1
2
donde la expresión dentro del paréntesis es la diferencia entre el ITH instancia de clase real y su clase predicho. Esta suma de cuadrados es lo que tenemos para reducir al mínimo por la elección de los coeficientes adecuadamente. Todo esto está empezando a parecer bastante formidable. Sin embargo, la técnica es la minimización sencillo si tienes el fondo de matemáticas apropiado. Baste decir que, dada suficientes ejemplos-en términos generales, más ejemplos que atributos-elección de pesos a minimizar la suma de las diferencias al cuadrado no es realmente difícil. Implica una matriz operación de inversión, pero esto es fácilmente disponible como software preenvasados. Una vez que la matemática se ha logrado, el resultado es un conjunto de pesos numéricos, basado en los datos de entrenamiento, que se pueden utilizar para predecir la clase de nuevos casos. Vimos un ejemplo de esto cuando se mira en los datos de rendimiento de la CPU, y la pesos numéricos reales se dan en la Figura 3.4 (a) (página 68). Esta fórmula puede ser utilizado para predecir el rendimiento de la CPU de nuevas instancias de prueba. La regresión lineal es un método excelente, simple para la predicción numérica, y ha sido ampliamente utilizado en aplicaciones estadísticas durante décadas. Por supuesto, los modelos lineales sufrir de la desventaja de, bueno, la linealidad. Si los datos no lineal exhibe una la dependencia, la línea recta que mejor se ajusta se encontrará, en la que "mejor" se interpreta como la diferencia media menos cuadrado. Esta línea puede no encajar muy bien. Sin embargo, lineal modelos sirven así como bloques de construcción para los métodos de aprendizaje más complejos. Clasificación Lineal: Regresión Logística La regresión lineal se puede utilizar fácilmente para la clasificación en dominios con numérico
atributos. De hecho, podemos utilizar la técnica anyregression, ya sea lineal o no lineal, para la clasificación. El truco es llevar a cabo una regresión para cada clase, el establecimiento de la salida igual a 1 para las instancias de formación que pertenecen a la clase 0 y para los que no. El resultado es una expresión lineal para la clase. Entonces, dado un ejemplo de ensayo de clase desconocida, calcular el valor de cada expresión lineal y elegir la que es más grande. Este esquema se llama a veces la regresión lineal multirespuesta. Una forma de ver la regresión lineal multirespuesta es imaginar que se aproxima a una membresía numérica functionfor cada clase. La función de pertenencia es una de las instancias que pertenecen a esa clase y 0 para otros casos. dada una nueva instancia, calculamos sus miembros para cada clase y seleccionar la más grande. Regresión lineal multirespuesta menudo da buenos resultados en la práctica. Sin embargo, tiene dos inconvenientes. En primer lugar, los valores de pertenencia que produce son probabilidades no adecuados ya que pueden caer fuera del rango de 0 a 1. En segundo lugar, mínimos cuadrados de regresión asume que los errores no sólo son estadísticamente independientes, pero son también normalmente distribuido con la misma desviación estándar, la suposición de que se violó blatently cuando se aplica el método a problemas de clasificación porque el observaciones sólo toman siempre en los valores 0 y 1. Una técnica estadística relacionada llamada regressiondoes logísticos no sufren de estos problemas. En lugar de aproximar directamente los valores 0 y 1, arriesgando con ello valores de probabilidad ilegítimos cuando se sobrepasa la meta, la regresión logística construye un modelo lineal basado en una variable de destino transformado Supongamos primero que hay sólo dos clases. La regresión logística sustituye al original variable de destino Pr [|,,,] 1 1 2 a un ak ... que no se puede aproximar con precisión utilizando una función lineal, por log [Pr [|,,,] (Pr [|,,,])] 1 1 1 1 2 1 2 aaaaaakk ... ... -
Los valores resultantes ya no están restringidas al intervalo de 0 a 1, pero pueden mentir en cualquier lugar entre menos infinito y más infinito. La Figura 4.9 (a) representa los función de transformación, que a menudo se llama la transformación logit. La variable transformada se aproxima usando una función lineal al igual que las generada por regresión lineal. El modelo resultante es Pr [|,,,] (exp ()) 1 1 1 1 2 0 1 1 aaawwawak ... ... = + - - - - kk con los pesos w. Figura 4.9 (b) muestra un ejemplo de esta función en una dimensión, con dos pesos w0 = -1,25 y w1 = 0.5. Al igual que en la regresión lineal, los pesos deben ser encontrados que se ajustan bien a los datos de entrenamiento. Medidas de regresión lineal bondad de ajuste utilizando el error al cuadrado. En la regresión logística el diario de likelihoodof el modelo se utiliza en su lugar. Esto está dado por () Log (Pr [|,,,]) log (Pr [| () () () () () ( 11111 1 2 2 1 1 - - + X a a x un yo k k i ...)) () () ,,,]) Un ak k yo
n 2 2 1 ... = Σ
donde el x (yo) son o bien 0 o 1. Los pesos wineed ser elegido para maximizar el logaritmo de la verosimilitud. Hay varios métodos para la solución de este problema de maximización. Un sencillo es resolver iterativamente un secuencia de mínimos cuadrados ponderados problemas de regresión hasta las converge log-verosimilitud hasta un máximo, que por lo general ocurre en unas pocas iteraciones. Para generalizar regresión logística para varias clases, una posibilidad es proceder en el forma descrita anteriormente para la regresión lineal multirespuesta mediante la realización de regresión logística de forma independiente para cada clase. Por desgracia, las estimaciones de probabilidad resultante no resumir en 1. Para obtener las probabilidades adecuadas es necesario acoplar los modelos individuales para cada clase. Esto produce un problema de optimización conjunta, y hay solución eficiente métodos para ello. normalmente distribuido con la misma desviación estándar, la suposición de que se violó blatently cuando se aplica el método a problemas de clasificación porque el observaciones sólo toman siempre en los valores 0 y 1. Una técnica estadística relacionada llamada regressiondoes logísticos no sufren de estos
problemas. En lugar de aproximar directamente los valores 0 y 1, arriesgando con ello valores de probabilidad ilegítimos cuando se sobrepasa la meta, la regresión logística construye un modelo lineal basado en una variable de destino transformado.
El uso de funciones lineales para la clasificación puede ser fácilmente visualizada en la instancia espacio. El límite de decisión para regresión logística de dos clases radica en que la probabilidad de predicción es de 0.5, es decir: Pr [|,,,] (exp ()). 1 1 1 0 5 1 2 0 1 1 aaawwawak ... ... = + - - - - = kk Esto ocurre cuando - - - - = W w w un un 0 1 1 0 ... k k Debido a que esta es una igualdad lineal en los valores de los atributos, la frontera es un avión, o hiperplano, en el espacio de instancia. Es fácil visualizar conjuntos de puntos que no pueden ser separados por un único hiperplano, y estos no se pueden discriminar correctamente regresión logística. Regresión lineal multirespuesta sufre del mismo problema. Cada clase recibe un vector de peso calculada a partir de los datos de entrenamiento. Enfoque para el momento en un par en particular de las clases. Supongamos que el vector de pesos para la clase 1 es w w w un una w una k k 0 1 1 1 12 1
2 1 () () () () + + + ... + y lo mismo para la clase 2 con superíndices apropiados. A continuación, un ejemplo será asignado a la clase 1 en lugar de la clase 2 si w w w una a w w w un un k k k k 0 1 1 1 1 1 0 2 1 2 1 2 () () () () () () + + +> + + + ... ... En otras palabras, se le asignará a la clase 1 si () () () () () () () () () w w w w w w una k k k 0 1 0 2 1 1
1 2 1 12 0 - + - + ... + -> Esta es una desigualdad lineal en los valores de atributo, por lo que el límite entre cada par de clases es un hiperplano. Clasificación lineal utilizando el Perceptron La regresión logística intenta producir estimaciones de probabilidad precisas mediante la maximización de la probabilidad de los datos de entrenamiento. Por supuesto, las estimaciones de probabilidad precisas conducir a clasificaciones precisas. Sin embargo, no es necesario realizar probabilidad la estimación de si el único propósito del modelo es predecir etiquetas de clase. Un diferente enfoque es aprender un hiperplano que separa a los casos relacionados con las diferentes clases-supongamos que hay sólo dos de ellos son. Si los datos se pueden separar perfectamente en dos grupos utilizando un hiperplano, se dice que es linealmente separable. Resulta que si los datos son linealmente separables, existe un algoritmo muy simple para encontrar un hiperplano de separación. El algoritmo se llama la regla de aprendizaje del perceptrón. Antes de examinar en detalle, vamos a examinar la ecuación para un hiperplano de nuevo: w un w w un una w una k k 0 0 1 1 2 2 0 + + + + ... = Aquí, a1 , a2 , ..., Ak son los valores de atributo, y w0 , w1 , ..., Wk
son los pesos que definir el hiperplano. Vamos a suponer que cada formación ejemplo a1 , a2 , ... Es extendido por un atributo adicional a0 que siempre tiene el valor 1 (como lo hicimos en el caso de la regresión lineal). Esta ampliación, que se llama el sesgo, sólo significa que nosotros no tenemos que incluir un elemento constante en la suma adicional. Si la suma es mayor que 0, vamos a predecir la primera clase; de lo contrario, vamos a predecir el segundo clase. Queremos encontrar los valores de los pesos de modo que los datos de entrenamiento es correctamente clasificado por el hiperplano. Figura 4.10 (a) da la regla de aprendizaje del perceptrón para encontrar un hiperplano que separa. Se ha encontrado el algoritmo se repite hasta que una solución perfecta, pero va a sólo funcionará correctamente si existe, de que un hiperplano que separa es decir, si los datos son linealmente separable. Cada iteración pasa a través de todas las instancias de formación. Si un mal clasificados instancia se encuentran, los parámetros de la hiperplano se cambian para que el ejemplo mal clasificados se acerca al hiperplano o tal vez incluso a través de la hiperplano en el lado correcto. Si la instancia pertenece a la primera clase, esto es hecho mediante la adición de sus valores de atributos para el vector de pesos; de lo contrario, son restado de ella. Para ver por qué esto funciona, considere la situación después de una instancia a apertaining la primera clase se ha añadido: () () () () Waawaawaawaakkk 0 0 0 1 1 1 2 2 2 + + + + + + + + ...
Esto significa que la salida para ahas aumentó aaaaaaaakk 0 0 1 1 2 2 × + × + × + ... + × Este número es siempre positivo. Por lo tanto, el hiperplano ha movido en la correcta dirección para la clasificación de instancia AAS positivo. A la inversa, si una instancia perteneciente que se clasificó erróneamente la segunda clase, la salida para esa instancia disminuye después de la modificación, otra vez en movimiento el hiperplano en la dirección correcta. Estas correcciones son incrementales, y pueden interferir con las actualizaciones anteriores. Sin embargo, se puede demostrar que el algoritmo converge en un número finito de iteraciones si los datos son linealmente separables. Por supuesto, si los datos no son linealmente separables, el algoritmo no terminará, por lo que necesita un límite superior que se impone a la número de iteraciones cuando se aplica este método en la práctica. El hiperplano resultante se llama un perceptrón, y es el abuelo de los nervios redes (volvemos a las redes neuronales en la Sección 6.4). Figura 4.10 (b) representa el perceptron como un grafo con nodos y aristas ponderadas, con imaginación denomina "Red" de Hay dos capas de nodos "neuronas.": De entrada y de salida. la entrada capa tiene un nodo para cada atributo, además de un nodo adicional que siempre se establece en 1. La capa de salida se compone de un solo nodo. Cada nodo en la capa de entrada está conectado a la capa de salida. Las conexiones se ponderan, y los pesos son esos números encontrado por la regla de aprendizaje del perceptrón. Cuando una instancia se presenta al perceptrón, sus valores de atributo sirven para "Activar" la capa de entrada. Ellos se multiplican por los pesos y resumidos en el nodo de salida. Si la suma ponderada es mayor que 0, la señal de salida es 1, lo que representa la primera clase; de lo contrario, es -1, lo que representa el segundo.
Clasificación Lineal Utilizando Winnow El algoritmo perceptrón no es el único método que está garantizado para encontrar un hiperplano que separa por un problema linealmente separables. Para los conjuntos de datos con atributos binarios hay una alternativa conocida como Winnow, que se ilustra en la Figura 4.11 (a). La estructura de los dos algoritmos es muy similar. Al igual que el perceptrón, aventar sólo actualiza el vector de peso cuando se encontró con un ejemplo mal clasificados-es error impulsada. Los dos métodos difieren en cómo se actualizan los pesos. La regla perceptrón emplea un mecanismo de aditivo que altera el vector de peso mediante la adición de (o restando) atributo vector de la instancia. Winnow emplea actualizaciones multiplicativos y altera pesos individualmente multiplicándolos por un parámetro α especificado por el usuario (o su inversa). El atributo valora ai son 0 o 1, porque estamos trabajando con datos binarios. Los pesos son sin cambios si el valor del atributo es 0, porque entonces lo hacen no participar en la decisión. De lo co ntrario, el multiplicador es αif ese atributo ayuda para tomar una decisión correcta y 1 / αif no lo hace.
Otra diferencia es que el umbral en la función lineal es también un parámetro userspecified. Llamamos a este umbral θand clasificamos una instancia como pertenecientes a la clase 1 si y sólo si w un w w un una w una k k 0 0 1 1 2 2 + + + +> ... θ El multiplicador α debe ser mayor que 1, y el wi
se establecen en un constante en el principio. El algoritmo que hemos descrito no permite pesos negativos, cualdependiendo del dominio puede ser un inconveniente. Sin embargo, hay una versión, llamada
Balanced Winnow, que hace que puedan. Esta versión mantiene dos de peso vectores, uno para cada clase. Un ejemplo es clasificado como perteneciente a la clase 1 si () () () W w w w una a w w una k k k 0 0 0 1 1 1 +-+-+- + - + ... + -> Θ Figura 4.11 (b) muestra el algoritmo de equilibrado. Aventar es muy eficaz en la recalada en las características relevantes de un conjunto de datos; Por lo tanto, se llama un atributo-efficientlearner. Esto significa que puede ser un buen algoritmo candidato si un conjunto de datos tiene muchas características (binarios) y la mayoría de ellos son irrelevante. Tanto Winnow y el algoritmo de perceptrón se pueden utilizar en una línea escenario en el que los nuevos casos llegan de forma continua, porque pueden hacerlo de forma incremental actualizar sus hipótesis como llegan nuevos casos. 4.7 APRENDIZAJE BASADO EN INSTANCIA En instancia basada en el aprendizaje de los ejemplos de entrenamiento se almacenan pie de la letra, y una distancia función se utiliza para determinar qué miembro del conjunto de entrenamiento es más parecido a un instancia de prueba desconocido. Una vez que la instancia de formación más cercano ha sido localizado, su clase se predice para la instancia de prueba. El problema sólo queda es definir la distancia función, y que no es muy difícil de hacer, especialmente si los atributos son numéricos. Función Distancia Aunque hay otras opciones posibles, la mayoría de los estudiantes basados en instancia usan distancia euclídea. La distancia entre una instancia con valores de atributos a1 (1) , a2 (1)
, ..., Alaska (1) (donde kis el número de atributos) y otro con valores A1 (2) , a2 (2) , ..., Ak (2) es definida como () () () () () () () () () aaaaaakk1 1 1 22 2 1 2 22122 - + - + + - ... Al comparar las distancias no es necesario para llevar a cabo la raíz cuadrada operación de las sumas de cuadrados se pueden comparar directamente. Una alternativa a la Distancia euclídea es la de Manhattan, o la ciudad-bloque, métrico, donde la diferencia entre los valores de atributo no es cuadrada, pero sólo suman (después de tomar el absoluto
valor). Otros se obtienen mediante la adopción de potencias superiores a la plaza. poderes más altos aumentar la influencia de las grandes diferencias, a expensas de las pequeñas diferencias. En general, la distancia euclídea representa un buen compromiso. Otros distancia métrica puede ser más apropiado en circunstancias especiales. La clave es pensar en real instancias y lo que significa para ellos estar separados por una cierta distancia-lo sería el doble de la distancia media, por ejemplo? Los diferentes atributos se miden a menudo en diferentes escalas, por lo que si la euclidiana fórmula de la distancia se utiliza directamente, el efecto de algunos de los atributos puede ser completamente eclipsada por otros que tenían mayores escalas de medición. En consecuencia, es usual para normalizar todos los valores de atributos a estar entre 0 y 1 mediante el cálculo de un vv vv yo ii ii = min max min donde vi es el valor real del atributo i, y se toman el máximo y mínimo sobre todos los casos en el conjunto de entrenamiento. Estas fórmulas asumen implícitamente atributos numéricos. Aquí la diferencia entre
dos valores es sólo la diferencia numérica entre ellos, y es esta diferencia que se eleva al cuadrado y se añade para producir la función de distancia. Para los atributos nominales que tomar valores que son simbólicos en lugar de numérica, la diferencia entre los dos valores que no son los mismos a menudo se toma como 1, mientras que si los valores son los mismos la diferencia es 0. No se requiere de escala en este caso, porque solamente los valores 0 y 1 se utilizan. Una política común para el manejo de los valores que faltan es la siguiente. Para los atributos nominales, supongamos que una característica que falta es máximamente diferente de cualquier otra función valor. Por lo tanto, si uno o ambos valores se pierden, o si los valores son diferentes, la diferencia entre ellos se toma como 1; la diferencia es 0 sólo si no faltan y ambos son el mismo. Para los atributos numéricos, la diferencia entre dos desaparecidos valores también se toma como 1. Sin embargo, si sólo un valor no está presente, la diferencia es a menudo tomado como sea el (normalizado) tamaño del otro valor o 1 menos que el tamaño, lo que sea mayor. Esto significa que si los valores se pierden, la diferencia es tan grande ya que posiblemente puede ser. Encontrar Los vecinos más cercanos de manera eficiente A pesar de que el aprendizaje basado en instancia es simple y eficaz, a menudo es lento. la manera obvia de encontrar qué miembro del conjunto de entrenamiento es más cercano a un desconocido instancia de prueba es calcular la distancia de todos los miembros del conjunto de entrenamiento y seleccionar la más pequeña. Este procedimiento es lineal en el número de la formación instancias. En otras palabras, el tiempo que se necesita para hacer una sola predicción es proporcional al número de instancias de formación. Procesamiento de una prueba de conjunto de toda toma tiempo proporcional al producto del número de instancias en la formación y
equipos de prueba. Vecinos más cercanos se pueden encontrar de manera más eficiente mediante la representación del conjunto de entrenamiento como un árbol, aunque no es bastante obvio cómo. Una estructura adecuada es un árbol kD. Este es un árbol binario que divide el espacio de entrada con un hiperplano y luego se divide cada partición de nuevo, de forma recursiva. Todas las divisiones se hacen en paralelo a uno de los ejes, ya sea vertical u horizontalmente, en el caso de dos dimensiones. La estructura de datos se llama un kD-treebecause que almacena un conjunto de puntos en el espacio k-dimensional, con el kbeing número de atributos. Figura 4.12 (a) da un pequeño ejemplo con k = 2, y la Figura 4.12 (b) muestra la cuatro instancias de formación que representa, junto con los hiperplanos que constituyen el árbol. Tenga en cuenta que estos límites son hiperplanos notdecision: Las decisiones se toman sobre una base de vecino más cercano, como se explica más adelante. La primera división es horizontal (h), a través de el punto (7,4): es la raíz del árbol. La rama izquierda no se divide aún más: Contiene el único punto (2,2), que es una hoja del árbol. La rama derecha se divide verticalmente (v) en el punto (6,7). Su hijo derecho está vacío, y su hijo izquierdo contiene el punto (3,8). Como ilustra este ejemplo, cada región contiene sólo un punto, o, tal vez, no hay puntos. Ramas hermano del ejemplo de árbol para, las dos hijas de la raíz en la Figura 4.12 (a) no -son necesariamente desarrollaron a la misma profundidad. Cada punto en el conjunto de entrenamiento corresponde a un único nodo, y hasta la mitad son nodos hoja. ¿Cómo se construye un kD-árbol de un conjunto de datos? ¿Puede ser actualizado de manera eficiente como nuevo
se añaden ejemplos de entrenamiento? Y ¿cómo acelerar los cálculos del vecino más cercano? Abordamos la última pregunta en primer lugar. Para localizar el vecino más cercano de un punto de destino determinado, seguir el árbol de su raíz para localizar la región que contiene el blanco. La Figura 4.13 muestra un espacio como ese de la figura 4.12 (b), pero con un poco más de casos y un límite adicional. El objetivo, que no es uno de los casos en el árbol, está marcado por una estrella. El nodo de hoja de la región que contiene la diana es de color negro. Esto no es necesariamente el objetivo de vecino más cercano, como ilustra este ejemplo, pero es una buena primera aproximación. en en particular, cualquier vecino más cercano debe estar más cerca, dentro del círculo de trazos en la figura 4.13. Para determinar si es que existe, en primer lugar comprobar si es posible que un cerrador vecino mienta dentro hermano del nodo. Hermano del nodo negro está a la sombra en la figura 4.13, y el círculo no se cruza, así que el hermano no puede contener más de cerca vecino. Luego de vuelta hasta el nodo principal y comprobar itssibling, que aquí portadas todo por encima de la línea horizontal. En este caso, debido a que el mustbe exploró área que cubre se cruza con el mejor círculo hasta el momento. Para explorarlo, encuentre sus hijas (del punto original de dos tías); comprobar si se cortan el círculo (el de la izquierda no lo hace, sino el derecho lo hace); y descender para ver si contiene un punto más cerca (lo hace). En un caso típico, este algoritmo es mucho más rápido que el examen de todos los puntos para encontrar el vecino más cercano. El trabajo involucrado en la búsqueda de la inicial aproximado más cercano vecino el punto negro en la Figura 4.13-depende de la profundidad del árbol, dado
por el logaritmo del número de nodos, log2N si el árbol está bien equilibrado. la cantidad de trabajo que participan en retroceso para comprobar si esta es realmente la más cercana vecino depende un poco en el árbol, y de lo bien que la aproximación inicial es. Pero para un árbol bien construido con nodos que son aproximadamente cuadrada en lugar de rectángulos delgados largos, también se pueden mostrar para ser logarítmica en el número de nodos (si el número de atributos en el conjunto de datos no es demasiado grande). ¿Cómo se construye un árbol bueno para un conjunto de ejemplos de entrenamiento? El problema se reduce hacia abajo para seleccionar el primer ejemplo de formación para dividir y en la dirección de la división. Una vez que pueda hacer eso, aplicar el mismo método de forma recursiva para cada niño de la inicial dividir para construir todo el árbol. Para encontrar una buena dirección para la división, el cálculo de la variación de los puntos de datos a lo largo de cada eje individualmente, seleccionar el eje con la mayor varianza, y crear un hiperplano división perpendicular a ella. Para encontrar un buen lugar para el hiperplano, busque el valor medio a lo largo de ese eje y seleccionar el punto correspondiente. este hace que la división perpendicular a la dirección de mayor extensión, con la mitad de los puntos acostado en ambos lados. Esto produce un árbol bien equilibrada. Para evitar la larga flaco regiones es mejor para divisiones sucesivas para ser a lo largo de diferentes ejes, lo cual es probable porque la dimensión de la mayor varianza se elige en cada etapa. Sin embargo, si el distribución de los puntos está muy sesgada, elegir el valor de la mediana puede generar varias divisiones sucesivas en la misma dirección, con un rendimiento de largo, hyperrectangles flacos. Una mejor estrategia es calcular la media en lugar de la mediana y utilizar el punto
más cercano a eso. El árbol no será perfectamente equilibrado, pero sus regiones tenderá a ser cuadrada, porque hay una mayor probabilidad de que se elegirán diferentes direcciones por divisiones sucesivas. Una de las ventajas del aprendizaje basado en instancia sobre la mayor parte otra máquina de aprendizaje métodos es que los nuevos ejemplos se pueden añadir al conjunto de entrenamiento en cualquier momento. para retener esta ventaja cuando se utiliza un árbol de kD, tenemos que ser capaces de actualizar de forma incremental con nuevos puntos de datos. Para ello, determinar qué nodo hoja contiene el nuevo punto y encontrar su hyperrectangle. Si está vacío, sólo tiene que colocar el nuevo punto de allí. De lo contrario, dividir el hyperrectangle lo largo de su dimensión más larga para preservar la perpendicularidad. Este simple heurística no garantiza que la adición de una serie de puntos preservará el equilibrio del árbol, ni que los hyperrectangles estarán bien formados para una búsqueda nearestneighbor. Es una buena idea para reconstruir el árbol a partir de cero de vez en cuando, para ejemplo, cuando su profundidad crece al doble de la profundidad mejor posible. Como hemos visto, KD-árboles son buenas estructuras de datos para la búsqueda de los vecinos más cercanos de manera eficiente. Sin embargo, no son perfectos. Conjuntos de datos asimétricos presentan un conflicto básico entre el deseo de que el árbol esté perfectamente equilibrado y el deseo de que las regiones ser cuadrada. Más importantes, rectángulos-incluso no-cuadrados son la mejor forma para utilizar de todos modos, debido a sus esquinas. Si el círculo de trazos en la Figura 4.13 fuera cualquier más grande, que sería si la instancia negro eran un poco más lejos de la meta,
sería intersectar la esquina inferior derecha del rectángulo en la parte superior izquierda y luego de que rectángulo tendría que ser investigado, también, a pesar del hecho de que la formación instancias que lo definen son un largo camino desde la esquina en cuestión. Las esquinas de regiones rectangulares son torpes. ¿La solución? Utilice hiperesferas, no hyperrectangles. Esferas vecino puede solaparse, mientras que los rectángulos puede hacer tope, pero esto no es un problema porque el algoritmo nearestneighbor para KD-árboles no depende de las regiones que son disjuntos. la estructura de datos llamada árbol bola define hiperesferas k-dimensional ("bolas") que cubrir los puntos de datos, y las organiza en un árbol. Figura 4.14 (a) muestra 16 instancias de capacitación en el espacio de dos dimensiones, superpuestos por un patrón de círculos superpuestos, y la Figura 4.14 (b) muestra un árbol formado a partir de estos círculos. Círculos en los diferentes niveles del árbol se indican con diferentes estilos de tablero, y los círculos más pequeños se dibujan en tonos de gris. Cada nodo del árbol representa una bola, y el nodo es discontinua o sombra según la misma convención de manera que pueda identificar qué nivel de las bolas corren. Para ayudarle a entender el árbol, los números se colocan en los nodos para mostrar cuántos datos se consideran puntos para ser dentro de esa bola. Pero ten cuidado: Esto no es necesariamente el mismo que el número de señala que cae dentro de la región espacial que representa la pelota. Las regiones en cada nivel a veces se superponen, pero los puntos que entran en la zona de solapamiento se asignan a sólo una de las bolas superpuestas (el diagrama no muestra que uno). en lugar de los recuentos de ocupación en la Figura 4.14 (b), los nodos de los árboles reales de bolas almacenan la
centro y el radio de su bola; nodos hoja registran los puntos que contienen también. Para utilizar una bola del árbol para encontrar el vecino más cercano a un objetivo determinado, empezar por recorrer el árbol de arriba hacia abajo para localizar la hoja que contiene el destino y encontrar la punto más cercano a la diana en esa bola. Esto le da un límite superior para el objetivo de distancia de su vecino más cercano. Entonces, al igual que para el árbol kD, examine el hermano nodo. Si la distancia del objetivo al centro del hermano excede su radio más la corriente límite superior, no puede posiblemente contener un punto más cercano; de lo contrario, la hermano debe examinarse al descender el árbol más. En la figura 4.15 el objetivo está marcado con una estrella y el punto negro es su vecino más cercano conocido actualmente. Todo el contenido de la bola gris se puede descartar: No puede contener un punto más cercano, ya que su centro es demasiado lejos. Proceda de forma recursiva una copia de seguridad el árbol a su raíz, el examen de cualquier bola que, posiblemente, puede contener un punto más cerca de el actual límite superior. Árboles de bolas se construyen de arriba hacia abajo, y como con KD-árboles el problema básico es para encontrar una buena manera de dividir una bola que contiene un conjunto de puntos de datos en dos. En la práctica, usted no tiene que continuar hasta que las bolas de hojas contienen sólo dos puntos: Puede detener antes, una vez que se alcanza y un número mínimo predeterminado, el mismo va Para KD-árboles. Aquí es un método de división posible. Elija el punto de la bola que está más lejos de su centro, y luego un segundo punto que está más alejado de el primero. Asignar todos los puntos de datos en la pelota a la más cercana de ellas dos centros de los conglomerados; a continuación, calcular
el centroide de cada grupo y la radio mínimo requerido para que se adjuntar todos los puntos de datos que representa. Este método tiene el mérito que el costo de la división de un balón que contiene n puntos sólo es lineal en n. Hay algoritmos más elaborados que producen bolas más estrictos, pero requieren más cálculo. No vamos a describir sofisticado algoritmos para la construcción de balón árboles o su actualización incremental como nuevas instancias de capacitación son encontrado. discusión Aprendizaje basado en instancia más cercana al vecino es simple y, a menudo funciona muy bien. en el esquema que hemos descrito, cada atributo tiene exactamente la misma influencia sobre la decisión, tal como lo hace en el método Naïve Bayes. Otro problema es que la base de datos puede llegar a ser fácilmente dañados por ejemplares ruidosos. Una solución consiste en adoptar la estrategia k-vecino más cercano, donde algunos fijos, pequeño número de k más cercano vecinos dicen que cinco están ubicados y utilizados en conjunto para determinar la clase de la prueba ejemplo a través de una mayoría simple de votos. (Tenga en cuenta que anteriormente hemos utilizado KTO denotamos la número de atributos; este es un uso independiente diferente.) Otra forma de pruebas la base de datos contra el ruido es elegir los ejemplares que se añaden a ella selectivamente y con criterio. Mejora de los procedimientos que se describen en el capítulo 6, dirección estas deficiencias. El vecino más cercano de método se originó hace muchas décadas, y los estadísticos
esquemas de k-vecino más cercano analizados en la década de 1950. Si el número de la formación casos es grande, tiene sentido intuitivo de usar más de un vecino más próximo, pero es evidente que esto es peligroso si hay pocos casos. Se puede demostrar que cuando k y el número NOF casos ambos se convierten infinita de tal manera que k / n → 0, la
probabilidad de error se acerca al mínimo teórico para el conjunto de datos. El método nearestneighbor fue adoptado como un esquema de clasificación en la década de 1960 y tiene sido ampliamente utilizado en el campo de reconocimiento de patrones para casi medio siglo. Clasificación más cercano vecino era notoriamente lento hasta KD-árboles comenzaron a ser aplicado a principios de 1990, aunque la estructura de datos en sí se desarrolló mucho anterior. En la práctica, estos árboles se vuelven ineficientes cuando la dimensión del espacio de aumenta y son sólo vale la pena cuando el número de atributos es pequeño-up 10. a árboles de bolas se desarrollaron mucho más recientemente y son una instancia de una más estructura general llama un árbol métrica. Sofisticados algoritmos pueden crear métricas árboles que tratan con éxito con miles de dimensiones. En lugar de almacenar todas las instancias de formación, puede comprimirlos en regiones. la técnica muy simple, que se menciona al final de la sección 4.1, es simplemente registrar la rango de valores observados en los datos de entrenamiento para cada atributo y categoría. dado una instancia de prueba, que se resuelve que los rangos de valores de los atributos se dividen en y elija la categoría con el mayor número de rangos correctos para esa instancia. Un poco técnica más elaborada es la construcción de intervalos para cada atributo y el uso de la conjunto de entrenamiento para contar el número de veces que se produce cada clase para cada intervalo en cada
atribuir. Atributos numéricos se pueden discretizar en intervalos, y los "intervalos" que consta de un solo punto se pueden utilizar para los nominales. Entonces, dada una instancia de prueba, usted puede determinar qué intervalos la instancia reside en y clasificarlo por votación, un método llamado intervalos cuentan con derecho a voto. Estos métodos son muy aproximados, pero muy rápido, y puede ser útil para el análisis inicial de grandes conjuntos de datos. 4.8 AGRUPACIONES Técnicas de agrupamiento se aplican cuando no hay clase para ser predicho pero el casos se dividirán en grupos naturales. Estos grupos presumiblemente reflejan algún mecanismo que está en el trabajo en el dominio desde el que se dibujan los casos, un mecanismo que causa algunos casos a tener una semejanza más fuerte a cada otros que lo hacen a los casos restantes. La agrupación requiere, naturalmente, diferentes técnicas a los métodos de clasificación y de aprendizaje asociación que han considerado hasta ahora. Como vimos en la sección 3.6, existen diferentes maneras en las que el resultado de la agrupación se puede expresar. Los grupos que se identifican pueden ser exclusivo: Cualquier instancia pertenece en un solo grupo. O pueden ser superpuestas: Una instancia puede caer en varios grupos. O pueden ser probabilística: Una instancia pertenece a cada grupo con una cierta probabilidad. O pueden ser jerárquica: una división aproximada de casos en grupos en el nivel superior y cada grupo refinado aún más, tal vez hasta el final a casos individuales. En realidad, la elección entre estas posibilidades debe ser dictada por la naturaleza de los mecanismos que se cree que la base de la especial fenómeno de agrupamiento. Sin embargo, debido a que estos mecanismos son raramente conocidos el existencia de clusters es, después de todo, algo que estamos tratando de descubrir-y por razones pragmáticas también, la elección suele estar dictada por las herramientas de agrupación que están disponibles.
Vamos a examinar un algoritmo que funciona en dominios numéricos, el particionamiento casos en conglomerados disjuntos. Al igual que el método del vecino más próximo básica de aprendizaje instancebased, es una técnica simple y directo que se ha utilizado para varias décadas. En el capítulo 6 se examinan los métodos de agrupamiento más nuevos que realizan agrupamiento incrementales y probabilístico. Iterativo Distancia basada en clústeres La técnica de agrupación clásica se llama k-medias. En primer lugar, se especifica de antemano cómo muchos de estos grupos se están buscando: Este es el parámetro k. Luego se eligen kpoints al azar como los centros de conglomerados. Todos los casos son asignados a su centro del cúmulo más cercano de acuerdo con la métrica de distancia euclídea ordinaria. A continuación, el centro de gravedad, o media, de los casos en cada grupo se calcula-esta es la parte "medio". Estos centroides se toman como nuevos valores de centro para sus respectivos grupos. Por último, el conjunto proceso se repite con los nuevos centros de los conglomerados. Iteración continúa hasta que el mismo puntos se asignan a cada grupo en rondas consecutivas, en cuya etapa el clúster centros se han estabilizado y seguirá siendo el mismo siempre. Este método de agrupamiento es simple y eficaz. Es fácil demostrar que la elección de el centro de la agrupación para ser el centroide minimiza el cuadrado de la distancia total de cada de puntos del cluster a su centro. Una vez que la iteración se ha estabilizado, cada punto es asignado a su centro de la agrupación más cercana, por lo que el efecto general es minimizar el total de cuadrado distancia de todos los puntos de sus centros de los conglomerados. Sin embargo, el mínimo es de un local de
uno; no hay ninguna garantía de que es el mínimo global. Los grupos finales son bastante sensible a los centros de conglomerados iniciales. Completamente pueden surgir diferentes arreglos de pequeños cambios en la elección aleatoria inicial. De hecho, esto es cierto de todo práctico técnicas de agrupamiento: Casi siempre es factible encontrar grupos globalmente óptimos. Para aumentar la probabilidad de encontrar un pueblo mínimos globales a menudo ejecutar el algoritmo varias veces con diferentes opciones iniciales y elegir el mejor resultado final-el con la distancia al cuadrado total más corta. Es fácil imaginar situaciones en las que k-medias no encuentra una buena agrupación. Considere cuatro casos dispuestos en los vértices de un rectángulo en dos dimensiones espacio. Hay dos grupos naturales, formados mediante la agrupación de los dos vértices en cada extremo de un lado corto. Pero supongamos que los dos centros de conglomerados iniciales resultan caer en los puntos medios de los longsides. Esto forma una configuración estable. los dos grupos contienen cada uno las dos instancias en cada extremo de un lado largo, no importa cómo grande es la diferencia entre el largo y los lados cortos. k-means clustering se puede mejorar drásticamente mediante una cuidadosa elección de la centros de conglomerados iniciales, a menudo llamados semillas. En lugar de comenzar con una arbitraria conjunto de semillas, aquí está un mejor procedimiento. Elija la semilla inicial al azar de todo el espacio, con una distribución de probabilidad uniforme. A continuación, seleccione el segundo semilla con una probabilidad que es proporcional al cuadrado de la distancia desde el primero. Proceder, en cada etapa de elegir la siguiente semilla con una probabilidad proporcional al cuadrado de la distancia desde la semilla más cercano que ya ha sido elegido.
Este procedimiento, llamado k-means ++, mejora tanto la velocidad y la precisión sobre la algoritmo original con semillas aleatorias. Cálculos de distancias más rápidos El algoritmo de agrupamiento k-medias por lo general requiere varias iteraciones, cada uno que implica la búsqueda de la distancia de los centros de kcluster de cada caso para determinar su clúster. Hay aproximaciones simples que acelerar este proceso considerablemente. para ejemplo, se puede proyectar el conjunto de datos y hacer recortes a lo largo de los ejes seleccionados, en lugar de utilizar las divisiones arbitrarias hiperplano que están implícitos en la elección de la más cercana centro del cúmulo. Pero esto compromete inevitablemente la calidad de la resultante racimos. Aquí hay una mejor manera de acelerar las cosas. Encontrar el centro del cúmulo más cercano está no tan diferente de la búsqueda de los vecinos más cercanos en el aprendizaje basado en instancia. ¿Puede el -árboles kD soluciones y bolas de árboles de usarse mismos eficientes? ¡Sí! De hecho, pueden ser aplicada de una manera aún más eficiente, ya que en cada iteración de k-significa todo los puntos de datos se procesan en conjunto, mientras que, en el aprendizaje basado en instancia, la prueba casos se procesan de forma individual. En primer lugar, construir un kD-árbol o árbol de la bola para todos los puntos de datos, que se mantendrá estática a lo largo del procedimiento de agrupamiento. Cada iteración de k-medias produce un conjunto de los centros de conglomerados, y todos los puntos de datos deben ser examinados y asignados a la más cercana centro. Una forma de procesar los puntos es descender el árbol desde la raíz hasta alcanzando una hoja y comprobar cada punto individual en la hoja para encontrar su grupo más cercano
centro. Pero puede ser que la región representada por un nodo interior superior cae enteramente dentro del dominio de un único centro de clúster. En ese caso, todos los puntos de datos bajo ese nodo se pueden procesar en un solo golpe! El objetivo del ejercicio, después de todo, es encontrar nuevas posiciones para el clúster centros mediante el cálculo del centroide de los puntos que contienen. El centroide puede calcularse manteniendo una suma vectorial de funcionamiento de los puntos en el grupo, y un recuento de cuántos hay hasta el momento. Al final, sólo dividir uno por el otro para encontrar el centroide. Supongamos que con cada nodo del árbol almacenamos el vector suma de los puntos dentro de ese nodo y un recuento del número de puntos. Si el nodo todo cae dentro del ámbito de un solo grupo, el funcionamiento asciende para que clúster puede actualizar inmediatamente. Si no, mirar dentro del nodo por procedimiento recursivamente el árbol. La figura 4.16 muestra los mismos casos y bola del árbol como en la figura 4.14, pero con dos centros de los conglomerados marcados como estrellas negras. Debido a que todos los casos se asignan al centro más cercano, el espacio se divide en dos por la línea gruesa muestra en la figura 4.16 (a). Comience en la raíz del árbol en la Figura 4.16 (b), con valores iniciales para el suma y cuenta vector para cada grupo; todos los valores iniciales son 0. Proceda de forma recursiva abajo del árbol. Cuando se alcanza el nodo A, todos los puntos dentro de ella se encuentran en el grupo 1, por lo que suma y conteo cúmulo de 1 se pueden actualizar con la suma y no cuentan para el nodo A, y no tenemos que descender más. Recursiva de vuelta al nodo B, su bola extiende a ambos lados el límite entre los grupos, por lo que sus puntos debe examinarse individualmente. Cuando se alcanza el nodo C, cae enteramente dentro el grupo 2; de nuevo, podemos actualizar
grupo 2 inmediatamente y no necesitamos descender más. El árbol es sólo examinado hasta la frontera marcada por la línea discontinua en la Figura 4.16 (b), y la ventaja es que los nodos a continuación no tienen por qué ser abiertos, al menos no en esta en particular iteración de k-medias. La próxima vez, los centros de los conglomerados habrá cambiado y las cosas pueden ser diferentes. discusión Muchas variantes del procedimiento básico k-medias se han desarrollado. Algunos productos una agrupación jerárquica mediante la aplicación del algoritmo con k = 2 para el conjunto de datos global y luego repetir, de forma recursiva, dentro de cada grupo. ¿Cómo elegir k? A menudo no se sabe nada sobre el número probable de grupos, y el punto central de la agrupación es averiguar. Una forma es tratar diferente valores y elegir la mejor. Para hacer esto usted necesita aprender cómo evaluar el éxito de aprendizaje automático, que es lo que el capítulo 5 se trata. Volvemos a la agrupación en Sección 6.8. APRENDIZAJE 4.9 MULTI-INSTANCIA En el capítulo 2 hemos introducido varias instancias de aprendizaje, donde cada ejemplo en el datos comprende varios casos diferentes. Llamamos a estos ejemplos bolsas (señalamos la diferencia entre las bolsas y los conjuntos en la Sección 4.2). En supervisado varias instancias aprendizaje, una etiqueta de clase se asocia con cada bolsa, y el objetivo del aprendizaje es determinar cómo la clase se puede deducir de las instancias que conforman la bolsa. Mientras que los algoritmos avanzados se han ideado para hacer frente a este tipo de problemas, resulta que
que la metodología de la simplicidad primera se puede aplicar aquí con sorprendentemente bueno resultados. Un enfoque simple pero eficaz es manipular los datos de entrada para transformar en una sola instancia de aprendizaje problema y luego aplicar métodos de aprendizaje estándar, tales como las que se describen en este capítulo. Dos de esos enfoques se describen en las siguientes secciones. La agregación de la entrada Usted puede convertir un problema de múltiples instancia a una sola instancia de uno en el cálculo valores como la media, moda, mínimo y máximo que resumen los casos en la bolsa y la adición de estos como nuevos atributos. Cada instancia "Resumen" se reserva el etiqueta de clase de la bolsa que se deriva de. Para clasificar a una nueva bolsa el mismo proceso se utiliza: Se crea una única instancia agregada con atributos que resumen la instancias en la bolsa. Sorprendentemente, para la actividad de drogas conjunto de datos original que estimuló el desarrollo del aprendizaje multi-instancia, resulta comparable con fines especiales multi-instancia los alumnos pueden obtener utilizando sólo el mínimo y el máximo valores de cada atributo para cada bolsa, se combina con un clasificador de máquinas de vectores soporte (véase el capítulo 6). Una desventaja potencial de este enfoque es que la mejor estadísticas de resumen para calcular dependen del problema en cuestión. Sin embargo, el coste computacional adicional asociado con la exploración de combinaciones de diferentes estadísticas de resumen se compensa por el hecho de que el proceso de resumen significa que menos casos son procesados por el algoritmo de aprendizaje. La agregación de la salida
En lugar de la agregación de los casos en cada bolsa, otro enfoque es aprender un clasificador directamente de los casos originales que componen la bolsa. Para lograr esto, el casos en una bolsa determinada están asignados etiqueta de clase de la bolsa. En el momento de la clasificación, una predicción se produce para cada instancia en la bolsa que ha de predecirse, y las predicciones se agregan de alguna manera para formar una predicción para la bolsa en su conjunto. Un enfoque es el tratamiento de las predicciones como útiles para las diversas etiquetas de clase. Si el clasificador es capaz de asignar probabilidades a las etiquetas de clase, estos podrían ser promedio para producir una distribución general de probabilidad para la clase de la etiqueta de la bolsa. este método trata los casos de forma independiente y les da igual influencia en la etiqueta de clase predicho. Un problema es que las bolsas en los datos de entrenamiento pueden contener diferentes números de instancias. Idealmente, cada bolsa debe tener la misma influencia sobre el modelo final que se aprende. Si el algoritmo de aprendizaje puede aceptar pesos a nivel de instancia, esto puede pueden lograrse mediante la asignación de cada instancia en una bolsa dado un peso inversamente proporcional al tamaño de la bolsa. Si una bolsa contiene ninstances, dando a cada uno un peso de 1 / nensures que las instancias contribuyen por igual a la clase de la etiqueta de la bolsa y cada bolsa recibe un peso total de 1. discusión Ambos métodos descritos anteriormente para abordar los problemas de varias instancias desprecio la suposición de multi-instancia original que una bolsa es positivo si y sólo si al menos uno de sus casos es positiva. En cambio, por lo que cada instancia en una bolsa de contribuir por igual
a su etiqueta es el elemento clave que permite a los algoritmos de aprendizaje estándar que han de aplicarse. De lo contrario, es necesario para tratar de identificar los casos "especiales" que son la clave para la determinación de la etiqueta de la bolsa. 4.10 LECTURAS Se propuso el esquema 1R y minuciosamente investigado por Holte (1993). ella nunca fue realmente pretende ser una máquina de aprendizaje "método". El punto fue más para demostrar que las estructuras muy simples subyacen a la mayoría de los conjuntos de datos prácticos que se utiliza para evaluar los esquemas de aprendizaje automático en el momento y que la puesta esquemas de inferencia inductiva de alta potencia para trabajar en conjuntos de datos simples era como usando un martillo para cascar una nuez. ¿Por qué luchar con un árbol de decisión compleja cuando una regla simple hará? El esquema que genera una regla simple por clase se debe a Lucio de Souza Coelho de Brasil y Len Trigg de Nueva Zelanda, y ha sido hyperpipes dobladas. Un algoritmo muy simple, tiene la ventaja de siendo extremadamente rápido y es bastante factible incluso con un número enorme de atributos. Bayes fue un filósofo Inglés del siglo XVIII que se propuso su teoría de la probabilidad de un "Ensayo hacia la solución de un problema en la doctrina de las posibilidades," publicado en las Philosophical Transactions de la Royal Society de Londres (Bayes, 1763). La regla que lleva su nombre ha sido una piedra angular de la teoría de la probabilidad desde entonces. La dificultad con la aplicación de la regla de Bayes en la práctica es el asignación de probabilidades a priori.
Algunos estadísticos, bayesianos dobladas, toman la regla como un evangelio e insisten en que la gente hace intentos serios para estimar probabilidades previas con precisión, aunque estas estimaciones son a menudo subjetiva. Otros, no bayesianos, preferir el tipo de análisis priorfree que normalmente genera intervalos de confianza estadísticos, que lo haremos ver en el capítulo 5. Con un conjunto de datos en particular, antes de probabilidades para Naïve Bayes son por lo general bastante fácil de estimar, que fomenta un enfoque bayesiano para el aprendizaje. El supuesto de independencia hecha por el método Naïve Bayes es una gran piedra de tropiezo, sin embargo, y se están haciendo esfuerzos para aplicar el análisis bayesiano sin asumir la independencia. Los modelos resultantes se denominan redes bayesianas (Heckerman et al., 1995), y los describen en la Sección 6.7. Técnicas bayesianas se habían utilizado en el campo de reconocimiento de patrones (Duda y Hart, 1973) durante 20 años antes de que se adoptara por la máquina de aprendizaje investigadores (por ejemplo, Langley et al., 1992) y hechas para trabajar en conjuntos de datos con atributos redundantes (Langley y Sage, 1994) y los atributos numéricos (John y Langley, 1995). El sello Naïve Bayesis desafortunado porque es difícil de usar este método sin sentir ingenuo. Sin embargo, no hay nada ingenuo sobre su uso en circunstancias apropiadas. El modelo de Naïve Bayes multinomial, que es particularmente útil para la clasificación de texto, fue investigado por McCallum y Nigam (1998). El artículo clásico sobre la inducción de árbol de decisión es Quinlan (1986), que describe el procedimiento básico ID3 desarrollado en este capítulo. Una descripción completa de los el método, incluyendo las mejoras que se encarnaban en C4.5, aparece en un clásico libro de Quinlan (1993), lo que da un listado del sistema C4.5 completa, escrito en el lenguaje de programación C. PRISM fue desarrollado por Cendrowska (1987), que también presentó el conjunto de datos de lentes de contacto.
Las reglas de asociación se introducen y se describen en la literatura de base de datos en lugar que en la literatura de aprendizaje automático. Aquí el énfasis está en gran medida de que trata con enormes cantidades de datos en lugar de sobre las formas sensibles de la prueba y evaluación Los algoritmos de los conjuntos de datos limitados. El algoritmo presentado en este capítulo es el Apriori método desarrollado por Agrawal y sus asociados (Agrawal et al., 1993a, 1993b; Agrawal y Srikant, 1994). Una encuesta de la minería asociación regla aparece en un artículo de Chen et al. (1996). La regresión lineal se describe en la mayoría de los textos estadísticos estándar, y en particular tratamiento integral se puede encontrar en Lawson y Hanson (1995). El uso de modelos lineales para la clasificación disfrutaron de una gran popularidad en la década de 1960; Nilsson (1965) es una excelente referencia. Se define una unidad de umbral lineal como prueba binaria de si una función lineal es mayor o menor que cero y lineal machineas un conjunto de funciones lineales, uno para cada clase, cuyo valor para un desconocido ejemplo se compara y el más grande elegido como su clase predicho. En el lejano pasado, perceptrones cayeron en desgracia en la publicación de un libro influyente que mostró que tenían limitaciones fundamentales (Minsky y Papert, 1969); sin embargo, más sistemas complejos de funciones lineales han disfrutado de un resurgimiento en los últimos años en la forma de las redes neuronales, que se describe en la Sección 6.4. Los algoritmos de aventar eran introducido por Nick Littlestone en su Ph.D. tesis (Littlestone, 1988, 1989). Clasificadores lineales multirespuesta han encontrado aplicación en un apilamiento operación llamada
View more...
Comments