KDD_obligatorio_

July 29, 2017 | Author: Yatoma Tulike | Category: Data Mining, Artificial Neural Network, Statistics, Regression Analysis, Machine Learning

Share Embed Donate

Report this link

Short Description

Descripción: KDD_obligatorio_...

Description

Article s

From Data Mining to Knowledge Discovery in Databases Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth

■ La minería de datos y descubrimiento de conocimiento en bases de datos han sido la atracción de una cantidad significativa de la investigación, la industria y la atención de los medios en los últimos tiempos. ¿Qué es todo este entusiasmo? Este artículo proporciona una visión general de este campo emergente, aclarando cómo la minería de datos y descubrimiento de conocimiento en bases de datos están relacionados tanto entre sí y con los campos relacionados, tales como el aprendizaje de máquina, estadísticas y bases de datos. El artículo menciona determinadas aplicaciones del mundo real, las técnicas de minería de datos específicos, desafíos involucrados en aplicaciones del mundo real de descubrimiento de conocimiento, y las direcciones de investigación actuales y futuras en el campo. A través de una amplia variedad de campos, los datos están siendo recogidos y acumulados a un ritmo dramático. Hay una necesidad urgente para una nueva generación de teorías computacionales y herramientas para ayudar a los seres humanos en la extracción de información útil (conocimiento) de los rápidamente crecientes volúmenes de datos digitales. Estas teorías y herramientas son el tema del emergente campo de descubrimiento de conocimiento en bases de datos (KDD). En un nivel abstracto, el campo KDD es que se trate con el desarrollo de métodos y técnicas para dar sentido a los datos. El problema básico abordado por el proceso de KDD es uno de los

datos de bajo nivel de mapeo (que son normalmente muy voluminosos para entender y digerir Lyeasi-) en otras formas que podrían ser más compacto (por ejemplo, un informe corto), más stractab- (por ejemplo, una aproximación descriptiva o modelo del proceso que genera los datos), o más útil (por ejemplo, un modelo predictivo para estimar el valor de casos futuros). En el núcleo del proceso es la aplicación de métodos de minería de datos específicos para el descubrimiento de patrones y extracción

Article

s Este artículo comienza analizando el contexto históricamente de KDD y la minería de datos y su intersección con otros campos relacionados. Se proporciona un breve resumen de las aplicaciones del mundo real recientes KDD. Definiciones de KDD y la minería data- se proporcionan, y el proceso KDD varios pasos generales se describen. Este proceso de múltiples pasos con la aplicación de algoritmos de minería de datos como un paso concreto en el proceso. El paso a la minería de datos se discute en la cola más de- en el contexto de la minería de datos específica algoritmos de y su aplicación. Cuestiones de aplicación práctica en el mundo real también se describen. Por último, el artículo enumera los retos para la investigación y el desarrollo futuro y en particular analiza las oportunidades potenciales para la tecnología en los sistemas de KDD.

¿Por qué necesitamos KDD? El método tradicional de convertir los datos en conocimiento se basa en el análisis manual y de interpretación. Por ejemplo, en la industria de la salud, es común que los especialistas para analizar periódicamente las tendencias y los cambios actuales en los datos de salud, por ejemplo, sobre una base trimestral. Los especialistas proporcionan a continuación un informe detallando el análisis a la promotora de salud organización este informe se convierte en la base para la toma de decisiones futuras y la planificación para la gestión de la asistencia sanitaria. En un tipo totalmente diferente de aplicación , los geólogos planetarios tamizar a través de imágenes de sensores remotos de los planetas y asteroides, localizando cuidadosamente y loging cata- tales objetos geológicos de interés como cráteres de impacto . Ya se trate de la ciencia , marketing, finanzas , salud, retail , o cualquier otro campo , el enfoque clásico para el análisis de datos se basa fundamentalmente en uno o más analistas convertirse Hay una necesidad urgente de una nueva generación de teorías col en c apacidad de computación y herramientas para ayudar en la extracción de los seres humanos información útil (conocimiento ) de las rápidamente crecientes volúmenes de datos digitales.

Íntimamente familiarizado con los datos y que sirve como una interfaz entre los datos y los usuarios y productos. Por estas (y muchas otras) aplicaciones, esta forma de manual de sondeo de un conjunto de datos es lenta, costosa y altamente subjetiva. De hecho, como los volúmenes de datos crecen de manera espectacular, este tipo de análisis manual de datos se está convirtiendo totalmente impracticable en muchos dominios. Las bases de datos están aumentando en tamaño de dos maneras: (1) el número N de los registros u objetos en la base de datos y (2) el número d de campos o atributos a un objeto. Las bases de datos que contienen del orden de N = 109 objetos se están convirtiendo cada vez más comunes, por ejemplo, en las ciencias astronómicas. Del mismo modo, el número de campos D puede ser fácilmente del orden de 102 o incluso 103, por ejemplo, en aplicaciones de diagnóstico médico. ¿Quién podría esperar de digerir millones de registros, cada uno con decenas o cientos de campos? Creemos que este trabajo no es ciertamente uno de los seres humanos; por lo tanto, el trabajo de análisis necesita ser automatizado, al menos parcialmente. La necesidad de ampliar las capacidades de análisis bilidades humanos para el manejo de la gran cantidad de bytes que podemos recolectar es a la vez económica y científica. Las empresas utilizan los datos para ganar competitividad ventaja tiva, aumentar la eficiencia y proporcionar servicios más valiosos a los clientes. Datos capturamos sobre nuestro medio ambiente son la evidencia básica que utilizamos para construir teorías y modelos del universo en que vivimos. Porque las computadoras han permitido a los seres humanos para reunir más datos de lo que podemos digerir, es natural que recurrir a técnicas computacionales para ayudarnos descubrir patrones significativos y las estructuras de los grandes volúmenes de datos. Por lo tanto, KDD es un intento de hacer frente a un problema que la era de la información digital, hizo un hecho de la vida para todos nosotros: los datos sobrecarga.

Data Mining and Knowledge Discovery in the Real World Minería de Datos y Descubrimiento de Conocimiento en el mundo real Un alto grado de interés actual en KDD es el resultado del interés de los medios que rodea aplicaciones exitosas KDD , por ejemplo, los artículos se centran en los dos últimos años en Business Week , Newsweek , Byte , Semana PC, y otros periódicos de gran tirada . Desafortunadamente, no siempre es fácil separar la realidad de bombo de los medios . Sin embargo, varios ejemplos bien documentados de sistemas exitosos con razón pueden ser referidos como aplicaciones KDD y se han desplegado en el uso operativo en gran escala problemas del mundo real en la ciencia y en los negocios .

38

AI MAGAZINE

En la ciencia, una de las áreas de aplicación principales es la astronomía. Aquí, un notable éxito se logró mediante SkiCat, un sistema utilizado por tronomers pectos para llevar a cabo el análisis de imágenes, clasificación y catalogación de objetos de cielo a partir de imágenes del cielo en encuestas (Fayyad, Djorgovski y Weir 1996). En su primera aplicación, se utilizó el sistema para procesar las 3 terabytes (1012 bytes) de datos de imágenes resultantes de la Segunda Observatorio Palomar Sky Survey, donde se estima que en el orden de 109 objetos de cielo son detectables. SkiCat puede outper- los seres humanos de forma y técnicas computacionales tradicionales en la clasificación de objetos de cielo débiles. Ver Fayyad, Haussler y Stolorz (1996) para un estudio de las aplicaciones científicas. En los negocios, las principales áreas de aplicación KDD incluye marketing, finanzas (especialmente investidura), detección de fraudes, la fabricación, las telecomunicaciones y los agentes de Internet. Marketing: En la comercialización, la aplicación primaria es los sistemas de comercialización de bases de datos, que analizan las bases de datos de clientes a identificar los diferentes grupos de clientes y la previsión de su comportamiento. Business Week (Berry 1994) estima que más de la mitad de todos los minoristas están utilizando o planean utilizar el marketing de base de datos, y los que lo utilizan tienen buenos resultados; Por ejemplo, American Express reporta un incremento de 10 a 15 por ciento en el uso de tarjetas de crédito. Otra de las aplicaciones de marketing notable es (Agrawal et al. 1996) los sistemas de análisis cesto en el mercado, que encuentran patrones tales como, "Si el cliente compró X, él / ella también es probable que compren Y y Z." Estos patrones son valiosos para minoristas. Inversión: Numerosas empresas utilizan la minera de datos para la inversión, pero la mayoría no describen sus sistemas. Una excepción es LBS Capital Management. Su sistema utiliza sistemas expertos, redes neuronales y algoritmos genéticos para gestionar carteras por un total de $ 600 000 000; desde su inicio en 1993, el sistema ha superado el amplio mercado de valores (Hall, Mani, y Barr, 1996). Detección de Fraude: sistemas HNC Falcon y Néstor PRISM se utilizan para el control de fraude de tarjetas de crédito-, mirando a través de millones de cuentas. El sistema FAIS (Senador et al., 1995), de la Tesorería Financial Crimes Enforcement Network de Estados Unidos, se utiliza para identificar las transacciones financieras que podrían indicar la actividad de blanqueo de dinero. Fabricación: El sistema CASSIOPEE solución de problemas, desarrollado como parte de una empresa conjunta entre General Electric y SNECMA, se aplicó por tres grandes compañías aéreas europeas para diagnosticar y predecir problemas para el Boeing 737. Para derivar familias de fallas, se utilizan métodos de la agrupación. CASSIOPEE recibió el primer premio europeo en el aplicaciones ovative (Manago y Auriol 1996). Telecomunicaciones: La telecomunicación alarma-analizador de secuencias (TASA), construida en cooperación con un fabricante de equipos de telecomunicaciones y tres redes de telefonía (Mannila, Toivonen y Verkamo 1995). El sistema utiliza un marco novedoso para localizar con frecuencia se producen episodios de alarma de la corriente de alarma y presentarlos como reglas. Grandes conjuntos de reglas descubiertas se pueden explorar con herramientas de recuperación de información flexibles de apoyo interactividad y la iteración. De esta manera, TASA ofrece poda, agrupación, y herramientas de ordenación para refinar los resultados de una búsqueda de fuerza bruta básica de reglas. Limpieza de datos: El sistema MERGE-PURGE se aplicó a la detección de solicitudes de bienestar duplicados (Hernández y Stolfo 1995). Fue utilizado con éxito en datos del Departamento de Estado de Washington de Bienestar. En otras áreas, un sistema bien publicitada es de IBM AVANZADA SCOUT, un sistema ing-minería de datos especializada que ayuda a la National Basketball Como sociación (NBA) entrenadores organizar y datos pret inter de partidos de la NBA (US News 1995). AVANZADA SCOUT fue utilizado por varios de los equipos de la NBA en 1996, incluyendo los Personics Seattle do, que llegaron a las finales de la NBA. Por último, un nuevo tipo y cada vez más importante de descubrimiento es uno basado en el uso de agentes inteligentes para navegar a través de un entorno rico en información. Aunque la idea de disparadores activos

durante mucho tiempo ha sido analizado en el campo de la base de datos, aplicaciones realmente exitosas de esta idea aparecieron sólo con el advenimiento de la Internet. Estos sistemas le piden al usuario especificar un perfil de interés y buscar información relacionada entre una amplia variedad de fuentes principales y de propiedad público-do-. Por ejemplo, FIREFLY es un agente de la música-recomendación personal: Se pide a un usuario a su / su opinión de varias piezas de música y luego sugiere otra música que el usuario podría recibir (). CREYÓN (http://crayon.net/>) permite a los usuarios crear su propio periódico gratuito (con el apoyo de anuncios); Newshound () desde el San Jose Mercury News y teleyectó ( buscará automáticamente información de una amplia variedad de fuentes, incluyendo periódicos y agencias de noticias y documentos por correo electrónico nente rele- directamente al usuario. Estos son sólo algunos de los numerosos dichos sistemas que utilizan técnicas KDD para automática- mente producir información útil a partir de las grandes masas de datos en bruto. Ver Piatetsky-Shapiro et al. (1996) para una visión general de los temas en vías de desarrollo de aplicaciones KDD industriales.

Data Mining and KDD Históricamente, la noción de encontrar patrones en los datos útiles se le ha dado una variedad de nombres, incluyendo la minería de datos, la tracción conocimiento ex, el descubrimiento de información, la información de la cosecha, la arqueología de datos y procesamiento de patrón de datos. La minería de datos a largo plazo sobre todo ha sido utilizado por los estadísticos, analistas de datos y los sistemas de información de gestión (MIS) comunidades. También ha ganado popularidad en el campo base de datos. El descubrimiento de conocimiento en bases de datos frase fue acuñada en el primer taller KDD en 1989 (Piatetsky-Shapiro 1991) hacer hincapié en que el conocimiento es el producto final de un descubrimiento por datos. Se ha popularizado en la IA y los campos de la máquina-aprendizaje. En nuestra opinión, KDD se refiere al proceso global de descubrir conocimiento útil a partir de datos, y la minería de datos se refiere a un paso en particular en este proceso. La minería de datos es la aplicación de algoritmos específicos para la extracción de los patrones de datos. La distinción entre el proceso de KDD y el paso a la minería de datos (en el proceso) es un punto central de este artículo. Los pasos adicionales en el proceso KDD, tales como la preparación de datos, selección de datos, limpieza de datos, la incorporación de conocimiento previo adecuado y la correcta interpretación de los resultados de la minería, son esenciales para asegurar que el conocimiento útil se deriva de los datos. Aplicación ciega de métodos de minería de datos (con razón criticados como el dragado de datos en la literatura estadística) puede ser una actividad peligrosa, fácilmente conduce al descubrimiento de patrones sin sentido y no válidos.

El Interdisciplinario Naturaleza de KDD KDD ha evolucionado y sigue evolucionando, desde la intersección de los campos de investigación como Aprendizaje automático, reconocimiento de patrones, bases de datos, estadísticas, AI, la adquisición de conocimientos de los sistemas expertos, la visualización de datos y computación de alto rendimiento. El objetivo unificador es la extracción de conocimiento de alto nivel a partir de datos de bajo nivel en el contexto de grandes conjuntos de datos. El componente de minería de datos de KDD actualmente se basa principalmente en técnicas conocidas de aprendizaje automático, reconocimiento de patrones, y las estadísticas de encontrar patrones de datos en el paso a la minería de datos del proceso de KDD. Una pregunta natural es: ¿Cómo es KDD diferente de reconocimiento de patrón o de la máquina de aprendizaje (y campos relacionados)? La respuesta es que estos campos proporcionan algunos de los métodos de minería de datos que se utilizan en el paso a la minería de datos del proceso de KDD. KDD se centra en el proceso global de descubrimiento de conocimiento a partir de datos, incluyendo cómo se almacenan y se accede a los datos, cómo los algoritmos pueden ser escalados a conjuntos de datos masivos

El problema básico dirigido por el proceso KDD es uno de los datos de bajo nivel de mapeo en otras formas que podría ser más compacto, más abstracto,o más útil.

La minería de datos es un paso en el proceso KDD que consiste en AP- análisis de datos que manejan y el descubrimiento algoritmos de que producen una enumeración particular de patrones (o modelos) sobre los datos

y todavía funcionan de manera eficiente, cómo los resultados pueden interpretarlas y visualizados, y cómo la interacción global hombre-máquina útilmente pueden ser modelados y apoyados. El proceso KDD puede ser visto como una actividad multidisciplinar que abarca las técnicas más allá del alcance de cualquier disciplina en particular, como el aprendizaje de la máquina. En este contexto, existen oportunidades claras para otros campos de la IA (lados ser- aprendizaje automático) para contribuir a la KDD. KDD pone un énfasis especial en ING patrones comprensibles hallazgos que pueden interpretarse como un conocimiento útil o interesante. Así, por ejemplo, redes neuronales, aunque una poderosa herramienta de modelado, son relativamente difíciles de entender en comparación con los árboles de decisión. KDD también hace hincapié en la escala y las propiedades de robustez de los algoritmos de modelado para grandes conjuntos de datos ruidosos. Campos de investigación relacionados con la IA incluyen el descubrimiento de la máquina, que se enfoca en el descubrimiento de las leyes empíricas de la observación y la experimentación (Shrager y Langley 1990) (ver Kloes- generación y Zytkow [1996] para un glosario de términos comunes a KDD y el descubrimiento de la máquina ), y el modelado causal para la inferencia de modelos causales de datos (Spirtes, Glymour y Scheines 1993). Estadísticas en particular, tiene mucho en común con KDD (ver Elder y Pregibon [1996] y Glymour et al. [1996] para una discusión más detallada de esta sinergia). Descubrimiento de conocimiento a partir de datos es fundamentalmente un esfuerzo estadístico. Estadísticas proporciona un lenguaje y un marco para identificar la incertidumbre que se produce cuando uno trata de inferir patrones generales de una muestra particular de una población total. Como se mencionó anteriormente, la minería de datos término ha tenido connotaciones negativas en las estadísticas desde la década de 1960 cuando los datos basados en computadoras técnicas de análisis se introdujeron por primera vez. La preocupación surgió porque si uno busca lo suficiente en ningún conjunto de datos (incluso los datos generados al azar), se puede encontrar patrones que parecen ser significativo estadísticamente, pero, de hecho, no lo son. Está claro que este tema es de fundamental importancia para KDD. Se ha avanzado considerablemente en los últimos años en la comprensión de estas cuestiones en las estadísticas. Gran parte de este trabajo es de relevancia directa para KDD. Por lo tanto, la minería de datos es una actividad legítima, siempre y cuando uno entiende cómo hacerlo correctamente; minería de datos llevado a cabo mal (sin tener en cuenta los aspectos estadísticos del problema) es que debe evitarse. KDD también puede ser visto como que abarca una visión más amplia de la modelización de las estadísticas. KDD tiene como objetivo proporcionar herramientas para automatizar (en la medida sea posible) todo el proceso de análisis de datos y el "arte" de la estadística de la selección de hipótesis

. Una fuerza impulsora detrás de KDD es el campo de base de datos (el segundo D en KDD). De hecho, el problema de la manipulación de datos efectiva cuando los datos no caben en la memoria principal es de importancia fundamental de KDD. Base de datos técnicas para el acceso de datos eficiente, agrupar y ordenar las operaciones de procesamiento de datos cuando acciones y consultas optimizando CONSTITUYEN los fundamentos para la ampliación algoritmos para conjuntos de datos grandes. La mayoría de los algoritmos de minería de datos de estadísticas, reconocimiento de patrones y aprendizaje automático asumen los datos están en la principal memoria y no prestan atención a cómo el algoritmo analiza si son posibles sólo vistas limitadas de los datos. Un campo relacionado evolucionando desde las bases de datos es el almacenamiento de datos, que se refiere a la tendencia de negocio popular de recogida y limpieza de datos transaccionales para que estén disponibles para el análisis en línea y soporte de decisiones. El almacenamiento de datos ayuda a establecer el escenario para KDD en dos aspectos importantes: (1) la limpieza de datos y (2) el acceso a datos. Limpieza de datos: Como las organizaciones se ven obligadas a pensar en una vista lógica unificada de la amplia variedad de datos y bases de datos que po- sess, tienen que abordar las cuestiones de los datos de mapeo a una sola convención de nombres, representando y manejo de los datos que faltan de manera uniforme y el ruido de manejo y los errores siempre que sea posible. Acceso a los datos: Uniforme y métodos bien definidos se deben crear para acceder a la datos y proporcionar vías de acceso a los datos que fueron históricamente difícil acceso (por ejemplo, sin conexión almacenada). Una vez que las organizaciones e individuos han resuelto el problema de cómo almacenar y el acceso a sus datos, el siguiente paso natural es la pregunta, ¿Qué más hacemos con todos los datos? Aquí es donde surgen oportunidades de KDD en forma natural. Un enfoque popular para el análisis de los almacenes de datos se llama procesamiento analítico en línea (OLAP), el nombre de un conjunto de principios propuesto por Codd (1993). Herramientas OLAP se centran en proporcionar análisis de datos multidimensional, que es superior a SQL en maries y averías informáticas SUM- lo largo de muchas dimensiones. Herramientas OLAP están dirigidos hacia fying simplificación y apoyar el análisis de datos interactivo, pero la meta de herramientas KDD es automatizar gran parte del proceso como sea posible. Por lo tanto, KDD es un paso más allá de lo que actualmente con el apoyo de la mayoría de los sistemas de bases de datos estándar.

Interpretation / Evaluation Data Mining Figure 1. An Overview of the Steps That Compose the KDD Process. Transformation

Knowledge

Preprocessing Selection

Basic Definitions.

Patterns

KDD es el proceso no trivial de identificación válida, novedosa, potencialmente útil, y en última instancia, los patrones comprensibles en los datos (Fayyad, Piatetsky-Shapiro, y Smyth 1996). Transformed --- --- ----- --- ----- --- ---

Data

Aquí, los datos son un conjunto de hechos Preprocessed (por ejemplo, Data los casos en una base de datos), y el patrón es Target Date Data una expresión en un lenguaje que describe un subconjunto de los datos o de un modelo aplicable al subconjunto. Por lo tanto, en nuestro uso aquí, extraer un patrón también designa ajustar un modelo a los datos; hallazgo ing estructura de datos; o, en general, haciendo que cualquier descripción de alto nivel de un conjunto de datos. El proceso de término implica que KDD comprende muchos pasos, que incluyen la preparación de datos, búsqueda de patrones, la evaluación de conocimientos, y el refinamiento, todo repetido en múltiples iteraciones. Por no trivial, queremos decir que alguna búsqueda o inferencia es involucrado; es decir, no es un cálculo directo de las cantidades predefinidas como calcular el valor promedio de un conjunto de números. Los patrones descubiertos deben ser válidos en nuevos datos con algún grado de certeza. También queremos patrones a ser novela (al menos para el sistema y, preferiblemente, para el usuario) y potencialmente útil, es decir, conducen a algún beneficio para el usuario o tarea. Por último, los patrones deben ser comprensibles, si no inmediatamente después de algún posprocesamiento. La discusión anterior implica que podemos definir medidas cuantitativas para evaluar los patrones extraídos. En muchos casos, es posible para definir las medidas de seguridad (por ejemplo, se estima precisión de la predicción de nuevo de datos) o la utilidad (por ejemplo, ganancia, tal vez en dólares guardan debido a las mejores predicciones o aceleración en el tiempo de respuesta de un sistema). Nociones tales como la novedad y la comprensibilidad son mucho más subjetiva. En ciertos contextos, comprensibilidad puede ser estimado por simplicidad (por ejemplo, el número de bits para describir un patrón). Una idea importante, llamado interestingness (por ejemplo, ver Silberschatz y Tuzhilin [1995] y Piatetsky-Shapiro y Matheus [1994]), se suele tomar como una medida general del valor patrón, combinando validez, novedad, utilidad y

simplicidad. Intereses funciones se pueden defi nir de manera explícita o implícitamente se pueden manifestar a través de un Dering or- colocado por el sistema KDD en los patrones o modelos dis- cubierto. Teniendo en cuenta estos conceptos, podemos considerar un patrón sea el conocimiento si supera un umbral interestingness, que de ninguna manera es un intento de defi nir conocimiento en el fi losófi co o incluso el punto de vista popular. Como cuestión de hecho, el conocimiento en esta defi nición es puramente orientada al usuario y dominio específi co y se determina por cualquier función y umbrales el usuario elige. La minería de datos es un paso en el proceso de KDD que consiste en la aplicación de algoritmos de análisis de datos y descubrimiento de que, en virtud de las limitaciones de efi ciencia computacional aceptables, patrones a menudo es infinita, y la enumeración de los patrones implica alguna forma de búsqueda en este espacio. Limitaciones computacionales prácticas ponen límites severos en el espacio sub-que puede ser explorado por un algoritmo de minería de datos. El proceso KDD implica el uso de la base de datos junto con cualquier selección requerida, preprocesamiento, submuestreo, y las transformaciones de la misma; aplicando métodos de minería de datos (algoritmos) para enumerar los patrones de la misma; y la evaluación de los productos de la minería de datos para identificar el subconjunto de los patrones enumerados considerados conocimiento. El componente de minería de datos del proceso de KDD se ocupa de los medios algorítmicos mediante el cual los patrones se extraen y enumerados de datos. El proceso global KDD (figura 1) incluye la evaluación y posible interpretación de los patrones extraídos para determinar que los patrones pueden ser considerados nuevos conocimientos. El proceso de KDD también incluye todos los pasos adicionales que se describen en la siguiente sección. La noción de un proceso global guiado por el usuario no es única para KDD: pro- puestas análogas se han presentado tanto en las estadísticas (Hand 1994) y en la máquina de aprendizaje (ley Brod- y Smyth 1996).

The KDD Process patrones es a menudo infinito, y la enumeración de los patrones implica alguna forma de búsqueda en este espacio. Limitaciones computacionales prácticas ponen límites severos en el espacio sub-que puede ser explorado por un algoritmo de minería de datos. El proceso KDD implica el uso de la base de datos junto con cualquier selección requerida, preprocesamiento, submuestreo, y las transformaciones de la misma; aplicando métodos de minería de datos (algoritmos) para enumerar los patrones de la misma; y la evaluación de los productos de la minería de datos para identificar el subconjunto de los patrones enumerados considerados conocimiento. El componente de minería de datos del proceso de KDD se ocupa de los medios algorítmicos mediante el cual los patrones se extraen y enumerados de datos. El proceso global KDD (figura 1) incluye la evaluación y posible interpretación de los patrones extraídos para determinar que los patrones pueden ser considerados nuevos conocimientos. El proceso de KDD también incluye todos los pasos adicionales que se describen en la siguiente sección. La noción de un proceso global guiado por el usuario no es única para KDD: pro- puestas análogas se han presentado tanto en las estadísticas (Hand 1994) y en la máquina de aprendizaje (ley Brod- y Smyth 1996). métodos, el número efectivo de las variables en estudio se pueden reducir o representaciones invariante de los datos se pueden encontrar. En quinto lugar está emparejando los objetivos de la KDD proceso (paso 1) a un método de minería de datos en particular. Por ejemplo, el resumen, clasificación, regresión, clustering, y así sucesivamente, se describen más adelante, así como en Fayyad, Piatet- cielo-Shapiro, y Smyth (1996). Sexta es el análisis exploratorio y de modelo y de selección de hipótesis: la elección del algoritmo de minería de datos (s) y la selección de método (s) para ser utilizado para la búsqueda de patrones de datos. Este proceso incluye decidir qué modelos y parámetros podría ser apropiado (por ejemplo, modelos de datos categóricos son diferentes que los modelos de vectores más de los reales) y combinar un método de minería de datos particular, los criterios generales del proceso de KDD ( por ejemplo, el usuario final podría ser más in- TERESADAS en la comprensión del modelo de sus capacidades predictivas). Séptima es la minería de datos: la búsqueda de patrones de interés de una forma representacional en particular o un conjunto de tales representaciones, incluyendo las reglas de clasificación o árboles, la regresión y la agrupación. El usuario puede significativo- mente ayudar al método de minería de datos realizando correctamente los pasos anteriores. Octavo está interpretando patrones minadas, posi- blemente regresar a cualquiera de los pasos 1 a 7 para más iteración. Este paso también puede implicar la visualización de los patrones y modelos extraídos o visualización de los datos dados los modelos extraídos. Novena está actuando en el conocimiento descubierto: directamente utilizando el conocimiento, la calificación incorpora el conocimiento en otro sistema para la acción futura, o simplemente documentarlo e informar a las partes

interesadas. Este proceso también incluye la revisión y resolución de conflictos potenciales con conocimientos creía anteriormente (o extraído). El proceso de KDD puede implicar iteración significativa y puede contener bucles entre cualesquiera dos pasos. El flujo básico de pasos (aunque no la multitud potencial de iteraciones y loops) se ilustra en la figura 1. La mayoría del trabajo anterior sobre KDD se ha centrado en el paso 7, la minería de datos. Sin embargo, los otros pasos son tan importantes (y probablemente más) para la aplicación exitosa de KDD en la práctica. Una vez definidas las nociones básicas e introdujo el proceso de KDD, ahora centramos en el componente de minería de datos, que tiene, por lejos, recibió el la más atención en la literatura.

The Data-Mining Step of the KDD Process

El componente de minería de datos de proceso de la KDD pro- menudo implica repetir la aplicación iterativa de métodos de minería de datos particulares. En esta sección se presenta una visión general de los principales objetivos de la minería de datos, una descripción de los métodos utilizados para hacer frente a estas metas, y una breve descripción de la minería de datos algoritmos que incorporan estos métodos. Los objetivos de descubrimiento de conocimientos se definen por el uso previsto del sistema. Podemos distinguir dos tipos de objetivos: (1) la verificación y (2) el descubrimiento. Con la verificación, el sistema se limita a la verificación de hipótesis del usuario. Con el descubrimiento, el sistema encuentra de manera autónoma nuevos patrones. Nos subdividir aún más el objetivo de descubrimiento en la predicción, en el que el sistema encuentra patrones para predecir el comportamiento futuro de algunas entidades, y la descripción, en el que el sistema encuentra las pautas de presentación a un usuario en una forma humanamente comprensible. En este artículo, estamos principalmente que se trate con la minería de datos de descubrimiento orientada. La minería de datos consiste en el ajuste de modelos a, o que determinan los patrones de, observó datos. Los modelos ajustados desempeñan el papel del conocimiento inferido: Ya sea que los modelos reflejan el conocimiento útil o interesante es parte del exceso de todo, el proceso KDD interactivo donde normalmente se requiere el juicio humano subjetivo. Dos formalismos matemáticos primarios se utilizan en el modelo apropiado: (1) estadística y (2) lógico. El enfoque estadístico permite efectos ministic nondeter- en el modelo, mientras que un modelo de cal lógicamente es puramente determinista. Nos centramos principalmente en el enfoque estadístico para la minería de datos, que tiende a ser la base más utilizado para la minería de datos las aplicaciones prácticas, dada la presencia típica de ty tidumbre en los procesos de generación de datos del mundo real. La mayoría de los métodos de minería de datos se basan en técnicas probadas de aprendizaje automático, reconocimiento de patrones, y las estadísticas: clasificación, agrupación, la regresión, y así sucesivamente. La gama de diferentes algoritmos en cada una de estas partidas a menudo puede ser bewilder- ing para el principiante y el analista de datos con experiencia. Cabe destacar que de los muchos métodos de minería de datos anunciados en la literatura, en realidad sólo hay algunas técnicas fundamentales. La representación del modelo subyacente real siendo utilizado por un método particular típicamente viene de una composición de un pequeño número de las conocidas opciones: polinomios, splines, funciones del núcleo y básicos, funciones de umbral Boolean, y así sucesivamente. Por lo tanto, los algoritmos tienden a diferir Primarschule

o

Debt

o o Figure 2. A Simple Data Set with x Two Classes Used for Illustrative Purposes. o xx x

o

o

o x o

o

x

x

o

o

o

o Income

lia en el criterio de bondad de ajuste se utiliza para evaluar el ajuste del modelo o en el método de búsqueda utilizado para encontrar un buen ajuste. En nuestra breve reseña de data-mining métodos, tratamos en particular, para transmitir la idea de que la mayoría (si no todos) los métodos pueden ser vistos como extensiones o híbridos de unos téc- nicas y principios básicos. En primer lugar, analizaremos los métodos primarios de minería de datos y, a continuación mostramos que los métodos de minería Datapueden ser vistos como que consta de tres componentes principales: algorítmicos (1) representación modelo, (2) la evaluación de modelo, y (3) de búsqueda. En la discusión de la KDD y métodos de minería de datos, utilizamos un ejemplo sencillo de hacer algunas de las nociones más concreto. La Figura 2 muestra una simple establecidos ING consistente en 23 casos, los datos artificiales de dos dimensiones. Cada punto de la gráfica representa una persona que se le ha dado un préstamo por un banco en particular en algún momento en el pasado. El eje horizontal representa el ingreso de la persona; el eje vertical representa la deuda personal total de la persona (hipoteca, pagos del coche, y así sucesivamente). Los datos se han clasificado en dos clases: (1) las x representan envían personas que hayan incumplido sus préstamos y (2) los o representar a personas cuyos préstamos se encuentran en buen estado con el banco. Por lo tanto, este sencillo conjunto de datos artificial podría representar un conjunto de datos históricos que pueden contener conocimientos útiles desde el punto de vista del banco de hacer los préstamos. Tenga en cuenta que en aplicaciones reales KDD, normalmente hay muchas más dimensiones (hasta varios cientos) y muchos más puntos de datos (muchos miles o incluso millones).

Debt

o No Loan

o

x o xx

x x

x

x

x

x o

x o

o

o

o o

o

o

oLoan

o Income

Figure 3. A Simple Linear Classification Boundary for the Loan Data Set. The shaped region denotes class no loan.

Figure 4. A Simple Linear Regression for the Loan Data Set.

The purpose here is to illustrate basic ideas on a small problem in two-dimensional space.

Data-Mining Methods Los objetivos principales de dos de alto nivel de los datos Mining en la práctica tienden a ser la predicción y la descrip- ción. Como se dijo anteriormente, predicción Volves in- utilizando algunas variables o campos en la base de datoso para predecir valores desconocidos o futuras de otras variables Debt de interés, y la descripción se centra en la búsqueda de patrones humanos interpretable que describen los datos. Aunque los límites entreola predicción y la descripción no son nítidas (algunos de los modelos o x de predicción puede ser descriptiva, en la medida en que son comprensibles, y viceversa), la distinción o es útil para comprender la meta o general descubrimiento. La importancia relativa de la predicción y la descripción de las aplicaciones de minería de datos particular puede variar considerablemente ción. Los x xx objetivos de la predicción y la descripción se puede lograr utilizando una variedad de métodos de minería o o de datos particulares. o o Clasificaciónx está aprendiendo una función que mapea (clasifica) un elemento de datos en una de las x clases predefinidas col gravedad (Weiss y Kulikowski 1991; Mano 1981). Ejemplos de métodos de x x clasificación utilizados como parte de las aplicaciones de descubrimiento de conocimiento incluyen la o clasificación de las tendencias en los omercados financieros (Apte y Hong 1996) y la identificación o automática dex objetos de interés en las bases de datos de imágenes de gran tamaño (Fayyad, Djorgovski x o 3 muestra un sencillo de partición de los datos de crédito en dos regiones de y Weir 1996). La Figura clase; en cuenta que no es posible separar las clases perfectamente utilizando un límite de decisión lineal. El banco podría querer usar las regiones Incomede clasificación para decidir automáticamente si los futuros solicitantes de préstamos se les dará un préstamo o no. Regresión está aprendiendo una función que se asigna un elemento de datos a una predicción de valor real variable de. Aplicaciones de regresión son muchas, por ejemplo, la predicción de la cantidad de biomasa presente en un bosque dado mediciones crowave migrantes teledetección, la estimación de la probabilidad de que un paciente sobrevivir dados los resultados de un conjunto de pruebas de diagnóstico, la predicción de la demanda del consumidor para un nuevo producto en función de los gastos de publicidad, y pre series temporales dicting donde las variables de entrada pueden ser versiones de tiempo lag de la variable de predicción. La figura 4 muestra el resultado de regresión lineal simple, donde la deuda total está equipado de una función lineal de la renta: El ajuste es pobre causa ESTÁ el sólo existe una débil correlación entre las dos variables. La agrupación es una tarea descriptiva común

donde se busca identificar un conjunto finito de catego- rías o clusters para describir los datos (Jain y Dubes 1988; Titterington, Smith y Makov 1985). Las categorías pueden ser mutuamente excluyentes y exhaustivas o consistir en una representación más rica, como jerárquicos o sobre- categorías esmerilado. Ejemplos de agrupación de aplicaciones en un contexto de descubrimiento de conocimiento incluyen el descubrimiento de subpoblaciones homogéneas para los consumidores en las bases de datos de marketing y la identificación de subcategorías de espectros a partir de mediciones cielo infrarrojos (Cheeseman y Stutz 1996). La Figura 5 muestra una posible clustering de los datos de préstamos establecidos en tres grupos; tenga en cuenta que los grupos se superponen, lo que permite puntos de datos que pertenecen a más de un grupo. Las etiquetas de clase originales (denotados por x los o en las figuras anteriores) han sido sustituidos por un + para indicar que la pertenencia a una clase ya no se supone conocido. Estrechamente relacionada con la agrupación es la tarea de estimación de densidad de probabilidad, que consiste en técnicas para estimar a partir de datos de la función de densidad de probabilidad conjunta multivariante de todas las ables o campos variación en la base de datos (Silverman 1986). Recapitulación implica métodos para encontrar una descripción compacta para un subconjunto de datos. Un ejemplo sencillo sería tabular las desviaciones media y estándar para todos los campos. Métodos más sofisticados implican la derivación de reglas de resumen (Agrawal et al. 1996), técnicas de visualización multivariantes, y el descubrimiento de las relaciones funcionales entre las variables (Zembowicz y Zytkow 1996). Técnicas de integración se aplican a menudo a análisis exploratorio de datos interactivo y generación de informes automatizados. Dependencia de modelado consiste en encontrar un modelo que describe dependencias significativas entre las variables. Existen modelos de dependencia en dos niveles: (1) el nivel estructural de las especifica modelo (a menudo en forma gráfica) que las variables son locales dependientes entre sí y (2) el nivel cuantitativo del modelo especifica los puntos fuertes de las dependencias que utilizan algunos numérico escala. Por ejemplo, las redes de dependencia probabilistas utilizan acondicionamiento al independencia para especificar el as- pecto estructural del modelo y probabilidades o correlaciones para especificar los puntos fuertes de las pendencias de- (Glymour et al 1987;. Heckerman 1996). Redes de dependencia probabilísticos están encontrando cada vez más aplicaciones en áreas tan diversas como el desarrollo de sistemas expertos médicos probabilísticos de bases de datos, recuperación de información, y el modelado del genoma humano.Change and deviation detection focuses on

Cluster 2

+

Debt

+ Cluster 1 Three Clusters. Figure 5. A Simple Clustering+ of the Loan Data + Set into + Note that original labels are+ replaced by a +. +

++ +

+

+

+

+

+ + de los cambios el descubrimiento más significativos en los datos de los valores tivos previamente medidos o normativo + + + Kloesgen 1996; Matheus, Piatetsky-Shapiro y McNeill 1996; Basseville y (Berndt y Clifford 1996; Guyon, Matic, +y Vapnik 1996; Cluster 3 + Nikiforov 1993).+ + Los componentes de Data-Mining Algoritmos El siguiente paso es la construcción de algoritmos específicos para poner en práctica los métodos generales que hemos Income esbozado. Se pueden identificar tres componentes principales de cualquier algoritmo de minería de datos: (1) la representación de modelos, (2) modelo de evalua- ción, y (3) la búsqueda. Esta visión reduccionista no es necesariamente completa o totalmente lo abarca; más bien, es una forma conveniente de expresar los conceptos clave de algoritmos de minería de datos de una manera relativamente unificada y compacta. Cheeseman (1990) describe una estructura similar.

Representación Modelo es el lenguaje utilizado para describir los patrones detectables. Si la representación es demasiado limitado, entonces ninguna cantidad de tiempo de entrenamiento o ejemplos puede producir un modelo de cura acción para los datos. Es importante que un analista de datos comprender plenamente los supuestos representacional que pudieran ser inherentes en un método particular. Es igualmente importante que un diseñador de algoritmo establece claramente que los supuestos de representación se realizan mediante un algoritmo especial. Tenga en cuenta que aumentó el poder de representación para los modelos aumenta el riesgo de sobreajuste los datos de entrenamiento, lo que resulta en la reducción de precisión de la predicción en los datos que no se ven. Criterios del Modelo-evaluación son cuantitativos

Debt

o No Loan

o

x

o

Figure 6. Using a Single Threshold on the Income Variable to Try to Classify the Loan Data Set. o o

xx

x

x

o x

o

o

x o

x

o

o

oLoan

declaraciones (o funciones de ajuste) de lo bien un patrón particular (un modelo y sus parámetros) cumple con los objetivos x x o del proceso de KDD. Por ejemplo, los modelos predictivos a menudo son juzgados por la precisión de la predicción empírica sobre algún conjunto de prueba. Modelos descriptivos pueden ser evaluados a lo largo de las dimensiones de la exactitud de Income t predicción, novedad, utilidad y comprensibilidad del modelo ajustado. Método de búsqueda consta de dos componentes: (1) la búsqueda de parámetros y (2) Búsqueda de modelo. Una vez que el modelo de representación (o familia de representaciones) y los criterios de evaluación de modelo son fijos, entonces el problema de minería de datos se ha reducido a una tarea puramente la optimización: Encuentra los parámetros y modelos de la familia seleccionada que optimizan la criterios de evaluación. En la búsqueda de parámetros, el algoritmo debe buscar los parámetros que optimizan los criterios modelo de evaluación dados los datos observados y un modelo fijo repre- sentación. Búsqueda Modelo se produce como un bucle sobre el método parámetro de búsqueda: Se cambia la representación modelo para que una familia de modelos se considera.

Some Data-Mining Methods Una amplia variedad de métodos de minería de datos existe, pero aquí, sólo se centran en un subconjunto de las técnicas lar poblaciones. Cada método se discute en el contexto de la representación de modelos, evaluación del modelo y de búsqueda.Decision Trees and Rules Los árboles de decisión y reglas que utilizan divisiones univariados tienen una forma de representación sencilla, por lo que el modelo inferido relativamente fácil para el usuario a comprender. Sin embargo, la restricción a una representación de árbol o regla particular puede restringir significativamente la forma funcional (y, por lo tanto, la potencia de aproximación) del modelo. Por ejemplo, la figura 6 ilustra el efecto de una fracción de umbral aplicado a la variable de ingresos para un conjunto de datos de préstamo: Está claro que US- ing tales divisiones umbral simples (paralelo a los ejes de función) limita severamente el tipo de límites de clasificación que puede ser inducida. Si uno amplía el espacio modelo para permitir expresiones más generales (como hiperplanos multivariados en ángulos arbitrarios), entonces el modelo es más poderoso para la predicción, pero puede ser mucho más difícil de comprender. Un gran número de algoritmos de árboles de decisión y de reglas de inducción se describen en el aprendizaje de máquina y aplica la literatura estadísticas (Quinlan 1992; Breiman et al., 1984). En gran medida, dependen de métodos modelo de evaluación basado en la verosimilitud, con diferentes grados de sofisticación en términos de penalizar la complejidad del modelo. Métodos de búsqueda codiciosos, que implican crecimiento y deshoje ing estructuras de reglas y de los árboles, se suelen utilizar para explorar el espacio superexponential de los modelos posibles. Los árboles y las reglas se utilizan principalmente para el modelado predictivo, tanto para la clasificación (Apte y Hong 1996; Fayyad, Djorgovski y Weir 1996) y la regresión, aunque también se pueden aplicar a la modelización descriptiva resumen (. Agrawal et al 1996). Regresión no lineal y métodos de clasificación

Estos métodos consisten en una familia de técnicas para la predicción de que se ajusten a las combinaciones lineales y no lineales de funciones de base (sigmoids, splines, polinomios) a combinaciones de las variables de entrada. Algunos ejemplos son las redes neuronales retroalimentación hacia adelante, métodos spline adaptativas y de regresión búsqueda proyección (ver Elder y Pregibon [1996], Cheng y Titterington [1994], y Friedman [1989] para las discusiones más detalladas). Considere las redes neuronales, por ejemplo. La Figura 7 ilustra el tipo de decisión límite no lineal que una red neuronal podría encontrar para el conjunto de datos de préstamo. En cuanto a la evaluación del modelo, aunque las redes de tamaño adecuado universalmente pueden aproximar cualquier función sin problemas a cualquier grado deseado de exactitud, se sabe relativamente poco acerca de las propiedades de representación de redes de tamaño fijo estimados a partir de conjuntos de datos finitos. Además, el estándar de error al cuadrado y

funciones de pérdida de entropía cruzada utilizados para entrenar las redes neuronales pueden ser vistos como funciones de registro de probabilidad de campana para la regresión y clasificación, respectivamente (Ripley 1994; Gehombre, Bienenstock, y Doursat 1992). Propagación hacia atrás es un método de búsqueda de parámetro que realiza descenso de gradiente en el parámetro (peso) espacio para encontrar un máximo local de la función de probabilidad a partir de las condiciones iniciales aleatorias. Regresión métodos no lineales, aunque poderosa en el poder de representación, pueden ser difíciles de interpretar. Por ejemplo, aunque los límites de clasificación de la figura 7 podrían ser más precisa que la simple limítrofe del umbral de la figura 6, el límite umbral tiene la ventaja de que el modelo se puede expresar, a un cierto grado de certeza, como una regla simple de la forma "si el ingreso es mayor que el umbral, entonces préstamo tendrá un buen estado." Métodos Ejemplo-Basado La representación es simple: Uso representantes ejemplos tivos de la base de datos a aproximada- compañero un modelo; es decir, las predicciones sobre nuevos ejemplos se derivan de las propiedades de ejemplos similares en el modelo cuya predicción se conoce. Las técnicas incluyen la clasificación nearest- vecino y regresión algoritmos (Dasarathy 1991) y los sistemas de razonamiento basado en casos (Kolodner 1993). La figura 8 ilustra el uso de sifier un vecino más cercano ficación para el conjunto de datos de préstamos: La clase en cualquier nuevo punto en el espacio de dos dimensiones es la misma que la clase del punto más cercano en el conjunto de datos de entrenamiento originales. Una desventaja potencial de los métodos basados en el ejemplo-(en comparación con los métodos basados en los árboles) es que una distancia métrica bien definida para eva- uating la distancia entre puntos de datos es ne- cesarias. Para los datos de préstamos en la figura 8, esto no sería un problema porque los ingresos y la deuda se miden en las mismas unidades. Obs- tante, si se quisiera incluir variables como la duración del préstamo, sexo y profesión, entonces se requeriría un mayor esfuerzo para definir una métrica razonable entre las variables. Modelo de evaluación se basa típicamente en las estimaciones de validación cruzada (Weiss y Kulikowski 1991) de un error de predicción: Los parámetros del modelo a estimar puede incluir el número de vecinos que se utilizará para la predicción y la propia métrica distancia. Al igual que los métodos de regresión no lineales, métodos basados ejemplo, a menudo son asintóticamente poderosa en términos de propiedades aproximación, pero, por el contrario, puede ser difícil de interpretar porque el modelo está implícita en los datos y no explícitamente ed formu-. Técnicas relacionadas incluyen kernel densidad

Debt

o No Loan

o

o x Figure 7. An Example of Classification Boundaries Learned by a Nonlinear Classifier (Such as a Neural o Network) for the Loan Data Set. o x

xx

x x

x

x

x

o

o

o x

o

o

o

oLoan

o Income

o Debt

No Loan

o for a Nearest-Neighbor Figure 8. Classification xBoundaries Classifier for the Loan Data Set. o o

o

x

xx

x x

x

x

x

o

o

o x

o

o

o

oLoan

o Income

Understanding data mining and model induction at this component level clarifies the behavior of any data-mining algorithm and makes it easier for the user to understand its overall contribution and applicability to the KDD process. estimation (Silverman 1986) and mixture modeling (Titterington, Smith, and Makov 1985).

Probabilistic Graphic Dependency Models Los modelos gráficos probabilísticos especifican dependencias utilizando una estructura gráfica (Whittaker 1990; Perla 1988). En su forma más simple, el modelo especifica qué variables son directamente dependientes entre sí. Normalmente, se utilizan estos modelos con variables categóricas o discretas valioso, pero extensiones a casos especiales, como las densidades de Gauss, para las variables con valores reales también son posibles. Dentro de las comunidades de IA y estadísticos, estos modelos fueron desarrollados inicialmente en el marco de los sistemas expertos probabilísticos; la estructura del modelo y los parámetros (las probabilidades condicionales unidos a los enlaces de la gráfica) eran ed elicitde los expertos. Recientemente, ha sido un trabajo significativo, tanto en la IA y las comunidades estadísticos sobre métodos por los cuales tanto la estructura como los parámetros de modelos gráficos se pueden aprender directamente de las bases de datos (Buntine 1996; Heckerman 1996). Criterios del Modelo-evaluación son normalmente bayesiana en la forma, y la estimación de parámetros pueden ser una mezcla de las estimaciones de forma cerrada y métodos iterativos en función de si una variable se observa o se oculta directamente. Búsqueda de modelo puede constar de métodos bajadas codiciosos más diversas estructuras de gráficos. El conocimiento previo, como una ordenación parcial de las variables sobre la base de las relaciones causales, puede ser útil en términos de, reduciendo los grandes espacio de búsqueda del modelo. Aunque todavía principalmente en la fase de investigación, métodos modelo de inducción gráficos son de particular interés para KDD porque la forma gráfica del modelo se presta fácilmente a la interpretación humana.

Relational Learning Models Aunque los árboles de decisión y reglas tienen una representación limitada a la lógica proposicional, el aprendizaje relacional (también conocida como la programación lógica inductiva) utiliza el lenguaje de patrones más flexible de la lógica de primer orden. Una er aprendizaje relacional puede encontrar fácilmente fórmulas tales como X = Y. mayoría de la investigación hasta la fecha sobre los métodos de modelo de evaluación para el aprendizaje relacional es lógico en la naturaleza. El poder de representación adicional de los modelos relacionales viene en el precio de las demandas computacionales significativos en términos de búsqueda. Ver Dzeroski (1996) para una discusión más detallada.

Discussion Given the broad spectrum of data-mining methods and algorithms, our overview is

in-

inevitablemente limitada en su alcance; muchas técnicas de minería de datos, en particular los métodos especializados para determinados tipos de datos y dominios, no se mencionan específicamente. Creemos que la discusión general sobre las tareas y los componentes de minería de datos tiene importancia general para una variedad de métodos. Por ejemplo, considere la predicción tiempo- serie, que tradicionalmente ha sido elegida como una tarea de regresión predictiva (aumodelos toregressive, y así sucesivamente). Recientemente, los modelos más generales se han desarrollado para aplicaciones de series de tiempo, tales como funciones no lineales Ba- sis, modelos basados ejemplo-y métodos kernel. Además, ha habido un interés significativo en el modelado de datos descriptiva gráfico y local de series de tiempo en lugar de meramente modelado predictivo (Weigend y Gershenfeld 1993). Así pues, aunque diferentes algoritmos y aplicaciones pueden aparecer diferente en la superficie, no es raro encontrar que comparten muchos componentes comunes. La comprensión de la minería de datos y el modelo de inducción en este nivel de componente aclara el comportamiento de cualquier algoritmo de minería de datos y hace que sea más fácil para el usuario para comprender su contribución general y aplicabilidad al proceso KDD. Un punto importante es que cada técnica típicamente se adapte a algunos problemas mejor que otros. Por ejemplo, los clasificadores de árboles de decisión pueden ser útiles para la búsqueda de la estructura en espacios dimensionales de alto di- y en problemas con los datos continuos y categóricos mixtos (métodos de árboles causa ESTÁ el no requieren distancia métrica). Sin embargo, los árboles de clasificación podría no ser adecuado para problemas donde los verdaderos límites de decisión entre las clases se de- delimitado por un polinomio de segundo orden (por ejemplo). Por lo tanto, no existe un método Ing-minería de datos universal, y la elección de un algoritmo particular para una aplicación en particular es algo de un arte. En la práctica, una gran parte de los esfuerzos de aplicación puede ir a formular correctamente el problema (haciendo la pregunta derecha) en lugar de en la optimización de los detalles gorithmic al- de un método de minería de datos en particular (Langley y Simon 1995; Mano 1994). Debido a que nuestra discusión y visión general de DA métodos ta-minera ha sido breve, queremos hacer dos observaciones importantes clara: En primer lugar, nuestra visión general de búsqueda automatizada FO centró principalmente en métodos automatizados para patrones Contratantes ex o modelos de datos. Si bien este enfoque es coherente con la definición que dimos anteriormente, no necesariamente representan lo que otras comunidades podrían referirse como la minería de datos. Por ejemplo, algunos usan el término para designar a cualquier manual de Búsqueda de los datos o buscar la ayuda de las consultas a un sistema de gestión de base de datos o para referirse a seres humanos visualizar patrones en los datos. En otras comunidades, se utiliza para referirse a la correlación automática de los datos de las transacciones o la generación automática de informes de transacción. Elegimos a centrarse sólo en los métodos que contienen ciertos grados de búsqueda de autonomía. En segundo lugar, ten cuidado con el bombo: El estado de la técnica en métodos automatizados en la minería de datos se encuentra todavía en una fase bastante temprana de desarrollo. No hay criterios establecidos para decidir qué métodos utilizar en los que circunstancias posturas, y muchos de los enfoques se basa en aproximaciones heurísticas crudo para evitar la búsqueda caro necesario para encontrar soluciones óptimas, o incluso buenas,. Por lo tanto, el lector debe tener cuidado cuando se enfrentan a reclamaciones exageradas sobre la gran capacidad de un sistema para extraer información útil de grandes (o incluso pequeñas) las bases de datos.

Application Issues

Para un estudio de las aplicaciones KDD así como ejemplos detallados, ver Piatetsky-Shapiro et al. (1996) para aplicaciones industriales y Fayyad, Haussler y Stolorz (1996) para aplicaciones en el análisis de datos ciencia. Aquí, examinamos los criterios para la selección de posibles aplicaciones, que se pueden dividir en práctica y tecno- categorías nicos. Los criterios prácticos para proyectos KDD son similares a los de otras aplicaciones de tecnología avanzada e incluyen el impacto potencial de una aplicación, la ausencia de soluciones alternativas más simples, y un fuerte apoyo de la organización para el uso de la tecnología. Para las aplicaciones que tratan con datos col-persona, también hay que tener en cuenta las cuestiones de privacidad y legales (Piatetsky-Shapiro 1995). Los criterios técnicos incluyen consideraciones tales como la disponibilidad de datos suficientes (casos). En general, los más campos allí son los más complejos y los patrones se buscan, se necesitan más datos. Sin embargo, fuerte conocimiento previo (véase la discusión más adelante) puede reducir el número de casos necesarios significativamente. Otra consideración es la relevancia de los atributos. Es importante contar con datos atributos que son relevantes para la tarea de descubrimiento; ninguna cantidad de datos permitirá la predicción basada en atributos que no captan la información requerida. Por otra parte, los niveles de ruido bajos (errores pocos datos) son otra consideración. Altas cantidades de ruido hacen que sea difícil de identificar patrones a menos que un gran número de casos puede mitigar el ruido aleatorio y ayudar a aclarar los patrones agregados. Cambiar y tiempo-datos orientadas, aunque lo que el desarrollo de aplicación más difícil, lo convierten potencialmente mucho más útil porque es más fácil de reciclar un sistema que un ser humano. Por último, y tal vez una de las consideraciones más importantes, es el conocimiento previo. Es útil saber algo sobre el dominio -lo que son los campos importantes, ¿cuáles son las probables relaciones, ¿cuál es la utilidad de usuario función de, lo que los patrones son ya conocidos, y así sucesivamente. Investigación y aplicación Desafíos esbozamos algunos de los recursos de búsqueda y aplicaciones principales desafíos actuales para la KDD. Esta lista es de ninguna manera exhaustiva y tiene por objeto dar al lector una idea de los tipos de problemas que los practicantes KDD luchan con. Las bases de datos más grandes: Bases de datos con cientos de campos y tablas y millones de discos y de un tamaño multigigabyte son comunes, y terabyte (1012 bytes) bases de datos están empezando a aparecer. Los métodos para hacer frente a grandes volúmenes de datos incluyen algoritmos más eficientes (Agrawal et al., 1996), el muestreo, la aproximación y el procesamiento paralelo masivo (Holsheimer et al. 1996). Alta dimensionalidad: No sólo hay diez OF- un gran número de registros en la base de datos, pero puede ser también un gran número de campos (atributos, variables); Por lo tanto, la dimensionalidad del problema es alta. Un conjunto de datos de alta dimensión crea problemas en términos de creciente ing el tamaño del espacio de búsqueda para el modelo de inducción de manera combinatoria explosivo. Además, aumenta las posibilidades de que un algoritmo de minería de datos se encuentran los patrones espurios que no son válidos en general. Enfoques a este problema incluyen métodos para reducir la dimensionalidad efectiva del problema y el uso de conocimientos previos para identificar las variables irrelevantes. Sobreajuste: Cuando el algoritmo de búsqueda de los mejores parámetros para un modelo particular utilizando un conjunto limitado de datos, se pueden cionar modelo no sólo los patrones generales en los datos, sino también cualquier ruido específicas para el conjunto de datos, lo que resulta en un rendimiento de la modelo de datos de prueba. Las posibles soluciones incluyen la validación cruzada, regularización, y otras estrategias estadísticos sofisticados. Evaluación de la significación estadística: Un problema (relacionado con overfitting) se produce cuando el sistema está buscando lo largo de muchos modelos posibles. Por ejemplo, si un sistema de pruebas de modelos en el nivel de significación 0,001, a continuación, en promedio, con datos puramente al azar, N / 1.000 de estos modelos será aceptado como significativo.

Este punto es frecuentemente extrañado por muchos intentos iniciales de KDD. Una manera de hacer frente a este problema es utilizar métodos que ajustan la estadística de prueba como una función de la búsqueda, por ejemplo, ajustes de Bonferroni para pruebas independientes o pruebas de aleatorización. Cambio de datos y conocimientos: los datos rápidamente cambiantes (no estacionarios) pueden hacer pre viamente patrones descubiertos válido. Además, las variables medidas en una base de datos de aplicación dada se pueden modificar, eliminar o aumentadas con nuevas mediciones en el tiempo. Las posibles soluciones incluyen métodos incrementales para la actualización de los patrones y tratamiento ing cambio como una oportunidad para el descubrimiento, al usarla para una escucha de la búsqueda de patrones de cambio única (Matheus, Piatetsky-Shapiro y McNeill 1996). Ver también Agrawal y Psaila (1995) y Mannila, Toivonen, y Verkamo (1995). Los datos que faltan y ruidoso: Este problema es especialmente agudo en las bases de datos comerciales. Los datos del censo de Estados Unidos según los informes, tienen tasas de error tan grande como 20 por ciento en algunos campos. Atributos importantes pueden faltar si la base de datos no se diseñó con el descubrimiento en mente. Las posibles soluciones incluyen estrategias estadísticos más sofisticados para identificar las variables y dependencias ocultas (Heckerman 1996; Smyth et al., 1996). Relaciones complejas entre campos: atributos o valores jerárquicamente estructurados, las relaciones entre los atributos y los medios más sofisticado para representar el conocimiento sobre el contenido de una base de datos se re- algoritmos Quire que pueden utilizar de manera efectiva dicha información. Históricamente, los algoritmos de minería de datos se han desarrollado para simples registros homenaje valor At-, aunque se están desarrollando nuevas técnicas para derivar las relaciones entre las variables (Dzeroski 1996; Djoko, Cook, y Holder 1995). Comprensibilidad de los patrones: En muchas aplicaciones, es importante hacer los descubrimientos más comprensible por los seres humanos. Las posibles soluciones incluyen las gráficas representaciones (Buntine 1996; Heckerman 1996), estructuración regla, la generación de lenguaje natural, y las técnicas para la visualización de datos y conocimientos. Estrategias Rulerefinement (por ejemplo, el mayor y Mangano [1995]) se pueden utilizar para hacer frente a un problema relacionado: El conocimiento descubierto podría ser implícita o explícitamente redundante. La interacción del usuario y el conocimiento previo: Muchos métodos y herramientas actuales KDD no son verdaderamente interactivo y no pueden incorporar fácilmente tasa conocimiento previo acerca de un problema, excepto en formas simples. El uso de conocimientos de dominioborde es importante en todos los pasos del proceso de KDD. Enfoques bayesianos (por ejemplo, Cheeseman [1990]) utilizan probabilidades previas más datos y distribuciones como una forma de conocimiento previo de codificación en-. Otros emplean las capacidades de base de datos deductiva para descubrir conocimiento que luego se utiliza para guiar la búsqueda data-extracción (por ejemplo, Simoudis, Livezey y Kerber [1995]). Integración con otros sistemas: un sistema de descubrimiento autónomo podría no ser muy útil. Problemas de integración típicas incluyen la integración con un sistema de gestión de base de datos (por ejemplo, a través de una interfaz de consulta), inte- gración con hojas de cálculo y herramientas de visualización y servicial de lecturas de los sensores en tiempo real. Ejemplos de sistemas integrado KDD ma se describen por Simoudis, Livezey, y Kerber (1995) y Stolorz, Nakamura, BIAM Mesro-, Muntz, Shek, Santos, Yi, Ng, Chien, Mechoso, y Farrara (1995).Concluding Remarks:

The Potential Role of AI in KDD

Además de la máquina de aprendizaje, otros campos de IA potencialmente pueden contribuir significativamente a diversos aspectos del proceso de KDD. Nos men- cionar algunos ejemplos de estas áreas aquí: El lenguaje natural presenta oportunidades significativas para la minería en el texto de forma libre, especialmente para la anotación automática e indexación antes de la clasificación de los corpus textuales. Capacidades de análisis limitados pueden ayudar considerablemente en la tarea de decidir lo que se refiere a un artículo. Por lo tanto, el espectro de lo simple procesamiento del lenguaje natural todo el camino a la comprensión del lenguaje puede ayudar considerablemente. Además, el procesamiento del lenguaje tural ural puede contribuir de manera significativa como una interfaz eficaz para consejos ING dísticas a algoritmos de minería y visualización y conocimientos explicando obtenidas por un sistema de KDD. Planificación considera un complicado proceso de análisis de datos. Se trata de la realización de operaciones de DATAACCESS y transformación de datos complicados comunidades; la aplicación de rutinas de preprocesamiento; y, en algunos casos, el pago de la atención al recurso y los datos de acceso limitaciones. Típicamente, los pasos de procesamiento de datos se expresan en términos de poscondiciones y precondiciones deseados para la aplicación de ciertas rutinas, que se presta fácilmente a la representación como un problema de planificación. Además, la capacidad puede jugar un papel importante en agentes automatizados (ver siguiente punto) para recoger muestras de datos o realizar una búsqueda de la planificación para obtener conjuntos de datos necesarios. Los agentes inteligentes pueden ser despedidos fuera de coleccionar información necesaria de una variedad de fuentes. Además, los agentes de información se pueden activar remotamente a través de la red o pueden desencadenar sobre la ocurrencia de un evento determinado y empezar una

operación de análisis. Por último, los agentes pueden ayudar a navegar y modelar el World-Wide Web (Etzioni, 1996), otra zona de cultivo en importancia. La incertidumbre en la IA incluye temas de gestión de la incertidumbre, meca- nismo de inferencia apropiada en presencia de incertidumbre, y el razonamiento acerca de la causalidad, todos fundamentales para la teoría y la práctica KDD. De hecho, la conferencia KDD-96 tuvo una sesión conjunta con la conferencia de la AUI-96 este año (Horvitz y Jensen 1996). Representación del conocimiento incluye tologies On-, nuevos conceptos para representar, almacenar y acceder al conocimiento. También se incluyen los esquemas para representar el conocimiento y permitiendo el uso del conocimiento humano previo sobre el proceso subyacente por la KDD sistema. Estas contribuciones potenciales de AI no son más que una muestra; muchos otros, incluyendo la interacción humanoordenador, técnicas de adquisición de conocimiento, y el estudio de los mecanismos de razonamiento, tienen la oportunidad de contribuir a la KDD. En conclusión, presentamos algunas definiciones de nociones básicas en el campo de KDD. Nuestro principal objetivo era aclarar la relación entre el descubrimiento de conocimiento y minería de datos. Hemos proporcionado una visión general del proceso de KDD y métodos de minería de datos básicos. Dado el amplio espectro de métodos de minería de datos y algoritmos, nuestra visión general es inevitablemente limitado en su alcance: Hay muchas técnicas de minería de datos, en particular los métodos especializados para determinados tipos de datos y de dominio. Aunque varios algoritmos y aplicaciones pueden aparecer muy diferente en la superficie, no es raro encontrar que comparten muchos componentes comunes. La comprensión de la minería de datos y el modelo de inducción en este nivel de componente aclara la tarea de cualquier algoritmo de minería de datos y hace que sea más fácil para el usuario entienda su contribución general y aplicabilidad en el proceso KDD. Este artículo representa un paso hacia un marco común que esperamos que en última instancia, proporcionar una visión unificadora de los objetivos generales comunes y métodos utilizados en KDD. Esperamos que con el tiempo dará lugar a una mejor comprensión de la diversidad de enfoques en este campo multidisciplinario y cómo encajan juntos. Agradecimientos Damos las gracias a Sam Uthurusamy, Ron Brachman y KDD96 árbitros por sus valiosas sugerencias e ideas. Note 1. Throughout this article, we use the term pattern to designate a pattern found in data. We also refer to models. One can think of patterns as compo- nents of models, for example, a particular rule in a classification model or a linear component in a regression model.

References Agrawal, R., and Psaila, G. 1995. Active Data Min- ing. In Proceedings of the First International Con- ference on Knowledge Discovery and Data Mining (KDD-95), 3–8. Menlo Park, Calif.: American Asso- ciation for Artificial Intelligence. Agrawal, R.; Mannila, H.; Srikant, R.; Toivonen, H.; and Verkamo, I. 1996. Fast Discovery of Association Rules. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 307–328. Menlo Park, Calif.: AAAI Press. Apte, C., and Hong, S. J. 1996. Predicting Equity Returns from Securities Data with Minimal Rule Generation. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy, 514–560. Menlo Park, Calif.: AAAI Press. Basseville, M., and Nikiforov, I. V. 1993. Engle- wood Cliffs, N.J.: Prentice Hall.

Detection of Abrupt Changes: Theory and Application.

Berndt, D., and Clifford, J. 1996. Finding Patterns in Time Series: A Dynamic Programming Approach. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 229–248. Menlo Park, Calif.: AAAI Press. Berry, J. 1994. Database Marketing. Business Week, September 5, 56–62. Brachman, R., and Anand, T. 1996. The Process of Knowledge Discovery in Databases: A Human-Cen- tered Approach. In Advances in Knowledge Discovery and Data Mining, 37–58, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy. Menlo Park, Calif.: AAAI Press. Breiman, L.; Friedman, J. H.; Olshen, R. A.; and Stone, C. J. 1984. Classification and Regression Trees. Belmont, Calif.: Wadsworth. Brodley, C. E., and Smyth, P. 1996. Applying Clas- sification Algorithms in Practice. Statistics and Computing. Forthcoming. Buntine, W. 1996. Graphical Models for Discover- ing Knowledge. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky- Shapiro, P. Smyth, and R. Uthurusamy, 59–82. Menlo Park, Calif.: AAAI Press.

Cheeseman, P. 1990. On Finding the Most Probable Model. In Computational Models of Scientific Discov- ery and Theory Formation, eds. J. Shrager and P. Lan- gley, 73–95. San Francisco, Calif.: Morgan Kauf- mann. Cheeseman, P., and Stutz, J. 1996. Bayesian Clas- sification (AUTOCLASS): Theory and Results. In Advances in Knowledge Discovery and Data Mining, eds.

U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 73–95. Menlo Park, Calif.: AAAI Press. Cheng, B., and Titterington, D. M. 1994. Neural Networks—A Review from a Statistical Perspective. Statistical Science 9(1): 2–30. Codd, E. F. 1993. Providing OLAP (On-Line Analytical Processing) to User-Analysts: An IT Mandate. E. F. Codd and Associates. Dasarathy, B. V. 1991. Nearest Neighbor (NN) Norms: NN Pattern Classification Techniques. Washington, D.C.: IEEE Computer Society. Djoko, S.; Cook, D.; and Holder, L. 1995. Analyzing the Benefits of Domain Knowledge in Substructure Discovery. In Proceedings of KDD-95: First International Conference on Knowledge Discovery and Data Mining, 75–80. Menlo Park, Calif.: American Association for Artificial Intelligence. Dzeroski, S. 1996. Inductive Logic Programming for Knowledge Discovery in Databases. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 59–82. Menlo Park, Calif.: AAAI Press. Elder, J., and Pregibon, D. 1996. A Statistical Perspective on KDD. In Advances in Knowledge Discov- ery and Data Mining, eds. U. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy, 83–116. Menlo Park, Calif.: AAAI Press. Etzioni, O. 1996. The World Wide Web: Quagmire or Gold Mine? Communications of the ACM (Special Issue on Data Mining). November 1996. Forthcom- ing. Fayyad, U. M.; Djorgovski, S. G.; and Weir, N. 1996. From Digitized Images to On-Line Catalogs: Data Mining a Sky Survey. AI Magazine 17(2): 51–66. Fayyad, U. M.; Haussler, D.; and Stolorz, Z. 1996. KDD for Science Data Analysis: Issues and Examples. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), 50–56. Menlo Park, Calif.: American Association for Artificial Intelligence. Fayyad, U. M.; Piatetsky-Shapiro, G.; and Smyth, P. 1996. From Data Mining to Knowledge Discovery: An Overview. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky- Shapiro, P. Smyth, and R. Uthurusamy, 1–30. Men- lo Park, Calif.: AAAI Press. Fayyad, U. M.; Piatetsky-Shapiro, G.; Smyth, P.; and Uthurusamy, R. 1996. Advances in Knowledge Dis- covery and Data Mining. Menlo Park, Calif.: AAAI Press. Friedman, J. H. 1989. Multivariate Adaptive Regression Splines. Annals of Statistics 19:1–141. Geman, S.; Bienenstock, E.; and Doursat, R. 1992. Neural Networks and the Bias/Variance Dilemma. Neural Computation 4:1–58. Glymour, C.; Madigan, D.; Pregibon, D.; and Smyth, P. 1996. Statistics and Data Mining. Communications of the ACM (Special Issue on Data Min- ing). November 1996. Forthcoming. Glymour, C.; Scheines, R.; Spirtes, P.; Kelly, K. 1987.

Discovering Causal Structure. New York: Academic.

Guyon,

O.;

Matic, N.; and Vapnik, N. 1996. Discov-

ering Informative Patterns and Data Cleaning. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. PiatetskyShapiro, P. Smyth, and R. Uthurusamy, 181–204. Menlo Park, Calif.: AAAI Press. Hall, J.; Mani, G.; and Barr, D. 1996. Applying Computational Intelligence to the Investment Pro- cess. In Proceedings of CIFER-96: Computational Intelligence in Financial Engineering. Washington, D.C.: IEEE Computer Society. Hand, D. J. 1994. Deconstructing Statistical Ques- tions. Journal of the Royal Statistical Society A. 157(3): 317–356. Hand, D. J. 1981. Discrimination and Classification. Chichester, U.K.: Wiley. Heckerman, D. 1996. Bayesian Networks for Knowl- edge Discovery. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky- Shapiro, P. Smyth, and R. Uthurusamy, 273–306. Menlo Park, Calif.: AAAI Press. Hernandez, M., and Stolfo, S. 1995. The MERGE - PURGE Problem for Large Databases. In Proceedings of the 1995 ACM-SIGMOD Conference, 127–138. New York: Association for Computing Machinery. Holsheimer, M.; Kersten, M. L.; Mannila, H.; and Toivonen, H. 1996. Data Surveyor: Searching the Nuggets in Parallel. In Advances in Knowledge Dis- covery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 447–471. Menlo Park, Calif.: AAAI Press. Horvitz, E., and Jensen, F. 1996. Proceedings of the Twelfth Conference of Uncertainty in Artificial Intelli- gence. San Mateo, Calif.: Morgan Kaufmann. Jain, A. K., and Dubes, R. C. 1988. Algorithms for Clustering Data. Englewood Cliffs, N.J.: Prentice- Hall.

Kloesgen, W. 1996. A Multipattern and Multistrategy Discovery Assistant. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatet- sky-Shapiro, P. Smyth, and R. Uthurusamy, 249–271. Menlo Park, Calif.: AAAI Press. Kloesgen, W., and Zytkow, J. 1996. Knowledge Discovery in Databases Terminology. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 569–588. Menlo Park, Calif.: AAAI Press. Kolodner, J. 1993. Case-Based Reasoning. San Fran- cisco, Calif.: Morgan Kaufmann. Langley, P., and Simon, H. A. 1995. Applications of Machine Learning and Rule Induction. Communica- tions of the ACM 38:55–64. Major, J., and Mangano, J. 1995. Selecting among Rules Induced from a Hurricane Database. Journal of Intelligent Information Systems 4(1): 39–52. Manago, M., and Auriol, M. 1996. Mining for OR. ORMS Today (Special Issue on Data Mining), Febru- ary, 28–32. Mannila, H.; Toivonen, H.; and Verkamo, A. I. 1995. Discovering Frequent Episodes in Sequences. In Proceedings of the First International Confer- ence on Knowledge Discovery and Data Mining (KDD-95), 210–215. Menlo Park, Calif.: American

Association for Artificial Intelligence. Matheus, C.; Piatetsky-Shapiro, G.; and McNeill, D. 1996. Selecting and Reporting What Is Interesting: The KEfiR Application to Healthcare Data. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 495–516. Menlo Park, Calif.: AAAI Press. Pearl, J. 1988. Probabilistic Reasoning in Intelligent Systems. San Francisco, Calif.: Morgan Kaufmann. Piatetsky-Shapiro, G. 1995. Knowledge Discovery in Personal Data versus Privacy—A Mini-Symposium. IEEE Expert 10(5). Piatetsky-Shapiro, G. 1991. Knowledge Discovery in Real Databases: A Report on the IJCAI-89 Workshop. AI Magazine 11(5): 68–70. Piatetsky-Shapiro, G., and Matheus, C. 1994. The Interestingness of Deviations. In Proceedings of KDD-94, eds. U. M. Fayyad and R. Uthurusamy. Technical Report WS-03. Menlo Park, Calif.: AAAI Press. Piatetsky-Shapiro, G.; Brachman, R.; Khabaza, T.; Kloesgen, W.; and Simoudis, E., 1996. An Overview of Issues in Developing Industrial Data Mining and Knowledge Discovery Applications. In Proceedings of the Second International Conference on Knowledge Discovery and Data Mining (KDD-96), eds. J. Han and E. Simoudis, 89–95. Menlo Park, Calif.: American Association for Artificial Intelligence. Quinlan, J. 1992. C4.5: Programs for Machine Learn- ing. San Francisco, Calif.: Morgan Kaufmann. Ripley, B. D. 1994. Neural Networks and Related Methods for Classification. Journal of the Royal Sta- tistical Society B. 56(3): 409–437. Senator, T.; Goldberg, H. G.; Wooton, J.; Cottini, M. A.; Umarkhan, A. F.; Klinger, C. D.; Llamas, W. M.; Marrone, M. P.; and Wong, R. W. H. 1995. The Financial Crimes Enforcement Network AI System (FAIS ): Identifying Potential Money Laundering from Reports of Large Cash Transactions. AI Magazine 16(4): 21–39. Shrager, J., and Langley, P., eds. 1990. Computation- al Models of Scientific Discovery and Theory Forma- tion. San Francisco, Calif.: Morgan Kaufmann. Silberschatz, A., and Tuzhilin, A. 1995. On Subjective Measures of Interestingness in Knowledge Discovery. In Proceedings of KDD-95: First International Conference on Knowledge Discovery and Data Mining, 275–281. Menlo Park, Calif.: American Association for Artificial Intelligence. Silverman, B. 1986. Density Estimation for Statistics and Data Analysis. New York: Chapman and Hall. Simoudis, E.; Livezey, B.; and Kerber, R. 1995. Using Recon for Data Cleaning. In Proceedings of KDD-95: First International Conference on Knowledge Discovery and Data Mining, 275–281. Menlo Park, Calif.: American Association for Artificial Intelligence. Smyth, P.; Burl, M.; Fayyad, U.; and Perona, P. 1996. Modeling Subjective Uncertainty in Image

Annotation. In Advances in Knowledge Discovery and Data Mining, 517– 540. Menlo Park, Calif.: AAAI Press.

Spirtes, P.; Glymour, C.; and Scheines, R. 1993. Causation, Prediction, and Search. New York: Springer-Verlag. Stolorz, P.; Nakamura, H.; Mesrobian, E.; Muntz, R.; Shek, E.; Santos, J.; Yi, J.; Ng, K.; Chien, S.; Mechoso, C.; and Farrara, J. 1995. Fast Spatio-Temporal Data Mining of Large Geophysical Datasets. In Proceedings of KDD-95: First International Conference on Knowledge Discovery and Data Mining, 300–305. Menlo Park, Calif.: American Association for Artificial Intelligence. Titterington, D. M.; Smith, A. F. M.; and Makov, U. E. 1985. Statistical Analysis of FiniteMixture Distributions. Chichester, U.K.: Wiley. U.S. News. 1995. Basketball’s New High-Tech Guru: IBM Software Is Changing Coaches’ Game Plans. U.S. News and World Report, 11 December. Weigend, A., and Gershenfeld, N., eds. 1993. Pre- dicting the Future and

Understanding the Past. Red- wood City, Calif.: Addison-Wesley. Weiss, S. I., and Kulikowski, C. 1991. Computer Sys- tems That Learn: Classification and Prediction Meth- ods from Statistics, Neural Networks, Machine Learn- ing, and Expert Systems. San Francisco, Calif.: Morgan Kaufmann. Whittaker, J. 1990. Graphical Models in Applied Mul- tivariate Statistics. New York: Wiley. Zembowicz, R., and Zytkow, J. 1996. From Contingency Tables to Various Forms of Knowledge in Databases. In Advances in Knowledge Discovery and Data Mining, eds. U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 329–351. Menlo Park, Calif.: AAAI Press.

Usama Fayyad is a senior researcher at Microsoft Research. He received his Ph.D. in 1991 from the University of Michigan at Ann Arbor. Prior to joining Microsoft in 1996, he headed the Machine Learning Systems Group at the Jet Propulsion Laboratory (JPL), California Institute of Technology, where he developed data-mining systems for automated science data analysis. He remains affiliated with JPL as a distinguished visiting scientist. Fayyad received the JPL 1993 Lew Allen Award for Excellence in Research and the 1994 National Aeronautics and Space Administration Exceptional Achievement Medal. His research interests include knowledge discovery in large databases, data mining, machine-learning theory and applications, statistical pattern recognition, and clustering. He was program cochair of KDD-94 and KDD-95 (the First International Conference on Knowledge Discovery and Data Mining). He is general chair of KDD-96, an editor in chief of the journal Data Mining and Knowledge Discovery, and coeditor of the 1996 AAAI Press book Advances in Knowledge Discovery and Da- ta Mining.

Gregory Piatetsky-Shapiro is a Mining (AAAI Press, principal member of the technical 1996). Smyth was a visiting staff at GTE Laboratories and the lecturer in the principal investigator of the Computational and Neural Knowledge Discovery in DatabasSystems and Electries (KDD) Project, which focuses on developing and deploying advanced KDD systems for business applications. Previously, he worked on applying intelligent front ends to heterogeneous databases. Piatetsky-Shapiro received several GTE awards, including GTE’s highest technical achievement award for the KEfiR system for health-care data analysis. His research interests include intelligent database systems, dependency networks, and Internet resource discovery. Prior to GTE, he worked at Strategic Information developing financial database systems. Piatetsky-Shapiro received his M.S. in 1979 and his Ph.D. in 1984, both from New York University (NYU). His Ph.D. dissertation on selforganizing database systems received NYU awards as the best dissertation in computer science and in all natural sciences. Piatetsky- Shapiro organized and chaired the first three (1989, 1991, and 1993) KDD workshops and helped in developing them into successful conferences (KDD95 and KDD-96). He has also been on the program committees of numerous other Title pages due January 6, 1997 conferences and workshops on AI and Papers due January 8, 1997 databases. He edited and coedited several Camera copy due April 2, 1997 collections on KDD, including two books— Knowledge Discovery in Databases (AAAI Press, 1991) and Advances in Knowledge Discovery in Databases (AAAI Press, 1996)— and has many other publications in the areas of AI and databases. He is a coeditor in chief of the Conferences/National/1997/aaai97.html new Data Mining and Knowledge Discovery journal. Piatetsky-Shapiro founded and moderates the KDD Nuggets electronic newsletter ([email protected]) and is the web master for Knowledge Discovery Mine ().

AAAI 97

Providence, Rhode Island July 27–31, 1997

Padhraic Smyth received a firstclass-honors Bachelor of Engineering from the National University of Ireland in 1984 and an MSEE and a Ph.D. from the Electrical Engineering Department at the California Institute of Technology (Caltech) in 1985 and 1988, respectively. From 1988 to 1996, he was a technical group leader at the Jet Propulsion Laboratory (JPL). Since April 1996, he has been a faculty member in the Information and Computer Science Department at the University of California at Irvine. He is also currently a principal investigator at JPL (part-time) and is a consultant to private industry. Smyth received the Lew Allen Award for Excellence in Research at JPL in 1993 and has been awarded 14 National Aeronautics and Space Administration certificates for technical innovation since 1991. He was coeditor of the book Advances in Knowledge Discovery and Data

cal Engineering Departments at Caltech (1994) and regularly conducts tutorials on probabilistic learning algorithms at national conferences (including UAI-93, AAAI-94, CAIA-95, IJCAI-95). He is general chair of the Sixth International Workshop on AI and Statistics, to be held in 1997. Smyth’s research interests include statistical pattern recognition,

machine learning, decision theory, probabilistic reasoning, information theory, and the application of probability and statistics in AI. He has published 16 journal papers, 10 book chapters, and 60 conference papers on these topics.

KDD_obligatorio_

Short Description

Description

Comments

We need your help!