agentes inteligentes busq y recu infor

December 18, 2017 | Author: kabillla | Category: Technology, World Wide Web, Databases, Information Retrieval, Internet
Share Embed Donate


Short Description

Download agentes inteligentes busq y recu infor...

Description

Agentes inteligentes en la búsqueda y recuperación de información

Pablo Lara Navarra José Angel Martínez Usero

PLANETA UOC

Agentes inteligentes en la búsqueda y recuperación de información

Primera edición: julio 2004 Segunda edición, revisada y ampliada: julio 2006 © Planeta- UOC, S.L. © Pablo Lara Navarra, José Ángel Martínez Usero

Av. Tibidabo, 39-43, 08035 Barcelona

ISBN 84-9707-571-4

Ninguna parte de esta publicación, incluido el diseño general y la cubierta, puede ser copiada, reproducida, almacenada o transmitida de ninguna forma, ni por ningún medio, sea éste eléctrico, químico, mecánico, óptico, grabación, fotocopia, o cualquier otro, sin la previa autorización escrita de los titulares del copyright.

© Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

2

Agentes inteligentes en la búsqueda y recuperación de información

Indice de contenidos

Introducción ................................................................................................ 5 1. Los motores de búsqueda y la recuperación de la información ......................... 6 1.1. El lenguaje de interrogación ................................................................. 6 1.1.1. Operadores lógicos o booleanos ...................................................... 6 1.1.2. Operadores posicionales ................................................................ 8 1.1.2.1. Operadores posicionales relativos.............................................. 8 1.1.2.2. Operadores posicionales absolutos ............................................ 9 1.1.3. Operadores de truncamiento y de límite/comparación ....................... 9 1.2. Las herramientas de recuperación de información web ........................... 10 1.2.1. Tipos de herramientas de búsqueda y recuperación ......................... 11 1.2.1.1. Los directorios o índices temáticos .......................................... 11 1.2.1.2. Los motores de búsqueda ...................................................... 12 1.2.1.3. Los agentes inteligentes ........................................................ 12 1.2.2. Funcionamiento de los motores de búsqueda .................................. 14 1.2.3. Los metabuscadores ................................................................... 15 1.2.4. Tendencia actual de los motores de búsqueda................................. 15 1.3. La Infranet o Internet invisible............................................................ 16 1.3.1. Los recursos de la Internet invisible............................................... 16 1.3.2. La recuperación de la información en la Internet invisible ................. 17 1.4. Bibliografía ...................................................................................... 18 1.5. Casos prácticos ................................................................................ 21 1.5.1. Caso práctico 1. Evaluación de motores de búsqueda....................... 21 1.5.2. Caso práctico 2. Selección de un motor de búsqueda ....................... 24 1.6. Anexo. Introducción a Google ............................................................. 26 2. El posicionamiento en los motores de búsqueda ......................................... 31 2.1. Concepto de posicionamiento web....................................................... 31 © Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

3

Agentes inteligentes en la búsqueda y recuperación de información 2.2. Criterios básicos para el posicionamiento ............................................. 31 2.2.1. Criterios de optimización internos a la página web........................... 32 2.2.2. Criterios de optimización externos a la página web .......................... 34 2.3. Los metadatos y el posicionamiento web .............................................. 35 2.3.1. Concepto de metadatos ............................................................... 35 2.3.2. La función de los metadatos en la recuperación de información ......... 37 2.3.2.1. La iniciativa Dublin Core ........................................................ 38 2.3.2.2. Los elementos Dublin Core..................................................... 38 2.4. La optimización de las palabras clave .................................................. 39 2.5. La planificación de un proyecto de posicionamiento ............................... 41 2.5.1. Plan de posicionamiento .............................................................. 41 2.5.2. Alta en los principales buscadores ................................................. 41 2.5.3. Enlaces patrocinados................................................................... 42 2.5.4. Servicios de consultoría ............................................................... 43 2.6. Bibliografía ...................................................................................... 44 2.7. Caso práctico: Plan de posicionamiento web ......................................... 45 3. Los agentes inteligentes de información ..................................................... 50 3.1. Concepto de agente inteligente........................................................... 50 3.2. Características de los agentes............................................................. 51 3.3. Aplicaciones de los agentes ............................................................... 51 3.4. Clasificación de los agentes inteligentes ............................................... 53 3.5. Los agentes de recuperación semántica de la información....................... 54 3.6. Bibliografía ...................................................................................... 55 3.7. Caso práctico. Comparación Google versus Copernic .............................. 58

© Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

4

Agentes inteligentes en la búsqueda y recuperación de información

Introducción Los mayores motores de búsqueda apenas cubren un 20-25% del web, mientras que los principales índices es dudoso que lleguen a un 5%. La desventaja de este ingente volumen de información es que, por razones de celeridad en la respuesta, obliga a limitar las prestaciones de búsqueda de forma que suelen faltar ciertas capacidades avanzadas. Otros problemas importantes derivan de la diferente cobertura de la red (las sedes comerciales y de los países desarrollados están mejor indizadas), el elevado porcentaje de enlaces no activos y la desactualización de los recursos debido a frecuencia de revisión muy baja o inadecuada. Las herramientas de motor de búsqueda están instaladas en el ordenador remoto y por tanto limitadas por restricciones generalmente ajenas al usuario final. Una nueva generación de herramientas y la adopción de nuevas estrategias pueden ayudar significativamente, así como el reconocimiento de nuevas realidades y el descubrimiento

de

fuentes

ocultas

de

datos

relevantes

hasta

la

fecha

frecuentemente infrautilizados. Las herramientas de segunda generación, instaladas en el ordenador cliente son capaces de tratar con grandes volúmenes de información, automatizando tareas que incrementan la productividad final de los recursos recuperados.

© Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

5

Agentes inteligentes en la búsqueda y recuperación de información

1. Los motores de búsqueda y la recuperación de la información La recuperación de la información (RI) es una operación en la que se interpreta una necesidad de información de un usuario y se seleccionan los documentos más relevantes capaces de solucionarla. En el contexto de Internet, se puede definir el objetivo de la recuperación como la identificación de una o más referencias de páginas web que resulten relevantes para satisfacer una necesidad de información.

1.1. El lenguaje de interrogación Un lenguaje de interrogación es el conjunto de opciones (órdenes, operadores y estructuras) que, organizados según normas lógicas, permiten la consulta de los recursos de información mediante una expresión, llamada ecuación de búsqueda. Las órdenes son aquellas palabras o abreviaturas que indican al sistema las acciones a ejecutar (buscara la expresión, mostrar los registros resultantes de una búsqueda, ejecutar un perfil de usuario...) Los operadores son los encargados de expresar las relaciones que mantienen entre sí los términos que pueden definir las necesidades informativas del usuario. Si bien inicialmente las ecuaciones de búsqueda se formulaban mediante la formulación textual de expresiones, la implantación de interfaces gráficas a partir de los años 80 llevó al uso de nuevos entornos de selección, donde el usuario sólo debe introducir los términos y guiarse por un sistema de botones y menús desplegables. 1.1.1. Operadores lógicos o booleanos Llamados así en honor a George Boole, matemático del siglo XIX que fue el precursor de la lógica simbólica y el álgebra de Boole (teoría de conjuntos), es uno de los métodos más extendidos de especificar las búsquedas en la mayoría de sistemas. Se basan en tres operaciones lógicas básicas:

Intersección de conjuntos :AND/ Y

Operador que indica que deben estar

incluidos en los resultados de la búsqueda los términos unidos por esta partícula.

Es

un

operador

restrictivo,

puesto

que

elimina

aquellos

documentos en los que no aparecen todos los términos de la expresión de búsqueda. © Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

6

Agentes inteligentes en la búsqueda y recuperación de información Ejemplo: bullseye AND copernic, indica que deben aparecer en el documento las dos palabras si no es así se excluirá el documento.

Unión o suma de conjuntos : OR / O Indica que cualquiera de las palabras que estén unidos por este operador debe aparecer en el documento, las restantes no tienen que estar presentes. Es un operador de ampliación, pues sólo deberá aparecer uno o alguno de los términos de la expresión de búsqueda. Ejemplo: bullseye OR copernic, puede aparecer en el documento la palabra bullseye o copernic o ambas

Exclusión de conjuntos: NO/ AND NOT Operador que excluye de un documento la palabra no deseada. Es un operador de restricción, pues se seleccionan aquellos documentos que contienen el primer término de búsqueda, pero no el segundo.

Ejemplo: Knowbots AND NOT copernic, recupera todos los documentos que contengan la palabra Knowbots pero que no contengan la palabra copernic.

En la elaboración de una ecuación de búsqueda es habitual la combinación de más de uno de estos operadores, por lo que será necesario conocer en profundidad el sistema para saber las prioridades a la hora de su ejecución, puesto que los © Pablo Lara Navarra, José Ángel Martínez Usero © Planeta UOC, S.L. 7 ISBN 84-9707-571-4

Agentes inteligentes en la búsqueda y recuperación de información resultados pueden variar sustancialmente. A menudo, estas prioridades vienen marcadas por el uso de paréntesis, de manera que se ejecuta en primer lugar el operador que une los términos que están entre paréntesis. Ejemplo: (bullseye OR copernic OR lexibot) AND (agentes inteligentes), recupera los documentos que contengan los terminos agentes inteligentes y copernic o bullseye o lexibot. 1.1.2. Operadores posicionales Los operadores posicionales toman como partida la posición del término en relación a su contexto, es decir, en relación a los otros términos y al documento. Estos operadores se pueden dividir en dos tipos: los relativos y los absolutos.

1.1.2.1. Operadores posicionales relativos

A menudo llamados operadores de adyacencia o proximidad. Permiten definir al sistema de búsqueda la distancia que puede existir entre un término y otro. Se pueden buscar términos que estén juntas, separadas por varias palabras o caracteres, que se encuentren en una misma frase o un mismo párrafo, e incluso si se debe o no respetar el orden de los términos. Existe una gran variedad de operadores de adyacencia, y expresan diferentes situaciones según los sistemas. NEAR, operador que obliga a estar a un número determinado de distancia las palabras claves a recuperar. Este número varía en función de los diferentes programas de recuperación de la información: así, por ejemplo, mientras en Altavista significa un máximo de 10 palabras entre los términos, en WebCrawler significa un máximo de 2 palabras. Ejemplo: bullseye NEAR copernic recupera

textos con frases como

“bullseye es mejor que copernic” o “copernic tiene más motores que bullseye” NEAR/N, realiza la misma operación que NEAR, pero N es sustituido por la distancia en palabras que deben estar separados los términos de búsqueda. Ejemplo: bullseye NEAR/5 copernic, recupera todos los documentos que aparezcan los dos terminos y cuya separación no sea mayor a cinco palabras. Otra posibilidad es hacer una búsqueda de una frase exacta. Consiste en la intersección de las palabras de búsqueda que además están adyacentes y en © Pablo Lara Navarra, José Ángel Martínez Usero

ISBN 84-9707-571-4

© Planeta UOC, S.L.

8

Agentes inteligentes en la búsqueda y recuperación de información el orden en que se describen. “ ”, emplear las comillas expresa, que debe aparecer la frase exacta y en el mismo orden. Ejemplo: “comparación de agentes inteligentes”, tiene que aparecer esta frase en los documentos para que sean recuperados.

1.1.2.2. Operadores posicionales absolutos

Se trata de operadores que permiten buscar el o los términos en un lugar determinado del documento. En general, son operadores delimitadores de un campo. Link: recupera todos los links que contenga el término buscado. Ejemplo: Link:“agentes inteligentes”, recupera todos los links que contenga la frase exacta agentes inteligentes. Title, recupera en los títulos de web, correos, etc., la palabra/s deseadas. Ejemplo: Title:“agentes inteligentes”, recupera únicamente del título la frase exacta. Url, busca url que contengan los términos de la ecuación de búsqueda. Ejemplo: Url:“ugr.es”, presenta todos las páginas web de la Universidad de Granada. Body, recupera del cuerpo del documento el conjunto de palabras deseadas. Ejemplo: Body:“agentes inteligentes”, recupera del cuerpo del documento únicamente la frase exacta de la ecuación de búsqueda.

1.1.3. Operadores de truncamiento y de límite/comparación

Operadores de comparación o de rango. Limitan la búsqueda mediante una expresión que establece un rango de valores, especialmente numéricos. Corresponden a formas tipo “igual que”(simbolizado por =, EQ), “mayor que”

(simbolizado por >, GT), “menor que”( simbolizado por
View more...

Comments

Copyright ©2017 KUPDF Inc.
SUPPORT KUPDF